Парсинг новостей URL с удобочитаемостью

Я пытаюсь автоматизировать извлечение данных из URL-адресов новостей с помощью https://zapier.com/ или https://ifttt.com/.

Основная цель - получить красивую версию текста URL-адресов новостей в электронной таблице Google. Попытка использовать функцию типа importXML не удалась, потому что мне нужно анализировать URL с разными структурами.

Я думал о том, чтобы использовать что-то вроде readability.js https://code.google.com/archive/p/arc90labs-readability/downloads чтобы вставить HTML в красивый текст, поскольку zapier допускает фрагменты кода в javascript или python.

Проблема в том, что в zapier вы не можете использовать модули, которые не являются стандартными для этих языков программирования (например, Beautifulsoup), для очистки URL-адресов.

Есть ли шанс, что я смогу передать URL-адрес в код readability.js https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js или сделать вызов API для https://mercury.postlight.com/web-parser/ который возвращает симпатичный текст?

1 ответ

Дэвид здесь, из команды Zapier Platform. Да, это вполне возможно!

Сегодня проще всего сделать POST-запрос к парсеру Mercury, который вернет информацию о статье. Это будет работать в течение нескольких месяцев (пока их API не отключится). Они открыли исходный код своего кода, поэтому, если они вам нравятся (и мне это нравится!), Вы можете обернуть их библиотеку в одноразовое приложение CLI, и Zapier запустит их код для вас. Если честно, я, вероятно, скоро сделаю это для себя, и вы можете использовать это, если хотите! Я обновлю этот ответ, когда он будет готов.

Другие вопросы по тегам