Лучший видимый контент-экстрактор

Поэтому моему приложению необходим видимый контент по заданному URL-адресу, например, текстовая часть, без HTML, без заголовка или данных нижнего колонтитула. На данный момент я использую Beautifulsoup и Bourpipe для получения того же. Но в некоторых редких случаях я не получаю достаточно данных или правильных данных. Так было интересно, есть ли другой конкурент, язык программирования не является препятствием.

1 ответ

Я бы посоветовал xpath или же css экстракторы непосредственно для извлечения контента, оба селектора уже просто реализованы на parsel модуль.

Для полного набора веб-сканирования + экстрактор контента, scrapy будет моим предпочтительным вариантом.

И если вы хотите извлечь, чтобы визуально выбрать, какие части HTML, чтобы извлечь, я бы порекомендовал portia,

Надеюсь, что это помогло.

Другие вопросы по тегам