Лучший видимый контент-экстрактор
Поэтому моему приложению необходим видимый контент по заданному URL-адресу, например, текстовая часть, без HTML, без заголовка или данных нижнего колонтитула. На данный момент я использую Beautifulsoup и Bourpipe для получения того же. Но в некоторых редких случаях я не получаю достаточно данных или правильных данных. Так было интересно, есть ли другой конкурент, язык программирования не является препятствием.
1 ответ
Я бы посоветовал xpath
или же css
экстракторы непосредственно для извлечения контента, оба селектора уже просто реализованы на parsel
модуль.
Для полного набора веб-сканирования + экстрактор контента, scrapy
будет моим предпочтительным вариантом.
И если вы хотите извлечь, чтобы визуально выбрать, какие части HTML, чтобы извлечь, я бы порекомендовал portia
,
Надеюсь, что это помогло.