Лучший видимый контент-экстрактор

Question

Лучший видимый контент-экстрактор

Поэтому моему приложению необходим видимый контент по заданному URL-адресу, например, текстовая часть, без HTML, без заголовка или данных нижнего колонтитула. На данный момент я использую Beautifulsoup и Bourpipe для получения того же. Но в некоторых редких случаях я не получаю достаточно данных или правильных данных. Так было интересно, есть ли другой конкурент, язык программирования не является препятствием.

1

web-scraping web-crawler screen-scraping html-content-extraction

Источник

user1186904 02 янв '17 в 10:12

1 ответ

Другие вопросы по тегам web-scraping web-crawler screen-scraping html-content-extraction

user858913 02 янв '17 в 13:19 2017-01-02 13:19 · Answer 1 · 2017-01-02 13:19

Я бы посоветовал xpath или же css экстракторы непосредственно для извлечения контента, оба селектора уже просто реализованы на parsel модуль.

Для полного набора веб-сканирования + экстрактор контента, scrapy будет моим предпочтительным вариантом.

И если вы хотите извлечь, чтобы визуально выбрать, какие части HTML, чтобы извлечь, я бы порекомендовал portia,

Надеюсь, что это помогло.