Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika

Question

Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika

Я должен проанализировать несколько веб-сайтов необработанных данных и хочу получить только текст основной истории. На многих страницах я также наблюдал некоторые боковые панели (например, эту страницу в реальном времени). Когда я анализирую документ, чтобы получить основной текст тела, также появляется содержимое боковых панелей, чего я не хочу. Я использую Тику, чтобы получить текст. Есть ли способ полностью игнорировать боковые панели, используя Tika или любой другой парсер?

0

parsing html-parsing apache-tika tika-server

Источник

user3454410 14 ноя '17 в 05:30

0 ответов

Другие вопросы по тегам parsing html-parsing apache-tika tika-server