Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika

Я должен проанализировать несколько веб-сайтов необработанных данных и хочу получить только текст основной истории. На многих страницах я также наблюдал некоторые боковые панели (например, эту страницу в реальном времени). Когда я анализирую документ, чтобы получить основной текст тела, также появляется содержимое боковых панелей, чего я не хочу. Я использую Тику, чтобы получить текст. Есть ли способ полностью игнорировать боковые панели, используя Tika или любой другой парсер?

0 ответов

Другие вопросы по тегам