Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika
Я должен проанализировать несколько веб-сайтов необработанных данных и хочу получить только текст основной истории. На многих страницах я также наблюдал некоторые боковые панели (например, эту страницу в реальном времени). Когда я анализирую документ, чтобы получить основной текст тела, также появляется содержимое боковых панелей, чего я не хочу. Я использую Тику, чтобы получить текст. Есть ли способ полностью игнорировать боковые панели, используя Tika или любой другой парсер?