Trasform TXT, содержащий HTML в обычный текст

Я пытаюсь найти инструмент для анализа TXT-файла, содержащего html, в обычный текст, сохраняя при этом его форматирование, списки и т. Д.

Я смог найти этот http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html который прекрасно работает. Единственная проблема заключается в том, что он читает URL, а не файл. Я попытался внести некоторые изменения в код, но безуспешно

Может кто-нибудь указать мне правильное направление, как заставить его читать мой текстовый файл в качестве входных данных?

1 ответ

Решение

Вы можете начать изучение исходного кода примера программы: https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java

Довольно просто загрузить html из файла вместо URL. JSoup может легко разобрать строку.

пример

String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block

Document doc = Jsoup.parse(content);
//do whatever with the JSoup document
Другие вопросы по тегам