Trasform TXT, содержащий HTML в обычный текст
Я пытаюсь найти инструмент для анализа TXT-файла, содержащего html, в обычный текст, сохраняя при этом его форматирование, списки и т. Д.
Я смог найти этот http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html который прекрасно работает. Единственная проблема заключается в том, что он читает URL, а не файл. Я попытался внести некоторые изменения в код, но безуспешно
Может кто-нибудь указать мне правильное направление, как заставить его читать мой текстовый файл в качестве входных данных?
1 ответ
Решение
Вы можете начать изучение исходного кода примера программы: https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java
Довольно просто загрузить html из файла вместо URL. JSoup может легко разобрать строку.
пример
String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block
Document doc = Jsoup.parse(content);
//do whatever with the JSoup document