Как сохранить разрывы строк при использовании jsoup для преобразования html в обычный текст?

Question

Как сохранить разрывы строк при использовании jsoup для преобразования html в обычный текст?

У меня есть следующий код:

 public class NewClass {
     public String noTags(String str){
         return Jsoup.parse(str).text();
     }


     public static void main(String args[]) {
         String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +
         "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

         NewClass text = new NewClass();
         System.out.println((text.noTags(strings)));
}

И у меня есть результат:

hello world yo googlez

Но я хочу нарушить черту:

hello world
yo googlez

Я посмотрел на jsoup TextNode#getWholeText(), но я не могу понять, как его использовать.

Если есть <br> в разметке, которую я анализирую, как я могу получить разрыв строки в моем результате вывода?

114

java jsoup

Источник

user704726 12 апр '11 в 19:11

15 ответов

Другие вопросы по тегам java jsoup

user121196 26 окт '13 в 02:57 2013-10-26 02:57 · Answer 1 · 2013-10-26 02:57

Реальное решение, которое сохраняет разрывы строк, должно быть таким:

public static String br2nl(String html) {
    if(html==null)
        return html;
    Document document = Jsoup.parse(html);
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing
    document.select("br").append("\\n");
    document.select("p").prepend("\\n\\n");
    String s = document.html().replaceAll("\\\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}

Он удовлетворяет следующим требованиям:

если исходный HTML содержит символ новой строки (\n), он сохраняется
если исходный HTML содержит теги br или p, они переводятся на новую строку (\n).

user329903 17 май '11 в 13:26 2011-05-17 13:26 · Answer 2 · 2011-05-17 13:26

С

Jsoup.parse("A\nB").text();

у вас есть выход

"A B"

и не

A

B

Для этого я использую:

descrizione = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text();
text = descrizione.replaceAll("br2n", "\n");

46

Источник

user329903 17 май '11 в 13:26

user2312274 23 апр '13 в 16:46 2013-04-23 16:46 · Answer 3 · 2013-04-23 16:46

Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));

Мы используем этот метод здесь:

public static String clean(String bodyHtml,
                       String baseUri,
                       Whitelist whitelist,
                       Document.OutputSettings outputSettings)

Проходя это Whitelist.none() мы уверены, что весь HTML удален.

Прохождение new OutputSettings().prettyPrint(false) мы следим за тем, чтобы выходные данные не переформатировались, а разрывы строк сохранялись.

user1767167 17 май '18 в 14:04 2018-05-17 14:04 · Answer 4 · 2018-05-17 14:04

На Jsoup v1.11.2 теперь мы можем использовать Element.wholeText(),

Пример кода:

String cleanString = Jsoup.parse(htmlString).wholeText();

user121196's ответ все еще работает. Но wholeText() сохраняет выравнивание текстов.

35

Источник

user1767167 17 май '18 в 14:04

user2516915 24 июн '13 в 15:42 2013-06-24 15:42 · Answer 5 · 2013-06-24 15:42

Попробуйте это с помощью jsoup:

public static String cleanPreserveLineBreaks(String bodyHtml) {

    // get pretty printed html with preserved br and p tags
    String prettyPrintedBodyFragment = Jsoup.clean(bodyHtml, "", Whitelist.none().addTags("br", "p"), new OutputSettings().prettyPrint(true));
    // get plain text with preserved line breaks by disabled prettyPrint
    return Jsoup.clean(prettyPrintedBodyFragment, "", Whitelist.none(), new OutputSettings().prettyPrint(false));
}

user1271435 21 сен '17 в 12:49 2017-09-21 12:49 · Answer 6 · 2017-09-21 12:49

Для более сложного HTML ни одно из вышеперечисленных решений не сработало; Мне удалось успешно выполнить преобразование, сохранив разрывы строк с помощью:

Document document = Jsoup.parse(myHtml);
String text = new HtmlToPlainText().getPlainText(document);

(версия 1.10.3)

11

Источник

user1271435 21 сен '17 в 12:49

user563353 01 авг '13 в 08:53 2013-08-01 08:53 · Answer 7 · 2013-08-01 08:53

Вы можете пройти данный элемент

public String convertNodeToText(Element element)
{
    final StringBuilder buffer = new StringBuilder();

    new NodeTraversor(new NodeVisitor() {
        boolean isNewline = true;

        @Override
        public void head(Node node, int depth) {
            if (node instanceof TextNode) {
                TextNode textNode = (TextNode) node;
                String text = textNode.text().replace('\u00A0', ' ').trim();                    
                if(!text.isEmpty())
                {                        
                    buffer.append(text);
                    isNewline = false;
                }
            } else if (node instanceof Element) {
                Element element = (Element) node;
                if (!isNewline)
                {
                    if((element.isBlock() || element.tagName().equals("br")))
                    {
                        buffer.append("\n");
                        isNewline = true;
                    }
                }
            }                
        }

        @Override
        public void tail(Node node, int depth) {                
        }                        
    }).traverse(element);        

    return buffer.toString();               
}

И для вашего кода

String result = convertNodeToText(JSoup.parse(html))

user381161 19 май '17 в 08:21 2017-05-19 08:21 · Answer 8 · 2017-05-19 08:21

Основываясь на других ответах и комментариях к этому вопросу, кажется, что большинство людей, приезжающих сюда, действительно ищут общее решение, которое обеспечит красиво отформатированное текстовое представление HTML-документа. Я знаю, что был.

К счастью, JSoup уже предоставляет довольно полный пример того, как этого добиться: HtmlToPlainText.java

Пример FormattingVisitor может быть легко настроен по вашему вкусу и имеет дело с большинством элементов блока и переносом строк.

Чтобы избежать гниения ссылок, вот решение Jonathan Hedley в полном объеме:

package org.jsoup.examples;

import org.jsoup.Jsoup;
import org.jsoup.helper.StringUtil;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.nodes.TextNode;
import org.jsoup.select.Elements;
import org.jsoup.select.NodeTraversor;
import org.jsoup.select.NodeVisitor;

import java.io.IOException;

/**
 * HTML to plain-text. This example program demonstrates the use of jsoup to convert HTML input to lightly-formatted
 * plain-text. That is divergent from the general goal of jsoup's .text() methods, which is to get clean data from a
 * scrape.
 * <p>
 * Note that this is a fairly simplistic formatter -- for real world use you'll want to embrace and extend.
 * </p>
 * <p>
 * To invoke from the command line, assuming you've downloaded the jsoup jar to your current directory:</p>
 * <p><code>java -cp jsoup.jar org.jsoup.examples.HtmlToPlainText url [selector]</code></p>
 * where <i>url</i> is the URL to fetch, and <i>selector</i> is an optional CSS selector.
 * 
 * @author Jonathan Hedley, jonathan@hedley.net
 */
public class HtmlToPlainText {
    private static final String userAgent = "Mozilla/5.0 (jsoup)";
    private static final int timeout = 5 * 1000;

    public static void main(String... args) throws IOException {
        Validate.isTrue(args.length == 1 || args.length == 2, "usage: java -cp jsoup.jar org.jsoup.examples.HtmlToPlainText url [selector]");
        final String url = args[0];
        final String selector = args.length == 2 ? args[1] : null;

        // fetch the specified URL and parse to a HTML DOM
        Document doc = Jsoup.connect(url).userAgent(userAgent).timeout(timeout).get();

        HtmlToPlainText formatter = new HtmlToPlainText();

        if (selector != null) {
            Elements elements = doc.select(selector); // get each element that matches the CSS selector
            for (Element element : elements) {
                String plainText = formatter.getPlainText(element); // format that element to plain text
                System.out.println(plainText);
            }
        } else { // format the whole doc
            String plainText = formatter.getPlainText(doc);
            System.out.println(plainText);
        }
    }

    /**
     * Format an Element to plain-text
     * @param element the root element to format
     * @return formatted text
     */
    public String getPlainText(Element element) {
        FormattingVisitor formatter = new FormattingVisitor();
        NodeTraversor traversor = new NodeTraversor(formatter);
        traversor.traverse(element); // walk the DOM, and call .head() and .tail() for each node

        return formatter.toString();
    }

    // the formatting rules, implemented in a breadth-first DOM traverse
    private class FormattingVisitor implements NodeVisitor {
        private static final int maxWidth = 80;
        private int width = 0;
        private StringBuilder accum = new StringBuilder(); // holds the accumulated text

        // hit when the node is first seen
        public void head(Node node, int depth) {
            String name = node.nodeName();
            if (node instanceof TextNode)
                append(((TextNode) node).text()); // TextNodes carry all user-readable text in the DOM.
            else if (name.equals("li"))
                append("\n * ");
            else if (name.equals("dt"))
                append("  ");
            else if (StringUtil.in(name, "p", "h1", "h2", "h3", "h4", "h5", "tr"))
                append("\n");
        }

        // hit when all of the node's children (if any) have been visited
        public void tail(Node node, int depth) {
            String name = node.nodeName();
            if (StringUtil.in(name, "br", "dd", "dt", "p", "h1", "h2", "h3", "h4", "h5"))
                append("\n");
            else if (name.equals("a"))
                append(String.format(" <%s>", node.absUrl("href")));
        }

        // appends text to the string builder with a simple word wrap method
        private void append(String text) {
            if (text.startsWith("\n"))
                width = 0; // reset counter if starts with a newline. only from formats above, not in natural text
            if (text.equals(" ") &&
                    (accum.length() == 0 || StringUtil.in(accum.substring(accum.length() - 1), " ", "\n")))
                return; // don't accumulate long runs of empty spaces

            if (text.length() + width > maxWidth) { // won't fit, needs to wrap
                String words[] = text.split("\\s+");
                for (int i = 0; i < words.length; i++) {
                    String word = words[i];
                    boolean last = i == words.length - 1;
                    if (!last) // insert a space if not the last word
                        word = word + " ";
                    if (word.length() + width > maxWidth) { // wrap and reset counter
                        accum.append("\n").append(word);
                        width = word.length();
                    } else {
                        accum.append(word);
                        width += word.length();
                    }
                }
            } else { // fits as is, without need to wrap text
                accum.append(text);
                width += text.length();
            }
        }

        @Override
        public String toString() {
            return accum.toString();
        }
    }
}

user7277529 08 сен '17 в 19:38 2017-09-08 19:38 · Answer 9 · 2017-09-08 19:38

Попробуйте это с помощью jsoup:

    doc.outputSettings(new OutputSettings().prettyPrint(false));

    //select all <br> tags and append \n after that
    doc.select("br").after("\\n");

    //select all <p> tags and prepend \n before that
    doc.select("p").before("\\n");

    //get the HTML from the document, and retaining original new lines
    String str = doc.html().replaceAll("\\\\n", "\n");

4

Источник

user7277529 08 сен '17 в 19:38

user873708 24 июл '14 в 04:53 2014-07-24 04:53 · Answer 10 · 2014-07-24 04:53

text = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text();
text = descrizione.replaceAll("br2n", "\n");

работает, если сам HTML не содержит "br2n"

Так,

text = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "<pre>\n</pre>")).text();

работает надежнее и проще.

4

Источник

user873708 24 июл '14 в 04:53

user166538 12 апр '11 в 20:08 2011-04-12 20:08 · Answer 11 · 2011-04-12 20:08

Попробуй это:

public String noTags(String str){
    Document d = Jsoup.parse(str);
    TextNode tn = new TextNode(d.body().html(), "");
    return tn.getWholeText();
}

3

Источник

user166538 12 апр '11 в 20:08

user567987 05 июн '16 в 12:59 2016-06-05 12:59 · Answer 12 · 2016-06-05 12:59

Это моя версия перевода html в текст (модифицированная версия ответа user121196, на самом деле).

Это не только сохраняет разрывы строк, но также форматирует текст и удаляет излишние разрывы строк, экранирующие символы HTML, и вы получите намного лучший результат из своего HTML (в моем случае я получаю его из почты).

Первоначально он написан на Scala, но вы можете легко изменить его на Java

def html2text( rawHtml : String ) : String = {

    val htmlDoc = Jsoup.parseBodyFragment( rawHtml, "/" )
    htmlDoc.select("br").append("\\nl")
    htmlDoc.select("div").append("\\nl")
    htmlDoc.select("p").prepend("\\nl\\nl")
    htmlDoc.select("p").append("\\nl\\nl")

    org.jsoup.parser.Parser.unescapeEntities(
        Jsoup.clean(
          htmlDoc.html(),
          "",
          Whitelist.none(),
          new org.jsoup.nodes.Document.OutputSettings().prettyPrint(true)
        ),false
    ).
    replaceAll("\\\\nl", "\n").
    replaceAll("\r","").
    replaceAll("\n\\s+\n","\n").
    replaceAll("\n\n+","\n\n").     
    trim()      
}

user11699 18 сен '13 в 17:02 2013-09-18 17:02 · Answer 13 · 2013-09-18 17:02

Использование textNodes() чтобы получить список текстовых узлов. Затем объединить их с \n в качестве разделителя. Вот некоторый код Scala, который я использую для этого, порт Java должен быть легким:

val rawTxt = doc.body().getElementsByTag("div").first.textNodes()
                    .asScala.mkString("<br />\n")

3

Источник

user11699 18 сен '13 в 17:02

user319773 31 май '16 в 18:14 2016-05-31 18:14 · Answer 14 · 2016-05-31 18:14

На основании ответа пользователя 121196 и Зеленого Берета с selectс и <pre>s, единственное решение, которое работает для меня:

org.jsoup.nodes.Element elementWithHtml = ....
elementWithHtml.select("br").append("<pre>\n</pre>");
elementWithHtml.select("p").prepend("<pre>\n\n</pre>");
elementWithHtml.text();

1

Источник

user319773 31 май '16 в 18:14

user1510996 25 янв '14 в 18:48 2014-01-25 18:48 · Answer 15 · 2014-01-25 18:48

/**
 * Recursive method to replace html br with java \n. The recursive method ensures that the linebreaker can never end up pre-existing in the text being replaced.
 * @param html
 * @param linebreakerString
 * @return the html as String with proper java newlines instead of br
 */
public static String replaceBrWithNewLine(String html, String linebreakerString){
    String result = "";
    if(html.contains(linebreakerString)){
        result = replaceBrWithNewLine(html, linebreakerString+"1");
    } else {
        result = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", linebreakerString)).text(); // replace and html line breaks with java linebreak.
        result = result.replaceAll(linebreakerString, "\n");
    }
    return result;
}

Используется при вызове с указанным html, содержащим br, вместе с любой строкой, которую вы хотите использовать в качестве временного заполнителя новой строки. Например:

replaceBrWithNewLine(element.html(), "br2n")

Эта рекурсия гарантирует, что строка, которую вы используете в качестве заполнителя новой строки / переноса строки, никогда не будет фактически находиться в исходном html, поскольку будет продолжать добавлять "1", пока строка заполнителя переходов по ссылкам не будет найдена в html. У него не будет проблемы с форматированием, с которой методы Jsoup.clean сталкиваются со специальными символами.