Проблемы с содержимым HTML в сгенерированном PDF

Question

Проблемы с содержимым HTML в сгенерированном PDF

Я генерирую PDF из HTML, но вместо того, чтобы интерпретировать его как обычный текст, мои страницы PDF заполнены HTML-тегами, такими как <p>, <li>, так далее.

0

java html pdf itextpdf

Источник

user2473287 23 июл '13 в 07:46

1 ответ

Решение

Другие вопросы по тегам java html pdf itextpdf

user1899323 23 июл '13 в 07:56 2013-07-23 07:56 · Accepted Answer · 2013-07-23 07:56

Вам нужно будет удалить все теги и удалить специальные символы.

Пример PHP:

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

Пример VB.NET:

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Пример Java:

text = html.replaceAll("<[^>]*>", "");

Для декодирования html-сущностей вы найдете хороший ответ здесь: Java: Как убрать символьные сущности HTML в Java?, В противном случае вы можете просто заменить их, если вы знаете их все ( , "...)