Проблемы с содержимым HTML в сгенерированном PDF

Я генерирую PDF из HTML, но вместо того, чтобы интерпретировать его как обычный текст, мои страницы PDF заполнены HTML-тегами, такими как <p>, <li>, так далее.

1 ответ

Решение

Вам нужно будет удалить все теги и удалить специальные символы.

Пример PHP:

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

Пример VB.NET:

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Пример Java:

text = html.replaceAll("<[^>]*>", "");

Для декодирования html-сущностей вы найдете хороший ответ здесь: Java: Как убрать символьные сущности HTML в Java?, В противном случае вы можете просто заменить их, если вы знаете их все (&nbsp;, &quot;...)

Другие вопросы по тегам