Проблемы с содержимым HTML в сгенерированном PDF
Я генерирую PDF из HTML, но вместо того, чтобы интерпретировать его как обычный текст, мои страницы PDF заполнены HTML-тегами, такими как <p>
, <li>
, так далее.
1 ответ
Решение
Вам нужно будет удалить все теги и удалить специальные символы.
Пример PHP:
$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);
Пример VB.NET:
Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)
Пример Java:
text = html.replaceAll("<[^>]*>", "");
Для декодирования html-сущностей вы найдете хороший ответ здесь: Java: Как убрать символьные сущности HTML в Java?, В противном случае вы можете просто заменить их, если вы знаете их все (
, "
...)