Использовать HtmlTidy Managed для части HTML
Я использую эту библиотеку обертку для HtmlTidy в.net
https://github.com/markbeaton/TidyManaged
это простой пример:
using System;
using TidyManaged;
public class Test
{
public static void Main(string[] args)
{
using (Document doc = Document.FromString("<hTml><title>test</tootle> <body>asd</body>"))
{
doc.ShowWarnings = false;
doc.Quiet = true;
doc.OutputXhtml = true;
doc.CleanAndRepair();
string parsed = doc.Save();
Console.WriteLine(parsed);
}
}
}
я хочу использовать библиотеку для фрагмента HTML, а не для полной страницы с тегами "html" и "body" это возможно?
я в основном хочу проверить открывающие и закрывающие теги и т. д. и удалять теги без соответствующего открытия, любой другой замечательный инструмент будет хорош.
2 ответа
Я нашел ответ на это с помощью:
doc.OutputBodyOnly = AutoBool.Yes;
но в результате я получаю символы на гибрише вместо UTF-8 (я использую символы на иврите) и обнаруживаю, что это открытая ошибка 3-х летней давности.... https://github.com/markbeaton/TidyManaged/issues/2 это не решило проблему: doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8; doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;
@ Оскар, я проверю твою рекомендацию, спасибо
У меня были хорошие результаты в прошлом с Tidy.Net