Использовать HtmlTidy Managed для части HTML

Я использую эту библиотеку обертку для HtmlTidy в.net

https://github.com/markbeaton/TidyManaged

это простой пример:

using System;
using TidyManaged;

public class Test
{
 public static void Main(string[] args)
 {
   using (Document doc = Document.FromString("<hTml><title>test</tootle>     <body>asd</body>"))
   {
  doc.ShowWarnings = false;
  doc.Quiet = true;
  doc.OutputXhtml = true;
  doc.CleanAndRepair();
  string parsed = doc.Save();
  Console.WriteLine(parsed);
  }
 }
}

я хочу использовать библиотеку для фрагмента HTML, а не для полной страницы с тегами "html" и "body" это возможно?

я в основном хочу проверить открывающие и закрывающие теги и т. д. и удалять теги без соответствующего открытия, любой другой замечательный инструмент будет хорош.

2 ответа

Я нашел ответ на это с помощью:

 doc.OutputBodyOnly = AutoBool.Yes;

но в результате я получаю символы на гибрише вместо UTF-8 (я использую символы на иврите) и обнаруживаю, что это открытая ошибка 3-х летней давности.... https://github.com/markbeaton/TidyManaged/issues/2 это не решило проблему: doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8; doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;

@ Оскар, я проверю твою рекомендацию, спасибо

У меня были хорошие результаты в прошлом с Tidy.Net

http://sourceforge.net/projects/tidynet/

Другие вопросы по тегам