Какой лучший HTML-пакет? Есть ли какая-либо опция в пакете HTML agility pack, чтобы сделать HTML-страницу аккуратной?

Я использую пакет гибкости html для анализа табличной информации html. Теперь есть некоторый html контент с отсутствующими конечными тегами и с такой страницы из-за отсутствующих конечных тегов html пакет agility не анализирует информацию должным образом. Поэтому я хочу вставить конечные теги там, где отсутствуют конечные теги, чтобы html agility pack анализировал информацию должным образом. Итак, чтобы вставить отсутствующие конечные теги, что мне делать? Должен ли я написать свой собственный код для этого или использовать html tidy pack для этого?

Если html tidy pack, то какой самый лучший html tidy pack, и как использовать его в любом примере, если это возможно? А если мой собственный код, то на что он может быть похож?

Есть ли какая- либо опция в html agility pack, которая может помочь нам сначала привести в порядок html-страницу, а затем проанализировать веб-страницу.

1 ответ

Решение

В Html Agility Pack я не смог найти ни одной опции, которая делает HTML-страницу аккуратной. Есть одна опция, которая вставляет отсутствующие закрывающие теги, но она работает только на некоторых html-страницах. Вот вариант в html agility Pack:

  HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.OptionFixNestedTags=true;

Я также попробовал регулярное выражение для этого, но он также работает только для некоторых HTML-страниц.

Итак, я нашел лучший пакет HTML Tidy это:

http://www.devx.com/dotnet/Article/20505/1763/page/2

Мы можем видеть там: как импортировать dll и как использовать этот пакет, также доступен пример кода. Это вообще здорово. Он может вставить отсутствующие закрывающие теги и сделать вашу HTML страницу аккуратной.

Спасибо за помощь всем..

Я нашел HTML Tidy ( http://www.html-tidy.org/), который лучше всех помогает навести порядок и очистить HTML.

Различные двоичные файлы находятся здесь -> http://binaries.html-tidy.org/

Также есть оболочки для HTML Tidy на многих языках. Я использую один под названием TidyHtml5ManagedRepack для C#.

У меня есть особые потребности в очистке плохо сформированного HTML, а также в сравнении его с таким же или похожим HTML, который настраивается с помощью javascript в разных браузерах. HTML Tidy позволяет мне очистить HTML до состояния, в котором он нормальный / нормализованный, чтобы затем я мог сравнить его с тем же HTML, который был настроен другими браузерами, чтобы быть уверенным, что он, скорее всего, такой же.

Другие вопросы по тегам