Разбор HTML-содержимого в неправильном формате C#

Question

Разбор HTML-содержимого в неправильном формате C#

Возвращенные данные html имеют неправильный формат, я получил их от Fiddler, и теперь я хочу проанализировать эти неверные данные формата, я попытался использовать Fizzler для их анализа, но он не может прочитать класс или id тегов div из-за неправильного Формат: вот мои данные HTML:

Я использовал Regex, чтобы обрезать корень (resposta =), чтобы получить только HTML-контент, но все же он не сработал для анализа. (Регулярное выражение: resposta\s=\s"(?(.|\ N)\*.*)")

Я предполагаю, что из-за символа \ в html-содержимом парсер не может разобрать содержимое с помощью \

Я привел здесь одну небольшую часть возвращаемых данных HTML:

resposta = "<div style=\" margin-top:10px;width: 100%; position:relative;height:56px;\"><a href=\"\/WebsiteRoot\/v2\/?hotelinfo&ss=433&landingpage=hfofertafranca\" rel=\"nofollow\" title=\"Offre Speciale\" onClick=\"_gaq.push([\'_trackEvent\', \'Banner Promocode Booking\', \'Click\', \'Click idioma fr\',,false]);\" class=\"addlink det\"><img src=\"\/rootimages\/ofertaespecial_fr.png\" height=\"56\" width=\"891\" alt=\"Offre Speciale\"\/><\/a><\/div><div class=\"tabBoxdisp\" style=\"margin-top:10px\"><div class=\"tabtitdisp redondotop\" style=\"color:#FFF; background:#9D293F;\"><div class=\"float-left\"><h2 class=\"upcase size18\">HF F&Eacute;NIX LISBOA<\/h2> Lisboa\/Portugal<\/div><div class=\"float-right text-right\" style=\"width:350px;\"><img src=\"\/rootimages\/icons\/star_white.png\" width=\"14\" height=\"13\" \/><img src=\"\/rootimages\/icons\/star_white.png\" width=\"14\" height=\"13\" \/><img src=\"\/rootimages\/icons

Вот полные данные: http://notepad.cc/share/AReb0eaiqH

Так есть ли в любом случае, что я могу исправить содержимое HTML без \, чтобы он работал для анализатора HTML?

1

c# html parsing fizzler

Источник

user3887214 29 июл '14 в 09:58

1 ответ

Другие вопросы по тегам c# html parsing fizzler

user651716 29 июл '14 в 10:28 2014-07-29 10:28 · Answer 1 · 2014-07-29 10:28

Решение может быть таким же простым, как замена '\"' (кавычка с обратной косой чертой) в ваших данных на" "" (кавычка), например:

data = data.Replace("\\\"","\"");

(Вам также может понадобиться удалить первую и последнюю цитату (если они существуют)).

0

Источник

user651716 29 июл '14 в 10:28