Как мне разобрать HTML с помощью регулярных выражений в C#?

Question

Как мне разобрать HTML с помощью регулярных выражений в C#?

Например, данный код HTML

<s2> t1 </s2>  <img src='1.gif' />  <span> span1 <span/>

Я пытаюсь получить

1.  <s2>
2.  t1
3. </s2>
4. <img src='1.gif' />
5. <span>
6. span1
7. <span/>

Как мне сделать это с помощью регулярных выражений в C#?

В моем случае, ввод HTML не является правильно сформированным XML, как XHTML. Поэтому я не могу использовать парсеры XML для этого.

0

c# html regex parsing

Источник

user40919 15 окт '09 в 01:51

5 ответов

Решение

Регулярные выражения - очень плохой способ разбора HTML. Если вы можете гарантировать, что ваши входные данные будут иметь правильно сформированный XML (т.е. XHTML), вы можете использовать XmlReader для чтения элементов, а затем распечатывать их по своему усмотрению.

6

Источник

user161201 15 окт '09 в 01:57

На это уже отвечали буквально десятки раз, но стоит повторить: регулярные выражения могут анализировать только регулярные языки, поэтому они называются регулярными выражениями. HTML не является обычным языком (как, наверное, каждый студент колледжа за последнее десятилетие доказал хотя бы один раз), и поэтому не может быть проанализирован с помощью регулярных выражений.

4

Источник

user2988 15 окт '09 в 02:36

Возможно, вы захотите попробовать Html Agility Pack, http://www.codeplex.com/htmlagilitypack. Он даже обрабатывает искаженный HTML.

3

Источник

user77814 15 окт '09 в 02:12

Вы можете просто использовать строковые функции. сделать <и> в качестве вашего индикатора для разбора.

-3

Источник

user82350 15 окт '09 в 02:33

Другие вопросы по тегам c# html regex parsing

user40919 15 окт '09 в 03:05 2009-10-15 03:05 · Accepted Answer · 2009-10-15 03:05

Я использовал этот regx в C#, и он работает. Спасибо за все ваши ответы.

<([^<]*)>|([^<]*)

0

Источник

user40919 15 окт '09 в 03:05