DOT NET код для преобразования HTML в текст

Я создаю небольшой алгоритм для извлечения текста с веб-сайтов.. затем найду ответы (опубликую сценарий после завершения).

Для этого мне нужно конвертировать весь HTML-код внутри и в простой читаемый английский текст.

Я вручную удалил все HTML-теги, но от некоторых записей CSS трудно избавиться. Любые простые идеи о том, как преобразовать HTML в простой английский текст?

Благодарю.

2 ответа

Решение

кто-то уже сделал всю работу за вас.

Я разработал нечто подобное, избегая снижения производительности Regex: эквивалент strip_tags для ASP.NET (может также запускаться на настольных сборках.NET)

Другие вопросы по тегам