DOT NET код для преобразования HTML в текст
Я создаю небольшой алгоритм для извлечения текста с веб-сайтов.. затем найду ответы (опубликую сценарий после завершения).
Для этого мне нужно конвертировать весь HTML-код внутри и в простой читаемый английский текст.
Я вручную удалил все HTML-теги, но от некоторых записей CSS трудно избавиться. Любые простые идеи о том, как преобразовать HTML в простой английский текст?
Благодарю.
2 ответа
Решение
Я разработал нечто подобное, избегая снижения производительности Regex: эквивалент strip_tags для ASP.NET (может также запускаться на настольных сборках.NET)