Описание тега html-parsing
Синтаксический анализ HTML - это процесс сериализации HTML-документа и создания представления, с которым вы можете работать программно, например, чтобы извлечь из него данные. Спецификация HTML определяет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.
Анализ HTML обычно включает преобразование документа HTML в объектную модель документа (DOM) на основе дерева.
https://html.spec.whatwg.org/multipage/parsing.html имеет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.
См. Также синтаксический анализ.
- синоним: htmlparser
- wiki: Сравнение парсеров HTML
- блог: Джефф Этвуд, почему вам следует избегать регулярных выражений для синтаксического анализа HTML
- Сообщение SO: Как вы анализируете и обрабатываете HTML/XML в PHP? Взаимодействие с другими людьми
- Разбор HTML и XML способом lxml API