Описание тега html-parsing

Синтаксический анализ HTML - это процесс сериализации HTML-документа и создания представления, с которым вы можете работать программно, например, чтобы извлечь из него данные. Спецификация HTML определяет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.
2 ответа

preg_replace заменяет все

Я хочу заменить некоторые HTML-теги пустой строкой и хочу получить только текст. Ниже приведен пример, который я хочу. preg_match_all("/<span id=\"priceblock_ourprice\" class=\"a-size-medium a-color-price\">(.*)<\/span>/U", $content, $ma…
19 апр '14 в 04:58
1 ответ

Python: лучший способ поиска и сбора текстовых строк из HTML. Удалите уценки, теги и т. Д.

Есть много модулей, таких как lxml, Beautiful soup, nltk и pyenchant для правильной фильтрации правильных английских слов. Но тогда какой самый чистый кратчайший путь, как предлагает html2text, также, если уценки также могут быть удалены (хотя я пиш…
05 июн '13 в 17:38
3 ответа

GIF код исключения Regex

У меня есть следующая функция, которая возвращает мне первое изображение поста: $output = preg_match_all('/<img.+src=[\'"]([^\'"]+)[\'"].*>/i', $post->post_content, $matches); однако возвращает мне любое изображение, мне нужно игнорировать …
09 окт '13 в 02:12
0 ответов

Как мне переключить окна с помощью Watir и разобрать это окно с помощью Nokogiri?

Я использую веб-драйвер Watir, чтобы зайти на сайт и открыть все соответствующие ссылки на этом сайте. Затем я хочу проанализировать эти всплывающие окна, используя Nokogiri. via: searchablefile = Nokogiri::HTML.parse(browser.window(:title, /detail/…
2 ответа

BeautifulSoup HTML разбора таблицы

Я пытаюсь проанализировать информацию (HTML-таблицы) с этого сайта: http://www.511virginia.org/RoadConditions.aspx?j=All&r;=1 В настоящее время я использую BeautifulSoup, и код у меня выглядит следующим образом from mechanize import Browser from Bea…
2 ответа

Извлекать текст <td> при использовании WWW::Mechanize для извлечения <a> из этого тега <td>

Я новичок в вещах Perl-HTML. Я пытаюсь получить как тексты, так и ссылки из таблицы HTML. Вот структура HTML: &lt;td&gt;Td-Text &lt;br&gt; &lt;a href="Link-I-Want" title="title-I-Want"&gt;A-Text&lt;/a&gt; &lt;/td&gt; Я понял, что WWW::Mechanize - эт…
10 сен '10 в 21:25
1 ответ

Как удалить некоторые (или все) элементы и / или атрибуты HTML с помощью HTML Agility Pack?

Используя HTML Agility Pack, как я могу удалить все атрибуты HTML, элементы и т. Д. Из двоичного объекта HTML, получив результат, как если бы я вставил его в блокнот? Кроме того, мне нужно удалить все форматирование, но мне нужно сохранить теги UL/L…
28 фев '10 в 17:56
1 ответ

Python- извлечь HTML-таблицу без потери заголовков оси

Q1. Есть ли способ извлечь данные из таблицы, но все же можно отслеживать названия осей? Q2. Какой подход будет лучше извлечь данные из таблицы HTML? HTMLParser или Beautifulsoup или еще? я пытался извлечь эту таблицу доходов http://investing.busine…
2 ответа

Шаблон регулярного выражения для соответствия только ссылкам без www

Я пытаюсь искать только ссылки без www лайк http://google.com, ИЛИ ЖЕ https://facebook.comи т. д. Тогда я хочу добавить www по той же ссылке, так становится http://www.google.com, ИЛИ ЖЕ https://www.facebook.com, так далее. Тем не менее, у меня есть…
02 апр '15 в 18:28
0 ответов

Как заменить спецсимвол из документа HTML

У меня есть строка "© 2015" в моем HTML-документе. Я анализирую HTML-документ, используя TagHandler, opinion_description.setText(Html.fromHtml(description, this, new Html.TagHandler() { @Override public void handleTag(boolean opening, String tag,…
28 сен '15 в 04:37
1 ответ

Регулярное выражение с отрицательным прогнозом и xhtml

У меня есть следующее регулярное выражение, которое выполняет отрицательный прогноз. /\b(\w+)\b(?![^&lt;]*&lt;/{0,1}(a|script|link|img)&gt;)/gsmi То, что я хочу сделать, это сопоставить весь текст, включая html, за исключением сценария, ссылки и img…
17 сен '14 в 15:00
1 ответ

Извлечение данных с веб-сайта

Моя компания использует программное обеспечение CRM онлайн. Мне нужно получить все почтовые адреса клиентов через CRM. Обычно я вхожу в CRM и делаю несколько кликов, набираю "*" в поле имени клиента и, наконец, нажимаю кнопку "Поиск". Это приносит м…
03 окт '13 в 07:45
3 ответа

Как получить все HTML-теги по порядку из HTML-строки в Java

&lt;td valign="top" width="230"&gt; &lt;div&gt; &lt;b&gt;&lt;a href="http://www.cs.cornell.edu/johannes/"&gt;Johannes Gehrke&lt;/a&gt;&lt;/b&gt; &lt;/div&gt; &lt;div class="small"&gt; Professor&lt;br&gt;Computer Science, CS Field Member&lt;br&gt;Dir…
23 ноя '12 в 12:41
2 ответа

Python - Разбор HTML с Tidy

Этот код принимает немного плохого HTML, использует библиотеку Tidy для очистки и затем передает его в HtmlLib.Reader(). import tidy options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0) from xml.dom.ext.reader import HtmlLib reader …
15 окт '10 в 09:35
0 ответов

Сколько знаний о JavaScript/CSS нужно парсеру для разбора HTML?

Если браузер встречает &lt;script&gt; let xyz = '&lt;b&gt;Bold text&lt;/b&gt;'; &lt;/script&gt; Не ставит b теги внутри script элемент DOM. Это подразумевает какой-то особый случай в логике синтаксического анализа браузера, который знает, что нужно …
29 янв '18 в 08:20
2 ответа

Разбор HTML - Как получить число из тега?

Я занимаюсь разработкой приложения для Windows Forms, которое взаимодействует с веб-сайтом. Используя WebBrowser контроль Я контролирую веб-сайт и могу перебирать теги, используя: HtmlDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollecti…
07 апр '11 в 08:39
2 ответа

Могу ли я использовать другой корневой элемент на странице HTML?

Из любопытства я читал статью " Декларация типа документа" в Википедии, когда обнаружил роль HTML в объявлении DOCTYPE: &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"&gt; Согласно Википедии, первый атриб…
11 янв '13 в 06:13
1 ответ

Как получить правильный форматированный текст из HTML, когда теги не имеют разрывов строк

Я пытаюсь проанализировать этот образец HTML-файла с помощью библиотеки Jsoup HTML-разбора. &lt;html&gt; &lt;body&gt; &lt;p&gt; this is sample text&lt;/p&gt; &lt;h1&gt;this is heading sample&lt;/h1&gt; &lt;select name="car" size="1"&gt; &lt;option v…
24 фев '14 в 15:11
1 ответ

Управляемая (.NET) библиотека с HTML Tidy-подобной функциональностью?

Существует ли очиститель HTML для.NET, который может анализировать HTML и (например) преобразовывать его в более удобный для машин формат, такой как XHTML? Я пробовал HTML Agility Pack, но он не может правильно проанализировать даже довольно простые…
27 апр '10 в 11:54
1 ответ

REGEX - Как заменить <br /> на </ p><p>внутри одного абзаца

Это один абзац, который я хочу заменить на : Тест fahfdjfhsdljfhshfsdfsfsdfd fhdsjhfjsfhsjfhskhfshfhdsfskhfhsdf hjhfjshfksdfjshjfhsjkdf Ожидаемый результат: Тест fahfdjfhsdljfhshfsdfsfsdfd <Р> fhdsjhfjsfhsjfhskhfshfhdsfskhfhsdf <Р> hjhfjshfksdfjshjf…
12 мар '15 в 16:42