Описание тега html-parsing

Описание тега Вопросы с тегом

Синтаксический анализ HTML - это процесс сериализации HTML-документа и создания представления, с которым вы можете работать программно, например, чтобы извлечь из него данные. Спецификация HTML определяет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.

2 ответа

preg_replace заменяет все

Я хочу заменить некоторые HTML-теги пустой строкой и хочу получить только текст. Ниже приведен пример, который я хочу. preg_match_all("/<span id=\"priceblock_ourprice\" class=\"a-size-medium a-color-price\">(.*)<\/span>/U", $content, $ma…

19 апр '14 в 04:58

1 ответ

Python: лучший способ поиска и сбора текстовых строк из HTML. Удалите уценки, теги и т. Д.

Есть много модулей, таких как lxml, Beautiful soup, nltk и pyenchant для правильной фильтрации правильных английских слов. Но тогда какой самый чистый кратчайший путь, как предлагает html2text, также, если уценки также могут быть удалены (хотя я пиш…

python python-2.7 nltk html-parsing

05 июн '13 в 17:38

3 ответа

GIF код исключения Regex

У меня есть следующая функция, которая возвращает мне первое изображение поста: $output = preg_match_all('/<img.+src=[\'"]([^\'"]+)[\'"].*>/i', $post->post_content, $matches); однако возвращает мне любое изображение, мне нужно игнорировать …

regex html-parsing

09 окт '13 в 02:12

0 ответов

Как мне переключить окна с помощью Watir и разобрать это окно с помощью Nokogiri?

Я использую веб-драйвер Watir, чтобы зайти на сайт и открыть все соответствующие ссылки на этом сайте. Затем я хочу проанализировать эти всплывающие окна, используя Nokogiri. via: searchablefile = Nokogiri::HTML.parse(browser.window(:title, /detail/…

ruby browser html-parsing nokogiri watir-webdriver

16 июл '13 в 11:37

2 ответа

BeautifulSoup HTML разбора таблицы

Я пытаюсь проанализировать информацию (HTML-таблицы) с этого сайта: http://www.511virginia.org/RoadConditions.aspx?j=All&r;=1 В настоящее время я использую BeautifulSoup, и код у меня выглядит следующим образом from mechanize import Browser from Bea…

python beautifulsoup html-table html-parsing mechanize

13 янв '10 в 18:50

2 ответа

Извлекать текст <td> при использовании WWW::Mechanize для извлечения <a> из этого тега <td>

Я новичок в вещах Perl-HTML. Я пытаюсь получить как тексты, так и ссылки из таблицы HTML. Вот структура HTML: <td>Td-Text <br> <a href="Link-I-Want" title="title-I-Want">A-Text</a> </td> Я понял, что WWW::Mechanize - эт…

perl html-parsing perl-module

10 сен '10 в 21:25

1 ответ

Как удалить некоторые (или все) элементы и / или атрибуты HTML с помощью HTML Agility Pack?

Используя HTML Agility Pack, как я могу удалить все атрибуты HTML, элементы и т. Д. Из двоичного объекта HTML, получив результат, как если бы я вставил его в блокнот? Кроме того, мне нужно удалить все форматирование, но мне нужно сохранить теги UL/L…

c# .net html-parsing

28 фев '10 в 17:56

1 ответ

Python- извлечь HTML-таблицу без потери заголовков оси

Q1. Есть ли способ извлечь данные из таблицы, но все же можно отслеживать названия осей? Q2. Какой подход будет лучше извлечь данные из таблицы HTML? HTMLParser или Beautifulsoup или еще? я пытался извлечь эту таблицу доходов http://investing.busine…

html python-2.7 beautifulsoup html-parsing extraction

11 мар '13 в 18:59

2 ответа

Шаблон регулярного выражения для соответствия только ссылкам без www

Я пытаюсь искать только ссылки без www лайк http://google.com, ИЛИ ЖЕ https://facebook.comи т. д. Тогда я хочу добавить www по той же ссылке, так становится http://www.google.com, ИЛИ ЖЕ https://www.facebook.com, так далее. Тем не менее, у меня есть…

php regex expression html-parsing

02 апр '15 в 18:28

0 ответов

Как заменить спецсимвол из документа HTML

У меня есть строка "Ã‚Â© 2015" в моем HTML-документе. Я анализирую HTML-документ, используя TagHandler, opinion_description.setText(Html.fromHtml(description, this, new Html.TagHandler() { @Override public void handleTag(boolean opening, String tag,…

android html html-parsing

28 сен '15 в 04:37

1 ответ

Регулярное выражение с отрицательным прогнозом и xhtml

У меня есть следующее регулярное выражение, которое выполняет отрицательный прогноз. /\b(\w+)\b(?![^<]*</{0,1}(a|script|link|img)>)/gsmi То, что я хочу сделать, это сопоставить весь текст, включая html, за исключением сценария, ссылки и img…

php regex html-parsing

17 сен '14 в 15:00

1 ответ

Извлечение данных с веб-сайта

Моя компания использует программное обеспечение CRM онлайн. Мне нужно получить все почтовые адреса клиентов через CRM. Обычно я вхожу в CRM и делаю несколько кликов, набираю "*" в поле имени клиента и, наконец, нажимаю кнопку "Поиск". Это приносит м…

javascript parsing dom html-parsing

03 окт '13 в 07:45

3 ответа

Как получить все HTML-теги по порядку из HTML-строки в Java

<td valign="top" width="230"> <div> <b><a href="http://www.cs.cornell.edu/johannes/">Johannes Gehrke</a></b> </div> <div class="small"> Professor<br>Computer Science, CS Field Member<br>Dir…

java regex jsoup html-parsing

23 ноя '12 в 12:41

2 ответа

Python - Разбор HTML с Tidy

Этот код принимает немного плохого HTML, использует библиотеку Tidy для очистки и затем передает его в HtmlLib.Reader(). import tidy options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0) from xml.dom.ext.reader import HtmlLib reader …

python html-parsing tidy

15 окт '10 в 09:35

0 ответов

Сколько знаний о JavaScript/CSS нужно парсеру для разбора HTML?

Если браузер встречает <script> let xyz = '<b>Bold text</b>'; </script> Не ставит b теги внутри script элемент DOM. Это подразумевает какой-то особый случай в логике синтаксического анализа браузера, который знает, что нужно …

html parsing html-parsing

29 янв '18 в 08:20

2 ответа

Разбор HTML - Как получить число из тега?

Я занимаюсь разработкой приложения для Windows Forms, которое взаимодействует с веб-сайтом. Используя WebBrowser контроль Я контролирую веб-сайт и могу перебирать теги, используя: HtmlDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollecti…

c# browser html-parsing

07 апр '11 в 08:39

2 ответа

Могу ли я использовать другой корневой элемент на странице HTML?

Из любопытства я читал статью " Декларация типа документа" в Википедии, когда обнаружил роль HTML в объявлении DOCTYPE: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> Согласно Википедии, первый атриб…

html html-parsing doctype

11 янв '13 в 06:13

1 ответ

Как получить правильный форматированный текст из HTML, когда теги не имеют разрывов строк

Я пытаюсь проанализировать этот образец HTML-файла с помощью библиотеки Jsoup HTML-разбора. <html> <body> <p> this is sample text</p> <h1>this is heading sample</h1> <select name="car" size="1"> <option v…

java jsoup html-parsing information-retrieval

24 фев '14 в 15:11

1 ответ

Управляемая (.NET) библиотека с HTML Tidy-подобной функциональностью?

Существует ли очиститель HTML для.NET, который может анализировать HTML и (например) преобразовывать его в более удобный для машин формат, такой как XHTML? Я пробовал HTML Agility Pack, но он не может правильно проанализировать даже довольно простые…

.net html-parsing htmltidy

27 апр '10 в 11:54

1 ответ

REGEX - Как заменить <br /> на </ p><p>внутри одного абзаца

Это один абзац, который я хочу заменить на : Тест fahfdjfhsdljfhshfsdfsfsdfd fhdsjhfjsfhsjfhskhfshfhdsfskhfhsdf hjhfjshfksdfjshjfhsjkdf Ожидаемый результат: Тест fahfdjfhsdljfhshfsdfsfsdfd <Р> fhdsjhfjsfhsjfhskhfshfhdsfskhfhsdf <Р> hjhfjshfksdfjshjf…

html regex html-parsing

12 мар '15 в 16:42