Описание тега html-treebuilder

Парсер, строящий дерево синтаксиса HTML.
2 ответа

Не получается вывод из HTML::TreeBuilder

Я пытаюсь получить целую кучу значений из примерно 3000 HTML-файлов и сохранить их в электронную таблицу. я использую HTML::TreeBuilder обработать HTML и создать электронную таблицу, используя Spreadsheet::WriteExcel, Но мой скрипт не может получить…
03 апр '17 в 19:31
2 ответа

Как разобрать HTML с HTML::TreeBuilder?

Это код, который я хотел бы разобрать [...] <div class="item" style="clear:left;"> <div class="icon" style="background-image:url(http://nwn2db.com/assets/builder/icons/40x40/is_acidsplash.png);"> </div> <h2>Acid Splash</h2…
25 сен '14 в 20:44
2 ответа

HTML::TreeBuilder::XPath findvalue возвращает конкатенацию значений

findvalue Функция в HTML::TreeBuilder::XPath возвращает объединение любых значений, найденных xpath запрос. Почему это происходит, и как объединение значений может быть полезным для всех?
1 ответ

Perl Mechanize идентифицирует содержимое между тегом span внутри определенного тега div

Perl WWW::Mechanize::Firefox успешно извлек содержимое веб-страницы и сохранено в скалярной переменной $content, my $url = 'http://finance.yahoo.com/quote/AAPL/financials?p=AAPL'; $mech->get($url); my $content= $mech->content(); При осмотре $c…
1 ответ

Как получить значение тега HTML, используя HTML::Tree?

Допустим, у меня есть массив, который содержит содержимое тега body, как показано ниже: print Dumper(\@array); $VAR1 = [ <body> <table width=\'100%\' height=\'100%\'> <tr> <td width=\'100%\' height=\'100%\' valign=\'top\'>&lt…
16 мар '14 в 10:57
1 ответ

Доступ к полю структуры (пакет XML)

Я получаю эту структуру, используя HTMLTreeParser, и мне нужно, чтобы текст содержался на странице doc <- htmlTreeParse(url, useInternalNodes = FALSE) doc $file [1] "http://www.google.com/trends/fetchComponent?q=asdf,qwerty&cid=TIMESERIES_GRA…
06 мар '14 в 13:21
1 ответ

ИЛИ соответствует HTML::TreeBuilder функция look_down

Пытаясь соответствовать tr предметы, которые имеют class либо первые три буквы, начинающиеся с eve или же day, Это моя попытка: my @stuff = $p->look_down( _tag => 'tr', class => 'qr/eve*|day*/g' ); foreach (@stuff) { print $_->as_text; }…
30 май '14 в 01:16
2 ответа

Шаблон извлечения Perl из HTML-файла

У меня есть.html файл, полный ссылок, я хотел бы извлечь домены без http:// (так что только часть имени хоста ссылки, например, blah.com) перечислить их и удалить дубликаты. Это то, что я придумал до сих пор - я думаю, что проблема в том, как я пыта…
16 мар '14 в 14:04
1 ответ

HTML::TreeBuilder внутри цикла

Я пытаюсь удалить все элементы таблицы из нескольких файлов HTML. Следующий код отлично работает для одного файла, но при попытке автоматизировать процесс возвращает ошибку не может вызвать метод look_down для неопределенного значения У вас есть реш…
31 янв '16 в 17:23
2 ответа

HTML::TreeBuilder::XPath отсутствует последний тег в результате

use WWW::Mechanize; use HTML::TreeBuilder::XPath; my $mech = new WWW::Mechanize; my $tree = new HTML::TreeBuilder::XPath; my $url = "http://www.elaws.gov.bw/wondersbtree.php"; $mech->get($url); $tree->parse($mech->content()); @nodes = $tree…
31 май '16 в 02:05
2 ответа

Xpath не найдет идентификатор

Я не могу получить узел по его идентификатору. Код прост и должен быть понятен. #!/usr/bin/perl use Encode; use utf8; use LWP::UserAgent; use URI::URL; use Data::Dumper; use HTML::TreeBuilder::XPath; my $url = 'https://www.airbnb.com/rooms/1976460';…
13 сен '14 в 16:17
2 ответа

Разбор HTML с HTML::TreeBuilder

Я хочу проанализировать HTML-страницу. Извлеките значок, описание и тип значка с помощью <div class="row"> <div class="span8"> <table id="badge-list"> <tr> <td style="width: 25px;"></td> <td style="width: 200px…
24 фев '14 в 18:38
1 ответ

Не удается получить содержимое <tbody> при разборе HTML в Perl

Я решил это: получается, что страница, которую я загружал с WWW::Mechanize, использует AJAX для загрузки всего содержимого, которое находится внутри &lt;tbody&gt; поэтому он не загружается, когда я создал переменную $html. Теперь я должен увидеть, к…
10 фев '14 в 22:18
1 ответ

HTML::TreeBuilder каким-то образом объединяет все элементы таблицы, вложенные в тег BODY?

Я пытался проанализировать содержимое какой-либо веб-страницы, используя HTML::TreeBuilder, а затем выполнить ручную XPath-подобную прогулку. Но я получил кое-что действительно странное. Это X-Path, созданный с веб-страницы Chrome Developer Tools: /…
24 ноя '13 в 00:45
1 ответ

WWW:: Механизировать помощь извлечения - PERL

Я пытаюсь автоматизировать извлечение стенограммы, найденной на сайте. Вся расшифровка стенограммы находится между тегами dl, поскольку сайт форматировал интервью в списке описания. Сценарий, который я имею ниже, позволяет мне искать сайт и извлекат…
1 ответ

TreeBuilder Получить встроенные узлы

По сути, мне нужно получить имена и электронные письма от всех этих людей в HTML-коде. &lt;thead&gt; &lt;tr&gt; &lt;th scope="col" class="rgHeader" style="text-align:center;"&gt;Name&lt;/th&gt;&lt;th scope="col" class="rgHeader" style="text-align:ce…
24 мар '17 в 19:48
1 ответ

Проблема Tree Builder с текстом Unicode

Я использую HTML::TreeBuilder извлечь содержимое URL с помощью tree-&gt;lookdown и затем извлечение текстовой части из строки, возвращенной методом lookdown. Моя проблема здесь, когда я читаю этот текст и записываю его в файл, который отображается к…
24 сен '15 в 11:42
2 ответа

Извлечение ссылок в Perl с использованием TreeBuilder

Я работаю над сценарием, чтобы извлечь кучу информации в один файл HTML. Однако у меня возникают трудности с извлечением ТОЛЬКО определенного набора ссылок с рассматриваемой страницы. Вот примерная структура сайта. Есть несколько других заголовков и…
1 ответ

Perl разделить строку по ссылке на символьную сущность & nbsp;

Быстрый Perl вопрос с, надеюсь, простым ответом. Я пытаюсь выполнить разбиение строки, содержащей неразрывные пробелы (&amp;nbsp;). Это после прочтения в html использование страницы HTML::TreeBuilder::XPath и получение строки, необходимой $titleStri…
0 ответов

WebKit - получение элемента HTML по позиции

Есть ли способ в WebKit получить элемент HTML (из DOM) по его позиции? то есть, говоря, что у меня есть координаты X,Y, я бы хотел "шпионить" за элементом. Я ищу API C++ (в WebKit), а не способ javascript. Благодарю.
05 авг '14 в 13:04