Описание тега html-tree

HTML-Tree - это библиотека Perl для разбора HTML на DOM-подобные деревья. Он включает в себя HTML::TreeBuilder и HTML::Element.
1 ответ

Как переставить HTML-контент с HTML::Treebuilder

Я пишу сценарий для изменения содержания HTML, и я застрял с 2 проблемами. У меня есть эта HTML-структура, которая состоит из названий фильмов и лет выпуска с миниатюрами, сгруппированными в 5 столбцов. Я хочу создавать новые html-файлы с фильмами, …
09 дек '11 в 21:53
1 ответ

Как именно работает "родительская" функция из HTML::TreeBuilder?

Документация по CPAN на самом деле не объясняет это поведение, если я что-то упустил. Я собрал небольшой тестовый код, чтобы проиллюстрировать мою проблему: #!/usr/bin/perl use warnings; use strict; use HTML::TreeBuilder; my $testHtml = " <body&…
31 янв '11 в 11:20
1 ответ

Как получить значение тега HTML, используя HTML::Tree?

Допустим, у меня есть массив, который содержит содержимое тега body, как показано ниже: print Dumper(\@array); $VAR1 = [ <body> <table width=\'100%\' height=\'100%\'> <tr> <td width=\'100%\' height=\'100%\' valign=\'top\'>&lt…
16 мар '14 в 10:57
3 ответа

Как найти только прямых потомков с помощью HTML::TreeBuilder?

Предположим, у меня есть HTML-дерево вроде этого: div `- ul `- li (*) `- li (*) `- li (*) `- li (*) `- ul `- li `- li `- li Как выбрать <li> элементы, отмеченные (*)? Они прямые потомки первого <ul> элемент. Вот как я нахожу первый <u…
14 июл '12 в 23:18
1 ответ

Утечка памяти в HTML::TreeBuilder

У меня есть некоторый код Perl: use HTML::Parse; use HTML::FormatText; # ... my $txtFormatter = HTML::FormatText->new(); while ( ... ) { # some condition my $txt = # get from a file my $html_tree = HTML::TreeBuilder->new_from_content($txt); $t…
05 авг '10 в 17:13
1 ответ

HTML Treebuilder XPath для извлечения ссылок

Я пишу основной скрипт, который просто извлекает все ссылки с веб-страницы. Он написан на Perl и использует модули WWW::Mechanize и HTML::Treebuilder::Xpath, которые я установил через CPAN. Я знаю, что это легко сделать, используя только WWW::Mechan…
31 июл '12 в 12:55
2 ответа

Suckerupper с перечислением хэша

У меня есть код, который помог создать мой друг: 1 use LWP::Simple; 2 use HTML::TreeBuilder; 3 use Data::Dumper; 4 5 my $tree = url_to_tree( 'http://www.registrar.ucla.edu/schedule/schedulehome.aspx' ); 6 7 my @selects = $tree->look_down( _tag =&…
05 мар '14 в 05:41
1 ответ

Обновите значения столбцов в файле HTML, используя HTML::TreeBuilder

У меня есть HTML-файл с несколькими таблицами (все таблицы имеют одинаковое количество столбцов и одинаковые имена столбцов). Таблицы разделены другими тегами HTML. Для каждой строки в каждой таблице я хотел бы изменить значение ячейки 1 и 3. Это то…
10 фев '13 в 15:07
3 ответа

Perl: почему это регулярное выражение веб-скребка работает непоследовательно?

Я столкнулся с другой проблемой, связанной с сайтом, который я пытаюсь очистить. По сути, я удалил большую часть того, что мне не нужно, из содержимого страницы, и благодаря некоторой помощи, приведенной здесь, удалось выделить нужные мне даты. Каже…
08 фев '12 в 12:34
1 ответ

Как искать текст в html-документе с помощью Mechanize?

Я использую WWW::Mechanize, HTML::TreeBuilder и HTML::Element в моем perl-скрипте для навигации по html-документам. Я хочу знать, как искать элемент, который содержит определенную строку в виде текста. Вот пример html-документа: <html> <bod…
08 июн '15 в 16:06
2 ответа

Xpath не найдет идентификатор

Я не могу получить узел по его идентификатору. Код прост и должен быть понятен. #!/usr/bin/perl use Encode; use utf8; use LWP::UserAgent; use URI::URL; use Data::Dumper; use HTML::TreeBuilder::XPath; my $url = 'https://www.airbnb.com/rooms/1976460';…
13 сен '14 в 16:17
1 ответ

HTML::TagFilter удалить div на основе класса

Я пытаюсь использовать Perl-скрипт для извлечения содержимого из статических HTML-файлов на сервере. Я хотел бы вытащить содержимое конкретного div. Я знаю div по имени класса ("getme"). Я могу добраться до div используя HTML::TreeBuilder->look_down…
30 май '12 в 15:02
2 ответа

Форматирование текста веб-сканера

У меня есть следующий код для доступа к таблице HTML. my $table = $tree->look_down(_tag => "table", id => "moduleDetail"); однако текст возвращается не отформатированным, поскольку веб-страница использует границы таблиц для разделения опред…
06 апр '12 в 19:04
1 ответ

Как один - в Perl - поток список URL-адресов из файла в массив, чтобы затем рекурсивно получить все свои данные HTML в одном файле?

Еще одно трудоемкое название... Извините... Во всяком случае, у меня есть файл с именем mash.txt с кучей URL-адресов, как это в нем: http://www... http://www... http://www... . . . Итак, на данный момент, я хотел бы передать эти (URL) в массив - воз…
04 мар '14 в 00:00
2 ответа

Perl HTML Tree Builder, как обрабатывать ошибки

Задача довольно проста: получить доступ к URL-адресу и проанализировать его в зависимости от результата. В случае ошибки (404, 500 и т. Д.), Примите соответствующие меры. Последний кусок - тот, с которым у меня проблема.Я перечислил оба фрагмента ко…
11 июн '13 в 02:02
1 ответ

Как поместить значения из HTML-тега массива look_down в обычный массив в Perl?

Это фрагмент кода, который я получил: #!/usr/bin/perl use strict; use warnings; use LWP::Simple; use Time::Piece; use HTML::Tree; my $url0 = 'http://www.website.ch/blah.aspx'; my $doc0 = get($url0); my $tree0 = HTML::Tree->new(); $tree0->parse…
03 мар '14 в 18:35
1 ответ

Добавить UL в LI (не добавлять LI в UL)

Я пытаюсь добавить UL внутри LI. У меня есть HTML-дерево, которое выглядит так: <li id="node0"><a href="#" onclick="Collapse(event)"><img src="file:///C:/drag-drop-folder-tree/images/dhtmlgoodies_minus.gif"></a>All My Windows…
26 апр '16 в 23:59
1 ответ

Сопоставление нескольких значений 'id' с использованием RegEx в сочетании с HTML::TreeBuilder

У меня есть список URL-адресов в массиве: http://www.site.sx/doc1.html http://www.site.sx/doc2.html http://www.site.sx/doc3.html . . . Давайте посмотрим содержимое первой страницы, а именно doc1.html: <?xmlversion = "1.0" encoding = "utf-8"?> …
11 мар '14 в 06:31
2 ответа

Задать несколько классов в процедуре HTML::Element look_down Perl?

Я использую HTML::TreeBuilder для анализа HTML. Можете ли вы указать несколько классов в процедуре look_down? Например, при поиске в HTML с помощью for ( $tree->look_down( 'class' => 'postbody')) Я также должен был искать дополнительный класс …
13 июл '11 в 10:49
1 ответ

Печать содержимого таблицы с использованием Html::TreeBuilder::XPath

Я хочу извлечь все таблицы из HTML-файла и распечатать их содержимое следующим образом, каждая ячейка разделена \tкаждая строка разделена \n и каждая таблица разделена \n\n, Ниже приведен мой сценарий, когда я изменил его на findvalues ​​для tr, тог…
06 авг '13 в 13:22