Определение глубины и количества таблиц на HTML-странице с помощью Perl

Question

Определение глубины и количества таблиц на HTML-странице с помощью Perl

У меня есть локальные копии многочисленных загруженных веб-страниц. На страницах почти наверняка есть только несколько разных типов макетов таблиц, но прежде чем пытаться извлечь данные, я сначала хочу распечатать глубину и количество таблиц, существующих на каждой странице.

С помощью HTML::TableExtract->new( depth => $d, count => $c ) Я могу перебрать разумный диапазон $d а также $c пока я ничего не получу... метод, который работает, но выглядит так явно плохо, что я уверен, что есть гораздо лучший способ. Пожалуйста, должен ли я использовать модуль, отличный от HTML::TableExtract, или есть что-то более разумное, что я должен делать с TableExtract?

Таковы проблемы того, чтобы быть нечастым пользователем Perl, но быть уверенным, что это правильный инструмент для конкретной работы!

0

html-table html-parsing perl-module

Источник

user1776104 31 май '13 в 13:37

1 ответ

Другие вопросы по тегам html-table html-parsing perl-module

user1776104 03 июн '13 в 11:01 2013-06-03 11:01 · Answer 1 · 2013-06-03 11:01

Я обнаружил, что мой вопрос вырос из моего полного недопонимания того, как использовать count а также depth аргументы в HTML::TableExtract->new(), Все примеры, которые я видел, использовали либо headers=> аргумент, или же сочетание depth=> а также count=>, На самом деле, ни один аргумент не является необходимым. Что мне действительно нужно было использовать

$te = HTML::TableExtract->new();

без каких-либо аргументов new() метод, а затем использовать $te->tables_report() чтобы дать мне именно тот список, который я искал.

Не удивительно, что я не получил никаких ответов!