Определение глубины и количества таблиц на HTML-странице с помощью Perl
У меня есть локальные копии многочисленных загруженных веб-страниц. На страницах почти наверняка есть только несколько разных типов макетов таблиц, но прежде чем пытаться извлечь данные, я сначала хочу распечатать глубину и количество таблиц, существующих на каждой странице.
С помощью HTML::TableExtract->new( depth => $d, count => $c )
Я могу перебрать разумный диапазон $d
а также $c
пока я ничего не получу... метод, который работает, но выглядит так явно плохо, что я уверен, что есть гораздо лучший способ. Пожалуйста, должен ли я использовать модуль, отличный от HTML::TableExtract, или есть что-то более разумное, что я должен делать с TableExtract?
Таковы проблемы того, чтобы быть нечастым пользователем Perl, но быть уверенным, что это правильный инструмент для конкретной работы!
1 ответ
Я обнаружил, что мой вопрос вырос из моего полного недопонимания того, как использовать count
а также depth
аргументы в HTML::TableExtract->new()
, Все примеры, которые я видел, использовали либо headers=>
аргумент, или же сочетание depth=>
а также count=>
, На самом деле, ни один аргумент не является необходимым. Что мне действительно нужно было использовать
$te = HTML::TableExtract->new();
без каких-либо аргументов new()
метод, а затем использовать $te->tables_report()
чтобы дать мне именно тот список, который я искал.
Не удивительно, что я не получил никаких ответов!