WWW:: Механизировать помощь извлечения - PERL
Я пытаюсь автоматизировать извлечение стенограммы, найденной на сайте. Вся расшифровка стенограммы находится между тегами dl, поскольку сайт форматировал интервью в списке описания. Сценарий, который я имею ниже, позволяет мне искать сайт и извлекать текст в текстовом формате, но я на самом деле ищу, чтобы он включал все между тегами dl, то есть dd, dt и т. Д. Это позволит нам разработать собственный CSS для интервью.
Что следует отметить в отношении страницы, так это то, что во время интервью в различные моменты вставляются заявления о перерыве. Мы обнаружили, что некоторые инструменты, которые извлекают информацию из веб-страниц с помощью парных соединений, представляют собой проблему, поскольку она собирает информацию только до оператора break. Просто что-то иметь в виду, если вы укажете мне в другом направлении. Вот что у меня так далеко.
#!/usr/bin/perl -w
use strict;
use WWW::Mechanize;
use WWW::Mechanize::TreeBuilder;
my $mech = WWW::Mechanize->new();
WWW::Mechanize::TreeBuilder->meta->apply($mech);
$mech->get("http://millercenter.org/president/clinton/oralhistory/madeleine-k-albright");
# find all <dl> tags
my @list = $mech->find('dl');
foreach ( @list ) {
print $_->as_text();
}
Если есть инструмент, который по сути печатает то, что у меня есть, только на этот раз в формате HTML, пожалуйста, дайте мне знать об этом!
1 ответ
Ваш код в порядке, просто измените as_text()
метод для as_HTML()
и он покажет контент с тегами HTML.