WWW:: Механизировать помощь извлечения - PERL

Я пытаюсь автоматизировать извлечение стенограммы, найденной на сайте. Вся расшифровка стенограммы находится между тегами dl, поскольку сайт форматировал интервью в списке описания. Сценарий, который я имею ниже, позволяет мне искать сайт и извлекать текст в текстовом формате, но я на самом деле ищу, чтобы он включал все между тегами dl, то есть dd, dt и т. Д. Это позволит нам разработать собственный CSS для интервью.

Что следует отметить в отношении страницы, так это то, что во время интервью в различные моменты вставляются заявления о перерыве. Мы обнаружили, что некоторые инструменты, которые извлекают информацию из веб-страниц с помощью парных соединений, представляют собой проблему, поскольку она собирает информацию только до оператора break. Просто что-то иметь в виду, если вы укажете мне в другом направлении. Вот что у меня так далеко.

#!/usr/bin/perl -w

use strict;
use WWW::Mechanize;
use WWW::Mechanize::TreeBuilder;

my $mech = WWW::Mechanize->new();
WWW::Mechanize::TreeBuilder->meta->apply($mech);
$mech->get("http://millercenter.org/president/clinton/oralhistory/madeleine-k-albright");

# find all <dl> tags
my @list = $mech->find('dl');

foreach ( @list ) {
print $_->as_text();
}

Если есть инструмент, который по сути печатает то, что у меня есть, только на этот раз в формате HTML, пожалуйста, дайте мне знать об этом!

1 ответ

Решение

Ваш код в порядке, просто измените as_text() метод для as_HTML() и он покажет контент с тегами HTML.

Другие вопросы по тегам