WWW:: Механизировать помощь извлечения - PERL

Question

WWW:: Механизировать помощь извлечения - PERL

Я пытаюсь автоматизировать извлечение стенограммы, найденной на сайте. Вся расшифровка стенограммы находится между тегами dl, поскольку сайт форматировал интервью в списке описания. Сценарий, который я имею ниже, позволяет мне искать сайт и извлекать текст в текстовом формате, но я на самом деле ищу, чтобы он включал все между тегами dl, то есть dd, dt и т. Д. Это позволит нам разработать собственный CSS для интервью.

Что следует отметить в отношении страницы, так это то, что во время интервью в различные моменты вставляются заявления о перерыве. Мы обнаружили, что некоторые инструменты, которые извлекают информацию из веб-страниц с помощью парных соединений, представляют собой проблему, поскольку она собирает информацию только до оператора break. Просто что-то иметь в виду, если вы укажете мне в другом направлении. Вот что у меня так далеко.

#!/usr/bin/perl -w

use strict;
use WWW::Mechanize;
use WWW::Mechanize::TreeBuilder;

my $mech = WWW::Mechanize->new();
WWW::Mechanize::TreeBuilder->meta->apply($mech);
$mech->get("http://millercenter.org/president/clinton/oralhistory/madeleine-k-albright");

# find all <dl> tags
my @list = $mech->find('dl');

foreach ( @list ) {
print $_->as_text();
}

Если есть инструмент, который по сути печатает то, что у меня есть, только на этот раз в формате HTML, пожалуйста, дайте мне знать об этом!

1

perl parsing screen-scraping www-mechanize html-treebuilder

Источник

user4870810 01 сен '15 в 17:27

1 ответ

Решение

Другие вопросы по тегам perl parsing screen-scraping www-mechanize html-treebuilder

user5249935 01 сен '15 в 17:46 2015-09-01 17:46 · Accepted Answer · 2015-09-01 17:46

Ваш код в порядке, просто измените as_text() метод для as_HTML() и он покажет контент с тегами HTML.

3

Источник

user5249935 01 сен '15 в 17:46