Извлечение текста из HTML - Perl с использованием HTML::TreeBuilder

Question

Извлечение текста из HTML - Perl с использованием HTML::TreeBuilder

Я пытаюсь получить доступ к файлам.html и извлечь текст в <p> теги. По логике, мой код ниже должен работать. Используя HTML::TreeBuilder. Я анализирую HTML, а затем извлекать текст в <p> используя find_by_attribute("p"). Но мой скрипт вышел с пустыми каталогами. Я что-нибудь пропустил?

#!/usr/bin/perl

use strict;
use HTML::TreeBuilder 3;
use FileHandle;

my @task = ('ar','cn','en','id','vn');

foreach my $lang (@task) {
mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
opendir (my $dir, "./$lang/") or die "$!";
my @files = grep (/\.html/,readdir ($dir));
closedir ($dir);

foreach my $file (@files) {
    open (my $fh, '<', "./$lang/$file") or die "$!";
    my $root = HTML::TreeBuilder->new;
    $root->parse_file("./$lang/$file");
    my @all_p = $root->find_by_attribute("p");
    foreach my $p (@all_p) {
        my $ptag = HTML::TreeBuilder->new_from_content ($p->as_HTML);
        my $filewrite = substr($file, 0, -5); 
        open (my $outwrite, '>>', "extract_$lang/$filewrite.txt") or die $!;
        print $outwrite $ptag->as_text . "\n";  
        my $pcontents = $ptag->as_text;
        print $pcontents . "\n";
        close (outwrite);
    }
close (FH);
}
}

Мои файлы.html представляют собой простые текстовые htmls с веб-сайтов.asp, например, http://www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp

Мои файлы.html сохраняются в:

./ar/*
./cn/*
./en/*
./id/*
./vn/*

0

html perl text-extraction html-content-extraction htmlcleaner

Источник

user610569 19 дек '11 в 12:51

4 ответа

Решение

Ты хочешь find_by_tag_nameне find_by_attribute:

my @all_p = $root->find_by_tag_name("p");

Из документов:

$h-> find_by_tag_name ('tag',...)
В контексте списка возвращает список элементов с $h или ниже, которые имеют любое из указанных имен тегов. В скалярном контексте возвращает первый (при обходе дерева по предварительному порядку) такой найденный элемент, или undef, если его нет.

3

Источник

user244297 19 дек '11 в 13:05

Использование find_by_tag_name искать имена тегов, а не find_by_attribute,

3

Источник

user1030675 19 дек '11 в 13:05

Возможно, вы захотите взглянуть на Mojo::DOM, который позволяет использовать CSS-селекторы.

1

Источник

user1005136 19 дек '11 в 15:34

Другие вопросы по тегам html perl text-extraction html-content-extraction htmlcleaner

user46395 19 дек '11 в 13:26 2011-12-19 13:26 · Accepted Answer · 2011-12-19 13:26

Вы путаете элемент с атрибутом. Программу можно написать гораздо лаконичнее:

#!/usr/bin/env perl
use strictures;
use File::Glob qw(bsd_glob);
use Path::Class qw(file);
use URI::file qw();
use Web::Query qw(wq);
use autodie qw(:all);

foreach my $lang (qw(ar cn en id vn)) {
    mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
    foreach my $file (bsd_glob "./$lang/*.html") {
        my $basename = file($file)->basename;
        $basename =~ s/[.]html$/.txt/;
        open my $out, '>>:encoding(UTF-8)', "./extract_$lang/$basename";
        $out->say($_) for wq(URI::file->new_abs($file))->find('p')->text;
        close $out;
    }
}