Извлечение содержимого таблицы с использованием Perl
Я пытаюсь извлечь содержимое таблицы из файла HTML, используя HTML::TableExtract. Моя проблема в том, что мой HTML-файл структурирован следующим образом:
<!DOCTYPE html>
<html>
<body>
<h4>One row and three columns:</h4>
<table border="1">
<tr>
<td>
<p> 100 </p></td>
<td>
<p> 200 </p></td>
<td>
<p> 300 </p></td>
</tr>
<tr>
<td>
<p> 100 </p></td>
<td>
<p> 200 </p></td>
<td>
<p> 300 </p></td>
</tr>
</table>
</body>
</html>
Из-за этой структуры мой вывод выглядит так:
100|
200|
300|
400|
500|
600|
Вместо того, что я хочу:
100|200|300|
400|500|600|
Можете ли вы помочь? Вот мой код Perl
use strict;
use warnings;
use HTML::TableExtract;
my $te = HTML::TableExtract->new();
$te->parse_file('Table_One.html');
open (DATA2, ">TableOutput.txt")
or die "Can't open file";
foreach my $ts ($te->tables()) {
foreach my $row ($ts->rows()) {
my $Final = join('|', @$row );
print DATA2 "$Final";
}
}
close (DATA2);
3 ответа
Решение
sub trim(_) { my ($s) = @_; $s =~ s/^\s+//; $s =~ s/\s+\z//; $s }
Или в Perl 5.14+,
sub trim(_) { $_[0] =~ s/^\s+//r =~ s/\s+\z//r }
Тогда используйте:
my $Final = join '|', map trim, @$row;
Использование Mojo::DOM
#!/usr/bin/env perl
use strict;
use warnings;
use Mojo::DOM;
my $dom = Mojo::DOM->new(<<'END');
<!DOCTYPE html>
<html>
<body>
<h4>One row and three columns:</h4>
<table border="1">
<tr>
<td>
<p> 100 </p></td>
<td>
<p> 200 </p></td>
<td>
<p> 300 </p></td>
</tr>
<tr>
<td>
<p> 100 </p></td>
<td>
<p> 200 </p></td>
<td>
<p> 300 </p></td>
</tr>
</table>
</body>
END
my $rows = $dom->find('table tr');
$rows->each(sub{
print $_->find('td p')
->pluck('text')
->join('|') . "|\n"
});
Попробуйте сделать это:
use strict;
use warnings;
use HTML::TableExtract;
my $te = HTML::TableExtract->new();
$te->parse_file('Table_One.html');
open (DATA2, ">TableOutput.txt") or die "Can't open file";
foreach my $ts ($te->tables() )
{
foreach my $row ($ts->rows() )
{
s/(\n|\s)//g for @$row;
my $Final = join('|', @$row );
print DATA2 "$Final";
}
}
close (DATA2);