Индексируйте PDF-файлы и генерируйте резюме ключевых слов

Question

Индексируйте PDF-файлы и генерируйте резюме ключевых слов

У меня есть большое количество файлов PDF в моей локальной файловой системе, которое я использую в качестве базы документации, и я хотел бы создать индекс этих файлов. Я бы хотел:

Разобрать содержимое файлов PDF, чтобы получить ключевые слова.
Выберите наиболее подходящие ключевые слова, чтобы составить резюме.
Создайте статические HTML-страницы для некоторых ключевых слов с записями, связанными с соответствующими файлами.

Мои вопросы:

Существует ли существующий инструмент для выполнения всей работы?
Каков наиболее подходящий инструмент для анализа содержимого файлов PDF, фильтрации (по размеру слов) и подсчета слов?
Я считаю использование Perl , swish-e , pdfgrep сделать скрипт. Знаете ли вы другие инструменты, которые могут быть полезны?

2

perl pdf indexing swish

Источник

user3595992 18 авг '16 в 20:54

1 ответ

Решение

Другие вопросы по тегам perl pdf indexing swish

user4653379 18 авг '16 в 23:14 2016-08-18 23:14 · Accepted Answer · 2016-08-18 23:14

Учитывая, что пункты 2 и 3 кажутся нестандартными, я бы порекомендовал иметь свой собственный сценарий, использовать из него инструмент для анализа pdf, обработки вывода по своему усмотрению и написания HTML (возможно, с использованием другого инструмента).

Perl хорошо подходит для этого, поскольку он превосходен в обработке, которая вам понадобится, а также предоставляет поддержку для работы со всеми видами форматов файлов через модули.

Что касается чтения pdf Вот несколько вариантов, если ваши потребности не слишком сложны

использование CAM::PDF (а также CAM::PDF::PageText) или же PDF-API2 модули
использование pdftotext от poppler библиотека (вероятно, в poppler-utils пакет)
использование pdftohtml с -xml опцию, читать сгенерированный простой файл XML с XML::libXML или же XML::Twig

Последние два являются внешними инструментами, которые вы используете через встроенные в Perl функции, такие как system,

Следующая обработка текста, для составления вашего резюме и разработки выходных данных, как раз и предназначена для таких языков, как Perl. Упомянутая пара задач занимает несколько строк кода.

Затем напишите HTML, либо просто, если он простой, либо с помощью подходящего модуля. Учитывая вашу цель, вы можете посмотреть в HTML::Template, Также см this post, например.

Полный анализ PDF может быть невозможен, но если файлы не слишком сложны, они должны работать.

Если процесс выбора ключевых слов и построения статистики довольно распространен, есть встроенные инструменты для управления документами (поиск менеджеров по библиографии). Тем не менее, я думаю, что большинство из них прибегают к внешним инструментам для анализа pdf так что вам может быть лучше с вашим собственным сценарием.