Индексируйте PDF-файлы и генерируйте резюме ключевых слов
У меня есть большое количество файлов PDF в моей локальной файловой системе, которое я использую в качестве базы документации, и я хотел бы создать индекс этих файлов. Я бы хотел:
- Разобрать содержимое файлов PDF, чтобы получить ключевые слова.
- Выберите наиболее подходящие ключевые слова, чтобы составить резюме.
- Создайте статические HTML-страницы для некоторых ключевых слов с записями, связанными с соответствующими файлами.
Мои вопросы:
- Существует ли существующий инструмент для выполнения всей работы?
- Каков наиболее подходящий инструмент для анализа содержимого файлов PDF, фильтрации (по размеру слов) и подсчета слов?
- Я считаю использование
Perl
,swish-e
,pdfgrep
сделать скрипт. Знаете ли вы другие инструменты, которые могут быть полезны?
1 ответ
Учитывая, что пункты 2 и 3 кажутся нестандартными, я бы порекомендовал иметь свой собственный сценарий, использовать из него инструмент для анализа pdf, обработки вывода по своему усмотрению и написания HTML (возможно, с использованием другого инструмента).
Perl хорошо подходит для этого, поскольку он превосходен в обработке, которая вам понадобится, а также предоставляет поддержку для работы со всеми видами форматов файлов через модули.
Что касается чтения pdf
Вот несколько вариантов, если ваши потребности не слишком сложны
использование
CAM::PDF
(а такжеCAM::PDF::PageText
) или жеPDF-API2
модулииспользование
pdftotext
отpoppler
библиотека (вероятно, вpoppler-utils
пакет)использование
pdftohtml
с-xml
опцию, читать сгенерированный простой файл XML сXML::libXML
или жеXML::Twig
Последние два являются внешними инструментами, которые вы используете через встроенные в Perl функции, такие как system
,
Следующая обработка текста, для составления вашего резюме и разработки выходных данных, как раз и предназначена для таких языков, как Perl. Упомянутая пара задач занимает несколько строк кода.
Затем напишите HTML, либо просто, если он простой, либо с помощью подходящего модуля. Учитывая вашу цель, вы можете посмотреть в HTML::Template
, Также см this post
, например.
Полный анализ PDF может быть невозможен, но если файлы не слишком сложны, они должны работать.
Если процесс выбора ключевых слов и построения статистики довольно распространен, есть встроенные инструменты для управления документами (поиск менеджеров по библиографии). Тем не менее, я думаю, что большинство из них прибегают к внешним инструментам для анализа pdf
так что вам может быть лучше с вашим собственным сценарием.