Индексируйте PDF-файлы и генерируйте резюме ключевых слов

У меня есть большое количество файлов PDF в моей локальной файловой системе, которое я использую в качестве базы документации, и я хотел бы создать индекс этих файлов. Я бы хотел:

  1. Разобрать содержимое файлов PDF, чтобы получить ключевые слова.
  2. Выберите наиболее подходящие ключевые слова, чтобы составить резюме.
  3. Создайте статические HTML-страницы для некоторых ключевых слов с записями, связанными с соответствующими файлами.

Мои вопросы:

  • Существует ли существующий инструмент для выполнения всей работы?
  • Каков наиболее подходящий инструмент для анализа содержимого файлов PDF, фильтрации (по размеру слов) и подсчета слов?
  • Я считаю использование Perl , swish-e , pdfgrep сделать скрипт. Знаете ли вы другие инструменты, которые могут быть полезны?

1 ответ

Решение

Учитывая, что пункты 2 и 3 кажутся нестандартными, я бы порекомендовал иметь свой собственный сценарий, использовать из него инструмент для анализа pdf, обработки вывода по своему усмотрению и написания HTML (возможно, с использованием другого инструмента).

Perl хорошо подходит для этого, поскольку он превосходен в обработке, которая вам понадобится, а также предоставляет поддержку для работы со всеми видами форматов файлов через модули.

Что касается чтения pdf Вот несколько вариантов, если ваши потребности не слишком сложны

  • использование CAM::PDF (а также CAM::PDF::PageText) или же PDF-API2 модули

  • использование pdftotext от poppler библиотека (вероятно, в poppler-utils пакет)

  • использование pdftohtml с -xml опцию, читать сгенерированный простой файл XML с XML::libXML или же XML::Twig

Последние два являются внешними инструментами, которые вы используете через встроенные в Perl функции, такие как system,

Следующая обработка текста, для составления вашего резюме и разработки выходных данных, как раз и предназначена для таких языков, как Perl. Упомянутая пара задач занимает несколько строк кода.

Затем напишите HTML, либо просто, если он простой, либо с помощью подходящего модуля. Учитывая вашу цель, вы можете посмотреть в HTML::Template, Также см this post, например.

Полный анализ PDF может быть невозможен, но если файлы не слишком сложны, они должны работать.

Если процесс выбора ключевых слов и построения статистики довольно распространен, есть встроенные инструменты для управления документами (поиск менеджеров по библиографии). Тем не менее, я думаю, что большинство из них прибегают к внешним инструментам для анализа pdf так что вам может быть лучше с вашим собственным сценарием.

Другие вопросы по тегам