FScrawler: выборочное распознавание текста только для файлов PDF, не содержащих текста

Я использую FScrawler (2.7) для загрузки текста из PDF-файлов в Elasticsearch (7.6.X). Большинство файлов PDF содержат текст, но некоторые файлы PDF содержат изображения отсканированного текста, и их необходимо распознать. Есть ли способ настроить FScrawler таким образом, чтобы он выполнял распознавание текста только для файлов PDF, содержащих изображения отсканированного текста, но не для файлов, которые уже содержат текст?

Пока я могу настроить его так, чтобы либо не выполнять OCR для каких-либо файлов (случай 1), либо делать это для всех файлов (случай 2). В первом случае FScrawler пропускает все файлы с изображениями отсканированного текста, но загружает все файлы с текстом очень быстро. Во втором случае на это уходит очень много времени, потому что он распознает все файлы, включая те, в которых уже есть текст.

Вот настройки опций OCR для FScrawler:https://fscrawler.readthedocs.io/en/latest/user/ocr.html

Конфиг для случая 1:

name: "Case 1"
fs:
  url: "/path/to/data/dir"
  ocr:
    enabled: false
    pdf_strategy: 'no_ocr'

Конфигурация для случая 2:

name: "Case 2"
fs:
  url: "/path/to/data/dir"
  ocr:
    enabled: true
    pdf_strategy: 'ocr_and_text'

PS Я могу сортировать PDF-файлы как файлы с распознаванием текста и без него, используя другие средства, и иметь два отдельных задания FScrawler для каждой стопки файлов PDF, но перед этим я хочу проверить, есть ли более простой способ использовать встроенные функции FScrawler.

0 ответов

Другие вопросы по тегам