Paperless-ngx повторить OCR для документов

Я пытаюсь переделать распознавание текста для своих документов на Paperless-ngx, потому что некоторый очевидный текст в PDF-файлах отсутствует или не индексируется автоматически. Что мне следует сделать, чтобы повторить OCR для конкретных документов?

Я использую установку докера, поэтому у меня работают следующие контейнеры:

      paperless-webserver-1
paperless-broker-1
paperless-db-1
paperless-gotenberg-1
paperless-tika-1

Я нашел следующее обсуждение на странице GitHub, но там не говорится, как это сделать на самом деле, а просто «реализовано».

Есть также упоминания оPAPERLESS_OCR_MODE=<mode>в их документации . Однако опять же, примера не было, и я не смог найти, где применить эту настройку.

Спасибо :)

1 ответ

Вы можете запустить принудительное распознавание текста, выполнив эту команду:

      docker exec -d  -e "PAPERLESS_OCR_MODE=force" paperless-webserver-1 document_archiver --overwrite --document [HERE_COMES_THE_DOCUMENT_ID]
Другие вопросы по тегам