Paperless-ngx повторить OCR для документов
Я пытаюсь переделать распознавание текста для своих документов на Paperless-ngx, потому что некоторый очевидный текст в PDF-файлах отсутствует или не индексируется автоматически. Что мне следует сделать, чтобы повторить OCR для конкретных документов?
Я использую установку докера, поэтому у меня работают следующие контейнеры:
paperless-webserver-1
paperless-broker-1
paperless-db-1
paperless-gotenberg-1
paperless-tika-1
Я нашел следующее обсуждение на странице GitHub, но там не говорится, как это сделать на самом деле, а просто «реализовано».
Есть также упоминания оPAPERLESS_OCR_MODE=<mode>
в их документации . Однако опять же, примера не было, и я не смог найти, где применить эту настройку.
Спасибо :)
1 ответ
Вы можете запустить принудительное распознавание текста, выполнив эту команду:
docker exec -d -e "PAPERLESS_OCR_MODE=force" paperless-webserver-1 document_archiver --overwrite --document [HERE_COMES_THE_DOCUMENT_ID]