Paperless-ngx повторить OCR для документов

Question

Paperless-ngx повторить OCR для документов

Я пытаюсь переделать распознавание текста для своих документов на Paperless-ngx, потому что некоторый очевидный текст в PDF-файлах отсутствует или не индексируется автоматически. Что мне следует сделать, чтобы повторить OCR для конкретных документов?

Я использую установку докера, поэтому у меня работают следующие контейнеры:

      paperless-webserver-1
paperless-broker-1
paperless-db-1
paperless-gotenberg-1
paperless-tika-1

Я нашел следующее обсуждение на странице GitHub, но там не говорится, как это сделать на самом деле, а просто «реализовано».

Есть также упоминания оPAPERLESS_OCR_MODE=<mode>в их документации . Однако опять же, примера не было, и я не смог найти, где применить эту настройку.

Спасибо :)

0

ocr paperless

Источник

user2230585 20 мар '23 в 16:51

1 ответ

Другие вопросы по тегам ocr paperless

user5601584 21 сен '23 в 09:47 2023-09-21 09:47 · Answer 1 · 2023-09-21 09:47

Вы можете запустить принудительное распознавание текста, выполнив эту команду:

      docker exec -d  -e "PAPERLESS_OCR_MODE=force" paperless-webserver-1 document_archiver --overwrite --document [HERE_COMES_THE_DOCUMENT_ID]

1

Источник

user5601584 21 сен '23 в 09:47