Описание тега ocrmypdf

1 ответ

Импорт ocrmypdf в код Visual Stdio в Python

Я хотел бы импортировать ocrmypdf. Я установил пакет, используя pip install --upgrade --user ocrmypdf но как я пытался импортировать в VSC с помощью: import ocrmypdf он поймал ошибку: [WinError 2] The system cannot find the file specified [WinError …
22 июн '21 в 09:12
1 ответ

Камелот Не удается извлечь всю таблицу

Я использую Camelot для извлечения табличной информации из PDF-файла, который я преобразовал из отсканированного в доступный для поиска с помощью ocrmypdf(500dpi). Камелот, похоже, может идентифицировать таблицу и извлечь большую часть данных в табл…
0 ответов

Надежное обнаружение Spyder IDE

Как мне надежно определить, выполняется ли скрипт / модуль в IDE Spyder? У меня возникла проблема с запуском ocrmypdf в IDE Spyder. Он работает в командной строке cmd и anaconda. Он выдает ошибки при запуске в IDE spyder, на Windows 7 и 10, на разли…
13 июл '21 в 01:03
2 ответа

Как мне написать команду пакетного процесса, используя параллельный GNU?

Я пытаюсь выполнить пакетную обработку с помощью пакета под названием ocrmypdf. Вот команда, которая может обрабатывать 1 файл PDF ocrmypdf input.pdf output.pdf и вот команда, которая может обрабатывать все файлы PDF в каталоге, в котором мы ее запу…
0 ответов

ocrmypdf FileNotFoundError

Я кодирую скрипт для Windows, чтобы создать PDF-файл с помощью OCR из существующего PDF-файла. Мой код: import ocrmypdf if __name__ == '__main__': ocrmypdf.ocr('C:\\Users\\User\\workplace\\proofofconceptPdf\\scan.pdf', 'C:\\Users\\User\\workplace\\p…
07 янв '22 в 14:00
0 ответов

Параметры Tesseract для правильного распознавания тривиального изображения?

Я не могу получить tesseract (используя утилиту-оболочку ocrmypdf) для OCR, что кажется тривиальным случаем изображения, я должен упустить что-то простое. GeniusScan на iOS (и даже новая функция iOS Live Text ) быстро справляются с распознаванием эт…
09 янв '22 в 03:11
1 ответ

ocrmypdf - не удалось найти исходный pdf?

я хотел бы использовать ocrmypdf для преобразования некоторого pdf-файла из изображения в читаемый pdf - Попробовал это со следующим простым кодом: (счет-фактура.pdf, конечно, доступен по тому же пути, что и python-скрипт, и должен быть сгенерирован…
15 янв '22 в 01:37
1 ответ

Вывод hOCR из OCRmyPDF

Я запускаю OCRmyPDF для создания PDF-файлов с возможностью поиска из отсканированных PDF-файлов, и у меня это работает очень хорошо. Я просто хочу сохранить вывод hOCR в моем локальном каталоге для каждой страницы отсканированного PDF-файла. Как я м…
28 янв '22 в 09:22
0 ответов

OCRMYPDF: параметр «страницы» не работает должным образом даже при отключенной оптимизации

Я использую ocrmypdf и просто хочу, чтобы первая страница файлов распознавала свои символы. Я пытаюсь сделать это с ocrmypdf -l por --force-ocr --pages 1 --optimize 0 input.pdf output.pdf но даже тогда он выдает Начать обработку 10 страниц одновреме…
19 май '22 в 17:50
1 ответ

Командная строка ocrmypdf 13.4.1 работает, но в API отсутствуют текстовые слои при использовании output_type="pdf"

Недавно я обновился с ocrmypdf 9.0.3/tesseract 4.x до ocrmypdf 13.4.1/tesseract 5.1. При использовании ocrmypdf 9.x или 13.x это работает в cli: $ ocrmypdf --output-type pdf sample-file.pdf output-file.pdf Однако, когда я использую API в своем прило…
25 мар '22 в 16:35
0 ответов

Отладчик Pycharm неправильно работает с системными командами

Я пытаюсь отладить программу с помощью следующей команды os.system('ocrmypdf -l por --force-ocr --pages 1 \"' + dirname + '/' + pdf_name + '\" \"' + ocr_dir + str(index) + '.pdf\"') Когда я запускаю код, он работает, но в отладчике выдает ошибку: Mo…
21 май '22 в 23:31
0 ответов

как определить неизвестный язык текста на изображении?

У меня есть N отсканированных изображений. изображения содержат разные языки, такие как китайский, арабский и японский. Я попытался выполнить процесс OCR для файлов, используя OCRMYPDF и tesseract. оба требовали языка входного файла. Но я не знаю яз…
21 мар '22 в 05:27
0 ответов

Heroku: разверните приложение, в котором используется ocrmypdf

Мне нужно развернуть мой веб-сервер nodejs, который использует ocrmypdf. Я выбираю хероку. В настоящее время я использую такие пакеты сборки heroku: 1. heroku/python 2. https://github.com/heroku/heroku-buildpack-apt 3. https://github.com/pathwaysmed…
07 окт '22 в 02:37
0 ответов

Установка Snapd Ocrmypdf на CentOS 7.6

Я устанавливаю ocrmypdf на Centos 7.6, используя способ «snapd install ocrmypdf». Я успешно установил полностью. Однако я выполняю команду «ocrmypdf input.pdf output.pdf» и всегда говорю «InputFileError, input.pdf не найден». Как я могу это решить? …
03 авг '22 в 02:32
0 ответов

Преобразование текстового содержимого PDF

У меня есть PDF-файл с несколькими текстовыми блоками, которые смещены. Я пытаюсь создать новый PDF-файл с выровненным текстом в соответствии с моей матрицей преобразования (известной). я могу использоватьPyMuPDF(fitz), чтобы извлечь текстовую инфор…
07 июн '22 в 18:08
0 ответов

Как указать OCRmyPDF работать ТОЛЬКО на 25% страницы

пожалуйста, помогите, планирую использовать OCRmyPDF, но только для извлечения блока рисования в правом нижнем углу. Весь рисунок довольно большой. Могу ли я отсканировать только 25% справа внизу? Спасибо Я прочитал документ OCRmyPDF, но пока безусп…
28 янв '23 в 03:28
0 ответов

Запуск ocrmypdf с tesseract, ghostscript в Windows без прав администратора

Я создал скрипт python на основе ocrmypdf, который требует локальной установки как tesseract, так и ghostscript. Этот скрипт должен запускаться на ноутбуке без прав администратора, поэтому я не смогу отдельно установить на ноутбук tesseract и ghosts…
27 дек '22 в 04:52
0 ответов

OcrMyPdf Python: разрешение отклонено: «unpaper»

Я пытаюсь использовать библиотеку ocrMyPdf, и вот мой код: ocrmypdf.ocr("input/mypdf.pdf", "input/mypdf_ocr.pdf", skip_text=False, force_ocr=True, deskew=True, rotate_pages=True, remove_background=False, rotate_pages_threshold=3, pages="1,72", max_i…
20 дек '22 в 19:43
0 ответов

OCRMyPDF: [WinError 2] Система не может найти указанный файл

При попытке использовать OCRMyPDF в Python я продолжаю получатьFileNotFoundError: [WinError 2] The system cannot find the file specified. Вот моя функция: def run_ocr(pdf): temp_dir = os.path.abspath(os.path.normpath(os.path.join(os.getcwd(), "tempf…
20 июн '22 в 16:05
0 ответов

Пользовательский интерфейс не может отменить ocrmypdf.ocr()

Я создал графический интерфейс с Python и другими необходимыми библиотеками. Моя задача состоит в том, чтобы преобразовать PDF-файл, не поддающийся поиску, с возможностью поиска, сохранить его как новый PDF-файл, извлечь из него слово и сохранить фа…
28 авг '23 в 08:48