Описание тега ocrmypdf

Вопросы с тегом

1 ответ

Импорт ocrmypdf в код Visual Stdio в Python

Я хотел бы импортировать ocrmypdf. Я установил пакет, используя pip install --upgrade --user ocrmypdf но как я пытался импортировать в VSC с помощью: import ocrmypdf он поймал ошибку: [WinError 2] The system cannot find the file specified [WinError …

python visual-studio-code ocrmypdf

22 июн '21 в 09:12

1 ответ

Камелот Не удается извлечь всю таблицу

Я использую Camelot для извлечения табличной информации из PDF-файла, который я преобразовал из отсканированного в доступный для поиска с помощью ocrmypdf(500dpi). Камелот, похоже, может идентифицировать таблицу и извлечь большую часть данных в табл…

python python-camelot pdf-extraction pdftables ocrmypdf

26 июн '21 в 17:58

0 ответов

Надежное обнаружение Spyder IDE

Как мне надежно определить, выполняется ли скрипт / модуль в IDE Spyder? У меня возникла проблема с запуском ocrmypdf в IDE Spyder. Он работает в командной строке cmd и anaconda. Он выдает ошибки при запуске в IDE spyder, на Windows 7 и 10, на разли…

python multiprocessing ide spyder ocrmypdf

13 июл '21 в 01:03

2 ответа

Как мне написать команду пакетного процесса, используя параллельный GNU?

Я пытаюсь выполнить пакетную обработку с помощью пакета под названием ocrmypdf. Вот команда, которая может обрабатывать 1 файл PDF ocrmypdf input.pdf output.pdf и вот команда, которая может обрабатывать все файлы PDF в каталоге, в котором мы ее запу…

python-3.x bash parallel-processing gnu-parallel ocrmypdf

14 окт '21 в 23:45

0 ответов

ocrmypdf FileNotFoundError

Я кодирую скрипт для Windows, чтобы создать PDF-файл с помощью OCR из существующего PDF-файла. Мой код: import ocrmypdf if __name__ == '__main__': ocrmypdf.ocr('C:\\Users\\User\\workplace\\proofofconceptPdf\\scan.pdf', 'C:\\Users\\User\\workplace\\p…

python windows ocr ocrmypdf

07 янв '22 в 14:00

0 ответов

Параметры Tesseract для правильного распознавания тривиального изображения?

Я не могу получить tesseract (используя утилиту-оболочку ocrmypdf) для OCR, что кажется тривиальным случаем изображения, я должен упустить что-то простое. GeniusScan на iOS (и даже новая функция iOS Live Text ) быстро справляются с распознаванием эт…

ocr tesseract ocrmypdf

09 янв '22 в 03:11

1 ответ

ocrmypdf - не удалось найти исходный pdf?

я хотел бы использовать ocrmypdf для преобразования некоторого pdf-файла из изображения в читаемый pdf - Попробовал это со следующим простым кодом: (счет-фактура.pdf, конечно, доступен по тому же пути, что и python-скрипт, и должен быть сгенерирован…

python pdf ocr pdfplumber ocrmypdf

15 янв '22 в 01:37

1 ответ

Вывод hOCR из OCRmyPDF

Я запускаю OCRmyPDF для создания PDF-файлов с возможностью поиска из отсканированных PDF-файлов, и у меня это работает очень хорошо. Я просто хочу сохранить вывод hOCR в моем локальном каталоге для каждой страницы отсканированного PDF-файла. Как я м…

python hocr ocrmypdf

28 янв '22 в 09:22

0 ответов

OCRMYPDF: параметр «страницы» не работает должным образом даже при отключенной оптимизации

Я использую ocrmypdf и просто хочу, чтобы первая страница файлов распознавала свои символы. Я пытаюсь сделать это с ocrmypdf -l por --force-ocr --pages 1 --optimize 0 input.pdf output.pdf но даже тогда он выдает Начать обработку 10 страниц одновреме…

ocrmypdf

19 май '22 в 17:50

1 ответ

Командная строка ocrmypdf 13.4.1 работает, но в API отсутствуют текстовые слои при использовании output_type="pdf"

Недавно я обновился с ocrmypdf 9.0.3/tesseract 4.x до ocrmypdf 13.4.1/tesseract 5.1. При использовании ocrmypdf 9.x или 13.x это работает в cli: $ ocrmypdf --output-type pdf sample-file.pdf output-file.pdf Однако, когда я использую API в своем прило…

ocrmypdf

25 мар '22 в 16:35

0 ответов

Отладчик Pycharm неправильно работает с системными командами

Я пытаюсь отладить программу с помощью следующей команды os.system('ocrmypdf -l por --force-ocr --pages 1 \"' + dirname + '/' + pdf_name + '\" \"' + ocr_dir + str(index) + '.pdf\"') Когда я запускаю код, он работает, но в отладчике выдает ошибку: Mo…

python pycharm ocrmypdf

21 май '22 в 23:31

0 ответов

как определить неизвестный язык текста на изображении?

У меня есть N отсканированных изображений. изображения содержат разные языки, такие как китайский, арабский и японский. Я попытался выполнить процесс OCR для файлов, используя OCRMYPDF и tesseract. оба требовали языка входного файла. Но я не знаю яз…

python ocr language-detection ocrmypdf

21 мар '22 в 05:27

0 ответов

Heroku: разверните приложение, в котором используется ocrmypdf

Мне нужно развернуть мой веб-сервер nodejs, который использует ocrmypdf. Я выбираю хероку. В настоящее время я использую такие пакеты сборки heroku: 1. heroku/python 2. https://github.com/heroku/heroku-buildpack-apt 3. https://github.com/pathwaysmed…

python heroku deployment ocrmypdf

07 окт '22 в 02:37

0 ответов

Установка Snapd Ocrmypdf на CentOS 7.6

Я устанавливаю ocrmypdf на Centos 7.6, используя способ «snapd install ocrmypdf». Я успешно установил полностью. Однако я выполняю команду «ocrmypdf input.pdf output.pdf» и всегда говорю «InputFileError, input.pdf не найден». Как я могу это решить? …

centos ocr ocrmypdf

03 авг '22 в 02:32

0 ответов

Преобразование текстового содержимого PDF

У меня есть PDF-файл с несколькими текстовыми блоками, которые смещены. Я пытаюсь создать новый PDF-файл с выровненным текстом в соответствии с моей матрицей преобразования (известной). я могу использоватьPyMuPDF(fitz), чтобы извлечь текстовую инфор…

python pdf pymupdf pikepdf ocrmypdf

07 июн '22 в 18:08

0 ответов

Как указать OCRmyPDF работать ТОЛЬКО на 25% страницы

пожалуйста, помогите, планирую использовать OCRmyPDF, но только для извлечения блока рисования в правом нижнем углу. Весь рисунок довольно большой. Могу ли я отсканировать только 25% справа внизу? Спасибо Я прочитал документ OCRmyPDF, но пока безусп…

python pdf drawing ocrmypdf

28 янв '23 в 03:28

0 ответов

Запуск ocrmypdf с tesseract, ghostscript в Windows без прав администратора

Я создал скрипт python на основе ocrmypdf, который требует локальной установки как tesseract, так и ghostscript. Этот скрипт должен запускаться на ноутбуке без прав администратора, поэтому я не смогу отдельно установить на ноутбук tesseract и ghosts…

python cx-freeze ocrmypdf

27 дек '22 в 04:52

0 ответов

OcrMyPdf Python: разрешение отклонено: «unpaper»

Я пытаюсь использовать библиотеку ocrMyPdf, и вот мой код: ocrmypdf.ocr("input/mypdf.pdf", "input/mypdf_ocr.pdf", skip_text=False, force_ocr=True, deskew=True, rotate_pages=True, remove_background=False, rotate_pages_threshold=3, pages="1,72", max_i…

python permission-denied ocrmypdf

20 дек '22 в 19:43

0 ответов

OCRMyPDF: [WinError 2] Система не может найти указанный файл

При попытке использовать OCRMyPDF в Python я продолжаю получатьFileNotFoundError: [WinError 2] The system cannot find the file specified. Вот моя функция: def run_ocr(pdf): temp_dir = os.path.abspath(os.path.normpath(os.path.join(os.getcwd(), "tempf…

python pdf ocr ocrmypdf

20 июн '22 в 16:05

0 ответов

Пользовательский интерфейс не может отменить ocrmypdf.ocr()

Я создал графический интерфейс с Python и другими необходимыми библиотеками. Моя задача состоит в том, чтобы преобразовать PDF-файл, не поддающийся поиску, с возможностью поиска, сохранить его как новый PDF-файл, извлечь из него слово и сохранить фа…

python tkinter customtkinter ocrmypdf

28 авг '23 в 08:48