Описание тега python-tesseract

Python-tesseract - это класс-оболочка для Tesseract OCR, который позволяет читать любые обычные файлы изображений (JPG, GIF, PNG, TIFF и т. Д.) И получать свой текст, данные текста или даже преобразовывать их в pdf.
1 ответ

pytesseract: извлечение данных из идентификаторов документов с помощью блоков

Я работаю над извлечением данных из идентификаторов, и мне нужно извлечь личные данные, такие как имя, данные о рождении и т. Д. Я попробовал Pytessaract, просто предоставив ему целое неразрезанное изображение удостоверения личности: txt = tool.imag…
23 апр '18 в 08:59
1 ответ

После успешной установки tesseract_ocr в Ubuntu он не отображает модуль с именем tesseract_ocr

Я установил Tesseract OCR через терминал Linux, но когда я попытался импортировать его в Python, появилась ошибка: /usr/bin/python2.7 /home/web/Documents/pnt/ocr.py Traceback (последний вызов был последним): Файл "/home/web/Documents/pnt/ocr.py", ст…
24 июн '15 в 09:59
1 ответ

Приложение Python с tesseract не работает в Bluemix

У меня есть приложение Python, которое использует tesseract для обнаружения флажков в отсканированных изображениях, прекрасно работает на моем локальном компьютере, но когда я отправляю свой код в Bluemix вместе с пакетом сборки python-tesseract, он…
0 ответов

Как улучшить точность распознавания?

Я пытаюсь создать модуль извлечения карт оценок, фон меняется каждый раз, и я пытался использовать много подходов, но самый чистый способ удалить фон из текста - это инвертировать изображение. Но проблема в том, что OCR не обнаруживает символы в изо…
0 ответов

Улучшение скорости в tesseract для многих изображений

У вас есть идеи, как улучшить скорость тессеракта для многих изображений? У меня есть 2 примера. Сначала я конвертирую изображение в текст, содержащий около 200 слов. Это займет 1 секунду. Во-вторых, у меня есть цикл из 100 изображений, которые соде…
20 авг '18 в 18:21
0 ответов

Tesseract Ocr вылетает

Тессеракт падает при выполнении кода ниже from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('im1.png'))
03 ноя '18 в 19:25
0 ответов

Обработка темных текстовых изображений для tesseract ocr

Я заметил, что всякий раз, когда я использую темные фоновые изображения для тессеракта, я получаю ошибку сегментации. Я пытался извлечь символы с помощью этого кода #include <tesseract/baseapi.h> #include <leptonica/allheaders.h> #includ…
19 сен '15 в 07:28
1 ответ

Считайте текст из изображения, используя OCR для изображения, которое имеет два столбца или три столбца данных, используя Python

В примере изображения (просто ссылка, мои изображения будут одного рисунка) страница, которая имеет полный горизонтальный текст, а другая имеет два горизонтальных столбца текста. Как автоматически определить шаблон документа и прочитать один за друг…
1 ответ

Ошибка в PYTHON OCR Tesseract

При запуске моего скрипта OCR на python из CMD я получаю эту ошибку. Это проблема с изображением или моим кодом? журнал ошибок D:\Documents\Everything Programming\_Not Hacking\Bots\Discord Bots\python img recog>imgrecog.py File "D:\Documents\Ever…
23 июл '17 в 23:36
0 ответов

PHP не может выполнить Pytesseract в Python

Я использую Postman для отправки изображения base64 в файл PHP на моем веб-сервере Apache. Изображение всегда отправляется успешно. PHP-скрипт выполняет Python-скрипт для извлечения текста из изображения (используя Pytesseract/Tesseract-OCR) и отпра…
25 авг '16 в 02:04
1 ответ

pip install tesserocr завершается с ошибкой "Не удалось создать колесо для tesserocr"

У меня уже есть последние сборки для лептоники и тессеракта tesseract 4.00.00alpha-365-gcf0b378 leptonica-1.74.1 libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 я также установил все зависимости, такие как python-dev Эт…
2 ответа

Тессеракт OCR не смог распознать числа полной высоты

Я проверил образец текста как буквенно-цифровой, так и только цифры. Я использую режим цифр. Как распознать цифры как на следующем изображении: Я думаю, что это из-за полной высоты. Я также попытался преобразовать его в.jpg с помощью некоторых онлай…
03 апр '15 в 23:24
1 ответ

Как улучшить распознавание текста в изображении с помощью Python

Я пытался обнаружить текст в изображениях, особенно изображения с кавычками, используя OpenCV Python. Для этого я сначала тренирую текстовые изображения. Я обнаруживаю каждый символ текста на изображении, чтобы тренироваться. Для изображений с прави…
1 ответ

Тессеракт дает нежелательные данные как вывод для японского языка

Я пытаюсь создать пример приложения на языке Java для японского языка, который будет читать файл изображения и просто выводить текст, извлеченный из изображения. Я нашел один пример приложения в сети, который отлично работает для английского языка, …
04 сен '17 в 14:04
1 ответ

Сохранение пробелов в Тессеракте

У меня был файл изображения, который содержит текст, разделенный табуляцией (2 пробела). Но когда я извлекаю текст из этого файла изображения, я всегда получаю один пробел между двумя столбцами. Пример примера: ОБРАЗ: col-a col-b col-c Желаемый резу…
03 авг '18 в 08:26
0 ответов

Минимальный размер изображения для тессеракта

Я пытаюсь использовать tesseract распознавать символы из изображения. Это изображение создается путем захвата символов из другого изображения и помещения их в ряд в новом изображении. Проблема в том, когда я поставляю это изображение tesseract он ни…
31 май '18 в 10:32
1 ответ

Могу ли я проверить tesseract ocr в командной строке Windows?

Я новичок в тессеракте OCR. Я попытался преобразовать изображение в TIF и запустить его, чтобы увидеть, что вывод из tesseract с помощью cmd в Windows, но я не смог. Вы можете мне помочь? Какую команду использовать? Вот мой пример изображения:
08 окт '14 в 07:42
1 ответ

Преобразование страниц удаленного PDF во временные изображения для распознавания текста

У меня есть удаленный PDF-файл, который мне нужно читать постранично, и я продолжаю передавать каждый в OCR, который даст мне текст OCR. import pytesseract from pyPdf import PdfFileWriter, PdfFileReader import cStringIO from wand.image import Image …
28 июн '15 в 00:39
0 ответов

Читать слова со смешанными типами символов в тессеракте

Тессеракт, похоже, предпочитает сохранять согласованность типов символов в каждом "читаемом" слове. Пример использования pytesseract: ArialBold.traineddata tsr.image_to_string(skimage.io.imread('<image file path>')) # '750 GONZALEZ DR APT 65\n…
30 июл '18 в 16:24
2 ответа

UnicodeDecodeError с Tesseract OCR в Python

Я пытаюсь извлечь текст из файла изображения с помощью Tesseract OCR в Python, но я сталкиваюсь с ошибкой, которую я могу выяснить, как с этим справиться. все мое окружение хорошо, так как я протестировал образец изображения с ocr в python! вот код …
15 дек '15 в 15:37