Описание тега python-tesseract
Python-tesseract - это класс-оболочка для Tesseract OCR, который позволяет читать любые обычные файлы изображений (JPG, GIF, PNG, TIFF и т. Д.) И получать свой текст, данные текста или даже преобразовывать их в pdf.
1
ответ
pytesseract: извлечение данных из идентификаторов документов с помощью блоков
Я работаю над извлечением данных из идентификаторов, и мне нужно извлечь личные данные, такие как имя, данные о рождении и т. Д. Я попробовал Pytessaract, просто предоставив ему целое неразрезанное изображение удостоверения личности: txt = tool.imag…
23 апр '18 в 08:59
1
ответ
После успешной установки tesseract_ocr в Ubuntu он не отображает модуль с именем tesseract_ocr
Я установил Tesseract OCR через терминал Linux, но когда я попытался импортировать его в Python, появилась ошибка: /usr/bin/python2.7 /home/web/Documents/pnt/ocr.py Traceback (последний вызов был последним): Файл "/home/web/Documents/pnt/ocr.py", ст…
24 июн '15 в 09:59
1
ответ
Приложение Python с tesseract не работает в Bluemix
У меня есть приложение Python, которое использует tesseract для обнаружения флажков в отсканированных изображениях, прекрасно работает на моем локальном компьютере, но когда я отправляю свой код в Bluemix вместе с пакетом сборки python-tesseract, он…
12 ноя '17 в 01:24
0
ответов
Как улучшить точность распознавания?
Я пытаюсь создать модуль извлечения карт оценок, фон меняется каждый раз, и я пытался использовать много подходов, но самый чистый способ удалить фон из текста - это инвертировать изображение. Но проблема в том, что OCR не обнаруживает символы в изо…
13 сен '17 в 10:29
0
ответов
Улучшение скорости в tesseract для многих изображений
У вас есть идеи, как улучшить скорость тессеракта для многих изображений? У меня есть 2 примера. Сначала я конвертирую изображение в текст, содержащий около 200 слов. Это займет 1 секунду. Во-вторых, у меня есть цикл из 100 изображений, которые соде…
20 авг '18 в 18:21
0
ответов
Tesseract Ocr вылетает
Тессеракт падает при выполнении кода ниже from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('im1.png'))
03 ноя '18 в 19:25
0
ответов
Обработка темных текстовых изображений для tesseract ocr
Я заметил, что всякий раз, когда я использую темные фоновые изображения для тессеракта, я получаю ошибку сегментации. Я пытался извлечь символы с помощью этого кода #include <tesseract/baseapi.h> #include <leptonica/allheaders.h> #includ…
19 сен '15 в 07:28
1
ответ
Считайте текст из изображения, используя OCR для изображения, которое имеет два столбца или три столбца данных, используя Python
В примере изображения (просто ссылка, мои изображения будут одного рисунка) страница, которая имеет полный горизонтальный текст, а другая имеет два горизонтальных столбца текста. Как автоматически определить шаблон документа и прочитать один за друг…
13 апр '18 в 18:50
1
ответ
Ошибка в PYTHON OCR Tesseract
При запуске моего скрипта OCR на python из CMD я получаю эту ошибку. Это проблема с изображением или моим кодом? журнал ошибок D:\Documents\Everything Programming\_Not Hacking\Bots\Discord Bots\python img recog>imgrecog.py File "D:\Documents\Ever…
23 июл '17 в 23:36
0
ответов
PHP не может выполнить Pytesseract в Python
Я использую Postman для отправки изображения base64 в файл PHP на моем веб-сервере Apache. Изображение всегда отправляется успешно. PHP-скрипт выполняет Python-скрипт для извлечения текста из изображения (используя Pytesseract/Tesseract-OCR) и отпра…
25 авг '16 в 02:04
1
ответ
pip install tesserocr завершается с ошибкой "Не удалось создать колесо для tesserocr"
У меня уже есть последние сборки для лептоники и тессеракта tesseract 4.00.00alpha-365-gcf0b378 leptonica-1.74.1 libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 я также установил все зависимости, такие как python-dev Эт…
10 апр '17 в 06:29
2
ответа
Тессеракт OCR не смог распознать числа полной высоты
Я проверил образец текста как буквенно-цифровой, так и только цифры. Я использую режим цифр. Как распознать цифры как на следующем изображении: Я думаю, что это из-за полной высоты. Я также попытался преобразовать его в.jpg с помощью некоторых онлай…
03 апр '15 в 23:24
1
ответ
Как улучшить распознавание текста в изображении с помощью Python
Я пытался обнаружить текст в изображениях, особенно изображения с кавычками, используя OpenCV Python. Для этого я сначала тренирую текстовые изображения. Я обнаруживаю каждый символ текста на изображении, чтобы тренироваться. Для изображений с прави…
11 апр '18 в 14:11
1
ответ
Тессеракт дает нежелательные данные как вывод для японского языка
Я пытаюсь создать пример приложения на языке Java для японского языка, который будет читать файл изображения и просто выводить текст, извлеченный из изображения. Я нашел один пример приложения в сети, который отлично работает для английского языка, …
04 сен '17 в 14:04
1
ответ
Сохранение пробелов в Тессеракте
У меня был файл изображения, который содержит текст, разделенный табуляцией (2 пробела). Но когда я извлекаю текст из этого файла изображения, я всегда получаю один пробел между двумя столбцами. Пример примера: ОБРАЗ: col-a col-b col-c Желаемый резу…
03 авг '18 в 08:26
0
ответов
Минимальный размер изображения для тессеракта
Я пытаюсь использовать tesseract распознавать символы из изображения. Это изображение создается путем захвата символов из другого изображения и помещения их в ряд в новом изображении. Проблема в том, когда я поставляю это изображение tesseract он ни…
31 май '18 в 10:32
1
ответ
Могу ли я проверить tesseract ocr в командной строке Windows?
Я новичок в тессеракте OCR. Я попытался преобразовать изображение в TIF и запустить его, чтобы увидеть, что вывод из tesseract с помощью cmd в Windows, но я не смог. Вы можете мне помочь? Какую команду использовать? Вот мой пример изображения:
08 окт '14 в 07:42
1
ответ
Преобразование страниц удаленного PDF во временные изображения для распознавания текста
У меня есть удаленный PDF-файл, который мне нужно читать постранично, и я продолжаю передавать каждый в OCR, который даст мне текст OCR. import pytesseract from pyPdf import PdfFileWriter, PdfFileReader import cStringIO from wand.image import Image …
28 июн '15 в 00:39
0
ответов
Читать слова со смешанными типами символов в тессеракте
Тессеракт, похоже, предпочитает сохранять согласованность типов символов в каждом "читаемом" слове. Пример использования pytesseract: ArialBold.traineddata tsr.image_to_string(skimage.io.imread('<image file path>')) # '750 GONZALEZ DR APT 65\n…
30 июл '18 в 16:24
2
ответа
UnicodeDecodeError с Tesseract OCR в Python
Я пытаюсь извлечь текст из файла изображения с помощью Tesseract OCR в Python, но я сталкиваюсь с ошибкой, которую я могу выяснить, как с этим справиться. все мое окружение хорошо, так как я протестировал образец изображения с ocr в python! вот код …
15 дек '15 в 15:37