NoneH OCR is an open standard which defines a data format for representation of OCR output.
5 ответов

Как сегментировать документ с помощью Tesseract, а затем вывести получившиеся ограничивающие рамки и метки

Я пытаюсь заставить Tesseract вывести файл с помеченными ограничивающими рамками, которые являются результатом сегментации страницы (до распознавания текста). Я знаю, что он должен быть в состоянии сделать это "из коробки" из-за результатов, показан…
18 фев '15 в 18:27
3 ответа

Невозможно понять координаты в извлеченном документе, используя тессеракт механизма OCR

Я извлек документ изображения из tesseract, и он был извлечен успешно. Но я не могу понять координаты извлеченного документа. Описание проблемы: - Это показывает координаты, но дайте мне знать, что эти координаты представляют пиксель или что-то еще.…
31 авг '13 в 16:38
1 ответ

Извлечение <strong> текста с помощью ElementTree

Я пытаюсь запустить следующий код, чтобы извлечь весь текст из файла XML: пожалуйста, обратите внимание на "word_1_14" - слово word.text не соответствует типу, поэтому не распечатывается... Я обнаружил, что это потому, что текст с сильным тегом дела…
15 ноя '16 в 07:56
0 ответов

Есть ли способ сгенерировать FO с входным файлом HOCR?

Есть ли способ создать XSL-FO, который может иметь в качестве входных данных HOCR, сгенерированный с помощью tesseract, для создания PDF с доступным для поиска текстом?
04 июл '17 в 18:56
1 ответ

C# генерирует hocr файл, используя charlesw tesseract

Как я могу генерировать HOCR с помощью оболочки Tesseract здесь В настоящее время мне нужно динамически добавить местоположение tessdata в переменные среды и запустить мой код System.Diagnostics.Process pProcess = new System.Diagnostics.Process(); p…
03 окт '16 в 01:54
4 ответа

Как получить вывод Hocr с помощью python-tesseract

Я получил действительно хорошие результаты, используя pytesseract, но он не в состоянии сохранить двойные пробелы, и они действительно важны для меня. И поэтому я решил получить вывод hocr, а не чистый текст. Но, похоже, нет никакого способа указать…
13 дек '15 в 06:10
0 ответов

Tesseract.js не экспортирует файл hocr

Tesseract.js экспортирует файл hocr? Я использую это в моем коде: Tesseract.recognize(file, { tessedit_char_whitelist: '0123456789', tessedit_create_hocr: 1, classify_bln_numeric_mode: 1 }).then(function(result) { document.getElementById("ocr_result…
01 мар '18 в 18:53
2 ответа

Конвертировать hOCR в HTML таблицу

Я ищу инструмент или идею, которая будет реализована в Python, который преобразует файл hOCR (генерируется tesseract в приложении) в HTML-таблицу. Идея состоит в том, чтобы использовать текстовую информацию о местоположении в файле hOCR (предоставле…
24 июн '15 в 14:45
2 ответа

HOCR в HTML для визуализации

Как конвертировать hOCR в HTML для визуализации? Если вы открываете необработанный файл hOCR, он отображается только как обычный текст (элементы не располагаются)
13 июл '16 в 20:35
0 ответов

Преобразование текста в формате hOCR в Json

Попытка реализовать класс Java для преобразования вывода hOCR из Tesseract в данные в формате JSON. В настоящее время мы используем Abbey для нашей службы OCR, и они возвращают данные в формате JSON для местоположения Слова на изображении OCR. Но Те…
30 июн '17 в 15:26
2 ответа

Получение точного размера шрифта в выводе hocr

Я использую Tesseract для извлечения текста и форматирования из большого объема страниц, которые выглядят так: Пример страницы текста OCR с различной высотой строки (Мои исходные изображения имеют разрешение 1200 точек на дюйм; я уменьшил до 600 точ…
20 апр '17 в 23:02
0 ответов

Предельный размер пространства в Тессеракте

Я пишу на Python, используя pytesseract или прямой Popen звонки при необходимости. Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: Проблема в .hocr файл, сгенерированный Tesseract Я получаю строки, состоящие из левого и…
29 сен '18 в 19:26
1 ответ

Тессеракт hOCR: как обнаружить с ног на голову?

(Я отвечу на свой вопрос здесь для общего знания) В Tesseract OCR как вы обнаруживаете изображение с ног на голову?Люди, которые работали с Tesseract, могут знать, а могут и не знать, что Tesseract может читать изображения, которые представлены с но…
03 янв '14 в 19:16
1 ответ

Действительно ли вывод hocr Тессеракта содержит ограничивающие рамки и уровни достоверности для каждого символа?

В FAQ по Tesseract говорится, что вы можете: Как я могу получить координаты и уверенность каждого персонажа? Есть два варианта. Если вы предпочитаете не заниматься программированием, вы можете использовать формат вывода hocr Tesseract (подробности с…
05 апр '13 в 08:24
0 ответов

Как получить макет скрытого текста, который tesseract создает для файлов pdf?

У меня нет большого опыта работы с ocr. Вот что я пытаюсь: tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf Результатом является идеально структурированное расположение скрытого текста - слова находятся на своих точных местах при …
07 мар '16 в 10:24
1 ответ

Разбор hOCR в JSON с помощью Python

Я использую tesseract-ocr и получаю вывод в формате hOCR. Мне нужно сохранить этот вывод hOCR в базе данных (в моем случае PostgreSQL). Так как мне может понадобиться каждая часть информации (80%) от этого hOCR в отдельности, какой подход будет прав…
19 июл '18 в 11:16
1 ответ

Файлы hOCR с Tesseract / Определение, имеет ли PDF высококачественные текстовые слои

У меня есть установка Tesseract 4.0, которую мы используем с моделью LSTM для распознавания текста; входящие отсканированные PDF-файлы деконструируются в отдельные PNG-файлы с разрешением 300 точек на дюйм, затем форматируются на листы и распознаютс…
14 фев '18 в 02:41
1 ответ

Тессеракт hOCR iOS

Я изучаю, как использовать API Тессеракта, и меня интересует функция вывода hOCR. В настоящее время я использую этот код для сканирования изображения. Tesseract* tesseract = [[Tesseract alloc] initWithLanguage:@"eng"]; tesseract.delegate = self; [te…
04 фев '14 в 02:20
1 ответ

Извлечение данных из файла hser tesseract hocr

Я пытаюсь использовать Python для извлечения данных из выходного файла hocr Тессеракта. Мы ограничены версией tesseact 3.04, поэтому ни функция image_to_data, ни вывод tsv недоступны. Я был в состоянии сделать это с Beautifulsoup и в R, но это не до…
05 июн '18 в 14:10
0 ответов

Как включить информацию о шрифте hocr в tesseract 4?

Я использую tessseract 4 на Ubuntu 16.04. поэтому при использовании функции hocr в tesseract и после активации информации о шрифте в файле конфигурации hocr (hocr_font_info 1) я все еще не получаю информацию " x_font ". Есть ли другой способ включит…
15 июн '17 в 15:38