Разбор hOCR в JSON с помощью Python

Question

Разбор hOCR в JSON с помощью Python

Я использую tesseract-ocr и получаю вывод в формате hOCR. Мне нужно сохранить этот вывод hOCR в базе данных (в моем случае PostgreSQL).

Так как мне может понадобиться каждая часть информации (80%) от этого hOCR в отдельности, какой подход будет правильным? Должен ли он быть сохранен как тип данных XML или проанализирован в JSON и сохранен? А в случае JSON, как проанализировать этот hOCR в JSON с Python. Другие связанные предложения также приветствуются.

1

python postgresql parsing python-tesseract hocr

Источник

user6644597 19 июл '18 в 11:16

1 ответ

Другие вопросы по тегам python postgresql parsing python-tesseract hocr

user165216 19 июл '18 в 15:37 2018-07-19 15:37 · Answer 1 · 2018-07-19 15:37

hOCR - это диалект XML, поэтому вы должны иметь возможность использовать xml.etree модуль из stdlib для анализа кода hOCR в Python-ориентируемое дерево. Затем перейдите по этому дереву, чтобы составить объект или вложенный dict, и, наконец, используя команду stdlib. json Модуль для преобразования этого диктата в JSON.