Разбор hOCR в JSON с помощью Python

Я использую tesseract-ocr и получаю вывод в формате hOCR. Мне нужно сохранить этот вывод hOCR в базе данных (в моем случае PostgreSQL).

Так как мне может понадобиться каждая часть информации (80%) от этого hOCR в отдельности, какой подход будет правильным? Должен ли он быть сохранен как тип данных XML или проанализирован в JSON и сохранен? А в случае JSON, как проанализировать этот hOCR в JSON с Python. Другие связанные предложения также приветствуются.

1 ответ

hOCR - это диалект XML, поэтому вы должны иметь возможность использовать xml.etree модуль из stdlib для анализа кода hOCR в Python-ориентируемое дерево. Затем перейдите по этому дереву, чтобы составить объект или вложенный dict, и, наконец, используя команду stdlib. json Модуль для преобразования этого диктата в JSON.

Другие вопросы по тегам