Разбор hOCR в JSON с помощью Python
Я использую tesseract-ocr и получаю вывод в формате hOCR. Мне нужно сохранить этот вывод hOCR в базе данных (в моем случае PostgreSQL).
Так как мне может понадобиться каждая часть информации (80%) от этого hOCR в отдельности, какой подход будет правильным? Должен ли он быть сохранен как тип данных XML или проанализирован в JSON и сохранен? А в случае JSON, как проанализировать этот hOCR в JSON с Python. Другие связанные предложения также приветствуются.
1 ответ
hOCR - это диалект XML, поэтому вы должны иметь возможность использовать xml.etree
модуль из stdlib для анализа кода hOCR в Python-ориентируемое дерево. Затем перейдите по этому дереву, чтобы составить объект или вложенный dict, и, наконец, используя команду stdlib. json
Модуль для преобразования этого диктата в JSON.