Преобразование текста в формате hOCR в Json
Попытка реализовать класс Java для преобразования вывода hOCR из Tesseract в данные в формате JSON. В настоящее время мы используем Abbey для нашей службы OCR, и они возвращают данные в формате JSON для местоположения Слова на изображении OCR. Но Тессеракт только возвращает hOCR. Так что нужно преобразовать вывод тессерактов в соответствие с тем, что в Аббатстве.