Методы обучения Тессеракт для простых списков
Поэтому я тренируюсь для адаптивного классификатора (движок по умолчанию в Tesseract). Но у меня возникли некоторые проблемы с этим, документация очень фрагментирована и / или отсутствует.
Для начала я готовлюсь к очень небольшому набору данных, я думал, что просто начну использовать arial black, пока не соберу больше данных по моей теме. Я хотел бы распознать ярлыки на скажем косметика (на датском языке), который является просто список (слова, разделенные запятыми). И только очень конкретные слова, в частности:
smør, ost, йогурт, ymer, ylette, fløde, молочный коктейль, лактоза, mælkesukker, animalsk fedtstof, animalsk olie, smørolie, bagermargarine, маргарин, минарин, ризбиджмель, inddampet mælk, mælketeinææækskskskekekeke teinkekekekekeketeinkekeketeinkekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekekeke, лактальбумин, казеин, казеинат, кальцийказеинат, калийказеинат, натриумказеинат, валле, валепротеин, валлепульвер, молок,
И те же слова, начинающиеся с заглавной буквы (пример: "Vallepulver"). Но я продолжаю испытывать трудности с поиском правильного файла конфигурации для этого типа морфологии, хотя я думаю, что мне, вероятно, следует использовать систему DAWG, поскольку точность и скорость очень важны.
До сих пор я предпринял следующие шаги: Использовал jTessboxeditor для генерации файла.box, преобразовал файл.box в файл.tr с файлом образа файла tesseract. файл свойств шрифта со следующим содержимым: arial 1 0 0 0 0 Затем кластеризуйте элементы символов с помощью "mftraining" "cntraining" Переименование всех файлов на выбранное мной имя языка Создание списка слов, содержащего приведенный выше список Преобразование списка слов в язык. words.dawg с wordlist2dawg И, наконец, объединение данных с lang comb_tessdata. Но я все еще экспериментирую с очень неточными результатами (я использую scantailor для предварительной обработки изображений перед подачей их в Tesseract), вот изображение (в формате.tif), на котором я сейчас тестирую tesseract:
https://drive.google.com/file/d/0B8e0HDFGiNZOOXpWbUQwc0l3N2xqYlE3SGN4d1BPcHlxQVRn/view?usp=sharing
Предполагается, что система распознает только слова из вышеприведенного списка (поэтому единственным соответствием между списком и изображением будет "молоко").
Любые предложения о том, что я могу сделать неправильно / улучшить (особенно в моем несуществующем конфиге), будут очень признательны, так как я уже давно борюсь с этим.
Искренне отчаянный парень-ботаник.