Текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот
Я создал PDF-файл с возможностью поиска, выполнив следующую команду на одном из моих изображений.
tesseract page.jpg test pdf --oem 1 --psm 5 -l urd
это изображение, которое я преобразовал в PDF для поиска.
изображение содержит текст на языке урду, но когда я копирую его из вновь созданного файла PDF и вставляю в любой другой текстовый редактор, это то, что я получаю.
GehbFie"
Любой специалист по оптическому распознаванию и кодированию в тессеракте, который может решить мою проблему, пожалуйста, любая помощь будет высоко оценена, спасибо заранее.
1 ответ
Решение
pdf - это имя файла конфигурации. он должен стоять последним в команде, после --oem --psm -l и т. д.
правильный формат для команды следующий.
tesseract page.jpg test --oem 1 --psm 5 -l urd pdf
Я решил свою проблему таким образом.