Текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот

Я создал PDF-файл с возможностью поиска, выполнив следующую команду на одном из моих изображений.

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

это изображение, которое я преобразовал в PDF для поиска. введите описание изображения здесь

изображение содержит текст на языке урду, но когда я копирую его из вновь созданного файла PDF и вставляю в любой другой текстовый редактор, это то, что я получаю.

GehbFie"

Любой специалист по оптическому распознаванию и кодированию в тессеракте, который может решить мою проблему, пожалуйста, любая помощь будет высоко оценена, спасибо заранее.

1 ответ

Решение

pdf - это имя файла конфигурации. он должен стоять последним в команде, после --oem --psm -l и т. д.

правильный формат для команды следующий.

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

Я решил свою проблему таким образом.

Другие вопросы по тегам