Текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот

Question

Текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот

Я создал PDF-файл с возможностью поиска, выполнив следующую команду на одном из моих изображений.

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

это изображение, которое я преобразовал в PDF для поиска.

изображение содержит текст на языке урду, но когда я копирую его из вновь созданного файла PDF и вставляю в любой другой текстовый редактор, это то, что я получаю.

GehbFie"

Любой специалист по оптическому распознаванию и кодированию в тессеракте, который может решить мою проблему, пожалуйста, любая помощь будет высоко оценена, спасибо заранее.

1

pdf cmd ocr tesseract urdu

Источник

user9590827 04 окт '18 в 14:29

1 ответ

Решение

Другие вопросы по тегам pdf cmd ocr tesseract urdu

user9590827 16 окт '18 в 15:40 2018-10-16 15:40 · Accepted Answer · 2018-10-16 15:40

pdf - это имя файла конфигурации. он должен стоять последним в команде, после --oem --psm -l и т. д.

правильный формат для команды следующий.

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

Я решил свою проблему таким образом.

1

Источник

user9590827 16 окт '18 в 15:40