PDFtoTEXT не преобразует текст в кодировке UTF-8 полностью, особенно акцентированные символы

Я работаю над проектом, который требует конвертировать PDF в текст. PDF содержит шрифты хинди (Mangal, чтобы быть определенным) наряду с английским языком.

100% английского языка конвертируется в текст. Конверсия части хинди составляет около 95%. Оставшиеся 5% текста на хинди могут быть пустыми или похожими на "ा". Я мог бы понять, что акцентированные символы не конвертируются в текст должным образом.

Я использую следующий код:

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF использует следующие шрифты

имя, тип, эм, суб, уни

ZDPKEY+Mangal, CID TrueType, да, да, да

Mangal TrueType, нет, нет, нет

Helvetica-Bold Type 1, нет, нет, нет

CODUBM+Mangal-Bold, CID TrueType, да, да, да

Mangal-Bold, TrueType, нет, нет, нет

Times-Roman, Тип 1 нет, нет, нет

Helvetica, Тип 1, нет, нет, нет

Ниже приведен результат конвертации. Левая сторона - оригинальный PDF. Правая сторона - текст, открытый в блокноте:

http://preview.tinyurl.com/qbxud9o

У меня вопрос: правильно ли перехвачены 5% пропущенных / ненужных символов в тексте с пакетами с открытым исходным кодом? Буду признателен за ваш вклад!

1 ответ

Измените свой код на.

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

Это сработало для меня, так же, как это должно работать для вас.

Другие вопросы по тегам