PDFtoTEXT не преобразует текст в кодировке UTF-8 полностью, особенно акцентированные символы
Я работаю над проектом, который требует конвертировать PDF в текст. PDF содержит шрифты хинди (Mangal, чтобы быть определенным) наряду с английским языком.
100% английского языка конвертируется в текст. Конверсия части хинди составляет около 95%. Оставшиеся 5% текста на хинди могут быть пустыми или похожими на "ा". Я мог бы понять, что акцентированные символы не конвертируются в текст должным образом.
Я использую следующий код:
pdftotext -enc UTF-8 pdfname.pdf textname.txt
PDF использует следующие шрифты
имя, тип, эм, суб, уни
ZDPKEY+Mangal, CID TrueType, да, да, да
Mangal TrueType, нет, нет, нет
Helvetica-Bold Type 1, нет, нет, нет
CODUBM+Mangal-Bold, CID TrueType, да, да, да
Mangal-Bold, TrueType, нет, нет, нет
Times-Roman, Тип 1 нет, нет, нет
Helvetica, Тип 1, нет, нет, нет
Ниже приведен результат конвертации. Левая сторона - оригинальный PDF. Правая сторона - текст, открытый в блокноте:
http://preview.tinyurl.com/qbxud9o
У меня вопрос: правильно ли перехвачены 5% пропущенных / ненужных символов в тексте с пакетами с открытым исходным кодом? Буду признателен за ваш вклад!
1 ответ
Измените свой код на.
pdftotext -enc "UTF-8" pdfname.pdf textname.txt
Это сработало для меня, так же, как это должно работать для вас.