Не преобразование Unicode в Unicode, для любого шрифта!

У меня есть HTML-файл с текстом, закодированным не шрифтом Unicode. Мне нужно конвертировать этот файл в Unicode. Я искал конвертор. Но большинство конвертеров работают только со списком шрифтов, а не со всеми шрифтами.

Мой шрифт очень специфический, текст написан на деванагари. У меня есть файл, у меня есть шрифт, теперь, пожалуйста, предложите мне инструмент или технику. Благодарю.

2 ответа

Unicode - это не шрифты, а кодировка. Вам нужно найти конвертер, который может конвертировать ваш текст в Unicode. Какова кодировка вашего текста?

Apache Tika имеет возможность извлекать текст из PDF-файлов благодаря знанию поведения шрифта. Так что если файл на самом деле PDF, у вас есть шанс. Если у вас есть текстовый файл, полный индексов шрифтов без какой-либо конкретной кодировки, у вас впереди большая работа по программированию.

Другие вопросы по тегам