Itextsharp не может извлекать содержимое PDF в формате Unicode в C#

Question

Itextsharp не может извлекать содержимое PDF в формате Unicode в C#

Я пытаюсь получить содержимое PDF-файла, используя itextsharp как вы видете:

static void Main(string[] args)
{
    StringBuilder text = new StringBuilder();
    using (PdfReader reader = new PdfReader(@"D:\a.pdf"))
    {
        for (int i = 1; i <= reader.NumberOfPages; i++)
        {
            text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
        }
    }
    System.IO.File.WriteAllText(@"c:/a.txt",text.ToString());
    Console.ReadLine();
}

Мой pdf контент написан на Persian и после запуска приведенного выше кода результат выглядит так:

Но это не правильный результат. Должен ли я установить любую опцию в itextsharp

-1

c# pdf unicode itextsharp persian

Источник

user3446201 16 фев '16 в 15:15

1 ответ

Другие вопросы по тегам c# pdf unicode itextsharp persian

user712093 16 фев '16 в 16:58 2016-02-16 16:58 · Answer 1 · 2016-02-16 16:58

Трудно сказать без оригинального файла, но если у вас неправильно введены символы / слова, вы должны попытаться использовать LocationTextExtractionStrategy как это:

text.Append(PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());

0

Источник

user712093 16 фев '16 в 16:58