Adobe PDF Library возвращает слова с пробелами и без

Используя стандартный WordFinderConfig, некоторые строки возвращают пробелы между каждым словом, а некоторые - нет. В некоторых случаях я могу использовать флаг AdjacentToSpace, но не всегда. Часто пространство существует только в charquads.

    private WordFinder CreateWordFinder()
    {
        WordFinderConfig wordCfg = new WordFinderConfig();
        wordCfg.IgnoreCharGaps = false;
        wordCfg.IgnoreLineGaps = false;
        wordCfg.NoAnnots = false;
        wordCfg.NoEncodingGuess = false;
        wordCfg.UnknownToStdEnc = false;
        wordCfg.DisableTaggedPDF = false;
        wordCfg.NoXYSort = false;
        wordCfg.PreserveSpaces = true;
        wordCfg.NoLigatureExp = false;
        wordCfg.NoHyphenDetection = false;
        wordCfg.TrustNBSpace = false;
        wordCfg.NoExtCharOffset = false;
        wordCfg.NoStyleInfo = false;

        return new WordFinder(doc, WordFinderVersion.Latest, wordCfg);
    }

1 ответ

Это будет трудно комментировать, не видя PDF в вопросе.

Была ли у вас возможность протестировать наш образец C# TextExtract, поставляемый вместе с SDK, чтобы сравнить ваши результаты?

Если вы по-прежнему получаете плохие результаты, используя образец SDK, поставляемый в комплекте, нам нужно, чтобы вы открыли дело в нашем отделе поддержки (tech_support@datalogics.com) и предоставили соответствующий PDF-файл, чтобы мы могли глубже понять, что происходит и как лучше помочь вам. Пожалуйста, не стесняйтесь обращаться к нам.

Другие вопросы по тегам