Adobe PDF Library возвращает слова с пробелами и без
Используя стандартный WordFinderConfig, некоторые строки возвращают пробелы между каждым словом, а некоторые - нет. В некоторых случаях я могу использовать флаг AdjacentToSpace, но не всегда. Часто пространство существует только в charquads.
private WordFinder CreateWordFinder()
{
WordFinderConfig wordCfg = new WordFinderConfig();
wordCfg.IgnoreCharGaps = false;
wordCfg.IgnoreLineGaps = false;
wordCfg.NoAnnots = false;
wordCfg.NoEncodingGuess = false;
wordCfg.UnknownToStdEnc = false;
wordCfg.DisableTaggedPDF = false;
wordCfg.NoXYSort = false;
wordCfg.PreserveSpaces = true;
wordCfg.NoLigatureExp = false;
wordCfg.NoHyphenDetection = false;
wordCfg.TrustNBSpace = false;
wordCfg.NoExtCharOffset = false;
wordCfg.NoStyleInfo = false;
return new WordFinder(doc, WordFinderVersion.Latest, wordCfg);
}
1 ответ
Это будет трудно комментировать, не видя PDF в вопросе.
Была ли у вас возможность протестировать наш образец C# TextExtract, поставляемый вместе с SDK, чтобы сравнить ваши результаты?
Если вы по-прежнему получаете плохие результаты, используя образец SDK, поставляемый в комплекте, нам нужно, чтобы вы открыли дело в нашем отделе поддержки (tech_support@datalogics.com) и предоставили соответствующий PDF-файл, чтобы мы могли глубже понять, что происходит и как лучше помочь вам. Пожалуйста, не стесняйтесь обращаться к нам.