Как извлечь текст, помеченный для редактирования, из PDF-файла с помощью iTextSharp?
Это продолжение этого вопроса
Мы выяснили, как извлечь текст, помеченный для редактирования, используя код ниже.
Тем не менее, есть дополнительные начальные и конечные символы, захваченные за пределы текста, помеченного для редактирования.
Например, если предложение помечено для редактирования в исходном документе PDF, приведенный ниже код также захватывает последние несколько символов предыдущего предложения и первые несколько символов следующего предложения.
Кто-нибудь может увидеть проблему в коде ниже?
for (int i = 1; i <= rdr.NumberOfPages; i++)
{
// Get pages and corresponding annotations
PdfDictionary dict = rdr.GetPageN(i);
PdfArray annots = dict.GetAsArray(PdfName.ANNOTS);
foreach (var annItem in annots.ArrayList)
{
PdfDictionary d = PdfReader.GetPdfObject(annItem) as PdfDictionary;
PdfName typ = d.GetAsName(PdfName.SUBTYPE);
if (typ.ToString().StartsWith("/Redact"))
{
sb = new StringBuilder();
PdfObject o1 = d.Get(PdfName.QUADPOINTS);
PdfArray arr2 = o1 as PdfArray;
int numLines = arr2.ArrayList.Count / 8;
for (int k = 0; k < numLines; k++)
{
llx = float.Parse(arr2[(0 + k * 8)].ToString());
lly = float.Parse(arr2[(1 + k * 8)].ToString());
urx = float.Parse(arr2[(6 + k * 8)].ToString());
ury = float.Parse(arr2[(7 + k * 8)].ToString());
Rectangle rect = new Rectangle(llx, lly, urx, ury, 1);
List<RenderFilter> filters = new List<RenderFilter>();
filters.Add(new RegionTextRenderFilter(rect));
strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(),
filters.ToArray<RenderFilter>());
// We get the text but get extra leading/trailing chars that are not in redaction.
sb.Append(PdfTextExtractor.GetTextFromPage(rdr, i, strategy));
}
Console.WriteLine("Page: " + i.ToString());
Console.WriteLine(sb.ToString() + Environment.NewLine);
sb.Clear();
}
}
}
1 ответ
Решение
Для полноты ответа на этот вопрос был дан ответ в списке рассылки iText: http://thread.gmane.org/gmane.comp.java.lib.itext.general/62918