Как извлечь текст, помеченный для редактирования, из PDF-файла с помощью iTextSharp?

Это продолжение этого вопроса

Мы выяснили, как извлечь текст, помеченный для редактирования, используя код ниже.

Тем не менее, есть дополнительные начальные и конечные символы, захваченные за пределы текста, помеченного для редактирования.

Например, если предложение помечено для редактирования в исходном документе PDF, приведенный ниже код также захватывает последние несколько символов предыдущего предложения и первые несколько символов следующего предложения.

Кто-нибудь может увидеть проблему в коде ниже?

  for (int i = 1; i <= rdr.NumberOfPages; i++)
                {
                    // Get pages and corresponding annotations

                    PdfDictionary dict = rdr.GetPageN(i);
                    PdfArray annots = dict.GetAsArray(PdfName.ANNOTS);

                    foreach (var annItem in annots.ArrayList)
                    {
                        PdfDictionary d = PdfReader.GetPdfObject(annItem) as PdfDictionary;
                        PdfName typ = d.GetAsName(PdfName.SUBTYPE);
                        if (typ.ToString().StartsWith("/Redact"))
                        {
                            sb = new StringBuilder();
                            PdfObject o1 = d.Get(PdfName.QUADPOINTS);
                            PdfArray arr2 = o1 as PdfArray;
                            int numLines = arr2.ArrayList.Count / 8;
                            for (int k = 0; k < numLines; k++)
                            {
                                llx = float.Parse(arr2[(0 + k * 8)].ToString());
                                lly = float.Parse(arr2[(1 + k * 8)].ToString());
                                urx = float.Parse(arr2[(6 + k * 8)].ToString());
                                ury = float.Parse(arr2[(7 + k * 8)].ToString());

                                Rectangle rect = new Rectangle(llx, lly, urx, ury, 1);

                                List<RenderFilter> filters = new List<RenderFilter>();
                                filters.Add(new RegionTextRenderFilter(rect));
                                strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(),
                                    filters.ToArray<RenderFilter>());
                                // We get the text but get extra leading/trailing chars that are not in redaction.
                                sb.Append(PdfTextExtractor.GetTextFromPage(rdr, i, strategy));
                            }
                            Console.WriteLine("Page: " + i.ToString());
                            Console.WriteLine(sb.ToString() + Environment.NewLine);
                            sb.Clear();

                       }
                    }
                }

1 ответ

Решение

Для полноты ответа на этот вопрос был дан ответ в списке рассылки iText: http://thread.gmane.org/gmane.comp.java.lib.itext.general/62918

Другие вопросы по тегам