Извлечение таблиц из PDF документа

Я хочу извлечь таблицы в PDF документ программно с использованием C# для проекта колледжа. я довольно знаком с itextsharp,

  1. Есть ли способ извлечь таблицы в itextsharp?
  2. Есть ли другая бесплатная библиотека, которую я могу использовать для этой цели?
  3. Могу ли я преобразовать PDF в XML/HTML для того, чтобы извлечь <table> теги, если так, есть ли свободная библиотека, которую я могу использовать для PDF в HTML преобразование?

    или же

пожалуйста, дайте мне подходящее решение для этого..

1 ответ

Можете ли вы попробовать что-то вроде этого и расширить то, что вам нужно из этого примера, который я преобразовал из VB.Net в C# эквивалент

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;

    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}
Другие вопросы по тегам