Извлечение таблиц из PDF документа

Question

Извлечение таблиц из PDF документа

Я хочу извлечь таблицы в PDF документ программно с использованием C# для проекта колледжа. я довольно знаком с itextsharp,

Есть ли способ извлечь таблицы в itextsharp?
Есть ли другая бесплатная библиотека, которую я могу использовать для этой цели?
Могу ли я преобразовать PDF в XML/HTML для того, чтобы извлечь <table> теги, если так, есть ли свободная библиотека, которую я могу использовать для PDF в HTML преобразование?
или же

пожалуйста, дайте мне подходящее решение для этого..

2

c# pdf itextsharp pdf-to-html

Источник

user3297553 20 авг '14 в 16:14

1 ответ

Другие вопросы по тегам c# pdf itextsharp pdf-to-html

user955076 20 авг '14 в 16:29 2014-08-20 16:29 · Answer 1 · 2014-08-20 16:29

Можете ли вы попробовать что-то вроде этого и расширить то, что вам нужно из этого примера, который я преобразовал из VB.Net в C# эквивалент

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;

    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}