Извлечение таблиц из PDF документа
Я хочу извлечь таблицы в PDF
документ программно с использованием C# для проекта колледжа. я довольно знаком с itextsharp
,
- Есть ли способ извлечь таблицы в
itextsharp
? - Есть ли другая бесплатная библиотека, которую я могу использовать для этой цели?
Могу ли я преобразовать
PDF
в XML/HTML для того, чтобы извлечь<table>
теги, если так, есть ли свободная библиотека, которую я могу использовать дляPDF
в HTML преобразование?или же
пожалуйста, дайте мне подходящее решение для этого..
1 ответ
Можете ли вы попробовать что-то вроде этого и расширить то, что вам нужно из этого примера, который я преобразовал из VB.Net в C# эквивалент
public static string GetTextFromPDF(string PdfFileName)
{
iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
dynamic sOut = string.Empty;
for (i = 1; i <= pdfReader.NumberOfPages; i++) {
iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
}
return sOut;
}