Извлечение текста из файла PDF

Question

Извлечение текста из файла PDF

Мне нужно извлечь текст из файла PDF. Этот текст, вероятно, будет в табличном формате, и он будет использоваться для автоматической передачи данных между внешней стороной и нашими системами.

Кто-нибудь может предложить инструмент командной строки (например, pdf to txt) или библиотеку, которая была бы хороша для этого?

Варианты языка:

C# (предпочтительно)
Ява (если я должен)

Я нашел некоторые идеи здесь, но я думаю, что парень говорил больше об одноразовой ситуации, я говорю больше как ежедневный импорт:

https://stackru.com/questions/488089/extracting-tables-from-pdf-files

7

java c# pdf

Источник

user59198 14 авг '09 в 04:24

7 ответов

Решение

pdftotext кажется, делает свое дело довольно приятно.

pdftotext file.pdf [textfile.txt]

Изменить: я не уверен, как вы хотели бы сохранить информацию о таблицах. Лучше всего выглядит (по крайней мере, на мой человеческий глаз) получается

pdftotext -layout file.pdf [textfile.txt]

Это позволяет сохранить исходный макет документа как можно лучше. В частности, таблицы по-прежнему выглядят довольно хорошо при выводе текста. По умолчанию столбцы таблицы интерпретируются как столбцы текста (ужасно). Еще один вариант, который выглядит не так хорошо для меня, но все же может быть полезным, это -raw вариант.

4

Источник

user104142 14 авг '09 в 04:40

Существует также PdfBox и JPedal на Java. Таблицы не существуют в формате файла PDF, поэтому любое программное обеспечение будет "угадывать" их.

1

Источник

user146885 14 авг '09 в 06:12

Я не могу предоставить решение, но только дать общий совет. Я советую вам открыть PDF-документ в Блокноте или другом текстовом редакторе и изучить коды форматирования. Их очень легко понять. Например, //par - это абзац, а //tab - это табуляция. Когда вы узнаете коды форматирования для макетов таблиц, вам будет очень легко найти собственное решение для извлечения чего-либо из PDF-документа.

1

Источник

user152598 14 авг '09 в 04:52

Табличные данные в PDF обычно трудно извлечь должным образом, поскольку большинство файлов PDF не содержат метаданных структурированного содержимого. А без метаданных PDF-файлов это просто куча текста и других операций. В большинстве случаев только человек может сказать, есть ли таблица в документе.

Практически любые достаточно продвинутые инструменты и библиотеки пытаются структурировать текст, извлеченный из PDF, с помощью эвристики. Результаты, конечно, варьируются от инструмента к инструменту и от библиотеки к библиотеке.

Вы можете попробовать библиотеку Docotic.Pdf (отказ от ответственности: я работаю на Bit Miracle), чтобы извлечь текст из файлов PDF. Я считаю, что библиотека должна извлекать текст с качеством, достаточным для дальнейшей обработки.

Пожалуйста, посмотрите на пример, который показывает, как извлечь текст из PDF.

1

Источник

user249690 24 май '11 в 16:57

Apache Tika - это набор инструментов Java с открытым исходным кодом, который специализируется на том, что вы ищете: извлечение структурированного контекста из различных документов, включая PDF.

Он использует PDFBox для формата файлов PDF, но обеспечивает уровень абстракции, который идеально подходит для извлечения структурированного контекста.

Он содержит утилиту командной строки - см. Здесь.

1

Источник

user59470 14 авг '09 в 07:10

Попробуйте библиотеку java pdf с открытым исходным кодом

http://www.lowagie.com/iText/docs.html

0

Источник

user125470 14 авг '09 в 04:42

Другие вопросы по тегам java c# pdf