Text Mining из PDF-файла с использованием Python

Question

Text Mining из PDF-файла с использованием Python

У меня есть годовой отчет компании (в формате.pdf), и я хочу получить балансовый отчет и другую связанную форму отчета годового отчета с использованием Python. я пытался с PyPDF2 lib, но он извлекает очень неструктурированный текст. там в любом случае??

-3

python pypdf2

Источник

user6002535 01 сен '18 в 05:08

2 ответа

Другие вопросы по тегам python pypdf2

user4723732 01 сен '18 в 06:42 2018-09-01 06:42 · Answer 1 · 2018-09-01 06:42

Вы должны использовать textract

https://github.com/deanmalmgren/textract

Он поддерживает различные типы файлов для извлечения текста.

0

Источник

user4723732 01 сен '18 в 06:42

user1980638 19 окт '18 в 00:06 2018-10-19 00:06 · Answer 2 · 2018-10-19 00:06

Ваш вопрос не очень понятен. Я понимаю это, поскольку проделал большую работу по извлечению из годовых отчетов Великобритании. Чтобы объяснить другим, то, что вы просите, звучит прямо, где на самом деле это кошмар. Годовые отчеты представляются в формате PDF, и ни одна из фирм, производящих их, не следует никаким стандартам, что затрудняет анализ этих отчетов даже вручную. PDF-файлы теряют структуру, когда вы конвертируете их в текст. У меня есть Java-инструмент, который читает и обнаруживает структуру годовых отчетов PDF в Великобритании (аналогично тому, который вы указали в ссылке). Мне понадобилось 5 лет, чтобы найти решение, которое может обрабатывать до 95% всех годовых отчетов Великобритании, несмотря на огромные различия между ними. Посмотрите: https://github.com/drelhaj/CFIE-FRSE там есть ссылки на статьи о том, как мы это сделали.