Text Mining из PDF-файла с использованием Python
У меня есть годовой отчет компании (в формате.pdf), и я хочу получить балансовый отчет и другую связанную форму отчета годового отчета с использованием Python. я пытался с PyPDF2 lib, но он извлекает очень неструктурированный текст. там в любом случае??
2 ответа
Вы должны использовать textract
https://github.com/deanmalmgren/textract
Он поддерживает различные типы файлов для извлечения текста.
Ваш вопрос не очень понятен. Я понимаю это, поскольку проделал большую работу по извлечению из годовых отчетов Великобритании. Чтобы объяснить другим, то, что вы просите, звучит прямо, где на самом деле это кошмар. Годовые отчеты представляются в формате PDF, и ни одна из фирм, производящих их, не следует никаким стандартам, что затрудняет анализ этих отчетов даже вручную. PDF-файлы теряют структуру, когда вы конвертируете их в текст. У меня есть Java-инструмент, который читает и обнаруживает структуру годовых отчетов PDF в Великобритании (аналогично тому, который вы указали в ссылке). Мне понадобилось 5 лет, чтобы найти решение, которое может обрабатывать до 95% всех годовых отчетов Великобритании, несмотря на огромные различия между ними. Посмотрите: https://github.com/drelhaj/CFIE-FRSE там есть ссылки на статьи о том, как мы это сделали.