прочитать дату с помощью pdfminer3 в python

Question

прочитать дату с помощью pdfminer3 в python

Я пытаюсь автоматически извлечь дату, которая стоит после слова "дата" в PDF-файле. Я попробовал код, предложенный ЛаВаром в этом ответе: Как использовать PDFminer.six с python 3?

Это работает очень хорошо, и я получаю текстовую строку документа. К сожалению, дата после слова 'date' отсутствует и заменена следующим: "{{pf-fecha format="dd/MM/yyyy"}}" (это испанский документ, fecha=date).

Другие даты в документе читаются как даты - я думаю, это как-то связано с форматированием этой конкретной даты? Есть ли способ извлечь эту дату из этого pdf-файла?

Я использую python 3.7 с версией pdfminer3 2018.12.3.0.

0

python pdfminer python-pdfreader

Источник

user6469960 26 май '20 в 14:02

0 ответов

Другие вопросы по тегам python pdfminer python-pdfreader