Как извлечь текст под конкретные заголовки из PDF?

Question

Как извлечь текст под конкретные заголовки из PDF?

Я хочу извлечь текст под определенными заголовками из PDF, используя Python.

Например, у меня есть PDF с заголовками Введение, Резюме, Содержание. Мне нужно извлечь только текст под заголовком "Резюме".

Как я могу это сделать?

14

python-2.7 pdf document text-extraction pdf-extraction

Источник

user9030603 05 янв '18 в 05:19

1 ответ

Другие вопросы по тегам python-2.7 pdf document text-extraction pdf-extraction

user11763253 10 июл '19 в 12:14 2019-07-10 12:14 · Answer 1 · 2019-07-10 12:14

Именно над этим сценарием я работаю в своей нынешней компании. Нам нужно извлечь текст, лежащий под заголовком. Я лично использую систему на основе правил, то есть использую регулярное выражение для идентификации всех пронумерованных заголовков после чтения всего документа построчно. Получив заголовки, я ввожу название заголовка, для которого хочу найти соответствующий абзац. Этот ввод сопоставляется с уже существующим списком заголовков, и с помощью универсального кодировщика предложений я нахожу ближайшее совпадение. После этого я просто отображаю все содержимое, которое присутствует, начиная с этого заголовка и заканчивая непосредственно следующим заголовком.

user5350582 22 июл '20 в 09:14 2020-07-22 09:14 · Answer 2 · 2020-07-22 09:14

Лучший метод, который я нашел, используя регулярное выражение

regex = r"^\d+(?:\.\d+)* .*(?:\r?\n(?!\d+(?:\.\d+)* ).*)*"
print(re.findall(regex,samplestring, re.M))

3

Источник

user5350582 22 июл '20 в 09:14

user4607307 11 фев '20 в 01:07 2020-02-11 01:07 · Answer 3 · 2020-02-11 01:07

PDF - это неструктурированный текст, поэтому нет тегов для непосредственного извлечения данных. Поэтому мы используем регулярное выражение, чтобы найти нужную информацию из корпуса текста. Извлеките необработанный текст страницы, используя следующий код.

import fitz
page = pdf_file.loadPage(0) # 0 represents the page number... upto n-1 pages...
dl = page.getDisplayList()
tp = dl.getTextPage()
tp_text=tp.extractText()
re.split('\n\d+.+[ \t][a-zA-Z].+\n',tp_text)

Затем примените регулярное выражение в соответствии с вашими потребностями... (это сработало для меня, но вам может потребоваться или не нужно его менять)

Я привожу подробный пример, как это будет работать

re.findall('\n\d+.+[ \t][a-zA-Z].+\n',"some text\n1. heading 1\nparagraph 1\n1.2.3 Heading 2\nparapgraph 2")

Вывод: ['\n1. заголовок 1\n', '\n1.2.3 Заголовок 2\n']

Вы можете использовать re.split для разделения текста по заголовкам и получения нужного текста заголовка.

re.split('\n\d+.+[ \t][a-zA-Z].+\n',"some text\n1. heading 1\nparagraph 1\n1.2.3 Heading 2\nparapgraph 2")

Вывод: ['какой-то текст', 'абзац 1', 'абзац 2']

Просто i-й заголовок будет иметь (i+1) текст заголовка.

user5151912 05 янв '18 в 05:37 2018-01-05 05:37 · Answer 4 · 2018-01-05 05:37

Вы можете использовать Python-библиотеку PyPDF2 для этого, ниже приведены некоторые примеры фрагментов с использованием PyPDF2.

# importing required modules
import PyPDF2

# creating a pdf file object
pdfFileObj = open('example.pdf', 'rb')

# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# printing number of pages in pdf file
print(pdfReader.numPages)

# creating a page object
pageObj = pdfReader.getPage(0)

# extracting text from page
print(pageObj.extractText())

# closing the pdf file object
pdfFileObj.close()