Как извлечь заголовки из документов?

Question

Как извлечь заголовки из документов?

Как можно автоматизировать извлечение соответствующего заголовка из заданного набора случайных документов (docx, pdf и т. Д.)? Точнее, признание того, что считается заголовком документа.

Некоторые мысли:

Интуитивно, вероятно, будет первой строкой в тексте, хотя также может появиться в нижнем колонтитуле
Не может быть что-то вроде свидания, "все права защищены", "Гарвардский университет - юридический факультет" и т. Д.
Человеческий мозг решает это немедленно (отфильтровывая общие имена и числа)

В настоящее время я использую textract в Python для извлечения всего текста, что ограничивает решение, основанное только на тексте. Любые другие соответствующие пакеты доступны?

0

python information-extraction pdf-scraping

Источник

user8374427 08 сен '17 в 09:32

0 ответов

Другие вопросы по тегам python information-extraction pdf-scraping