Как извлечь заголовки из документов?
Как можно автоматизировать извлечение соответствующего заголовка из заданного набора случайных документов (docx, pdf и т. Д.)? Точнее, признание того, что считается заголовком документа.
Некоторые мысли:
- Интуитивно, вероятно, будет первой строкой в тексте, хотя также может появиться в нижнем колонтитуле
- Не может быть что-то вроде свидания, "все права защищены", "Гарвардский университет - юридический факультет" и т. Д.
- Человеческий мозг решает это немедленно (отфильтровывая общие имена и числа)
В настоящее время я использую textract в Python для извлечения всего текста, что ограничивает решение, основанное только на тексте. Любые другие соответствующие пакеты доступны?