Как извлечь заголовки из документов?

Как можно автоматизировать извлечение соответствующего заголовка из заданного набора случайных документов (docx, pdf и т. Д.)? Точнее, признание того, что считается заголовком документа.

Некоторые мысли:

  • Интуитивно, вероятно, будет первой строкой в ​​тексте, хотя также может появиться в нижнем колонтитуле
  • Не может быть что-то вроде свидания, "все права защищены", "Гарвардский университет - юридический факультет" и т. Д.
  • Человеческий мозг решает это немедленно (отфильтровывая общие имена и числа)

В настоящее время я использую textract в Python для извлечения всего текста, что ограничивает решение, основанное только на тексте. Любые другие соответствующие пакеты доступны?

0 ответов

Другие вопросы по тегам