Извлечение контента из документов

Я хочу извлечь контент из резюме с различными разделами, такими как навыки, сертификаты, опыт работы и т. Д. С НЛП, и пометить их в соответствии с их категорией. Хотя я могу написать основные правила для извлечения текста на различных знаках препинания, но это может не сработать в некоторых случаях. Поможет ли автоматическая сегментация в этом случае. Как правильно подходить к решению этой проблемы?

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP

CERTIFICATIONS   
Coursera: R Programming, The Data Scientist Toolbox  2015
Galvanize: Data science & big data analytics 2017

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing

PROFESSIONAL RECOGNITIONS        
   Microsoft Cheers Award, Microsoft Excellence award

PROFESSIONAL ROLES AND RESPONSINBILITIES   
    Building scalable system architecture for distributed applications
    Training junior developers in advance ML
    Prototyping and testing data driven products

2 ответа

Я использовал словарь для поиска общих заголовков, которые присутствуют в резюме, а затем сегментировал текст, если это слово присутствует или нет. Для этого решения потребуются словари для разных разделов, которые обычно присутствуют в резюме.

Если ваш сценарий использования - сегментировать резюме по категориям. Вы можете попробовать использовать алгоритм машинного обучения без контроля кластеризации. Потому что для составления словаря и правил потребуется больше времени на подготовку.
Я рекомендую следующие шаги для достижения вашего варианта использования:

  1. Создать базу данных резюме: разработчик, разработчик, специалист по данным, полный стек и т. Д.
  2. Тренируй модель К-средних
  3. Загрузить резюме пользователя и предсказать кластер пользователя, расстояние от центроида и т. Д.
  4. Показать результат
Другие вопросы по тегам