Извлечение контента из документов
Я хочу извлечь контент из резюме с различными разделами, такими как навыки, сертификаты, опыт работы и т. Д. С НЛП, и пометить их в соответствии с их категорией. Хотя я могу написать основные правила для извлечения текста на различных знаках препинания, но это может не сработать в некоторых случаях. Поможет ли автоматическая сегментация в этом случае. Как правильно подходить к решению этой проблемы?
SKILL SET
Machine learning, Deep learning, Python, Julia, NLP
CERTIFICATIONS
Coursera: R Programming, The Data Scientist Toolbox 2015
Galvanize: Data science & big data analytics 2017
PROFESSIONAL TRAINING
MIT Professional education program in MACHINE LEARNING and text processing
PROFESSIONAL RECOGNITIONS
Microsoft Cheers Award, Microsoft Excellence award
PROFESSIONAL ROLES AND RESPONSINBILITIES
Building scalable system architecture for distributed applications
Training junior developers in advance ML
Prototyping and testing data driven products
2 ответа
Я использовал словарь для поиска общих заголовков, которые присутствуют в резюме, а затем сегментировал текст, если это слово присутствует или нет. Для этого решения потребуются словари для разных разделов, которые обычно присутствуют в резюме.
Если ваш сценарий использования - сегментировать резюме по категориям. Вы можете попробовать использовать алгоритм машинного обучения без контроля кластеризации. Потому что для составления словаря и правил потребуется больше времени на подготовку.
Я рекомендую следующие шаги для достижения вашего варианта использования:
- Создать базу данных резюме: разработчик, разработчик, специалист по данным, полный стек и т. Д.
- Тренируй модель К-средних
- Загрузить резюме пользователя и предсказать кластер пользователя, расстояние от центроида и т. Д.
- Показать результат