Извлечение контента из документов

Question

Извлечение контента из документов

Я хочу извлечь контент из резюме с различными разделами, такими как навыки, сертификаты, опыт работы и т. Д. С НЛП, и пометить их в соответствии с их категорией. Хотя я могу написать основные правила для извлечения текста на различных знаках препинания, но это может не сработать в некоторых случаях. Поможет ли автоматическая сегментация в этом случае. Как правильно подходить к решению этой проблемы?

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP

CERTIFICATIONS   
Coursera: R Programming, The Data Scientist Toolbox  2015
Galvanize: Data science & big data analytics 2017

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing

PROFESSIONAL RECOGNITIONS        
   Microsoft Cheers Award, Microsoft Excellence award

PROFESSIONAL ROLES AND RESPONSINBILITIES   
    Building scalable system architecture for distributed applications
    Training junior developers in advance ML
    Prototyping and testing data driven products

0

python nlp spacy topic-modeling text-segmentation

Источник

user8700970 18 дек '17 в 18:23

2 ответа

Другие вопросы по тегам python nlp spacy topic-modeling text-segmentation

user8700970 09 янв '18 в 10:07 2018-01-09 10:07 · Answer 1 · 2018-01-09 10:07

Я использовал словарь для поиска общих заголовков, которые присутствуют в резюме, а затем сегментировал текст, если это слово присутствует или нет. Для этого решения потребуются словари для разных разделов, которые обычно присутствуют в резюме.

user3604245 09 янв '18 в 13:30 2018-01-09 13:30 · Answer 2 · 2018-01-09 13:30

Если ваш сценарий использования - сегментировать резюме по категориям. Вы можете попробовать использовать алгоритм машинного обучения без контроля кластеризации. Потому что для составления словаря и правил потребуется больше времени на подготовку.
Я рекомендую следующие шаги для достижения вашего варианта использования:

Создать базу данных резюме: разработчик, разработчик, специалист по данным, полный стек и т. Д.
Тренируй модель К-средних
Загрузить резюме пользователя и предсказать кластер пользователя, расстояние от центроида и т. Д.
Показать результат