Идентификация текста с использованием nlp

Question

Идентификация текста с использованием nlp

Я пытаюсь найти курсы в приведенной ниже строке текста, используя некоторую технику nlp.

from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"    
print ne_chunk(pos_tag(word_tokenize(sentence)))

Выход из этого

(S
  (ORGANIZATION SDGI/NNP)
  is/VBZ
  offering/VBG
  courses/NNS
  like/IN
  Electronics/NNS
  ,/,
  Mechatronics/NNS
  ,/,
  (PERSON Physics/NNPS)
  ,/,
  (PERSON Mechanical/NNP Engineering/NNP))

Можно ли как-нибудь извлечь курсы из вышеуказанной строки?

В реальном проекте я получу так много документов, из которых мне нужно будет получить названия курсов.

Любая помощь приветствуется!

1

python nlp nltk opennlp

Источник

user2008835 20 июн '17 в 18:20

2 ответа

Другие вопросы по тегам python nlp nltk opennlp

user8304823 04 авг '17 в 20:27 2017-08-04 20:27 · Answer 1 · 2017-08-04 20:27

Это может быть слишком упрощенно, но, если существует ограниченное число существующих названий курсов, может быть проще просто создать большую справочную таблицу, токенизировать ваш ввод и попытаться найти каждое слово. Будут некоторые крайние случаи, но я не уверен, что вам нужно использовать подход ML/NLP к этой проблеме.

user8251588 08 июл '17 в 09:04 2017-07-08 09:04 · Answer 2 · 2017-07-08 09:04

Извлеките все существительные из данного текста.
Создайте набор функций Bag of Words и обучите набор для курсов с помеченными данными.
Кажется, что курсы в основном предшествуют или следуют за запятой (,). Подход биграммы или триграммы может дать точные результаты.

0

Источник

user8251588 08 июл '17 в 09:04