НЛП извлекает категорию из текста, используя Java
Как классифицировать слова, извлеченные из текста (используя NLP/NLTK или Textblob), в сущности и категории (из списков или таксономии)?
У меня будет база данных ключевых слов, и я хотел бы извлечь строку за строкой из текста соответствующее ключевое слово.
Например ниже текстового файла
Дата, описание, деньги в (€), деньги в (€)
1) 3 марта-16, ЧПУ CNCWORD1 CNCWORD2 P 01/03 3,, 2.95
2) 3 марта-16 POS POSWORD1 CNCWORD2 01/03 0, 20
3) 2-мар-16 ЧПУ CNCWORD3 28/02,, 1.604) 2 марта, 16 POS POSWORD3 POSWORD4 29/02 17, 102,3
И база данных ключевых слов
{ЧПУ CNCWORD1, CNCWORD3, POS POSWORD1 CNCWORD2, POS POSWORD3}
Используя NLP из каждой строки, получите подходящее ключевое слово
Для приведенного выше примера мы будем иметь:
1) CNCWORWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3