Sentence2vec и Word2vec, включающие стоп-слова и именованные объекты
Я работаю над проектом НЛП, включающим в себя предложение 2век. Я предполагаю, что буду использовать предварительно обученные вложения слов для преобразования токенов в векторы, а затем приступить к встраиванию предложений.
Так как мое предложение включает в себя: стоп-слова типа " не могу", "нет", "нет" и т. Д., Которые NLTK уменьшит до " ca, wo, are" + not "
Поэтому я не могу уменьшить их, и я не хочу удалять их как стоп-слова, поскольку предложения, подобные упомянутым ниже, должны иметь различное вложение.
Меня зовут приянк
Меня зовут не Приянк
Еще одним важным сомнением является то, как включить именованные объекты, такие как имя человека, такого как Марк К. Хогг, в мой вектор предложений.
1 ответ
Вы можете удалить те, которые вы не хотите быть в качестве стоп-слов из этого списка
# Open a file and read it into memory
file = open('words.txt')
text = file.read()
# Apply the stoplist to the text
clean = [word for word in text.split() if word not in stoplist]