Список стоп-слов для НЛП

Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрытия слов в классе (например, he, she, it) при выполнении задач, связанных с NLP или IR/IE?

Я пробовал тематическое моделирование с использованием выборки Гиббса для устранения неоднозначности смысла слова, и оно продолжает давать пунктуации и близкие слова класса с высокой вероятностью только потому, что они часто появляются в корпусе. https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

1 ответ

Решение

Ты пробовал гуглить? Лучшие хиты, которые я получаю, содержат либо списки стоп-слов, либо посты переполнения стека, которые ссылаются на указанные списки:

Другие вопросы по тегам