Список стоп-слов для НЛП
Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрытия слов в классе (например, he, she, it
) при выполнении задач, связанных с NLP или IR/IE?
Я пробовал тематическое моделирование с использованием выборки Гиббса для устранения неоднозначности смысла слова, и оно продолжает давать пунктуации и близкие слова класса с высокой вероятностью только потому, что они часто появляются в корпусе. https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py