CLUTO doc2mat указанный список стоп-слов не работает
Я пытаюсь преобразовать мои документы в векторный формат с использованием doc2mat
На веб-сайте написано, что я могу использовать указанный текстовый файл, где слова разделены пробелами или в нескольких строках. Итак, я использую некоторый код, похожий на этот:
./doc2mat -mystoplist=stopword.txt -skipnumeric mydocuments.txt myvectorspace.txt
Тем не менее, когда я проверяю вывод .clabel
файл, он по-прежнему имеет стоп-слова, которые находятся в stopword.txt
,
Я действительно не знаю, как это сделать. Кто-нибудь, помогите мне, пожалуйста? Спасибо!
1 ответ
Есть одна важная вещь, которую я должен помнить: я должен включить ВСЕ нежелательные слова в свой стоп-лист. Это несколько сложно, так как всегда есть некоторые варианты...
Например, если я хочу исключить method
Я добавляю это в мой список. Тем не менее, результирующий словарь может также содержать method
так как есть такие слова, как methodist
, methods
и т. д. Тогда doc2mat по умолчанию связывает эти слова и я все равно получу method
на выходе.
Другое дело, чтобы убедиться, что опция "-nostop" должна быть предоставлена для указанного пользователем стоп-листа.