CLUTO doc2mat указанный список стоп-слов не работает

Я пытаюсь преобразовать мои документы в векторный формат с использованием doc2mat

На веб-сайте написано, что я могу использовать указанный текстовый файл, где слова разделены пробелами или в нескольких строках. Итак, я использую некоторый код, похожий на этот:

./doc2mat -mystoplist=stopword.txt -skipnumeric mydocuments.txt myvectorspace.txt

Тем не менее, когда я проверяю вывод .clabel файл, он по-прежнему имеет стоп-слова, которые находятся в stopword.txt,

Я действительно не знаю, как это сделать. Кто-нибудь, помогите мне, пожалуйста? Спасибо!

1 ответ

Решение

Есть одна важная вещь, которую я должен помнить: я должен включить ВСЕ нежелательные слова в свой стоп-лист. Это несколько сложно, так как всегда есть некоторые варианты...

Например, если я хочу исключить method Я добавляю это в мой список. Тем не менее, результирующий словарь может также содержать method так как есть такие слова, как methodist, methodsи т. д. Тогда doc2mat по умолчанию связывает эти слова и я все равно получу method на выходе.

Другое дело, чтобы убедиться, что опция "-nostop" должна быть предоставлена ​​для указанного пользователем стоп-листа.

Другие вопросы по тегам