Уменьшение размера при фильтрации спама
Я выполняю эксперимент, в котором мне нужно сравнить производительность классификации нескольких алгоритмов классификации для фильтрации спама, а именно. Наивный Байес, SVM, J48, k-NN, RandomForests и т. Д. Я использую инструмент интеллектуального анализа данных WEKA. Просматривая литературу, я узнал о различных методах уменьшения размерности, которые можно разделить на два типа:
- Сокращение характеристик: анализ главных компонентов, скрытый семантический анализ и т. Д.
- Выбор функций: Chi-Square, InfoGain, GainRatio и т. Д.
Я также прочитал этот учебник WEKA Хосе Мария в его блоге: http://jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html
В этом блоге он пишет: "Типичной проблемой классификации текста, в которой уменьшение размерности может быть большой ошибкой, является фильтрация спама". Итак, теперь я запутался, имеет ли смысл уменьшение размерности в случае фильтрации спама или нет?
Кроме того, я также прочитал в литературе о частоте документов и TF-IDF как об одной из техник сокращения возможностей. Но я не уверен, как это работает и вступает в игру во время классификации.
Я знаю, как использовать weka, цепочечные фильтры и классификаторы и т. Д. Проблема, с которой я сталкиваюсь, заключается в том, что у меня нет достаточного представления о выборе / сокращении функций (включая TF-IDF). Я не могу решить, как и какой выбор функций методы и алгоритмы классификации, которые я должен объединить, чтобы сделать мое исследование значимым. Я также понятия не имею об оптимальном пороговом значении, которое я должен использовать с хи-квадрат, усилением информации и т. Д.
В классе StringToWordVector у меня есть опция IDFTransform, поэтому имеет ли смысл устанавливать его в значение TRUE, а также использовать технику выбора объектов, скажем, InfoGain?
Пожалуйста, помогите мне, и, если возможно, предоставьте ссылки на ресурсы, где я могу подробно узнать об уменьшении размеров и составить план эксперимента!
1 ответ
Что ж, Naive Bayes, похоже, лучше всего подходит для фильтрации спама, и он не очень хорошо справляется с уменьшением размерности.
Многие методы уменьшения размерности пытаются выявить признаки наибольшей дисперсии. Это, конечно, не очень поможет с обнаружением спама, вам нужны отличительные особенности.
Плюс, существует не только один тип спама, но и много. Вероятно, именно поэтому наивный байесовский метод работает лучше, чем многие другие методы, которые предполагают, что существует только один тип спама.