Уменьшение размера при фильтрации спама

Я выполняю эксперимент, в котором мне нужно сравнить производительность классификации нескольких алгоритмов классификации для фильтрации спама, а именно. Наивный Байес, SVM, J48, k-NN, RandomForests и т. Д. Я использую инструмент интеллектуального анализа данных WEKA. Просматривая литературу, я узнал о различных методах уменьшения размерности, которые можно разделить на два типа:

  1. Сокращение характеристик: анализ главных компонентов, скрытый семантический анализ и т. Д.
  2. Выбор функций: Chi-Square, InfoGain, GainRatio и т. Д.

Я также прочитал этот учебник WEKA Хосе Мария в его блоге: http://jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html

В этом блоге он пишет: "Типичной проблемой классификации текста, в которой уменьшение размерности может быть большой ошибкой, является фильтрация спама". Итак, теперь я запутался, имеет ли смысл уменьшение размерности в случае фильтрации спама или нет?

Кроме того, я также прочитал в литературе о частоте документов и TF-IDF как об одной из техник сокращения возможностей. Но я не уверен, как это работает и вступает в игру во время классификации.

Я знаю, как использовать weka, цепочечные фильтры и классификаторы и т. Д. Проблема, с которой я сталкиваюсь, заключается в том, что у меня нет достаточного представления о выборе / сокращении функций (включая TF-IDF). Я не могу решить, как и какой выбор функций методы и алгоритмы классификации, которые я должен объединить, чтобы сделать мое исследование значимым. Я также понятия не имею об оптимальном пороговом значении, которое я должен использовать с хи-квадрат, усилением информации и т. Д.

В классе StringToWordVector у меня есть опция IDFTransform, поэтому имеет ли смысл устанавливать его в значение TRUE, а также использовать технику выбора объектов, скажем, InfoGain?

Пожалуйста, помогите мне, и, если возможно, предоставьте ссылки на ресурсы, где я могу подробно узнать об уменьшении размеров и составить план эксперимента!

1 ответ

Решение

Что ж, Naive Bayes, похоже, лучше всего подходит для фильтрации спама, и он не очень хорошо справляется с уменьшением размерности.

Многие методы уменьшения размерности пытаются выявить признаки наибольшей дисперсии. Это, конечно, не очень поможет с обнаружением спама, вам нужны отличительные особенности.

Плюс, существует не только один тип спама, но и много. Вероятно, именно поэтому наивный байесовский метод работает лучше, чем многие другие методы, которые предполагают, что существует только один тип спама.

Другие вопросы по тегам