Проблемы с пониманием выбора функции хи-квадрат
У меня были проблемы с пониманием выбора функции хи-квадрат. У меня есть два класса, положительный и отрицательный, каждый из которых содержит разные термины и количество терминов. Мне нужно выполнить выбор функции хи-квадрат, чтобы извлечь наиболее представительные термины для каждого класса. Проблема в том, что я получаю ТОЧНЫЕ условия для моего положительного и отрицательного класса. Вот мой код Python для выбора функций:
#!/usr/bin/python
# import the necessary libraries
import math
class ChiFeatureSelector:
def __init__(self, extCorpus, lookupCorpus):
# store the extraction corpus and lookup corpus
self.extCorpus = extCorpus
self.lookupCorpus = lookupCorpus
def select(self, outPath):
# dictionary of chi-squared scores
scores = {}
# loop over the words in the extraction corpus
for w in self.extCorpus.getTerms():
# build the chi-squared table
n11 = float(self.extCorpus.getTermCount(w))
n10 = float(self.lookupCorpus.getTermCount(w))
n01 = float(self.extCorpus.getTotalDocs() - n11)
n00 = float(self.lookupCorpus.getTotalDocs() - n10)
# perform the chi-squared calculation and store
# the score in the dictionary
a = n11 + n10 + n01 + n00
b = ((n11 * n00) - (n10 * n01)) ** 2
c = (n11 + n01) * (n11 + n10) * (n10 + n00) * (n01 + n00)
chi = (a * b) / c
scores[w] = chi
# sort the scores in descending order
scores = sorted([(v, k) for (k, v) in scores.items()], reverse = True)
i = 0
for (v, k) in scores:
print str(k) + " : " + str(v)
i += 1
if i == 10:
break
И вот как я использую этот класс (некоторые из них для краткости опущены, и да, я проверил, чтобы убедиться, что два корпуса не содержат точно одинаковые данные.
# perform positive ngram feature selection
print "positive:\n"
f = ChiFeatureSelector(posCorpus, negCorpus)
f.select(posOutputPath)
print "\nnegative:\n"
# perform negative ngram feature selection
f = ChiFeatureSelector(negCorpus, posCorpus)
f.select(negOutputPath)
Я чувствую, что ошибка возникает, когда я вычисляю таблицу терминов / документов, но я не уверен. Возможно, я чего-то не понимаю. Может ли кто-нибудь указать мне правильное направление?
1 ответ
В случае двух классов ранжирование признаков по критерию хи-квадрат одинаково, если происходит обмен двумя наборами данных. Это особенности, которые больше всего отличаются между двумя классами.