Получение информации от множества (Дерево решений)
Я изучаю дерево решений в области интеллектуального анализа данных, и у меня возникла проблема, заключающаяся в том, что она не задает правильный вопрос. Или, может быть, я просто неправильно понимаю вопрос или саму концепцию.
Здесь вопрос.
Given a multi-set:
{((a,1,x),10),((b,1,y),5),((b,2,y),4),((c,2,z),9)}
Assume the name of attributes are A1,A2, and A3.
Find the best attribute to split using Information Gain.
Я знаю, что мультимножество - это набор кортежей {((уникальные значения), количество этих уникальных значений)...}
И уравнение для получения информации:
G(T,X) = H(T) - H(T|X)
* H - функция энтропии, а G - функция получения информации.
Итак, чтобы получить информацию, я должен знать 1. энтропию целевого класса и 2. энтропию целевого класса, учитывая некоторую особенность X.
Но вопрос не предусматривает целевой класс, а только обеспечивает подсчет уникальных значений (мультимножество).
С помощью этой информации я могу получить энтропию каждого атрибута (или функции), но я не думаю, что возможно получить информационный прирост.
Я недоразумение в какой-либо части?
Любая помощь будет оценена.