Автоматически обучающиеся кластеры

Я завершаю вопрос новичка здесь: у меня есть таблица, состоящая из двух столбцов. Первый столбец относится к "корзинам", которые кодируются тем, где живут плодовые мушки. Второй столбец равен 0 или 1, нейтральный и очень похож на сахар, соответственно. У меня два вопроса?

1) если я подозреваю, что существует одна переменная, то, где они живут, определяет, насколько они любят сахар. Есть ли способ, которым я могу иметь компьютер для группировки только в 2 кластера? Все бункеры, которые любят сахар против нейтрального. Таким образом, мы можем провести дальнейший эксперимент, чтобы определить, что это за бункеры.

2) автоматически определить, сколько кластеров может быть причиной этого поведения? Например, может быть, есть 4 переменные (4 кластера), которые могут определять исход предпочтения сахара.

Извиняюсь, если это тривиально. Таблица приведена ниже. Спасибо!

Bin sugar
1   1
1   1
1   0
1   0
2   1
2   0
2   0
3   1
3   0
3   1
3   1
4   1
4   1
4   1
5   1
5   0
5   1
6   0
6   0
6   0
7   0
7   1
7   1
8   1
8   0
8   1
9   1
9   0
9   0
9   0
10  0
10  0
10  0
11  1
11  1
11  1
12  0
12  0
12  0
12  0
13  0
13  0
13  1
13  0
13  0
14  0
14  0
14  0
14  0
15  1
15  0
15  0
16  1
16  1
17  1
17  1
18  0
18  1
18  1
17  1
19  1
20  1
20  0
20  0
20  1
21  0
21  0
21  1
21  0
22  1
22  0
22  1
22  1
23  1
23  1
24  1
24  0
25  0
25  1
25  0
26  1
26  1
27  1
27  1

1 ответ

Хорошо, если я понял, что вы имели в виду, один подход к проблеме 1) должен быть решен с использованием байесовской фильтрации. Скажем, событие L - "муха любит сахар", событие B - "муха в мусорном ведре B".

Итак, что у вас есть:

number of flies = 84    
size of each bins = (eg size of bin 1: 4)    

вероятность того, что муха любит сахар:

P(L) = flies that like sugar / total number of flies = 43/84

вероятность того, что муха не любит сахар:

P(notL) = 1 - P(L) = 41/84

вероятность того, что муха находится в данном мусорном ведре:

P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)

вероятность того, что муха не находится в данном мусорном ведре:

P(notB) = 1 - P(B) = 80/84 (for bin 1)

вероятность того, что муха любит сахар, зная, что это в мусорном ведре B:

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)

вероятность того, что муха любит сахар, зная, что его нет в корзине B:

P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80

Вы хотите знать вероятность того, что муха находится в данном мусорном ведре B, зная, что любит сахар, который вы можете получить с помощью:

P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))

Если вы вычисляете P(B|L) и P(B|notL) для каждой корзины, то вы знаете, какие из этих корзин имеют наибольшую вероятность содержания мух, похожих на сахар. Затем вы можете продолжить изучение этих корзин.

Надеюсь, я был ясен, моя статистика немного ржавая, и я даже не уверен, что делаю все правильно. Используйте подсказку, чтобы указать правильное направление для решения проблемы.

Вы можете обратиться сюда, чтобы получить более точные рассуждения и результаты.

Что касается проблемы 2)... Я должен подумать об этом немного больше.