Формат вывода для функции seqecmpgroup()?

seqecmpgroup() Функция возвращает таблицу, которая, помимо прочего, включает частоты для каждой из указанных групп. Тем не менее, когда я запускаю это, он генерирует частоты ниже 1 (например, 0,00035). Должен ли я интерпретировать эти частоты как проценты, показывающие, сколько групп встречается в каждой подпоследовательности?

Ниже я вставил пример вывода (частоты для каждой группы указаны как "Freq.1", "Freq.2" и т. Д.:

      Subsequence     Support     p.value statistic index      Freq.1
1      (FA)-(IN)-(FA) 0.004807692 0.002293660 12.155213   538 0.000000000
2 (NR)-(TR)-(EX)-(IN) 0.004807692 0.002293660 12.155213   685 0.000000000
3 (NR)-(TR)-(IN)-(IN) 0.004807692 0.002293660 12.155213   687 0.000000000
4      (IS)-(IS)-(NR) 0.019230769 0.006788125  9.985161    98 0.040322581
5      (FA)-(NR)-(QU) 0.012820513 0.009031434  9.414088   172 0.008064516
       Freq.2     Freq.3    Resid.1   Resid.2   Resid.3
1 0.000000000 0.02419355 -1.0919284 -1.100699  3.113347
2 0.000000000 0.02419355 -1.0919284 -1.100699  3.113347
3 0.000000000 0.02419355 -1.0919284 -1.100699  3.113347
4 0.007936508 0.00000000  2.3951978 -1.292885 -1.544220
5 0.003968254 0.04032258 -0.6614769 -1.241085  2.704727

Computed on 624 event sequences
  Constraint Value
  countMethod  COBJ

1 ответ

Решение

Частоты на самом деле являются относительными частотами. Они соответствуют относительной поддержке в каждой группе, то есть они указывают для каждой группы пропорцию последовательностей в группе, которые содержат подпоследовательность.

Например, мы узнаем из вашего результата, что первая подпоследовательность (FA)-(IN)-(FA) никогда не встречается в первых двух группах и является подпоследовательностью 2,4% последовательностей 3-й группы.

Пропорции учитывают веса последовательности, если они предоставлены.

Теперь я не вижу никаких отрицательных частот в вашем примере вывода. И значение, которое вы указываете 0,00035, НЕ ниже 0!

Другие вопросы по тегам