Потенциальный недостаток - необоснованные результаты Firebase при тестировании AAB
Я запускаю тест AAB, что означает, что в тесте есть две контрольные группы, чтобы убедиться в правильности распределения населения. И результаты говорят мне, что дублированная контрольная группа показывает положительные результаты, чем исходная группа.
Я дублировал тест несколько раз, на двух приложениях, но результаты между исходными группами и дублированными контрольными группами все еще различны.
Есть ли какая-либо возможная причина для этого?
1 ответ
Некоторый процент полевых экспериментов онлайн между идентичными контрольными группами покажет статистических победителей. Это называется ложным срабатыванием. Поддержка Firebase охватывает эту тему.
Различные статистические структуры имеют разные способы управления частотой ошибок (и ложных положительных результатов), например:
Если вы несколько раз получаете ложное срабатывание, это статистически маловероятно и обычно указывает на ошибку реализации или программную ошибку.
Отказ от ответственности: я работаю в Optimizely.