Статистика испытаний А / Б
Я пытаюсь провести некоторый статистический анализ различных A/B-тестов, чтобы увидеть, какая альтернатива лучше, и нашел противоречивую информацию об этом.
Во-первых, меня интересует пара разных вещей:
- Тесты, которые измеряют успех путем подсчета событий, таких как конверсии или отправленные электронные письма
- Тесты, которые измеряют успех, подсчитывая доход
- Тесты, которые имеют только две альтернативы (контрольная и новая)
- Тесты, которые имеют несколько альтернатив (контроль и несколько новых)
Я надеялся найти простой набор формул или правил для этого анализа, но нашел больше вопросов, чем ответов.
Этот сайт говорит, что вы не можете сравнивать много альтернативные тесты; Вы можете проводить только парные сравнения и анализ хи-квадрат, чтобы увидеть, является ли весь тест статистически значимым или нет.
Этот сайт предлагает способ провести тестирование A/B/C/D (начинается на слайде 74), анализируя результаты с помощью G-Test (который, как он говорит, относится к хи-квадрат), но не дает четкого представления о деталях используя фактор выдумки. Это также предполагает, что вы можете использовать только подход A/B/C/D для устранения альтернатив, пока не получите явного победителя в сравнении A/B.
На этом сайте приведен пример теста A/B/C/D (включая контроль) и показано, как сравнить коэффициент конверсии для определения победителя. В отличие от этого подхода, он не рекомендует исключать альтернативы, а выбирает победителя сразу (при условии статистически значимых результатов).
Возможно, я наивен, но я думаю, что к настоящему времени будет существовать библиотека для анализа статистики, чтобы справиться с этой самой проблемой. Я также был бы признателен за дополнительную информацию о том, какие алгоритмы / уравнения необходимы для решения этих проблем. Прошло много времени с моего университетского класса по статистике.
1 ответ
Для сравнения, генерирующего события, вы можете подойти к этому с помощью бета-версий. Каждая альтернатива имеет некоторую ненаблюдаемую p, вероятность возникновения события. Если вы наблюдаете X положительных событий из N, то ваша неопределенность относительно p может быть смоделирована с помощью бета-версии (X + 1, N-X + 1).
Вы можете сравнить две альтернативы, посмотрев на P (pA> pB), где pA и pB - это два бета-распределения. Методы вычисления этой вероятности неравенства можно найти в этой статье.
Вы также можете вычислить E[pA-pB], величину эффекта или рассчитать доверительные границы того же самого.