ab тестирование на характеристики продукта

Если Yelp хотел понять, помогли ли оценки пользователям выбрать листинг, и мы используем CTR в качестве показателя успеха для запуска ab-теста, как мы узнаем, что значительное изменение в CTR обусловлено только рейтингами, а не другими частями список как отзывы?

Нужно ли делать какую-то пользовательскую сегментацию вместо случайного назначения пользователей перед запуском ab-теста?

2 ответа

Решение

Рандомизация заботится обо всех других переменных, кроме лечения. Тест на статистическую значимость заботится о выборе между лечением и случайностью. Только когда вы не можете провести рандомизированное исследование, вам нужно контролировать другие различия.

Обычно вы хотите доверять рандомизации для большинства экспериментов. Рандомизация - это беспристрастный процесс, который при достаточном количестве пользователей контролирует все возможные смешивающие факторы, как известные (например, возраст, пол и ОС), так и неизвестные (например, личность, цвет волос и сложность), делая сравнения между тестовой и контрольной группами сбалансированными и сбалансированными. Справедливая. Поскольку обе группы подвергаются воздействию и измеряются одновременно, A / B-тестирование также корректирует временные и сезонные эффекты. Статистически значимые различия между тестируемой и контрольной группами могут быть напрямую связаны с тестируемым изменением. Я написал больше об этом в блоге.

Использование настраиваемой сегментации пользователей обычно зарезервировано для тех редких случаев, когда можно ожидать, что рандомизация приведет к созданию несбалансированных групп. Обычно это случается редко, но пример: вы разделите комнату из 100 человек на две группы, но в этой комнате находятся Билл Гейтс и Илон Маск. В зависимости от того, какую метрику вы хотите измерить, они могут сильно испортить ситуацию. В результате случайного выбора оба миллиардера будут попадать в одну и ту же группу половину времени. Это сценарий, в котором стоит выполнить настраиваемую сегментацию и обеспечить, чтобы они попадали в разные группы. Но такие вещи, как правило, редки и редко влияют на двоичные показатели, такие как CTR.

Другие вопросы по тегам