Можно ли проводить A/B-тестирование по страницам, а не по отдельным лицам?

Допустим, у меня есть простой сайт электронной коммерции, который продает 100 различных дизайнов футболок. Я хочу провести некоторые тесты для оптимизации моих продаж. Допустим, я хочу протестировать две разные кнопки "купить". Как правило, я бы использовал тестирование AB для случайного назначения каждого посетителя, чтобы увидеть кнопку A или кнопку B (и чтобы убедиться, что пользовательский опыт соответствует, сохраняя это назначение в сеансе, куки и т. Д.).

Можно ли было бы использовать другой подход и вместо этого случайным образом назначить каждому из моих 100 дизайнов использовать кнопку A или B и измерить коэффициент конверсии как (количество продаж дизайна n) / (просмотров страниц дизайна n)

Этот подход, казалось бы, имеет некоторые преимущества; Мне не пришлось бы беспокоиться о том, чтобы пользовательский интерфейс оставался единообразным - данная страница (например, www.example.com/viewdesign?id=6) всегда будет возвращать один и тот же HTML-код. Если бы я тестировал разные цены, пользователю было бы гораздо менее неприятно видеть разные цены на разные дизайны, чем разные цены на один и тот же дизайн на разных компьютерах. Мне также интересно, может ли это быть лучше для SEO - я подозреваю, что Google "предпочтет", что он всегда видит один и тот же HTML при сканировании страницы.

Очевидно, что этот подход подходит только для ограниченного числа сайтов; Мне просто интересно, кто-нибудь пробовал?

4 ответа

Решение

Ваша интуиция верна. В теории рандомизация по странице будет работать нормально. Обе группы лечения будут иметь сбалансированные характеристики в ожидании.

Тем не менее, размер выборки довольно мал, поэтому вы должны быть осторожны. Простая рандомизация может случайно создать дисбаланс. Стандартным решением является блокировка характеристик рубашек до обработки. Наиболее важной характеристикой является ваш результат до лечения, который, как я полагаю, является коэффициентом конверсии.

Существует много способов создания "сбалансированных" рандомизированных дизайнов. Например, вы можете создавать пары, используя оптимальное соответствие, и рандомизировать внутри пар. Более грубое совпадение может быть найдено путем ранжирования страниц по их коэффициенту конверсии за предыдущую неделю / месяц и последующего создания пар соседей. Или вы можете объединить блокированную рандомизацию с предложением Аарона: рандомизировать в парах, а затем переворачивать лечение каждую неделю.

Вторая проблема, несколько не связанная, - это взаимодействие между процедурами. Это может быть более проблематичным. Возможно, что если пользователь увидит одну кнопку на одной странице, а затем другую кнопку на другой странице, эта новая кнопка будет иметь особенно большой эффект. То есть вы действительно можете рассматривать лечение как независимое? Влияет ли кнопка на одной странице на вероятность перехода на другую? К сожалению, это возможно, особенно потому, что если вы покупаете футболку на одной странице, вы, скорее всего, вряд ли купите футболку на другой странице. Я бы беспокоился об этом больше, чем рандомизация. Стандартный подход - рандомизация уникальным пользователем - лучше имитирует ваш окончательный дизайн.

Вы всегда можете запустить эксперимент, чтобы увидеть, получаете ли вы те же результаты, используя эти два метода, а затем перейти к более простому, если вы это сделаете.

Ты не можешь

Пусть у 50 футболок есть кнопка A, а у остальных 50 - кнопка B. После теста вы поймете, что футболки с кнопкой A имеют лучший коэффициент конверсии.

Теперь - было ли преобразование лучше из-за кнопки A, или это было лучше, потому что дизайны футболок были действительно классными, и людям они нравились?

Вы не можете ответить на этот вопрос объективно, поэтому вы не можете проводить A/B-тестирование таким образом.

Вместо того, чтобы менять кнопку продажи для некоторых страниц, запустите все страницы с помощью кнопки A на неделю, а затем перейдите к кнопке B еще на одну неделю. Это должно дать вам достаточно данных, чтобы увидеть, значительно ли меняется количество продаж между двумя кнопками.

Неделя должна быть достаточно короткой, чтобы сезонный / погодный эффект не действовал.

Проблема с вашим подходом в том, что вы тестируете две вещи одновременно.

Скажем, дизайн х использует кнопку а. Дизайн у использует кнопку б. Design y получает больше продаж и больше конверсий.

Это потому, что кнопка b дает лучший коэффициент конверсии, чем кнопка a, или это потому, что дизайн y дает лучший коэффициент конверсии, чем дизайн x?

Если ваш объем дизайна очень высок, объем пользователей очень низок, и ваши конверсии равномерно распределены между вашими проектами, я мог бы видеть, что ваш подход лучше обычного - потому что риск того, что "хорошие" проекты слипаются вместе и искажение вашего результата будет меньше, чем риск, который делают "хорошие" пользователи. Однако в этом случае у вас не будет особенно большого размера выборки конверсий, из которой можно сделать выводы - вам нужно достаточно большое количество пользователей, чтобы тестирование АБ было целесообразным в первую очередь.

Другие вопросы по тегам