Как анализировать результаты A/B теста
Тест завершён. Что дальше? Этот гайд поможет правильно проанализировать результаты и принять решение.
Шаг 1: Убедитесь, что тест прошёл корректно
Перед просмотром результатов проверьте базовые вещи:
- Перекос распределения выборки (SRM) — Если ожидали 50/50, но получили 52/48 или хуже — возможны проблемы с рандомизацией.
- Полные недельные циклы — Тест должен длиться полные недели (7, 14, 21 дней) для избежания смещения по дням недели.
- Отсутствие внешнего вмешательства — Убедитесь, что не было крупных событий (сбои, кампании, праздники), искажающих результаты.
Шаг 2: Проверьте статистическую значимость
Введите данные в подходящий калькулятор по типу метрики:
- Конверсии (клик, покупка, регистрация) — Используйте Калькулятор конверсий
- Числовые метрики на пользователя (доход, время) — Используйте Калькулятор непрерывных метрик
- Метрики-отношения (AOV, доход на клик) — Используйте Калькулятор метрик-отношений
Посмотрите на p-значение. Если p < 0.05 — результат статистически значим при 95% доверии.
Шаг 3: Оцените размер эффекта
Значимость сама по себе недостаточна. +0.01% прирост может быть значим при больших данных, но не стоит внедрения.
- Абсолютный эффект — Сырая разница (напр., контроль: 4.2%, вариант: 4.8% → +0.6 п.п.).
- Относительный эффект — Процентное изменение (напр., +0.6 п.п. на 4.2% базе → +14.3%). Это важно для бизнес-решений.
Спросите себя: стоит ли прирост затрат на внедрение?
Шаг 4: Прочитайте доверительный интервал
Доверительный интервал показывает диапазон вероятных размеров эффекта.
- Узкий интервал (напр., [+0.3%, +0.9%]) — Хорошая точность. Эффект вероятно между +0.3% и +0.9%. Безопасно принимать решение.
- Широкий интервал (напр., [−0.5%, +1.7%]) — Высокая неопределённость. Эффект может быть отрицательным или значительно больше. Рассмотрите продление теста.
Интервал информативнее p-значения — он показывает и наличие, и величину эффекта.
Шаг 5: Примите решение
- Значимый положительный результат — Внедряйте вариант. Эффект реален и направление ясно.
- Значимый отрицательный результат — Вариант ухудшил показатели. Не внедряйте. Проанализируйте причины.
- Не значимо — Разница не обнаружена. Это не значит, что разницы нет — тест может быть слабым. Проверьте MDE через Калькулятор мощности.
При неопределённом результате: продлите тест (если возможно) или примите, что эффект слишком мал для вашего трафика, и переходите к более крупным идеям.
Типичные ошибки анализа
- Подбор метрик под результат — Если главная метрика не показала эффекта, не ищите победу среди второстепенных — это подгонка под результат. Предрегистрируйте главную метрику.
- Пост-хок сегментация — Нарезка результатов по стране, устройству или типу пользователя после теста повышает ложноположительные.
- Игнорирование эффекта новизны — Новый дизайн часто показывает начальный подъём, который затухает. Мониторьте метрики после внедрения несколько недель.