Как анализировать результаты A/B теста

Тест завершён. Что дальше? Этот гайд поможет правильно проанализировать результаты и принять решение.

Шаг 1: Убедитесь, что тест прошёл корректно

Перед просмотром результатов проверьте базовые вещи:

Перекос распределения выборки (SRM) — Если ожидали 50/50, но получили 52/48 или хуже — возможны проблемы с рандомизацией.
Полные недельные циклы — Тест должен длиться полные недели (7, 14, 21 дней) для избежания смещения по дням недели.
Отсутствие внешнего вмешательства — Убедитесь, что не было крупных событий (сбои, кампании, праздники), искажающих результаты.

Шаг 2: Проверьте статистическую значимость

Введите данные в подходящий калькулятор по типу метрики:

Конверсии (клик, покупка, регистрация) — Используйте Калькулятор конверсий
Числовые метрики на пользователя (доход, время) — Используйте Калькулятор непрерывных метрик
Метрики-отношения (AOV, доход на клик) — Используйте Калькулятор метрик-отношений

Посмотрите на p-значение. Если p < 0.05 — результат статистически значим при 95% доверии.

Шаг 3: Оцените размер эффекта

Значимость сама по себе недостаточна. +0.01% прирост может быть значим при больших данных, но не стоит внедрения.

Абсолютный эффект — Сырая разница (напр., контроль: 4.2%, вариант: 4.8% → +0.6 п.п.).
Относительный эффект — Процентное изменение (напр., +0.6 п.п. на 4.2% базе → +14.3%). Это важно для бизнес-решений.

Спросите себя: стоит ли прирост затрат на внедрение?

Шаг 4: Прочитайте доверительный интервал

Доверительный интервал показывает диапазон вероятных размеров эффекта.

Узкий интервал (напр., [+0.3%, +0.9%]) — Хорошая точность. Эффект вероятно между +0.3% и +0.9%. Безопасно принимать решение.
Широкий интервал (напр., [−0.5%, +1.7%]) — Высокая неопределённость. Эффект может быть отрицательным или значительно больше. Рассмотрите продление теста.

Интервал информативнее p-значения — он показывает и наличие, и величину эффекта.

Шаг 5: Примите решение

Значимый положительный результат — Внедряйте вариант. Эффект реален и направление ясно.
Значимый отрицательный результат — Вариант ухудшил показатели. Не внедряйте. Проанализируйте причины.
Не значимо — Разница не обнаружена. Это не значит, что разницы нет — тест может быть слабым. Проверьте MDE через Калькулятор мощности.

При неопределённом результате: продлите тест (если возможно) или примите, что эффект слишком мал для вашего трафика, и переходите к более крупным идеям.

Типичные ошибки анализа

Подбор метрик под результат — Если главная метрика не показала эффекта, не ищите победу среди второстепенных — это подгонка под результат. Предрегистрируйте главную метрику.
Пост-хок сегментация — Нарезка результатов по стране, устройству или типу пользователя после теста повышает ложноположительные.
Игнорирование эффекта новизны — Новый дизайн часто показывает начальный подъём, который затухает. Мониторьте метрики после внедрения несколько недель.