ABtesting.tools

Как анализировать результаты A/B теста

Тест завершён. Что дальше? Этот гайд поможет правильно проанализировать результаты и принять решение.

Шаг 1: Убедитесь, что тест прошёл корректно

Перед просмотром результатов проверьте базовые вещи:

  • Перекос распределения выборки (SRM)Если ожидали 50/50, но получили 52/48 или хуже — возможны проблемы с рандомизацией.
  • Полные недельные циклыТест должен длиться полные недели (7, 14, 21 дней) для избежания смещения по дням недели.
  • Отсутствие внешнего вмешательстваУбедитесь, что не было крупных событий (сбои, кампании, праздники), искажающих результаты.

Шаг 2: Проверьте статистическую значимость

Введите данные в подходящий калькулятор по типу метрики:

Посмотрите на p-значение. Если p < 0.05 — результат статистически значим при 95% доверии.

Шаг 3: Оцените размер эффекта

Значимость сама по себе недостаточна. +0.01% прирост может быть значим при больших данных, но не стоит внедрения.

  • Абсолютный эффектСырая разница (напр., контроль: 4.2%, вариант: 4.8% → +0.6 п.п.).
  • Относительный эффектПроцентное изменение (напр., +0.6 п.п. на 4.2% базе → +14.3%). Это важно для бизнес-решений.

Спросите себя: стоит ли прирост затрат на внедрение?

Шаг 4: Прочитайте доверительный интервал

Доверительный интервал показывает диапазон вероятных размеров эффекта.

  • Узкий интервал (напр., [+0.3%, +0.9%])Хорошая точность. Эффект вероятно между +0.3% и +0.9%. Безопасно принимать решение.
  • Широкий интервал (напр., [−0.5%, +1.7%])Высокая неопределённость. Эффект может быть отрицательным или значительно больше. Рассмотрите продление теста.

Интервал информативнее p-значения — он показывает и наличие, и величину эффекта.

Шаг 5: Примите решение

  • Значимый положительный результатВнедряйте вариант. Эффект реален и направление ясно.
  • Значимый отрицательный результатВариант ухудшил показатели. Не внедряйте. Проанализируйте причины.
  • Не значимо Разница не обнаружена. Это не значит, что разницы нет — тест может быть слабым. Проверьте MDE через Калькулятор мощности.

При неопределённом результате: продлите тест (если возможно) или примите, что эффект слишком мал для вашего трафика, и переходите к более крупным идеям.

Типичные ошибки анализа

  • Подбор метрик под результатЕсли главная метрика не показала эффекта, не ищите победу среди второстепенных — это подгонка под результат. Предрегистрируйте главную метрику.
  • Пост-хок сегментацияНарезка результатов по стране, устройству или типу пользователя после теста повышает ложноположительные.
  • Игнорирование эффекта новизныНовый дизайн часто показывает начальный подъём, который затухает. Мониторьте метрики после внедрения несколько недель.