Статистическая значимость A/B теста

Статистическая значимость — самое упоминаемое и самое непонятое понятие в A/B тестировании. Этот гайд объясняет, что это и как правильно интерпретировать.

Что такое статистическая значимость?

Статистическая значимость показывает, является ли наблюдаемая разница реальной или могла возникнуть случайно.

«Статистически значимо при 95% доверии» означает: если разницы нет, вероятность увидеть такую или бо́льшую разницу менее 5%.

Важно: это не означает 95% вероятность, что победивший вариант лучше. Это частое заблуждение.

Как работают p-значения

p-значение — вероятность наблюдать ваши данные (или более экстремальные) при условии, что нулевая гипотеза верна.

Низкое p-значение (напр., p = 0.02) — Наблюдаемая разница маловероятна при случайности. Отклоняем нулевую гипотезу.
Высокое p-значение (напр., p = 0.35) — Разница легко объясняется случайностью. Не отклоняем нулевую гипотезу.

Порог — Большинство используют α = 0.05 (5%). Если p < α — результат значим. Это конвенция, а не закон.

Доверительные интервалы информативнее p-значений

p-значение говорит только о ненулевом эффекте. Доверительный интервал показывает диапазон вероятных размеров эффекта.

Например: «Разница конверсий +1.2% с 95% ДИ [+0.3%, +2.1%]». Эффект значим (интервал не включает ноль) и даёт представление о величине.

Если интервал [−0.5%, +2.9%] — результат не значим, но эффект может быть существенным. Вероятно, нужно больше данных.

Распространённые ошибки значимости

Ежедневное подглядывание — Проверка значимости каждый день и остановка при p < 0.05 драматически повышает ложноположительные. Тест с 5% ошибкой при однократной проверке может иметь 30%+ при ежедневной. Используйте последовательное тестирование.
Путаница значимости и важности — Статистически значимый результат может быть практически бессмысленным. +0.01% конверсии может быть значим при миллионах посетителей, но не стоит внедрения.
Незначимость ≠ отсутствие эффекта — Незначимый результат означает, что эффект не обнаружен, а не что его нет. Тест может быть недостаточно мощным. Проверьте Калькулятор мощности.
Игнорирование множественных сравнений — Тестирование 20 метрик при α = 0.05 даёт ожидаемый один ложноположительный. Используйте поправки или сосредоточьтесь на одной главной метрике.

Байесовская альтернатива

Если частотный подход кажется контринтуитивным, байесовский анализ даёт прямое вероятностное утверждение: «Вероятность 94%, что вариант B лучше A».

Именно это люди часто думают о значимости. Байесовский калькулятор вычислит это без рассуждений о нулевых гипотезах.

Проверьте значимость вашего теста

Используйте Калькулятор конверсий для проверки статистической значимости. Введите посетителей и конверсии для получения p-значения, ДИ и размера эффекта.