Статистическая значимость A/B теста
Статистическая значимость — самое упоминаемое и самое непонятое понятие в A/B тестировании. Этот гайд объясняет, что это и как правильно интерпретировать.
Что такое статистическая значимость?
Статистическая значимость показывает, является ли наблюдаемая разница реальной или могла возникнуть случайно.
«Статистически значимо при 95% доверии» означает: если разницы нет, вероятность увидеть такую или бо́льшую разницу менее 5%.
Важно: это не означает 95% вероятность, что победивший вариант лучше. Это частое заблуждение.
Как работают p-значения
p-значение — вероятность наблюдать ваши данные (или более экстремальные) при условии, что нулевая гипотеза верна.
- Низкое p-значение (напр., p = 0.02) — Наблюдаемая разница маловероятна при случайности. Отклоняем нулевую гипотезу.
- Высокое p-значение (напр., p = 0.35) — Разница легко объясняется случайностью. Не отклоняем нулевую гипотезу.
Порог — Большинство используют α = 0.05 (5%). Если p < α — результат значим. Это конвенция, а не закон.
Доверительные интервалы информативнее p-значений
p-значение говорит только о ненулевом эффекте. Доверительный интервал показывает диапазон вероятных размеров эффекта.
Например: «Разница конверсий +1.2% с 95% ДИ [+0.3%, +2.1%]». Эффект значим (интервал не включает ноль) и даёт представление о величине.
Если интервал [−0.5%, +2.9%] — результат не значим, но эффект может быть существенным. Вероятно, нужно больше данных.
Распространённые ошибки значимости
- Ежедневное подглядывание — Проверка значимости каждый день и остановка при p < 0.05 драматически повышает ложноположительные. Тест с 5% ошибкой при однократной проверке может иметь 30%+ при ежедневной. Используйте последовательное тестирование.
- Путаница значимости и важности — Статистически значимый результат может быть практически бессмысленным. +0.01% конверсии может быть значим при миллионах посетителей, но не стоит внедрения.
- Незначимость ≠ отсутствие эффекта — Незначимый результат означает, что эффект не обнаружен, а не что его нет. Тест может быть недостаточно мощным. Проверьте Калькулятор мощности.
- Игнорирование множественных сравнений — Тестирование 20 метрик при α = 0.05 даёт ожидаемый один ложноположительный. Используйте поправки или сосредоточьтесь на одной главной метрике.
Байесовская альтернатива
Если частотный подход кажется контринтуитивным, байесовский анализ даёт прямое вероятностное утверждение: «Вероятность 94%, что вариант B лучше A».
Именно это люди часто думают о значимости. Байесовский калькулятор вычислит это без рассуждений о нулевых гипотезах.
Проверьте значимость вашего теста
Используйте Калькулятор конверсий для проверки статистической значимости. Введите посетителей и конверсии для получения p-значения, ДИ и размера эффекта.