Размер выборки A/B теста

Тест с малой выборкой тратит время и даёт ненадёжные результаты. Слишком большая — задерживает решения. Как найти баланс.

Почему размер выборки важен

Тест с недостаточной выборкой — слабый: он не обнаружит реальные эффекты в большинстве случаев. Это ведёт к неопределённым результатам. С другой стороны, избыточные тесты задерживают внедрение победителей.

Четыре фактора, определяющие размер выборки

Базовый показатель — текущая конверсия. Низкие значения требуют больше данных из-за меньшего сигнала.
Минимально обнаружимый эффект (MDE) — наименьшее улучшение для обнаружения. Меньшие эффекты требуют больших выборок. Будьте реалистичны.
Уровень значимости (α) — вероятность ложноположительного, обычно 5% (95% доверие). Снижение до 1% существенно увеличивает объём данных.
Статистическая мощность (1-β) — вероятность обнаружения реального эффекта. 80% — стандарт. Повышение до 90% добавляет ~30% к выборке.

Распространённые ошибки

Досрочная остановка — подглядывание и остановка при p < 0.05 драматически повышает ложноположительные. Используйте последовательное тестирование для подглядывания.
Пост-хок анализ мощности — расчёт мощности после теста бесполезен. Всегда рассчитывайте выборку до запуска.
Игнорирование распределения трафика — если только 50% трафика в тесте, нужно вдвое больше посетителей. Используйте Калькулятор длительности.
Нереалистичный MDE — обнаружение 1% относительного изменения на 3% базе потребует миллионов посетителей. Согласуйте MDE с бизнес-порогом.

Практические правила

Уменьшение MDE вдвое примерно учетверяет выборку.
Низкие базовые показатели требуют больше посетителей — 1% база требует ~25x больше, чем 50% при том же MDE.
Переход с 80% на 90% мощности увеличивает выборку на ~30%.
Добавление вариантов линейно увеличивает необходимый трафик.

Рассчитайте размер выборки

Используйте Калькулятор размера выборки для точного числа с учётом вашей базовой конверсии, MDE и мощности.