Размер выборки A/B теста
Тест с малой выборкой тратит время и даёт ненадёжные результаты. Слишком большая — задерживает решения. Как найти баланс.
Почему размер выборки важен
Тест с недостаточной выборкой — слабый: он не обнаружит реальные эффекты в большинстве случаев. Это ведёт к неопределённым результатам. С другой стороны, избыточные тесты задерживают внедрение победителей.
Четыре фактора, определяющие размер выборки
- Базовый показатель — текущая конверсия. Низкие значения требуют больше данных из-за меньшего сигнала.
- Минимально обнаружимый эффект (MDE) — наименьшее улучшение для обнаружения. Меньшие эффекты требуют больших выборок. Будьте реалистичны.
- Уровень значимости (α) — вероятность ложноположительного, обычно 5% (95% доверие). Снижение до 1% существенно увеличивает объём данных.
- Статистическая мощность (1-β) — вероятность обнаружения реального эффекта. 80% — стандарт. Повышение до 90% добавляет ~30% к выборке.
Распространённые ошибки
- Досрочная остановка — подглядывание и остановка при p < 0.05 драматически повышает ложноположительные. Используйте последовательное тестирование для подглядывания.
- Пост-хок анализ мощности — расчёт мощности после теста бесполезен. Всегда рассчитывайте выборку до запуска.
- Игнорирование распределения трафика — если только 50% трафика в тесте, нужно вдвое больше посетителей. Используйте Калькулятор длительности.
- Нереалистичный MDE — обнаружение 1% относительного изменения на 3% базе потребует миллионов посетителей. Согласуйте MDE с бизнес-порогом.
Практические правила
- Уменьшение MDE вдвое примерно учетверяет выборку.
- Низкие базовые показатели требуют больше посетителей — 1% база требует ~25x больше, чем 50% при том же MDE.
- Переход с 80% на 90% мощности увеличивает выборку на ~30%.
- Добавление вариантов линейно увеличивает необходимый трафик.
Рассчитайте размер выборки
Используйте Калькулятор размера выборки для точного числа с учётом вашей базовой конверсии, MDE и мощности.