ABtesting.tools

Размер выборки A/B теста

Тест с малой выборкой тратит время и даёт ненадёжные результаты. Слишком большая — задерживает решения. Как найти баланс.

Почему размер выборки важен

Тест с недостаточной выборкой — слабый: он не обнаружит реальные эффекты в большинстве случаев. Это ведёт к неопределённым результатам. С другой стороны, избыточные тесты задерживают внедрение победителей.

Четыре фактора, определяющие размер выборки

  1. Базовый показательтекущая конверсия. Низкие значения требуют больше данных из-за меньшего сигнала.
  2. Минимально обнаружимый эффект (MDE)наименьшее улучшение для обнаружения. Меньшие эффекты требуют больших выборок. Будьте реалистичны.
  3. Уровень значимости (α)вероятность ложноположительного, обычно 5% (95% доверие). Снижение до 1% существенно увеличивает объём данных.
  4. Статистическая мощность (1-β)вероятность обнаружения реального эффекта. 80% — стандарт. Повышение до 90% добавляет ~30% к выборке.

Распространённые ошибки

  • Досрочная остановка подглядывание и остановка при p < 0.05 драматически повышает ложноположительные. Используйте последовательное тестирование для подглядывания.
  • Пост-хок анализ мощностирасчёт мощности после теста бесполезен. Всегда рассчитывайте выборку до запуска.
  • Игнорирование распределения трафика если только 50% трафика в тесте, нужно вдвое больше посетителей. Используйте Калькулятор длительности.
  • Нереалистичный MDEобнаружение 1% относительного изменения на 3% базе потребует миллионов посетителей. Согласуйте MDE с бизнес-порогом.

Практические правила

  • Уменьшение MDE вдвое примерно учетверяет выборку.
  • Низкие базовые показатели требуют больше посетителей — 1% база требует ~25x больше, чем 50% при том же MDE.
  • Переход с 80% на 90% мощности увеличивает выборку на ~30%.
  • Добавление вариантов линейно увеличивает необходимый трафик.

Рассчитайте размер выборки

Используйте Калькулятор размера выборки для точного числа с учётом вашей базовой конверсии, MDE и мощности.