ABtesting.tools

Розмір вибірки A/B тесту

Тест з малою вибіркою — марнування часу. Занадто велика — затримка рішень. Як знайти баланс.

Чому розмір вибірки важливий

Слабкий тест не виявить реальних ефектів. Надмірний — затримає впровадження переможців.

Чотири фактори розміру вибірки

Базовий показник — поточна конверсія. Низькі значення потребують більше даних.
MDE — найменше покращення для виявлення. Менші ефекти потребують більших вибірок.
Рівень значущості (α) — хибнопозитивні, зазвичай 5%.
Потужність (1-β) — ймовірність виявлення. 80% — стандарт. Підвищення до 90% додає ~30%.

Поширені помилки

Рання зупинка — підглядання підвищує хибнопозитивні. Використовуйте послідовне тестування.
Пост-хок аналіз потужності — розрахунок потужності після тесту — безкорисний.
Ігнорування розподілу трафіку — при 50% трафіку потрібно вдвічі більше. Використовуйте Калькулятор тривалості.
Нереалістичний MDE — 1% зміна на 3% базі потребує мільйонів відвідувачів.

Правила великого пальця

Зменшення MDE вдвічі приблизно вчетверяє вибірку.
Низькі базові показники потребують більше — 1% база потребує ~25x більше, ніж 50%.
Перехід з 80% на 90% потужності додає ~30%.
Додавання варіантів лінійно збільшує трафік.

Розрахуйте вибірку

Використовуйте Калькулятор розміру вибірки для точного числа.