Статистична значущість A/B тесту
Значущість — найбільш цитоване і найменш зрозуміле поняття в A/B тестуванні.
Що таке статистична значущість?
Показує, чи є спостережувана різниця реальною або випадковою.
«Значуще при 95% довірі» означає: якщо різниці немає, ймовірність побачити таку різницю — менше 5%.
Це НЕ означає 95% ймовірність, що варіант кращий.
Як працюють p-значення
p-значення — ймовірність спостерігати ваші дані при нульовій гіпотезі.
- Низьке p-значення (напр., p = 0.02) — Різниця малоймовірна при випадковості. Відхиляємо нульову гіпотезу.
- Високе p-значення (напр., p = 0.35) — Різниця легко пояснюється випадковістю.
Поріг — α = 0.05 (5%) — стандарт. p < α — результат значущий.
Довірчі інтервали інформативніші за p-значення
p-значення каже лише про ненульовий ефект. ДІ показує діапазон розмірів ефекту.
Наприклад: «Різниця +1.2% з 95% ДІ [+0.3%, +2.1%]».
Якщо ДІ [−0.5%, +2.9%] — результат не значущий, але ефект може бути суттєвим.
Поширені помилки
- Щоденне підглядання — Підвищує хибнопозитивні з 5% до 30%+. Використовуйте послідовне тестування.
- Значущість ≠ важливість — +0.01% може бути значущим, але не вартим впровадження.
- Незначущість ≠ відсутність ефекту — Тест може бути слабким. Перевірте Калькулятор потужності.
- Множинні порівняння — 20 метрик при α = 0.05 — очікуємо 1 хибнопозитивний.
Байєсівська альтернатива
Байєсівський аналіз дає: «94% ймовірність, що B краще A».
Байєсівський калькулятор обчислить це без нульових гіпотез.
Перевірте значущість
Використовуйте Калькулятор конверсій для p-значення, ДІ та розміру ефекту.