ABtesting.tools

Статистична значущість A/B тесту

Значущість — найбільш цитоване і найменш зрозуміле поняття в A/B тестуванні.

Що таке статистична значущість?

Показує, чи є спостережувана різниця реальною або випадковою.

«Значуще при 95% довірі» означає: якщо різниці немає, ймовірність побачити таку різницю — менше 5%.

Це НЕ означає 95% ймовірність, що варіант кращий.

Як працюють p-значення

p-значення — ймовірність спостерігати ваші дані при нульовій гіпотезі.

  • Низьке p-значення (напр., p = 0.02)Різниця малоймовірна при випадковості. Відхиляємо нульову гіпотезу.
  • Високе p-значення (напр., p = 0.35)Різниця легко пояснюється випадковістю.

Порігα = 0.05 (5%) — стандарт. p < α — результат значущий.

Довірчі інтервали інформативніші за p-значення

p-значення каже лише про ненульовий ефект. ДІ показує діапазон розмірів ефекту.

Наприклад: «Різниця +1.2% з 95% ДІ [+0.3%, +2.1%]».

Якщо ДІ [−0.5%, +2.9%] — результат не значущий, але ефект може бути суттєвим.

Поширені помилки

  • Щоденне підглядання Підвищує хибнопозитивні з 5% до 30%+. Використовуйте послідовне тестування.
  • Значущість ≠ важливість+0.01% може бути значущим, але не вартим впровадження.
  • Незначущість ≠ відсутність ефекту Тест може бути слабким. Перевірте Калькулятор потужності.
  • Множинні порівняння20 метрик при α = 0.05 — очікуємо 1 хибнопозитивний.

Байєсівська альтернатива

Байєсівський аналіз дає: «94% ймовірність, що B краще A».

Байєсівський калькулятор обчислить це без нульових гіпотез.

Перевірте значущість

Використовуйте Калькулятор конверсій для p-значення, ДІ та розміру ефекту.