Поширені помилки A/B тестування та як їх уникнути

Більшість провалів — через методологічні помилки, а не погані ідеї.

1. Підглядання та рання зупинка

Найчастіша помилка. Щоденна перевірка при 5% значущості дає ~25-30% реальних хибнопозитивних.

Чому це трапляється — P-значення коливаються. При багатьох перевірках шум перетне поріг.

Рішення — Зафіксуйте вибірку або використовуйте послідовне тестування.

При 40% потужності тест пропустить реальний ефект у 60% випадків.

Рішення — Розрахуйте розмір вибірки перед запуском.

4 варіанти при α = 0.05 дають ~19% шанс хибного результату.

Рішення — Використовуйте Мультиваріантний калькулятор з поправками.

Оптимізація CTR замість доходу може призвести до зростання кліків, але зниження покупок.

Рішення — Оберіть головну метрику, пов'язану з бізнес-цінністю.

Випадкові зміни іноді працюють, але ви нічого не дізнаєтесь.

Рішення — Перед тестом запишіть: «Ми вважаємо, що [зміна] призведе до [ефекту], тому що [причина]».

Невдалі експерименти містять цінну інформацію.

Рішення — Документуйте все — перемоги, невдачі, невизначені результати.

Типові проблеми:

Рішення — Перевіряйте SRM. Проводьте A/A тест для валідації.