What is statistical power in A/B testing?

Statistical power is the probability that your test will detect a real effect if one exists.

What power level should I aim for?

80% is the widely accepted minimum. Use 90% or higher for high-stakes tests.

Should I do power analysis before or after my test?

Before. Post-hoc power analysis using the observed effect size is statistically invalid.

Calculateur de puissance statistique pour tests A/B

Mon test a-t-il une puissance statistique suffisante pour détecter l'effet attendu ?

Déterminez la puissance statistique de votre test A/B. Découvrez quelles tailles d'effet vous pouvez détecter de manière fiable avec votre taille d'échantillon et votre trafic actuels.

Comment utiliser ce calculateur

Entrez votre taille d'échantillon par variante, le taux de conversion de base et l'effet minimum détectable que vous souhaitez évaluer. Le calculateur affiche la puissance statistique, c'est-à-dire la probabilité que votre test détecte correctement un effet réel de cette taille. Ajustez le MDE pour visualiser la courbe de puissance, qui montre comment la puissance évolue en fonction des différentes tailles d'effet.

Comprendre la puissance statistique

La puissance statistique est la probabilité qu'un test rejette correctement l'hypothèse nulle lorsqu'un effet réel existe. Elle se calcule comme 1 moins le taux d'erreur de type II (bêta). La puissance dépend de quatre facteurs : la taille d'échantillon, la taille de l'effet, le seuil de significativité (alpha) et le taux de conversion de base. Une puissance plus élevée signifie moins de faux négatifs : vous avez moins de risques de manquer une amélioration réelle. Le minimum standard est de 80 %, ce qui signifie que vous avez 80 % de chances de détecter un effet réel.

Quand utiliser ce calculateur

Utilisez l'analyse de puissance avant de lancer un test pour vérifier que votre taille d'échantillon est adéquate, ou après un test non significatif pour comprendre si vous aviez suffisamment de puissance pour détecter l'effet recherché. Un résultat non significatif issu d'un test sous-puissant ne signifie pas qu'il n'y a pas d'effet : cela signifie que votre test n'était pas en mesure de le détecter. Cette distinction est essentielle pour une interprétation correcte.

Erreurs courantes en analyse de puissance

L'erreur la plus courante est de réaliser des tests sous-puissants (en dessous de 80 % de puissance) puis de conclure qu'il n'y a pas d'effet lorsque le résultat n'est pas significatif. Une autre erreur est de calculer la puissance après le test en utilisant la taille d'effet observée, ce qui constitue un raisonnement circulaire (analyse de puissance post-hoc). La puissance doit être calculée avant le test en utilisant la taille d'effet minimale qui vous importe, et non l'effet réellement observé.