La significativité statistique des tests A/B expliquée

La significativité statistique est le concept le plus cité — et le plus mal compris — des tests A/B. Ce guide explique ce qu'elle signifie réellement et comment l'interpréter correctement.

Qu'est-ce que la significativité statistique ?

La significativité statistique vous indique si la différence observée entre les variantes est probablement réelle ou si elle a pu apparaître uniquement par hasard.

Lorsque nous disons qu'un résultat est « statistiquement significatif à 95 % de confiance », cela signifie : s'il n'y avait pas de différence réelle entre les variantes, il y a moins de 5 % de probabilité d'observer une différence aussi importante ou plus grande uniquement par variation aléatoire.

De manière cruciale, cela ne signifie pas qu'il y a 95 % de chances que la variante gagnante soit meilleure. C'est une interprétation erronée très courante.

Comment fonctionnent les valeurs p

La valeur p est la probabilité d'observer vos données (ou quelque chose de plus extrême) en supposant que l'hypothèse nulle est vraie — c'est-à-dire en supposant qu'il n'y a aucune différence réelle entre les variantes.

Valeur p faible (par ex. p = 0,02) — La différence observée serait peu probable sous le seul effet du hasard. Nous rejetons l'hypothèse nulle et déclarons le résultat significatif.
Valeur p élevée (par ex. p = 0,35) — La différence observée s'explique facilement par la variation aléatoire. Nous ne rejetons pas l'hypothèse nulle.

Le seuil — La plupart des équipes utilisent α = 0,05 (5 %) comme seuil. Si p < α, le résultat est significatif. Ce seuil est une convention, pas une loi de la nature — certaines équipes utilisent 0,01 ou 0,10 selon le coût des erreurs.

Les intervalles de confiance sont plus informatifs que les valeurs p

Une valeur p vous indique uniquement si l'effet est probablement non nul. Un intervalle de confiance vous donne la plage plausible de la taille de l'effet.

Par exemple : « La différence de taux de conversion est de +1,2 % avec un intervalle de confiance à 95 % de [+0,3 %, +2,1 %]. » Cela vous indique que l'effet est significatif (l'intervalle n'inclut pas zéro) et vous donne une idée de l'amplitude probable.

Si l'intervalle est [−0,5 %, +2,9 %], le résultat n'est pas significatif — mais vous pouvez voir que l'effet pourrait tout de même être significatif. Vous avez probablement besoin de plus de données.

Erreurs courantes liées à la significativité

Consultation quotidienne des résultats — Vérifier la significativité chaque jour et s'arrêter dès que p < 0,05 gonfle considérablement les faux positifs. Un test avec un taux de faux positifs de 5 % lorsqu'il est consulté une seule fois peut atteindre un taux de plus de 30 % lorsqu'il est consulté quotidiennement. Utilisez le test séquentiel si vous devez surveiller les résultats en continu.
Confondre significativité et importance — Un résultat statistiquement significatif peut être pratiquement insignifiant. Une hausse de +0,01 % du taux de conversion peut être significative avec des millions de visiteurs, mais ne vaut pas la peine d'être déployée. Vérifiez toujours la taille de l'effet, pas seulement la valeur p.
Considérer la non-significativité comme preuve d'absence d'effet — Un résultat non significatif signifie que vous n'avez pas pu détecter d'effet — pas qu'aucun effet n'existe. Votre test est peut-être simplement sous-puissant. Consultez le Calculateur de puissance pour comprendre ce que votre test pouvait réellement détecter.
Ignorer les comparaisons multiples — Tester 20 métriques à α = 0,05 signifie que vous attendez un faux positif par le seul hasard. Utilisez des corrections (Bonferroni, Holm) ou concentrez-vous sur une seule métrique principale.

L'alternative bayésienne

Si le cadre fréquentiste vous semble contre-intuitif, l'analyse bayésienne vous donne un énoncé de probabilité direct : « Il y a 94 % de probabilité que la variante B soit meilleure que A. »

C'est souvent ce que les gens pensent que la significativité signifie. Le Calculateur bayésien calcule cela pour vous — pas besoin de raisonner sur des hypothèses nulles ou des valeurs p.

Vérifiez la significativité de votre test

Utilisez le Calculateur de conversions pour tester si les résultats de votre test A/B sont statistiquement significatifs. Entrez vos nombres de visiteurs et de conversions pour obtenir une valeur p, un intervalle de confiance et une taille d'effet.