Comment analyser les résultats d'un test A/B

Votre test est terminé. Et maintenant ? Ce guide vous accompagne dans l'analyse étape par étape pour prendre la bonne décision.

Étape 1 : Vérifier que le test s'est déroulé correctement

Avant d'examiner les résultats, vérifiez ces fondamentaux :

Déséquilibre du ratio d'échantillon (SRM) — Si vous attendiez une répartition 50/50 mais avez obtenu 52/48 ou pire, il y a peut-être un problème de randomisation. Un SRM significatif invalide les résultats.
Cycles hebdomadaires complets — Le test doit avoir duré des semaines complètes (7, 14, 21 jours) pour éviter le biais lié au jour de la semaine.
Pas d'interférence externe — Confirmez qu'aucun événement majeur (pannes du site, campagnes marketing, jours fériés) ne s'est produit pendant le test et n'a pu fausser les résultats.

Étape 2 : Vérifier la significativité statistique

Entrez vos données dans le calculateur approprié selon votre type de métrique :

Taux de conversion (cliqué, acheté, inscrit) — Utilisez le Calculateur de conversions
Métriques numériques par utilisateur (revenu, temps passé sur le site) — Utilisez le Calculateur de métriques continues
Métriques de ratio (AOV, revenu par clic) — Utilisez le Calculateur de métriques de ratio

Regardez la valeur p. Si p < 0,05, le résultat est statistiquement significatif au niveau de confiance de 95 %.

Étape 3 : Examiner la taille de l'effet

La significativité statistique seule ne suffit pas. Une hausse de +0,01 % peut être significative avec suffisamment de données, mais ne vaut probablement pas la peine d'être déployée.

Effet absolu — La différence brute (par ex. contrôle : 4,2 %, variante : 4,8 % → effet absolu : +0,6 point de pourcentage).
Effet relatif — Le changement en pourcentage (par ex. +0,6 pp sur une base de 4,2 % → +14,3 % de hausse relative). C'est ce qui compte pour les décisions business.

Demandez-vous : cette hausse est-elle suffisamment importante pour justifier les coûts d'ingénierie et de produit liés au déploiement du changement ?

Étape 4 : Lire l'intervalle de confiance

L'intervalle de confiance vous donne la plage plausible des tailles d'effet.

Intervalle étroit (par ex. [+0,3 %, +0,9 %]) — Vous avez une bonne précision. L'effet se situe probablement entre +0,3 % et +0,9 %. Vous pouvez prendre une décision en toute confiance.
Intervalle large (par ex. [−0,5 %, +1,7 %]) — Forte incertitude. Le véritable effet pourrait être négatif ou bien plus grand que celui observé. Envisagez de prolonger le test.

L'intervalle est plus informatif que la valeur p seule — il vous indique à la fois si l'effet existe et quelle pourrait être son amplitude.

Étape 5 : Prendre la décision

Résultat positif significatif — Déployez la variante. L'effet est réel et la direction est claire.
Résultat négatif significatif — La variante a nui aux performances. Ne la déployez pas. Analysez pourquoi.
Non significatif — Vous n'avez pas pu détecter de différence. Cela ne signifie pas qu'il n'y a pas de différence — votre test est peut-être sous-puissant. Vérifiez quel MDE votre test pouvait détecter avec le Calculateur de puissance.

En cas de résultat non concluant : soit prolongez le test (si c'est faisable), soit acceptez que l'effet est trop petit pour être détecté avec votre volume de trafic et passez à des idées à plus fort impact.

Pièges courants de l'analyse

Sélection de métriques à la carte — Si votre métrique principale n'a montré aucun effet, ne cherchez pas dans les métriques secondaires pour trouver un gain. Pré-enregistrez quelle métrique est la principale.
Segmentation post-hoc — Découper les résultats par pays, appareil ou type d'utilisateur après le test augmente le risque de faux positifs. Ne faites confiance qu'aux segments pré-enregistrés.
Ignorer les effets de nouveauté — Les nouveaux designs montrent souvent une hausse initiale qui s'estompe à mesure que les utilisateurs s'y habituent. Envisagez de surveiller les métriques post-lancement pendant quelques semaines.