Comment analyser les résultats d'un test A/B
Votre test est terminé. Et maintenant ? Ce guide vous accompagne dans l'analyse étape par étape pour prendre la bonne décision.
Étape 1 : Vérifier que le test s'est déroulé correctement
Avant d'examiner les résultats, vérifiez ces fondamentaux :
- Déséquilibre du ratio d'échantillon (SRM) — Si vous attendiez une répartition 50/50 mais avez obtenu 52/48 ou pire, il y a peut-être un problème de randomisation. Un SRM significatif invalide les résultats.
- Cycles hebdomadaires complets — Le test doit avoir duré des semaines complètes (7, 14, 21 jours) pour éviter le biais lié au jour de la semaine.
- Pas d'interférence externe — Confirmez qu'aucun événement majeur (pannes du site, campagnes marketing, jours fériés) ne s'est produit pendant le test et n'a pu fausser les résultats.
Étape 2 : Vérifier la significativité statistique
Entrez vos données dans le calculateur approprié selon votre type de métrique :
- Taux de conversion (cliqué, acheté, inscrit) — Utilisez le Calculateur de conversions
- Métriques numériques par utilisateur (revenu, temps passé sur le site) — Utilisez le Calculateur de métriques continues
- Métriques de ratio (AOV, revenu par clic) — Utilisez le Calculateur de métriques de ratio
Regardez la valeur p. Si p < 0,05, le résultat est statistiquement significatif au niveau de confiance de 95 %.
Étape 3 : Examiner la taille de l'effet
La significativité statistique seule ne suffit pas. Une hausse de +0,01 % peut être significative avec suffisamment de données, mais ne vaut probablement pas la peine d'être déployée.
- Effet absolu — La différence brute (par ex. contrôle : 4,2 %, variante : 4,8 % → effet absolu : +0,6 point de pourcentage).
- Effet relatif — Le changement en pourcentage (par ex. +0,6 pp sur une base de 4,2 % → +14,3 % de hausse relative). C'est ce qui compte pour les décisions business.
Demandez-vous : cette hausse est-elle suffisamment importante pour justifier les coûts d'ingénierie et de produit liés au déploiement du changement ?
Étape 4 : Lire l'intervalle de confiance
L'intervalle de confiance vous donne la plage plausible des tailles d'effet.
- Intervalle étroit (par ex. [+0,3 %, +0,9 %]) — Vous avez une bonne précision. L'effet se situe probablement entre +0,3 % et +0,9 %. Vous pouvez prendre une décision en toute confiance.
- Intervalle large (par ex. [−0,5 %, +1,7 %]) — Forte incertitude. Le véritable effet pourrait être négatif ou bien plus grand que celui observé. Envisagez de prolonger le test.
L'intervalle est plus informatif que la valeur p seule — il vous indique à la fois si l'effet existe et quelle pourrait être son amplitude.
Étape 5 : Prendre la décision
- Résultat positif significatif — Déployez la variante. L'effet est réel et la direction est claire.
- Résultat négatif significatif — La variante a nui aux performances. Ne la déployez pas. Analysez pourquoi.
- Non significatif — Vous n'avez pas pu détecter de différence. Cela ne signifie pas qu'il n'y a pas de différence — votre test est peut-être sous-puissant. Vérifiez quel MDE votre test pouvait détecter avec le Calculateur de puissance.
En cas de résultat non concluant : soit prolongez le test (si c'est faisable), soit acceptez que l'effet est trop petit pour être détecté avec votre volume de trafic et passez à des idées à plus fort impact.
Pièges courants de l'analyse
- Sélection de métriques à la carte — Si votre métrique principale n'a montré aucun effet, ne cherchez pas dans les métriques secondaires pour trouver un gain. Pré-enregistrez quelle métrique est la principale.
- Segmentation post-hoc — Découper les résultats par pays, appareil ou type d'utilisateur après le test augmente le risque de faux positifs. Ne faites confiance qu'aux segments pré-enregistrés.
- Ignorer les effets de nouveauté — Les nouveaux designs montrent souvent une hausse initiale qui s'estompe à mesure que les utilisateurs s'y habituent. Envisagez de surveiller les métriques post-lancement pendant quelques semaines.