ABtesting.tools

Comment analyser les résultats d'un test A/B

Votre test est terminé. Et maintenant ? Ce guide vous accompagne dans l'analyse étape par étape pour prendre la bonne décision.

Étape 1 : Vérifier que le test s'est déroulé correctement

Avant d'examiner les résultats, vérifiez ces fondamentaux :

  • Déséquilibre du ratio d'échantillon (SRM)Si vous attendiez une répartition 50/50 mais avez obtenu 52/48 ou pire, il y a peut-être un problème de randomisation. Un SRM significatif invalide les résultats.
  • Cycles hebdomadaires completsLe test doit avoir duré des semaines complètes (7, 14, 21 jours) pour éviter le biais lié au jour de la semaine.
  • Pas d'interférence externeConfirmez qu'aucun événement majeur (pannes du site, campagnes marketing, jours fériés) ne s'est produit pendant le test et n'a pu fausser les résultats.

Étape 2 : Vérifier la significativité statistique

Entrez vos données dans le calculateur approprié selon votre type de métrique :

Regardez la valeur p. Si p < 0,05, le résultat est statistiquement significatif au niveau de confiance de 95 %.

Étape 3 : Examiner la taille de l'effet

La significativité statistique seule ne suffit pas. Une hausse de +0,01 % peut être significative avec suffisamment de données, mais ne vaut probablement pas la peine d'être déployée.

  • Effet absoluLa différence brute (par ex. contrôle : 4,2 %, variante : 4,8 % → effet absolu : +0,6 point de pourcentage).
  • Effet relatifLe changement en pourcentage (par ex. +0,6 pp sur une base de 4,2 % → +14,3 % de hausse relative). C'est ce qui compte pour les décisions business.

Demandez-vous : cette hausse est-elle suffisamment importante pour justifier les coûts d'ingénierie et de produit liés au déploiement du changement ?

Étape 4 : Lire l'intervalle de confiance

L'intervalle de confiance vous donne la plage plausible des tailles d'effet.

  • Intervalle étroit (par ex. [+0,3 %, +0,9 %])Vous avez une bonne précision. L'effet se situe probablement entre +0,3 % et +0,9 %. Vous pouvez prendre une décision en toute confiance.
  • Intervalle large (par ex. [−0,5 %, +1,7 %])Forte incertitude. Le véritable effet pourrait être négatif ou bien plus grand que celui observé. Envisagez de prolonger le test.

L'intervalle est plus informatif que la valeur p seule — il vous indique à la fois si l'effet existe et quelle pourrait être son amplitude.

Étape 5 : Prendre la décision

  • Résultat positif significatifDéployez la variante. L'effet est réel et la direction est claire.
  • Résultat négatif significatifLa variante a nui aux performances. Ne la déployez pas. Analysez pourquoi.
  • Non significatif Vous n'avez pas pu détecter de différence. Cela ne signifie pas qu'il n'y a pas de différence — votre test est peut-être sous-puissant. Vérifiez quel MDE votre test pouvait détecter avec le Calculateur de puissance.

En cas de résultat non concluant : soit prolongez le test (si c'est faisable), soit acceptez que l'effet est trop petit pour être détecté avec votre volume de trafic et passez à des idées à plus fort impact.

Pièges courants de l'analyse

  • Sélection de métriques à la carteSi votre métrique principale n'a montré aucun effet, ne cherchez pas dans les métriques secondaires pour trouver un gain. Pré-enregistrez quelle métrique est la principale.
  • Segmentation post-hocDécouper les résultats par pays, appareil ou type d'utilisateur après le test augmente le risque de faux positifs. Ne faites confiance qu'aux segments pré-enregistrés.
  • Ignorer les effets de nouveautéLes nouveaux designs montrent souvent une hausse initiale qui s'estompe à mesure que les utilisateurs s'y habituent. Envisagez de surveiller les métriques post-lancement pendant quelques semaines.