Erreurs courantes en tests A/B et comment les éviter

La plupart des expériences échouent non pas à cause de mauvaises idées, mais à cause d'erreurs méthodologiques évitables. Voici les erreurs qui invalident le plus de tests.

1. Consulter les résultats et s'arrêter prématurément

C'est l'erreur la plus courante. Vous consultez votre tableau de bord quotidiennement, voyez p < 0,05 au jour 3 et déclarez le test terminé. Le problème : avec un seuil de significativité nominal de 5 %, la consultation quotidienne pendant deux semaines donne un taux de faux positifs d'environ 25 à 30 %.

Pourquoi cela arrive — Les valeurs p fluctuent naturellement pendant la collecte des données. Avec suffisamment de vérifications, le bruit aléatoire finira par franchir le seuil de 0,05.

La solution — Soit vous vous engagez sur une taille d'échantillon fixe et ne regardez pas les résultats avant la fin, soit vous utilisez le test séquentiel qui est spécifiquement conçu pour la surveillance continue.

2. Mener des tests sous-puissants

Un test sous-puissant n'a pas assez de visiteurs pour détecter l'effet qui vous intéresse. Si votre test a 40 % de puissance, il manquera un effet réel 60 % du temps — vous déclarerez des gagnants perdants et vice versa.

La solution — Calculez toujours la taille d'échantillon avant de lancer. Sachez quel MDE votre trafic peut supporter. Si vous avez besoin de 50 000 visiteurs par variante et n'en obtenez que 1 000 par semaine, soit vous acceptez un MDE plus grand, soit vous testez sur une page à plus fort trafic.

3. Tester trop de variantes sans correction

Chaque variante supplémentaire augmente la probabilité de faux positifs. Tester 4 variantes contre un contrôle à α = 0,05 vous donne environ 19 % de chances d'au moins un faux positif, et non 5 %.

La solution — Utilisez le Calculateur multi-variantes qui applique automatiquement les corrections de Bonferroni ou Holm. Ou limitez-vous à une seule variante à la fois.

4. Optimiser la mauvaise métrique

Optimiser le taux de clics quand votre activité se soucie du revenu peut mener à des changements qui augmentent les clics mais diminuent les achats. Un bouton qui dit « iPhone gratuit » obtiendra plus de clics mais moins de vraies conversions.

La solution — Choisissez une métrique principale directement liée à la valeur business. Suivez des métriques secondaires comme garde-fous (par ex. assurez-vous que le revenu par visiteur ne baisse pas pendant que vous optimisez le taux de conversion).

5. Tester sans hypothèse

Les changements aléatoires (« essayons un bouton bleu ») produisent parfois des gains, mais vous n'en apprenez rien. Sans hypothèse, vous ne pouvez pas capitaliser sur les succès ni comprendre les échecs.

La solution — Avant chaque test, écrivez : « Nous pensons que [changement] aura [effet] parce que [raison]. » Cela rend les résultats interprétables quel que soit le résultat.

6. Ignorer les échecs

Les équipes célèbrent les victoires et ignorent les échecs. Mais les expériences échouées contiennent des informations précieuses sur le comportement des utilisateurs. Une variante qui a diminué les conversions de 15 % vous apprend quelque chose d'important sur ce qui compte pour les utilisateurs.

La solution — Documentez chaque résultat de test — victoires, échecs et résultats non concluants. Constituez une base de connaissances. Passez en revue les échecs passés avant de concevoir de nouvelles expériences.

7. Implémentation défaillante

Même une méthodologie statistique parfaite ne peut pas sauver un test mal configuré. Problèmes d'implémentation courants :

Déséquilibre du ratio d'échantillon — répartition inégale indiquant des bugs de randomisation
Le cache affichant le contrôle aux utilisateurs de la variante (ou inversement)
Le changement ne se chargeant pas pour certains utilisateurs à cause d'erreurs JavaScript
Le trafic de bots gonflant une variante

La solution — Vérifiez toujours le déséquilibre du ratio d'échantillon avant d'analyser les résultats. Lancez d'abord un test A/A (variantes identiques) pour valider votre configuration.

La checklist

Calculer la taille d'échantillon avant le lancement
Ne pas consulter les résultats — ou utiliser le test séquentiel
Corriger pour les comparaisons multiples
Pré-enregistrer votre métrique principale
Rédiger une hypothèse
Vérifier le SRM après le test
Tout documenter