Wie Sie A/B-Testergebnisse analysieren
Ihr Test ist abgeschlossen. Was nun? Dieser Leitfaden führt Sie Schritt für Schritt durch die Analyse, damit Sie die richtige Entscheidung treffen.
Schritt 1: Bestätigen Sie, dass der Test korrekt lief
Bevor Sie die Ergebnisse betrachten, überprüfen Sie diese Grundlagen:
- Stichproben-Ratio-Abweichung (SRM) — Wenn Sie eine 50/50-Aufteilung erwartet haben, aber 52/48 oder schlechter erhalten haben, könnte etwas mit der Randomisierung nicht stimmen. Eine signifikante SRM macht die Ergebnisse ungültig.
- Vollständige Wochenzyklen — Der Test sollte über vollständige Wochen gelaufen sein (7, 14, 21 Tage), um Wochentags-Verzerrungen zu vermeiden.
- Keine externen Störungen — Stellen Sie sicher, dass keine größeren Ereignisse (Website-Ausfälle, Marketingkampagnen, Feiertage) während des Tests aufgetreten sind, die die Ergebnisse verzerren könnten.
Schritt 2: Statistische Signifikanz prüfen
Geben Sie Ihre Daten in den passenden Rechner basierend auf Ihrem Metriktyp ein:
- Conversion-Raten (geklickt, gekauft, angemeldet) — Verwenden Sie den Konversionen-Rechner
- Numerische Pro-Nutzer-Metriken (Umsatz, Verweildauer) — Verwenden Sie den Rechner für kontinuierliche Metriken
- Ratio-Metriken (AOV, Umsatz pro Klick) — Verwenden Sie den Ratio-Metriken-Rechner
Schauen Sie auf den p-Wert. Wenn p < 0,05, ist das Ergebnis statistisch signifikant auf dem 95 %-Konfidenzniveau.
Schritt 3: Effektgröße betrachten
Statistische Signifikanz allein reicht nicht aus. Ein Anstieg von +0,01 % kann bei genügend Daten signifikant sein, ist aber wahrscheinlich nicht wert, ausgerollt zu werden.
- Absoluter Effekt — Die Rohdifferenz (z. B. Kontrolle: 4,2 %, Variante: 4,8 % → absoluter Effekt: +0,6 Prozentpunkte).
- Relativer Effekt — Die prozentuale Veränderung (z. B. +0,6 Pp bei einer Basisrate von 4,2 % → +14,3 % relativer Anstieg). Das ist entscheidend für Geschäftsentscheidungen.
Fragen Sie sich: Ist dieser Anstieg groß genug, um die Engineering- und Produktkosten für das Ausrollen der Änderung zu rechtfertigen?
Schritt 4: Konfidenzintervall lesen
Das Konfidenzintervall gibt Ihnen den Bereich plausibler Effektgrößen.
- Enges Intervall (z. B. [+0,3 %, +0,9 %]) — Sie haben gute Präzision. Der Effekt liegt wahrscheinlich zwischen +0,3 % und +0,9 %. Eine Entscheidung ist sicher möglich.
- Breites Intervall (z. B. [−0,5 %, +1,7 %]) — Hohe Unsicherheit. Der wahre Effekt könnte negativ oder viel größer als beobachtet sein. Erwägen Sie, den Test länger laufen zu lassen.
Das Intervall ist informativer als der p-Wert allein — es sagt Ihnen sowohl, ob der Effekt existiert, als auch wie groß er sein könnte.
Schritt 5: Die Entscheidung treffen
- Signifikant positives Ergebnis — Rollen Sie die Variante aus. Der Effekt ist real und die Richtung ist klar.
- Signifikant negatives Ergebnis — Die Variante hat die Performance verschlechtert. Nicht ausrollen. Analysieren Sie warum.
- Nicht signifikant — Sie konnten keinen Unterschied erkennen. Das bedeutet nicht, dass kein Unterschied existiert — Ihr Test war möglicherweise unterpowert. Prüfen Sie mit dem Teststärkerechner, welchen MDE Ihr Test erkennen konnte.
Bei unklarem Ergebnis: Verlängern Sie entweder den Test (wenn praktikabel) oder akzeptieren Sie, dass der Effekt zu klein ist, um ihn mit Ihrem Traffic-Volumen zu erkennen, und wenden Sie sich wirkungsvolleren Ideen zu.
Häufige Analyse-Fallstricke
- Metriken selektiv auswählen — Wenn Ihre primäre Metrik keinen Effekt zeigte, suchen Sie nicht in sekundären Metriken nach einem Erfolg. Legen Sie vorab fest, welche Metrik die primäre ist.
- Post-hoc-Segmentierung — Ergebnisse nach Land, Gerät oder Nutzertyp nach dem Test aufzuteilen erhöht das Risiko falsch positiver Ergebnisse. Vertrauen Sie nur vorab registrierten Segmenten.
- Neuheitseffekte ignorieren — Neue Designs zeigen oft einen anfänglichen Anstieg, der nachlässt, wenn sich Nutzer daran gewöhnen. Erwägen Sie, die Metriken nach dem Launch einige Wochen lang zu beobachten.