Wie Sie A/B-Testergebnisse analysieren

Ihr Test ist abgeschlossen. Was nun? Dieser Leitfaden führt Sie Schritt für Schritt durch die Analyse, damit Sie die richtige Entscheidung treffen.

Schritt 1: Bestätigen Sie, dass der Test korrekt lief

Bevor Sie die Ergebnisse betrachten, überprüfen Sie diese Grundlagen:

Stichproben-Ratio-Abweichung (SRM) — Wenn Sie eine 50/50-Aufteilung erwartet haben, aber 52/48 oder schlechter erhalten haben, könnte etwas mit der Randomisierung nicht stimmen. Eine signifikante SRM macht die Ergebnisse ungültig.
Vollständige Wochenzyklen — Der Test sollte über vollständige Wochen gelaufen sein (7, 14, 21 Tage), um Wochentags-Verzerrungen zu vermeiden.
Keine externen Störungen — Stellen Sie sicher, dass keine größeren Ereignisse (Website-Ausfälle, Marketingkampagnen, Feiertage) während des Tests aufgetreten sind, die die Ergebnisse verzerren könnten.

Schritt 2: Statistische Signifikanz prüfen

Geben Sie Ihre Daten in den passenden Rechner basierend auf Ihrem Metriktyp ein:

Conversion-Raten (geklickt, gekauft, angemeldet) — Verwenden Sie den Konversionen-Rechner
Numerische Pro-Nutzer-Metriken (Umsatz, Verweildauer) — Verwenden Sie den Rechner für kontinuierliche Metriken
Ratio-Metriken (AOV, Umsatz pro Klick) — Verwenden Sie den Ratio-Metriken-Rechner

Schauen Sie auf den p-Wert. Wenn p < 0,05, ist das Ergebnis statistisch signifikant auf dem 95 %-Konfidenzniveau.

Schritt 3: Effektgröße betrachten

Statistische Signifikanz allein reicht nicht aus. Ein Anstieg von +0,01 % kann bei genügend Daten signifikant sein, ist aber wahrscheinlich nicht wert, ausgerollt zu werden.

Absoluter Effekt — Die Rohdifferenz (z. B. Kontrolle: 4,2 %, Variante: 4,8 % → absoluter Effekt: +0,6 Prozentpunkte).
Relativer Effekt — Die prozentuale Veränderung (z. B. +0,6 Pp bei einer Basisrate von 4,2 % → +14,3 % relativer Anstieg). Das ist entscheidend für Geschäftsentscheidungen.

Fragen Sie sich: Ist dieser Anstieg groß genug, um die Engineering- und Produktkosten für das Ausrollen der Änderung zu rechtfertigen?

Schritt 4: Konfidenzintervall lesen

Das Konfidenzintervall gibt Ihnen den Bereich plausibler Effektgrößen.

Enges Intervall (z. B. [+0,3 %, +0,9 %]) — Sie haben gute Präzision. Der Effekt liegt wahrscheinlich zwischen +0,3 % und +0,9 %. Eine Entscheidung ist sicher möglich.
Breites Intervall (z. B. [−0,5 %, +1,7 %]) — Hohe Unsicherheit. Der wahre Effekt könnte negativ oder viel größer als beobachtet sein. Erwägen Sie, den Test länger laufen zu lassen.

Das Intervall ist informativer als der p-Wert allein — es sagt Ihnen sowohl, ob der Effekt existiert, als auch wie groß er sein könnte.

Schritt 5: Die Entscheidung treffen

Signifikant positives Ergebnis — Rollen Sie die Variante aus. Der Effekt ist real und die Richtung ist klar.
Signifikant negatives Ergebnis — Die Variante hat die Performance verschlechtert. Nicht ausrollen. Analysieren Sie warum.
Nicht signifikant — Sie konnten keinen Unterschied erkennen. Das bedeutet nicht, dass kein Unterschied existiert — Ihr Test war möglicherweise unterpowert. Prüfen Sie mit dem Teststärkerechner, welchen MDE Ihr Test erkennen konnte.

Bei unklarem Ergebnis: Verlängern Sie entweder den Test (wenn praktikabel) oder akzeptieren Sie, dass der Effekt zu klein ist, um ihn mit Ihrem Traffic-Volumen zu erkennen, und wenden Sie sich wirkungsvolleren Ideen zu.

Häufige Analyse-Fallstricke

Metriken selektiv auswählen — Wenn Ihre primäre Metrik keinen Effekt zeigte, suchen Sie nicht in sekundären Metriken nach einem Erfolg. Legen Sie vorab fest, welche Metrik die primäre ist.
Post-hoc-Segmentierung — Ergebnisse nach Land, Gerät oder Nutzertyp nach dem Test aufzuteilen erhöht das Risiko falsch positiver Ergebnisse. Vertrauen Sie nur vorab registrierten Segmenten.
Neuheitseffekte ignorieren — Neue Designs zeigen oft einen anfänglichen Anstieg, der nachlässt, wenn sich Nutzer daran gewöhnen. Erwägen Sie, die Metriken nach dem Launch einige Wochen lang zu beobachten.