ABtesting.tools

Wie Sie A/B-Testergebnisse analysieren

Ihr Test ist abgeschlossen. Was nun? Dieser Leitfaden führt Sie Schritt für Schritt durch die Analyse, damit Sie die richtige Entscheidung treffen.

Schritt 1: Bestätigen Sie, dass der Test korrekt lief

Bevor Sie die Ergebnisse betrachten, überprüfen Sie diese Grundlagen:

  • Stichproben-Ratio-Abweichung (SRM)Wenn Sie eine 50/50-Aufteilung erwartet haben, aber 52/48 oder schlechter erhalten haben, könnte etwas mit der Randomisierung nicht stimmen. Eine signifikante SRM macht die Ergebnisse ungültig.
  • Vollständige WochenzyklenDer Test sollte über vollständige Wochen gelaufen sein (7, 14, 21 Tage), um Wochentags-Verzerrungen zu vermeiden.
  • Keine externen StörungenStellen Sie sicher, dass keine größeren Ereignisse (Website-Ausfälle, Marketingkampagnen, Feiertage) während des Tests aufgetreten sind, die die Ergebnisse verzerren könnten.

Schritt 2: Statistische Signifikanz prüfen

Geben Sie Ihre Daten in den passenden Rechner basierend auf Ihrem Metriktyp ein:

Schauen Sie auf den p-Wert. Wenn p < 0,05, ist das Ergebnis statistisch signifikant auf dem 95 %-Konfidenzniveau.

Schritt 3: Effektgröße betrachten

Statistische Signifikanz allein reicht nicht aus. Ein Anstieg von +0,01 % kann bei genügend Daten signifikant sein, ist aber wahrscheinlich nicht wert, ausgerollt zu werden.

  • Absoluter EffektDie Rohdifferenz (z. B. Kontrolle: 4,2 %, Variante: 4,8 % → absoluter Effekt: +0,6 Prozentpunkte).
  • Relativer EffektDie prozentuale Veränderung (z. B. +0,6 Pp bei einer Basisrate von 4,2 % → +14,3 % relativer Anstieg). Das ist entscheidend für Geschäftsentscheidungen.

Fragen Sie sich: Ist dieser Anstieg groß genug, um die Engineering- und Produktkosten für das Ausrollen der Änderung zu rechtfertigen?

Schritt 4: Konfidenzintervall lesen

Das Konfidenzintervall gibt Ihnen den Bereich plausibler Effektgrößen.

  • Enges Intervall (z. B. [+0,3 %, +0,9 %])Sie haben gute Präzision. Der Effekt liegt wahrscheinlich zwischen +0,3 % und +0,9 %. Eine Entscheidung ist sicher möglich.
  • Breites Intervall (z. B. [−0,5 %, +1,7 %])Hohe Unsicherheit. Der wahre Effekt könnte negativ oder viel größer als beobachtet sein. Erwägen Sie, den Test länger laufen zu lassen.

Das Intervall ist informativer als der p-Wert allein — es sagt Ihnen sowohl, ob der Effekt existiert, als auch wie groß er sein könnte.

Schritt 5: Die Entscheidung treffen

  • Signifikant positives ErgebnisRollen Sie die Variante aus. Der Effekt ist real und die Richtung ist klar.
  • Signifikant negatives ErgebnisDie Variante hat die Performance verschlechtert. Nicht ausrollen. Analysieren Sie warum.
  • Nicht signifikant Sie konnten keinen Unterschied erkennen. Das bedeutet nicht, dass kein Unterschied existiert — Ihr Test war möglicherweise unterpowert. Prüfen Sie mit dem Teststärkerechner, welchen MDE Ihr Test erkennen konnte.

Bei unklarem Ergebnis: Verlängern Sie entweder den Test (wenn praktikabel) oder akzeptieren Sie, dass der Effekt zu klein ist, um ihn mit Ihrem Traffic-Volumen zu erkennen, und wenden Sie sich wirkungsvolleren Ideen zu.

Häufige Analyse-Fallstricke

  • Metriken selektiv auswählenWenn Ihre primäre Metrik keinen Effekt zeigte, suchen Sie nicht in sekundären Metriken nach einem Erfolg. Legen Sie vorab fest, welche Metrik die primäre ist.
  • Post-hoc-SegmentierungErgebnisse nach Land, Gerät oder Nutzertyp nach dem Test aufzuteilen erhöht das Risiko falsch positiver Ergebnisse. Vertrauen Sie nur vorab registrierten Segmenten.
  • Neuheitseffekte ignorierenNeue Designs zeigen oft einen anfänglichen Anstieg, der nachlässt, wenn sich Nutzer daran gewöhnen. Erwägen Sie, die Metriken nach dem Launch einige Wochen lang zu beobachten.