Statistische Signifikanz bei A/B-Tests erklärt
Statistische Signifikanz ist das meistzitierte — und am häufigsten missverstandene — Konzept im A/B-Testing. Dieser Leitfaden erklärt, was es tatsächlich bedeutet und wie Sie es korrekt interpretieren.
Was ist statistische Signifikanz?
Statistische Signifikanz sagt Ihnen, ob der beobachtete Unterschied zwischen Varianten wahrscheinlich real ist oder durch Zufall allein entstanden sein könnte.
Wenn wir sagen, ein Ergebnis ist „statistisch signifikant bei 95 % Konfidenz", meinen wir: Wenn es keinen echten Unterschied zwischen den Varianten gäbe, bestünde eine Wahrscheinlichkeit von weniger als 5 %, einen so großen oder größeren Unterschied allein durch zufällige Variation zu beobachten.
Entscheidend ist: Das bedeutet nicht, dass es eine 95-prozentige Wahrscheinlichkeit gibt, dass die gewinnende Variante besser ist. Das ist eine häufige Fehlinterpretation.
Wie p-Werte funktionieren
Der p-Wert ist die Wahrscheinlichkeit, Ihre Daten (oder etwas Extremeres) zu beobachten, wenn die Nullhypothese wahr ist — also wenn es keinen tatsächlichen Unterschied zwischen den Varianten gibt.
- Niedriger p-Wert (z. B. p = 0,02) — Der beobachtete Unterschied wäre unter reinem Zufall unwahrscheinlich. Wir lehnen die Nullhypothese ab und nennen das Ergebnis signifikant.
- Hoher p-Wert (z. B. p = 0,35) — Der beobachtete Unterschied lässt sich leicht durch zufällige Variation erklären. Wir können die Nullhypothese nicht ablehnen.
Der Schwellenwert — Die meisten Teams verwenden α = 0,05 (5 %) als Grenzwert. Wenn p < α, ist das Ergebnis signifikant. Dieser Schwellenwert ist eine Konvention, kein Naturgesetz — einige Teams verwenden 0,01 oder 0,10, je nach den Kosten von Fehlern.
Konfidenzintervalle sagen mehr als p-Werte
Ein p-Wert sagt Ihnen nur, ob der Effekt wahrscheinlich ungleich Null ist. Ein Konfidenzintervall zeigt Ihnen den plausiblen Bereich der Effektgröße.
Zum Beispiel: „Der Unterschied in der Conversion-Rate beträgt +1,2 % mit einem 95 %-Konfidenzintervall von [+0,3 %, +2,1 %]." Das sagt Ihnen, dass der Effekt signifikant ist (das Intervall enthält nicht Null) und gibt Ihnen eine Vorstellung von der wahrscheinlichen Größenordnung.
Wenn das Intervall [−0,5 %, +2,9 %] beträgt, ist das Ergebnis nicht signifikant — aber Sie können sehen, dass der Effekt dennoch bedeutsam sein könnte. Wahrscheinlich benötigen Sie mehr Daten.
Häufige Fehler bei der Signifikanz
- Tägliches Prüfen der Ergebnisse — Täglich auf Signifikanz prüfen und stoppen, wenn p < 0,05, erhöht die Falsch-Positiv-Rate dramatisch. Ein Test mit einer Falsch-Positiv-Rate von 5 % bei einmaliger Prüfung kann bei täglicher Prüfung eine Rate von über 30 % haben. Verwenden Sie Sequenzielles Testen, wenn Sie Ergebnisse kontinuierlich überwachen müssen.
- Signifikanz mit Relevanz verwechseln — Ein statistisch signifikantes Ergebnis kann praktisch bedeutungslos sein. Ein Conversion-Anstieg von +0,01 % kann bei Millionen von Besuchern signifikant sein, ist aber nicht wert, ausgerollt zu werden. Prüfen Sie immer die Effektgröße, nicht nur den p-Wert.
- Nicht-Signifikanz als Beweis für keinen Effekt behandeln — Ein nicht signifikantes Ergebnis bedeutet, dass Sie keinen Effekt erkennen konnten — nicht, dass kein Effekt existiert. Ihr Test war möglicherweise einfach unterpowert. Prüfen Sie mit dem Teststärkerechner, was Ihr Test tatsächlich erkennen konnte.
- Mehrfachvergleiche ignorieren — Das Testen von 20 Metriken bei α = 0,05 bedeutet, dass Sie allein durch Zufall ein falsch positives Ergebnis erwarten. Verwenden Sie Korrekturen (Bonferroni, Holm) oder konzentrieren Sie sich auf eine einzige primäre Metrik.
Die bayesianische Alternative
Wenn das frequentistische Framework kontraintuitiv erscheint, gibt Ihnen die bayesianische Analyse eine direkte Wahrscheinlichkeitsaussage: „Es gibt eine 94-prozentige Wahrscheinlichkeit, dass Variante B besser ist als A."
Das ist oft das, was Menschen unter Signifikanz verstehen. Der Bayesianische Rechner berechnet dies für Sie — kein Nachdenken über Nullhypothesen oder p-Werte nötig.
Prüfen Sie die Signifikanz Ihres Tests
Verwenden Sie den Konversionen-Rechner, um zu testen, ob Ihre A/B-Testergebnisse statistisch signifikant sind. Geben Sie Ihre Besucherzahlen und Conversions ein, um einen p-Wert, ein Konfidenzintervall und die Effektgröße zu erhalten.