Stichprobengröße bei A/B-Tests verstehen

Einen Test mit zu wenigen Besuchern durchzuführen verschwendet Zeit und liefert unzuverlässige Ergebnisse. Zu viele verzögern Entscheidungen. So finden Sie den richtigen Mittelweg.

Warum die Stichprobengröße wichtig ist

Ein Test mit unzureichender Stichprobengröße ist unterpowert — er wird reale Effekte meistens nicht erkennen. Das führt zu nicht schlüssigen Ergebnissen und verschwendeten Experiment-Slots. Andererseits verzögern massiv überdimensionierte Tests das Ausrollen gewinnender Varianten.

Die vier Eingaben, die die Stichprobengröße bestimmen

Basisrate — Ihre aktuelle Conversion-Rate oder Ihr aktueller Metrikwert. Niedrigere Basisraten erfordern mehr Stichproben, da weniger Signal in den Daten vorhanden ist.
Minimaler erkennbarer Effekt (MDE) — die kleinste Verbesserung, die es zu erkennen lohnt. Kleinere Effekte benötigen größere Stichproben. Seien Sie realistisch: Ein relativer Anstieg von 1 % bei einer Basisrate von 2 % ist extrem schwer zu erkennen.
Signifikanzniveau (α) — die Falsch-Positiv-Rate, typischerweise 5 % (95 % Konfidenz). Eine Senkung von α auf 1 % erfordert deutlich mehr Daten.
Statistische Teststärke (1-β) — die Wahrscheinlichkeit, einen realen Effekt zu erkennen. 80 % ist das Standardminimum. Eine Erhöhung auf 90 % erfordert etwa 30 % mehr Stichproben.

Häufige Fehler

Vorzeitiges Stoppen — In die Ergebnisse schauen und stoppen, wenn p < 0,05, erhöht die Falsch-Positiv-Rate dramatisch. Verwenden Sie Sequenzielles Testen, wenn Sie zwischendurch prüfen müssen.
Post-hoc-Power-Analyse — Die Teststärke nach dem Test zu berechnen liefert keine nützlichen Erkenntnisse. Berechnen Sie die Stichprobengröße immer vor dem Start.
Traffic-Aufteilungen ignorieren — Wenn nur 50 % des Traffics in den Test einfließen, benötigen Sie doppelt so viele Gesamtbesucher. Verwenden Sie den Dauerrechner, um dies zu berücksichtigen.
Unrealistischer MDE — Eine relative Änderung von 1 % bei einer Basisrate von 3 % erkennen zu wollen, würde Millionen von Besuchern erfordern. Richten Sie den MDE an Ihrem geschäftlichen Relevanzschwellenwert aus.

Faustregeln

Eine Halbierung des MDE vervierfacht ungefähr die erforderliche Stichprobengröße.
Niedrigere Basisraten benötigen mehr Besucher — eine Basisrate von 1 % braucht ca. 25-mal mehr als eine Basisrate von 50 % bei gleichem relativen MDE.
Der Schritt von 80 % auf 90 % Teststärke erhöht die Stichprobe um etwa 30 %.
Weitere Varianten erhöhen den Gesamt-Traffic-Bedarf linear.

Berechnen Sie Ihre Stichprobengröße

Verwenden Sie den Stichprobengrößenrechner, um eine genaue Zahl für Ihre spezifische Basisrate, Ihren MDE und Ihre Teststärkeanforderungen zu erhalten.