What is the peeking problem in A/B testing?

Peeking means checking results repeatedly, inflating the false positive rate from 5% to as high as 14% with 5 checks.

What is the difference between O'Brien-Fleming and Pocock?

O'Brien-Fleming uses strict boundaries early and relaxed ones late. Pocock uses equal boundaries at each look.

What happens if you stop an A/B test too early?

Without sequential testing, early stopping inflates false positives and overestimates effect sizes.

Sequenzieller Test-Rechner

Kann ich meinen A/B-Test frühzeitig beenden und dabei falsch-positive Ergebnisse kontrollieren?

Prüfen Sie, ob Ihr A/B-Test mithilfe sequenzieller Testgrenzen Signifikanz erreicht hat. Diese Methode ermöglicht es Ihnen, Ergebnisse an mehreren Zeitpunkten zu prüfen, ohne die Falsch-Positiv-Rate zu erhöhen.

So verwenden Sie diesen Rechner

Geben Sie die geplante Anzahl an Analysezeitpunkten (Interim-Analysen) ein und bei welchem Zeitpunkt Sie sich aktuell befinden. Geben Sie Besucher und Conversions für jede Variante ein. Wählen Sie eine Spending-Funktion: O'Brien-Fleming (früh konservativ, spät liberal) oder Pocock (gleiche Grenzen bei jedem Analysezeitpunkt). Der Rechner zeigt, ob Ihr aktueller z-Score die Wirksamkeits- oder Aussichtslosigkeitsgrenze bei dieser Interim-Analyse überschreitet.

So funktioniert sequenzielles Testen

Traditionelles A/B-Testing erfordert das Warten bis eine feste Stichprobengröße erreicht ist. Sequenzielles Testen ermöglicht es Ihnen, Ergebnisse an vorab geplanten Intervallen (Analysezeitpunkten) zu prüfen und dabei die gesamte Falsch-Positiv-Rate zu kontrollieren. Es verwendet Alpha-Spending-Funktionen, die das gesamte Signifikanzniveau auf die Analysezeitpunkte verteilen. O'Brien-Fleming verbraucht sehr wenig Alpha früh (schwer, früh zu stoppen), aber nahezu alles beim letzten Analysezeitpunkt. Pocock verteilt Alpha gleichmäßig über alle Analysezeitpunkte (leichter, früh zu stoppen, aber schwerer beim letzten Zeitpunkt). Beide Methoden halten die gesamte Typ-I-Fehlerrate auf dem gewünschten Niveau.

Wann Sie sequenzielles Testen verwenden sollten

Verwenden Sie sequenzielles Testen, wenn Sie ein Experiment über die Zeit beobachten müssen und die Möglichkeit haben möchten, bei klaren Gewinnern oder Verlierern früh zu stoppen. Dies ist besonders wertvoll für Tests mit geschäftlicher Dringlichkeit (Produktlaunches, saisonale Kampagnen) oder wenn die Kosten einer fortgesetzten Verlierer-Variante hoch sind (negativer Umsatzeinfluss). Sequenzielles Testen ist die korrekte Lösung für das Peeking-Problem — die Versuchung, Ergebnisse vor der geplanten Stichprobengröße zu prüfen.

Häufige Fehler beim sequenziellen Testen

Der häufigste Fehler ist die Verwendung sequenzieller Grenzen ohne vorab Planung. Sie müssen die Anzahl der Analysezeitpunkte und die Spending-Funktion vor Testbeginn festlegen. Ein weiterer Fehler ist das häufigere Prüfen als geplant — auch beim sequenziellen Testen können Sie nur an den vorab festgelegten Zeitpunkten prüfen. Die Verwendung von Pocock-Grenzen bei vielen geplanten Analysezeitpunkten macht die finale Analyse sehr konservativ, weshalb O'Brien-Fleming für Tests mit vielen geplanten Zeitpunkten oft bevorzugt wird.