Wie lange sollte Ihr A/B-Test laufen?

Einen Test zu früh zu beenden ist einer der häufigsten Fehler beim Experimentieren. Dieser Leitfaden erklärt, wie Sie die richtige Dauer bestimmen und warum Geduld sich auszahlt.

Die Dauer hängt von Stichprobengröße und Traffic ab

Die Testdauer ist grundsätzlich eine Funktion zweier Dinge: wie viele Besucher Sie benötigen (Stichprobengröße) und wie viele Besucher Sie pro Tag erhalten. Der Dauerrechner berechnet dies für Sie, aber das Verständnis der Eingaben hilft bei der besseren Planung.

Die Formel ist einfach: Tage = benötigte Stichprobengröße ÷ tägliche Besucher pro Variante. Aber es gibt wichtige Feinheiten jenseits dieser einfachen Division.

Führen Sie Tests immer über vollständige Wochenzyklen durch

Das Nutzerverhalten variiert im Laufe der Woche erheblich. Montags-Käufer verhalten sich anders als Samstags-Browser. B2B-Traffic sinkt an Wochenenden. Werbe-E-Mails erzeugen Spitzen an bestimmten Tagen.

Wenn Ihr Test 10 Tage läuft, erfasst er eine vollständige Woche plus drei zusätzliche Tage — diese drei Tage sind in Ihren Daten überrepräsentiert und verzerren die Ergebnisse. Die Lösung ist einfach: Runden Sie immer auf vollständige Wochen auf (7, 14, 21, 28 Tage usw.).

So wird sichergestellt, dass jeder Wochentag gleich repräsentiert ist, wodurch Wochentags-Verzerrungen aus Ihren Ergebnissen eliminiert werden.

Was beeinflusst die Testdauer?

Tägliches Traffic-Volumen — Mehr Besucher bedeuten schnellere Datenerhebung. Wenn Sie nur 100 Besucher pro Tag haben, kann selbst ein einfacher Test Wochen dauern.
Basis-Conversion-Rate — Niedrigere Basisraten benötigen mehr Daten. Ein Test mit 0,5 % Conversion-Rate dauert viel länger als ein Test mit 15 % Conversion-Rate.
Minimaler erkennbarer Effekt — Kleinere Änderungen zu erkennen dauert exponentiell länger. Ein relativer MDE von 2 % benötigt ungefähr 25-mal mehr Daten als ein MDE von 10 %.
Anzahl der Varianten — Jede zusätzliche Variante benötigt ihren eigenen Traffic-Anteil. Ein 4-Varianten-Test dauert ungefähr 3-mal so lange wie ein A/B-Test.
Traffic-Zuweisung — Wenn nur 50 % der Besucher am Experiment teilnehmen, verdoppelt sich die Dauer. Berücksichtigen Sie Holdouts oder Targeting-Filter.

Häufige Fehler bei der Testdauer

Bei Signifikanz stoppen — Täglich prüfen und in dem Moment stoppen, in dem p < 0,05, erhöht die Falsch-Positiv-Rate dramatisch. Legen Sie eine feste Dauer vor dem Start fest oder verwenden Sie Sequenzielles Testen.
Zu kurze Laufzeit — Ein Test, der 3 Tage läuft, erfasst nur einen halben Wochenzyklus. Selbst wenn er statistische Signifikanz erreicht, lassen sich die Ergebnisse möglicherweise nicht auf eine vollständige Woche Traffic verallgemeinern.
Zu lange Laufzeit — Tests, die monatelang laufen, akkumulieren externe Störfaktoren: Saisonalitätsverschiebungen, Produktänderungen, Marketingkampagnen. Halten Sie Tests wenn möglich unter 4–6 Wochen.
Feiertage und Ereignisse ignorieren — Black Friday-Traffic ist nicht repräsentativ für normales Verhalten. Vermeiden Sie es, Tests rund um große Ereignisse zu starten oder zu beenden, es sei denn, Sie testen speziell für diesen Kontext.

Praktische Empfehlungen

Mindestdauer: 2 vollständige Wochen (14 Tage), um zwei komplette Wochenzyklen zu erfassen.
Empfohlenes Maximum: 4–6 Wochen, um externe Störfaktoren zu vermeiden.
Wenn Ihr Rechner sagt, dass der Test mehr als 6 Wochen benötigt, erwägen Sie, den MDE zu erhöhen oder sich auf Seiten mit höherem Traffic zu konzentrieren.
Legen Sie Ihr Enddatum immer vor dem Start fest. Das verhindert die Versuchung, zwischendurch in die Daten zu schauen.

Berechnen Sie Ihre Testdauer

Verwenden Sie den Dauerrechner, um eine genaue Schätzung basierend auf Ihrem Traffic, Ihrer Basisrate und der gewünschten Sensitivität zu erhalten. Kombinieren Sie ihn mit dem Stichprobengrößenrechner, um den Zusammenhang zwischen beiden zu verstehen.