Häufige Fehler beim A/B-Testing und wie Sie sie vermeiden

Die meisten gescheiterten Experimente scheitern nicht an schlechten Ideen, sondern an vermeidbaren methodischen Fehlern. Hier sind die Fehler, die mehr Tests als alles andere ungültig machen.

1. Ergebnisse vorzeitig prüfen und frühzeitig stoppen

Das ist der häufigste Fehler überhaupt. Sie prüfen Ihr Dashboard täglich, sehen p < 0,05 an Tag 3 und beenden den Test. Das Problem: Bei einem nominalen Signifikanzniveau von 5 % ergibt tägliches Prüfen über zwei Wochen eine Falsch-Positiv-Rate von etwa 25–30 %.

Warum das passiert — P-Werte schwanken während der Datenerhebung natürlich. Bei genügend Prüfungen wird zufälliges Rauschen irgendwann den 0,05-Schwellenwert überschreiten.

Die Lösung — Legen Sie entweder eine feste Stichprobengröße fest und schauen Sie nicht, bis der Test fertig ist, oder verwenden Sie Sequenzielles Testen, das speziell für kontinuierliche Überwachung entwickelt wurde.

2. Unterpowerte Tests durchführen

Ein unterpowerter Test hat nicht genügend Besucher, um den Effekt zu erkennen, der Sie interessiert. Wenn Ihr Test 40 % Teststärke hat, wird er einen realen Effekt in 60 % der Fälle übersehen — Sie werden Gewinner zu Verlierern erklären und umgekehrt.

Die Lösung — Berechnen Sie immer die Stichprobengröße vor dem Start. Wissen Sie, welchen MDE Ihr Traffic unterstützen kann. Wenn Sie 50.000 Besucher pro Variante benötigen, aber nur 1.000 pro Woche erhalten, akzeptieren Sie entweder einen größeren MDE oder testen Sie auf einer Seite mit höherem Traffic.

3. Zu viele Varianten ohne Korrektur testen

Jede zusätzliche Variante erhöht die Wahrscheinlichkeit eines falsch positiven Ergebnisses. Vier Varianten gegen eine Kontrolle bei α = 0,05 zu testen ergibt eine Wahrscheinlichkeit von etwa 19 % für mindestens ein falsch positives Ergebnis, nicht 5 %.

Die Lösung — Verwenden Sie den Multi-Varianten-Rechner, der automatisch Bonferroni- oder Holm-Korrekturen anwendet. Oder beschränken Sie sich auf jeweils eine Variante.

4. Die falsche Metrik optimieren

Die Klickrate zu optimieren, wenn Ihrem Unternehmen der Umsatz wichtig ist, kann zu Änderungen führen, die die Klicks erhöhen, aber die Käufe verringern. Ein Button mit der Aufschrift „Gratis iPhone" wird mehr Klicks erhalten, aber weniger echte Conversions.

Die Lösung — Wählen Sie eine primäre Metrik, die direkt mit dem Geschäftswert verbunden ist. Verfolgen Sie sekundäre Metriken als Leitplanken (z. B. stellen Sie sicher, dass der Umsatz pro Besucher nicht sinkt, während Sie die Conversion-Rate optimieren).

5. Ohne Hypothese testen

Zufällige Änderungen („versuchen wir mal einen blauen Button") erzeugen gelegentlich Erfolge, aber Sie lernen nichts daraus. Ohne Hypothese können Sie weder auf Erfolgen aufbauen noch Misserfolge verstehen.

Die Lösung — Schreiben Sie vor jedem Test: „Wir glauben, dass [Änderung] zu [Effekt] führen wird, weil [Grund]." Das macht Ergebnisse unabhängig vom Ausgang interpretierbar.

6. Verlierer ignorieren

Teams feiern Erfolge und ignorieren Misserfolge. Aber gescheiterte Experimente enthalten wertvolle Informationen über das Nutzerverhalten. Eine Variante, die die Conversions um 15 % gesenkt hat, sagt Ihnen etwas Wichtiges darüber, was Nutzer interessiert.

Die Lösung — Dokumentieren Sie jedes Testergebnis — Erfolge, Misserfolge und nicht schlüssige. Bauen Sie eine Wissensdatenbank auf. Überprüfen Sie vergangene Misserfolge, bevor Sie neue Experimente entwerfen.

7. Fehlerhafte Implementierung

Selbst perfekte statistische Methodik kann ein fehlerhaftes Test-Setup nicht retten. Häufige Implementierungsprobleme:

Stichproben-Ratio-Abweichung — ungleiche Aufteilung, die auf Randomisierungsfehler hinweist
Caching, das wiederkehrenden Varianten-Nutzern die Kontrolle zeigt (oder umgekehrt)
Die Änderung wird bei einigen Nutzern aufgrund von JS-Fehlern nicht geladen
Bot-Traffic, der eine Variante aufbläht

Die Lösung — Prüfen Sie immer auf Stichproben-Ratio-Abweichungen, bevor Sie Ergebnisse analysieren. Führen Sie zuerst einen A/A-Test (identische Varianten) durch, um Ihr Setup zu validieren.

Die Checkliste

Stichprobengröße vor dem Start berechnen
Nicht vorzeitig prüfen — oder Sequenzielles Testen verwenden
Für Mehrfachvergleiche korrigieren
Primäre Metrik vorab festlegen
Eine Hypothese formulieren
Nach dem Test auf SRM prüfen
Alles dokumentieren