ABtesting.tools

Teststärkerechner für A/B-Tests

Question: Does my test have enough statistical power to detect the expected effect?

Bestimmen Sie die statistische Teststärke Ihres A/B-Tests. Finden Sie heraus, welche Effektgrößen Sie mit Ihrer aktuellen Stichprobengröße und Ihrem Traffic zuverlässig erkennen können.

So verwenden Sie diesen Rechner

Geben Sie Ihre Stichprobengröße pro Variante, die Basis-Conversion-Rate und den minimalen erkennbaren Effekt ein, den Sie bewerten möchten. Der Rechner zeigt die statistische Teststärke — die Wahrscheinlichkeit, dass Ihr Test einen realen Effekt dieser Größe korrekt erkennt. Passen Sie den MDE an, um die Teststärkekurve zu sehen, die zeigt, wie sich die Teststärke über verschiedene Effektgrößen verändert.

Statistische Teststärke verstehen

Die statistische Teststärke ist die Wahrscheinlichkeit, dass ein Test die Nullhypothese korrekt ablehnt, wenn ein realer Effekt existiert. Sie wird berechnet als 1 minus die Typ-II-Fehlerrate (Beta). Die Teststärke hängt von vier Faktoren ab: Stichprobengröße, Effektgröße, Signifikanzniveau (Alpha) und Basis-Conversion-Rate. Eine höhere Teststärke bedeutet weniger falsch negative Ergebnisse — Sie übersehen mit geringerer Wahrscheinlichkeit eine echte Verbesserung. Der Standardminimalwert liegt bei 80 %, was bedeutet, dass Sie eine 80-prozentige Chance haben, einen wahren Effekt zu erkennen.

Wann Sie diesen Rechner verwenden sollten

Verwenden Sie die Power-Analyse vor einem Test, um zu überprüfen, ob Ihre Stichprobengröße ausreicht, oder nach einem Test ohne signifikantes Ergebnis, um zu verstehen, ob Sie genug Teststärke hatten, um den relevanten Effekt zu erkennen. Ein nicht signifikantes Ergebnis aus einem unterpowerten Test bedeutet nicht, dass es keinen Effekt gibt — es bedeutet, dass Ihr Test ihn nicht erkennen konnte. Diese Unterscheidung ist entscheidend für die korrekte Interpretation.

Häufige Fehler bei der Power-Analyse

Der häufigste Fehler ist die Durchführung unterpowerter Tests (unter 80 % Teststärke) und die anschließende Schlussfolgerung, dass kein Effekt vorliegt, wenn das Ergebnis nicht signifikant ist. Ein weiterer Fehler ist die Berechnung der Teststärke nach dem Test unter Verwendung der beobachteten Effektgröße, was ein Zirkelschluss ist (Post-hoc-Power-Analyse). Die Teststärke sollte vor dem Test mit der minimalen Effektgröße berechnet werden, die Sie interessiert, nicht mit dem tatsächlich beobachteten Effekt.