Konversionen A/B-Test-Rechner
Question: Is there a statistically significant difference between my A/B test conversion rates?
Analysieren Sie Ihre A/B-Test-Konversionsergebnisse mit drei umschaltbaren statistischen Methoden: Z-Test für Proportionen, Chi-Quadrat-Test und exakter Fisher-Test. Geben Sie Besucher und Conversions für jede Variante ein, um sofortige Ergebnisse mit p-Werten, Konfidenzintervallen und Verteilungsvisualisierungen zu erhalten.
So verwenden Sie diesen Rechner
Geben Sie die Anzahl der Besucher und Conversions für Ihre Kontrollgruppe (A) und Variantengruppe (B) ein. Wählen Sie das gewünschte Konfidenzniveau (95 % ist der Industriestandard) und ob Sie einen einseitigen oder zweiseitigen Test durchführen möchten. Die Ergebnisse werden in Echtzeit aktualisiert, während Sie tippen — kein Klick auf einen Button erforderlich.
So funktioniert die Mathematik
Dieser Rechner bietet drei Methoden zum Vergleich von Conversion-Raten. Der Z-Test verwendet den Zwei-Proportionen-z-Test und berechnet die Differenz der Proportionen geteilt durch den gepoolten Standardfehler. Der Chi-Quadrat-Test vergleicht beobachtete und erwartete Häufigkeiten in einer Kontingenztafel. Der exakte Fisher-Test berechnet die exakte Wahrscheinlichkeit für kleine Stichproben, bei denen Approximationen unzuverlässig sein können. Alle drei Methoden testen, ob der Unterschied in den Conversion-Raten statistisch signifikant ist.
Wann Sie diesen Rechner verwenden sollten
Verwenden Sie diesen Rechner nach der Durchführung eines A/B-Tests, um festzustellen, ob der beobachtete Unterschied in den Conversion-Raten statistisch signifikant ist oder auf Zufall beruhen könnte. Dies ist die gängigste Analyse für Marketingexperimente, Produktfunktionstests und UX-Optimierung.
Häufige Fehler beim A/B-Testing
Die häufigsten Fehler sind das vorzeitige Prüfen der Ergebnisse, bevor die erforderliche Stichprobengröße erreicht ist (was die Falsch-Positiv-Rate erhöht), die Durchführung unterpowerter Tests, die bedeutsame Unterschiede nicht erkennen können, die fehlende Korrektur für Mehrfachvergleiche beim Testen von mehr als zwei Varianten und das zu frühe Beenden von Tests aufgrund anfänglicher Trends.