When should I use Welch's t-test vs Mann-Whitney?

Use Welch's t-test for normally distributed data or large samples. Use Mann-Whitney for skewed data with outliers.

Why Welch's t-test instead of Student's?

Welch's doesn't assume equal variances between groups, making it more robust for A/B testing.

How do I prepare continuous metric data?

Compute one value per user (e.g., revenue per visitor, session duration). For t-test, you need mean, standard deviation, and sample size per group.

Kontinuierliche Metriken A/B-Test-Rechner

Gibt es einen signifikanten Unterschied in meinen kontinuierlichen Metriken pro Nutzer?

Analysieren Sie A/B-Testergebnisse für kontinuierliche Pro-Nutzer-Metriken wie Umsatz pro Besucher, Sitzungsdauer, Seitenaufrufe pro Sitzung und mehr. Wählen Sie zwischen Welchs t-Test (Stichprobengröße, Mittelwert und Standardabweichung eingeben) oder Mann-Whitney-U-Test (Rohdaten einfügen) je nach Ihren Daten und Verteilungsannahmen.

When to use: For metrics where each user provides exactly one value — e.g., total revenue per user, session duration, pages viewed. If your metric is a ratio like Revenue/Orders where the denominator varies per user, use the Ratio Metrics calculator instead.

So verwenden Sie diesen Rechner

Für die t-Test-Methode geben Sie die Stichprobengröße, den Mittelwert und die Standardabweichung für jede Gruppe ein. Für Mann-Whitney U fügen Sie Ihre Rohdatenwerte ein. Bei Umsatzdaten ist der Mittelwert Ihr durchschnittlicher Bestellwert oder Umsatz pro Besucher, und die Standardabweichung misst, wie stark die einzelnen Werte variieren. Die meisten Analytics-Plattformen liefern diese Werte. Der Welch-t-Test setzt keine gleichen Varianzen zwischen den Gruppen voraus, was ihn robust für reale Daten macht.

Welch-t-Test und Mann-Whitney U

Anders als bei Conversion-Rate-Tests (die den z-Test für Proportionen verwenden) erfordern kontinuierliche Metriken wie Umsatz pro Besucher, AOV und Sitzungsdauer einen Mittelwertvergleich. Der Welch-t-Test berechnet die t-Statistik als Differenz der Mittelwerte geteilt durch den Standardfehler der Differenz, wobei die Welch-Satterthwaite-Gleichung für die Freiheitsgrade verwendet wird. Der Mann-Whitney-U-Test ist eine nicht-parametrische Alternative, die keine Normalverteilung voraussetzt und mit Rangdaten arbeitet, was ihn robuster für stark schiefe Verteilungen macht.

Wann Sie diesen Rechner verwenden sollten

Verwenden Sie diesen Rechner, wenn Ihre Zielmetrik ein kontinuierlicher Wert statt einer binären Conversion ist. Häufige Beispiele sind Umsatz pro Besucher, durchschnittlicher Bestellwert, Sitzungsdauer, Seitenaufrufe pro Sitzung, Verweildauer auf der Seite und Kundenzufriedenheitswerte. Dies ist der korrekte Test für jede Metrik, bei der jeder Nutzer einen numerischen Wert beisteuert statt nur ein Ja/Nein-Ergebnis.

Häufige Fehler beim Testen kontinuierlicher Metriken

Umsatzdaten und andere kontinuierliche Daten sind typischerweise rechtsschief mit einigen wenigen sehr hohen Beobachtungen. Dadurch wird die Standardabweichung entscheidend — eine hohe Standardabweichung erfordert deutlich größere Stichproben für Signifikanz. Häufige Fehler sind die Verwendung eines z-Tests für Proportionen auf kontinuierliche Daten (falscher Test), das Ignorieren des Einflusses von Ausreißern, die fehlende Berücksichtigung der hohen Varianz bei Umsatzmetriken und der Vergleich von Gesamtwerten statt Pro-Besucher-Metriken.