What is the multiple comparisons problem?

Testing many variants increases false positive risk. With 5 comparisons at 95% confidence, chance of at least one false positive is ~23%.

What is the difference between Bonferroni and Holm corrections?

Bonferroni divides significance level by the number of comparisons. Holm is strictly more powerful while still controlling error rate.

How many variants should I test at once?

Testing 3-5 variants is common. More variants means more traffic needed and longer test duration.

A/B/n-Multi-Varianten-Test-Rechner

Welche meiner mehreren Varianten schneidet am besten ab unter Berücksichtigung multipler Vergleiche?

Vergleichen Sie drei oder mehr Varianten gleichzeitig mit korrekter Korrektur für Mehrfachvergleiche. Fügen Sie bis zu 5 Varianten hinzu und erhalten Sie paarweise Signifikanztests.

So verwenden Sie diesen Rechner

Geben Sie Besucher und Conversions für die Kontrolle und jede Variante ein. Klicken Sie auf Variante hinzufügen, um bis zu 5 Varianten hinzuzufügen. Wählen Sie eine Korrekturmethode: Bonferroni (konservativer, kontrolliert die familienweise Fehlerrate) oder Holm (weniger konservativ, aber dennoch valide). Der Rechner führt alle paarweisen Vergleiche durch und zeigt, welche Unterschiede nach der Korrektur signifikant sind.

Warum Mehrfachvergleichskorrekturen wichtig sind

Wenn Sie mehrere Varianten gegen eine Kontrolle testen, hat jeder Vergleich eine Chance auf ein falsch positives Ergebnis. Bei 5 paarweisen Vergleichen und 95 % Konfidenz steigt die Wahrscheinlichkeit für mindestens ein falsch positives Ergebnis auf etwa 23 %. Mehrfachvergleichskorrekturen passen den Signifikanzschwellenwert an, um die gesamte Falsch-Positiv-Rate bei 5 % zu halten. Bonferroni teilt Alpha durch die Anzahl der Vergleiche (einfach, aber konservativ). Holms Abwärtsmethode ist weniger konservativ und kontrolliert dennoch die familienweise Fehlerrate.

Wann Sie Multi-Varianten-Tests verwenden sollten

Verwenden Sie A/B/n-Tests, wenn Sie mehrere Ideen gleichzeitig testen und die beste Variante effizient finden möchten. Dies ist üblich bei Design-Experimenten (3-4 Layouts testen), Headline-Tests oder Preisexperimenten. Beachten Sie jedoch, dass das Hinzufügen weiterer Varianten die erforderliche Stichprobengröße erhöht. Wenn Sie nur genug Traffic für zwei Varianten haben, führen Sie stattdessen einen A/B-Test durch.

Häufige Fehler beim Multi-Varianten-Testen

Der größte Fehler ist die Durchführung mehrerer Vergleiche ohne jegliche Korrektur, was die Falsch-Positive dramatisch aufbläht. Ein weiterer Fehler ist das Hinzufügen zu vieler Varianten und die damit verbundene zu starke Traffic-Aufteilung, die zu unterpowerten Vergleichen führt. Vermeiden Sie außerdem, Varianten während des Tests zu ändern oder leistungsschwache Varianten vorzeitig zu entfernen — dies macht die statistische Analyse ungültig. Planen Sie Ihre Varianten und Stichprobengröße vor dem Start.