A/B/n-Multi-Varianten-Test-Rechner
Question: Which of my multiple variants performs best while controlling for multiple comparisons?
Vergleichen Sie drei oder mehr Varianten gleichzeitig mit korrekter Korrektur für Mehrfachvergleiche. Fügen Sie bis zu 5 Varianten hinzu und erhalten Sie paarweise Signifikanztests.
So verwenden Sie diesen Rechner
Geben Sie Besucher und Conversions für die Kontrolle und jede Variante ein. Klicken Sie auf Variante hinzufügen, um bis zu 5 Varianten hinzuzufügen. Wählen Sie eine Korrekturmethode: Bonferroni (konservativer, kontrolliert die familienweise Fehlerrate) oder Holm (weniger konservativ, aber dennoch valide). Der Rechner führt alle paarweisen Vergleiche durch und zeigt, welche Unterschiede nach der Korrektur signifikant sind.
Warum Mehrfachvergleichskorrekturen wichtig sind
Wenn Sie mehrere Varianten gegen eine Kontrolle testen, hat jeder Vergleich eine Chance auf ein falsch positives Ergebnis. Bei 5 paarweisen Vergleichen und 95 % Konfidenz steigt die Wahrscheinlichkeit für mindestens ein falsch positives Ergebnis auf etwa 23 %. Mehrfachvergleichskorrekturen passen den Signifikanzschwellenwert an, um die gesamte Falsch-Positiv-Rate bei 5 % zu halten. Bonferroni teilt Alpha durch die Anzahl der Vergleiche (einfach, aber konservativ). Holms Abwärtsmethode ist weniger konservativ und kontrolliert dennoch die familienweise Fehlerrate.
Wann Sie Multi-Varianten-Tests verwenden sollten
Verwenden Sie A/B/n-Tests, wenn Sie mehrere Ideen gleichzeitig testen und die beste Variante effizient finden möchten. Dies ist üblich bei Design-Experimenten (3-4 Layouts testen), Headline-Tests oder Preisexperimenten. Beachten Sie jedoch, dass das Hinzufügen weiterer Varianten die erforderliche Stichprobengröße erhöht. Wenn Sie nur genug Traffic für zwei Varianten haben, führen Sie stattdessen einen A/B-Test durch.
Häufige Fehler beim Multi-Varianten-Testen
Der größte Fehler ist die Durchführung mehrerer Vergleiche ohne jegliche Korrektur, was die Falsch-Positive dramatisch aufbläht. Ein weiterer Fehler ist das Hinzufügen zu vieler Varianten und die damit verbundene zu starke Traffic-Aufteilung, die zu unterpowerten Vergleichen führt. Vermeiden Sie außerdem, Varianten während des Tests zu ändern oder leistungsschwache Varianten vorzeitig zu entfernen — dies macht die statistische Analyse ungültig. Planen Sie Ihre Varianten und Stichprobengröße vor dem Start.