What is the multiple comparisons problem?

Testing many variants increases false positive risk. With 5 comparisons at 95% confidence, chance of at least one false positive is ~23%.

What is the difference between Bonferroni and Holm corrections?

Bonferroni divides significance level by the number of comparisons. Holm is strictly more powerful while still controlling error rate.

How many variants should I test at once?

Testing 3-5 variants is common. More variants means more traffic needed and longer test duration.

Calculadora de test A/B/n multi-variante

¿Cuál de mis múltiples variantes tiene mejor rendimiento controlando las comparaciones múltiples?

Compara tres o más variantes simultáneamente con la corrección adecuada para comparaciones múltiples. Añade hasta 5 variantes y obtén tests de significancia por pares.

Cómo usar esta calculadora

Introduce los visitantes y las conversiones del control y de cada variante. Haz clic en Añadir Variante para agregar hasta 5 variantes. Selecciona un método de corrección: Bonferroni (más conservador, controla la tasa de error por familia) o Holm (menos conservador pero igualmente válido). La calculadora ejecuta todas las comparaciones por pares y muestra qué diferencias son significativas tras la corrección.

Por qué importan las correcciones por comparaciones múltiples

Cuando comparas múltiples variantes contra un control, cada comparación tiene una probabilidad de producir un falso positivo. Con 5 comparaciones por pares al 95% de confianza, la probabilidad de al menos un falso positivo sube a aproximadamente el 23%. Las correcciones por comparaciones múltiples ajustan el umbral de significancia para mantener la tasa global de falsos positivos en el 5%. Bonferroni divide alfa entre el número de comparaciones (simple pero conservador). El método escalonado de Holm es menos conservador y sigue controlando la tasa de error por familia.

Cuándo usar tests multi-variante

Usa el A/B/n testing cuando tengas múltiples ideas que probar simultáneamente y quieras encontrar la mejor variante de forma eficiente. Es habitual en experimentos de diseño (probar 3-4 layouts), tests de titulares o experimentos de precios. Sin embargo, ten en cuenta que añadir más variantes aumenta el tamaño de muestra necesario. Si solo tienes tráfico suficiente para dos variantes, ejecuta un test A/B en su lugar.

Errores comunes en tests multi-variante

El error más grave es ejecutar comparaciones múltiples sin ninguna corrección, lo que infla drásticamente los falsos positivos. Otro error es añadir demasiadas variantes y repartir el tráfico en exceso, lo que genera comparaciones con potencia insuficiente. También evita cambiar variantes durante el test o eliminar variantes con bajo rendimiento anticipadamente, ya que esto invalida el análisis estadístico. Planifica tus variantes y el tamaño de muestra antes de comenzar.