Cómo elegir el test estadístico correcto para tu test A/B

Elegir el test incorrecto puede invalidar tus resultados. Esta guía te lleva paso a paso por el árbol de decisión según tu tipo de métrica.

Paso 1: ¿Qué tipo de métrica estás evaluando?

La primera pregunta que debes hacerte: ¿qué tipo de datos produce tu métrica?

Binaria / Tasas de conversión — cada usuario convierte o no (hizo clic, compró, se registró). Usa la calculadora de conversiones.
Métricas continuas por usuario — cada usuario tiene un valor numérico (ingresos por usuario, duración de sesión, páginas vistas). Usa la calculadora de métricas continuas.
Métricas de ratio — sum(X)/sum(Y) donde el denominador varía por usuario (AOV = ingresos/pedidos, ingresos por clic). Usa la calculadora de métricas de ratio.

Z-test (dos proporciones) — la opción predeterminada. Funciona bien cuando los tamaños de muestra son moderados a grandes (n > 30 por grupo) y los recuentos esperados por celda son ≥ 5.
Test Chi-square — ideal para comparar más de 2 grupos simultáneamente o analizar tablas de contingencia con múltiples categorías.
Test exacto de Fisher — úsalo cuando los tamaños de muestra son pequeños o los recuentos esperados por celda son menores a 5. Exacto en lugar de aproximado.

T-test de Welch — la opción principal para comparar medias. Funciona para datos con distribución normal o muestras grandes (CLT aplica con n > 30). No asume varianzas iguales.
Test de Mann-Whitney U — úsalo cuando los datos son muy asimétricos, tienen valores atípicos o violan los supuestos de normalidad. Compara distribuciones completas en lugar de solo medias.

T-test simple sobre ratios — rápido pero puede ser sesgado cuando los usuarios contribuyen diferentes cantidades de eventos.
Método delta — el enfoque recomendado. Maneja correctamente la varianza de un ratio donde el denominador varía por usuario.
Bootstrap — el más flexible. No hace supuestos distribucionales. Ideal para métricas complejas o no estándar.

¿Quieres revisar los resultados antes de tiempo? Usa el test secuencial con funciones de gasto para controlar la tasa de falsos positivos y permitir la parada anticipada.
¿Estás probando más de una variante? Usa la calculadora multi-variante con correcciones de Bonferroni o Holm-Bonferroni.
¿Prefieres probabilidades en lugar de p-values? Usa la calculadora bayesiana para obtener la probabilidad posterior de que una variante supere a otra.

¿Tu métrica es una tasa de conversión (sí/no)?

SÍ → ¿Muestra > 30 por grupo? → Z-test

SÍ → ¿Muestras pequeñas o datos escasos? → Test exacto de Fisher

SÍ → ¿Múltiples grupos o categorías? → Chi-square

¿Tu métrica es un valor por usuario?

SÍ → ¿Aproximadamente normal o n > 30? → T-test de Welch

SÍ → ¿Asimétrica o muestras pequeñas? → Mann-Whitney U

¿Tu métrica es un ratio (suma/suma)?

SÍ → ¿Los usuarios tienen diferentes denominadores? → Método delta

SÍ → ¿Métrica compleja o sin supuestos? → Bootstrap