Cómo elegir el test estadístico correcto para tu test A/B
Elegir el test incorrecto puede invalidar tus resultados. Esta guía te lleva paso a paso por el árbol de decisión según tu tipo de métrica.
Paso 1: ¿Qué tipo de métrica estás evaluando?
La primera pregunta que debes hacerte: ¿qué tipo de datos produce tu métrica?
- Binaria / Tasas de conversión — cada usuario convierte o no (hizo clic, compró, se registró). Usa la calculadora de conversiones.
- Métricas continuas por usuario — cada usuario tiene un valor numérico (ingresos por usuario, duración de sesión, páginas vistas). Usa la calculadora de métricas continuas.
- Métricas de ratio — sum(X)/sum(Y) donde el denominador varía por usuario (AOV = ingresos/pedidos, ingresos por clic). Usa la calculadora de métricas de ratio.
Paso 2: Elige un método dentro de tu tipo de métrica
Para tasas de conversión:
- Z-test (dos proporciones) — la opción predeterminada. Funciona bien cuando los tamaños de muestra son moderados a grandes (n > 30 por grupo) y los recuentos esperados por celda son ≥ 5.
- Test Chi-square — ideal para comparar más de 2 grupos simultáneamente o analizar tablas de contingencia con múltiples categorías.
- Test exacto de Fisher — úsalo cuando los tamaños de muestra son pequeños o los recuentos esperados por celda son menores a 5. Exacto en lugar de aproximado.
Para métricas continuas:
- T-test de Welch — la opción principal para comparar medias. Funciona para datos con distribución normal o muestras grandes (CLT aplica con n > 30). No asume varianzas iguales.
- Test de Mann-Whitney U — úsalo cuando los datos son muy asimétricos, tienen valores atípicos o violan los supuestos de normalidad. Compara distribuciones completas en lugar de solo medias.
Para métricas de ratio:
- T-test simple sobre ratios — rápido pero puede ser sesgado cuando los usuarios contribuyen diferentes cantidades de eventos.
- Método delta — el enfoque recomendado. Maneja correctamente la varianza de un ratio donde el denominador varía por usuario.
- Bootstrap — el más flexible. No hace supuestos distribucionales. Ideal para métricas complejas o no estándar.
Paso 3: Considera estos casos especiales
- ¿Quieres revisar los resultados antes de tiempo? Usa el test secuencial con funciones de gasto para controlar la tasa de falsos positivos y permitir la parada anticipada.
- ¿Estás probando más de una variante? Usa la calculadora multi-variante con correcciones de Bonferroni o Holm-Bonferroni.
- ¿Prefieres probabilidades en lugar de p-values? Usa la calculadora bayesiana para obtener la probabilidad posterior de que una variante supere a otra.
Diagrama de decisión rápido
¿Tu métrica es una tasa de conversión (sí/no)?
SÍ → ¿Muestra > 30 por grupo? → Z-test
SÍ → ¿Muestras pequeñas o datos escasos? → Test exacto de Fisher
SÍ → ¿Múltiples grupos o categorías? → Chi-square
¿Tu métrica es un valor por usuario?
SÍ → ¿Aproximadamente normal o n > 30? → T-test de Welch
SÍ → ¿Asimétrica o muestras pequeñas? → Mann-Whitney U
¿Tu métrica es un ratio (suma/suma)?
SÍ → ¿Los usuarios tienen diferentes denominadores? → Método delta
SÍ → ¿Métrica compleja o sin supuestos? → Bootstrap