Cómo analizar los resultados de un test A/B
Tu test ha terminado de ejecutarse. ¿Y ahora qué? Esta guía te lleva paso a paso por el análisis para que tomes la decisión correcta.
Paso 1: Confirma que el test se ejecutó correctamente
Antes de mirar los resultados, verifica estos aspectos básicos:
- Desajuste de ratio muestral (SRM) — Si esperabas una división 50/50 pero obtuviste 52/48 o peor, algo puede estar mal con la aleatorización. Un SRM significativo invalida los resultados.
- Ciclos semanales completos — El test debería haberse ejecutado durante semanas completas (7, 14, 21 días) para evitar sesgos por día de la semana.
- Sin interferencias externas — Confirma que no ocurrieron eventos importantes (caídas del sitio, campañas de marketing, festivos) durante el test que pudieran sesgar los resultados.
Paso 2: Verifica la significancia estadística
Introduce tus datos en la calculadora apropiada según tu tipo de métrica:
- Tasas de conversión (clics, compras, registros) — Usa la calculadora de conversiones
- Métricas numéricas por usuario (ingresos, tiempo en el sitio) — Usa la calculadora de métricas continuas
- Métricas de ratio (AOV, ingresos por clic) — Usa la calculadora de métricas de ratio
Observa el p-value. Si p < 0,05, el resultado es estadísticamente significativo al nivel de confianza del 95%.
Paso 3: Observa el tamaño del efecto
La significancia estadística por sí sola no es suficiente. Un aumento de +0,01% puede ser significativo con suficientes datos pero probablemente no vale la pena implementarlo.
- Efecto absoluto — La diferencia bruta (por ejemplo, control: 4,2%, variante: 4,8% → efecto absoluto: +0,6 puntos porcentuales).
- Efecto relativo — El cambio porcentual (por ejemplo, +0,6pp sobre una tasa base de 4,2% → +14,3% de mejora relativa). Esto es lo que importa para las decisiones de negocio.
Pregúntate: ¿es esta mejora lo suficientemente grande como para justificar los costes de ingeniería y producto de implementar el cambio?
Paso 4: Lee el intervalo de confianza
El intervalo de confianza te da el rango de tamaños de efecto plausibles.
- Intervalo estrecho (por ejemplo, [+0,3%, +0,9%]) — Tienes buena precisión. El efecto probablemente está entre +0,3% y +0,9%. Es seguro tomar una decisión.
- Intervalo amplio (por ejemplo, [−0,5%, +1,7%]) — Alta incertidumbre. El efecto real podría ser negativo o mucho mayor de lo observado. Considera ejecutar el test más tiempo.
El intervalo es más informativo que el p-value por sí solo — te dice tanto si el efecto existe como cuán grande podría ser.
Paso 5: Toma la decisión
- Resultado positivo significativo — Implementa la variante. El efecto es real y la dirección es clara.
- Resultado negativo significativo — La variante perjudicó el rendimiento. No la implementes. Analiza por qué.
- No significativo — No pudiste detectar una diferencia. Esto no significa que no haya diferencia — tu test puede tener potencia insuficiente. Verifica qué MDE podía detectar tu test usando la calculadora de potencia.
Si es inconcluso: extiende el test (si es práctico) o acepta que el efecto es demasiado pequeño para detectar con tu volumen de tráfico y pasa a ideas de mayor impacto.
Errores comunes en el análisis
- Seleccionar métricas a conveniencia — Si tu métrica principal no mostró efecto, no busques entre las métricas secundarias para encontrar un resultado positivo. Prerregistra cuál es la métrica principal.
- Segmentación post-hoc — Dividir los resultados por país, dispositivo o tipo de usuario después del test aumenta el riesgo de falsos positivos. Solo confía en segmentos prerregistrados.
- Ignorar los efectos de novedad — Los diseños nuevos suelen mostrar una mejora inicial que se desvanece a medida que los usuarios se acostumbran. Considera monitorear las métricas post-lanzamiento durante unas semanas.