Cómo analizar los resultados de un test A/B

Tu test ha terminado de ejecutarse. ¿Y ahora qué? Esta guía te lleva paso a paso por el análisis para que tomes la decisión correcta.

Paso 1: Confirma que el test se ejecutó correctamente

Antes de mirar los resultados, verifica estos aspectos básicos:

Desajuste de ratio muestral (SRM) — Si esperabas una división 50/50 pero obtuviste 52/48 o peor, algo puede estar mal con la aleatorización. Un SRM significativo invalida los resultados.
Ciclos semanales completos — El test debería haberse ejecutado durante semanas completas (7, 14, 21 días) para evitar sesgos por día de la semana.
Sin interferencias externas — Confirma que no ocurrieron eventos importantes (caídas del sitio, campañas de marketing, festivos) durante el test que pudieran sesgar los resultados.

Paso 2: Verifica la significancia estadística

Introduce tus datos en la calculadora apropiada según tu tipo de métrica:

Tasas de conversión (clics, compras, registros) — Usa la calculadora de conversiones
Métricas numéricas por usuario (ingresos, tiempo en el sitio) — Usa la calculadora de métricas continuas
Métricas de ratio (AOV, ingresos por clic) — Usa la calculadora de métricas de ratio

Observa el p-value. Si p < 0,05, el resultado es estadísticamente significativo al nivel de confianza del 95%.

Paso 3: Observa el tamaño del efecto

La significancia estadística por sí sola no es suficiente. Un aumento de +0,01% puede ser significativo con suficientes datos pero probablemente no vale la pena implementarlo.

Efecto absoluto — La diferencia bruta (por ejemplo, control: 4,2%, variante: 4,8% → efecto absoluto: +0,6 puntos porcentuales).
Efecto relativo — El cambio porcentual (por ejemplo, +0,6pp sobre una tasa base de 4,2% → +14,3% de mejora relativa). Esto es lo que importa para las decisiones de negocio.

Pregúntate: ¿es esta mejora lo suficientemente grande como para justificar los costes de ingeniería y producto de implementar el cambio?

Paso 4: Lee el intervalo de confianza

El intervalo de confianza te da el rango de tamaños de efecto plausibles.

Intervalo estrecho (por ejemplo, [+0,3%, +0,9%]) — Tienes buena precisión. El efecto probablemente está entre +0,3% y +0,9%. Es seguro tomar una decisión.
Intervalo amplio (por ejemplo, [−0,5%, +1,7%]) — Alta incertidumbre. El efecto real podría ser negativo o mucho mayor de lo observado. Considera ejecutar el test más tiempo.

El intervalo es más informativo que el p-value por sí solo — te dice tanto si el efecto existe como cuán grande podría ser.

Paso 5: Toma la decisión

Resultado positivo significativo — Implementa la variante. El efecto es real y la dirección es clara.
Resultado negativo significativo — La variante perjudicó el rendimiento. No la implementes. Analiza por qué.
No significativo — No pudiste detectar una diferencia. Esto no significa que no haya diferencia — tu test puede tener potencia insuficiente. Verifica qué MDE podía detectar tu test usando la calculadora de potencia.

Si es inconcluso: extiende el test (si es práctico) o acepta que el efecto es demasiado pequeño para detectar con tu volumen de tráfico y pasa a ideas de mayor impacto.

Errores comunes en el análisis

Seleccionar métricas a conveniencia — Si tu métrica principal no mostró efecto, no busques entre las métricas secundarias para encontrar un resultado positivo. Prerregistra cuál es la métrica principal.
Segmentación post-hoc — Dividir los resultados por país, dispositivo o tipo de usuario después del test aumenta el riesgo de falsos positivos. Solo confía en segmentos prerregistrados.
Ignorar los efectos de novedad — Los diseños nuevos suelen mostrar una mejora inicial que se desvanece a medida que los usuarios se acostumbran. Considera monitorear las métricas post-lanzamiento durante unas semanas.