ABtesting.tools

Cómo analizar los resultados de un test A/B

Tu test ha terminado de ejecutarse. ¿Y ahora qué? Esta guía te lleva paso a paso por el análisis para que tomes la decisión correcta.

Paso 1: Confirma que el test se ejecutó correctamente

Antes de mirar los resultados, verifica estos aspectos básicos:

  • Desajuste de ratio muestral (SRM)Si esperabas una división 50/50 pero obtuviste 52/48 o peor, algo puede estar mal con la aleatorización. Un SRM significativo invalida los resultados.
  • Ciclos semanales completosEl test debería haberse ejecutado durante semanas completas (7, 14, 21 días) para evitar sesgos por día de la semana.
  • Sin interferencias externasConfirma que no ocurrieron eventos importantes (caídas del sitio, campañas de marketing, festivos) durante el test que pudieran sesgar los resultados.

Paso 2: Verifica la significancia estadística

Introduce tus datos en la calculadora apropiada según tu tipo de métrica:

Observa el p-value. Si p < 0,05, el resultado es estadísticamente significativo al nivel de confianza del 95%.

Paso 3: Observa el tamaño del efecto

La significancia estadística por sí sola no es suficiente. Un aumento de +0,01% puede ser significativo con suficientes datos pero probablemente no vale la pena implementarlo.

  • Efecto absolutoLa diferencia bruta (por ejemplo, control: 4,2%, variante: 4,8% → efecto absoluto: +0,6 puntos porcentuales).
  • Efecto relativoEl cambio porcentual (por ejemplo, +0,6pp sobre una tasa base de 4,2% → +14,3% de mejora relativa). Esto es lo que importa para las decisiones de negocio.

Pregúntate: ¿es esta mejora lo suficientemente grande como para justificar los costes de ingeniería y producto de implementar el cambio?

Paso 4: Lee el intervalo de confianza

El intervalo de confianza te da el rango de tamaños de efecto plausibles.

  • Intervalo estrecho (por ejemplo, [+0,3%, +0,9%])Tienes buena precisión. El efecto probablemente está entre +0,3% y +0,9%. Es seguro tomar una decisión.
  • Intervalo amplio (por ejemplo, [−0,5%, +1,7%])Alta incertidumbre. El efecto real podría ser negativo o mucho mayor de lo observado. Considera ejecutar el test más tiempo.

El intervalo es más informativo que el p-value por sí solo — te dice tanto si el efecto existe como cuán grande podría ser.

Paso 5: Toma la decisión

  • Resultado positivo significativoImplementa la variante. El efecto es real y la dirección es clara.
  • Resultado negativo significativoLa variante perjudicó el rendimiento. No la implementes. Analiza por qué.
  • No significativo No pudiste detectar una diferencia. Esto no significa que no haya diferencia — tu test puede tener potencia insuficiente. Verifica qué MDE podía detectar tu test usando la calculadora de potencia.

Si es inconcluso: extiende el test (si es práctico) o acepta que el efecto es demasiado pequeño para detectar con tu volumen de tráfico y pasa a ideas de mayor impacto.

Errores comunes en el análisis

  • Seleccionar métricas a convenienciaSi tu métrica principal no mostró efecto, no busques entre las métricas secundarias para encontrar un resultado positivo. Prerregistra cuál es la métrica principal.
  • Segmentación post-hocDividir los resultados por país, dispositivo o tipo de usuario después del test aumenta el riesgo de falsos positivos. Solo confía en segmentos prerregistrados.
  • Ignorar los efectos de novedadLos diseños nuevos suelen mostrar una mejora inicial que se desvanece a medida que los usuarios se acostumbran. Considera monitorear las métricas post-lanzamiento durante unas semanas.