Significancia estadística en tests A/B explicada
La significancia estadística es el concepto más citado — y más malinterpretado — del A/B testing. Esta guía explica qué significa realmente y cómo interpretarla correctamente.
¿Qué es la significancia estadística?
La significancia estadística te indica si la diferencia que observas entre variantes es probablemente real o podría haber aparecido solo por azar.
Cuando decimos que un resultado es "estadísticamente significativo al 95% de confianza", queremos decir: si no hubiera diferencia real entre las variantes, hay menos de un 5% de probabilidad de observar una diferencia tan grande o mayor solo por variación aleatoria.
Es crucial entender que esto no significa que haya un 95% de probabilidad de que la variante ganadora sea mejor. Esa es una interpretación errónea muy común.
Cómo funcionan los p-values
El p-value es la probabilidad de observar tus datos (o algo más extremo) asumiendo que la hipótesis nula es verdadera — es decir, asumiendo que no hay diferencia real entre las variantes.
- P-value bajo (por ejemplo, p = 0,02) — La diferencia observada sería improbable bajo el puro azar. Rechazamos la hipótesis nula y llamamos al resultado significativo.
- P-value alto (por ejemplo, p = 0,35) — La diferencia observada se explica fácilmente por variación aleatoria. No rechazamos la hipótesis nula.
El umbral — La mayoría de los equipos usan α = 0,05 (5%) como punto de corte. Si p < α, el resultado es significativo. Este umbral es una convención, no una ley de la naturaleza — algunos equipos usan 0,01 o 0,10 dependiendo del coste de los errores.
Los intervalos de confianza dicen más que los p-values
Un p-value solo te dice si el efecto probablemente no es cero. Un intervalo de confianza te dice el rango plausible del tamaño del efecto.
Por ejemplo: "La diferencia en la tasa de conversión es +1,2% con un intervalo de confianza del 95% de [+0,3%, +2,1%]." Esto te dice que el efecto es significativo (el intervalo no incluye cero) y te da una idea de la magnitud probable.
Si el intervalo es [−0,5%, +2,9%], el resultado no es significativo — pero puedes ver que el efecto podría ser relevante. Probablemente necesitas más datos.
Errores comunes con la significancia
- Revisar los resultados a diario — Verificar la significancia cada día y detener cuando p < 0,05 infla drásticamente los falsos positivos. Un test con una tasa de falsos positivos del 5% al verificarse una sola vez puede tener más del 30% al verificarse a diario. Usa el test secuencial si necesitas monitorear los resultados continuamente.
- Confundir significancia con importancia — Un resultado estadísticamente significativo puede carecer de importancia práctica. Un aumento de +0,01% en la conversión puede ser significativo con millones de visitantes, pero no vale la pena implementarlo. Revisa siempre el tamaño del efecto, no solo el p-value.
- Tratar la no significancia como prueba de que no hay efecto — Un resultado no significativo significa que no pudiste detectar un efecto — no que no exista ninguno. Tu test puede simplemente tener potencia insuficiente. Consulta la calculadora de potencia para entender qué podía detectar realmente tu test.
- Ignorar las comparaciones múltiples — Evaluar 20 métricas con α = 0,05 significa que esperas un falso positivo solo por azar. Usa correcciones (Bonferroni, Holm) o céntrate en una única métrica principal.
La alternativa bayesiana
Si el marco frecuentista te resulta contraintuitivo, el análisis bayesiano te da una declaración de probabilidad directa: "Hay un 94% de probabilidad de que la variante B sea mejor que A."
Esto es a menudo lo que la gente cree que significa la significancia. La calculadora bayesiana lo calcula por ti — sin necesidad de razonar sobre hipótesis nulas o p-values.
Verifica la significancia de tu test
Usa la calculadora de conversiones para comprobar si los resultados de tu test A/B son estadísticamente significativos. Introduce tus conteos de visitantes y conversiones para obtener un p-value, intervalo de confianza y tamaño del efecto.