Significancia estadística en tests A/B explicada

La significancia estadística es el concepto más citado — y más malinterpretado — del A/B testing. Esta guía explica qué significa realmente y cómo interpretarla correctamente.

¿Qué es la significancia estadística?

La significancia estadística te indica si la diferencia que observas entre variantes es probablemente real o podría haber aparecido solo por azar.

Cuando decimos que un resultado es "estadísticamente significativo al 95% de confianza", queremos decir: si no hubiera diferencia real entre las variantes, hay menos de un 5% de probabilidad de observar una diferencia tan grande o mayor solo por variación aleatoria.

Es crucial entender que esto no significa que haya un 95% de probabilidad de que la variante ganadora sea mejor. Esa es una interpretación errónea muy común.

Cómo funcionan los p-values

El p-value es la probabilidad de observar tus datos (o algo más extremo) asumiendo que la hipótesis nula es verdadera — es decir, asumiendo que no hay diferencia real entre las variantes.

P-value bajo (por ejemplo, p = 0,02) — La diferencia observada sería improbable bajo el puro azar. Rechazamos la hipótesis nula y llamamos al resultado significativo.
P-value alto (por ejemplo, p = 0,35) — La diferencia observada se explica fácilmente por variación aleatoria. No rechazamos la hipótesis nula.

El umbral — La mayoría de los equipos usan α = 0,05 (5%) como punto de corte. Si p < α, el resultado es significativo. Este umbral es una convención, no una ley de la naturaleza — algunos equipos usan 0,01 o 0,10 dependiendo del coste de los errores.

Los intervalos de confianza dicen más que los p-values

Un p-value solo te dice si el efecto probablemente no es cero. Un intervalo de confianza te dice el rango plausible del tamaño del efecto.

Por ejemplo: "La diferencia en la tasa de conversión es +1,2% con un intervalo de confianza del 95% de [+0,3%, +2,1%]." Esto te dice que el efecto es significativo (el intervalo no incluye cero) y te da una idea de la magnitud probable.

Si el intervalo es [−0,5%, +2,9%], el resultado no es significativo — pero puedes ver que el efecto podría ser relevante. Probablemente necesitas más datos.

Errores comunes con la significancia

Revisar los resultados a diario — Verificar la significancia cada día y detener cuando p < 0,05 infla drásticamente los falsos positivos. Un test con una tasa de falsos positivos del 5% al verificarse una sola vez puede tener más del 30% al verificarse a diario. Usa el test secuencial si necesitas monitorear los resultados continuamente.
Confundir significancia con importancia — Un resultado estadísticamente significativo puede carecer de importancia práctica. Un aumento de +0,01% en la conversión puede ser significativo con millones de visitantes, pero no vale la pena implementarlo. Revisa siempre el tamaño del efecto, no solo el p-value.
Tratar la no significancia como prueba de que no hay efecto — Un resultado no significativo significa que no pudiste detectar un efecto — no que no exista ninguno. Tu test puede simplemente tener potencia insuficiente. Consulta la calculadora de potencia para entender qué podía detectar realmente tu test.
Ignorar las comparaciones múltiples — Evaluar 20 métricas con α = 0,05 significa que esperas un falso positivo solo por azar. Usa correcciones (Bonferroni, Holm) o céntrate en una única métrica principal.

La alternativa bayesiana

Si el marco frecuentista te resulta contraintuitivo, el análisis bayesiano te da una declaración de probabilidad directa: "Hay un 94% de probabilidad de que la variante B sea mejor que A."

Esto es a menudo lo que la gente cree que significa la significancia. La calculadora bayesiana lo calcula por ti — sin necesidad de razonar sobre hipótesis nulas o p-values.

Verifica la significancia de tu test

Usa la calculadora de conversiones para comprobar si los resultados de tu test A/B son estadísticamente significativos. Introduce tus conteos de visitantes y conversiones para obtener un p-value, intervalo de confianza y tamaño del efecto.