Errores comunes en A/B testing y cómo evitarlos

La mayoría de los experimentos fallidos no fracasan por malas ideas, sino por errores metodológicos evitables. Estos son los errores que invalidan más tests que cualquier otra cosa.

1. Revisar los resultados y detener antes de tiempo

Este es el error más común. Revisas tu dashboard a diario, ves p < 0,05 en el día 3 y das el test por terminado. El problema: con un nivel de significancia nominal del 5%, revisar diariamente durante dos semanas te da aproximadamente un 25–30% de tasa de falsos positivos.

Por qué ocurre — Los p-values fluctúan naturalmente durante la recopilación de datos. Con suficientes revisiones, el ruido aleatorio eventualmente cruzará el umbral de 0,05.

La solución — Compromete un tamaño de muestra fijo y no mires hasta terminar, o usa el test secuencial que está específicamente diseñado para monitoreo continuo.

2. Ejecutar tests con potencia insuficiente

Un test con potencia insuficiente no tiene suficientes visitantes para detectar el efecto que te importa. Si tu test tiene un 40% de potencia, no detectará un efecto real el 60% de las veces — llamarás perdedores a los ganadores y viceversa.

La solución — Calcula siempre el tamaño de muestra antes de lanzar. Conoce qué MDE puede soportar tu tráfico. Si necesitas 50.000 visitantes por variante y solo recibes 1.000 por semana, acepta un MDE mayor o prueba en una página con más tráfico.

3. Probar demasiadas variantes sin corrección

Cada variante adicional aumenta la probabilidad de un falso positivo. Probar 4 variantes contra un control con α = 0,05 te da aproximadamente un 19% de probabilidad de al menos un falso positivo, no un 5%.

La solución — Usa la calculadora multi-variante que aplica correcciones de Bonferroni o Holm automáticamente. O limítate a una variante a la vez.

4. Optimizar la métrica equivocada

Optimizar la tasa de clics cuando tu negocio se preocupa por los ingresos puede llevar a cambios que aumentan los clics pero disminuyen las compras. Un botón que dice "iPhone gratis" obtendrá más clics pero menos conversiones reales.

La solución — Elige una métrica principal que esté directamente vinculada al valor del negocio. Rastrea métricas secundarias como barreras de seguridad (por ejemplo, asegúrate de que los ingresos por visitante no bajen mientras optimizas la tasa de conversión).

5. Testear sin una hipótesis

Los cambios aleatorios ("probemos un botón azul") ocasionalmente producen resultados positivos, pero no aprendes nada de ellos. Sin una hipótesis, no puedes construir sobre los éxitos ni comprender los fracasos.

La solución — Antes de cada test, escribe: "Creemos que [cambio] producirá [efecto] porque [razón]." Esto hace que los resultados sean interpretables independientemente del resultado.

6. Ignorar los fracasos

Los equipos celebran los éxitos e ignoran los fracasos. Pero los experimentos fallidos contienen información valiosa sobre el comportamiento del usuario. Una variante que redujo las conversiones un 15% te dice algo importante sobre lo que les importa a los usuarios.

La solución — Documenta cada resultado de test — éxitos, fracasos e inconclusos. Construye una base de conocimiento. Revisa los fracasos pasados antes de diseñar nuevos experimentos.

7. Implementación defectuosa

Incluso una metodología estadística perfecta no puede salvar un test mal configurado. Problemas comunes de implementación:

Desajuste de ratio muestral — división desigual que indica errores de aleatorización
El caché muestra el control a usuarios que deberían ver la variante (o viceversa)
El cambio no se carga para algunos usuarios debido a errores de JS
Tráfico de bots que infla una variante

La solución — Verifica siempre el desajuste de ratio muestral antes de analizar los resultados. Ejecuta primero un test A/A (variantes idénticas) para validar tu configuración.

La lista de verificación

Calcula el tamaño de muestra antes de lanzar
No revises antes de tiempo — o usa test secuencial
Corrige por comparaciones múltiples
Prerregistra tu métrica principal
Escribe una hipótesis
Verifica el SRM después del test
Documenta todo