¿Cuánto tiempo deberías ejecutar tu test A/B?

Terminar un test demasiado pronto es uno de los errores más comunes en experimentación. Esta guía explica cómo determinar la duración correcta y por qué la paciencia da frutos.

La duración depende del tamaño de muestra y el tráfico

La duración del test es fundamentalmente una función de dos cosas: cuántos visitantes necesitas (tamaño de muestra) y cuántos visitantes recibes por día. La calculadora de duración lo calcula por ti, pero entender los parámetros te ayuda a planificar mejor.

La fórmula es sencilla: días = tamaño de muestra necesario ÷ visitantes diarios por variante. Pero hay matices importantes más allá de esta simple división.

Ejecuta siempre ciclos semanales completos

El comportamiento de los usuarios varía drásticamente a lo largo de la semana. Los compradores del lunes se comportan de manera diferente a los navegantes del sábado. El tráfico B2B cae los fines de semana. Los emails promocionales generan picos en días específicos.

Si tu test se ejecuta durante 10 días, captura una semana completa más tres días extra — esos tres días están sobrerrepresentados en tus datos, sesgando los resultados. La solución es simple: redondea siempre hacia arriba a semanas completas (7, 14, 21, 28 días, etc.).

Esto garantiza que cada día de la semana esté igualmente representado, eliminando los factores de confusión por día de la semana de tus resultados.

¿Qué afecta la duración del test?

Volumen de tráfico diario — más visitantes significa una recopilación de datos más rápida. Si solo recibes 100 visitantes por día, incluso un test simple puede tardar semanas.
Tasa de conversión base — tasas base más bajas necesitan más datos. Un test con una tasa de conversión del 0,5% tarda mucho más que uno con una tasa del 15%.
Efecto mínimo detectable — intentar detectar cambios más pequeños tarda exponencialmente más. Un MDE relativo del 2% necesita aproximadamente 25x más datos que un MDE del 10%.
Número de variantes — cada variante adicional necesita su propia parte del tráfico. Un test de 4 variantes tarda aproximadamente 3x más que un test A/B.
Asignación de tráfico — si solo el 50% de los visitantes entran en el experimento, la duración se duplica. Ten en cuenta cualquier holdout o filtro de segmentación.

Errores comunes de duración

Detener al alcanzar significancia — verificar diariamente y detener en cuanto p < 0,05 infla drásticamente los falsos positivos. Compromete una duración fija antes de empezar, o usa el test secuencial.
Ejecutar demasiado poco tiempo — un test de 3 días captura solo medio ciclo semanal. Aunque alcance significancia estadística, los resultados pueden no ser generalizables a una semana completa de tráfico.
Ejecutar demasiado tiempo — tests que se ejecutan durante meses acumulan factores de confusión externos: cambios estacionales, cambios de producto, campañas de marketing. Mantén los tests por debajo de 4–6 semanas cuando sea posible.
Ignorar festivos y eventos — el tráfico de Black Friday no es representativo del comportamiento normal. Evita iniciar o finalizar tests cerca de eventos importantes a menos que estés probando específicamente para ese contexto.

Recomendaciones prácticas

Duración mínima: 2 semanas completas (14 días) para capturar dos ciclos semanales completos.
Máximo recomendado: 4–6 semanas para evitar factores de confusión externos.
Si la calculadora indica que el test necesita más de 6 semanas, considera aumentar el MDE o enfocarte en páginas con mayor tráfico.
Registra siempre la fecha de finalización antes de lanzar. Esto previene la tentación de revisar los datos anticipadamente.

Calcula la duración de tu test

Usa la calculadora de duración para obtener una estimación exacta basada en tu tráfico, tasa base y sensibilidad deseada. Combínala con la calculadora de tamaño de muestra para entender la relación entre ambas.