ABtesting.tools

Calculadora de test secuencial

Question: Can I stop my A/B test early while controlling false positives?

Verifica si tu test A/B ha alcanzado significancia usando límites de prueba secuencial. Este método permite revisar los resultados en múltiples puntos sin inflar la tasa de falsos positivos.

Cómo usar esta calculadora

Introduce el número planificado de revisiones (análisis intermedios) y en cuál te encuentras actualmente. Introduce los visitantes y conversiones de cada variante. Selecciona una función de gasto: O'Brien-Fleming (conservadora al inicio, liberal al final) o Pocock (límites iguales en cada revisión). La calculadora muestra si tu z-score actual cruza el límite de eficacia o futilidad en este análisis intermedio.

Cómo funciona el test secuencial

El A/B testing tradicional requiere esperar hasta alcanzar un tamaño de muestra fijo. El test secuencial permite revisar resultados en intervalos preplanificados (revisiones) mientras se controla la tasa global de falsos positivos. Utiliza funciones de gasto de alfa que distribuyen el nivel de significancia total entre las revisiones. O'Brien-Fleming gasta muy poco alfa al principio (difícil de detener antes) pero casi todo en la revisión final. Pocock gasta alfa de manera uniforme entre revisiones (más fácil de detener antes, pero más difícil en la revisión final). Ambos métodos mantienen la tasa global de error Tipo I en el nivel deseado.

Cuándo usar el test secuencial

Utiliza el test secuencial cuando necesites monitorear un experimento a lo largo del tiempo y quieras la opción de detenerlo anticipadamente ante ganadores o perdedores claros. Es especialmente valioso para tests con urgencia de negocio (lanzamientos de producto, campañas estacionales) o cuando el coste de mantener una variante perdedora es alto (impacto negativo en ingresos). El test secuencial es la solución adecuada al problema del peeking: la tentación de revisar resultados antes del tamaño de muestra planificado.

Errores comunes en el test secuencial

El error más común es usar límites secuenciales sin haberlos planificado de antemano. Debes decidir el número de revisiones y la función de gasto antes de que comience el test. Otro error es revisar resultados con más frecuencia de la planificada: incluso con test secuencial, solo puedes revisar en los intervalos preespecificados. Usar límites Pocock cuando planeas muchas revisiones hace que el análisis final sea muy conservador, por lo que O'Brien-Fleming suele preferirse para tests con muchas revisiones planificadas.