Calculadora de teste sequencial
Question: Can I stop my A/B test early while controlling false positives?
Verifique se seu teste A/B atingiu significancia usando limites de teste sequencial. Este metodo permite verificar os resultados em multiplos pontos sem inflar a taxa de falsos positivos.
Como usar esta calculadora
Insira o número planejado de verificações (analises intermediarias) e em qual verificacao voce se encontra atualmente. Insira visitantes e conversoes para cada variante. Selecione uma funcao de gasto: O'Brien-Fleming (conservadora no inicio, liberal no final) ou Pocock (limites iguais em cada verificacao). A calculadora mostra se seu z-score atual cruza o limite de eficacia ou futilidade nesta analise intermediaria.
Como funciona o teste sequencial
O teste A/B tradicional requer esperar ate atingir um tamanho de amostra fixo. O teste sequencial permite verificar os resultados em intervalos planejados (verificacoes) enquanto controla a taxa global de falsos positivos. Utiliza funcoes de gasto de alfa que alocam o nivel total de significancia entre as verificacoes. O'Brien-Fleming gasta muito pouco alfa no inicio (dificil de parar cedo) mas quase tudo na verificacao final. Pocock gasta alfa igualmente entre as verificacoes (mais facil parar cedo, mas mais dificil na verificacao final). Ambos os metodos mantem a taxa de erro Tipo I global no nivel desejado.
Quando usar teste sequencial
Use teste sequencial quando precisa monitorar um experimento ao longo do tempo e deseja a opcao de parar antecipadamente para vencedores ou perdedores claros. Isso e especialmente valioso para testes com urgencia de negocio (lancamentos de produto, campanhas sazonais) ou quando o custo de manter uma variante perdedora e alto (impacto negativo na receita). O teste sequencial e a solucao correta para o problema de peeking — a tentacao de verificar os resultados antes do tamanho de amostra planejado.
Erros comuns em testes sequenciais
O erro mais comum e usar limites sequenciais sem planeja-los antecipadamente. Voce deve decidir o numero de verificacoes e a funcao de gasto antes do teste comecar. Outro erro e verificar os resultados com mais frequencia do que o planejado — mesmo com teste sequencial, voce so pode verificar nos intervalos pre-especificados. Usar limites de Pocock quando voce planeja muitas verificacoes torna a analise final muito conservadora, por isso O'Brien-Fleming e frequentemente preferido para testes com muitas verificacoes planejadas.