Quanto tempo você deve executar seu teste A/B?
Encerrar um teste antes da hora é um dos erros mais comuns em experimentação. Este guia explica como determinar a duração certa e por que a paciência compensa.
A duração depende do tamanho da amostra e do tráfego
A duração do teste é fundamentalmente uma função de duas coisas: quantos visitantes você precisa (tamanho da amostra) e quantos visitantes você recebe por dia. A Calculadora de duração calcula isso para você, mas entender os parâmetros ajuda a planejar melhor.
A fórmula é direta: dias = tamanho de amostra necessário ÷ visitantes diários por variante. Mas existem nuances importantes além dessa divisão simples.
Sempre execute por ciclos semanais completos
O comportamento dos usuários varia drasticamente ao longo da semana. Compradores de segunda-feira se comportam diferente dos navegadores de sábado. O tráfego B2B cai nos finais de semana. E-mails promocionais geram picos em dias específicos.
Se o seu teste durar 10 dias, ele captura uma semana completa mais três dias extras — esses três dias ficam sobre-representados nos seus dados, enviesando os resultados. A solução é simples: sempre arredonde para semanas completas (7, 14, 21, 28 dias, etc.).
Isso garante que cada dia da semana esteja igualmente representado, eliminando efeitos de dia da semana dos seus resultados.
O que afeta a duração do teste?
- Volume de tráfego diário — mais visitantes significa coleta de dados mais rápida. Se você recebe apenas 100 visitantes por dia, até um teste simples pode levar semanas.
- Taxa de conversão base — taxas base mais baixas precisam de mais dados. Um teste com taxa de conversão de 0,5% demora muito mais do que um com taxa de 15%.
- Efeito mínimo detectável — tentar detectar mudanças menores leva exponencialmente mais tempo. Um MDE relativo de 2% precisa de aproximadamente 25x mais dados do que um MDE de 10%.
- Número de variantes — cada variante adicional requer sua própria parcela de tráfego. Um teste com 4 variantes leva aproximadamente 3x mais tempo do que um teste A/B.
- Alocação de tráfego — se apenas 50% dos visitantes entram no experimento, a duração dobra. Considere quaisquer holdouts ou filtros de segmentação.
Erros comuns de duração
- Parar ao atingir significância — verificar diariamente e parar no momento em que p < 0,05 infla dramaticamente os falsos positivos. Comprometa-se com uma duração fixa antes de começar, ou use o teste sequencial.
- Executar por pouco tempo — um teste que dura 3 dias captura apenas metade de um ciclo semanal. Mesmo que atinja significância estatística, os resultados podem não se generalizar para uma semana completa de tráfego.
- Executar por tempo demais — testes que duram meses acumulam fatores confundidores externos: mudanças sazonais, alterações no produto, campanhas de marketing. Mantenha os testes abaixo de 4 a 6 semanas quando possível.
- Ignorar feriados e eventos — o tráfego da Black Friday não é representativo do comportamento normal. Evite iniciar ou encerrar testes durante eventos importantes, a menos que esteja testando especificamente para esse contexto.
Recomendações práticas
- Duração mínima: 2 semanas completas (14 dias) para capturar dois ciclos semanais completos.
- Máximo recomendado: 4 a 6 semanas para evitar fatores confundidores externos.
- Se a calculadora indicar que o teste precisa de mais de 6 semanas, considere aumentar o MDE ou focar em páginas com mais tráfego.
- Sempre registre a data de término antes de lançar o teste. Isso evita a tentação de espiar os dados.
Calcule a duração do seu teste
Use a Calculadora de duração para obter uma estimativa exata com base no seu tráfego, taxa base e sensibilidade desejada. Combine com a Calculadora de tamanho de amostra para entender a relação entre os dois.