Quanto tempo você deve executar seu teste A/B?

Encerrar um teste antes da hora é um dos erros mais comuns em experimentação. Este guia explica como determinar a duração certa e por que a paciência compensa.

A duração depende do tamanho da amostra e do tráfego

A duração do teste é fundamentalmente uma função de duas coisas: quantos visitantes você precisa (tamanho da amostra) e quantos visitantes você recebe por dia. A Calculadora de duração calcula isso para você, mas entender os parâmetros ajuda a planejar melhor.

A fórmula é direta: dias = tamanho de amostra necessário ÷ visitantes diários por variante. Mas existem nuances importantes além dessa divisão simples.

Sempre execute por ciclos semanais completos

O comportamento dos usuários varia drasticamente ao longo da semana. Compradores de segunda-feira se comportam diferente dos navegadores de sábado. O tráfego B2B cai nos finais de semana. E-mails promocionais geram picos em dias específicos.

Se o seu teste durar 10 dias, ele captura uma semana completa mais três dias extras — esses três dias ficam sobre-representados nos seus dados, enviesando os resultados. A solução é simples: sempre arredonde para semanas completas (7, 14, 21, 28 dias, etc.).

Isso garante que cada dia da semana esteja igualmente representado, eliminando efeitos de dia da semana dos seus resultados.

O que afeta a duração do teste?

Volume de tráfego diário — mais visitantes significa coleta de dados mais rápida. Se você recebe apenas 100 visitantes por dia, até um teste simples pode levar semanas.
Taxa de conversão base — taxas base mais baixas precisam de mais dados. Um teste com taxa de conversão de 0,5% demora muito mais do que um com taxa de 15%.
Efeito mínimo detectável — tentar detectar mudanças menores leva exponencialmente mais tempo. Um MDE relativo de 2% precisa de aproximadamente 25x mais dados do que um MDE de 10%.
Número de variantes — cada variante adicional requer sua própria parcela de tráfego. Um teste com 4 variantes leva aproximadamente 3x mais tempo do que um teste A/B.
Alocação de tráfego — se apenas 50% dos visitantes entram no experimento, a duração dobra. Considere quaisquer holdouts ou filtros de segmentação.

Erros comuns de duração

Parar ao atingir significância — verificar diariamente e parar no momento em que p < 0,05 infla dramaticamente os falsos positivos. Comprometa-se com uma duração fixa antes de começar, ou use o teste sequencial.
Executar por pouco tempo — um teste que dura 3 dias captura apenas metade de um ciclo semanal. Mesmo que atinja significância estatística, os resultados podem não se generalizar para uma semana completa de tráfego.
Executar por tempo demais — testes que duram meses acumulam fatores confundidores externos: mudanças sazonais, alterações no produto, campanhas de marketing. Mantenha os testes abaixo de 4 a 6 semanas quando possível.
Ignorar feriados e eventos — o tráfego da Black Friday não é representativo do comportamento normal. Evite iniciar ou encerrar testes durante eventos importantes, a menos que esteja testando especificamente para esse contexto.

Recomendações práticas

Duração mínima: 2 semanas completas (14 dias) para capturar dois ciclos semanais completos.
Máximo recomendado: 4 a 6 semanas para evitar fatores confundidores externos.
Se a calculadora indicar que o teste precisa de mais de 6 semanas, considere aumentar o MDE ou focar em páginas com mais tráfego.
Sempre registre a data de término antes de lançar o teste. Isso evita a tentação de espiar os dados.

Calcule a duração do seu teste

Use a Calculadora de duração para obter uma estimativa exata com base no seu tráfego, taxa base e sensibilidade desejada. Combine com a Calculadora de tamanho de amostra para entender a relação entre os dois.