Erros comuns em testes A/B e como evitá-los

A maioria dos experimentos falha não por causa de ideias ruins, mas por erros metodológicos evitáveis. Aqui estão os erros que invalidam mais testes do que qualquer outra coisa.

1. Espiar resultados e parar antes da hora

Este é o erro mais comum. Você verifica seu dashboard diariamente, vê p < 0,05 no dia 3 e encerra o teste. O problema: com um nível de significância nominal de 5%, espiar diariamente por duas semanas resulta em aproximadamente 25–30% de taxa de falsos positivos.

Por que acontece — Os valores p flutuam naturalmente durante a coleta de dados. Com verificações suficientes, o ruído aleatório eventualmente cruza o limiar de 0,05.

A solução — Ou comprometa-se com um tamanho de amostra fixo e não olhe até terminar, ou use o teste sequencial que é projetado especificamente para monitoramento contínuo.

2. Executar testes com poder insuficiente

Um teste com poder insuficiente é aquele que não tem visitantes suficientes para detectar o efeito que você busca. Se seu teste tem 40% de poder, ele perderá um efeito real 60% das vezes — você chamará vencedores de perdedores e vice-versa.

A solução — Sempre calcule o tamanho da amostra antes de lançar. Saiba qual MDE seu tráfego pode suportar. Se você precisa de 50.000 visitantes por variante e recebe apenas 1.000 por semana, ou aceite um MDE maior ou teste em uma página com mais tráfego.

3. Testar muitas variantes sem correção

Cada variante adicional aumenta a chance de um falso positivo. Testar 4 variantes contra um controle com α = 0,05 dá aproximadamente 19% de chance de pelo menos um falso positivo, não 5%.

A solução — Use a Calculadora multi-variante que aplica correções de Bonferroni ou Holm automaticamente. Ou limite-se a uma variante por vez.

4. Otimizar a métrica errada

Otimizar a taxa de cliques quando o negócio se importa com receita pode levar a mudanças que aumentam cliques mas diminuem compras. Um botão que diz "iPhone Grátis" vai receber mais cliques mas menos conversões reais.

A solução — Escolha uma métrica primária que esteja diretamente ligada ao valor do negócio. Acompanhe métricas secundárias como salvaguardas (ex.: garanta que a receita por visitante não caia enquanto otimiza a taxa de conversão).

5. Testar sem hipótese

Mudanças aleatórias ("vamos tentar um botão azul") ocasionalmente produzem vitórias, mas você não aprende nada com elas. Sem uma hipótese, você não consegue construir sobre sucessos nem entender fracassos.

A solução — Antes de cada teste, escreva: "Acreditamos que [mudança] vai [efeito] porque [razão]." Isso torna os resultados interpretáveis independentemente do resultado.

6. Ignorar derrotas

As equipes celebram vitórias e ignoram derrotas. Mas experimentos fracassados contêm informações valiosas sobre o comportamento dos usuários. Uma variante que reduziu as conversões em 15% diz algo importante sobre o que os usuários valorizam.

A solução — Documente cada resultado de teste — vitórias, derrotas e inconclusivos. Construa uma base de conhecimento. Revise fracassos anteriores antes de projetar novos experimentos.

7. Implementação falha

Mesmo uma metodologia estatística perfeita não pode salvar uma configuração de teste com problemas. Questões comuns de implementação:

Discrepância na razão amostral — divisão desigual indicando bugs de randomização
Cache mostrando o controle para usuários da variante (ou vice-versa)
A mudança não carregando para alguns usuários devido a erros de JS
Tráfego de bots inflando uma variante

A solução — Sempre verifique a discrepância na razão amostral antes de analisar os resultados. Execute um teste A/A (variantes idênticas) primeiro para validar sua configuração.

O checklist

Calcule o tamanho da amostra antes de lançar
Não espie — ou use teste sequencial
Corrija para comparações múltiplas
Pré-registre sua métrica primária
Escreva uma hipótese
Verifique SRM após o teste
Documente tudo