Como analisar resultados de testes A/B

Seu teste terminou de executar. E agora? Este guia percorre a análise passo a passo para que você tome a decisão certa.

Passo 1: Confirme que o teste executou corretamente

Antes de olhar os resultados, verifique estes pontos básicos:

Discrepância na razão amostral (SRM) — Se você esperava uma divisão 50/50 mas obteve 52/48 ou pior, algo pode estar errado com a randomização. SRM significativo invalida os resultados.
Ciclos semanais completos — O teste deveria ter executado por semanas completas (7, 14, 21 dias) para evitar viés de dia da semana.
Sem interferência externa — Confirme que nenhum evento importante (quedas do site, campanhas de marketing, feriados) ocorreu durante o teste que pudesse distorcer os resultados.

Passo 2: Verifique a significância estatística

Insira seus dados na calculadora apropriada com base no tipo da sua métrica:

Taxas de conversão (clicou, comprou, cadastrou-se) — Use a Calculadora de conversões
Métricas numéricas por usuário (receita, tempo no site) — Use a Calculadora de métricas contínuas
Métricas de razão (AOV, receita por clique) — Use a Calculadora de métricas de razão

Observe o valor p. Se p < 0,05, o resultado é estatisticamente significativo no nível de confiança de 95%.

Passo 3: Observe o tamanho do efeito

Significância estatística sozinha não é suficiente. Um incremento de +0,01% pode ser significativo com dados suficientes, mas provavelmente não vale a pena implementar.

Efeito absoluto — A diferença bruta (ex.: controle: 4,2%, variante: 4,8% → efeito absoluto: +0,6 pontos percentuais).
Efeito relativo — A mudança percentual (ex.: +0,6pp sobre uma taxa base de 4,2% → +14,3% de incremento relativo). É isso que importa para decisões de negócio.

Pergunte-se: esse incremento é grande o suficiente para justificar os custos de engenharia e produto de implementar a mudança?

Passo 4: Leia o intervalo de confiança

O intervalo de confiança fornece a faixa de tamanhos de efeito plausíveis.

Intervalo estreito (ex.: [+0,3%, +0,9%]) — Você tem boa precisão. O efeito provavelmente está entre +0,3% e +0,9%. Seguro para tomar uma decisão.
Intervalo amplo (ex.: [−0,5%, +1,7%]) — Alta incerteza. O efeito real pode ser negativo ou muito maior do que o observado. Considere executar o teste por mais tempo.

O intervalo é mais informativo do que o valor p sozinho — ele informa tanto se o efeito existe quanto qual pode ser sua magnitude.

Passo 5: Tome a decisão

Resultado positivo significativo — Implemente a variante. O efeito é real e a direção é clara.
Resultado negativo significativo — A variante prejudicou o desempenho. Não implemente. Analise o porquê.
Não significativo — Você não conseguiu detectar uma diferença. Isso não significa que não há diferença — seu teste pode ter poder insuficiente. Verifique qual MDE seu teste tinha poder para detectar usando a Calculadora de poder.

Se inconclusivo: ou estenda o teste (se prático) ou aceite que o efeito é pequeno demais para detectar com seu volume de tráfego e siga para ideias de maior impacto.

Armadilhas comuns na análise

Escolher métricas a dedo — Se sua métrica primária não mostrou efeito, não saia procurando entre métricas secundárias por uma vitória. Pré-registre qual métrica é primária.
Segmentação post-hoc — Fatiar resultados por país, dispositivo ou tipo de usuário após o teste aumenta o risco de falsos positivos. Confie apenas em segmentos pré-registrados.
Ignorar efeitos de novidade — Novos designs frequentemente mostram um incremento inicial que desaparece conforme os usuários se acostumam. Considere monitorar as métricas pós-lançamento por algumas semanas.