Como analisar resultados de testes A/B
Seu teste terminou de executar. E agora? Este guia percorre a análise passo a passo para que você tome a decisão certa.
Passo 1: Confirme que o teste executou corretamente
Antes de olhar os resultados, verifique estes pontos básicos:
- Discrepância na razão amostral (SRM) — Se você esperava uma divisão 50/50 mas obteve 52/48 ou pior, algo pode estar errado com a randomização. SRM significativo invalida os resultados.
- Ciclos semanais completos — O teste deveria ter executado por semanas completas (7, 14, 21 dias) para evitar viés de dia da semana.
- Sem interferência externa — Confirme que nenhum evento importante (quedas do site, campanhas de marketing, feriados) ocorreu durante o teste que pudesse distorcer os resultados.
Passo 2: Verifique a significância estatística
Insira seus dados na calculadora apropriada com base no tipo da sua métrica:
- Taxas de conversão (clicou, comprou, cadastrou-se) — Use a Calculadora de conversões
- Métricas numéricas por usuário (receita, tempo no site) — Use a Calculadora de métricas contínuas
- Métricas de razão (AOV, receita por clique) — Use a Calculadora de métricas de razão
Observe o valor p. Se p < 0,05, o resultado é estatisticamente significativo no nível de confiança de 95%.
Passo 3: Observe o tamanho do efeito
Significância estatística sozinha não é suficiente. Um incremento de +0,01% pode ser significativo com dados suficientes, mas provavelmente não vale a pena implementar.
- Efeito absoluto — A diferença bruta (ex.: controle: 4,2%, variante: 4,8% → efeito absoluto: +0,6 pontos percentuais).
- Efeito relativo — A mudança percentual (ex.: +0,6pp sobre uma taxa base de 4,2% → +14,3% de incremento relativo). É isso que importa para decisões de negócio.
Pergunte-se: esse incremento é grande o suficiente para justificar os custos de engenharia e produto de implementar a mudança?
Passo 4: Leia o intervalo de confiança
O intervalo de confiança fornece a faixa de tamanhos de efeito plausíveis.
- Intervalo estreito (ex.: [+0,3%, +0,9%]) — Você tem boa precisão. O efeito provavelmente está entre +0,3% e +0,9%. Seguro para tomar uma decisão.
- Intervalo amplo (ex.: [−0,5%, +1,7%]) — Alta incerteza. O efeito real pode ser negativo ou muito maior do que o observado. Considere executar o teste por mais tempo.
O intervalo é mais informativo do que o valor p sozinho — ele informa tanto se o efeito existe quanto qual pode ser sua magnitude.
Passo 5: Tome a decisão
- Resultado positivo significativo — Implemente a variante. O efeito é real e a direção é clara.
- Resultado negativo significativo — A variante prejudicou o desempenho. Não implemente. Analise o porquê.
- Não significativo — Você não conseguiu detectar uma diferença. Isso não significa que não há diferença — seu teste pode ter poder insuficiente. Verifique qual MDE seu teste tinha poder para detectar usando a Calculadora de poder.
Se inconclusivo: ou estenda o teste (se prático) ou aceite que o efeito é pequeno demais para detectar com seu volume de tráfego e siga para ideias de maior impacto.
Armadilhas comuns na análise
- Escolher métricas a dedo — Se sua métrica primária não mostrou efeito, não saia procurando entre métricas secundárias por uma vitória. Pré-registre qual métrica é primária.
- Segmentação post-hoc — Fatiar resultados por país, dispositivo ou tipo de usuário após o teste aumenta o risco de falsos positivos. Confie apenas em segmentos pré-registrados.
- Ignorar efeitos de novidade — Novos designs frequentemente mostram um incremento inicial que desaparece conforme os usuários se acostumam. Considere monitorar as métricas pós-lançamento por algumas semanas.