ABtesting.tools

Como analisar resultados de testes A/B

Seu teste terminou de executar. E agora? Este guia percorre a análise passo a passo para que você tome a decisão certa.

Passo 1: Confirme que o teste executou corretamente

Antes de olhar os resultados, verifique estes pontos básicos:

  • Discrepância na razão amostral (SRM)Se você esperava uma divisão 50/50 mas obteve 52/48 ou pior, algo pode estar errado com a randomização. SRM significativo invalida os resultados.
  • Ciclos semanais completosO teste deveria ter executado por semanas completas (7, 14, 21 dias) para evitar viés de dia da semana.
  • Sem interferência externaConfirme que nenhum evento importante (quedas do site, campanhas de marketing, feriados) ocorreu durante o teste que pudesse distorcer os resultados.

Passo 2: Verifique a significância estatística

Insira seus dados na calculadora apropriada com base no tipo da sua métrica:

Observe o valor p. Se p < 0,05, o resultado é estatisticamente significativo no nível de confiança de 95%.

Passo 3: Observe o tamanho do efeito

Significância estatística sozinha não é suficiente. Um incremento de +0,01% pode ser significativo com dados suficientes, mas provavelmente não vale a pena implementar.

  • Efeito absolutoA diferença bruta (ex.: controle: 4,2%, variante: 4,8% → efeito absoluto: +0,6 pontos percentuais).
  • Efeito relativoA mudança percentual (ex.: +0,6pp sobre uma taxa base de 4,2% → +14,3% de incremento relativo). É isso que importa para decisões de negócio.

Pergunte-se: esse incremento é grande o suficiente para justificar os custos de engenharia e produto de implementar a mudança?

Passo 4: Leia o intervalo de confiança

O intervalo de confiança fornece a faixa de tamanhos de efeito plausíveis.

  • Intervalo estreito (ex.: [+0,3%, +0,9%])Você tem boa precisão. O efeito provavelmente está entre +0,3% e +0,9%. Seguro para tomar uma decisão.
  • Intervalo amplo (ex.: [−0,5%, +1,7%])Alta incerteza. O efeito real pode ser negativo ou muito maior do que o observado. Considere executar o teste por mais tempo.

O intervalo é mais informativo do que o valor p sozinho — ele informa tanto se o efeito existe quanto qual pode ser sua magnitude.

Passo 5: Tome a decisão

  • Resultado positivo significativoImplemente a variante. O efeito é real e a direção é clara.
  • Resultado negativo significativoA variante prejudicou o desempenho. Não implemente. Analise o porquê.
  • Não significativo Você não conseguiu detectar uma diferença. Isso não significa que não há diferença — seu teste pode ter poder insuficiente. Verifique qual MDE seu teste tinha poder para detectar usando a Calculadora de poder.

Se inconclusivo: ou estenda o teste (se prático) ou aceite que o efeito é pequeno demais para detectar com seu volume de tráfego e siga para ideias de maior impacto.

Armadilhas comuns na análise

  • Escolher métricas a dedoSe sua métrica primária não mostrou efeito, não saia procurando entre métricas secundárias por uma vitória. Pré-registre qual métrica é primária.
  • Segmentação post-hocFatiar resultados por país, dispositivo ou tipo de usuário após o teste aumenta o risco de falsos positivos. Confie apenas em segmentos pré-registrados.
  • Ignorar efeitos de novidadeNovos designs frequentemente mostram um incremento inicial que desaparece conforme os usuários se acostumam. Considere monitorar as métricas pós-lançamento por algumas semanas.