ABtesting.tools

Como escolher o teste estatístico certo para seu teste A/B

Escolher o teste errado pode invalidar seus resultados. Este guia percorre a árvore de decisão baseada no tipo da sua métrica.

Passo 1: Que tipo de métrica você está testando?

A primeira pergunta a fazer: que tipo de dado a sua métrica produz?

  • Binária / Taxas de conversão cada usuário converte ou não (clicou, comprou, cadastrou-se). Use a Calculadora de conversões.
  • Métricas contínuas por usuário cada usuário tem um valor numérico (receita por usuário, duração da sessão, páginas visualizadas). Use a Calculadora de métricas contínuas.
  • Métricas de razão sum(X)/sum(Y) onde o denominador varia por usuário (AOV = receita/pedidos, receita por clique). Use a Calculadora de métricas de razão.

Passo 2: Escolha um método dentro do tipo da sua métrica

Para taxas de conversão:

  • Teste Z (duas proporções)a escolha padrão. Funciona bem quando os tamanhos de amostra são moderados a grandes (n > 30 por grupo) e as frequências esperadas nas células são ≥ 5.
  • Teste qui-quadradomelhor para comparar mais de 2 grupos simultaneamente ou analisar tabelas de contingência com múltiplas categorias.
  • Teste exato de Fisheruse quando os tamanhos de amostra são pequenos ou as frequências esperadas nas células estão abaixo de 5. Exato em vez de aproximado.

Para métricas contínuas:

  • Teste t de Welcha referência para comparar médias. Funciona para dados com distribuição normal ou amostras grandes (CLT se aplica para n > 30). Não assume variâncias iguais.
  • Teste Mann-Whitney Uuse quando os dados são fortemente assimétricos, têm outliers ou violam suposições de normalidade. Compara distribuições inteiras em vez de apenas médias.

Para métricas de razão:

  • Teste t simples nas razõesrápido, mas pode ser enviesado quando os usuários contribuem com números diferentes de eventos.
  • Método deltaa abordagem recomendada. Lida corretamente com a variância de uma razão onde o denominador varia por usuário.
  • Bootstrapo mais flexível. Não faz suposições de distribuição. Melhor para métricas complexas ou não padronizadas.

Passo 3: Considere estes casos especiais

  • Quer espiar os resultados antes da hora? Use o Teste sequencial com funções de gasto para controlar a taxa de falsos positivos e permitir a parada antecipada.
  • Testando mais de uma variante? Use a Calculadora multi-variante com correções de Bonferroni ou Holm-Bonferroni.
  • Prefere probabilidades a valores-p? Use a Calculadora bayesiana para obter a probabilidade posterior de uma variante superar a outra.

Fluxograma rápido de decisão

Sua métrica é uma taxa de conversão (sim/não)?

SIM → Amostra > 30 por grupo? → Teste Z

SIM → Amostras pequenas ou dados esparsos? → Teste exato de Fisher

SIM → Múltiplos grupos ou categorias? → Qui-quadrado

Sua métrica é um valor por usuário?

SIM → Aproximadamente normal ou n > 30? → Teste t de Welch

SIM → Assimétrica ou amostras pequenas? → Mann-Whitney U

Sua métrica é uma razão (soma/soma)?

SIM → Usuários têm denominadores diferentes? → Método delta

SIM → Métrica complexa ou sem suposições? → Bootstrap