Como escolher o teste estatístico certo para seu teste A/B
Escolher o teste errado pode invalidar seus resultados. Este guia percorre a árvore de decisão baseada no tipo da sua métrica.
Passo 1: Que tipo de métrica você está testando?
A primeira pergunta a fazer: que tipo de dado a sua métrica produz?
- Binária / Taxas de conversão — cada usuário converte ou não (clicou, comprou, cadastrou-se). Use a Calculadora de conversões.
- Métricas contínuas por usuário — cada usuário tem um valor numérico (receita por usuário, duração da sessão, páginas visualizadas). Use a Calculadora de métricas contínuas.
- Métricas de razão — sum(X)/sum(Y) onde o denominador varia por usuário (AOV = receita/pedidos, receita por clique). Use a Calculadora de métricas de razão.
Passo 2: Escolha um método dentro do tipo da sua métrica
Para taxas de conversão:
- Teste Z (duas proporções) — a escolha padrão. Funciona bem quando os tamanhos de amostra são moderados a grandes (n > 30 por grupo) e as frequências esperadas nas células são ≥ 5.
- Teste qui-quadrado — melhor para comparar mais de 2 grupos simultaneamente ou analisar tabelas de contingência com múltiplas categorias.
- Teste exato de Fisher — use quando os tamanhos de amostra são pequenos ou as frequências esperadas nas células estão abaixo de 5. Exato em vez de aproximado.
Para métricas contínuas:
- Teste t de Welch — a referência para comparar médias. Funciona para dados com distribuição normal ou amostras grandes (CLT se aplica para n > 30). Não assume variâncias iguais.
- Teste Mann-Whitney U — use quando os dados são fortemente assimétricos, têm outliers ou violam suposições de normalidade. Compara distribuições inteiras em vez de apenas médias.
Para métricas de razão:
- Teste t simples nas razões — rápido, mas pode ser enviesado quando os usuários contribuem com números diferentes de eventos.
- Método delta — a abordagem recomendada. Lida corretamente com a variância de uma razão onde o denominador varia por usuário.
- Bootstrap — o mais flexível. Não faz suposições de distribuição. Melhor para métricas complexas ou não padronizadas.
Passo 3: Considere estes casos especiais
- Quer espiar os resultados antes da hora? Use o Teste sequencial com funções de gasto para controlar a taxa de falsos positivos e permitir a parada antecipada.
- Testando mais de uma variante? Use a Calculadora multi-variante com correções de Bonferroni ou Holm-Bonferroni.
- Prefere probabilidades a valores-p? Use a Calculadora bayesiana para obter a probabilidade posterior de uma variante superar a outra.
Fluxograma rápido de decisão
Sua métrica é uma taxa de conversão (sim/não)?
SIM → Amostra > 30 por grupo? → Teste Z
SIM → Amostras pequenas ou dados esparsos? → Teste exato de Fisher
SIM → Múltiplos grupos ou categorias? → Qui-quadrado
Sua métrica é um valor por usuário?
SIM → Aproximadamente normal ou n > 30? → Teste t de Welch
SIM → Assimétrica ou amostras pequenas? → Mann-Whitney U
Sua métrica é uma razão (soma/soma)?
SIM → Usuários têm denominadores diferentes? → Método delta
SIM → Métrica complexa ou sem suposições? → Bootstrap