Como escolher o teste estatístico certo para seu teste A/B

Escolher o teste errado pode invalidar seus resultados. Este guia percorre a árvore de decisão baseada no tipo da sua métrica.

Passo 1: Que tipo de métrica você está testando?

A primeira pergunta a fazer: que tipo de dado a sua métrica produz?

Binária / Taxas de conversão — cada usuário converte ou não (clicou, comprou, cadastrou-se). Use a Calculadora de conversões.
Métricas contínuas por usuário — cada usuário tem um valor numérico (receita por usuário, duração da sessão, páginas visualizadas). Use a Calculadora de métricas contínuas.
Métricas de razão — sum(X)/sum(Y) onde o denominador varia por usuário (AOV = receita/pedidos, receita por clique). Use a Calculadora de métricas de razão.

Teste Z (duas proporções) — a escolha padrão. Funciona bem quando os tamanhos de amostra são moderados a grandes (n > 30 por grupo) e as frequências esperadas nas células são ≥ 5.
Teste qui-quadrado — melhor para comparar mais de 2 grupos simultaneamente ou analisar tabelas de contingência com múltiplas categorias.
Teste exato de Fisher — use quando os tamanhos de amostra são pequenos ou as frequências esperadas nas células estão abaixo de 5. Exato em vez de aproximado.

Teste t de Welch — a referência para comparar médias. Funciona para dados com distribuição normal ou amostras grandes (CLT se aplica para n > 30). Não assume variâncias iguais.
Teste Mann-Whitney U — use quando os dados são fortemente assimétricos, têm outliers ou violam suposições de normalidade. Compara distribuições inteiras em vez de apenas médias.

Teste t simples nas razões — rápido, mas pode ser enviesado quando os usuários contribuem com números diferentes de eventos.
Método delta — a abordagem recomendada. Lida corretamente com a variância de uma razão onde o denominador varia por usuário.
Bootstrap — o mais flexível. Não faz suposições de distribuição. Melhor para métricas complexas ou não padronizadas.

Quer espiar os resultados antes da hora? Use o Teste sequencial com funções de gasto para controlar a taxa de falsos positivos e permitir a parada antecipada.
Testando mais de uma variante? Use a Calculadora multi-variante com correções de Bonferroni ou Holm-Bonferroni.
Prefere probabilidades a valores-p? Use a Calculadora bayesiana para obter a probabilidade posterior de uma variante superar a outra.

Sua métrica é uma taxa de conversão (sim/não)?

SIM → Amostra > 30 por grupo? → Teste Z

SIM → Amostras pequenas ou dados esparsos? → Teste exato de Fisher

SIM → Múltiplos grupos ou categorias? → Qui-quadrado

Sua métrica é um valor por usuário?

SIM → Aproximadamente normal ou n > 30? → Teste t de Welch

SIM → Assimétrica ou amostras pequenas? → Mann-Whitney U

Sua métrica é uma razão (soma/soma)?

SIM → Usuários têm denominadores diferentes? → Método delta

SIM → Métrica complexa ou sem suposições? → Bootstrap