Significância estatística em testes A/B explicada

Significância estatística é o conceito mais citado — e mais mal interpretado — em testes A/B. Este guia explica o que ela realmente significa e como interpretá-la corretamente.

O que é significância estatística?

A significância estatística indica se a diferença observada entre as variantes é provavelmente real ou se poderia ter surgido apenas por acaso.

Quando dizemos que um resultado é "estatisticamente significativo a 95% de confiança", queremos dizer: se não houvesse diferença real entre as variantes, haveria menos de 5% de probabilidade de observar uma diferença tão grande ou maior apenas por variação aleatória.

É crucial entender que isso não significa que há 95% de chance de a variante vencedora ser melhor. Essa é uma interpretação equivocada comum.

Como os valores p funcionam

O valor p é a probabilidade de observar seus dados (ou algo mais extremo) assumindo que a hipótese nula é verdadeira — ou seja, assumindo que não há diferença real entre as variantes.

Valor p baixo (ex.: p = 0,02) — A diferença observada seria improvável sob puro acaso. Rejeitamos a hipótese nula e consideramos o resultado significativo.
Valor p alto (ex.: p = 0,35) — A diferença observada é facilmente explicada pela variação aleatória. Não rejeitamos a hipótese nula.

O limiar — A maioria das equipes usa α = 0,05 (5%) como ponto de corte. Se p < α, o resultado é significativo. Esse limiar é uma convenção, não uma lei da natureza — algumas equipes usam 0,01 ou 0,10 dependendo do custo dos erros.

Intervalos de confiança dizem mais do que valores p

Um valor p apenas informa se o efeito é provavelmente diferente de zero. Um intervalo de confiança informa a faixa plausível do tamanho do efeito.

Por exemplo: "A diferença na taxa de conversão é +1,2% com um intervalo de confiança de 95% de [+0,3%, +2,1%]." Isso indica que o efeito é significativo (o intervalo não inclui zero) e dá uma noção da magnitude provável.

Se o intervalo é [−0,5%, +2,9%], o resultado não é significativo — mas você pode ver que o efeito ainda pode ser relevante. Provavelmente você precisa de mais dados.

Erros comuns de significância

Espiar resultados diariamente — Verificar a significância todos os dias e parar quando p < 0,05 infla dramaticamente os falsos positivos. Um teste com 5% de taxa de falsos positivos quando verificado uma vez pode ter mais de 30% de taxa de falsos positivos quando verificado diariamente. Use o teste sequencial se precisar monitorar os resultados continuamente.
Confundir significância com importância — Um resultado estatisticamente significativo pode ser praticamente irrelevante. Um incremento de +0,01% na conversão pode ser significativo com milhões de visitantes, mas não vale a pena implementar. Sempre verifique o tamanho do efeito, não apenas o valor p.
Tratar não significância como prova de ausência de efeito — Um resultado não significativo significa que você não conseguiu detectar um efeito — não que nenhum efeito existe. Seu teste pode simplesmente ter poder insuficiente. Verifique a Calculadora de poder para entender o que seu teste realmente poderia detectar.
Ignorar comparações múltiplas — Testar 20 métricas com α = 0,05 significa que você espera um falso positivo apenas por acaso. Use correções (Bonferroni, Holm) ou concentre-se em uma única métrica primária.

A alternativa bayesiana

Se a abordagem frequentista parece contraintuitiva, a análise bayesiana fornece uma afirmação direta de probabilidade: "Há 94% de probabilidade de que a variante B é melhor que A."

Isso é frequentemente o que as pessoas pensam que significância significa. A Calculadora bayesiana calcula isso para você — sem necessidade de raciocinar sobre hipóteses nulas ou valores p.

Verifique a significância do seu teste

Use a Calculadora de conversões para testar se os resultados do seu teste A/B são estatisticamente significativos. Insira seus números de visitantes e conversões para obter um valor p, intervalo de confiança e tamanho do efeito.