What is the multiple comparisons problem?

Testing many variants increases false positive risk. With 5 comparisons at 95% confidence, chance of at least one false positive is ~23%.

What is the difference between Bonferroni and Holm corrections?

Bonferroni divides significance level by the number of comparisons. Holm is strictly more powerful while still controlling error rate.

How many variants should I test at once?

Testing 3-5 variants is common. More variants means more traffic needed and longer test duration.

Calculadora de teste A/B/n multi-variante

Qual das minhas múltiplas variantes tem melhor desempenho controlando as comparações múltiplas?

Compare três ou mais variantes simultaneamente com a correção adequada para comparações múltiplas. Adicione até 5 variantes e obtenha testes de significância pareados.

Como usar esta calculadora

Insira visitantes e conversões para o controle e cada variante. Clique em Adicionar Variante para incluir até 5 variantes. Selecione um método de correção: Bonferroni (mais conservador, controla a taxa de erro por família) ou Holm (menos conservador, mas ainda válido). A calculadora executa todas as comparações pareadas e mostra quais diferenças são significativas após a correção.

Por que correções para comparações múltiplas importam

Quando você testa múltiplas variantes contra um controle, cada comparação tem chance de produzir um falso positivo. Com 5 comparações pareadas a 95% de confiança, a probabilidade de pelo menos um falso positivo sobe para cerca de 23%. Correções para comparações múltiplas ajustam o limite de significância para manter a taxa global de falsos positivos em 5%. Bonferroni divide o alfa pelo número de comparações (simples, mas conservador). O método step-down de Holm é menos conservador enquanto ainda controla a taxa de erro por família.

Quando usar testes multi-variante

Use testes A/B/n quando você tem múltiplas ideias para testar simultaneamente e quer encontrar a melhor variante de forma eficiente. Isso é comum em experimentos de design (testar 3-4 layouts), testes de headline ou experimentos de precificação. Porém, esteja ciente de que adicionar mais variantes aumenta o tamanho da amostra necessário. Se você tem tráfego suficiente apenas para duas variantes, execute um teste A/B simples.

Erros comuns em testes multi-variante

O maior erro é executar comparações múltiplas sem nenhuma correção, o que infla dramaticamente os falsos positivos. Outro erro é adicionar variantes demais e diluir o tráfego excessivamente, levando a comparações com poder insuficiente. Evite também alterar variantes durante o teste ou remover variantes com desempenho inferior prematuramente — isso invalida a análise estatística. Planeje suas variantes e tamanho de amostra antes de começar.