Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.