Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

9 pensamentos sobre “Culto da significância estatística I: um exemplo do teste de normalidade

  1. Eu até hoje não vejo a importância de testar normalidade. Se a distribuição for “Elliptically Symmetric” (e não necessariamente Normal), todas as vantagens de normalidade vem junto.

    Dessa maneira, o que queremos testar é essa hipótese de Elliptically Symmetric distribution.

    O que acontece é que o pessoal quer testar uma hipótese, utilizando um teste que foi desenhado para testa outra coisa. Ou seja, o problema está no pesquisador mesmo.

    Eu sou um pouco avesso a dar muita liberdade para pesquisador fazer julgamentos do que é “aproximadamente” normal e esses tipos de coisas. Até entendo o ponto levantado pelo post, mas acho que a solução seria utilizar um teste mais apropriado para tal hipótese de interesse.

    Abraços
    Pedro

    Curtir

    • Pedro, um padrão convencionalmente aceito do que seria “aproximadamente” normal (ou Elliptically Simmetric, ou outra distribuição) pode continuar existindo, o que muda é a métrica. Não é uma questão de dar mais ou menos liberdade ao pesquisador, mas de focar na métrica relevante, pois apenas o p-valor não a fornece.

      Por exemplo, pode-se convencionar que um excesso de curtose de 0,5 seja inaceitável para certo propósito de análise e, junto a isso, definir-se um intervalo de erro tolerável para o parâmetro. A partir daí, você usaria o erro padrão e a estimativa para ver se a curva está dentro do que foi convencionalmente estabelecido e com que grau de precisão.

      O problema é que o p-valor não te dá nenhuma dessas medidas. Você pode ter uma cruva perfeitamente adequada que é rejeitada estatisticamente (por alta sensitividade) ou uma curva inadequada que não é rejeitada estatisticamente (por baixo poder). Dentro do próprio paradigma frequentista, o pesquisador deveria olhar o poder ou a severidade dos testes e definir a magnitude relevante do parâmetro de interesse. Mas, como na prática ninguém olha, essas falácias de aceitação ou rejeição ocorrem corriqueiramente.

      Abraços!

      Curtido por 1 pessoa

      • Sem dúvida o função poder do teste é importante, e corriqueiramente é ignorado pelos “practioners”.

        O meu ponto é so que é melhor voce construir um teste utilizando a métrica apropriada, e daí interpretar o teste corretamente.

        Um exemplo classico para mim é o teste de autocorrelacao de Box-Pierce. O paper original assume que vc tem independencia, mas testa lack of autocorrelation. Obviamente, quando voce viola a hipotese de independencia, o distribuicao assintotica do teste muda completamente, e o pessoal da ala de applied eocnometrics nao leva isso em consideração.

        O problema grande que vejo é a falta de conhecimento teórico pelos applied econometricias, e a falta de conhecimento prático, dos theoretical econometricians (isso eu vejo menos). Claro, temos muitas exceções, mas o grosso é isso aí.

        Em relação a critica do p-value, eu concordo contigo. Pessoal esquece do contexto, e tudo mais!
        Abraços

        Curtido por 1 pessoa

  2. Existem duas questões importantes nessa discussão de testes de normalidade. Uma é quando o objetivo principal é efetivamente o uso de propriedades de normalidade. Por exemplo quando se usam aproximações normais para calcular Value At Risk. Nesse caso acho que a discussão significância estatistica x significância econômica é muito importante.
    O segundo caso é quando a normalidade é um pressuposto de outras análises. Por exemplo o objetivo é realizar testes de Co-Integração de Johansen, que dependem fundamentalmente de normalidade. Neste caso a validade da normalidade é essencial para a interpretação dos resultados em amostras finitas.
    Mas nesse tipo de contexto eu raramente vejo alguém aceitar ou rejeitar testes de normalidade em de uma forma estrita. Normalmente é reportado o resultado do teste (p-valor), e isso é usado como evidência auxiliar na interpretação da validade do teste que pressupôs normalidade.
    Outro ponto importante é que na prática teste Jarque-Bera tem péssimas propriedades, seja em amostras finitas quanto assintoticamente.

    Curtido por 1 pessoa

    • Márcio, eu adicionaria uma questão ao segundo caso, quando a normalidade é pressuposto para outra análise.

      Se a outra análise requer que a curva seja exatamente normal para funcionar satisfatoriamente, então provavelmente seria melhor evitá-la, pois as chances de uma curva do mundo real ser exatamente normal são quase nulas.

      Mas, na maioria das vezes, basta que a curva seja aproximadamente normal para que a outra análise que queremos fazer (que pressupõe normalidade) seja satisfatória. Neste caso, reportar apenas o p-valor não forneceria informação suficiente para decidirmos se a curva é ou não aproximadamente normal para os fins da outra análise. Por exemplo, poderíamos ter duas amostras, uma com N=100 e outra com N=100.000, ambas com p-valor de 5%, mas poderia ser que, enquanto na primeira amostra a normalidade não seria algo razoável (pois, supostamente, mesmo com pouco poder o teste detectou um desvio, o que sugere que este seja grande), na segunda amostra a normalidade poderia ser algo factível (dado o tamanho amostral é provável que o teste seja muito sensível a qualquer pequeno desvio). Em ambos os casos, seria mais informativo se estabelecer que desvios são considerados relevantes e se esses desvios são, ou não, sugeridos pelos dados (e com que segurança).

      Abraços!

      Curtido por 1 pessoa

  3. Pingback: Teste de Normalidade, por Análise Real « Mineração de Dados

  4. Pingback: A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III | Análise Real

  5. Pingback: Tops do blog de 2012 – I | Análise Real

  6. Pingback: Nate Silver, Frequentistas, Bayesianos e Economistas | Análise Real

Deixe um comentário