A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica. Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.
Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.
Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.
1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.
2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.
O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.
Por quê?
Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal. E o teste, da forma como está formulado, não responde a última pergunta.
Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.
O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente). Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.
Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.
Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.
Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.
Eu até hoje não vejo a importância de testar normalidade. Se a distribuição for “Elliptically Symmetric” (e não necessariamente Normal), todas as vantagens de normalidade vem junto.
Dessa maneira, o que queremos testar é essa hipótese de Elliptically Symmetric distribution.
O que acontece é que o pessoal quer testar uma hipótese, utilizando um teste que foi desenhado para testa outra coisa. Ou seja, o problema está no pesquisador mesmo.
Eu sou um pouco avesso a dar muita liberdade para pesquisador fazer julgamentos do que é “aproximadamente” normal e esses tipos de coisas. Até entendo o ponto levantado pelo post, mas acho que a solução seria utilizar um teste mais apropriado para tal hipótese de interesse.
Abraços
Pedro
CurtirCurtir
Pedro, um padrão convencionalmente aceito do que seria “aproximadamente” normal (ou Elliptically Simmetric, ou outra distribuição) pode continuar existindo, o que muda é a métrica. Não é uma questão de dar mais ou menos liberdade ao pesquisador, mas de focar na métrica relevante, pois apenas o p-valor não a fornece.
Por exemplo, pode-se convencionar que um excesso de curtose de 0,5 seja inaceitável para certo propósito de análise e, junto a isso, definir-se um intervalo de erro tolerável para o parâmetro. A partir daí, você usaria o erro padrão e a estimativa para ver se a curva está dentro do que foi convencionalmente estabelecido e com que grau de precisão.
O problema é que o p-valor não te dá nenhuma dessas medidas. Você pode ter uma cruva perfeitamente adequada que é rejeitada estatisticamente (por alta sensitividade) ou uma curva inadequada que não é rejeitada estatisticamente (por baixo poder). Dentro do próprio paradigma frequentista, o pesquisador deveria olhar o poder ou a severidade dos testes e definir a magnitude relevante do parâmetro de interesse. Mas, como na prática ninguém olha, essas falácias de aceitação ou rejeição ocorrem corriqueiramente.
Abraços!
CurtirCurtido por 1 pessoa
Sem dúvida o função poder do teste é importante, e corriqueiramente é ignorado pelos “practioners”.
O meu ponto é so que é melhor voce construir um teste utilizando a métrica apropriada, e daí interpretar o teste corretamente.
Um exemplo classico para mim é o teste de autocorrelacao de Box-Pierce. O paper original assume que vc tem independencia, mas testa lack of autocorrelation. Obviamente, quando voce viola a hipotese de independencia, o distribuicao assintotica do teste muda completamente, e o pessoal da ala de applied eocnometrics nao leva isso em consideração.
O problema grande que vejo é a falta de conhecimento teórico pelos applied econometricias, e a falta de conhecimento prático, dos theoretical econometricians (isso eu vejo menos). Claro, temos muitas exceções, mas o grosso é isso aí.
Em relação a critica do p-value, eu concordo contigo. Pessoal esquece do contexto, e tudo mais!
Abraços
CurtirCurtido por 1 pessoa
Existem duas questões importantes nessa discussão de testes de normalidade. Uma é quando o objetivo principal é efetivamente o uso de propriedades de normalidade. Por exemplo quando se usam aproximações normais para calcular Value At Risk. Nesse caso acho que a discussão significância estatistica x significância econômica é muito importante.
O segundo caso é quando a normalidade é um pressuposto de outras análises. Por exemplo o objetivo é realizar testes de Co-Integração de Johansen, que dependem fundamentalmente de normalidade. Neste caso a validade da normalidade é essencial para a interpretação dos resultados em amostras finitas.
Mas nesse tipo de contexto eu raramente vejo alguém aceitar ou rejeitar testes de normalidade em de uma forma estrita. Normalmente é reportado o resultado do teste (p-valor), e isso é usado como evidência auxiliar na interpretação da validade do teste que pressupôs normalidade.
Outro ponto importante é que na prática teste Jarque-Bera tem péssimas propriedades, seja em amostras finitas quanto assintoticamente.
CurtirCurtido por 1 pessoa
Márcio, eu adicionaria uma questão ao segundo caso, quando a normalidade é pressuposto para outra análise.
Se a outra análise requer que a curva seja exatamente normal para funcionar satisfatoriamente, então provavelmente seria melhor evitá-la, pois as chances de uma curva do mundo real ser exatamente normal são quase nulas.
Mas, na maioria das vezes, basta que a curva seja aproximadamente normal para que a outra análise que queremos fazer (que pressupõe normalidade) seja satisfatória. Neste caso, reportar apenas o p-valor não forneceria informação suficiente para decidirmos se a curva é ou não aproximadamente normal para os fins da outra análise. Por exemplo, poderíamos ter duas amostras, uma com N=100 e outra com N=100.000, ambas com p-valor de 5%, mas poderia ser que, enquanto na primeira amostra a normalidade não seria algo razoável (pois, supostamente, mesmo com pouco poder o teste detectou um desvio, o que sugere que este seja grande), na segunda amostra a normalidade poderia ser algo factível (dado o tamanho amostral é provável que o teste seja muito sensível a qualquer pequeno desvio). Em ambos os casos, seria mais informativo se estabelecer que desvios são considerados relevantes e se esses desvios são, ou não, sugeridos pelos dados (e com que segurança).
Abraços!
CurtirCurtido por 1 pessoa
Pingback: Teste de Normalidade, por Análise Real « Mineração de Dados
Pingback: A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III | Análise Real
Pingback: Tops do blog de 2012 – I | Análise Real
Pingback: Nate Silver, Frequentistas, Bayesianos e Economistas | Análise Real