Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 - Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

Como organizar dados de corte transversal?


Aparentemente esta pergunta não faria sentido. Afinal, por definição, se o dado é de corte-transversal, a ordem não interferiria na análise. A rigor, não importaria quem é o 1º dado, quem é o 2º dado, e assim por diante.

Todavia, nenhum dado é literalmente – stricto sensu – de corte transversal. Na verdade, o que define se o dado é uma “série temporal” ou “corte-transversal” não é sua natureza intrínseca, mas como ele foi ordenado. Na maioria dos casos, é impossível observar todos os indivíduos no mesmo período de tempo e o que de fato fazemos é julgar que a diferença temporal (ou espacial) entre uma coleta e outra é praticamente irrelevante para análise que queremos fazer. Só que às vezes essa ordem pode revelar informações (ou vieses) interessantes.

Recentemente, trabalhando com dados que seriam de corte transversal, parei para pensar na ordem que estavam dispostos. Eles estavam organizados aleatoriamente pelo sistema. Mas eu poderia recuperar as informações de preenchimento. E se eu organizasse os dados pela ordem de entrega do questionário? Ou pela ordem de início preenchimento? Será que valeria à pena esse esforço e seriam reveladas diferenças de correlação ou heterogeneidade uma vez que esse caráter “temporal” do dado fosse explicitado? Ainda não fiz este exercício e não tenho a resposta.

Mas, ao pensar nisso, lembrei na hora de um exemplo do livro texto do Aris Spanos, que gostaria de compartilhar. Ele utiliza dados de notas de alunos em uma prova, que não sei se são anedóticos ou reais*, mas que ilustram bem o ponto.

Os dados organizados por ordem alfabética tem o seguinte gráfico:

ordem_alfabetica

Pelo gráfico, os dados não parecem apresentar auto-correlação. Estimativas de um AR(1) e AR(2) apresentam coeficientes pequenos com coeficiente de variação grande. Isso juntamente à nossa crença a priori de que a ordem alfabética não deveria interferir nas notas, nos faz concluir que provavelmente não existe dependência nos dados.

Já a organização pela ordem dos assentos resulta no seguinte gráfico:

posicao_sentado

Esta figura, diferentemente da anterior, apresenta dependência nos dados. As notas parecem estar correlacionadas positivamente. O coeficiente de um AR(1) é bastante alto e sugere que notas altas estavam próximas de notas altas e, notas baixas, de notas baixas. A ordem dos dados, neste caso, pode ter revelado algo fundamental: para Spanos, por exemplo, isso é evidência de que houve muita cola durante a prova! Eu já diria que esta conclusão é precipitada. Outro fato que poderia explicar a correlação é o de que alunos com afinidades (e, consequentemente, notas parecidas) podem gostar de sentar juntos.

Mas a lição é clara: dados que tomamos como certo serem de “corte transversal” podem apresentar uma interessante dependência entre si quando observados com mais cuidado.

* o Spanos tem uns exemplos com dados curiosos. Neste post ele utiliza uma variável secreta X, que se sabe não ser correlacionada com a população dos EUA, para prever a população dos EUA. Ele mostra como uma regressão ingênua pode ter resultados espúrios, indicando, erroneamente, que a variável X explica a população. A variável X, supostamente, seria o número de sapatos que a vó de Spanos tinha em cada ano, desde 1955. Surge daí uma pergunta natural, feita por Corey:

“…how is it that Spanos has annual data on the number of pairs of shoes owned by his grandmother going back to 1955?”

Ao que Spanos responde.

“That’s easy! My grandmother would never throw away any shoes and each pair had a different story behind it; the stories I grew up with. Each pair was bought at a specific annual fair and it was dated.”

Como o cara é de Cyprus, sei lá, pode ser que essa resposta seja culturalmente plausível. Mas para um brasileiro é no mínimo estranha; eu prefiro acreditar que os dados sejam inventados do que acreditar que ele resolveu contabilizar o número de sapatos da avó em cada ano. Com relação aos dados das notas, uma possível pista de que talvez Spanos tenha inventado os dados é a de que, primeiro, ele diz que as notas são da matéria “Principles of Economics”. Depois, de que são da matéria “Macro-Economic Principles”. Mas, sejam os dados reais, ou fictícios, os exemplos continuam válidos!

Nate Silver, Frequentistas, Bayesianos e Economistas


Havíamos comentado sobre o livro de Nate Silver.  Em particular, falamos sobre o capítulo 8 do livro, uma crítica aos testes cegos de significância estatística. E este capítulo, apesar de super simples, está dando o que falar. Por basicamente dois motivos: (i) Nate utiliza a palavra “frequentismo” para denominar o que critica; e, (ii) o livro se tornou muito popular.

O problema do rótulo “frequentismo” é que ele é utilizado para diversas correntes e técnicas estatísticas, sejam no campo teórico ou aplicado. Dessa forma, muitos daqueles que se denominam “frequentistas” não se enxergam na caracterização feita por Silver. Sentem-se ameaçados e injustiçados – passando a apontar limitações do Bayesianismo, que obviamente existem – a despeito de esses mesmos “frequentistas” também concordarem que as práticas expostas por Nate sejam ruins.

Andrew Gelman tem dois posts (1 e 2) sobre o assunto que merecem ser lidos (e lá você encontrará links para os demais posts de outros blogs). Vale destacar algumas passagens de Gelman.

Com relação à mensagem geral da crítica aos testes de significância:

if Nate’s message is that modern statistics is about models rather than p-values, I support that message even if it’s not phrased in the most technically correct manner.

Uma ênfase sobre o que o economista deve tomar como lição desta discussão:

One thing I’d like economists to get out of this discussion is: statistical ideas matter. To use Smith’s terminology, there is a there there. P-values are not the foundation of all statistics (indeed analysis of p-values can lead people seriously astray). A statistically significant pattern doesn’t always map to the real world in the way that people claim.

Indeed, I’m down on the model of social science in which you try to “prove something” via statistical significance. I prefer the paradigm of exploration and understanding. (See here for an elaboration of this point in the context of a recent controversial example published in an econ journal.)

Here’s another example (also from economics) where the old-style paradigm of each-study-should-stand-on-its-own led to troubles.

E uma crítica à crença incorreta (mas bastante comum) sobre como são aplicados os testes de hipótese na prática:

(…) hypothesis testing typically means that you do what’s necessary to get statistical significance, then you make a very strong claim that might make no sense at all. Statistically significant but stupid. Or, conversely, you slice the data up into little pieces so that no single piece is statistically significant, and then act as if the effect you’re studying is zero. The sad story of conventional hypothesis testing is that it is all to quick to run with a statistically significant result even if it’s coming from noise.

Sobre os pontos levantados na discussão, já tratamos neste blog da confusão gerada em testes de significância aqui (exemplo com teste de normalidade), aqui (exemplo com mercados eficientes) e aqui (uma brincadeira com confundir não rejeitar a hipótese nula com aceitá-la).

Livros de estatística pesam 0Kg.


Nos comentários de um post do A Mão Visível,  vi o Economista X sugerir que um resultado estatisticamente insignificante é evidência a favor da hipótese nula que está sendo testada.

Isso não é verdade, pois somente a rejeição ou não rejeição da hipótese nula – ou somente o p-valor – não fornece informação suficiente para esse julgamento.

Acho que uma forma simples de se instigar a reflexão sobre o assunto é com um exemplo absurdo como o abaixo.

Vale lembrar: apesar de parecer um engano trivial, é muito fácil se deixar levar por este tipo de interpretação. E ela é bastante difundida nos trabalhos aplicados.

***

Tenho evidência cabal de que livros não pesam nada. Isto mesmo, livros têm peso zero. Vejam abaixo, os dados são acachapantes. Primeiro com os livros do Jim Berger e do Aris Spanos:

20120613-185128.jpg

Agora vejam Fisher e Lehmann & Romano.

20120613-190440.jpg

Testei com mais de dez pares de livros diferentes. Todos com o mesmo resultado, p-valor=100% (o p-valor é a probabilidade de a minha balança acusar 0Kg (ou mais) quando os livros pesam de fato 0kg).

Conclusão: livros pesam 0Kg (pelo menos os livros de estatística, sejam frequentistas ou bayesianos).

***

Obviamente que a interpretação acima é absurda e nem mesmo um leigo a levaria a sério.

Entretanto, existem muitos estudos publicados que afirmam encontrar evidência a favor da hipótese nula simplesmente por não rejeitá-las. Isso é um raciocínio análogo ao exemplo.

Que informação (ou informações) a mais você levou em conta no teste da balança para julgar que o resultado zero não é uma boa evidência de peso zero (ou aproximadamente zero)? Há pelo menos duas coisas que você deveria ter levado em conta. Essas mesmas coisas servem para os testes estatísticos rotineiramente aplicados.

Pelo exposto, fica claro por que a afirmação de “O” anônimo, apesar de ácida, não é tão absurda assim:

…se você acha que um teste de raiz unitária em uma série macroeconômica de 10 anos tem mais informação sobre a ordem de integração do que o nome da variável em questão, você não entende nem de macroeconomia nem de econometria.

Como as palavras podem ajudar o economista.


Apesar de importante, não, não estou falando de escrever bem em economia ou de entender da retórica que os economistas usam, como diria McCloskey. Palavras podem ajudar os economistas também de outra forma: como proxies para outras variáveis, aumentando amostras que, muitas vezes, estão disponíveis apenas para um período muito curto de tempo. Foi isso o que apresentou Alan Moreira, em seu working paper com Asaf Manela na SBE 2012.

Existe uma literatura que estuda os riscos de desastre raros percebidos pelos agentes e seus efeitos no mercado acionário. Uma possível medida de “risco” percebido pelos agentes é a volatilidade implícita por opções (VIX), entretanto disponível apenas desde 1986. Já o Wall Strett Journal (WSJ) existe desde 1889. Assim, os autores utilizaram as palavras constantes na capa do WSJ para prever o VIX .  Se palavras chaves utilizadas na capa do jornal servirem de fato para prever satisfatoriamente o risco percebido pelos agentes, é possível utilizá-las como proxy para períodos anteriores e ganhar quase um século de observações!

Os autores treinam o modelo em uma subamostra e testam seus resultados na restante, encontrando um ajuste considerado, por eles, satisfatório. No exercício de previsão fora da amostra, os autores verificaram se os picos de risco estimados correspondiam a fatos relevantes que os justificariam, retratados nos jornais. A impressão dos autores foi  a de que o modelo funciona bem  (o problema que vi nesta abordagem é uma exposição muito grande ao viés de confirmação. Pois, uma vez que você viu que sua estimativa é a de um risco alto, você, com alguma persistência, irá eventualmente achar algum fato histórico que justifique, ou racionalize, a posteriori sua estimativa).

Com uma amostra maior em mãos – e supondo que a medida seja boa – o paper estima com maior liberdade os impactos do risco percebido de desastres no mercado acionário: chega a estimativas com magnitudes plausíveis, segundo a literatura da área, sobre os efeitos do risco no retorno das ações e na probabilidade de um desastre e também sugere  que a persistência de choques seja menor do que anteriormente imaginada.

Mesmo com todas as possíveis limitações do método,  a “regressão de texto” proposta parece muito interessante e vale à pena conferir.

Efeitos da urna eletrônica: participação maior dos iletrados, mais gastos com saúde e mais votos para a esquerda.


Hoje já estamos acostumados com o uso da urna eletrônica. É rápido, barato, eficiente e muitos garantem ser mais seguro do que o processo anterior. Mas, além desses benefícios, a adoção do sistema eletrônico no Brasil trouxe outros efeitos?

Sim, e é isso que Thomas Fujiwara tenta mostar. Em 1998, foi iniciado o processo de implementação em larga-escala do uso da urna eletrônica no Brasil. Entretanto, como ainda não havia máquinas para todos os municípios, apenas aqueles com mais do que 40.500 votantes receberam a urna – e este detalhe é muito interessante, pois faz com que o implemento da votação eletrônica seja um “quase-experimento” em grande escala.

Como? É plausível imaginar que os fatores determinantes de um município estar logo abaixo (ou logo acima) de 40.500 votantes sejam aleatórios, não-controláveis – isto é, ninguém consegue determinar exatamente quantos votantes existirão na cidade, pois choques externos afetam este número. Deste modo, os municípios com pouco menos de 40.500 votantes e os municípios com pouco mais de 40.500 votantes podem ser considerados similares, sendo a única diferença a adoção (aleatória) da urna eletrônica nas eleições, configurando um regression discontinuity design. Assim,  diferenças  encontradas na proximidade do ponto de corte são estimativas de efeitos causais da votação eletrônica em municípios deste porte.

Tendo isso em vista, Fujiwara estima o efeito causal do uso da urna eletrônica na participação (válida) dos eleitores e o efeito encontrado é bastante grande – cerca de 12 pontos percentuais de votos a mais. O autor vai além, e argumenta que este aumento é devido, principalmente, a uma participação maior de eleitores pouco educados. Apesar de, para alguém alfabetizado, o voto em papel ser uma tarefa trivial, esta pode ser uma tarefa bastante complicada para um analfabeto. A urna eletrônica, por sua vez, além de apresentar a foto do candidato, requer apenas o uso de números, o que facilita sobremaneira o voto. E, de fato, municípios com iletrados acima da média apresentaram um aumento de participação entre 15 a 19 pontos percentuais.

Uma vez que a adoção da urna eletrônica aumenta o número de pessoas mais pobres e iletradas na votação, Fujiwara estima ainda outros efeitos decorrentes deste fato, como:  o aumento na proporção de votos para partidos de esquerda (1/3 de desvio padrão) e o aumento de cerca de 50% com gastos em saúde pública em 8 anos, com repercussões no número visitas pré-natal para mulheres, bem como no peso de recém-nascidos.

Mas será que estes efeitos não são correlações espúrias? A argumentação do autor é persuasiva, mostrando que outras fontes de erro não são tão plausíveis (mas, evidentemente, sempre possíveis). Dentre os argumentos, cabe mencionar, por exemplo, um teste placebo com relação ao primeiro efeito que mencionamos – o aumento da participação nas eleições – com resultados virtualmente iguais a zero.

A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III


Demos um exemplo de confusão entre significância estatística e significância prática em um teste de normalidade: a rejeição (ou não-rejeição) da hipótese nula, arbitrariamente, sem levar em conta as magnitudes dos desvios, sua importância, o tamanho amostral, entre outros fatores, é análoga à situação ilustrada por este cartoon do XKCD:

Frequentists vs. Bayesians

Mas voltemos ao Nate Silver, que traz um exemplo simples e bastante ilustrativo da diferença entre significância estatística e significância econômica: um “teste” para a hipótese dos mercados eficientes.

Suponha que, nos dez anos após a publicação do Eugene Fama, você tenha coletado os dados diários do Down Jones Industrial Average. Suponha, também, que você tenha percebido que uma alta tenha sido, na maior parte das vezes, precedida por outra alta e uma perda, por outra perda. Deste modo, você suspeita que dados históricos poderiam ser usados para prever rentabilidade futura. Você resolve testar sua hipótese e um teste estatístico padrão te diz que haveria apenas 1 chance em 7.000.000.000.000.000 de um resultado tão ou mais extremo como o observado ter sido fruto da sorte.

A hipótese nula é (estatisticamente) rejeitada. A hipótese de mercados eficientes, inclusive em sua forma fraca, foi refutada!

Não tão rápido… se você incluir os custos de transação para tentar lucrar em cima do padrão encontrado, você descobre que um investidor que aplicasse $10.000 e seguisse a estratégia sugerida terminaria, ao final dos dez anos, com apenas $1.100!

Perceba como o exemplo acima é mais uma das formas de se confundir significância estatística com significância econômica. Como todo modelo ou teoria, a hipótese dos mercados eficientes não é uma reprodução fiel da realidade. Assim, se você queria saber se a hipótese vale exatamente e literalmente, nem era preciso se dar ao trabalho de testá-la: a resposta é, não, não vale. Mas isso não responde nem se e nem quando e nem como e nem por que a hipótese é (ou não) uma boa aproximação da realidade, isto é, sua “significância econômica”. No caso acima, mesmo aceitando que houvesse alguma previsibilidade real* no mercado, esta se mostrou economicamente insignificante. Neste exemplo, hipotético, a teoria não foi, economicamente, refutada.

* na maioria das vezes pode ser apenas uma correlação espúria. Nos anos 2000, por exemplo, o padrão citado se inverteu.

O culto da significância estatística II: Nate Silver


Após atuar com métodos estatísticos para previsão no Basebol, Nate Silver foi destaque nas previsões para a eleição presidencial dos Estados Unidos. Com a popularidade alcançada, seu livro “The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t” virou best-seller na Amazon.

O livro é voltado para o público geral, e trata dos percalços enfrentados no mundo da previsão, tentando distinguir quando e como a estatística pode ser utilizada e boas previsões podem ser feitas. Nate discute o trabalho de Kahneman sobre vieses cognitivos muito comuns, presentes principalmente quando lidamos com incerteza e probabilidade; discute o trabalho de Tetlock, que mostrou como, na média, “experts” políticos não são muito melhores do que um simples “cara-e-coroa” –  a não ser que eles tenham certas características, como uma visão plural e interdisciplinar, conhecimento sobre a própria ignorância entre outros fatores. Essas são armadilhas que todos que lidam com dados devem estar cientes, para buscar evitá-las.

Nate defende a necessidade de se ter uma teoria sólida para se tratar os dados –  e que essa necessidade aumenta no mundo com dados cada vez mais abundantes. Alega que, em geral, áreas em que previsões geralmente falham são aquelas em que a teoria ainda é nebulosa e que recorrem demasiadamente a modelos data-driven.  Ele aborda também a dificuldade inerente a sistemas não-lineares, sistemas dinâmicos,  leis de potência entre outras fatores que, se negligenciados, podem resultar em péssimas previsões.

Nate traz diversos exemplos (às vezes chega a ser exaustivo) para ilustrar seu ponto, passando por Basebol, Clima, Terremotos, Economia, Pôquer etc.

Mas, o capítulo 8 do livro foi o que me mais chamou a atenção. Em um livro para o público geral, e que virou best-seller, Nate resgata a literatura sobre as críticas aos testes de significância estatística (uma discussão mais extensa aqui, wikipedia aquialguns temas no blog aqui). Ele cita:

- o texto do Nickerson “Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy”;

- o texto do Cohen “The Earth Is Round (p < .05)”;

- o texto do Gill “The insignificance of null hypothesis significance testing”;

Entre outros. O tom que ele usa não é leve, atribuindo grande parte da culpa pelos métodos atualmente utilizados a Fisher. Seguem alguns trechos:

“Fisher é provavelmente mais responsável do que qualquer outro indivíduo pelos métodos estatísticos que ainda permanecem em amplo uso hoje. Ele desenvolveu a terminologia do teste de significância estatística e muito de sua metodologia” (p. 353).

“Estes métodos [testes de significância] desencorajam o pesquisador de considerar o contexto ou a plausibilidade de suas hipóteses [...] assim, você verá artigos aparentemente sérios sobre como sapos podem prever terremotos, ou como lojas como a Target geram grupos de ódio racial, que aplicam testes frequentistas para produzir resultados “estatisticamente significantes” (mas manifestamente ridículos)” (p.253).

“Os métodos fisherianos não nos encorajam a pensar sobre quais correlações implicam em causalidade e quais não. Talvez não seja surpresa que depois de passar uma vida interia pensando assim, Fisher perdeu a habilidade de dizer a diferença [entre causalidade e correlação] (p.255). Nate faz referência ao fato de Fisher defender que fumar não causa câncer.

Como o livro se tornou um best-seller, é bem provável que isso desperte a curiosidade do aluno, que geralmente aprende passivamente um algoritmo qualquer na sala de aula; e também que chame mais a atenção dos pesquisadores (e professores) sobre a forma como estão fazendo inferência. Por este motivo, acho que o impacto do livro será bastante positivo. O Nate propõe o uso de métodos Bayesianos; mas, como o livro não é técnico – e o universo bayesiano bastante amplo – difícil saber quais ele realmente defende. De qualquer forma, não caberiar aqui discutir isso agora (o Larry Wasserman chegou ao ponto de dizer que vai mostrar ao próprio Nate que ele não é baeysiano, mas sim que é um raving frequentista, desfilando como bayesiano. Vamos ver o que vai sair disso…).

Em resumo, vale lembrar que este não é um livro técnico e que, tampouco, Nate irá te ensinar a fazer previsões. Mas conseguirá fazer você refletir sobre as possibilidades e limitações, tanto dos pesquisadores quanto dos métodos estatísticos, em uma leitura agradável e recheada de exemplos práticos.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.