Espionando os dados


Acredito que o livro do Wooldridge seja um dos mais utilizados no ensino da econometria na graduação (e, não duvido nada, infelizmente em alguns cursos de pós). É um bom livro, tem vários exemplos com dados disponíveis em softwares econométricos de fácil acesso, como o Gretl.

Mas, existe uma pegadinha fundamental – somente no último capítulo, Wooldridge informa explicitamente ao aluno que tudo aquilo que ele aprendeu não funciona se ele “espionar” os dados . Em suas palavras:

Virtualmente todos os pesquisadores examinam vários modelos antes de encontrar o “melhor” deles. Infelizmente, a prática da exploração da base de dados viola as hipóteses que fizemos em nossa análise econométrica. Os resultados sobre a inexistência de viés do MQO e de outros estimadores, como também sobre as distribuições t e F que derivamos para os testes de hipóteses, pressupõem que observamos uma amostra que segue o modelo populacional e que o tenhamos estimado uma vez.

Se, antes de realizar um teste, você rodou vários modelos diferentes até encontrar o “melhor” deles – seja qual for sua concepção de melhor, como um sinal correto, ou uma significância estatística na variável de interesse –  as distribuições das estatísticas de teste não são as distribuições que você aprendeu. Isto é, os p-valores e demais estatísticas não são o que você acha que está calculando e as probabilidades de erro são diferentes dos valores nominais.

Por quê?

Provavelmente a forma mais fácil de se explicar isso seja a seguinte imagem:

sharpshooter

 

Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros. Veja, o problema não é a busca por especificação, é realizá-la e fazer de conta que não fez. Leamer chama quem faz tal uso, e acredita ou finge acreditar nos resultados, de “believers”:

 Believers report the summary statistics from the nth equation as if the other n-1 were not tried, as if the nth equation defined a controlled experiment.

Infelizmente, esta prática é disseminada na literatura, muito por conta de uma cultura que busca resultados “estatisticamente significantes”. Um working paper recente (dica do Leo) sugere que pesquisadores buscam especificações que “inflem” suas estatísticas de teste.

Já que a exploração de dados é parte inevitável da prática econômica, parece ser interessante começar a exigir a formalização disto nos trabalhos aplicados. Vou tentar trazer referências que tratem do assunto aqui.  Por agora, para não me alongar muito, cito uma das mais “clássicas” – de que estou gostando –   mas com uma abordagem bayesiana, linguagem ainda não muito comum entre economistas: o livro de Leamer de 1978, que encontra-se integralmente disponível em pdf em seu site: Specification Searches: Ad-Hoc Inference with Nonexperimental Data.

11 pensamentos sobre “Espionando os dados

  1. Pingback: Porque Não-Espionar os Dados « Mineração de Dados

  2. Pingback: useR! 2014 | Análise Real

  3. Pingback: Prêmios para pesquisas abertas, transparentes e reproduzíveis! | Análise Real

  4. Pingback: O que tenho estudado — Causalidade | Análise Real

Deixe um comentário