Espionando os dados

Acredito que o livro do Wooldridge seja um dos mais utilizados no ensino da econometria na graduação (e, não duvido nada, infelizmente em alguns cursos de pós). É um bom livro, tem vários exemplos com dados disponíveis em softwares econométricos de fácil acesso, como o Gretl.

Mas, existe uma pegadinha fundamental – somente no último capítulo, Wooldridge informa explicitamente ao aluno que tudo aquilo que ele aprendeu não funciona se ele “espionar” os dados . Em suas palavras:

Virtualmente todos os pesquisadores examinam vários modelos antes de encontrar o “melhor” deles. Infelizmente, a prática da exploração da base de dados viola as hipóteses que fizemos em nossa análise econométrica. Os resultados sobre a inexistência de viés do MQO e de outros estimadores, como também sobre as distribuições t e F que derivamos para os testes de hipóteses, pressupõem que observamos uma amostra que segue o modelo populacional e que o tenhamos estimado uma vez.

Se, antes de realizar um teste, você rodou vários modelos diferentes até encontrar o “melhor” deles – seja qual for sua concepção de melhor, como um sinal correto, ou uma significância estatística na variável de interesse – as distribuições das estatísticas de teste não são as distribuições que você aprendeu. Isto é, os p-valores e demais estatísticas não são o que você acha que está calculando e as probabilidades de erro são diferentes dos valores nominais.

Por quê?

Provavelmente a forma mais fácil de se explicar isso seja a seguinte imagem:

Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável. Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros. Veja, o problema não é a busca por especificação, é realizá-la e fazer de conta que não fez. Leamer chama quem faz tal uso, e acredita ou finge acreditar nos resultados, de “believers”:

Believers report the summary statistics from the nth equation as if the other n-1 were not tried, as if the nth equation defined a controlled experiment.

Infelizmente, esta prática é disseminada na literatura, muito por conta de uma cultura que busca resultados “estatisticamente significantes”. Um working paper recente (dica do Leo) sugere que pesquisadores buscam especificações que “inflem” suas estatísticas de teste.

Já que a exploração de dados é parte inevitável da prática econômica, parece ser interessante começar a exigir a formalização disto nos trabalhos aplicados. Vou tentar trazer referências que tratem do assunto aqui. Por agora, para não me alongar muito, cito uma das mais “clássicas” – de que estou gostando – mas com uma abordagem bayesiana, linguagem ainda não muito comum entre economistas: o livro de Leamer de 1978, que encontra-se integralmente disponível em pdf em seu site: Specification Searches: Ad-Hoc Inference with Nonexperimental Data.

11 pensamentos sobre “Espionando os dados”

Pedro Sant'Anna

29/06/2012 às 6:19

http://www.sciencedirect.com/science/article/pii/S0304407603002689

Esse paper mostra o perigo de ignorar o problema de pre-testing.

E’ uma leitura legal.

CurtirCurtir

Responder
- Carlos Cinelli
  
  29/06/2012 às 9:01
  
  Valeu, Pedro, se tiver outras referências traga aqui também!
  
  Já li dois ou três papers do Magnus e gostei bastante. Ele é co-autor do único que vi até agora que discute algumas diferenças entre Fisher e Neyman-Pearson.
  
  CurtirCurtir
  
  Responder
  - Pedro Sant'Anna
    
    30/06/2012 às 13:00
    
    Pode diexar Carlos, que eu volto aqui sim!
    
    Qual paper é esse que voce esta referindo? Fiquei curioso para saber (lembro que li algo do tipo, mas n lembro o nome do paper…eheh)
    
    Abracos
    
    CurtirCurtir
  - Carlos Cinelli
    
    01/07/2012 às 1:27
    
    É este aqui http://www.sciencedirect.com/science/article/pii/0304407694016249
    
    Abs
    
    CurtirCurtir
carlos

01/07/2012 às 14:33

Carlos, onde podemos ler sua dissertação?

CurtirCurtir

Responder
- Carlos Cinelli
  
  02/07/2012 às 10:26
  
  Acredito que estará disponível on-line em breve, de qualquer forma te encaminharei por email! Abs
  
  CurtirCurtir
  
  Responder
carlos

02/07/2012 às 18:22

Valeu,

Abs

CurtirCurtir

Responder
Pingback: Porque Não-Espionar os Dados « Mineração de Dados
Pingback: useR! 2014 | Análise Real
Pingback: Prêmios para pesquisas abertas, transparentes e reproduzíveis! | Análise Real
Pingback: O que tenho estudado — Causalidade | Análise Real

Análise Real

Economia: teoria, prática e política.

Espionando os dados

11 pensamentos sobre “Espionando os dados”

Deixe um comentário Cancelar resposta

Compartilhe:

Relacionado

11 pensamentos sobre “Espionando os dados”

Deixe um comentário Cancelar resposta