Como organizar dados de corte transversal?


Aparentemente esta pergunta não faria sentido. Afinal, por definição, se o dado é de corte-transversal, a ordem não interferiria na análise. A rigor, não importaria quem é o 1º dado, quem é o 2º dado, e assim por diante.

Todavia, nenhum dado é literalmente – stricto sensu – de corte transversal. Na verdade, o que define se o dado é uma “série temporal” ou “corte-transversal” não é sua natureza intrínseca, mas como ele foi ordenado. Na maioria dos casos, é impossível observar todos os indivíduos no mesmo período de tempo e o que de fato fazemos é julgar que a diferença temporal (ou espacial) entre uma coleta e outra é praticamente irrelevante para análise que queremos fazer. Só que às vezes essa ordem pode revelar informações (ou vieses) interessantes.

Recentemente, trabalhando com dados que seriam de corte transversal, parei para pensar na ordem que estavam dispostos. Eles estavam organizados aleatoriamente pelo sistema. Mas eu poderia recuperar as informações de preenchimento. E se eu organizasse os dados pela ordem de entrega do questionário? Ou pela ordem de início preenchimento? Será que valeria à pena esse esforço e seriam reveladas diferenças de correlação ou heterogeneidade uma vez que esse caráter “temporal” do dado fosse explicitado? Ainda não fiz este exercício e não tenho a resposta.

Mas, ao pensar nisso, lembrei na hora de um exemplo do livro texto do Aris Spanos, que gostaria de compartilhar. Ele utiliza dados de notas de alunos em uma prova, que não sei se são anedóticos ou reais*, mas que ilustram bem o ponto.

Os dados organizados por ordem alfabética tem o seguinte gráfico:

ordem_alfabetica

Pelo gráfico, os dados não parecem apresentar auto-correlação. Estimativas de um AR(1) e AR(2) apresentam coeficientes pequenos com coeficiente de variação grande. Isso juntamente à nossa crença a priori de que a ordem alfabética não deveria interferir nas notas, nos faz concluir que provavelmente não existe dependência nos dados.

Já a organização pela ordem dos assentos resulta no seguinte gráfico:

posicao_sentado

Esta figura, diferentemente da anterior, apresenta dependência nos dados. As notas parecem estar correlacionadas positivamente. O coeficiente de um AR(1) é bastante alto e sugere que notas altas estavam próximas de notas altas e, notas baixas, de notas baixas. A ordem dos dados, neste caso, pode ter revelado algo fundamental: para Spanos, por exemplo, isso é evidência de que houve muita cola durante a prova! Eu já diria que esta conclusão é precipitada. Outro fato que poderia explicar a correlação é o de que alunos com afinidades (e, consequentemente, notas parecidas) podem gostar de sentar juntos.

Mas a lição é clara: dados que tomamos como certo serem de “corte transversal” podem apresentar uma interessante dependência entre si quando observados com mais cuidado.

* o Spanos tem uns exemplos com dados curiosos. Neste post ele utiliza uma variável secreta X, que se sabe não ser correlacionada com a população dos EUA, para prever a população dos EUA. Ele mostra como uma regressão ingênua pode ter resultados espúrios, indicando, erroneamente, que a variável X explica a população. A variável X, supostamente, seria o número de sapatos que a vó de Spanos tinha em cada ano, desde 1955. Surge daí uma pergunta natural, feita por Corey:

“…how is it that Spanos has annual data on the number of pairs of shoes owned by his grandmother going back to 1955?”

Ao que Spanos responde.

“That’s easy! My grandmother would never throw away any shoes and each pair had a different story behind it; the stories I grew up with. Each pair was bought at a specific annual fair and it was dated.”

Como o cara é de Cyprus, sei lá, pode ser que essa resposta seja culturalmente plausível. Mas para um brasileiro é no mínimo estranha; eu prefiro acreditar que os dados sejam inventados do que acreditar que ele resolveu contabilizar o número de sapatos da avó em cada ano. Com relação aos dados das notas, uma possível pista de que talvez Spanos tenha inventado os dados é a de que, primeiro, ele diz que as notas são da matéria “Principles of Economics”. Depois, de que são da matéria “Macro-Economic Principles”. Mas, sejam os dados reais, ou fictícios, os exemplos continuam válidos!

Uma partida de futebol pode mudar o resultado das eleições?


Tomando como analogia este estudo, sim.

A hipótese é a de que, quando você está de bom (mau) humor, você tende a gastar mais tempo avaliando o lado positivo (negativo) das coisas, inclusive do atual governante.

Os autores buscaram testar esta hipótese analisando os jogos esportivos locais. Sabe-se que os resultados desses jogos afetam o bem-estar das pessoas e não são frutos de decisões políticas. 

Em tese, portanto, você não deveria mudar a avaliação sobre um governante simplesmente porque seu time ganhou um jogo na última semana.

Contudo, os resultados encontrados indicam que, na média, as pessoas mudam o voto – e os valores encontrados foram relativamente altos! Uma vitória do time local, 10 dias antes das eleições, poderia aumentar os votos para o candidato da situação em até 1.13 pontos percentuais.

A primeira reação a esse valor pode ser – como foi a minha – a de pensar que estamos diante de uma correlação espúria. Ora, não é possível que um mero resultado de um jogo mude tanto os resultados de uma eleição… Mas os autores são cuidadosos e têm uma retórica persuasiva. Primeiro, eles controlam para outros fatores e isso não muda muito a magnitude do coeficiente. Segundo, eles realizam um teste placebo, buscando verificar se jogos futuros afetam as eleições no passado (o que seria absurdo) e encontram coeficientes quase iguais a zero e estatisticamente insignificantes.

Mas, além dos dados acima – não experimentais – os autores aplicam questionários durante um campeonato de basquete universitário. Neste caso, é possível controlar com mais cuidado fatores diversos que permitiriam encontrar uma correlação espúria. Os resultados foram similares – cada vitória elevava a aprovação de Obama, na média, em 2.3 pontos percentuais. E, fato interessante, quando os participantes foram informados dos resultados dos jogos antes de se perguntar sobre Obama, o efeito desapareceu! Isto é, uma vez que o sujeito se torna consciente do que está afetando seu bom humor, ele não deixa isso afetar outras áreas de sua vida, como o julgamento sobre o desempenho de um político.

Com dados eleitorais e esportivos abundantes no Brasil, acredito que seja possível replicar este estudo por aqui.

Via Andrew Gelman e Marginal Revolution.

Espionando os dados


Acredito que o livro do Wooldridge seja um dos mais utilizados no ensino da econometria na graduação (e, não duvido nada, infelizmente em alguns cursos de pós). É um bom livro, tem vários exemplos com dados disponíveis em softwares econométricos de fácil acesso, como o Gretl.

Mas, existe uma pegadinha fundamental - somente no último capítulo, Wooldridge informa explicitamente ao aluno que tudo aquilo que ele aprendeu não funciona se ele “espionar” os dados . Em suas palavras:

Virtualmente todos os pesquisadores examinam vários modelos antes de encontrar o “melhor” deles. Infelizmente, a prática da exploração da base de dados viola as hipóteses que fizemos em nossa análise econométrica. Os resultados sobre a inexistência de viés do MQO e de outros estimadores, como também sobre as distribuições t e F que derivamos para os testes de hipóteses, pressupõem que observamos uma amostra que segue o modelo populacional e que o tenhamos estimado uma vez.

Se, antes de realizar um teste, você rodou vários modelos diferentes até encontrar o “melhor” deles – seja qual for sua concepção de melhor, como um sinal correto, ou uma significância estatística na variável de interesse –  as distribuições das estatísticas de teste não são as distribuições que você aprendeu. Isto é, os p-valores e demais estatísticas não são o que você acha que está calculando e as probabilidades de erro são diferentes dos valores nominais.

Por quê?

Provavelmente a forma mais fácil de se explicar isso seja a seguinte imagem:

Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência - você pode estar simplesmente desenhando um alvo ao redor dos tiros. Veja, o problema não é a busca por especificação, é realizá-la e fazer de conta que não fez. Leamer chama quem faz tal uso, e acredita ou finge acreditar nos resultados, de “believers”:

 Believers report the summary statistics from the nth equation as if the other n-1 were not tried, as if the nth equation defined a controlled experiment.

Infelizmente, esta prática é disseminada na literatura, muito por conta de uma cultura que busca resultados “estatisticamente significantes”. Um working paper recente (dica do Leo) sugere que pesquisadores buscam especificações que “inflem” suas estatísticas de teste.

Já que a exploração de dados é parte inevitável da prática econômica, parece ser interessante começar a exigir a formalização disto nos trabalhos aplicados. Vou tentar trazer referências que tratem do assunto aqui.  Por agora, para não me alongar muito, cito uma das mais “clássicas” – de que estou gostando –   mas com uma abordagem bayesiana, linguagem ainda não muito comum entre economistas: o livro de Leamer de 1978, que encontra-se integralmente disponível em pdf em seu site: Specification Searches: Ad-Hoc Inference with Nonexperimental Data.

O erro padrão da Revista Brasileira de Economia


Havia prometido em post anterior comentar sobre o uso de erro-padrão robusto (à heterocedasticidade [White] ou à autocorrelação e heterocedasticidade [Newey-West]).  Entretanto, procrastinei. Mas isso foi excelente, pois ontem mesmo o David Giles tocou no assunto de forma sintética.

Hoje, praticamente todo mundo usa o erro-padrão robusto à heterocedasticidade – a tal ponto que há casos em que nem se demonstra mais a preocupação em verificar sua presença e tamanho. Por exemplo, em 2010, 77% dos artigos aplicados da RBE que usaram econometria não testaram para a presença de heterocedasticidade. Mais ainda, 40% não testaram e sequer mencionaram se o erro-padrão utilizado era robusto ou não. Talvez isso não fosse um problema tão grande se os próprios artigos não levassem seus testes tão a sério – mas não é este o caso. Quero deixar claro que isso não quer dizer que a RBE seja diferente das outras revistas – provavelmente uma amostra de qualquer outra, inclusive internacional, revelaria situação análoga. O fato é que, infelizmente, esta prática se tornou padrão na literatura aplicada, como o próprio Giles comenta:

Regrettably, this is not something that we see applied researchers taking into account very often. They just charge ahead with tests based on the HC or HAC estimators.

Isto é algo que Edward Leamer também lamenta. Em seu texto Tantalus on the Road to Asymptopia , Leamer batiza a prática de White Washing, e afirma que atualmente ela tem sido usada apenas para trocar uma fonte de incerteza  (a forma da heterocedasticidade) por outra (a confiança em resultados assintóticos em amostras finitas) como se isto fosse uma solução de fato – e em grande parte dos casos não é. Assim, ao invés de tentar quantificar a incerteza envolvida, o usuário finge que ela não existe e, como diz Leamer, “trudge relentlessly toward Asymptopia, where data are unlimited and estimates are consistent, where the laws of large numbers apply perfectly and where the full intricacies of the economy are completely revealed“.

Esta passagem também é provocadora e vale citação integral:

A legacy of White’s (1980) paper on robust standard errors, one of the most highly cited from the period, is the near-death of generalized least squares in cross-sectional applied work. An earlier generation of econometricians corrected the heteroskedasticity problems with weighted least squares using weights suggested by an explicit heteroskedasticity model. These earlier econometricians understood that reweighting the observations can have dramatic effects on the actual estimates, but they treated the effect on the standard errors as a secondary matter. A “robust standard” error completely turns this around, leaving the estimates the same but changing the size of the confidence interval. Why should one worry about the length of the confidence interval, but not the location? This mistaken advice relies on asymptotic properties of estimators. I call it “White-washing.” Best to remember that no matter how far we travel, we remain always in the Land of the Finite Sample, infinitely far from Asymptopia. Rather than mathematical musings about life in Asymptopia, we should be doing the hard work of modeling the heteroskedasticity and the time dependence to determine if sensible reweighting of the observations materially changes the locations of the estimates of interest as well as the widths of the confidence intervals.

O interessante é que há diversos artigos que sugerem formas de se lidar com alguns problemas, ou pelo menos entender de maneira geral como as probabilidades de erro são afetadas. Como lição (que certamente também vale para mim) deixo o final do texto do Giles:

Don’t simply use a “canned” package without being aware of the relevant econometric theory. After all, there’s no guarantee that the programmer had an appropriate level of awareness, is there?

O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.

Como identificar besteiras… revival


Vi dois posts antigos na blogosfera, um do Leo Monastério e outro do Márcio Laurini, que têm de ser ressuscitados.

Como identificar besteiras em trabalhos econométricos

Parte I (Leo)

- Síndrome do “Meu último livro de Econometria foi o Kmenta”: Desde a última década, não dá mais para ter um paper de séries temporais sem os testes de cointegração.

- Síndrome “Pacientes do Freud”. Sabem aqueles sonhos que o Freud interpretou? Pois é, tudo se encaixa. Bem demais. O mesmo acontece em econometria. Os resultados são uma belezura e geralmente não falseiam a hipótese. Não há crítica à qualidade dos dados, referência a problemas que surgiram ou a explicações alternativas;

- Síndrome “Em busca da significância perdida”: O pobre do autor começa a fazer toda a sorte de esquemas para conseguir estrelinhas nos seus coeficientes estimados. Procure por dummies esquisitas, ln e ² ³ incluídos sem razão, períodos de análise que mudam, variáveis defasadas que saltam sem qualquer explicação e proxies estranhas.

- Síndrome “Cadê o controle que estava aqui?”: a significância da variável de interesse só se mantém quando as de controle são omitidas.

- Síndrome “Rubens Recúpero”: “o que é bom a gente mostra, o que não é a gente esconde”. O coitado roda milhões de regressões e só transcreve aquelas que deram “certo”. Muito relacionada com as duas síndromes anteriores.

- Síndrome “Tamanho importa”: o sujeito encontra coeficientes estatisticamente significativos e afirma que a sua hipótese sobre o efeito da menstruação das baleias na cor do Mar Vermelho foi não-falseada, mas não se preocupa com significado econômico. Um coeficiente pode ser estatisticamente significativo e, em termos substantivos, não significar bulhufas.

Parte II (Márcio)

Os Milagres da teoria assintótica – Confiar cegamente em propriedades assintóticas com amostras de tamanho minúsculo. Exemplos – Estimar modelos por Generalized Method of Moments com 412 instrumentos e 30 observações. E ainda acreditar que testes de hipóteses são confiáveis …

A leitura em borras de café. Interpretar parâmetros em vetores autoregressivos não estruturais.

A multiplicação dos pães. Primeiro artigo – por ols. Segundo artigo – usando gmm. Terceiro artigo – usando matching. Quarto artigo – usando quantile regression. Quinto artigo – painel… Depois todas as combinações entre os estimadores. Em todos eles o resultado é o mesmo (e totalmente óbvio …). Detalhe – o artigo só é feito se o estimador for fácil de usar no stata/eviews.

Só sei usar um martelo, então tudo são pregos. O problema inverso. Em qualquer problema é sempre utilizada a mesma técnica. Independente se ela faz sentido neste contexto ou não.

Testes redundantes. Reportar testes com resultados óbvios. Exemplo – fazer 18 testes diferentes de raiz unitária em série de preços de ações.

A interpretação mágica – o intervalo de confiança do parâmetro é tão grande que ele dá suporte a hipótese nula. E a hipótese alternativa. E a qualquer hipótese que seja possível de ser escrita.

Isto me lembrou de “os 10 mandamentos do trabalho econométrico aplicado”, do Peter Kennedy – que vai ser tema do próximo (ou pós-próximo) post, só para não gastar tudo neste de agora.

Câmbio e Inflação I


Está se ouvindo falar muito de intervenção cambial por parte do governo e do relaxamento das metas de inflação. Quais os prováveis impactos dessas medidas na relação câmbio-inflação (o chamado pass-through cambial)?

Nogueira Junior encontra evidências de que, quanto maior e mais instável a inflação, o efeito de uma desvalorização cambial sobre os preços é maior. O valor limite da inflação, estimado pelo autor, para a mudança do  regime de baixo para alto pass-through  é de 10,6% a.a.  Ainda longe do que estamos vendo. Todavia, é importante lembrar que isso é uma estimativa, e o threshold decerto varia com as circunstâncias. Ademais, um intervalo de confiança no coeficiente alcançaria valores de até 7,8% a.a., o que já não parece tão distante (por falar nisso, infelizmente muitos autores esquecem de analisar intervalos de confiança).

Em outro estudo, Correa e Minella também encontram indícios de que, em períodos de alta atividade econômica, há um repasse maior do câmbio sobre a inflação. Além disso, o modelo sugere que, em períodos em que a taxa de câmbio é menos volátil (isso geralmente ocorre quando o governo interfere, com bandas cambiais ou câmbio fixo, por exemplo), o repasse cambial costuma ser algo de 5 a 10 vezes maior. Como no ponto anterior, ainda provavelmente não chegamos a um nível de intervenção que leve a esta situação; mas, a depender dos discursos de alguns setores da economia, isso não parece uma realidade assim tão distante.

Todos os modelos estão certos, a maioria é inútil


Palestra do Thaddeus Tarpey discutindo, de maneira simples, modelos e a realidade. O título é uma brincadeira com a conhecida frase do Box “Todos os modelos estão errados, alguns são úteis”.

Via Andrew Gelman.

Econometria – Redescobrindo fundamentos


Durante a revisão de literatura para minha dissertação, encontrei o artigo The Probability Approach in Econometrics do Trygve Haavelmo.

Este tipo de exposição e discussão tinha de voltar aos textos de pós-graduação.