PUC-RJ x Reinaldo Azevedo: sobre causalidade e VI.


Quase todo mundo que acompanha a blogosfera econômica deve ter ouvido falar da controvérsia PUC-RJ x Reinaldo Azevedo. Drunkeynesian resumiu a querela em um único post para quem ainda não tinha visto e quiser conferir, ou para aqueles que não acompanharam toda a repercussão. Não vou comentar sobre o debate, mas quero aproveitá-lo para chamar a atenção sobre duas questões interessantes.

A primeira é a discussão sobre causalidade. Em muitos momentos, alguns comentários deram a entender que confundir correlação e causalidade é um erro trivial: não é. Todo mundo faz isso o tempo inteiro, inclusive os melhores economistas. Infelizmente, parece que a discussão sobre causalidade só foi formalizada recentemente, muito recentemente – Donald Pianto me alertou sobre o livro de Judea Pearl.  Até agora, o que eu tenho a dizer é que, para mim, o contato com essa literatura tem sido groundbreaking. É basicamente uma linguagem nova que torna clara e inteligível a discussão de causalidade. No próprio site do Judea Pearl é possível encontrar diversos reviews sobre o livro, inclusive de econometristas. Deixo também, aqui, um post sucinto de Larry Wasserman sobre o assunto.

O outro ponto é sobre o uso de variáveis instrumentais. Vi que chegaram a mencionar o artigo de Angrist e Pischke sobre a revolução de credibilidade nos trabalhos empíricos, que já havíamos mencionado neste blog. Cito novamente, portanto, a resposta de Leamer,  Tantalus on the Road to Asymptopia. Em suma, o ponto de Leamer é que Randomization is not Enough (por randomization leia-se variáveis instrumentais). Destaco este parágrafo (mas o interessante é  ler o texto inteiro):

When the randomization is accidental, we may pretend that the instrumental variables estimator is consistent, but we all know that the assumptions that justify that conclusion cannot possibly hold exactly. Those who use instrumental variables would do well to anticipate the inevitable barrage of questions about the appropriateness of their instruments. Ever-present asymptotic bias casts a large dark shadow on instrumental variables estimates and is what limits the applicability of the estimate even to the setting that is observed, not to mention extrapolation to new settings. In addition, small sample bias of instrumental variables estimators, even in the consistent case, is a huge neglected problem with practice, made worse by the existence of multiple weak instruments.

O erro padrão da Revista Brasileira de Economia


Havia prometido em post anterior comentar sobre o uso de erro-padrão robusto (à heterocedasticidade [White] ou à autocorrelação e heterocedasticidade [Newey-West]).  Entretanto, procrastinei. Mas isso foi excelente, pois ontem mesmo o David Giles tocou no assunto de forma sintética.

Hoje, praticamente todo mundo usa o erro-padrão robusto à heterocedasticidade – a tal ponto que há casos em que nem se demonstra mais a preocupação em verificar sua presença e tamanho. Por exemplo, em 2010, 77% dos artigos aplicados da RBE que usaram econometria não testaram para a presença de heterocedasticidade. Mais ainda, 40% não testaram e sequer mencionaram se o erro-padrão utilizado era robusto ou não. Talvez isso não fosse um problema tão grande se os próprios artigos não levassem seus testes tão a sério – mas não é este o caso. Quero deixar claro que isso não quer dizer que a RBE seja diferente das outras revistas – provavelmente uma amostra de qualquer outra, inclusive internacional, revelaria situação análoga. O fato é que, infelizmente, esta prática se tornou padrão na literatura aplicada, como o próprio Giles comenta:

Regrettably, this is not something that we see applied researchers taking into account very often. They just charge ahead with tests based on the HC or HAC estimators.

Isto é algo que Edward Leamer também lamenta. Em seu texto Tantalus on the Road to Asymptopia , Leamer batiza a prática de White Washing, e afirma que atualmente ela tem sido usada apenas para trocar uma fonte de incerteza  (a forma da heterocedasticidade) por outra (a confiança em resultados assintóticos em amostras finitas) como se isto fosse uma solução de fato – e em grande parte dos casos não é. Assim, ao invés de tentar quantificar a incerteza envolvida, o usuário finge que ela não existe e, como diz Leamer, “trudge relentlessly toward Asymptopia, where data are unlimited and estimates are consistent, where the laws of large numbers apply perfectly and where the full intricacies of the economy are completely revealed“.

Esta passagem também é provocadora e vale citação integral:

A legacy of White’s (1980) paper on robust standard errors, one of the most highly cited from the period, is the near-death of generalized least squares in cross-sectional applied work. An earlier generation of econometricians corrected the heteroskedasticity problems with weighted least squares using weights suggested by an explicit heteroskedasticity model. These earlier econometricians understood that reweighting the observations can have dramatic effects on the actual estimates, but they treated the effect on the standard errors as a secondary matter. A “robust standard” error completely turns this around, leaving the estimates the same but changing the size of the confidence interval. Why should one worry about the length of the confidence interval, but not the location? This mistaken advice relies on asymptotic properties of estimators. I call it “White-washing.” Best to remember that no matter how far we travel, we remain always in the Land of the Finite Sample, infinitely far from Asymptopia. Rather than mathematical musings about life in Asymptopia, we should be doing the hard work of modeling the heteroskedasticity and the time dependence to determine if sensible reweighting of the observations materially changes the locations of the estimates of interest as well as the widths of the confidence intervals.

O interessante é que há diversos artigos que sugerem formas de se lidar com alguns problemas, ou pelo menos entender de maneira geral como as probabilidades de erro são afetadas. Como lição (que certamente também vale para mim) deixo o final do texto do Giles:

Don’t simply use a “canned” package without being aware of the relevant econometric theory. After all, there’s no guarantee that the programmer had an appropriate level of awareness, is there?

Bandido bom é bandido morto? Ou mais ainda sobre modelos.


Evidentemente que o debate acerca de penas capitais envolve muitos fatores, entre eles morais, religiosos e ideológicos. Entretanto, impossível negar que, para este debate, um argumento bastante persuasivo é saber se, de fato, a adoção da pena de morte reduz a criminalidade. E, mais ainda, se reduz, de quanto seria esta redução.

No fundo, isto é uma questão empírica. Pois, teoricamente, o efeito pode ser tanto positivo quanto negativo, tanto alto quanto baixo. Se a adoção de penas capitais, por um lado, inibe o criminoso por aumentar a severidade da pena, por outro lado, aqueles criminosos que forem cometer um crime de qualquer jeito terão mais incentivos para a brutalidade – afinal, se ele já irá pegar a pena máxima, então por que não matar todas as testemunhas?

Então basta estimar o efeito de penas capitais e o problema está resolvido, certo? Durlauf, Fu e Navarro (2012) mostram que não. Apesar de isto ser um problema empírico, é preciso determinar qual o modelo utilizado para as estimativas. Tomando o caso dos EUA,  que tal um modelo linear com um único coeficiente de probabilidade de execução para cada estado? Se acharmos isto adequado, ele nos fornecerá uma estimativa positiva, indicando que cada execução poupa de 20 a 31,5 vidas, em média. Números bastante persuasivos.

Mas se, ainda no modelo linear, permitirmos que o coeficiente varie por estado? Bom, aí passamos para estimativas de que uma execução adicional eleva o número de vítimas de 35,2 a 98,5 , em média.  Também tem outro ponto: o modelo linear agrega comportamentos individuais de uma maneira bastante restritiva. E se utilizássemos um modelo Logit?  Novamente a estimativa passa a ser negativa, indicando que cada execução eleva o número de vítimas de 2 a 42. A figura que ilustra os dados a que faço referência encontra-se abaixo.

Diante de tais resultados, alguém poderia se tornar bastante cético quanto à nossa capacidade de medir o efeito. Eu sugiro uma interpretação mais otimista. Os autores identificaram pelo menos duas grandes fontes de incerteza e, agora, será preciso dispensar muito mais atenção na escolha e na justificativa da forma funcional do modelo. Porque muito melhor do que a proliferação assistemática de resultados frágeis e conflitantes – que muitas vezes tornam-se disputas pessoais  – é, pelo menos, saber por que eles divergem.

O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.

Os dez mandamentos da econometria aplicada (The Ten Commandments of Applied Econometrics)


Como havia prometido em post anterior, segue o artigo do Peter Kennedy (ideas link).

Peter Kennedy também é o autor de A Guide to Econometrics, que é basicamente um compêndio de referência que supre várias lacunas sérias encontradas nos livros-textos de econometria padrão (como Hayashi ou Greene).

Os dez mandamentos são:

1. Thou shalt use common sense and economic theory.

     Corollary: Thou shalt not do thy econometrics as thou sayest thy prayers.

2. Thou shalt ask the right questions.

     Corollary: Thou shalt place relevance before mathematical elegance.

3. Thou shalt know the context.

     Corollary: Thou shalt not perform ignorant statistical analyses.

4. Thou shalt inspect the data.

     Corollary: Thou shalt place data cleanliness ahead of econometric godliness.

5. Thou shalt not worship complexity.

     Corollary: Thou shalt not apply asymptotic approximations in vain.

     Corollary: Thou shalt not talk Greek without knowing the English translation.

6. Thou shalt look long and hard at thy results.

     Corollary: Thou shalt apply the laugh test.

7. Thou shalt beware the costs of data mining.

     Corollary: Thou shalt not worship R2.

     Corollary: Thou shalt not hunt statistical significance with a shotgun.

     Corollary: Thou shalt not worship the 0.05 percent significance level.

8. Thou shalt be willing to compromise.

     Corollary: Thou shalt not worship textbook prescriptions.

9. Thou shalt not confuse significance with substance.

     Corollary: Thou shalt not ignore power.

     Corollary: Thou shalt not test sharp hypotheses.

     Corollary: Thou shalt seek additional evidence.

10. Thou shalt confess in the presence of sensitivity.

     Corollary: Thou shalt anticipate criticism.

Como estou procrastinando pouco (isso é bom), os comentários ficam para algum dia. Mas deixo aqui as respostas de Magnus  (ideas link) e  Hendry (ideas link).

Metas de Inflação?


Dizem que o governo está abandonando (ou já abandonou) o regime de metas de inflação. O que a comparação internacional tem a nos dizer sobre esta opção?

Um working paper do Irineu de Carvalho Filho sugere que os países que adotaram o regime de metas se saíram muito melhor na crise do que os que não adotaram. Como um gráfico (às vezes) vale mais do que mil palavras, segue a imagem retirada do blog do autor (em azul os países com metas de inflação):

Outro trabalho, antes da crise, é o de Carlos Eduardo Gonçalves (blog aqui) e Alexandre Carvalho que, ao examinarem o custo (em termos de PIB) de reduzir a inflação dos países que adotaram em contraste aos que não adotaram metas, verificaram*** que este pode ser bem menor (4 p.p do PIB) para os primeiros:

Judging by the coefficient of our most preferred specification, countries adopting IT save roughly 4 percentage points in GDP (level) relative to its trend for each point of inflation decline.

*** com base na especificação “mais preferida” dos autores, que não sei se realmente é a preferida e se é estatisticamente adequada.

 

 

Como identificar besteiras… revival


Vi dois posts antigos na blogosfera, um do Leo Monastério e outro do Márcio Laurini, que têm de ser ressuscitados.

Como identificar besteiras em trabalhos econométricos

Parte I (Leo)

– Síndrome do “Meu último livro de Econometria foi o Kmenta”: Desde a última década, não dá mais para ter um paper de séries temporais sem os testes de cointegração.

– Síndrome “Pacientes do Freud”. Sabem aqueles sonhos que o Freud interpretou? Pois é, tudo se encaixa. Bem demais. O mesmo acontece em econometria. Os resultados são uma belezura e geralmente não falseiam a hipótese. Não há crítica à qualidade dos dados, referência a problemas que surgiram ou a explicações alternativas;

– Síndrome “Em busca da significância perdida”: O pobre do autor começa a fazer toda a sorte de esquemas para conseguir estrelinhas nos seus coeficientes estimados. Procure por dummies esquisitas, ln e ² ³ incluídos sem razão, períodos de análise que mudam, variáveis defasadas que saltam sem qualquer explicação e proxies estranhas.

– Síndrome “Cadê o controle que estava aqui?”: a significância da variável de interesse só se mantém quando as de controle são omitidas.

– Síndrome “Rubens Recúpero”: “o que é bom a gente mostra, o que não é a gente esconde”. O coitado roda milhões de regressões e só transcreve aquelas que deram “certo”. Muito relacionada com as duas síndromes anteriores.

– Síndrome “Tamanho importa”: o sujeito encontra coeficientes estatisticamente significativos e afirma que a sua hipótese sobre o efeito da menstruação das baleias na cor do Mar Vermelho foi não-falseada, mas não se preocupa com significado econômico. Um coeficiente pode ser estatisticamente significativo e, em termos substantivos, não significar bulhufas.

Parte II (Márcio)

Os Milagres da teoria assintótica – Confiar cegamente em propriedades assintóticas com amostras de tamanho minúsculo. Exemplos – Estimar modelos por Generalized Method of Moments com 412 instrumentos e 30 observações. E ainda acreditar que testes de hipóteses são confiáveis …

A leitura em borras de café. Interpretar parâmetros em vetores autoregressivos não estruturais.

A multiplicação dos pães. Primeiro artigo – por ols. Segundo artigo – usando gmm. Terceiro artigo – usando matching. Quarto artigo – usando quantile regression. Quinto artigo – painel… Depois todas as combinações entre os estimadores. Em todos eles o resultado é o mesmo (e totalmente óbvio …). Detalhe – o artigo só é feito se o estimador for fácil de usar no stata/eviews.

Só sei usar um martelo, então tudo são pregos. O problema inverso. Em qualquer problema é sempre utilizada a mesma técnica. Independente se ela faz sentido neste contexto ou não.

Testes redundantes. Reportar testes com resultados óbvios. Exemplo – fazer 18 testes diferentes de raiz unitária em série de preços de ações.

A interpretação mágica – o intervalo de confiança do parâmetro é tão grande que ele dá suporte a hipótese nula. E a hipótese alternativa. E a qualquer hipótese que seja possível de ser escrita.

Isto me lembrou de “os 10 mandamentos do trabalho econométrico aplicado”, do Peter Kennedy – que vai ser tema do próximo (ou pós-próximo) post, só para não gastar tudo neste de agora.

E se o seu p-valor for igual a 0,999?


Suponha que você rode um teste \chi^2 de fit e seu p-valor resulte em 0,999.

Então, não dá para rejeitar de forma alguma H_0 certo?

Bom, veja o que disse Fisher sobre o assunto:

“valores acima de 0,999 tem algumas vezes sido reportados e, se a hipótese for verdadeira, ocorreriam apenas uma vez em mil testes […] nesses casos, a hipótese é considerada definitivamente rejeitada como se  tivesse sido 0,001”

Para refletir. Vou tentar voltar neste tema mais a frente. Também vale lembrar algo que já tínhamos falado sobre o p-valor aqui.

Câmbio e Inflação I


Está se ouvindo falar muito de intervenção cambial por parte do governo e do relaxamento das metas de inflação. Quais os prováveis impactos dessas medidas na relação câmbio-inflação (o chamado pass-through cambial)?

Nogueira Junior encontra evidências de que, quanto maior e mais instável a inflação, o efeito de uma desvalorização cambial sobre os preços é maior. O valor limite da inflação, estimado pelo autor, para a mudança do  regime de baixo para alto pass-through  é de 10,6% a.a.  Ainda longe do que estamos vendo. Todavia, é importante lembrar que isso é uma estimativa, e o threshold decerto varia com as circunstâncias. Ademais, um intervalo de confiança no coeficiente alcançaria valores de até 7,8% a.a., o que já não parece tão distante (por falar nisso, infelizmente muitos autores esquecem de analisar intervalos de confiança).

Em outro estudo, Correa e Minella também encontram indícios de que, em períodos de alta atividade econômica, há um repasse maior do câmbio sobre a inflação. Além disso, o modelo sugere que, em períodos em que a taxa de câmbio é menos volátil (isso geralmente ocorre quando o governo interfere, com bandas cambiais ou câmbio fixo, por exemplo), o repasse cambial costuma ser algo de 5 a 10 vezes maior. Como no ponto anterior, ainda provavelmente não chegamos a um nível de intervenção que leve a esta situação; mas, a depender dos discursos de alguns setores da economia, isso não parece uma realidade assim tão distante.

White faleceu…


foi-se o autor de um dos artigos (ou o artigo) de econometria mais citados de todos os tempos: Halbert L. White.