Como identificar besteiras… revival


Vi dois posts antigos na blogosfera, um do Leo Monastério e outro do Márcio Laurini, que têm de ser ressuscitados.

Como identificar besteiras em trabalhos econométricos

Parte I (Leo)

– Síndrome do “Meu último livro de Econometria foi o Kmenta”: Desde a última década, não dá mais para ter um paper de séries temporais sem os testes de cointegração.

– Síndrome “Pacientes do Freud”. Sabem aqueles sonhos que o Freud interpretou? Pois é, tudo se encaixa. Bem demais. O mesmo acontece em econometria. Os resultados são uma belezura e geralmente não falseiam a hipótese. Não há crítica à qualidade dos dados, referência a problemas que surgiram ou a explicações alternativas;

– Síndrome “Em busca da significância perdida”: O pobre do autor começa a fazer toda a sorte de esquemas para conseguir estrelinhas nos seus coeficientes estimados. Procure por dummies esquisitas, ln e ² ³ incluídos sem razão, períodos de análise que mudam, variáveis defasadas que saltam sem qualquer explicação e proxies estranhas.

– Síndrome “Cadê o controle que estava aqui?”: a significância da variável de interesse só se mantém quando as de controle são omitidas.

– Síndrome “Rubens Recúpero”: “o que é bom a gente mostra, o que não é a gente esconde”. O coitado roda milhões de regressões e só transcreve aquelas que deram “certo”. Muito relacionada com as duas síndromes anteriores.

– Síndrome “Tamanho importa”: o sujeito encontra coeficientes estatisticamente significativos e afirma que a sua hipótese sobre o efeito da menstruação das baleias na cor do Mar Vermelho foi não-falseada, mas não se preocupa com significado econômico. Um coeficiente pode ser estatisticamente significativo e, em termos substantivos, não significar bulhufas.

Parte II (Márcio)

Os Milagres da teoria assintótica – Confiar cegamente em propriedades assintóticas com amostras de tamanho minúsculo. Exemplos – Estimar modelos por Generalized Method of Moments com 412 instrumentos e 30 observações. E ainda acreditar que testes de hipóteses são confiáveis …

A leitura em borras de café. Interpretar parâmetros em vetores autoregressivos não estruturais.

A multiplicação dos pães. Primeiro artigo – por ols. Segundo artigo – usando gmm. Terceiro artigo – usando matching. Quarto artigo – usando quantile regression. Quinto artigo – painel… Depois todas as combinações entre os estimadores. Em todos eles o resultado é o mesmo (e totalmente óbvio …). Detalhe – o artigo só é feito se o estimador for fácil de usar no stata/eviews.

Só sei usar um martelo, então tudo são pregos. O problema inverso. Em qualquer problema é sempre utilizada a mesma técnica. Independente se ela faz sentido neste contexto ou não.

Testes redundantes. Reportar testes com resultados óbvios. Exemplo – fazer 18 testes diferentes de raiz unitária em série de preços de ações.

A interpretação mágica – o intervalo de confiança do parâmetro é tão grande que ele dá suporte a hipótese nula. E a hipótese alternativa. E a qualquer hipótese que seja possível de ser escrita.

Isto me lembrou de “os 10 mandamentos do trabalho econométrico aplicado”, do Peter Kennedy – que vai ser tema do próximo (ou pós-próximo) post, só para não gastar tudo neste de agora.

E se o seu p-valor for igual a 0,999?


Suponha que você rode um teste \chi^2 de fit e seu p-valor resulte em 0,999.

Então, não dá para rejeitar de forma alguma H_0 certo?

Bom, veja o que disse Fisher sobre o assunto:

“valores acima de 0,999 tem algumas vezes sido reportados e, se a hipótese for verdadeira, ocorreriam apenas uma vez em mil testes […] nesses casos, a hipótese é considerada definitivamente rejeitada como se  tivesse sido 0,001”

Para refletir. Vou tentar voltar neste tema mais a frente. Também vale lembrar algo que já tínhamos falado sobre o p-valor aqui.

Câmbio e Inflação I


Está se ouvindo falar muito de intervenção cambial por parte do governo e do relaxamento das metas de inflação. Quais os prováveis impactos dessas medidas na relação câmbio-inflação (o chamado pass-through cambial)?

Nogueira Junior encontra evidências de que, quanto maior e mais instável a inflação, o efeito de uma desvalorização cambial sobre os preços é maior. O valor limite da inflação, estimado pelo autor, para a mudança do  regime de baixo para alto pass-through  é de 10,6% a.a.  Ainda longe do que estamos vendo. Todavia, é importante lembrar que isso é uma estimativa, e o threshold decerto varia com as circunstâncias. Ademais, um intervalo de confiança no coeficiente alcançaria valores de até 7,8% a.a., o que já não parece tão distante (por falar nisso, infelizmente muitos autores esquecem de analisar intervalos de confiança).

Em outro estudo, Correa e Minella também encontram indícios de que, em períodos de alta atividade econômica, há um repasse maior do câmbio sobre a inflação. Além disso, o modelo sugere que, em períodos em que a taxa de câmbio é menos volátil (isso geralmente ocorre quando o governo interfere, com bandas cambiais ou câmbio fixo, por exemplo), o repasse cambial costuma ser algo de 5 a 10 vezes maior. Como no ponto anterior, ainda provavelmente não chegamos a um nível de intervenção que leve a esta situação; mas, a depender dos discursos de alguns setores da economia, isso não parece uma realidade assim tão distante.

O “núcleo” da inflação no Brasil.


Silva Filho e Figueiredo fazem uma análise das medidas de core da inflação brasileira. Resultados preliminares: elas são enviesadas e possuem pouco poder preditivo – em outras palavras, não são boas. Os autores também tentam construir medidas de núcleo melhores do que as utilizadas. Mas, mesmo com performance superior, as novas medidas são tão “próximas” da medida tradicional do IPCA que acabam sendo argumento para os céticos: isto é, de que o próprio IPCA é seu “melhor” núcleo.

PS: o artigo é um dos poucos que analisei que se atentam a algumas questões estatísticas com o devido ceticismo, como algo análogo ao problema batizado por Ed. Leamer (sobre quem já comentamos aqui) de White Washing (este texto é uma ácida e excelente resposta ao famoso artigo de Angrist e Pischke sobre a revolução de credibilidade nos trabalhos empíricos). Vou tentar falar disto no próximo post.

A fórmula que matou Wall Street


Artigo interessante sobre a gaussian copula function de David Li.

Vale frisar duas partes do final. Primeiro, sobre os gerentes que utilizavam a fórmula:

Their managers, who made the actual calls, lacked the math skills to understand what the models were doing or how they worked. They could, however, understand something as simple as a single correlation number. That was the problem.

E, segundo, Li sobre o seu próprio modelo:

The most dangerous part is when people believe everything coming out of it.

Por ser voltado ao público geral, não sei até que ponto o texto é anedótico. Mas, ilustra bem uma verdade: não é para você pegar um modelo e aplicá-lo a toda e qualquer situação. Ainda mais quando se trata de normalidade e constantes no mundo financeiro.

PS: um leitor recomendou o vídeo “Quants – Os alquimistas de Wall Street”, visto no blog do PC.

Freakonomics revisitado e o efeito do Tea Party


Compartilhando algumas leituras:

Andrew Gelman discute com Stephen Dubner sobre suas críticas ao Freakonomics. O artigo original com as críticas, que são simples mas muito pertinentes, pode ser conferido aqui.

Mankiw dá a dica de um artigo que usa dias chuvosos como variável instrumental para capturar o efeito político do Tea Party.

O poder da estatística, ou como você é tão previsível.


Nos EUA, um pai ficou indignado ao encontrar, na sua caixa de correio, cupons de desconto para roupas de bebê enviados por uma cadeia de varejo em nome de sua filha menor de idade. Acusou a loja de tentar induzir a garota a ser mãe precocemente. Mas, após confrontar a adolescente, descobriu que a filha já estava grávida. Só ele não sabia. Os estatísticos da loja de departamentos Target não tiveram acesso a nenhum teste de gravidez. Apenas inferiram que aquela consumidora iria dar à luz cruzando informações de compras: a mudança no seu padrão de consumo era consistente com o de outras grávidas. Foram tão precisos quanto um exame de ultrassom.

Via Moral Hazard.

A evidência prova: você é obeso… mas não é gordo!


O p-valor (ou valor p) é, talvez, a estatística mais difundida entre médicos, psicólogos, economistas e quase toda profissão que utilize inferência estatística.

Virtualmente todo mundo que fez um curso de graduação ou pós-graduação já se deparou com o p-valor, seja nas disciplinas de estatística, seja ao realizar um trabalho empírico aplicado.

Entretanto, quase ninguém sabe muito bem o que o p-valor é ou pode ser considerado quando se trata de evidência. Sobre este ponto, há um artigo de 1996, do Schervish, que mostra como o p-valor não é uma medida coerente de evidência. Como assim? Bom, deixe-me tentar explicar de uma maneira simples.

Em geral, alguém é considerado obeso quando é muito gordo: o conceito de obeso pressupõe o conceito de gordo. Em outras palavras, é impossível ser obeso sem ser gordo.

Representemos obeso por O e gordo por G. Em termos formais, dizemos que O -> G (leia-se, O implica em G), isto é, se você é obeso, então você é gordo.

Note que o fato de O -> G não quer dizer que a volta é válida, isto é que, G -> O. Você pode ser gordo, mas apenas gordinho, ou gordo-magro, ou semi-gordo (ou diversos outros nomes que inventam por aí), mas pode não ser muito gordo e, consequentemente, não é obeso.

Bom, suponha agora que você queira descobrir se um determinado indivíduo é gordo ou é obeso. Suponha, também, que você tenha dados de exames deste indivíduo, que forneçam evidência para a hipótese de ele ser gordo ou ser obeso. Como uma boa evidência deveria se comportar?

Note que uma evidência “bem comportada” deveria ser coerente no seguinte sentido: se ela é uma evidência que dê bons indícios de que o indivíduo seja obeso, ela deve ser tão boa ou melhor evidência de que o indivíduo seja gordo. Por quê? Ora, porque, como vimos, se você é obeso, necessariamente você é gordo. Uma medida de evidência que indicasse que você é obeso, mas não é gordo, seria contraditória, certo?

Mas é isso que o p-valor, de certo modo,  faz.

Por exemplo, no exemplo simples de uma distribuição normal trazido por Schervish, utilizando um teste uniformemente mais poderoso não viesado para hipóteses intervalares,  quando se observa x=2,18, para uma hipótese de que a média esteja no intervalo [-0,82, 0,52], o p-valor é de 0,0498. Já para uma hipótese de que a média esteja no intervalo [-0,5, 0,5] o p-valor é de 0,0502. Note, entretanto, que, se a média não estiver no primeiro intervalo, necessariamente ela não está no segundo intervalo. Mas a evidência é “mais forte” contra a primeira hipótese do que contra a segunda. E se o limiar de 5% (que é comumente adotado) fosse utilizado para rejeitar ou aceitar uma hipótese (isso por si só já poderia ser bastante problemático, pois não rejeitar não é a mesma coisa de aceitar), você diria que a média não está em [-0,82, 0,52] mas que está em [-0,5, 0,5]. Isso é mais ou menos a mesma coisa de dizer que alguém é obeso, mas não é gordo.

Há vários problemas de interpretação com os métodos de inferência que estão sendo utilizados atualmente, e pretendo trazer outros pontos mais a frente.