Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 - Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

Investimento Estrangeiro Direto (IED) no Brasil – 2010 e 2011


O Banco Central do Brasil divulgou, hoje, os resultados do Censo de Capitais Estrangeiros no País para os anos de 2010 e 2011. O estoque total de IED estimado para 2010 é de US$670 bilhões e, para 2011, esse valor alcançou a cifra de US$688,6 bilhões.

O Censo agora conta com nova metodologia que permite estimar o estoque integral de IED, segundo os padrões internacionais definidos na sexta edição do Manual de Balanço de Pagamentos e Posição Internacional de Investimentos (conhecido como BPM6) do FMI, e na quarta edição das Definições de Referência de IED (conhecido como BD4). Entre as novidades da pesquisa encontram-se: (i) a mensuração do IED empréstimo intercompanhia; (ii) a valoração por valor de mercado do IED participação no capital; e, (iii) a separação entre país do investidor imediado e país do investidor final. Então é preciso cautela ao comparar os dados desses dois anos com os dados dos anos anteriores.

Quanto ao primeiro ponto, o IED empréstimo intercompanhia totalizou US$82,8 bilhões em 2010 e US$99,4 bilhões em 2011 valores, portanto, substanciais. Já a mensuração por valor de mercado, apesar de ter sido realizada para apenas 11% dos declarantes, respondeu por um aumento no estoque de IED participação no capital de US$121,2 bilhões, em 2010, e de US$89,9 bilhões, em 2011, em comparação ao valor por patrimônio líquido. Por fim, a diferenciação entre país do investidor imediato e país do investidor final permite reduzir a distorção das estatísticas causadas por paraísos fiscais. Por exemplo em 2010, pelo critério de investidor imediato, a Holanda tem estoque de US$163,3 bilhões de IED participação no capital, enquanto que, pelo critério de investidor final, este número cai para US$14,9 bilhões.

Vale ressaltar aqui outra novidade: o Censo, que antes era quinquenal, passou a ter uma edição anual, direcionada a declarantes de grande porte. Deste modo, enquanto, em 2010, a pesquisa contou com 16.844 declarantes, em 2011, a pesquisa foi realizada com 3.176, cerca de 19% do número anterior, mas representando estoque declarado de IED participação no capital de US$523,3 bilhões (89% do valor total). Os 11% restantes foram foram estimados com base na última declaração dos demais declarantes, acrescidos os fluxos do balanço de pagamentos e dados do registro de capital estrangeiro (RDE-IED).

Para aqueles que se interessam por dados de investimento estrangeiro no Brasil, confira a nota aqui e os dados em excel aqui.

Instituições e Piratas


Compartilho o interessante debate que está ocorrendo na blogosfera entre A&R e Peter Leeson. Aparentemente, os piratas que navegavam pelo Caribe no século 18 tinham instituições democráticas, votavam em seus lideres – cada pirata com direito a um voto – e ainda tinham modos de destitui-los do poder, caso seu desempenho não fosse satisfatório. Como essas instituições surgiram? Lesson argumenta que elas surgiram pois eram eficientes. A&R discordam. Você pode conferir o debate aqui, aqui e aqui.

Rethinking Macro Policy II: First Steps and Early Lessons


Conferência com Akerlof, Tirole, Roubini, Blanchard, Romer, Stiglitz, Woodford, Fischer – entre outros nomes – será transmitida ao vivo pelo site do FMI, dias 16 (amanhã) e 17 (quarta). Vale a pena conferir.

As coisas mudam…igualdade de gêneros.


Em 1824, James Mill (pai de John Stuart Mill) publicou um ensaio, suplemento da enciclopédia britânica, intitulado On Government. A certa altura, ao discorrer sobre como definir o eleitorado em uma democracia representativa, menciona (grifo meu):

One thing is pretty clear, that all those individuals whose interests are indisputably included in those of other individuals may be struck off without inconvenience. In this light may be viewed all children, up to a certain age, whose interests are involved in those of their parents. In this light, also, women may be regarded, the interest of almost all of whom is involved either in that of their fathers or in that of their husbands.

Essas poucas linhas geraram uma furiosa resposta, de mais de 200 páginas, de William Thompson e Anna Wheeler, no livro – com título mais do que auto-explicativo - Appeal of One Half the Human Race, Women, Against the Pretensions of the Other Half, Men, to Retain Them in Political, and hence in Civil and Domestic Slavery.  A visão de James Mill, felizmente, também não foi seguida por seu filho, que, mesmo que tardiamente, publicou ensaio em defesa da igualdade de gêneros, The Subjection of Women.

Avançou-se bastante. Mas, aproveitando o assunto, vale lembrar que a causa não deve ser utilizada para justificar irracionalidades econômicas, como nestes casos de salão de beleza (aqui) e seguro de automóvel (aqui).

Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3


Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.

A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.

20130312-220846.jpg

Veja mais aplicações da estatística neste blog aqui e aqui.

Via Marginal Revolution.

Estatística na União Soviética


É bastante comum ver argumentos que são contra a liberdade econômica e, ao mesmo tempo, a favor da liberdade acadêmica, artística, de imprensa e de expressão em geral. Confunde-se – propositadamente ou não – democratização da mídia com financiamento público de propaganda ideológica, ou liberdade de imprensa com imprensa “neutra” ou “politicamente correta” (no sentido fluído que essas palavras ganham em cada contexto em que seu interlocutor usa).

Entretanto, ao menos no limite, há uma contradição inerente a este tipo de raciocínio; pois, uma vez que caiba a um órgão central definir quem exerce o quê em cada campo da esfera econômica, isto também abrange a atividade de professores, pesquisadores, jornalistas e artistas.

Se o único jornal a ser permitido no país é um jornal estatal, qual o incentivo para que notícias desfavoráveis ao governo circulem? Se as únicas universidades permitidas no país são estatais, qual o incentivo para que linhas de pesquisa que não agradem ao governo prosperem? E assim por diante. Sim, é possível contra-argumentar este argumento, e depois contra-argumentar o seu contra-argumento, e este é um debate acalorado e interessante; mas não será desenvolvido neste post. A ideia era apenas fazer uma introdução para comentar sobre a situação da ciência estatística na União Soviética na época de Stalin.

A Rússia produziu grandes estatísticos matemáticos, como Kolmogorov e Slutsky (sim, ele também é o mesmo que você estudou em microeconomia). Todavia, conforme se lê em  The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, o regime comunista considerava que todas as ciências sociais eram, na verdade, ciências de classe, e  deveriam estar subordinadas ao planejamento central do partido. Para eles, a estatística era uma ciência social. E o conceito de “aleatório” ou “erro-padrão” era algo absurdo em uma economia planejada. Nas palavras de Salsburg (p.147-148):

A palavra russa para variável aleatória se traduz como “magnitude acidental”. Para planejadores centrais e teóricos, isso era um insulto [...] nada poderia ocorrer por acaso. Magnitudes acidentais poderiam descrever coisas que ocorrem em economias capitalistas – não na Rússia. As aplicações da estatística matemática foram rapidamente reprimidas.

Como resultado os periódicos de estatística foram se extinguindo e os estatísticos matemáticos tiveram que, ou pesquisar assuntos estatísticos disfarçados com outros nomes, ou mudar de área. E enquanto os Estados Unidos utilizavam os desenvolvimentos dos teóricos russos na prática – como no controle de qualidade industrial – a Rússia teve que esperar algumas décadas, até o colapso da União Soviética, para ver o fruto de seus próprios cientistas aplicado à indústria.

Sobre a acurácia das variáveis econômicas


Segundo as contas nacionais trimestrais do IBGE, o PIB brasileiro no terceiro trimestre de 2012, a preços constantes de 1995, foi de R$ 292.011.667.484,06. Isto resultou em uma variação real de 0,8652892558907% em relação ao mesmo período do ano anterior.

Qual a acurácia destes números? Ninguém em sã consciência acreditaria que os últimos seis centavos são exatos ou precisos. Poucos também apostariam grande soma com relação à exatidão dos quatrocentos e oitenta e quatro reais. É bem possível que existam erros na ordem dos milhões; e, quem sabe, dos bilhões. Mas não sabemos quanto.

Diferentemente de pesquisas eminentemente amostrais (como a PME, por exemplo), dados como o PIB, que envolvem a agregação de diversos valores, com metodologias bastante diferentes, não costumam ser acompanhados de uma medida quantitativa de erro. Isto ocorre porque são consultadas várias fontes de informação para se gerar a estimativa do PIB: governamentais, pesquisas de campo amostrais, pesquisas quase-censitárias, formulários administrativos, extrapolações, interpolações, entre outros instrumentos. Cada uma dessas fontes está sujeita a diversos vieses, erros amostrais e não-amostrais, sendo bastante difícil chegar a uma medida quantitativa da incerteza em relação ao número.

Antes que me entendam mal, vale ressaltar: não estou criticando o IBGE, que atualmente é respeitado nacionalmente e internacionalmente por seus dados, principalmente se compararmos com os dados da Argentina os dados de outros países.

A questão é que o erro existe e isso é natural. A mensuração é uma atividade fundamental na ciência*, mas junto de toda mensuração há incerteza, bem como um trade-off entre custo e acurácia. Definir o grau de exatidão e precisão (e que tipo de exatidão e precisão**) a se alcançar depende de saber tanto para quê o dado será utilizado, quanto o custo de torná-lo mais acurado. Além disso, uma vez coletado o dado, saber a incerteza presente no número é, às vezes, quase tão importante quanto saber o próprio número, posto que exercício fundamental para – como diria Morgenstern – podermos distinguir “entre o que achamos que sabemos e o que de fato sabemos ou o que de fato podemos saber” com esses dados .

Entretanto, ao se observar a mídia e, inclusive, trabalhos acadêmicos, a impressão que se tem é a de que muitos dos números econômicos divulgados não são vistos como estimativas, mas como valores reais, absolutos. Muitas vezes se toma o número pelo seu valor de face. E, para a ciência econômica, isso pode ser um grande problema.

Para não ficar em uma discussão etérea, vejamos alguns exemplos.

Primeiro – a Pesquisa Mensal de Emprego (PME), que divulga uma medida de erro. Este caso ilustra como esta medida pode ser importante para se interpretar o número. No boxe do relatório de inflação de dezembro de 2012, há uma discussão sobre a aparente contradição entre os cenários sugeridos pelos dados da PME e pelos dados do Caged para o mercado de trabalho. Um dos pontos relacionados no texto, para conciliar os cenários das duas pesquisas, é o erro amostral, que evidencia o cuidado que tem de ser tomado ao interpretar as variações mês a mês da PME. Por exemplo, em outubro de 2012, o coeficiente de variação da pesquisa foi de 0,7%; assim, uma variação nos dados, suponha, de 0,6%, é consistente tanto com um crescimento robusto do emprego (uma taxa anualizada de 7,8%), quanto com uma variação natural na amostra.

Segundo, um exemplo anedótico – o caso dos livros que pesam 0Kg. Este é um exemplo propositalmente absurdo e que, por isso mesmo, torna o problema da falta de informação sobre o erro auto-evidente. Suponha que, além dos livros em que a balança acusou o peso de 0Kg, tenhamos uma terceira medida com peso de 2Kg. Tomando os dados por seu valor de face, o peso total dos livros seria, aritmeticamente, 0Kg + 0Kg + 2Kg= 2Kg. O número final é manifestamente errado, pois não sabemos a ordem de grandeza que o instrumento de mensuração (a balança) consegue identificar. A partir do momento em que se sabe que a balança é errática para pesos menores do que 2Kg, você percebe que este dado não serve para distinguir entre um peso total de 2Kg e um peso total de 6Kg. Entretanto serviria caso você quisesse saber se os livros pesam menos do que 20Kg. Veja, estamos distinguindo “entre o que achamos que sabemos e o que de fato sabemos ou o que de fato podemos saber” com esses dados.

Terceiro, talvez um caso de erro proposital – os dados do Indec sugerem que o crescimento argentino, desde 2002, apresenta taxa de cerca de 7,7% ao ano. Este dado, entretanto, pode servir para julgar a eficácia das políticas econômicas dos hermanos? Alexandre Schwartsman sugere que não, mostrando inconsistência considerável entre os dados do PIB e os dados de geração de energia da Argentina. Inclusive, dados de preços coletados on-line sugerem que também os índices de preços oficiais parecem ter erro muito grande para qualquer inferência.

Os exemplos acima ilustram como os dados são matéria prima importante para a economia, e também mostram que ter uma medida do erro inerente a esses dados nos ajuda a entender o que eles podem e o que eles não podem responder. Com esta preocupação em mente, comecei a procurar trabalhos sobre o assunto, e tive contato com o livro de Morgenstern “On the accuracy of economics observations”. Este trabalho, cuja segunda e última revisão é de 1963, foi o único que encontrei que discute extensivamente os problemas inerentes a muitas variáveis (macro)econômicas (caso alguém tenha conhecimento de algo com este fôlego e mais recente, favor indicar).

O trabalho passa por discutir a natureza dos dados econômicos não experimentais, os diversos tipos de erro naturalmente esperados, e ainda trata de vários exemplos nas mais diversas áreas (comércio exterior, índices de preços, emprego, PIB). Como este post já esta enorme, vou apenas mencionar um exemplo de contas nacionais, trazido por Morgenstern.

Como dissemos no início do post, os valores publicados nas contas nacionais são daquele tipo de estatística em que uma medida de erro não tem uma fórmula pronta, sendo difícil quantificar a incerteza. Entretanto, Kuznets, à época, reuniu especialistas envolvidos no cálculo do PIB para tentar chegar a uma medida. Resultado: cerca de 10%. Qual a implicação disso? Veja o gráfico abaixo (p.269):

morgenstern

Morgenstern mostra os dados de renda nacional bruta dos EUA, de 1946 a 1961, com o intervalo de 10% de erro. Neste caso, nota-se que os dados servem para analisar o crescimento econômico de longo prazo, mas são bastante duvidosos quanto sua utilidade para se confrontar teorias de ciclos econômicos, pois além dos ciclos divulgados oficialmente (reta contínua do gráfico) outra trajetória, com ciclos opostos, também é consistente com o erro (reta tracejada do gráfico).

Com o avanço da tecnologia, é provável que os dados de hoje não sejam tão incertos quanto os da época. Mas não sabemos em que medida, e isso é fundamental para distinguirmos o que podemos extrair dos dados. Estamos em uma época em que o reconhecimento do erro, da aleatoriedade, e da incerteza está se tornando cada vez mais comum e, talvez, seja hora de tentar resgatar a linha de pesquisa de Morgenstern.

* pelo menos para aqueles que descem do pedestal criado para si em sua própria mente e buscam confrontar ideias, sempre sujeitas a erro, com o que se observa.

** por exemplo, suponha que você tenha dois métodos para medir uma variável, em um deles você sabe que há alta probabilidade de subestimar a medida e, com o outro, alta probabilidade de superestimá-la: qual é melhor?

Nate Silver, Frequentistas, Bayesianos e Economistas


Havíamos comentado sobre o livro de Nate Silver.  Em particular, falamos sobre o capítulo 8 do livro, uma crítica aos testes cegos de significância estatística. E este capítulo, apesar de super simples, está dando o que falar. Por basicamente dois motivos: (i) Nate utiliza a palavra “frequentismo” para denominar o que critica; e, (ii) o livro se tornou muito popular.

O problema do rótulo “frequentismo” é que ele é utilizado para diversas correntes e técnicas estatísticas, sejam no campo teórico ou aplicado. Dessa forma, muitos daqueles que se denominam “frequentistas” não se enxergam na caracterização feita por Silver. Sentem-se ameaçados e injustiçados – passando a apontar limitações do Bayesianismo, que obviamente existem – a despeito de esses mesmos “frequentistas” também concordarem que as práticas expostas por Nate sejam ruins.

Andrew Gelman tem dois posts (1 e 2) sobre o assunto que merecem ser lidos (e lá você encontrará links para os demais posts de outros blogs). Vale destacar algumas passagens de Gelman.

Com relação à mensagem geral da crítica aos testes de significância:

if Nate’s message is that modern statistics is about models rather than p-values, I support that message even if it’s not phrased in the most technically correct manner.

Uma ênfase sobre o que o economista deve tomar como lição desta discussão:

One thing I’d like economists to get out of this discussion is: statistical ideas matter. To use Smith’s terminology, there is a there there. P-values are not the foundation of all statistics (indeed analysis of p-values can lead people seriously astray). A statistically significant pattern doesn’t always map to the real world in the way that people claim.

Indeed, I’m down on the model of social science in which you try to “prove something” via statistical significance. I prefer the paradigm of exploration and understanding. (See here for an elaboration of this point in the context of a recent controversial example published in an econ journal.)

Here’s another example (also from economics) where the old-style paradigm of each-study-should-stand-on-its-own led to troubles.

E uma crítica à crença incorreta (mas bastante comum) sobre como são aplicados os testes de hipótese na prática:

(…) hypothesis testing typically means that you do what’s necessary to get statistical significance, then you make a very strong claim that might make no sense at all. Statistically significant but stupid. Or, conversely, you slice the data up into little pieces so that no single piece is statistically significant, and then act as if the effect you’re studying is zero. The sad story of conventional hypothesis testing is that it is all to quick to run with a statistically significant result even if it’s coming from noise.

Sobre os pontos levantados na discussão, já tratamos neste blog da confusão gerada em testes de significância aqui (exemplo com teste de normalidade), aqui (exemplo com mercados eficientes) e aqui (uma brincadeira com confundir não rejeitar a hipótese nula com aceitá-la).

Livros de estatística pesam 0Kg.


Nos comentários de um post do A Mão Visível,  vi o Economista X sugerir que um resultado estatisticamente insignificante é evidência a favor da hipótese nula que está sendo testada.

Isso não é verdade, pois somente a rejeição ou não rejeição da hipótese nula – ou somente o p-valor – não fornece informação suficiente para esse julgamento.

Acho que uma forma simples de se instigar a reflexão sobre o assunto é com um exemplo absurdo como o abaixo.

Vale lembrar: apesar de parecer um engano trivial, é muito fácil se deixar levar por este tipo de interpretação. E ela é bastante difundida nos trabalhos aplicados.

***

Tenho evidência cabal de que livros não pesam nada. Isto mesmo, livros têm peso zero. Vejam abaixo, os dados são acachapantes. Primeiro com os livros do Jim Berger e do Aris Spanos:

20120613-185128.jpg

Agora vejam Fisher e Lehmann & Romano.

20120613-190440.jpg

Testei com mais de dez pares de livros diferentes. Todos com o mesmo resultado, p-valor=100% (o p-valor é a probabilidade de a minha balança acusar 0Kg (ou mais) quando os livros pesam de fato 0kg).

Conclusão: livros pesam 0Kg (pelo menos os livros de estatística, sejam frequentistas ou bayesianos).

***

Obviamente que a interpretação acima é absurda e nem mesmo um leigo a levaria a sério.

Entretanto, existem muitos estudos publicados que afirmam encontrar evidência a favor da hipótese nula simplesmente por não rejeitá-las. Isso é um raciocínio análogo ao exemplo.

Que informação (ou informações) a mais você levou em conta no teste da balança para julgar que o resultado zero não é uma boa evidência de peso zero (ou aproximadamente zero)? Há pelo menos duas coisas que você deveria ter levado em conta. Essas mesmas coisas servem para os testes estatísticos rotineiramente aplicados.

Pelo exposto, fica claro por que a afirmação de “O” anônimo, apesar de ácida, não é tão absurda assim:

…se você acha que um teste de raiz unitária em uma série macroeconômica de 10 anos tem mais informação sobre a ordem de integração do que o nome da variável em questão, você não entende nem de macroeconomia nem de econometria.