Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 - Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

Mais Google: previsões de gripe e de dengue em “tempo real”


Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.

Agora, veja a empresa fornecendo mapas com tendências de gripe  e  de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.

Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:

Dengue

Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:

Dengue 2

Impressionante.

Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).

Via Marginal Revolution

Ensinem estatística ao Banco Mundial. Ou culto da significância estatística IV.


Considere duas amostras aleatórias, com 10 observações, retiradas de uma distribuição normal com médias diferentes e mesma variância desconhecida. Para utilizar um exemplo concreto, simulei no R duas amostras, uma de uma normal com média 5 e desvio-padrão 3 e a outra de uma normal com média 2 e desvio-padrão 3.

As amostras resultaram nas seguintes estatísticas:

***

Amostra 1

Média amostral: 5,3

Desvio-padrão amostral: 2,9

Intervalo de 95% de confiança: 3,2 a 7,4

***

Amostra 2

Média amostral: 2,6

Desvio-padrão amostral: 2,2

Intervalo de 95% de confiança: 0,7 a 4,5

***

Note que os intervalos de confiança se cruzam. O limite inferior da amostra 1 é 3,2 e o limite superior da amostra 2 é 4,5.

Isso quer dizer que a diferença entre as médias amostrais não é estatisticamente significante a 5%?

Não, fazendo um teste t para a diferença entre duas médias com variância igual você obtém um resultado estatisticamente significante a 5%, com intervalo de 95% de confiança indicando diferenças entre 0,5 a 5. Mesmo supondo que você não soubesse que as variâncias fossem iguais, o teste t de Welch nos dá um intervalo de 95% de confiança para a diferença entre as médias entre 0,1 e 5,3.

Agora imagine que esses dados eram de crescimento de PIB, isto é, um grupo tem média amostral de crescimento de 5,3% e outro de 2,6%. Se você comparasse os intervalos de confiança, você poderia tender a falar que os dois grupos não têm crescimento “diferentes”… quando, na verdade, o próprio teste clássico de diferenças entre médias indica uma diferença entre 0,5 e 5 pontos percentuais, que abarca magnitudes muito relevantes em termos de crescimento econômico!

Mas esse erro acontece?

Sim, no Banco Mundial. No EconBrowser, sobre a controvérsia Reinhart and Rogoff, Chinn divulgou este gráfico relacionando a média de crescimento e o percentual de endividamento público em relação ao PIB. As barras são a média e a linha preta representa o intervalo de 95% de confiança .

debtgdpgrowth.png

Note que, apesar de a média de crescimento dos países com alto endividamento (mais de 90% do PIB) ser bem menor do que a média dos demais, os intervalos de confiança se cruzam. Isso levou o pessoal do blog do banco mundial a dizer que “[...] the confidence intervals of all three bins above the 30 percent debt/GDP threshold also overlap. On this (admittedly crude) basis, then, any claim that a 1 percent growth differential over a decade compounds is simply overstating the case made by the data.”

Isso não é verdade, o simples fato de os intervalos de 95% de confiança cruzarem não quer dizer nada, mesmo se você achasse que significância estatística pura fosse o ponto relevante aqui. Como vimos no exemplo anterior, super simples, os intervalos de confiança podem se cruzar e mesmo assim a diferença ser “estatisticamente significante” e indicar diferenças economicamente relevantes! Cientes do erro, os autores fizeram um postscript alertando para o fato e reduzindo o intervalo de confiança do gráfico para um erro-padrão. O problema é que mesmo nesse caso, se houver alguma forma de dependência entre as amostras (o que provavelmente é o caso), a comparação também não é correta.

Apesar da brincadeira do título, isso não foi uma “burrice” do Banco Mundial. Um problema que tenho encontrado ao discutir estes assuntos é que, em geral, as pessoas acham que somente somente journals de “baixa qualidade” publicam coisas deste tipo. Ledo engano… a incompreensão sobre intervalos de confiança, significância estatística, p-valores é pervasiva nas ciências sociais, inclusive em trabalhos aplicados nas melhores revistas e com os melhores pesquisadores!

PS: como havia dito em post anterior, o risco de escrever em blogs é não ter revisor. Agradeço ao Fábio Gomes por corrigir um erro primário constante na primeira e afobada versão deste post, escrita ontem de madrugada!

Conheça seus dados!


Trabalhando com dados de tempo de ligação (em segundos), o histograma estava assim:

ligacoes

Estranho, não? Parecia existir uma dependência curiosa, por que esses picos e vales?

Por um minuto, vieram hipóteses “interessantes”: como, por exemplo, a de que o ser humano tem uma tendência natural a conversar em intervalos mais ou menos discretos de tempo.

Dois minutos depois, a hipótese realista: os dados devem estar arredondados. E estavam. As ligações são contabilizadas de 6 em 6 segundos.

Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3


Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.

A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.

20130312-220846.jpg

Veja mais aplicações da estatística neste blog aqui e aqui.

Via Marginal Revolution.

P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

Como organizar dados de corte transversal?


Aparentemente esta pergunta não faria sentido. Afinal, por definição, se o dado é de corte-transversal, a ordem não interferiria na análise. A rigor, não importaria quem é o 1º dado, quem é o 2º dado, e assim por diante.

Todavia, nenhum dado é literalmente – stricto sensu – de corte transversal. Na verdade, o que define se o dado é uma “série temporal” ou “corte-transversal” não é sua natureza intrínseca, mas como ele foi ordenado. Na maioria dos casos, é impossível observar todos os indivíduos no mesmo período de tempo e o que de fato fazemos é julgar que a diferença temporal (ou espacial) entre uma coleta e outra é praticamente irrelevante para análise que queremos fazer. Só que às vezes essa ordem pode revelar informações (ou vieses) interessantes.

Recentemente, trabalhando com dados que seriam de corte transversal, parei para pensar na ordem que estavam dispostos. Eles estavam organizados aleatoriamente pelo sistema. Mas eu poderia recuperar as informações de preenchimento. E se eu organizasse os dados pela ordem de entrega do questionário? Ou pela ordem de início preenchimento? Será que valeria à pena esse esforço e seriam reveladas diferenças de correlação ou heterogeneidade uma vez que esse caráter “temporal” do dado fosse explicitado? Ainda não fiz este exercício e não tenho a resposta.

Mas, ao pensar nisso, lembrei na hora de um exemplo do livro texto do Aris Spanos, que gostaria de compartilhar. Ele utiliza dados de notas de alunos em uma prova, que não sei se são anedóticos ou reais*, mas que ilustram bem o ponto.

Os dados organizados por ordem alfabética tem o seguinte gráfico:

ordem_alfabetica

Pelo gráfico, os dados não parecem apresentar auto-correlação. Estimativas de um AR(1) e AR(2) apresentam coeficientes pequenos com coeficiente de variação grande. Isso juntamente à nossa crença a priori de que a ordem alfabética não deveria interferir nas notas, nos faz concluir que provavelmente não existe dependência nos dados.

Já a organização pela ordem dos assentos resulta no seguinte gráfico:

posicao_sentado

Esta figura, diferentemente da anterior, apresenta dependência nos dados. As notas parecem estar correlacionadas positivamente. O coeficiente de um AR(1) é bastante alto e sugere que notas altas estavam próximas de notas altas e, notas baixas, de notas baixas. A ordem dos dados, neste caso, pode ter revelado algo fundamental: para Spanos, por exemplo, isso é evidência de que houve muita cola durante a prova! Eu já diria que esta conclusão é precipitada. Outro fato que poderia explicar a correlação é o de que alunos com afinidades (e, consequentemente, notas parecidas) podem gostar de sentar juntos.

Mas a lição é clara: dados que tomamos como certo serem de “corte transversal” podem apresentar uma interessante dependência entre si quando observados com mais cuidado.

* o Spanos tem uns exemplos com dados curiosos. Neste post ele utiliza uma variável secreta X, que se sabe não ser correlacionada com a população dos EUA, para prever a população dos EUA. Ele mostra como uma regressão ingênua pode ter resultados espúrios, indicando, erroneamente, que a variável X explica a população. A variável X, supostamente, seria o número de sapatos que a vó de Spanos tinha em cada ano, desde 1955. Surge daí uma pergunta natural, feita por Corey:

“…how is it that Spanos has annual data on the number of pairs of shoes owned by his grandmother going back to 1955?”

Ao que Spanos responde.

“That’s easy! My grandmother would never throw away any shoes and each pair had a different story behind it; the stories I grew up with. Each pair was bought at a specific annual fair and it was dated.”

Como o cara é de Cyprus, sei lá, pode ser que essa resposta seja culturalmente plausível. Mas para um brasileiro é no mínimo estranha; eu prefiro acreditar que os dados sejam inventados do que acreditar que ele resolveu contabilizar o número de sapatos da avó em cada ano. Com relação aos dados das notas, uma possível pista de que talvez Spanos tenha inventado os dados é a de que, primeiro, ele diz que as notas são da matéria “Principles of Economics”. Depois, de que são da matéria “Macro-Economic Principles”. Mas, sejam os dados reais, ou fictícios, os exemplos continuam válidos!

Estatística no Google


Jeff Leek do Simply Statistics trouxe uma entrevista bacana com Nick Chamandy, um estatístico do Google.

Destaque para a parte em que ele diz que, na maioria dos casos, o estatístico que trabalha no Google não é somente responsável por fazer as análises, mas também por coletar e tratar os dados brutos.

In the vast majority of cases, the statistician pulls his or her own data — this is an important part of the Google statistician culture. It is not purely a question of self-sufficiency. There is a strong belief that without becoming intimate with the raw data structure, and the many considerations involved in filtering, cleaning, and aggregating the data, the statistician can never truly hope to have a complete understanding of the data. For massive and complex data, there are sometimes as many subtleties in whittling down to the right data set as there are in choosing or implementing the right analysis procedure

Esta é uma reflexão importante, principalmente para os (macro)economistas, que dependem em grande medida de dados de terceiros e podem acabar não tendo intimidade com a produção dos dados e o grau de acurácia das medidas.

PS.: o Google realmente parece ser a empresa dos sonhos para quem quer conciliar teoria e prática. Além da entrevista acima, veja Hal Varian aplicando teoria dos jogos na prática aqui.

Estatística na União Soviética


É bastante comum ver argumentos que são contra a liberdade econômica e, ao mesmo tempo, a favor da liberdade acadêmica, artística, de imprensa e de expressão em geral. Confunde-se – propositadamente ou não – democratização da mídia com financiamento público de propaganda ideológica, ou liberdade de imprensa com imprensa “neutra” ou “politicamente correta” (no sentido fluído que essas palavras ganham em cada contexto em que seu interlocutor usa).

Entretanto, ao menos no limite, há uma contradição inerente a este tipo de raciocínio; pois, uma vez que caiba a um órgão central definir quem exerce o quê em cada campo da esfera econômica, isto também abrange a atividade de professores, pesquisadores, jornalistas e artistas.

Se o único jornal a ser permitido no país é um jornal estatal, qual o incentivo para que notícias desfavoráveis ao governo circulem? Se as únicas universidades permitidas no país são estatais, qual o incentivo para que linhas de pesquisa que não agradem ao governo prosperem? E assim por diante. Sim, é possível contra-argumentar este argumento, e depois contra-argumentar o seu contra-argumento, e este é um debate acalorado e interessante; mas não será desenvolvido neste post. A ideia era apenas fazer uma introdução para comentar sobre a situação da ciência estatística na União Soviética na época de Stalin.

A Rússia produziu grandes estatísticos matemáticos, como Kolmogorov e Slutsky (sim, ele também é o mesmo que você estudou em microeconomia). Todavia, conforme se lê em  The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, o regime comunista considerava que todas as ciências sociais eram, na verdade, ciências de classe, e  deveriam estar subordinadas ao planejamento central do partido. Para eles, a estatística era uma ciência social. E o conceito de “aleatório” ou “erro-padrão” era algo absurdo em uma economia planejada. Nas palavras de Salsburg (p.147-148):

A palavra russa para variável aleatória se traduz como “magnitude acidental”. Para planejadores centrais e teóricos, isso era um insulto [...] nada poderia ocorrer por acaso. Magnitudes acidentais poderiam descrever coisas que ocorrem em economias capitalistas – não na Rússia. As aplicações da estatística matemática foram rapidamente reprimidas.

Como resultado os periódicos de estatística foram se extinguindo e os estatísticos matemáticos tiveram que, ou pesquisar assuntos estatísticos disfarçados com outros nomes, ou mudar de área. E enquanto os Estados Unidos utilizavam os desenvolvimentos dos teóricos russos na prática – como no controle de qualidade industrial – a Rússia teve que esperar algumas décadas, até o colapso da União Soviética, para ver o fruto de seus próprios cientistas aplicado à indústria.