Dúvidas no R ou Python? Vá ao StackOverflow em Português!


O famoso site de programação StackOverflow (SO) ganhou uma versão tupiniquim.

O SO é um excelente site de perguntas e respostas. Seu diferencial é ser direto: as perguntas têm que ser bem definidas e as  respostas têm de resolver diretamente o problema. Quer saber, por exemplo, como agregar uma base de dados no R? Pergunte lá e surgirão várias respostas diferentes de como se fazer isso.

Ainda há poucos usuários ativos no R do SO em português. Mas estamos fazendo um esforço para popular o site com perguntas e respostas. Você pode fazer perguntas sobre problemas que está enfrentando atualmente ou, inclusive, registrar perguntas e respostas que você já sabe, como, por exemplo, aqui (gráfico em 3d), aqui (barplot) ou aqui (contar ocorrências em um vetor) - alguém certamente passará pela mesma dificuldade e a solução que você encontrou para o problema pode ser útil. Ou, ainda, outro usuário pode ter uma solução mais interessante do que a que você propôs. De uma olhada nas perguntas que já foram feitas sobre R aqui.

Se você usa  R (Python), cadaste-se no StackOverflow em Português e ajude o site a crescer! Podemos torná-lo um ótimo ambiente para a comunidade brasileira de R, tal como é hoje o SO em inglês.

Complexity Explorer


Além da análise de redes, outro tema correlato e que tende a render bons frutos na economia é o da análise de sistemas complexos.

Espero tratar mais deste assunto futuramente, mas, antes, não poderia deixar de passar uma dica para quem deseja iniciar os estudos na área: o site Complexity Explorer.

O curso Introduction to Complexity está para terminar agora em Janeiro e o Introduction to Dynamical Systems and Chaos acabou de começar.

Análise de redes e Moviegalaxies: seu filmes preferidos de uma forma que você nunca viu


Um campo de estudos que pode render muitos frutos na economia é o de análise de redes. Para quem tem curiosidade, há um curso bem interessante de análise de redes sociais no Coursera.

Mas, na verdade, o objetivo deste post é o de divulgar um site bem bacana, Moviegalaxies, que faz análise de rede com os personagens de filmes (você inclusive pode baixar os dados para o Gephi).

Um dos gráficos de que gostei é a o da rede de  “O Poderoso Chefão: parte II”:

The Godfather Part II

Mapas (e mais mapas) dos EUA no século XIX


Um livro e um site, com um blog, sobre os mais diversos mapas criados nos Estados Unidos no século XIX.

Abaixo, um exemplo – um mapa de onde ficavam as casas de jogos e prostituição em Chinatown, em São Francisco.

Chinatown

Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 - Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

Mais Google: previsões de gripe e de dengue em “tempo real”


Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.

Agora, veja a empresa fornecendo mapas com tendências de gripe  e  de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.

Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:

Dengue

Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:

Dengue 2

Impressionante.

Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).

Via Marginal Revolution

Estatística no Google


Jeff Leek do Simply Statistics trouxe uma entrevista bacana com Nick Chamandy, um estatístico do Google.

Destaque para a parte em que ele diz que, na maioria dos casos, o estatístico que trabalha no Google não é somente responsável por fazer as análises, mas também por coletar e tratar os dados brutos.

In the vast majority of cases, the statistician pulls his or her own data — this is an important part of the Google statistician culture. It is not purely a question of self-sufficiency. There is a strong belief that without becoming intimate with the raw data structure, and the many considerations involved in filtering, cleaning, and aggregating the data, the statistician can never truly hope to have a complete understanding of the data. For massive and complex data, there are sometimes as many subtleties in whittling down to the right data set as there are in choosing or implementing the right analysis procedure

Esta é uma reflexão importante, principalmente para os (macro)economistas, que dependem em grande medida de dados de terceiros e podem acabar não tendo intimidade com a produção dos dados e o grau de acurácia das medidas.

PS.: o Google realmente parece ser a empresa dos sonhos para quem quer conciliar teoria e prática. Além da entrevista acima, veja Hal Varian aplicando teoria dos jogos na prática aqui.

Comunidades tribais são mais violentas? O quão próxima é a distribuição normal? O papel do BNDES.


Alguns links aleatórios.

1) Não existe má publicidade 2 (o primeiro foi com relação ao livro do Sandel). Recém publicado livro do Jared Diamond (The World Until Yesterday: What Can We Learn from Traditional Societies?) parece ter provocado a ira (aqui e aqui) de grupos defensores das comunidades tribais. Resultado: comprei a versão para Kindle.

(Via Marginal Revolution)

2) Seguem alguns posts do Larry Wasserman que queria compartilhar há algum tempo, mas havia procrastinado:

- Review do livro de Nassim Taleb, Antifragile: Things That Gain from Disorder, apenas lido pela metade (because only sissy fragilistas finish a book before reviewing it);

- Sobre bootstrapping I e II;

- Sobre teoremas de upper-bound para erros de aproximação pela curva normal (vale conferir uma sugestão que surgiu nos comentários do post, um texto histórico, bacana, sobre robustez do Stigler).

3) Sobre o papel do BNDES. Artigo de Maurício Canêdo Pinheiro, no Estadão, bota em xeque a efetividade da instituição. Como suporte, menciona o working paper do Lazzarini (What Do Development Banks Do? Evidence from Brazil, 2002-2009). Lembro-me de terem comentado bastante sobre esse artigo na última Anpec, e tenho de confessar que as conclusões do paper são bastante alinhadas com minhas crenças e intuições a priori. A despeito disso, com base em uma passada de olho, fiquei na dúvida se os dados apresentados corroboram conclusões fortes. Para não falar mais sem ler com o devido cuidado, isso fica para outro dia.

100 anos de Milton Friedman


Hoje Milton Friedman faria 100 anos. Vale à pena tirar um momento para alguns dos diversos vídeos elencados no canal Free to Choose e ver um dos mais argutos economistas em ação. Deixo abaixo dois do Tyranny of Status Quo: