Previsões para a copa: sem Neymar, Brasil ainda é favorito?


Segundo os mercados de apostas, não! No Betfair, o jogo Brasil e Alemanha está praticamente um cara-e-coroa, com 50.9% para a Alemanha e 49.1% para o Brasil. Ps: lembre que o Betfair é dinâmico, então essas probabilidades alteram ao longo do tempo.

Entretanto, segundo Nate Silver, sim! Talvez por conta do viés de se jogar em casa, o modelo do FiveThirtyEight dá ao Brasil 73% de chances de ganhar da Alemanha e 54% de ganhar a copa! Update: Nate Silver recalculou as probabilidades do Brasil sem o Neymar e reduziu as chances de ganharmos da Alemanha para algo entre 68% a 65%.

Emoções à parte, quem você acha que está certo?

Veja aqui o histórico de erro dessas previsões.

***

Também havia prometido comparar a calibração dos modelos, isto é, comparar as probabilidades previstas contra as freqüências observadas. Podemos fazer isso de diversas formas, mas achei um gráfico bacana no Cross Validated que é bem fácil de implementar e resolvi copiar para começarmos a brincadeira.

Segue, abaixo, gráfico com as probabilidades previstas (eixo X) contra as freqüências observadas (eixo Y) da primeira fase da copa do mundo para cada um dos modelos. Os círculos cinzas representam os dados observados (1 ou 0) e os círculos principais tem tamanho e cores proporcionais à quantidade de observações em sua categoria.

calibration

 

Mais para frente veremos outras formas de comparar esses resultados, incluindo os dados das eliminatórias!

Mais dados da copa, jogo a jogo!


Qual a posição média dos jogadores na partida entre Brasil e Camarões? Como foram as jogadas de cada chute a gol? O Huffington Post, para cada jogo, traz esses e outros dados com gráficos interativos. Vale a pena conferir!

 

copaVia Cesar Hildago.

 

Nate Silver – Previsões para a copa do mundo


Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.
20140609-213015-77415484.jpg
O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!

Visualizações dinâmicas dos investimentos estrangeiros no Brasil!


Os resultados do Censo de Capitais Estrangeiros no País, para o ano-base 2012, acabaram de ser divulgados no site do Banco Central do Brasil.

E, desta vez, o Censo trouxe duas novidades de visualização que merecem destaque:

Mapa do IED participação no capital, feito em D3.js:

Visualizar mapa

Treemap do IED participação no capital, com separações por país ou por setor, feito em D3plus.js:

Visualizar distribuição

Nas duas visualizações, vale a pena brincar com a distribuição do IED pelos critérios de país do investidor imediato e país do investidor final. Note que nem todas as combinações de país e setor são possíveis, pois esta abertura dos dados pode não estar disponível. O arquivo em formato xls pode ser baixado aqui.

Dúvidas no R ou Python? Vá ao StackOverflow em Português!


O famoso site de programação StackOverflow (SO) ganhou uma versão tupiniquim.

O SO é um excelente site de perguntas e respostas. Seu diferencial é ser direto: as perguntas têm que ser bem definidas e as  respostas têm de resolver diretamente o problema. Quer saber, por exemplo, como agregar uma base de dados no R? Pergunte lá e surgirão várias respostas diferentes de como se fazer isso.

Ainda há poucos usuários ativos no R do SO em português. Mas estamos fazendo um esforço para popular o site com perguntas e respostas. Você pode fazer perguntas sobre problemas que está enfrentando atualmente ou, inclusive, registrar perguntas e respostas que você já sabe, como, por exemplo, aqui (gráfico em 3d), aqui (barplot) ou aqui (contar ocorrências em um vetor) – alguém certamente passará pela mesma dificuldade e a solução que você encontrou para o problema pode ser útil. Ou, ainda, outro usuário pode ter uma solução mais interessante do que a que você propôs. De uma olhada nas perguntas que já foram feitas sobre R aqui.

Se você usa  R (Python), cadaste-se no StackOverflow em Português e ajude o site a crescer! Podemos torná-lo um ótimo ambiente para a comunidade brasileira de R, tal como é hoje o SO em inglês.

Complexity Explorer


Além da análise de redes, outro tema correlato e que tende a render bons frutos na economia é o da análise de sistemas complexos.

Espero tratar mais deste assunto futuramente, mas, antes, não poderia deixar de passar uma dica para quem deseja iniciar os estudos na área: o site Complexity Explorer.

O curso Introduction to Complexity está para terminar agora em Janeiro e o Introduction to Dynamical Systems and Chaos acabou de começar.

Análise de redes e Moviegalaxies: seu filmes preferidos de uma forma que você nunca viu


Um campo de estudos que pode render muitos frutos na economia é o de análise de redes. Para quem tem curiosidade, há um curso bem interessante de análise de redes sociais no Coursera.

Mas, na verdade, o objetivo deste post é o de divulgar um site bem bacana, Moviegalaxies, que faz análise de rede com os personagens de filmes (você inclusive pode baixar os dados para o Gephi).

Um dos gráficos de que gostei é a o da rede de  “O Poderoso Chefão: parte II”:

The Godfather Part II

Mapas (e mais mapas) dos EUA no século XIX


Um livro e um site, com um blog, sobre os mais diversos mapas criados nos Estados Unidos no século XIX.

Abaixo, um exemplo – um mapa de onde ficavam as casas de jogos e prostituição em Chinatown, em São Francisco.

Chinatown

Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 – Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

Mais Google: previsões de gripe e de dengue em “tempo real”


Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.

Agora, veja a empresa fornecendo mapas com tendências de gripe  e  de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.

Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:

Dengue

Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:

Dengue 2

Impressionante.

Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).

Via Marginal Revolution