Dilma, Marina e Aécio (e Pastor Everaldo?) no Google Trends!


Olhem que curioso o Google Trends das buscas pelos presidenciáveis, Dilma, Marina e Aécio, nos últimos 30 dias:

Trends

 

Por algum acaso, as tendências parecem refletir um pouco os resultados das pesquisas eleitorais. Dilma, em azul pontilhado, tinha o maior número de buscas. Até que, de repente, Marina – em vermelho –  a ultrapassou. Uma nota: o pico de Dilma Rousseff é fruto da entrevista no Jornal Nacional e, aparentemente, parece ter sido mais mérito de William Bonner do que da Presidenta, segundo os dados das pesquisas relacionadas.

BONNER

Mais recentemente, parece que as buscas estão se aproximando. Vendo apenas os últimos sete dias:

trends7dias

Vale ressaltar, logicamente, que os dados do Google Trends são dados de busca na internet; por favor, não são dados de intenção de voto.  Para ilustrar, vejamos o pastor Everaldo, em verde:

everaldo

 

Algo estranho para quem tem menos de 2% das intenções de votos. Entretanto, vejamos as buscas relacionadas:

peido_everaldo

 

Se você não entendeu, provavelmente foi um dos poucos que não viu este vídeo. Ou seja, não basta ver o número de buscas, mas também seu teor. A despeito dessas ressalvas, incluir o Google Trends como mais um dos inputs para previsão eleitoral talvez não seja uma má idéia.

PS: você pode brincar com essas pesquisa aqui!

Previsões para eleição no Brasil?


Ontem, me indicaram um site que está se aventurando nesta empreitada: Polling Data. O autor está utilizando dois modelos diferentes, um baseado na agregação das pesquisas eleitorais, e outro com base em variáveis estruturais (como o PIB). O interessante é que os modelos estão apresentando resultados diferentes agora depois da última pesquisa. Os resultados são confiáveis? Não saberia dizer, senti falta de uma avaliação do modelo proposto com previsões fora da amostra. Acompanhemos!

Conhece mais alguém que está modelando as eleições? Compartilhe!

PS: para quem usa R, dei uma olhada nos gráficos e código fonte e é provável que o autor esteja usando shiny e ggvis!

Gráficos interativos com ggvis – apresentação do useR! 2014


O pessoal do RStudio apresentou, no useR! 2014, um novo pacote que integra a gramática de gráficos do ggplot2, a sintaxe intuitiva do magritrr, e a interatividade web do Shiny: o ggvis (clique no link para ver exemplos).

Abaixo, segue a apresentação do Winston Chang, disponibilizada pelo datascience.la.

O material da apresentação pode ser encontrado aqui.

Previsões para a copa: sem Neymar, Brasil ainda é favorito?


Segundo os mercados de apostas, não! No Betfair, o jogo Brasil e Alemanha está praticamente um cara-e-coroa, com 50.9% para a Alemanha e 49.1% para o Brasil. Ps: lembre que o Betfair é dinâmico, então essas probabilidades alteram ao longo do tempo.

Entretanto, segundo Nate Silver, sim! Talvez por conta do viés de se jogar em casa, o modelo do FiveThirtyEight dá ao Brasil 73% de chances de ganhar da Alemanha e 54% de ganhar a copa! Update: Nate Silver recalculou as probabilidades do Brasil sem o Neymar e reduziu as chances de ganharmos da Alemanha para algo entre 68% a 65%.

Emoções à parte, quem você acha que está certo?

Veja aqui o histórico de erro dessas previsões.

***

Também havia prometido comparar a calibração dos modelos, isto é, comparar as probabilidades previstas contra as freqüências observadas. Podemos fazer isso de diversas formas, mas achei um gráfico bacana no Cross Validated que é bem fácil de implementar e resolvi copiar para começarmos a brincadeira.

Segue, abaixo, gráfico com as probabilidades previstas (eixo X) contra as freqüências observadas (eixo Y) da primeira fase da copa do mundo para cada um dos modelos. Os círculos cinzas representam os dados observados (1 ou 0) e os círculos principais tem tamanho e cores proporcionais à quantidade de observações em sua categoria.

calibration

 

Mais para frente veremos outras formas de comparar esses resultados, incluindo os dados das eliminatórias!

Previsões para copa: modelos x mercado, como estão se saindo?


Com o fim da primeira fase da copa, chegou a hora de começar a comparar os diferentes modelos de previsão. Temos uma amostra que não é grande, mas é, de certa forma, razoável – foram 48 jogos!

Como comparar previsões? Em post anterior discutimos brevemente como fazer isso, e lá ilustramos com os modelos de Nate Silver e do Grupo de Modelagem Estatística no Esporte (GMEE), da USP/USFCAR.

Entretanto, além desses dois modelos, temos agora mais algumas novidades: como o Nate Silver atualiza suas previsões jogo a jogo,  pegamos também aquelas que valiam antes de cada partida. Dessa forma podemos verificar se essas mudanças foram benéficas ou não.

Além disso, com a dica do Pedro Sant’Anna, coletamos as probabilidades implícitas pelo mercado de apostas do Betfair, tanto aquelas que estavam valendo bem antes de todas as partidas, como aquelas que constavam no início do dia de cada jogo.

Temos, portanto, dois benchmarks para nossos previsores. O primeiro é o cético, que acredita que o futebol é muito imprevisível e que qualquer resultado (vitória, derrota ou empate) é equiprovável. Entretanto, se o cético parece um oponente muito fácil,  temos também as previsões do Betfair, que podem ser vistas como uma média do senso comum em relação a cada partida, e parecem trazer uma competição mais acirrada.

O gráfico com a evolução do erro médio dia após dia segue abaixo. Note que, quanto menor o erro, melhor. A linha tracejada verde marca o erro médio do cético, nosso benchmark mínimo (0.222). A linha sólida vermelha e a linha tracejada amarela representam o mercado, antes e após atualizar as probabilidades, nosso benchmark  mais rigoroso.

modelos_copa

Como no primeiro dia só houve um jogo (o do Brasil) que era relativamente mais fácil de acertar, todo mundo começou com um erro muito baixo, e isso deixa a escala do gráfico muito grande para enxergar as diferenças dos dias posteriores. Então vamos dar um zoom na imagem, considerando os valores a partir do dia 14, quando o erro médio dos modelos começa a se estabilizar:

modelos_copa_zoom

A primeira coisa a se notar é que tanto o Nate Silver quanto o GMEE foram, de maneira consistente, melhores do que o cético e do que mercado. Vale fazer uma pequena ressalva para o GMEE que, hoje, no último dia da primeira fase, se aproximou bastante do Betfair. Nate Silver, contudo, ainda mantém uma distância razoável.

Outra coisa interessante é que o modelo atualizado de Nate Silver realmente terminou com erro menor do que suas previsões no início da competição! É importante ter em mente que isso não é um resultado óbvio:  saber como incorporar informações novas na medida que surgem não é algo trivial. Como contra-exemplo temos o mercado, que, surpreendentemente, conseguiu fazer com que suas previsões atualizadas ficassem piores!

Por agora ficamos aqui. Mais para frente veremos alguns gráficos com a calibração dos modelos: será que, quando eles previam 40% de chances de um resultado acontecer, eles aconteceram mais ou menos 40% das vezes?

Mais dados da copa, jogo a jogo!


Qual a posição média dos jogadores na partida entre Brasil e Camarões? Como foram as jogadas de cada chute a gol? O Huffington Post, para cada jogo, traz esses e outros dados com gráficos interativos. Vale a pena conferir!

 

copaVia Cesar Hildago.

 

Previsões para a copa: “Roubo” de juiz já está no modelo?


Ontem, Nate Silver provavelmente torceu mais para o Brasil do que muitos brasileiros. Ele havia previsto que a Croácia tinha apenas 3% de chances de ganhar. E o gol contra do Marcelo, logo aos 11 minutos do primeiro tempo, deixou os croatas na liderança no início do jogo.

Note que, diferentemente dos demais palpiteiros  especialistas, que fazem previsões e comentários de maneira qualitativa – quase impossíveis de verificar depois – , a previsão do Nate era clara: as chances eram de 3%. Não eram 10% ou 20%. Sim,uma vitória da Croácia era possível… mas bastante improvável. Nate Silver teria de se explicar.

Entretanto, alguns minutos depois, eis que surge um pênalti roubado duvidoso para o Brasil que mudou os rumos da partida. Que sorte, não!?

Nem tanto.

Entre os fatores que o modelo do FiveThirtyEight pondera para calcular as chances de o Brasil ganhar a copa (que está bastante alta, 46%), um deles é justamente isso: estar jogando em casa. Aparentemente, no futebol, mais do que em muitos outros esportes, alguns lances conseguem determinar a partida fazendo com que o juiz acabe tendo muito poder.  E tem sido verificado, consistentemente, que juízes tendem a favorecer o anfitrião do jogo.  Se é pressão social, viés psicológico, “roubo”, ou qualquer outra razão, não importa muito neste caso. O fato é que isso ocorre e tem que ser levado em conta na hora de se fazer a previsão.

O bacana do modelo do Nate Silver é que ele está dando previsões jogo a jogo (coloquei baixo uma tabela com todas as probabilidades), então poderemos verificar sua calibração e comparar sua performance contra outros benchmarks. Futuramente explico como podemos fazer isso.  Outra coisa legal é que, como bom bayesiano, o modelo é recalculado jogo após jogo, levando em conta as novas informações nas probabilidades dos resultados. O jogo de ontem, como era o resultado esperado, alterou pouca coisa nas previsões.

E vale lembrar: sim, o Brasil ainda tem a probabilidade mais alta de ganhar entre todos os times – 46%. Só que isso implica também que, por enquanto, a probabilidade de não ganhar é de 54%. Acompanhemos!

jogos

 

Nate Silver – Previsões para a copa do mundo


Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.
20140609-213015-77415484.jpg
O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!

Visualizações dinâmicas dos investimentos estrangeiros no Brasil!


Os resultados do Censo de Capitais Estrangeiros no País, para o ano-base 2012, acabaram de ser divulgados no site do Banco Central do Brasil.

E, desta vez, o Censo trouxe duas novidades de visualização que merecem destaque:

Mapa do IED participação no capital, feito em D3.js:

Visualizar mapa

Treemap do IED participação no capital, com separações por país ou por setor, feito em D3plus.js:

Visualizar distribuição

Nas duas visualizações, vale a pena brincar com a distribuição do IED pelos critérios de país do investidor imediato e país do investidor final. Note que nem todas as combinações de país e setor são possíveis, pois esta abertura dos dados pode não estar disponível. O arquivo em formato xls pode ser baixado aqui.

Matriz insumo-produto do mundo


Esta é uma dica que eu não poderia deixar passar: a Comissão Européia bancou a construção de uma base de dados que praticamente acabou de sair do forno: o World Input-Output Database (WIOD) (não confunda com a Input-Output Tables da OCDE!). O projeto – que iniciou em 2009, mas só foi terminado em 2012 – utiliza dados do COMTRADE e matrizes insumo-produto domésticas para construir uma matriz insumo-produto das relações de comércio internacional. Os dados abrangem 40 países de 1995 a 2011.  Certamente vale a pena conferir!