Novo na lista de blogs: Dados Aleatórios


Blog novo na lista de blogs: o Dados Aleatórios.

O blog tem foco em programação e estatística. Em destaque, as boas dicas de R.

Vale a pena conferir!

 

Dilma, Marina e Aécio (e Pastor Everaldo?) no Google Trends!


Olhem que curioso o Google Trends das buscas pelos presidenciáveis, Dilma, Marina e Aécio, nos últimos 30 dias:

Trends

 

Por algum acaso, as tendências parecem refletir um pouco os resultados das pesquisas eleitorais. Dilma, em azul pontilhado, tinha o maior número de buscas. Até que, de repente, Marina – em vermelho –  a ultrapassou. Uma nota: o pico de Dilma Rousseff é fruto da entrevista no Jornal Nacional e, aparentemente, parece ter sido mais mérito de William Bonner do que da Presidenta, segundo os dados das pesquisas relacionadas.

BONNER

Mais recentemente, parece que as buscas estão se aproximando. Vendo apenas os últimos sete dias:

trends7dias

Vale ressaltar, logicamente, que os dados do Google Trends são dados de busca na internet; por favor, não são dados de intenção de voto.  Para ilustrar, vejamos o pastor Everaldo, em verde:

everaldo

 

Algo estranho para quem tem menos de 2% das intenções de votos. Entretanto, vejamos as buscas relacionadas:

peido_everaldo

 

Se você não entendeu, provavelmente foi um dos poucos que não viu este vídeo. Ou seja, não basta ver o número de buscas, mas também seu teor. A despeito dessas ressalvas, incluir o Google Trends como mais um dos inputs para previsão eleitoral talvez não seja uma má idéia.

PS: você pode brincar com essas pesquisa aqui!

Entrevista com David Smith do Revolution Analytics


Ok, peço perdão aos leitores que não são tão interessados assim em R. Mas as séries de entrevistas do Eduardo estão muito legais; então, provavelmente, veremos mais alguns desses posts por aqui. Desta vez, o entrevistado é David Smith do Revolution Analytics , empresa que tem uma versão do R direcionada para necessidades corporativas - o Revolution R Enterprise.

David fala um pouco sobre a recente transição do R do mundo acadêmico para o mundo empresarial, sobre a comunidade do R, sobre reproducibilidade entre outros tópicos. É uma entrevista curta, de menos de 15 minutos, vale a pena assistir.

Outra dica legal é o canal do youtube do próprio Revolution Analytics, com diversos webinars voltados para análise de dados.

 

useR! 2014 – Tutoriais


Estava devendo alguns comentários sobre o excelente useR! 2014, mas, devido à correria logo após o retorno, ainda não tinha conseguido sentar para escrever. Aqui seguem alguns comentários sobre os tutoriais, que mereceram um post separado. Um outro post sobre o encontro virá futuramente.

O primeiro dia foi composto de tutoriais de 3 horas, um pela manhã e outro à tarde. Pela manhã, assisti ao tutorial do Max Kuhn, sobre modelos de previsão no R, baseado no seu excelente livro Applied Predictive Modeling e no seu pacote para o R, caret (Classification and Regression Training). Max trabalha na Pfizer, então tem bastante experiência com modelos preditivos voltados para o mercado – em outras palavras, modelos que têm de funcionar. Isso é excelente, pois há um foco grande em como lidar com as técnicas na prática e como gerenciar seu fluxo de trabalho na análise de dados, uma lacuna presente em muitos livros de estatística e machine learning. Os slides e códigos do tutorial podem ser encontrados aqui.

IMG_0168

 

Entretanto, o custo de assistir ao tutorial do Max foi o de perder os outros, igualmente interessantes, que ocorreram simultaneamente. Em particular, alguns que não pude ver mas depois consultei o material foram: (i) Matt Dowle sobre o pacote data.table (para manipulação de dados). Se você ainda não conhece o data.table, está perdendo precioso tempo de vida. Eu literalmente acabei de juntar mais de 2 milhões de observações de imóveis com a função rbindlist instantaneamente, enquanto que com a função base do R demorava minutos. E (ii) Romain Francois sobre a integração do R com C++11 e seu pacote Rcpp11. Um interface simples para interagir com C++ e C++11 parece estar sendo a resposta para desenvolvimento de pacotes de alta performance no R. Meu interesse nesta assunto tem crescido particularmente pelo fato de simulações Bayesianas poderem ser computacionalmente muito intensas, então você acaba eventualmente tendo que se preocupar com performance. Não é muito legal esperar dias para um modelo rodar e, só depois, você descobrir um bug para ter que rodar tudo de novo.

Pela tarde assisti ao tutorial do Hadley Wickham sobre manipulação de dados com o dplyr. O dplyr é um pacote que tem o lado do bom dos dois mundos: uma sintaxe simples e amigável para dummies – ainda mais com o uso do pipe operator %>% do magrittr - juntamente com excelente performance (Romain e C++!).  Como eu já havia adotado o dplyr desde seu lançamento, assisti ao tutorial mais para prestigiar o Hadley do que para aprender.   Valeu a pena, a apresentação foi muito bacana!

IMG_0179

E, para variar, infelizmente não pude ir a dois tutorias que me chamaram a atenção em particular: (i) o do Ramnath, sobre documentos interativos com R, discutindo o rCharts, slidify, bem como soluções server side que têm surgido como Shiny e OpenCPU. E (ii) a apresentação do Dirk Eddelbuettel sobre o Rcpp.

Além dos tutoriais que mencionei, foram abordados temas como visualição dinâmica, modelos  de rede bayesiana, análise de dados espaciais entre diversos outros. Então,  se você ainda não tinha tido contato com estes assuntos/pacotes e quer se aprofundar,  eis aí uma boa oportunidade. Há bastante material para consulta e praticamente todos estão disponíveis no site!

Nate Silver – Previsões para a copa do mundo


Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.
20140609-213015-77415484.jpg
O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!

Visualizações dinâmicas dos investimentos estrangeiros no Brasil!


Os resultados do Censo de Capitais Estrangeiros no País, para o ano-base 2012, acabaram de ser divulgados no site do Banco Central do Brasil.

E, desta vez, o Censo trouxe duas novidades de visualização que merecem destaque:

- Mapa do IED participação no capital, feito em D3.js:

Visualizar mapa

- Treemap do IED participação no capital, com separações por país ou por setor, feito em D3plus.js:

Visualizar distribuição

Nas duas visualizações, vale a pena brincar com a distribuição do IED pelos critérios de país do investidor imediato e país do investidor final. Note que nem todas as combinações de país e setor são possíveis, pois esta abertura dos dados pode não estar disponível. O arquivo em formato xls pode ser baixado aqui.

Matriz insumo-produto do mundo


Esta é uma dica que eu não poderia deixar passar: a Comissão Européia bancou a construção de uma base de dados que praticamente acabou de sair do forno: o World Input-Output Database (WIOD) (não confunda com a Input-Output Tables da OCDE!). O projeto – que iniciou em 2009, mas só foi terminado em 2012 – utiliza dados do COMTRADE e matrizes insumo-produto domésticas para construir uma matriz insumo-produto das relações de comércio internacional. Os dados abrangem 40 países de 1995 a 2011.  Certamente vale a pena conferir!