useR! 2014 – Entrevistas com JJ Allaire e Joe Cheng


Excelente entrevista com o criador do RStudio, JJ Allaire. A combinação R+Rstudio certamente é um dos melhores e mais fáceis ambientes gratuitos para a análise interativa de dados, virtualmente sem competição se considerarmos usuários que não são desenvolvedores de software (a maioria). Sem contar os desenvolvimentos recentes de pacotes como knitr e packrat para reproducibilidade de pesquisas, ou shiny e ggvis para aplicativos web.

Aproveitando, vale a pena também ver a entrevista com Joe Cheng, engenheiro de software do RStudio, um dos responsáveis pelo shiny.

Via datascience.la.

dplyr 0.3


Carlos Cinelli:

Excelente update no dplyr! A principal mudança é a facilidade para programar, permitindo que você utilize mais facilmente o dplyr em suas próprias funções/pacotes (sem ter que ficar fazendo malabarismos com eval e substitute).

Postado originalmente em RStudio Blog:

I’m very pleased to announce that dplyr 0.3 is now available from CRAN. Get the latest version by running:

install.packages("dplyr")

There are four major new features:

  • Four new high-level verbs: distinct(), slice(), rename(), and transmute().
  • Three new helper functions between, count(), and data_frame().
  • More flexible join specifications.
  • Support for row-based set operations.

There are two new features of interest to developers. They make it easier to write packages that use dplyr:

  • It’s now much easier to program with dplyr (using standard evaluation).
  • Improved database backends.

I describe each of these in turn below.

New verbs

distinct() returns distinct (unique) rows of a table:

library(nycflights13) # Find all origin-destination pairs flights %>% select(origin, dest) %>% distinct() #> Source: local data frame [224 x 2] #> #> origin dest #> 1 EWR IAH #> 2 LGA IAH #> 3 JFK MIA #> 4 JFK BQN…

Ver original 1.285 mais palavras

Votos e Bolsa Família: correlação se mantém quando controlada por estado?


Fábio Vasconcellos e Daniel Lima fizeram alguns gráficos interessantes sobre a correlação de algumas variáveis socioeconômicas e o percentual de votos recebidos por cada candidato. Um deles – e que sempre suscita polêmica – é a relação entre percentual de votos versus percentual de pessoas beneficiadas pelo bolsa família por município. Segue uma reprodução do gráfico abaixo, feita no R com o ggplot2.

geral

Entretanto, esta relação me gerou a seguinte dúvida: será que a correlação se mantém dentro de cada UF? Por exemplo, Aécio ganhou em SP, SC e MT. Nesses estados, também houve correlação negativa do BF para o candidato tucano?

Aparentemente, sim, conforme pode ser visto no gráfico abaixo. E a separação por estado também indica que a correlação do BF com votos para Marina foi negativa em grande parte das UF’s. Um estado que chama a atenção é Minas Gerais, em que estas relações se parecem bem acentuadas.

estados

PS: vale lembrar que este blog frisa, constantemente, que correlação não implica em causalidade. Sobre este ponto, leia estes outros posts aqui.

PS2: os dados em formato rds (do R) podem ser baixados aqui.

Previsões do primeiro turno: Google Trends (e Vidente Carlinhos)?


Os resultados do primeiro turno saíram e, mesmo com as evidências de ontem que apontavam para uma alta de Aécio Neves, surpreenderam: o candidato mineiro amealhou quase 34% dos votos, quando há pouco se estimava que conseguiria 15%! Os modelos de previsão, apesar de favorecerem Aécio quando atualizados com as pesquisas de sábado, não conseguiram capturar a magnitude da mudança, apontando para estimativas entre  21 a 26%.

Faz parte. Prever em meio a tanta incerteza (e pesquisas de metodologia duvidosa) é uma tarefa ingrata.

Por outro lado, o Google Trends (depois de corrigido com a dica do Gabriel Ferreira – valeu!) trouxe um indício bastante forte da subida de Aécio. E com uma coincidência aritmética, digamos, “mística”, quase ao estilo Vidente Carlinhos.  Uma regra de 3 com os dados do trends de sexta, considerando 40% para Dilma como base, trazia valores estimados de 35% para Aécio e 21% para Marina. Quase cravado.

Evidentemente, isso não passou de sorte, pois utilizando os dados disponíveis agora você estimaria que Aécio ultrapassou Dilma. Mas tampouco é somente algo curioso. Isto mostra o potencial do Google Trends no auxílio do “nowcasting”  das eleições, complementando os resultados das pesquisas para entender as tendências do eleitorado. O grande desafio aqui é separar o sinal do ruído, tanto das pesquisas, quanto das redes sociais e dos mecanismos de buscas, além de saber como juntar essas evidências de forma complementar e coerente.

No caso do Google, certamente o teor das buscas importa, lembre do caso do Pastor Everaldo.  E as buscas relacionadas que mais estavam crescendo eram aquelas que diziam respeito aos números dos candidatos. Ou seja, tinham relação direta com intenção de voto.

Aecio_numeroDepois dessa, é capaz de muita gente ficar de olho no Trends durante o segundo turno. Só espero que o Google tenha bons algoritmos para impedir que os bots dos partidos manipulem o indicador. Ou ainda, será que a relação continuará valendo, uma vez que as pessoas já tenham tido tempo de decorar os números de seus candidatos?

Dilma, Marina e Aécio no Google Trends, um dia antes das eleições


Mais uma antes das eleições amanhã: os Google Trends de Dilma, Marina e Aécio.  Já tínhamos visto essa busca antes, como ela está agora?

Diferentemente das pesquisas eleitorais, as pesquisas do Google não mostram uma ultrapassagem no interesse de busca pelo termo “Aécio Neves”.

UPDATE: O Google Trends tem uma sutileza que não havia percebido. A pesquisa considerando o tópico (repare no detalhe abaixo dos termos de busca: “Former Governor”, “President of Brazil” etc) mostra sim a ultrapassagem de Aécio em relação à MarinaA ressalva de sempre é válida: estes são dados de busca na internet; por favor, não confunda, não são dados de intenção de voto.  A despeito disso, não deixa de ser interessante acompanhar.

Aecio_na_frenteNa pesquisa anterior, abaixo, Marina e Aécio foram buscados como termos genéricos e Dilma não.

Dilma_R_Marina_S_Aecio_NCuriosidades: a pesquisa com termos genéricos mostra a busca Marina disparada na frente, seguida de Aécio e depois Dilma.

genericos

 

E a pesquisa com os nomes dos presidenciáveis sem os sobrenomes e como termos genéricos também mostra a busca “Marina” na frente. Todavia, sem saber direito o que essas duas pesquisas estão considerando, e como os termos sem sobrenome, como “Marina”, podem refletir outras buscas, não saberia dizer se essas medidas são as mais apropriadas. Ficam aqui como food for thought.

Dilma_Marina_Aecio

E aí, será que o Google Trends é uma boa proxy para intenção de voto? E quais os termos adequados a utilizar?

PS: Veja previsões para o resultado amanhã aqui e aqui (update).

Você Fiscal: ajude a fiscalizar o processo eleitoral brasileiro.


Aproveitando os posts sobre eleição, divulgo aqui o Você Fiscal, iniciativa do professor Diego Aranha. A idéia é que eleitores tirem fotos do Boletim de Urna logo após o encerramento das eleições para realizar uma apuração independente dos resultados. Há um aplicativo para Android, mas você também pode participar sem o aplicativo. Confira abaixo o vídeo sobre o projeto: