Google Trends no R


O pacote gtrendsR está passando por uma reformulação e parece que vai ficar ainda mais fácil analisar dados do Google Trends no R. A nova versão ainda não está no CRAN, mas já pode ser testada pelo github. Para instalar:

install.packages("devtools")
devtools::install_github('PMassicotte/gtrendsR', ref = 'new-api')

A grande novidade dessa versão é que não será mais preciso fazer login no google trends para ter acesso. Para brasileiros, outra novidade é que os bugs com problema de encoding parecem estar diminuindo.

Vejamos um exemplo simples, pegando dados das buscas pelos nomes dos candidatos nas eleições de 2014 no Brasil:

library(gtrendsR)
eleicoes2014 <- gtrends(c("Dilma Rousseff", "Aécio Neves", "Marina Silva"), geo = c("BR"), time = "2014-01-01 2014-12-31")
plot(eleicoes2014)

rplot01

Para ilustrar novamente, vejamos um exemplo mais recente — as buscas pelos nomes dos candidatos das eleições norte-americanas:

USelections2016 <- gtrends(c("Donald Trump", "Hillary Clinton"), geo = c("US"), time = "2016-01-01 2016-12-31")
plot(USelections2016)

rplot

Dilma, Marina e Aécio no Google Trends, um dia antes das eleições


Mais uma antes das eleições amanhã: os Google Trends de Dilma, Marina e Aécio.  Já tínhamos visto essa busca antes, como ela está agora?

Diferentemente das pesquisas eleitorais, as pesquisas do Google não mostram uma ultrapassagem no interesse de busca pelo termo “Aécio Neves”.

UPDATE: O Google Trends tem uma sutileza que não havia percebido. A pesquisa considerando o tópico (repare no detalhe abaixo dos termos de busca: “Former Governor”, “President of Brazil” etc) mostra sim a ultrapassagem de Aécio em relação à MarinaA ressalva de sempre é válida: estes são dados de busca na internet; por favor, não confunda, não são dados de intenção de voto.  A despeito disso, não deixa de ser interessante acompanhar.

Aecio_na_frenteNa pesquisa anterior, abaixo, Marina e Aécio foram buscados como termos genéricos e Dilma não.

Dilma_R_Marina_S_Aecio_NCuriosidades: a pesquisa com termos genéricos mostra a busca Marina disparada na frente, seguida de Aécio e depois Dilma.

genericos

 

E a pesquisa com os nomes dos presidenciáveis sem os sobrenomes e como termos genéricos também mostra a busca “Marina” na frente. Todavia, sem saber direito o que essas duas pesquisas estão considerando, e como os termos sem sobrenome, como “Marina”, podem refletir outras buscas, não saberia dizer se essas medidas são as mais apropriadas. Ficam aqui como food for thought.

Dilma_Marina_Aecio

E aí, será que o Google Trends é uma boa proxy para intenção de voto? E quais os termos adequados a utilizar?

PS: Veja previsões para o resultado amanhã aqui e aqui (update).

UPDATE: Previsões para eleições: o que estão dizendo para amanhã? Atualização com as pesquisas de hoje.


A vantagem de um modelo bayesiano é a a forma coerente de atualizar as probabilidades frente às novas informações. E o Polling Data atualizou suas previsões, agora à tarde, considerando as novas pesquisas eleitorais: são 79% de chances para Aécio ir ao segundo turno.

pollingdata2

As estimativas pontuais ficaram em 40% para Dilma, 24% para Aécio e 21% para Marina.  Leia um pouco mais sobre o assunto no blog do Neale.

Daniel Marcelino também havia atualizado as probabilidades, com 40% para Dilma, 23% para Aécio e 22% para Marina.

Previsões para eleições: o que estão dizendo para amanhã?


O que o pessoal que se aventurou nesta empreitada está chutando dizendo um dia antes da contenda eleitoral?

Acredito que há dois eventos que devem ser vistos com mais atenção: (i) uma possível eleição da Dilma no primeiro turno; e (ii) a possibilidade de Aécio ultrapassar Marina e ir para o segundo turno.

Polling Data

UPDATE: O Polling Data atualizou as probabilidades com as novas pesquisas eleitorais. Agora são 79%  de chances para Aécio ir ao segundo turno. Leia mais no blog do Neale.

pollingdata2

Os resultados a seguir eram da previsão pela manhã, antes das novas pesquisas.

Neale El-Dash, do Polling Data, está dando apenas 2% de chances de não ter segundo turno. Já para o Aécio passar Marina, a probabilidade está em cerca de 22% – baixa, mas plausível. Grosso modo, isto é uma em cada 4 ou 5 vezes.

pollingdata

A previsão mais recente dos votos está em 39% para Dilma, 23% para Marina e 21% para Aécio.

Daniel Marcelino

As previsões mais recentes do Daniel são: 39% para Dilma, 23% para Marina e 18% para Aécio. Considerando somente os votos válidos, esses números passariam para: Dilma 46%; Marina 28%; e, Aecio 22%.

Com relação a Aécio ultrapassar Marina, as chances parecem um pouco menores do que no modelo de Neale. No olhomêtro, com o gráfico abaixo, está em algo em torno de 5%. E o segundo turno também parece bastante provável.

Marina_Aecio

Vidente Carlinhos

Para não ficar só com os modelos Bayesianos, vamos colocar algo místico no páreo: o vidente Carlinhos, que ficou famoso por “prever” a derrota do Brasil e a “saída” de Neymar durante a copa.  Pense no Carlinhos como um grupo de controle. Há vários outros “videntes” por aí que poderiam ser incluídos, mas esse é o mais divertido.  O interessante da previsão do Carlinhos é que ela é ousada (algo natural para quem não tem nada a perder, pois se acertar leva a fama e se errar pode dar uma desculpa): Aécio não somente ultrapassaria Marina, como ganharia a eleição no segundo turno.  Note que essa previsão tem baixa probabilidade nos dois modelos bayesianos. Entretanto, o problema principal da previsão do vidente é que ela não é probabilística. Deste modo, acertando ou errando, não conseguimos mensurar direito o quanto ele acertou ou errou – algo fundamental para comparar modelos de previsão – e que podemos fazer com as outras elencadas acima. 

***

Conhece mais alguma previsão? Informe aqui para que possamos acompanhar e ver quem se saiu melhor.

Dilma, Marina e Aécio (e Pastor Everaldo?) no Google Trends!


Olhem que curioso o Google Trends das buscas pelos presidenciáveis, Dilma, Marina e Aécio, nos últimos 30 dias:

Trends

 

Por algum acaso, as tendências parecem refletir um pouco os resultados das pesquisas eleitorais. Dilma, em azul pontilhado, tinha o maior número de buscas. Até que, de repente, Marina – em vermelho –  a ultrapassou. Uma nota: o pico de Dilma Rousseff é fruto da entrevista no Jornal Nacional e, aparentemente, parece ter sido mais mérito de William Bonner do que da Presidenta, segundo os dados das pesquisas relacionadas.

BONNER

Mais recentemente, parece que as buscas estão se aproximando. Vendo apenas os últimos sete dias:

trends7dias

Vale ressaltar, logicamente, que os dados do Google Trends são dados de busca na internet; por favor, não são dados de intenção de voto.  Para ilustrar, vejamos o pastor Everaldo, em verde:

everaldo

 

Algo estranho para quem tem menos de 2% das intenções de votos. Entretanto, vejamos as buscas relacionadas:

peido_everaldo

 

Se você não entendeu, provavelmente foi um dos poucos que não viu este vídeo. Ou seja, não basta ver o número de buscas, mas também seu teor. A despeito dessas ressalvas, incluir o Google Trends como mais um dos inputs para previsão eleitoral talvez não seja uma má idéia.

PS: você pode brincar com essas pesquisa aqui!