Previsões para o impeachment 2


Neale diz que as chances de passar são de 96% (dados de hoje):

Captura de Tela 2016-04-12 às 21.00.49

No final do ano passado, as estimativas estavam em 0%.

Já Guilherme, Marcelo e Eduardo dizem que as chances são de praticamente 100% (dados de hoje):

Captura de Tela 2016-04-12 às 21.56.47

E as simulações do Regis mostram resultado semelhante (com ausência de 0%, dados de hoje) . Com 10% de ausência, por outro lado, o resultado se inverte:

Captura de Tela 2016-04-12 às 22.27.54Há outras previsões por aí?

PS: claro, há também as previsões do Vidente Carlinhos (feitas ano passado). Além do impeachment, aparentemente 2016 será um ano difícil para Ivete Sangalo. E Álvaro Dias será presidente, em 2018, pela Rede. Mas Carlinhos não tem lá um bom histórico.

Quando confiar nas suas previsões?


Quando você deve confiar em suas previsões? Como um amigo meu já disse, a resposta para essa questão é fácil: nunca (ou quase nunca).

Mas, brincadeiras à parte, para este post fazer sentido, vou reformular a pergunta: quando você deve desconfiar ainda mais das previsões do seu modelo?

Há várias situações em que isso ocorre, ilustremos aqui uma delas.

***

Imagine que você tenha as seguintes observações de x e y.

unnamed-chunk-1-1

 

Para modelar os dados acima, vamos usar uma técnica de machine learning chamada Suport Vector Machine com um núcleo radial. Se você nunca ouviu falar disso, você pode pensar na técnica, basicamente, como uma forma genérica de aproximar funções.

Será que nosso modelo vai fazer um bom trabalho?

unnamed-chunk-3-1

 

Pelo gráfico, é fácil ver que nossa aproximação ficou bem ajustada! Para ser mais exato, temos um R2 de 0.992 estimado por cross validation (que é uma estimativa do ajuste fora da amostra – e é isso o que importa, você não quer saber o quão bem você fez overfitting dos dados!).

Agora suponha que tenhamos algumas observações novas, isto é, observações nunca vistas antes. Só que essas observações novas serão de dois “tipos”, que aqui criativamente chamaremos de tipo 1 e tipo 2. Enquanto a primeira está dentro de um intervalo de x que observamos ao “treinar” nosso modelo, a segunda está em intervalos muito diferentes.

unnamed-chunk-4-1

Qual tipo de observação você acha que teremos mais dificuldades de prever, a de tipo 1 ou tipo 2? Você já deve ter percebido onde queremos chegar.

Vejamos, portanto, como nosso modelo se sai agora:

unnamed-chunk-5-1

Note que nas observações “similares” (tipo 1) o modelo foi excelente, mas nas observações “diferentes” (tipo 2) nós erramos – e erramos muito. Este é um problema de extrapolação.

Neste caso, unidimensional, foi fácil perceber que uma parte dos dados que gostaríamos de prever era bastante diferente dos dados que usamos para modelar. Mas, na vida real, essa distinção pode se tornar bastante difícil. Uma complicação simples é termos mais variáveis. Imagine um caso com mais de 20 variáveis explicativas – note que já não seria trivial determinar se novas observações são similares ou não às observadas!

Quer aprofundar mais um pouco no assunto? Há uma discussão legal no livro do Max Kuhn, que já mencionamos aqui no blog.

Previsões do primeiro turno: Google Trends (e Vidente Carlinhos)?


Os resultados do primeiro turno saíram e, mesmo com as evidências de ontem que apontavam para uma alta de Aécio Neves, surpreenderam: o candidato mineiro amealhou quase 34% dos votos, quando há pouco se estimava que conseguiria 15%! Os modelos de previsão, apesar de favorecerem Aécio quando atualizados com as pesquisas de sábado, não conseguiram capturar a magnitude da mudança, apontando para estimativas entre  21 a 26%.

Faz parte. Prever em meio a tanta incerteza (e pesquisas de metodologia duvidosa) é uma tarefa ingrata.

Por outro lado, o Google Trends (depois de corrigido com a dica do Gabriel Ferreira – valeu!) trouxe um indício bastante forte da subida de Aécio. E com uma coincidência aritmética, digamos, “mística”, quase ao estilo Vidente Carlinhos.  Uma regra de 3 com os dados do trends de sexta, considerando 40% para Dilma como base, trazia valores estimados de 35% para Aécio e 21% para Marina. Quase cravado.

Evidentemente, isso não passou de sorte, pois utilizando os dados disponíveis agora você estimaria que Aécio ultrapassou Dilma. Mas tampouco é somente algo curioso. Isto mostra o potencial do Google Trends no auxílio do “nowcasting”  das eleições, complementando os resultados das pesquisas para entender as tendências do eleitorado. O grande desafio aqui é separar o sinal do ruído, tanto das pesquisas, quanto das redes sociais e dos mecanismos de buscas, além de saber como juntar essas evidências de forma complementar e coerente.

No caso do Google, certamente o teor das buscas importa, lembre do caso do Pastor Everaldo.  E as buscas relacionadas que mais estavam crescendo eram aquelas que diziam respeito aos números dos candidatos. Ou seja, tinham relação direta com intenção de voto.

Aecio_numeroDepois dessa, é capaz de muita gente ficar de olho no Trends durante o segundo turno. Só espero que o Google tenha bons algoritmos para impedir que os bots dos partidos manipulem o indicador. Ou ainda, será que a relação continuará valendo, uma vez que as pessoas já tenham tido tempo de decorar os números de seus candidatos?

Dilma, Marina e Aécio no Google Trends, um dia antes das eleições


Mais uma antes das eleições amanhã: os Google Trends de Dilma, Marina e Aécio.  Já tínhamos visto essa busca antes, como ela está agora?

Diferentemente das pesquisas eleitorais, as pesquisas do Google não mostram uma ultrapassagem no interesse de busca pelo termo “Aécio Neves”.

UPDATE: O Google Trends tem uma sutileza que não havia percebido. A pesquisa considerando o tópico (repare no detalhe abaixo dos termos de busca: “Former Governor”, “President of Brazil” etc) mostra sim a ultrapassagem de Aécio em relação à MarinaA ressalva de sempre é válida: estes são dados de busca na internet; por favor, não confunda, não são dados de intenção de voto.  A despeito disso, não deixa de ser interessante acompanhar.

Aecio_na_frenteNa pesquisa anterior, abaixo, Marina e Aécio foram buscados como termos genéricos e Dilma não.

Dilma_R_Marina_S_Aecio_NCuriosidades: a pesquisa com termos genéricos mostra a busca Marina disparada na frente, seguida de Aécio e depois Dilma.

genericos

 

E a pesquisa com os nomes dos presidenciáveis sem os sobrenomes e como termos genéricos também mostra a busca “Marina” na frente. Todavia, sem saber direito o que essas duas pesquisas estão considerando, e como os termos sem sobrenome, como “Marina”, podem refletir outras buscas, não saberia dizer se essas medidas são as mais apropriadas. Ficam aqui como food for thought.

Dilma_Marina_Aecio

E aí, será que o Google Trends é uma boa proxy para intenção de voto? E quais os termos adequados a utilizar?

PS: Veja previsões para o resultado amanhã aqui e aqui (update).

Dilma, Marina e Aécio (e Pastor Everaldo?) no Google Trends!


Olhem que curioso o Google Trends das buscas pelos presidenciáveis, Dilma, Marina e Aécio, nos últimos 30 dias:

Trends

 

Por algum acaso, as tendências parecem refletir um pouco os resultados das pesquisas eleitorais. Dilma, em azul pontilhado, tinha o maior número de buscas. Até que, de repente, Marina – em vermelho –  a ultrapassou. Uma nota: o pico de Dilma Rousseff é fruto da entrevista no Jornal Nacional e, aparentemente, parece ter sido mais mérito de William Bonner do que da Presidenta, segundo os dados das pesquisas relacionadas.

BONNER

Mais recentemente, parece que as buscas estão se aproximando. Vendo apenas os últimos sete dias:

trends7dias

Vale ressaltar, logicamente, que os dados do Google Trends são dados de busca na internet; por favor, não são dados de intenção de voto.  Para ilustrar, vejamos o pastor Everaldo, em verde:

everaldo

 

Algo estranho para quem tem menos de 2% das intenções de votos. Entretanto, vejamos as buscas relacionadas:

peido_everaldo

 

Se você não entendeu, provavelmente foi um dos poucos que não viu este vídeo. Ou seja, não basta ver o número de buscas, mas também seu teor. A despeito dessas ressalvas, incluir o Google Trends como mais um dos inputs para previsão eleitoral talvez não seja uma má idéia.

PS: você pode brincar com essas pesquisa aqui!

Previsões para eleição no Brasil?


Ontem, me indicaram um site que está se aventurando nesta empreitada: Polling Data. O autor está utilizando dois modelos diferentes, um baseado na agregação das pesquisas eleitorais, e outro com base em variáveis estruturais (como o PIB). O interessante é que os modelos estão apresentando resultados diferentes agora depois da última pesquisa. Os resultados são confiáveis? Não saberia dizer, senti falta de uma avaliação do modelo proposto com previsões fora da amostra. Acompanhemos!

Conhece mais alguém que está modelando as eleições? Compartilhe!

PS: para quem usa R, dei uma olhada nos gráficos e código fonte e é provável que o autor esteja usando shiny e ggvis!