Simulando modelos baseados em agentes no R


Rogério começou uma série de posts sobre Agent-Based Models (Modelos Baseados em Agentes) no R. O primeiro post é uma breve explicação sobre Reference Classes e  o segundo post descreve um modelo simples de Predador e Presa.  Vale a pena conferir.

Previsões para o impeachment 2


Neale diz que as chances de passar são de 96% (dados de hoje):

Captura de Tela 2016-04-12 às 21.00.49

No final do ano passado, as estimativas estavam em 0%.

Já Guilherme, Marcelo e Eduardo dizem que as chances são de praticamente 100% (dados de hoje):

Captura de Tela 2016-04-12 às 21.56.47

E as simulações do Regis mostram resultado semelhante (com ausência de 0%, dados de hoje) . Com 10% de ausência, por outro lado, o resultado se inverte:

Captura de Tela 2016-04-12 às 22.27.54Há outras previsões por aí?

PS: claro, há também as previsões do Vidente Carlinhos (feitas ano passado). Além do impeachment, aparentemente 2016 será um ano difícil para Ivete Sangalo. E Álvaro Dias será presidente, em 2018, pela Rede. Mas Carlinhos não tem lá um bom histórico.

Como o Banco Central monitora os possíveis impactos da Operação Lava Jato?


Para quem tiver curiosidade, segue vídeo com breve explicação do Diretor de Fiscalização Anthero Meirelles sobre como o Banco Central do Brasil mapeia exposições e riscos de contágio da Operação Lava Jato:

Pesquisas eleitorais: Veritá ou DataFolha? Sobre metodologia e margens de erro.


As eleições têm trazido ao público um debate importante sobre estatística e incerteza. Em um dia, o Datafolha indica 52% dos votos para a Dilma. No dia seguinte, o Instituto Veritá contabiliza 53% do votos para Aécio. Como conciliar isso com as pequenas margens de erro sugeridas pelas pesquisas?

O problema é que, em geral, as margens de erro das pesquisas são divulgadas como se tivessem sido feitas por amostragem aleatória simples.  Mas, na verdade, as pesquisas têm um processo de amostragem mais complexo, sujeito a outros tipos de erros. Um texto legal sobre o assunto é este, do Rogério.

E para complicar ainda mais, os institutos usam métodos diferentes. Por exemplo, olhando as últimas duas pesquisas presidenciais, aparentemente a pesquisa do Instituto Veritá foi uma Amostragem Probabilística por Cotas com entrevistas por domicílios (e também com o uso de ponto de fluxo onde a entrevista domiciliar não fosse possível – vide aqui); e, a do DataFolha, uma Amostragem por Cotas com entrevistas por ponto de fluxo (vide aqui).

Esses métodos, apesar de terem nomes semelhantes, segundo Neale El-Dash não são tão semelhantes assim:

Anteriormente já escrevi sobre a diferença entre as pesquisas denominadas “Amostragem por Cotas” (AC) e as denominadas “Amostragem Probabilística por Cotas” (APC). Existe apenas uma semelhança entre as duas metodologias: ambas têm a palavra “Cotas” no nome, indicando que não são probabilísticas. Isso não quer dizer que sejam iguais. Pelo contrário, existem muitas diferenças entre elas, vou mencionar algumas abaixo: 

1-   Na APC as entrevistas são domiciliares. Na AC as entrevistas são realizadas em pontos de fluxo. Como o Carvalho diz em seu texto: “os pontos de concentração podem ser shoppings, esquinas de ruas movimentadas, ou seja, lugares onde é fácil preencher as cotas”. 

2-  Na APC existe muito controle sobre o entrevistador e a sua liberdade de escolha dos entrevistados. Ele tem que percorrer um trajeto muito restrito com critérios claros e objetivos.  Na AC, o entrevistador escolhe quem quiser, contanto que esteja nas cotas.  

3- Na APC, existe um controle geográfico excelente, equivalente ao que se poderia obter em qualquer amostra probabilística. Na AC, as pesquisas acabam tendo uma aglomeração geográfica muito maior. 

4- Na APC o objetivo das cotas é controlar a probabilidade de resposta das pessoas. Na AC, o objetivo é reproduzir características demográficas da população alvo.

(…) as metodologias (e as criticas) são muito diferentes. Mais importante, existe um efeito negativo importante na qualidade da AC pelo fato das entrevistas serem realizadas em pontos de fluxo. Apenas para exemplificar, no artigo [Ref2] sobre AC, os autores dizem que os maiores vícios encontrados na comparação foram: 1) A distribuição geográfica da amostragem por cotas (AC) era mais aglomerada, 2) na amostragem probabilística (aquela da prática, com voltas e substituições) havia mais não-resposta na variável de renda e 3) foram observadas mais pessoas na categoria sem renda/com renda baixa e renda alta do que na AC.

(…)

Meu ponto é: outras características metodológicas, além das cotas, também são claramente responsáveis por vícios observados na AC. Pra mim, pesquisas em ponto de fluxo são um sinal de baixa qualidade da pesquisa (potencialmente). Muito mais do que o fato de usar cotas. Cotas podem ser bem efetivas, principalmente se forem associadas com variáveis claramente relacionadas com a probabilidades de resposta de uma pessoa. Também é relevante em qual estágio se utilizam cotas. Por isso é importante distinguir entre AC e APC.

Outro problema é que o documento divulgado no TSE é muitas vezes pouco claro com relação a certos detalhes da metodologia. Se você se interessa pelo tema, deixo também os links para outros dois posts interessantes do Neale: este e este.

UPDATE: Previsões para eleições: o que estão dizendo para amanhã? Atualização com as pesquisas de hoje.


A vantagem de um modelo bayesiano é a a forma coerente de atualizar as probabilidades frente às novas informações. E o Polling Data atualizou suas previsões, agora à tarde, considerando as novas pesquisas eleitorais: são 79% de chances para Aécio ir ao segundo turno.

pollingdata2

As estimativas pontuais ficaram em 40% para Dilma, 24% para Aécio e 21% para Marina.  Leia um pouco mais sobre o assunto no blog do Neale.

Daniel Marcelino também havia atualizado as probabilidades, com 40% para Dilma, 23% para Aécio e 22% para Marina.

Previsões para eleições: o que estão dizendo para amanhã?


O que o pessoal que se aventurou nesta empreitada está chutando dizendo um dia antes da contenda eleitoral?

Acredito que há dois eventos que devem ser vistos com mais atenção: (i) uma possível eleição da Dilma no primeiro turno; e (ii) a possibilidade de Aécio ultrapassar Marina e ir para o segundo turno.

Polling Data

UPDATE: O Polling Data atualizou as probabilidades com as novas pesquisas eleitorais. Agora são 79%  de chances para Aécio ir ao segundo turno. Leia mais no blog do Neale.

pollingdata2

Os resultados a seguir eram da previsão pela manhã, antes das novas pesquisas.

Neale El-Dash, do Polling Data, está dando apenas 2% de chances de não ter segundo turno. Já para o Aécio passar Marina, a probabilidade está em cerca de 22% – baixa, mas plausível. Grosso modo, isto é uma em cada 4 ou 5 vezes.

pollingdata

A previsão mais recente dos votos está em 39% para Dilma, 23% para Marina e 21% para Aécio.

Daniel Marcelino

As previsões mais recentes do Daniel são: 39% para Dilma, 23% para Marina e 18% para Aécio. Considerando somente os votos válidos, esses números passariam para: Dilma 46%; Marina 28%; e, Aecio 22%.

Com relação a Aécio ultrapassar Marina, as chances parecem um pouco menores do que no modelo de Neale. No olhomêtro, com o gráfico abaixo, está em algo em torno de 5%. E o segundo turno também parece bastante provável.

Marina_Aecio

Vidente Carlinhos

Para não ficar só com os modelos Bayesianos, vamos colocar algo místico no páreo: o vidente Carlinhos, que ficou famoso por “prever” a derrota do Brasil e a “saída” de Neymar durante a copa.  Pense no Carlinhos como um grupo de controle. Há vários outros “videntes” por aí que poderiam ser incluídos, mas esse é o mais divertido.  O interessante da previsão do Carlinhos é que ela é ousada (algo natural para quem não tem nada a perder, pois se acertar leva a fama e se errar pode dar uma desculpa): Aécio não somente ultrapassaria Marina, como ganharia a eleição no segundo turno.  Note que essa previsão tem baixa probabilidade nos dois modelos bayesianos. Entretanto, o problema principal da previsão do vidente é que ela não é probabilística. Deste modo, acertando ou errando, não conseguimos mensurar direito o quanto ele acertou ou errou – algo fundamental para comparar modelos de previsão – e que podemos fazer com as outras elencadas acima. 

***

Conhece mais alguma previsão? Informe aqui para que possamos acompanhar e ver quem se saiu melhor.

Previsões para eleição no Brasil?


Ontem, me indicaram um site que está se aventurando nesta empreitada: Polling Data. O autor está utilizando dois modelos diferentes, um baseado na agregação das pesquisas eleitorais, e outro com base em variáveis estruturais (como o PIB). O interessante é que os modelos estão apresentando resultados diferentes agora depois da última pesquisa. Os resultados são confiáveis? Não saberia dizer, senti falta de uma avaliação do modelo proposto com previsões fora da amostra. Acompanhemos!

Conhece mais alguém que está modelando as eleições? Compartilhe!

PS: para quem usa R, dei uma olhada nos gráficos e código fonte e é provável que o autor esteja usando shiny e ggvis!