Simulando modelos baseados em agentes no R


Rogério começou uma série de posts sobre Agent-Based Models (Modelos Baseados em Agentes) no R. O primeiro post é uma breve explicação sobre Reference Classes e  o segundo post descreve um modelo simples de Predador e Presa.  Vale a pena conferir.

Previsões para o impeachment 2


Neale diz que as chances de passar são de 96% (dados de hoje):

Captura de Tela 2016-04-12 às 21.00.49

No final do ano passado, as estimativas estavam em 0%.

Já Guilherme, Marcelo e Eduardo dizem que as chances são de praticamente 100% (dados de hoje):

Captura de Tela 2016-04-12 às 21.56.47

E as simulações do Regis mostram resultado semelhante (com ausência de 0%, dados de hoje) . Com 10% de ausência, por outro lado, o resultado se inverte:

Captura de Tela 2016-04-12 às 22.27.54Há outras previsões por aí?

PS: claro, há também as previsões do Vidente Carlinhos (feitas ano passado). Além do impeachment, aparentemente 2016 será um ano difícil para Ivete Sangalo. E Álvaro Dias será presidente, em 2018, pela Rede. Mas Carlinhos não tem lá um bom histórico.

Como o Banco Central monitora os possíveis impactos da Operação Lava Jato?


Para quem tiver curiosidade, segue vídeo com breve explicação do Diretor de Fiscalização Anthero Meirelles sobre como o Banco Central do Brasil mapeia exposições e riscos de contágio da Operação Lava Jato:

Pesquisas eleitorais: Veritá ou DataFolha? Sobre metodologia e margens de erro.


As eleições têm trazido ao público um debate importante sobre estatística e incerteza. Em um dia, o Datafolha indica 52% dos votos para a Dilma. No dia seguinte, o Instituto Veritá contabiliza 53% do votos para Aécio. Como conciliar isso com as pequenas margens de erro sugeridas pelas pesquisas?

O problema é que, em geral, as margens de erro das pesquisas são divulgadas como se tivessem sido feitas por amostragem aleatória simples.  Mas, na verdade, as pesquisas têm um processo de amostragem mais complexo, sujeito a outros tipos de erros. Um texto legal sobre o assunto é este, do Rogério.

E para complicar ainda mais, os institutos usam métodos diferentes. Por exemplo, olhando as últimas duas pesquisas presidenciais, aparentemente a pesquisa do Instituto Veritá foi uma Amostragem Probabilística por Cotas com entrevistas por domicílios (e também com o uso de ponto de fluxo onde a entrevista domiciliar não fosse possível – vide aqui); e, a do DataFolha, uma Amostragem por Cotas com entrevistas por ponto de fluxo (vide aqui).

Esses métodos, apesar de terem nomes semelhantes, segundo Neale El-Dash não são tão semelhantes assim:

Anteriormente já escrevi sobre a diferença entre as pesquisas denominadas “Amostragem por Cotas” (AC) e as denominadas “Amostragem Probabilística por Cotas” (APC). Existe apenas uma semelhança entre as duas metodologias: ambas têm a palavra “Cotas” no nome, indicando que não são probabilísticas. Isso não quer dizer que sejam iguais. Pelo contrário, existem muitas diferenças entre elas, vou mencionar algumas abaixo: 

1-   Na APC as entrevistas são domiciliares. Na AC as entrevistas são realizadas em pontos de fluxo. Como o Carvalho diz em seu texto: “os pontos de concentração podem ser shoppings, esquinas de ruas movimentadas, ou seja, lugares onde é fácil preencher as cotas”. 

2-  Na APC existe muito controle sobre o entrevistador e a sua liberdade de escolha dos entrevistados. Ele tem que percorrer um trajeto muito restrito com critérios claros e objetivos.  Na AC, o entrevistador escolhe quem quiser, contanto que esteja nas cotas.  

3- Na APC, existe um controle geográfico excelente, equivalente ao que se poderia obter em qualquer amostra probabilística. Na AC, as pesquisas acabam tendo uma aglomeração geográfica muito maior. 

4- Na APC o objetivo das cotas é controlar a probabilidade de resposta das pessoas. Na AC, o objetivo é reproduzir características demográficas da população alvo.

(…) as metodologias (e as criticas) são muito diferentes. Mais importante, existe um efeito negativo importante na qualidade da AC pelo fato das entrevistas serem realizadas em pontos de fluxo. Apenas para exemplificar, no artigo [Ref2] sobre AC, os autores dizem que os maiores vícios encontrados na comparação foram: 1) A distribuição geográfica da amostragem por cotas (AC) era mais aglomerada, 2) na amostragem probabilística (aquela da prática, com voltas e substituições) havia mais não-resposta na variável de renda e 3) foram observadas mais pessoas na categoria sem renda/com renda baixa e renda alta do que na AC.

(…)

Meu ponto é: outras características metodológicas, além das cotas, também são claramente responsáveis por vícios observados na AC. Pra mim, pesquisas em ponto de fluxo são um sinal de baixa qualidade da pesquisa (potencialmente). Muito mais do que o fato de usar cotas. Cotas podem ser bem efetivas, principalmente se forem associadas com variáveis claramente relacionadas com a probabilidades de resposta de uma pessoa. Também é relevante em qual estágio se utilizam cotas. Por isso é importante distinguir entre AC e APC.

Outro problema é que o documento divulgado no TSE é muitas vezes pouco claro com relação a certos detalhes da metodologia. Se você se interessa pelo tema, deixo também os links para outros dois posts interessantes do Neale: este e este.

UPDATE: Previsões para eleições: o que estão dizendo para amanhã? Atualização com as pesquisas de hoje.


A vantagem de um modelo bayesiano é a a forma coerente de atualizar as probabilidades frente às novas informações. E o Polling Data atualizou suas previsões, agora à tarde, considerando as novas pesquisas eleitorais: são 79% de chances para Aécio ir ao segundo turno.

pollingdata2

As estimativas pontuais ficaram em 40% para Dilma, 24% para Aécio e 21% para Marina.  Leia um pouco mais sobre o assunto no blog do Neale.

Daniel Marcelino também havia atualizado as probabilidades, com 40% para Dilma, 23% para Aécio e 22% para Marina.