As eleições têm trazido ao público um debate importante sobre estatística e incerteza. Em um dia, o Datafolha indica 52% dos votos para a Dilma. No dia seguinte, o Instituto Veritá contabiliza 53% do votos para Aécio. Como conciliar isso com as pequenas margens de erro sugeridas pelas pesquisas?
O problema é que, em geral, as margens de erro das pesquisas são divulgadas como se tivessem sido feitas por amostragem aleatória simples. Mas, na verdade, as pesquisas têm um processo de amostragem mais complexo, sujeito a outros tipos de erros. Um texto legal sobre o assunto é este, do Rogério.
E para complicar ainda mais, os institutos usam métodos diferentes. Por exemplo, olhando as últimas duas pesquisas presidenciais, aparentemente a pesquisa do Instituto Veritá foi uma Amostragem Probabilística por Cotas com entrevistas por domicílios (e também com o uso de ponto de fluxo onde a entrevista domiciliar não fosse possível – vide aqui); e, a do DataFolha, uma Amostragem por Cotas com entrevistas por ponto de fluxo (vide aqui).
Esses métodos, apesar de terem nomes semelhantes, segundo Neale El-Dash não são tão semelhantes assim:
Outro problema é que o documento divulgado no TSE é muitas vezes pouco claro com relação a certos detalhes da metodologia. Se você se interessa pelo tema, deixo também os links para outros dois posts interessantes do Neale: este e este.