Efeitos da urna eletrônica: participação maior dos iletrados, mais gastos com saúde e mais votos para a esquerda.


Hoje já estamos acostumados com o uso da urna eletrônica. É rápido, barato, eficiente e muitos garantem ser mais seguro do que o processo anterior. Mas, além desses benefícios, a adoção do sistema eletrônico no Brasil trouxe outros efeitos?

Sim, e é isso que Thomas Fujiwara tenta mostar. Em 1998, foi iniciado o processo de implementação em larga-escala do uso da urna eletrônica no Brasil. Entretanto, como ainda não havia máquinas para todos os municípios, apenas aqueles com mais do que 40.500 votantes receberam a urna – e este detalhe é muito interessante, pois faz com que o implemento da votação eletrônica seja um “quase-experimento” em grande escala.

Como? É plausível imaginar que os fatores determinantes de um município estar logo abaixo (ou logo acima) de 40.500 votantes sejam aleatórios, não-controláveis – isto é, ninguém consegue determinar exatamente quantos votantes existirão na cidade, pois choques externos afetam este número. Deste modo, os municípios com pouco menos de 40.500 votantes e os municípios com pouco mais de 40.500 votantes podem ser considerados similares, sendo a única diferença a adoção (aleatória) da urna eletrônica nas eleições, configurando um regression discontinuity design. Assim,  diferenças  encontradas na proximidade do ponto de corte são estimativas de efeitos causais da votação eletrônica em municípios deste porte.

Tendo isso em vista, Fujiwara estima o efeito causal do uso da urna eletrônica na participação (válida) dos eleitores e o efeito encontrado é bastante grande – cerca de 12 pontos percentuais de votos a mais. O autor vai além, e argumenta que este aumento é devido, principalmente, a uma participação maior de eleitores pouco educados. Apesar de, para alguém alfabetizado, o voto em papel ser uma tarefa trivial, esta pode ser uma tarefa bastante complicada para um analfabeto. A urna eletrônica, por sua vez, além de apresentar a foto do candidato, requer apenas o uso de números, o que facilita sobremaneira o voto. E, de fato, municípios com iletrados acima da média apresentaram um aumento de participação entre 15 a 19 pontos percentuais.

Uma vez que a adoção da urna eletrônica aumenta o número de pessoas mais pobres e iletradas na votação, Fujiwara estima ainda outros efeitos decorrentes deste fato, como:  o aumento na proporção de votos para partidos de esquerda (1/3 de desvio padrão) e o aumento de cerca de 50% com gastos em saúde pública em 8 anos, com repercussões no número visitas pré-natal para mulheres, bem como no peso de recém-nascidos.

Mas será que estes efeitos não são correlações espúrias? A argumentação do autor é persuasiva, mostrando que outras fontes de erro não são tão plausíveis (mas, evidentemente, sempre possíveis). Dentre os argumentos, cabe mencionar, por exemplo, um teste placebo com relação ao primeiro efeito que mencionamos – o aumento da participação nas eleições – com resultados virtualmente iguais a zero.

A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III


Demos um exemplo de confusão entre significância estatística e significância prática em um teste de normalidade: a rejeição (ou não-rejeição) da hipótese nula, arbitrariamente, sem levar em conta as magnitudes dos desvios, sua importância, o tamanho amostral, entre outros fatores, é análoga à situação ilustrada por este cartoon do XKCD:

Frequentists vs. Bayesians

Mas voltemos ao Nate Silver, que traz um exemplo simples e bastante ilustrativo da diferença entre significância estatística e significância econômica: um “teste” para a hipótese dos mercados eficientes.

Suponha que, nos dez anos após a publicação do Eugene Fama, você tenha coletado os dados diários do Down Jones Industrial Average. Suponha, também, que você tenha percebido que uma alta tenha sido, na maior parte das vezes, precedida por outra alta e uma perda, por outra perda. Deste modo, você suspeita que dados históricos poderiam ser usados para prever rentabilidade futura. Você resolve testar sua hipótese e um teste estatístico padrão te diz que haveria apenas 1 chance em 7.000.000.000.000.000 de um resultado tão ou mais extremo como o observado ter sido fruto da sorte.

A hipótese nula é (estatisticamente) rejeitada. A hipótese de mercados eficientes, inclusive em sua forma fraca, foi refutada!

Não tão rápido… se você incluir os custos de transação para tentar lucrar em cima do padrão encontrado, você descobre que um investidor que aplicasse $10.000 e seguisse a estratégia sugerida terminaria, ao final dos dez anos, com apenas $1.100!

Perceba como o exemplo acima é mais uma das formas de se confundir significância estatística com significância econômica. Como todo modelo ou teoria, a hipótese dos mercados eficientes não é uma reprodução fiel da realidade. Assim, se você queria saber se a hipótese vale exatamente e literalmente, nem era preciso se dar ao trabalho de testá-la: a resposta é, não, não vale. Mas isso não responde nem se e nem quando e nem como e nem por que a hipótese é (ou não) uma boa aproximação da realidade, isto é, sua “significância econômica”. No caso acima, mesmo aceitando que houvesse alguma previsibilidade real* no mercado, esta se mostrou economicamente insignificante. Neste exemplo, hipotético, a teoria não foi, economicamente, refutada.

* na maioria das vezes pode ser apenas uma correlação espúria. Nos anos 2000, por exemplo, o padrão citado se inverteu.

O culto da significância estatística II: Nate Silver


Após atuar com métodos estatísticos para previsão no Basebol, Nate Silver foi destaque nas previsões para a eleição presidencial dos Estados Unidos. Com a popularidade alcançada, seu livro “The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t” virou best-seller na Amazon.

O livro é voltado para o público geral, e trata dos percalços enfrentados no mundo da previsão, tentando distinguir quando e como a estatística pode ser utilizada e boas previsões podem ser feitas. Nate discute o trabalho de Kahneman sobre vieses cognitivos muito comuns, presentes principalmente quando lidamos com incerteza e probabilidade; discute o trabalho de Tetlock, que mostrou como, na média, “experts” políticos não são muito melhores do que um simples “cara-e-coroa” –  a não ser que eles tenham certas características, como uma visão plural e interdisciplinar, conhecimento sobre a própria ignorância entre outros fatores. Essas são armadilhas que todos que lidam com dados devem estar cientes, para buscar evitá-las.

Nate defende a necessidade de se ter uma teoria sólida para se tratar os dados –  e que essa necessidade aumenta no mundo com dados cada vez mais abundantes. Alega que, em geral, áreas em que previsões geralmente falham são aquelas em que a teoria ainda é nebulosa e que recorrem demasiadamente a modelos data-driven.  Ele aborda também a dificuldade inerente a sistemas não-lineares, sistemas dinâmicos,  leis de potência entre outras fatores que, se negligenciados, podem resultar em péssimas previsões.

Nate traz diversos exemplos (às vezes chega a ser exaustivo) para ilustrar seu ponto, passando por Basebol, Clima, Terremotos, Economia, Pôquer etc.

Mas, o capítulo 8 do livro foi o que me mais chamou a atenção. Em um livro para o público geral, e que virou best-seller, Nate resgata a literatura sobre as críticas aos testes de significância estatística (uma discussão mais extensa aqui, wikipedia aquialguns temas no blog aqui). Ele cita:

– o texto do Nickerson “Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy”;

– o texto do Cohen “The Earth Is Round (p < .05)”;

– o texto do Gill “The insignificance of null hypothesis significance testing”;

Entre outros. O tom que ele usa não é leve, atribuindo grande parte da culpa pelos métodos atualmente utilizados a Fisher. Seguem alguns trechos:

“Fisher é provavelmente mais responsável do que qualquer outro indivíduo pelos métodos estatísticos que ainda permanecem em amplo uso hoje. Ele desenvolveu a terminologia do teste de significância estatística e muito de sua metodologia” (p. 353).

“Estes métodos [testes de significância] desencorajam o pesquisador de considerar o contexto ou a plausibilidade de suas hipóteses […] assim, você verá artigos aparentemente sérios sobre como sapos podem prever terremotos, ou como lojas como a Target geram grupos de ódio racial, que aplicam testes frequentistas para produzir resultados “estatisticamente significantes” (mas manifestamente ridículos)” (p.253).

“Os métodos fisherianos não nos encorajam a pensar sobre quais correlações implicam em causalidade e quais não. Talvez não seja surpresa que depois de passar uma vida interia pensando assim, Fisher perdeu a habilidade de dizer a diferença [entre causalidade e correlação] (p.255). Nate faz referência ao fato de Fisher defender que fumar não causa câncer.

Como o livro se tornou um best-seller, é bem provável que isso desperte a curiosidade do aluno, que geralmente aprende passivamente um algoritmo qualquer na sala de aula; e também que chame mais a atenção dos pesquisadores (e professores) sobre a forma como estão fazendo inferência. Por este motivo, acho que o impacto do livro será bastante positivo. O Nate propõe o uso de métodos Bayesianos; mas, como o livro não é técnico – e o universo bayesiano bastante amplo – difícil saber quais ele realmente defende. De qualquer forma, não caberiar aqui discutir isso agora (o Larry Wasserman chegou ao ponto de dizer que vai mostrar ao próprio Nate que ele não é baeysiano, mas sim que é um raving frequentista, desfilando como bayesiano. Vamos ver o que vai sair disso…).

Em resumo, vale lembrar que este não é um livro técnico e que, tampouco, Nate irá te ensinar a fazer previsões. Mas conseguirá fazer você refletir sobre as possibilidades e limitações, tanto dos pesquisadores quanto dos métodos estatísticos, em uma leitura agradável e recheada de exemplos práticos.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

O poder da estatística, ou como você é tão previsível 2


No mundo de dados abundantes, como disse Hal Varian, saber tratá-los e interpretá-los (bem) torna-se cada vez mais fundamental, e a (boa) estatística já se torna a profissão sexy da vez.

As aplicações são as mais diversas: desde prever, pelos hábitos de compra, quando sua cliente está grávida e quando o bebê irá nascer; passando, também, por utilizar buscas do Google para fazer “previsões em tempo real”; até prever o resultado de duas eleições presidenciais.

Sobre este último ponto, o livro do Nate Silver ainda estava na minha wish list, esquecido… mas, depois do animado post do Drunkeynesian, venci a procrastinação. Livro comprado – comentários em breve eventualmente!

Uma partida de futebol pode mudar o resultado das eleições?


Tomando como analogia este estudo, sim.

A hipótese é a de que, quando você está de bom (mau) humor, você tende a gastar mais tempo avaliando o lado positivo (negativo) das coisas, inclusive do atual governante.

Os autores buscaram testar esta hipótese analisando os jogos esportivos locais. Sabe-se que os resultados desses jogos afetam o bem-estar das pessoas e não são frutos de decisões políticas. 

Em tese, portanto, você não deveria mudar a avaliação sobre um governante simplesmente porque seu time ganhou um jogo na última semana.

Contudo, os resultados encontrados indicam que, na média, as pessoas mudam o voto – e os valores encontrados foram relativamente altos! Uma vitória do time local, 10 dias antes das eleições, poderia aumentar os votos para o candidato da situação em até 1.13 pontos percentuais.

A primeira reação a esse valor pode ser – como foi a minha – a de pensar que estamos diante de uma correlação espúria. Ora, não é possível que um mero resultado de um jogo mude tanto os resultados de uma eleição… Mas os autores são cuidadosos e têm uma retórica persuasiva. Primeiro, eles controlam para outros fatores e isso não muda muito a magnitude do coeficiente. Segundo, eles realizam um teste placebo, buscando verificar se jogos futuros afetam as eleições no passado (o que seria absurdo) e encontram coeficientes quase iguais a zero e estatisticamente insignificantes.

Mas, além dos dados acima – não experimentais – os autores aplicam questionários durante um campeonato de basquete universitário. Neste caso, é possível controlar com mais cuidado fatores diversos que permitiriam encontrar uma correlação espúria. Os resultados foram similares – cada vitória elevava a aprovação de Obama, na média, em 2.3 pontos percentuais. E, fato interessante, quando os participantes foram informados dos resultados dos jogos antes de se perguntar sobre Obama, o efeito desapareceu! Isto é, uma vez que o sujeito se torna consciente do que está afetando seu bom humor, ele não deixa isso afetar outras áreas de sua vida, como o julgamento sobre o desempenho de um político.

Com dados eleitorais e esportivos abundantes no Brasil, acredito que seja possível replicar este estudo por aqui.

Via Andrew Gelman e Marginal Revolution.

Experimentos na Economia


Bastante interessante a entrevista com John List, em que ele defende um maior uso de experimentos na Economia.

Um dos experimentos que ele menciona é sobre a aversão à perda. Alunos que recebiam 20 dólares no início das aulas e tinham de tirar notas boas para mantê-los, na média, acabavam indo melhor na disciplina do que aqueles alunos a quem eram prometidos 20 dólares ao final do curso caso tirassem boas notas. A interpretação do resultado é a de que as pessoas tem mais medo de “perder” algo que já têm do que “perder” algo que ainda vão ganhar.

Gostaria de ver isso replicado aqui no Brasil, mas com a seguinte questão: será que turmas em que os alunos começam o semestre com a nota 10, e vão perdendo pontos caso falhem nas atividades propostas, irão realmente superar em grande montante o rendimento de alunos que comecem com a nota zero, e vão acumulando pontos caso completem com sucesso os exercícios de aula?

Acredito haver muito espaço para economia experimental no Brasil. Nos últimos 4 anos da RBE (2008-2011), apenas um artigo tratou do tema.

(via Mankiw)

Material On-line


Recentemente me pediram algumas recomendações de material das disciplinas core de economia, materiais que estivessem disponíveis on-line e gratuitamente.

Achei que seria legal disponibilizar a lista aqui.

Segue uma primeira leva, que lembrei de cabeça, com o passar do tempo vou atualizando (quem quiser, por favor, deixe sua dica):

***

Atualização.

Para notas de aula em inglês, o Gustavo deixou a dica do http://econphd.econwiki.com/notes.htm

Acredito que isso supra quase tudo.

Quem souber de mais material em português, deixe sua dica!

***

Macroeconomia:

Notas do Fernando de Holanda Barbosa (pós-graduação);

Microeconomia:

– Lecture Notes do Nolan Miller (pós-graduação);

Notas de aula do José Guilherme Lara Resende (graduação);

Curso Básico de Microeconomia do José Carrera-Fernandez (graduação);

Econometria e Estatística:

Econometrics do Hansen (pós-graduação);

Análise Matemática:

Curso de Análise Real do Neri e Cabral (pós-graduação);

Introdução à Análise Real do Alexandre Madureira (pós-graduação);

Econometria (na sua maior parte) inofensiva


A controvérsia PUC-RJ vs Reinaldo Azevedo acabou por trazer à tona os nomes de Angrist e Pischke, que têm ganhado bastante destaque recentemente. Ambos são autores de um livro que tem recebido atenção dos praticantes, Mostly Harmless Econometrics: An Empiricist’s Companion. O livro basicamente trata do uso da regressão linear em contextos de experimentos naturais ou mudanças de políticas públicas (“quase experimentais”), discorrendo sobre o uso de variáveis instrumentais e differences-in-differences. Eles também tratam de dois temas bastante recentes que são a quantile regression e regression discontinuity design.

Tal qual os livros Poor Economics e Why Nations Fail, os autores mantêm um site e blog homônimo ao livro.

PS: percebi que provavelmente serão mencionados diversos livros no blog, então agora há uma nova categoria “livros” que facilita a busca.

PS2: como todos os livros citados acima, este também possui uma versão em Kindle na Amazon. Esta é a versão que eu tenho, bastante prática mas formatação péssima.

Espionando os dados


Acredito que o livro do Wooldridge seja um dos mais utilizados no ensino da econometria na graduação (e, não duvido nada, infelizmente em alguns cursos de pós). É um bom livro, tem vários exemplos com dados disponíveis em softwares econométricos de fácil acesso, como o Gretl.

Mas, existe uma pegadinha fundamental – somente no último capítulo, Wooldridge informa explicitamente ao aluno que tudo aquilo que ele aprendeu não funciona se ele “espionar” os dados . Em suas palavras:

Virtualmente todos os pesquisadores examinam vários modelos antes de encontrar o “melhor” deles. Infelizmente, a prática da exploração da base de dados viola as hipóteses que fizemos em nossa análise econométrica. Os resultados sobre a inexistência de viés do MQO e de outros estimadores, como também sobre as distribuições t e F que derivamos para os testes de hipóteses, pressupõem que observamos uma amostra que segue o modelo populacional e que o tenhamos estimado uma vez.

Se, antes de realizar um teste, você rodou vários modelos diferentes até encontrar o “melhor” deles – seja qual for sua concepção de melhor, como um sinal correto, ou uma significância estatística na variável de interesse –  as distribuições das estatísticas de teste não são as distribuições que você aprendeu. Isto é, os p-valores e demais estatísticas não são o que você acha que está calculando e as probabilidades de erro são diferentes dos valores nominais.

Por quê?

Provavelmente a forma mais fácil de se explicar isso seja a seguinte imagem:

sharpshooter

 

Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros. Veja, o problema não é a busca por especificação, é realizá-la e fazer de conta que não fez. Leamer chama quem faz tal uso, e acredita ou finge acreditar nos resultados, de “believers”:

 Believers report the summary statistics from the nth equation as if the other n-1 were not tried, as if the nth equation defined a controlled experiment.

Infelizmente, esta prática é disseminada na literatura, muito por conta de uma cultura que busca resultados “estatisticamente significantes”. Um working paper recente (dica do Leo) sugere que pesquisadores buscam especificações que “inflem” suas estatísticas de teste.

Já que a exploração de dados é parte inevitável da prática econômica, parece ser interessante começar a exigir a formalização disto nos trabalhos aplicados. Vou tentar trazer referências que tratem do assunto aqui.  Por agora, para não me alongar muito, cito uma das mais “clássicas” – de que estou gostando –   mas com uma abordagem bayesiana, linguagem ainda não muito comum entre economistas: o livro de Leamer de 1978, que encontra-se integralmente disponível em pdf em seu site: Specification Searches: Ad-Hoc Inference with Nonexperimental Data.