Bandido bom é bandido morto? Ou mais ainda sobre modelos.


Evidentemente que o debate acerca de penas capitais envolve muitos fatores, entre eles morais, religiosos e ideológicos. Entretanto, impossível negar que, para este debate, um argumento bastante persuasivo é saber se, de fato, a adoção da pena de morte reduz a criminalidade. E, mais ainda, se reduz, de quanto seria esta redução.

No fundo, isto é uma questão empírica. Pois, teoricamente, o efeito pode ser tanto positivo quanto negativo, tanto alto quanto baixo. Se a adoção de penas capitais, por um lado, inibe o criminoso por aumentar a severidade da pena, por outro lado, aqueles criminosos que forem cometer um crime de qualquer jeito terão mais incentivos para a brutalidade – afinal, se ele já irá pegar a pena máxima, então por que não matar todas as testemunhas?

Então basta estimar o efeito de penas capitais e o problema está resolvido, certo? Durlauf, Fu e Navarro (2012) mostram que não. Apesar de isto ser um problema empírico, é preciso determinar qual o modelo utilizado para as estimativas. Tomando o caso dos EUA,  que tal um modelo linear com um único coeficiente de probabilidade de execução para cada estado? Se acharmos isto adequado, ele nos fornecerá uma estimativa positiva, indicando que cada execução poupa de 20 a 31,5 vidas, em média. Números bastante persuasivos.

Mas se, ainda no modelo linear, permitirmos que o coeficiente varie por estado? Bom, aí passamos para estimativas de que uma execução adicional eleva o número de vítimas de 35,2 a 98,5 , em média.  Também tem outro ponto: o modelo linear agrega comportamentos individuais de uma maneira bastante restritiva. E se utilizássemos um modelo Logit?  Novamente a estimativa passa a ser negativa, indicando que cada execução eleva o número de vítimas de 2 a 42. A figura que ilustra os dados a que faço referência encontra-se abaixo.

Diante de tais resultados, alguém poderia se tornar bastante cético quanto à nossa capacidade de medir o efeito. Eu sugiro uma interpretação mais otimista. Os autores identificaram pelo menos duas grandes fontes de incerteza e, agora, será preciso dispensar muito mais atenção na escolha e na justificativa da forma funcional do modelo. Porque muito melhor do que a proliferação assistemática de resultados frágeis e conflitantes – que muitas vezes tornam-se disputas pessoais  – é, pelo menos, saber por que eles divergem.

O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.

Como publicar nas melhores revistas?


Há algum tempo queria divulgar as dicas de Daniel Hamermesh, mas sempre me esquecia.

Hoje, em um breve momento de ociosidade, me lembrei e aí estão.

O “núcleo” da inflação no Brasil.


Silva Filho e Figueiredo fazem uma análise das medidas de core da inflação brasileira. Resultados preliminares: elas são enviesadas e possuem pouco poder preditivo – em outras palavras, não são boas. Os autores também tentam construir medidas de núcleo melhores do que as utilizadas. Mas, mesmo com performance superior, as novas medidas são tão “próximas” da medida tradicional do IPCA que acabam sendo argumento para os céticos: isto é, de que o próprio IPCA é seu “melhor” núcleo.

PS: o artigo é um dos poucos que analisei que se atentam a algumas questões estatísticas com o devido ceticismo, como algo análogo ao problema batizado por Ed. Leamer (sobre quem já comentamos aqui) de White Washing (este texto é uma ácida e excelente resposta ao famoso artigo de Angrist e Pischke sobre a revolução de credibilidade nos trabalhos empíricos). Vou tentar falar disto no próximo post.

2.991 co-autores***.


Você já viu um artigo com tantos co-autores? 

Via Ciência Brasil (apud Moral Hazard).

PS: não julgo o fato nem como bom, nem como ruim. Não estava nos bastidores da pesquisa para julgar.

*** são 2.991 se a função “texto para colunas” do excel tiver separado corretamente. Obviamente que não conferi, deixo para o cético o exercício de checagem.

O caso Bruno Frey


Economic Logic fornece mais notícias (ou melhor, fofocas) sobre o caso Bruno Frey, que já havíamos mencionado aqui.

Teoria dos jogos na prática


Há algum tempo tinha lido esta matéria bem legal da “The Economist” e sempre me esquecia de compartilhar, agora vai. Ela menciona várias aplicações de teoria dos jogos. Um dos autores mencionados é o Bueno de Mesquita, que já apresentou uma palestra no TED. Ainda não tive tempo de ler os livros, tampouco os artigos do autor, mas já ouvi boas referências sobre a “Selectorate Theory” e críticas bastante incisivas ao “The Predictioneer’s game“. O pé atrás com relação ao Bueno de Mesquita surge no próprio vídeo do TED: 90% de acurácia é simplesmente bom demais para ser verdade. Mas ele não deixa de ser polêmico e incitar a curiosidade sobre os trabalhos que presta em sua consultoria privada. Se tem gente pagando por suas previsões, não é provável que todos sejam otários e que elas não sejam de alguma valia (mas, lógico, improvável não quer dizer impossível).

Também gostaria de compartilhar o site e o blog do Alvin Roth. O autor faz um uso bem interessante da teoria dos jogos para o programa de matching dos residentes de medicina nos EUA (no Brasil, lembro do artigo da Marilda Sotomayor sobre matching na pós-graduação em economia). Ele também trabalha com matching para doações de órgãos quando o mercado, por algum motivo, não é permitido, entre outras aplicações. Aproveito igualmente para compartilhar um link de uma matéria, um pouco antiga, mas bacana que havia lido sobre o Alvin Roth no Boston Globe. Para quem buscava exemplos de aplicações para teoria dos jogos, os links acima têm material para muitos dias de diversão.

A (triste) realidade acadêmica


Desabafo do Erik Figueiredo.