Metodologia
Daniel Kahneman e a replicação dos estudos de priming
A crise de replicabilidade obriga Kahneman a rever sua posição. Algo louvável diante de tantos pesquisadores que insistem em continuar no erro:
PS: isso é um comentário do Daniel Kahneman neese post aqui.
Erro de medida e ‘atenuação’ dos efeitos estimados
Andrew Gelman publicou um pequeno comentário na Science sobre erro de medida e “atenuação dos efeitos estimados”. O argumento é o seguinte: no modelo clássico de erro de medida, na média suas estimativas são puxadas para baixo. Suponha, então, que você tenha feito um experimento com amostra pequena, com erro de medida, mas ainda assim você tenha encontrado um efeito estimado “significante”. Ora, é tentador argumentar o seguinte: tanto a amostra pequena quanto o erro de medida estão “jogando contra” meu efeito estimado, então é provável que o efeito real seja ainda maior do que o que eu estimei. Parece lógico, não?
Parece, mas não é. E, infelizmente, esse raciocínio ainda engana muitos pesquisadores. Na verdade, em um contexto de efeitos reais pequenos junto com amostras pequenas, é mais provável que aquelas estimativas estatisticamente significantes estejam superestimando o efeito real. O problema aqui é que o ruído das amostras pequenas em conjunto com o viés de seleção de estimativas estatisticamente significantes predomina. Vejamos isso na prática com uma simples simulação.
No código abaixo eu simulo mil estudos com um tamanho amostral fixo (n = 10, n = 20, n = 50, n = 500 e n = 1000). Desses mil estudos, eu seleciono apenas aqueles que são estatisticamente “significantes” e coloco no gráfico o valor estimado do estudo. O valor real do efeito é 0.1, que está representado pela linha vermelha. Vejam que, para amostras até de tamanho 100, todas as estimativas “significantes” da simulação estão superestimando o efeito real. Apenas quando a amostra é grande o suficiente que o efeito atenuante do erro de medida se faz prevalecer, revertendo o resultado.
E se você comparar as estimativas com e sem erro de medida, como faz Gelman, também vai verificar que com amostras pequenas dificilmente uma é sempre maior do que a outra.
Código para simulação:
rm(list = ls()) set.seed(10) ns = c(10, 20, 50, 100, 500, 1000) oldpar <- par(mfrow = c(2,3)) for (n in ns) { b = 0.1 x <- rnorm(n) y <- b*x coefs <- replicate(1000, { xs <- x + rnorm(n) ys <- y + rnorm(n) coef(summary(lm(ys ~ xs)))[2,] }) coefs <- t(coefs) plot(coefs[coefs[,3] > 2, 1], ylim = c(min(c(b, coefs[,1])), max(coefs[,1])), xlab = "Significant Experiments", ylab = "'Significant' Estimates", main = paste("Sample size =", n), pch = 20) abline(h = b, col = "red", lty = 2) } par(oldpar)
Berkeley Initiative for Transparency in the Social Sciences (BITSS) – 2016 meeting
Ontem e hoje houve a reunião da Berkeley Initiative for Transparency in the Social Sciences (BITSS). Além de anunciados os vencedores do último Leamer-Rosenthal Prizes, houve várias apresentações interessantes sobre métodos quantitativos em ciências sociais.
Os dois dias foram filmados e estão disponíveis no Youtube.
Dia 1:
Dia 2:
Simulando modelos baseados em agentes no R
Rogério começou uma série de posts sobre Agent-Based Models (Modelos Baseados em Agentes) no R. O primeiro post é uma breve explicação sobre Reference Classes e o segundo post descreve um modelo simples de Predador e Presa. Vale a pena conferir.
Replicação em economia
John Cochrane soltou um post bacana sobre replicação em economia. Vale a pena conferir.
On replication in economics. Just in time for bar-room discussions at the annual meetings.
- Simple coding errors are not unknown. Reinhart and Rogoff are a famous example — which only came to light because they were honest and ethical and posted their data.
- There are data errors.
- Many results are driven by one or two observations, which at least tempers the interpretation of the results. Often a simple plot of the data, not provided in the paper, reveals that fact.
- Standard error computation is a dark art, producing 2.11 t statistics and the requisite two or three stars suspiciously often.
- Small changes in sample period or specification destroy many “facts.”
- Many regressions involve a large set of extra right hand variables, with no strong reason for inclusion or exclusion, and the fact is often quite sensitive to those choices. Just which instruments you use and how to transform variables changes results.
- Many large-data papers difference, difference differences, add dozens of controls and fixed effects, and so forth, throwing out most of the variation in the data in the admirable quest for cause-and-effect interpretability. Alas, that procedure can load the results up on measurement errors, or slightly different and equally plausible variations can produce very different results.
- There is often a lot of ambiguity in how to define variables, which proxies to use, which data series to use, and so forth, and equally plausible variations change the results.
Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança
O pessoal do Open Science Framework acabou de concluir um trabalho hercúleo: durante mais de 3 anos, juntaram 270 colaboradores para realizar 100 replicações de 98 artigos de psicologia. Todos os materiais do projeto, para cada replicação, encontram-se disponíveis no site, inclusive os códigos em R!
E quais os resultados? Os efeitos replicados tiveram a magnitude estimada reduzida pela metade quando comparados com os efeitos originais. Apenas 36% das replicações alcançaram “significância” estatística (p-valor menor do que 5%) e apenas 47% dos efeitos originais ficaram dentro do intervalo de confiança de 95% das replicações. Supondo que não exista viés de seleção nos estudos originais (o que é difícil de acreditar, considerando os resultados acima), uma meta análise combinando os resultados indica apenas 68% dos efeitos como “significantes”.
Essa é uma iniciativa fantástica, é ciência como deve ser feita. E que venham mais replicações, para termos estimativas mais precisas, sem viés de publicação, do tamanho e da incerteza ao redor desses efeitos.
PS: Em economia, provavelmente nossa situação é ainda pior: a maior parte de nossos estudos é baseada em dados observacionais.
Como o Banco Central monitora os possíveis impactos da Operação Lava Jato?
Para quem tiver curiosidade, segue vídeo com breve explicação do Diretor de Fiscalização Anthero Meirelles sobre como o Banco Central do Brasil mapeia exposições e riscos de contágio da Operação Lava Jato:
Uma introdução visual ao aprendizado de máquinas (Machine Learning)
Data Colada!
Fazia algum tempo que não descobria um blog tão bom quanto o Data Colada!
Em especial destaco esse post que discute a falha na replicação de um estudo famoso sobre posições corporais e níveis de testosterona e cortisol (o vídeo do TED sobre o estudo tem mais de 26 milhões de exibições):
Detalhe que ao final do post há comentários dos autores tanto do artigo original, quanto da réplica. E o post também discute o uso de curvas de p-valor para esse caso (há um web-app para construir as curvas de p-valor). Muito bacana.