Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança


O pessoal do Open Science Framework acabou de concluir um trabalho hercúleo: durante mais de 3 anos, juntaram 270 colaboradores para realizar 100 replicações de 98 artigos de psicologia. Todos os materiais do projeto, para cada replicação, encontram-se disponíveis no site, inclusive os códigos em R!

E quais os resultados? Os efeitos replicados tiveram a magnitude estimada reduzida pela metade quando comparados com os efeitos originais. Apenas 36% das replicações alcançaram “significância” estatística (p-valor menor do que 5%) e apenas 47% dos efeitos originais ficaram dentro do intervalo de confiança de 95% das replicações. Supondo que não exista viés de seleção nos estudos originais (o que é difícil de acreditar, considerando os resultados acima), uma meta análise combinando os resultados indica apenas 68% dos efeitos como “significantes”. 

Essa é uma iniciativa fantástica, é ciência como deve ser feita. E que venham mais replicações, para termos estimativas mais precisas, sem viés de publicação, do tamanho e da incerteza ao redor desses efeitos.

PS: Em economia, provavelmente nossa situação é ainda pior: a maior parte de nossos estudos é baseada em dados observacionais.

Que variáveis incluir na regressão? Ou, por que grande parte dos trabalhos aplicados está errada.


Suponha que você queira medir o efeito de X em Y (isto é, o quanto uma variação de X afeta Y – uma relação causal) e que você tenha mais duas variáveis que podem ser incluídas como controle, Z1 e Z2. Suponha ainda que você saiba que o modelo é linear, isto é, não há nenhuma incerteza com relação à especificação. Quais variáveis você incluiria no seu modelo?

Hoje, provavelmente você diria o seguinte: depende da significância! São Z1 e Z2 significantes? Se sim, eles devem ser incluídos.

Vejamos um exemplo de uma simulação. O código em R está ao final do post.

Vamos rodar as três regressões: uma só com X, outra incluindo Z1 e por fim uma com todos os controles. Os resultados foram os seguintes:

Equação 1: Y = -10 + 43X ***

Equação 2: Y = -7 + 13X * + 107Z1 ***

Equação 3: Y = -5 – 9X * + 46Z1 *** + 37Z2 ***

Pelos resultados, tanto Z1 quanto Z2 são significantes, então preferimos a equação 3. Concluímos que, na média, uma variação de 1 unidade de X reduz Y em 9 unidades. Certo?

***

Errado. O modelo ideal neste caso seria a equação 2. O efeito real de X sobre Y é de 10 (veja que valor estimado foi 13, bem próximo). O problema aqui é que a significância estatística não vai te responder sobre a pertinência de incluir ou não uma variável para estimar o efeito de X sobre Y. Infelizmente, não há almoço grátis. Como diz Judea Pearlsem saber a estrutura do problema, não é possível determinar quais variáveis devem ser incluídas. Agora pense. Como é a lógica de trabalho dos artigos aplicados hoje? *** A simulação A nossa simulação tem a seguinte estrutura  (U1 e U2 dizem respeito a duas variáveis não observadas, só observamos Y, X, Z1 e Z2): dagitty-model O código em R para gerar os resultados é:

gen_data <- function(N=200,s=2,beta1=10, beta2=100){
Z1 <- rnorm(N,0,s)
U2 <- rnorm(N,0,s) + Z1
U1 <- rnorm(N,0,s) + Z1
Z2 <- rnorm(N,0,s) + U2 + U1
X <- rnorm(N,0,s) + U1
Y <- rnorm(N,0,s) + beta1*X + beta2*U2
data.frame(Y,X,Z1,Z2)
}

set.seed(100)
data <- gen_data()
summary(lm(Y~X, data))
summary(lm(Y~X + Z1, data))
summary(lm(Y~X + Z1 + Z2, data))

Você pode brincar mais com o paradoxo de Simpson aqui; e o gráfico você pode fazer aqui.

Os dez mandamentos da econometria aplicada (The Ten Commandments of Applied Econometrics)


Como havia prometido em post anterior, segue o artigo do Peter Kennedy (ideas link).

Peter Kennedy também é o autor de A Guide to Econometrics, que é basicamente um compêndio de referência que supre várias lacunas sérias encontradas nos livros-textos de econometria padrão (como Hayashi ou Greene).

Os dez mandamentos são:

1. Thou shalt use common sense and economic theory.

     Corollary: Thou shalt not do thy econometrics as thou sayest thy prayers.

2. Thou shalt ask the right questions.

     Corollary: Thou shalt place relevance before mathematical elegance.

3. Thou shalt know the context.

     Corollary: Thou shalt not perform ignorant statistical analyses.

4. Thou shalt inspect the data.

     Corollary: Thou shalt place data cleanliness ahead of econometric godliness.

5. Thou shalt not worship complexity.

     Corollary: Thou shalt not apply asymptotic approximations in vain.

     Corollary: Thou shalt not talk Greek without knowing the English translation.

6. Thou shalt look long and hard at thy results.

     Corollary: Thou shalt apply the laugh test.

7. Thou shalt beware the costs of data mining.

     Corollary: Thou shalt not worship R2.

     Corollary: Thou shalt not hunt statistical significance with a shotgun.

     Corollary: Thou shalt not worship the 0.05 percent significance level.

8. Thou shalt be willing to compromise.

     Corollary: Thou shalt not worship textbook prescriptions.

9. Thou shalt not confuse significance with substance.

     Corollary: Thou shalt not ignore power.

     Corollary: Thou shalt not test sharp hypotheses.

     Corollary: Thou shalt seek additional evidence.

10. Thou shalt confess in the presence of sensitivity.

     Corollary: Thou shalt anticipate criticism.

Como estou procrastinando pouco (isso é bom), os comentários ficam para algum dia. Mas deixo aqui as respostas de Magnus  (ideas link) e  Hendry (ideas link).