Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança


O pessoal do Open Science Framework acabou de concluir um trabalho hercúleo: durante mais de 3 anos, juntaram 270 colaboradores para realizar 100 replicações de 98 artigos de psicologia. Todos os materiais do projeto, para cada replicação, encontram-se disponíveis no site, inclusive os códigos em R!

E quais os resultados? Os efeitos replicados tiveram a magnitude estimada reduzida pela metade quando comparados com os efeitos originais. Apenas 36% das replicações alcançaram “significância” estatística (p-valor menor do que 5%) e apenas 47% dos efeitos originais ficaram dentro do intervalo de confiança de 95% das replicações. Supondo que não exista viés de seleção nos estudos originais (o que é difícil de acreditar, considerando os resultados acima), uma meta análise combinando os resultados indica apenas 68% dos efeitos como “significantes”. 

Essa é uma iniciativa fantástica, é ciência como deve ser feita. E que venham mais replicações, para termos estimativas mais precisas, sem viés de publicação, do tamanho e da incerteza ao redor desses efeitos.

PS: Em economia, provavelmente nossa situação é ainda pior: a maior parte de nossos estudos é baseada em dados observacionais.

Ensinem estatística ao Banco Mundial. Ou culto da significância estatística IV.


Considere duas amostras aleatórias, com 10 observações, retiradas de uma distribuição normal com médias diferentes e mesma variância desconhecida. Para utilizar um exemplo concreto, simulei no R duas amostras, uma de uma normal com média 5 e desvio-padrão 3 e a outra de uma normal com média 2 e desvio-padrão 3.

As amostras resultaram nas seguintes estatísticas:

***

Amostra 1

Média amostral: 5,3

Desvio-padrão amostral: 2,9

Intervalo de 95% de confiança: 3,2 a 7,4

***

Amostra 2

Média amostral: 2,6

Desvio-padrão amostral: 2,2

Intervalo de 95% de confiança: 0,7 a 4,5

***

Note que os intervalos de confiança se cruzam. O limite inferior da amostra 1 é 3,2 e o limite superior da amostra 2 é 4,5.

Isso quer dizer que a diferença entre as médias amostrais não é estatisticamente significante a 5%?

Não, fazendo um teste t para a diferença entre duas médias com variância igual você obtém um resultado estatisticamente significante a 5%, com intervalo de 95% de confiança indicando diferenças entre 0,5 a 5. Mesmo supondo que você não soubesse que as variâncias fossem iguais, o teste t de Welch nos dá um intervalo de 95% de confiança para a diferença entre as médias entre 0,1 e 5,3.

Agora imagine que esses dados eram de crescimento de PIB, isto é, um grupo tem média amostral de crescimento de 5,3% e outro de 2,6%. Se você comparasse os intervalos de confiança, você poderia tender a falar que os dois grupos não têm crescimento “diferentes”… quando, na verdade, o próprio teste clássico de diferenças entre médias indica uma diferença entre 0,5 e 5 pontos percentuais, que abarca magnitudes muito relevantes em termos de crescimento econômico!

Mas esse erro acontece?

Sim, no Banco Mundial. No EconBrowser, sobre a controvérsia Reinhart and Rogoff, Chinn divulgou este gráfico relacionando a média de crescimento e o percentual de endividamento público em relação ao PIB. As barras são a média e a linha preta representa o intervalo de 95% de confiança .

debtgdpgrowth.png

Note que, apesar de a média de crescimento dos países com alto endividamento (mais de 90% do PIB) ser bem menor do que a média dos demais, os intervalos de confiança se cruzam. Isso levou o pessoal do blog do banco mundial a dizer que “[…] the confidence intervals of all three bins above the 30 percent debt/GDP threshold also overlap. On this (admittedly crude) basis, then, any claim that a 1 percent growth differential over a decade compounds is simply overstating the case made by the data.”

Isso não é verdade, o simples fato de os intervalos de 95% de confiança cruzarem não quer dizer nada, mesmo se você achasse que significância estatística pura fosse o ponto relevante aqui. Como vimos no exemplo anterior, super simples, os intervalos de confiança podem se cruzar e mesmo assim a diferença ser “estatisticamente significante” e indicar diferenças economicamente relevantes! Cientes do erro, os autores fizeram um postscript alertando para o fato e reduzindo o intervalo de confiança do gráfico para um erro-padrão. O problema é que mesmo nesse caso, se houver alguma forma de dependência entre as amostras (o que provavelmente é o caso), a comparação também não é correta.

Apesar da brincadeira do título, isso não foi uma “burrice” do Banco Mundial. Um problema que tenho encontrado ao discutir estes assuntos é que, em geral, as pessoas acham que somente somente journals de “baixa qualidade” publicam coisas deste tipo. Ledo engano… a incompreensão sobre intervalos de confiança, significância estatística, p-valores é pervasiva nas ciências sociais, inclusive em trabalhos aplicados nas melhores revistas e com os melhores pesquisadores!

PS: como havia dito em post anterior, o risco de escrever em blogs é não ter revisor. Agradeço ao Fábio Gomes por corrigir um erro primário constante na primeira e afobada versão deste post, escrita ontem de madrugada!

Nate Silver, Frequentistas, Bayesianos e Economistas


Havíamos comentado sobre o livro de Nate Silver.  Em particular, falamos sobre o capítulo 8 do livro, uma crítica aos testes cegos de significância estatística. E este capítulo, apesar de super simples, está dando o que falar. Por basicamente dois motivos: (i) Nate utiliza a palavra “frequentismo” para denominar o que critica; e, (ii) o livro se tornou muito popular.

O problema do rótulo “frequentismo” é que ele é utilizado para diversas correntes e técnicas estatísticas, sejam no campo teórico ou aplicado. Dessa forma, muitos daqueles que se denominam “frequentistas” não se enxergam na caracterização feita por Silver. Sentem-se ameaçados e injustiçados – passando a apontar limitações do Bayesianismo, que obviamente existem – a despeito de esses mesmos “frequentistas” também concordarem que as práticas expostas por Nate sejam ruins.

Andrew Gelman tem dois posts (1 e 2) sobre o assunto que merecem ser lidos (e lá você encontrará links para os demais posts de outros blogs). Vale destacar algumas passagens de Gelman.

Com relação à mensagem geral da crítica aos testes de significância:

if Nate’s message is that modern statistics is about models rather than p-values, I support that message even if it’s not phrased in the most technically correct manner.

Uma ênfase sobre o que o economista deve tomar como lição desta discussão:

One thing I’d like economists to get out of this discussion is: statistical ideas matter. To use Smith’s terminology, there is a there there. P-values are not the foundation of all statistics (indeed analysis of p-values can lead people seriously astray). A statistically significant pattern doesn’t always map to the real world in the way that people claim.

Indeed, I’m down on the model of social science in which you try to “prove something” via statistical significance. I prefer the paradigm of exploration and understanding. (See here for an elaboration of this point in the context of a recent controversial example published in an econ journal.)

Here’s another example (also from economics) where the old-style paradigm of each-study-should-stand-on-its-own led to troubles.

E uma crítica à crença incorreta (mas bastante comum) sobre como são aplicados os testes de hipótese na prática:

(…) hypothesis testing typically means that you do what’s necessary to get statistical significance, then you make a very strong claim that might make no sense at all. Statistically significant but stupid. Or, conversely, you slice the data up into little pieces so that no single piece is statistically significant, and then act as if the effect you’re studying is zero. The sad story of conventional hypothesis testing is that it is all to quick to run with a statistically significant result even if it’s coming from noise.

Sobre os pontos levantados na discussão, já tratamos neste blog da confusão gerada em testes de significância aqui (exemplo com teste de normalidade), aqui (exemplo com mercados eficientes) e aqui (uma brincadeira com confundir não rejeitar a hipótese nula com aceitá-la).

Livros de estatística pesam 0Kg.


Nos comentários de um post do A Mão Visível,  vi o Economista X sugerir que um resultado estatisticamente insignificante é evidência a favor da hipótese nula que está sendo testada.

Isso não é verdade, pois somente a rejeição ou não rejeição da hipótese nula – ou somente o p-valor – não fornece informação suficiente para esse julgamento.

Acho que uma forma simples de se instigar a reflexão sobre o assunto é com um exemplo absurdo como o abaixo.

Vale lembrar: apesar de parecer um engano trivial, é muito fácil se deixar levar por este tipo de interpretação. E ela é bastante difundida nos trabalhos aplicados.

***

Tenho evidência cabal de que livros não pesam nada. Isto mesmo, livros têm peso zero. Vejam abaixo, os dados são acachapantes. Primeiro com os livros do Jim Berger e do Aris Spanos:

20120613-185128.jpg

Agora vejam Fisher e Lehmann & Romano.

20120613-190440.jpg

Testei com mais de dez pares de livros diferentes. Todos com o mesmo resultado, p-valor=100% (o p-valor é a probabilidade de a minha balança acusar 0Kg (ou mais) quando os livros pesam de fato 0kg).

Conclusão: livros pesam 0Kg (pelo menos os livros de estatística, sejam frequentistas ou bayesianos).

***

Obviamente que a interpretação acima é absurda e nem mesmo um leigo a levaria a sério.

Entretanto, existem muitos estudos publicados que afirmam encontrar evidência a favor da hipótese nula simplesmente por não rejeitá-las. Isso é um raciocínio análogo ao exemplo.

Que informação (ou informações) a mais você levou em conta no teste da balança para julgar que o resultado zero não é uma boa evidência de peso zero (ou aproximadamente zero)? Há pelo menos duas coisas que você deveria ter levado em conta. Essas mesmas coisas servem para os testes estatísticos rotineiramente aplicados.

Pelo exposto, fica claro por que a afirmação de “O” anônimo, apesar de ácida, não é tão absurda assim:

…se você acha que um teste de raiz unitária em uma série macroeconômica de 10 anos tem mais informação sobre a ordem de integração do que o nome da variável em questão, você não entende nem de macroeconomia nem de econometria.

E se o seu p-valor for igual a 0,999?


Suponha que você rode um teste \chi^2 de fit e seu p-valor resulte em 0,999.

Então, não dá para rejeitar de forma alguma H_0 certo?

Bom, veja o que disse Fisher sobre o assunto:

“valores acima de 0,999 tem algumas vezes sido reportados e, se a hipótese for verdadeira, ocorreriam apenas uma vez em mil testes […] nesses casos, a hipótese é considerada definitivamente rejeitada como se  tivesse sido 0,001”

Para refletir. Vou tentar voltar neste tema mais a frente. Também vale lembrar algo que já tínhamos falado sobre o p-valor aqui.

A evidência prova: você é obeso… mas não é gordo!


O p-valor (ou valor p) é, talvez, a estatística mais difundida entre médicos, psicólogos, economistas e quase toda profissão que utilize inferência estatística.

Virtualmente todo mundo que fez um curso de graduação ou pós-graduação já se deparou com o p-valor, seja nas disciplinas de estatística, seja ao realizar um trabalho empírico aplicado.

Entretanto, quase ninguém sabe muito bem o que o p-valor é ou pode ser considerado quando se trata de evidência. Sobre este ponto, há um artigo de 1996, do Schervish, que mostra como o p-valor não é uma medida coerente de evidência. Como assim? Bom, deixe-me tentar explicar de uma maneira simples.

Em geral, alguém é considerado obeso quando é muito gordo: o conceito de obeso pressupõe o conceito de gordo. Em outras palavras, é impossível ser obeso sem ser gordo.

Representemos obeso por O e gordo por G. Em termos formais, dizemos que O -> G (leia-se, O implica em G), isto é, se você é obeso, então você é gordo.

Note que o fato de O -> G não quer dizer que a volta é válida, isto é que, G -> O. Você pode ser gordo, mas apenas gordinho, ou gordo-magro, ou semi-gordo (ou diversos outros nomes que inventam por aí), mas pode não ser muito gordo e, consequentemente, não é obeso.

Bom, suponha agora que você queira descobrir se um determinado indivíduo é gordo ou é obeso. Suponha, também, que você tenha dados de exames deste indivíduo, que forneçam evidência para a hipótese de ele ser gordo ou ser obeso. Como uma boa evidência deveria se comportar?

Note que uma evidência “bem comportada” deveria ser coerente no seguinte sentido: se ela é uma evidência que dê bons indícios de que o indivíduo seja obeso, ela deve ser tão boa ou melhor evidência de que o indivíduo seja gordo. Por quê? Ora, porque, como vimos, se você é obeso, necessariamente você é gordo. Uma medida de evidência que indicasse que você é obeso, mas não é gordo, seria contraditória, certo?

Mas é isso que o p-valor, de certo modo,  faz.

Por exemplo, no exemplo simples de uma distribuição normal trazido por Schervish, utilizando um teste uniformemente mais poderoso não viesado para hipóteses intervalares,  quando se observa x=2,18, para uma hipótese de que a média esteja no intervalo [-0,82, 0,52], o p-valor é de 0,0498. Já para uma hipótese de que a média esteja no intervalo [-0,5, 0,5] o p-valor é de 0,0502. Note, entretanto, que, se a média não estiver no primeiro intervalo, necessariamente ela não está no segundo intervalo. Mas a evidência é “mais forte” contra a primeira hipótese do que contra a segunda. E se o limiar de 5% (que é comumente adotado) fosse utilizado para rejeitar ou aceitar uma hipótese (isso por si só já poderia ser bastante problemático, pois não rejeitar não é a mesma coisa de aceitar), você diria que a média não está em [-0,82, 0,52] mas que está em [-0,5, 0,5]. Isso é mais ou menos a mesma coisa de dizer que alguém é obeso, mas não é gordo.

Há vários problemas de interpretação com os métodos de inferência que estão sendo utilizados atualmente, e pretendo trazer outros pontos mais a frente.