Erro de medida e ‘atenuação’ dos efeitos estimados


Andrew Gelman publicou um pequeno comentário na Science sobre erro de medida e “atenuação dos efeitos estimados”. O argumento é o seguinte: no modelo clássico de erro de medida, na média suas estimativas são puxadas para baixo. Suponha, então, que você tenha feito um experimento com amostra pequena, com erro de medida, mas ainda assim você tenha encontrado um efeito estimado “significante”. Ora, é tentador argumentar o seguinte: tanto a amostra pequena quanto o erro de medida estão “jogando contra” meu efeito estimado, então é provável que o efeito real seja ainda maior do que o que eu estimei. Parece lógico, não?

Parece, mas não é. E, infelizmente, esse raciocínio ainda engana muitos pesquisadores. Na verdade, em um contexto de efeitos reais pequenos junto com amostras pequenas, é mais provável que aquelas estimativas estatisticamente significantes estejam superestimando o efeito real. O problema aqui é que o ruído das amostras pequenas em conjunto com o viés de seleção de estimativas estatisticamente significantes predomina. Vejamos isso na prática com uma simples simulação.

No código abaixo eu simulo mil estudos com um tamanho amostral fixo (n = 10, n = 20, n = 50, n = 500 e n = 1000). Desses mil estudos, eu seleciono apenas aqueles que são estatisticamente “significantes” e coloco no gráfico o valor estimado do estudo. O valor real do efeito é 0.1, que está representado pela linha vermelha. Vejam que, para amostras até de tamanho 100, todas as estimativas “significantes” da simulação estão superestimando o efeito real. Apenas quando a amostra é grande o suficiente que o efeito atenuante do erro de medida se faz prevalecer, revertendo o resultado.

plot of chunk cars

E se você comparar as estimativas com e sem erro de medida, como faz Gelman, também vai verificar que com amostras pequenas dificilmente uma é sempre maior do que a outra.


Código para simulação:

rm(list = ls())
set.seed(10)
ns = c(10, 20, 50, 100, 500, 1000)
oldpar <- par(mfrow = c(2,3))
for (n in ns) {
  b = 0.1
  x <- rnorm(n)
  y <- b*x 

  coefs <- replicate(1000, {
    xs <- x + rnorm(n)
    ys <- y + rnorm(n)
    coef(summary(lm(ys ~ xs)))[2,]
  })

  coefs <- t(coefs)
  plot(coefs[coefs[,3] > 2, 1], ylim = c(min(c(b, coefs[,1])), max(coefs[,1])),
       xlab = "Significant Experiments", ylab = "'Significant' Estimates",
       main = paste("Sample size =", n), pch = 20)
  abline(h = b, col = "red", lty = 2)
}
par(oldpar)

Links diversos: o Estatístico Automático e um pouco de história do R.


Seguem alguns links interessantes:

1. Andrew Gelman comentou sobre o estatístico automático e resolvi testar. Como ainda é um protótipo, por enquanto o site só trabalha com modelos lineares. O que o algoritmo tentará fazer? O seguinte:

 (…)  the automatic statistician will attempt to describe the final column of your data in terms of the rest of the data. After constructing a model of your data, it will then attempt to falsify its claims to see if there is any aspect of the data that has not been well captured by its model.

Testei com os dados dos votos municipais na Dilma vs variáveis socio-econômicas dos municípios (primeiro turno). Veja aqui os resultados.

2. Ok, este link só vai ser interessante se você tiver um pouco de curiosidade sobre o R. Rasmus Baath comprou os livros das antigas versões do S (a linguagem que deu origem ao R) e ressaltou alguns pontos interessantes sobre o desenvolvimento da linguagem ao longo do tempo.

Causalidade e Paradoxo de Simpson: debate acalorado entre Judea Pearl e Andrew Gelman (e outros).


Para quem tem interesse em discussões sobre estatística e causalidade, vale a pena ler estes dois posts (aqui e aqui) do Andrew Gelman, principalmente as discussões ocorridas nos comentários, com participação provocativa do Judea Pearl. Se você ainda não teve contato com o assunto, dê uma olhada no exemplo deste post antes para ficar com a pulga atrás da orelha e começar a entender por que causalidade não é um conceito estatístico.

P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

Nate Silver, Frequentistas, Bayesianos e Economistas


Havíamos comentado sobre o livro de Nate Silver.  Em particular, falamos sobre o capítulo 8 do livro, uma crítica aos testes cegos de significância estatística. E este capítulo, apesar de super simples, está dando o que falar. Por basicamente dois motivos: (i) Nate utiliza a palavra “frequentismo” para denominar o que critica; e, (ii) o livro se tornou muito popular.

O problema do rótulo “frequentismo” é que ele é utilizado para diversas correntes e técnicas estatísticas, sejam no campo teórico ou aplicado. Dessa forma, muitos daqueles que se denominam “frequentistas” não se enxergam na caracterização feita por Silver. Sentem-se ameaçados e injustiçados – passando a apontar limitações do Bayesianismo, que obviamente existem – a despeito de esses mesmos “frequentistas” também concordarem que as práticas expostas por Nate sejam ruins.

Andrew Gelman tem dois posts (1 e 2) sobre o assunto que merecem ser lidos (e lá você encontrará links para os demais posts de outros blogs). Vale destacar algumas passagens de Gelman.

Com relação à mensagem geral da crítica aos testes de significância:

if Nate’s message is that modern statistics is about models rather than p-values, I support that message even if it’s not phrased in the most technically correct manner.

Uma ênfase sobre o que o economista deve tomar como lição desta discussão:

One thing I’d like economists to get out of this discussion is: statistical ideas matter. To use Smith’s terminology, there is a there there. P-values are not the foundation of all statistics (indeed analysis of p-values can lead people seriously astray). A statistically significant pattern doesn’t always map to the real world in the way that people claim.

Indeed, I’m down on the model of social science in which you try to “prove something” via statistical significance. I prefer the paradigm of exploration and understanding. (See here for an elaboration of this point in the context of a recent controversial example published in an econ journal.)

Here’s another example (also from economics) where the old-style paradigm of each-study-should-stand-on-its-own led to troubles.

E uma crítica à crença incorreta (mas bastante comum) sobre como são aplicados os testes de hipótese na prática:

(…) hypothesis testing typically means that you do what’s necessary to get statistical significance, then you make a very strong claim that might make no sense at all. Statistically significant but stupid. Or, conversely, you slice the data up into little pieces so that no single piece is statistically significant, and then act as if the effect you’re studying is zero. The sad story of conventional hypothesis testing is that it is all to quick to run with a statistically significant result even if it’s coming from noise.

Sobre os pontos levantados na discussão, já tratamos neste blog da confusão gerada em testes de significância aqui (exemplo com teste de normalidade), aqui (exemplo com mercados eficientes) e aqui (uma brincadeira com confundir não rejeitar a hipótese nula com aceitá-la).

É racional votar?


Vimos que as pessoas podem não ser tão racionais na hora da escolha de seu candidato, deixando fatores externos, como uma partida de futebol, alterarem suas preferências.  Mas e o próprio ato de se dar ao trabalho de comparecer às urnas, seria racional?

As chances de uma eleição ser decidida por apenas um voto são muito pequenas, quase nulas. Nos Estados Unidos, por exemplo, Gelman estima que essa probabilidade seja de 1 em 1 milhão. Deste modo, um agente racional muito provavelmente decidiria não votar, certo? Afinal, existe um custo para votar e o retorno esperado seria, virtualmente, zero.

Bom, depende.

Se você avalia o resultado das eleições apenas pelo seu benefício direto, sim, seria irracional ir às urnas. Você somente iria se achasse o ato de votar prazeroso em si, por exemplo. A partir deste pressuposto, a alta taxa de comparecimento verificada nas eleições seria um paradoxo.

Mas, se você considera que a vitória de um candidato traz benefícios não somente para você, mas para toda a população, e você se importa com a satisfação dos outros, então o valor esperado do resultado das eleições pode ser positivo – aliás, pode ser muito alto. Suponha que você julgue que a vitória de seu candidato traga um benefício líquido de R$10,00 para cada indivíduo no Brasil. Neste caso, o resultado das eleições equivaleria a ganhar um prêmio de R$2 bilhões. Gelman modela esta situação e mostra como o ato de comparecer às eleições pode ser mais racional do que se imagina.

Freakonomics revisitado e o efeito do Tea Party


Compartilhando algumas leituras:

Andrew Gelman discute com Stephen Dubner sobre suas críticas ao Freakonomics. O artigo original com as críticas, que são simples mas muito pertinentes, pode ser conferido aqui.

Mankiw dá a dica de um artigo que usa dias chuvosos como variável instrumental para capturar o efeito político do Tea Party.