Você é obeso… mas não é gordo 2! Ou, mais sobre p-valores.


Já falamos que os p-valores não podem ser interpretados como uma medida absoluta de evidência, como comumente costumam ser. Entre algumas interpretações recorrentes, por exemplo, vale mencionar alguns cuidados:

  • se para um certo conjunto de dados, uma hipótese A (e uma estatística calculada sob A) gera um p-valor de 1% e outra hipótese B (e uma estatística calculada sob B) gera um p-valor de 10%, isto não necessariamente quer dizer que os dados trazem mais evidência contra A do que contra B. Até porque rejeitar A pode implicar, logicamente, na rejeição de B.
  • se para um certo conjunto de dados, uma hipótese A (e uma estatística calculada sob A) gera um p-valor menor que 5%, isto não necessariamente é evidência contra A.
  • se um estudo sobre a hipótese A resulta em p-valor menor do que 5% e outro estudo gera um p-valor maior do que 5%, isto não necessariamente quer dizer que os estudos apresentam resultados contraditórios.

Dentre outras questões.

Mas o que essas coisas querem realmente dizer? Muitas vezes é difícil entender o conceito sem exemplos (e gráficos) e é isso que pretendemos trazer hoje aqui. Vamos tratar do primeiro ponto listado, uma questão que, muitas vezes, pode confundir o usuário do p-valor: o p-valor pode apresentar evidências de que alguém seja obeso e, ao mesmo tempo, evidências de que este alguém não seja gordo, caso você, por descuido, tome o p-valor como uma medida absoluta de evidência e leve suas hipóteses nulas ao pé da letra. O exemplo abaixo foi retirado do artigo do Alexandre Patriota (versão publicada aqui).

Considere duas amostras aleatórias, com 100 observações cada, de distribuição normal com médias desconhecidas e variância igual 1.  Suponha que as médias amostrais calculadas nas duas amostras tenham sido x1=0.14 e x2=-0.16 e que você queira testar a hipótese nula de que ambas as médias populacionais sejam iguais a zero.

A estatística para esta hipótese é n*(x1^2+x2^2), e o valor obtido na amostra é  100*(0.14^2+(-0.16)^2)=4.52. A distribuição desta estatística, sob a hipótese nula, é uma qui-quadrado com 2 graus de liberdade, o que te dá um p-valor de 10%. Assim, se você segue o padrão da literatura aplicada, como o p-valor é maior do que 5%, você dirá que aceita (ou que não rejeita) a hipótese nula de que as médias sejam iguais a zero.

Agora suponha que outro pesquisador teste, com os mesmos dados, a hipótese de que as médias populacionas sejam iguais a si. Para esta hipótese, a estatística seria (n/2)*(x1 – x2)^2, e o valor obtido na amostra é  (100/2)*(0.14+0.16)^2= 4.5. A distribuição desta estatística sob a hipótese nula é uma qui-quadrado com 1 grau de liberdade, o que te dá um p-valor de 3%.  Caso o pesquisador siga o padrão da literatura aplicada, como o p-valor é menor do que 5% (o tão esperado *), ele dirá que rejeita a hipótese de que as médias sejam iguais.

Mas, espere um momento. Ao concluir que as médias não são iguais, logicamente  também se deve concluir que ambas não sejam iguais a zero! Com os mesmos dados, se forem testadas hipóteses diferentes, e se os resultados forem interpretados conforme faz a maior parte da literatura aplicada (que é uma interpretação bastante frágil), você chegará a conclusões aparentemente contraditórias!

Como o p-valor traz “mais evidência” contra a hipótese  de que as médias seja iguais do que contra a hipótese de que ambas sejam iguais a zero, tendo em vista que se rejeitarmos a primeira, logicamente temos que rejeitar a segunda? O que está acontecendo?

Para entender melhor, lembremos o que é o p-valor. O p-valor calcula a probabilidade de a estatística de teste ser tão grande, ou maior, do que a estatística de teste observada. Intuitivamente, o p-valor tenta responder a seguinte pergunta:  se eu adotasse esta discrepância observada como evidência suficiente para rejeitar a hipótese nula, quantas vezes este teste me levaria a erroneamente rejeitar esta hipótese quando ela é de fato verdadeira. Isto é, o p-valor leva em consideração em seu cálculo todos aqueles resultados amostrais que gerariam estatísticas tão extremas quanto a observada, que poderiam ter ocorrido mas não ocorreram.

Repare como calculamos a estatística 1 e note o termo (x1^2+x2^2). Percebe-se que a estatística se torna mais extrema cada vez que o ponto (x1, x2) se distancia de (0,0) – em qualquer direção. Isto é, ela cresce com relação à distância euclidiana de (x1,x2) em relação ao ponto (0,0). Talvez isso seja mais fácil de entender com imagens. No gráfico abaixo, quanto mais escura a cor, maior é o valor da estatística de teste.

dist_eucl_cont

Já na estatística 2, perceba que o termo principal é (x1 – x2)^2, e o que se mede é a distância do ponto em relação à curva x1=x2. Isto é, a distância absoluta de x1 em relação a x2. Vejamos as curvas de nível. Note que ao longo da curva há diversas regiões em branco, mesmo quando distantes do ponto (0,0), pois o que a estatística mede é a distância entre os pontos x1 e x2 entre si.

dist_abs_cont

Agora deve ficar mais fácil de entender o que está acontecendo. O p-valor calcula a probabilidade de encontrar uma estatística tão grande ou maior do que a observada. Ao calcular (x1 – x2)^2, todos os pontos que são distantes de (0,0), mas são próximos entre si, não geram estatísticas extremas. Como uma imagem vale mais do que mil palavras, façamos mais uma. No gráfico abaixo,  os pontos pretos são todos aqueles cuja estatística de teste supera a estatística observada (0.14, -0.16). Já os pontos azuis e vermelhos são todos os pontos que tem uma estatística de teste maior do que a observada, medidos pela distância euclidiana em relação à reta x1=x2.

contraste-p-valorNote que vários pontos pretos que se encontram “longe” de (0,0) não são nem vermelhos nem azuis, pois estão “pertos” da reta x1=x2. Fica claro, portanto, porque o p-valor da segunda estatística é menor. Isso ocorre porque resultados extremos que discordariam bastante de (0,0) – como (0.2, 0.2) ou (0.3, 0.3) – não são considerados em seu cálculo. Note que é possível obter um p-valor ainda menor (1,6%) testanto a hipóse de que média 1 seja menor ou igual à média 2. E se a média 1 não é menor ou igual a média 2, isso implica que elas não são iguais a si, e que também não são ambas iguais a zero. É importante ter claro também que todas as estatísticas são derivadas pelo mesmo método – razão de verossimilhanças – e possuem propriedades ótimas, não são estatísticas geradas ad-hoc para provocar um resultado contra-intutivo.

Para não alongar muito este post, frise-se que o que deve ser tirado como lição principal é que o p-valor não é uma medida absoluta de suporte à hipótese que está sendo testada. Mas como interpretar melhor os resultados acima? Caso você queira continuar no âmbito frequentista, algumas medidas seriam, por exemplo, não considerar literalmente as hipóteses nulas (isto é, não rejeitar ou aceitar uma hipótese precisa como x1=x2 ou x1=x2=0), avaliar que discrepâncias em relação à hipótese nula são ou não relevantes (do ponto de vista científico, e não estatístico) e conferir a função poder e intervalos de confiança para algumas alternativas de interesse.  Trataremos disso mais a frente (caso vocês ainda não tenham enjoado do assunto!).

P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

Livros de estatística pesam 0Kg.


Nos comentários de um post do A Mão Visível,  vi o Economista X sugerir que um resultado estatisticamente insignificante é evidência a favor da hipótese nula que está sendo testada.

Isso não é verdade, pois somente a rejeição ou não rejeição da hipótese nula – ou somente o p-valor – não fornece informação suficiente para esse julgamento.

Acho que uma forma simples de se instigar a reflexão sobre o assunto é com um exemplo absurdo como o abaixo.

Vale lembrar: apesar de parecer um engano trivial, é muito fácil se deixar levar por este tipo de interpretação. E ela é bastante difundida nos trabalhos aplicados.

***

Tenho evidência cabal de que livros não pesam nada. Isto mesmo, livros têm peso zero. Vejam abaixo, os dados são acachapantes. Primeiro com os livros do Jim Berger e do Aris Spanos:

20120613-185128.jpg

Agora vejam Fisher e Lehmann & Romano.

20120613-190440.jpg

Testei com mais de dez pares de livros diferentes. Todos com o mesmo resultado, p-valor=100% (o p-valor é a probabilidade de a minha balança acusar 0Kg (ou mais) quando os livros pesam de fato 0kg).

Conclusão: livros pesam 0Kg (pelo menos os livros de estatística, sejam frequentistas ou bayesianos).

***

Obviamente que a interpretação acima é absurda e nem mesmo um leigo a levaria a sério.

Entretanto, existem muitos estudos publicados que afirmam encontrar evidência a favor da hipótese nula simplesmente por não rejeitá-las. Isso é um raciocínio análogo ao exemplo.

Que informação (ou informações) a mais você levou em conta no teste da balança para julgar que o resultado zero não é uma boa evidência de peso zero (ou aproximadamente zero)? Há pelo menos duas coisas que você deveria ter levado em conta. Essas mesmas coisas servem para os testes estatísticos rotineiramente aplicados.

Pelo exposto, fica claro por que a afirmação de “O” anônimo, apesar de ácida, não é tão absurda assim:

…se você acha que um teste de raiz unitária em uma série macroeconômica de 10 anos tem mais informação sobre a ordem de integração do que o nome da variável em questão, você não entende nem de macroeconomia nem de econometria.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

P-valor não é probabilidade a posteriori!


Quando saiu a “descoberta” do Bóson de Higgs, praticamente todos os jornais divulgaram a notícia confundindo o p-valor da pesquisa como a probabilidade a posteriori de se cometer um erro. Esta confusão é muito mais comum do que se imagina, inclusive entre os próprios professores e livros de estatística (vide, por exemplo, Haller e Kraus, 2002 ou Gigerenzer, 2000).

A esse respeito, neste último final de semana, vi uma apresentação de uma aula de métodos quantitativos de um ótimo curso de pós-graduação em que se afirmava que o p-valor indicaria, “informalmente”, a probabilidade de a hipótese nula ser verdadeira. Isso não é verdade, nem informalmente – essas duas probabilidades podem até coincidir, mas apenas em circunstâncias específicas, pois ambas podem ser arbitrariamente distantes, a depender dos pressupostos a priori (vide DeGroot, 1973 ou Casella e Berger, 1987 para casos em que coincidem. Vide Berger e Selke 1987, para casos gerais em que não).

Vale a pena, portanto, recolocar aqui o link para um breve video sobre o p-valor. Provavelmente voltarei a este assunto em breve (p<5% ?).

HALLER, H.; KRAUSS, S. Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online. v.7(1), p. 1–20. 2002.

GIGERENZER, G. Adaptive Thinking—Rationality in the Real World. Oxford Univ. Press, New York. 2000.

DEGROOT, M. H. Doing What Comes Naturally: Interpreting a Tail Area as a Posterior Probability or as a Likelihood Ratio. Journal of the American Statistical Association, 68, p. 966-969, 1973.

CASELLA, G.; BERGER, R. L. Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p. 344-347, 1987b.

BERGER, J. O.; SELLKE, T. Testing a point null hypothesis: The irreconcilability of P values and evidence. Journal of the American Statistical Association, v.82(397), p. 112-122, 1987

O que é a probabilidade a posteriori


Deborah Mayo achou que o vídeo do post anterior, sobre as más interpretações do p-valor, parte implicitamente do pressuposto de que, caso o resultado tivesse sido divulgado em forma de uma probabilidade a posteriori, não haveria problemas de interpretação.

Mayo propõe, assim, um rejoinder, com um diálogo evidenciando as dificuldades – em alguns casos maiores – da inversão bayesiana.

O que é o p-valor


Já havíamos falado do p-valor aqui, aqui, aqui e aqui. Agora veja este vídeo sobre o p-valor, explicando que, diferentemente do que as pessoas fazem na prática, você: (i) não pode inverter a probabilidade; (ii) não pode comparar diferentes p-valores com amostras diferentes como medida de evidência (isto é, um p-valor menor não quer dizer evidência mais forte); (iii) e que significância estatística não é a mesma coisa de significância prática.