P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

Livros de estatística pesam 0Kg.


Nos comentários de um post do A Mão Visível,  vi o Economista X sugerir que um resultado estatisticamente insignificante é evidência a favor da hipótese nula que está sendo testada.

Isso não é verdade, pois somente a rejeição ou não rejeição da hipótese nula – ou somente o p-valor – não fornece informação suficiente para esse julgamento.

Acho que uma forma simples de se instigar a reflexão sobre o assunto é com um exemplo absurdo como o abaixo.

Vale lembrar: apesar de parecer um engano trivial, é muito fácil se deixar levar por este tipo de interpretação. E ela é bastante difundida nos trabalhos aplicados.

***

Tenho evidência cabal de que livros não pesam nada. Isto mesmo, livros têm peso zero. Vejam abaixo, os dados são acachapantes. Primeiro com os livros do Jim Berger e do Aris Spanos:

20120613-185128.jpg

Agora vejam Fisher e Lehmann & Romano.

20120613-190440.jpg

Testei com mais de dez pares de livros diferentes. Todos com o mesmo resultado, p-valor=100% (o p-valor é a probabilidade de a minha balança acusar 0Kg (ou mais) quando os livros pesam de fato 0kg).

Conclusão: livros pesam 0Kg (pelo menos os livros de estatística, sejam frequentistas ou bayesianos).

***

Obviamente que a interpretação acima é absurda e nem mesmo um leigo a levaria a sério.

Entretanto, existem muitos estudos publicados que afirmam encontrar evidência a favor da hipótese nula simplesmente por não rejeitá-las. Isso é um raciocínio análogo ao exemplo.

Que informação (ou informações) a mais você levou em conta no teste da balança para julgar que o resultado zero não é uma boa evidência de peso zero (ou aproximadamente zero)? Há pelo menos duas coisas que você deveria ter levado em conta. Essas mesmas coisas servem para os testes estatísticos rotineiramente aplicados.

Pelo exposto, fica claro por que a afirmação de “O” anônimo, apesar de ácida, não é tão absurda assim:

…se você acha que um teste de raiz unitária em uma série macroeconômica de 10 anos tem mais informação sobre a ordem de integração do que o nome da variável em questão, você não entende nem de macroeconomia nem de econometria.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

P-valor não é probabilidade a posteriori!


Quando saiu a “descoberta” do Bóson de Higgs, praticamente todos os jornais divulgaram a notícia confundindo o p-valor da pesquisa como a probabilidade a posteriori de se cometer um erro. Esta confusão é muito mais comum do que se imagina, inclusive entre os próprios professores e livros de estatística (vide, por exemplo, Haller e Kraus, 2002 ou Gigerenzer, 2000).

A esse respeito, neste último final de semana, vi uma apresentação de uma aula de métodos quantitativos de um ótimo curso de pós-graduação em que se afirmava que o p-valor indicaria, “informalmente”, a probabilidade de a hipótese nula ser verdadeira. Isso não é verdade, nem informalmente – essas duas probabilidades podem até coincidir, mas apenas em circunstâncias específicas, pois ambas podem ser arbitrariamente distantes, a depender dos pressupostos a priori (vide DeGroot, 1973 ou Casella e Berger, 1987 para casos em que coincidem. Vide Berger e Selke 1987, para casos gerais em que não).

Vale a pena, portanto, recolocar aqui o link para um breve video sobre o p-valor. Provavelmente voltarei a este assunto em breve (p<5% ?).

HALLER, H.; KRAUSS, S. Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online. v.7(1), p. 1–20. 2002.

GIGERENZER, G. Adaptive Thinking—Rationality in the Real World. Oxford Univ. Press, New York. 2000.

DEGROOT, M. H. Doing What Comes Naturally: Interpreting a Tail Area as a Posterior Probability or as a Likelihood Ratio. Journal of the American Statistical Association, 68, p. 966-969, 1973.

CASELLA, G.; BERGER, R. L. Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p. 344-347, 1987b.

BERGER, J. O.; SELLKE, T. Testing a point null hypothesis: The irreconcilability of P values and evidence. Journal of the American Statistical Association, v.82(397), p. 112-122, 1987

O que é a probabilidade a posteriori


Deborah Mayo achou que o vídeo do post anterior, sobre as más interpretações do p-valor, parte implicitamente do pressuposto de que, caso o resultado tivesse sido divulgado em forma de uma probabilidade a posteriori, não haveria problemas de interpretação.

Mayo propõe, assim, um rejoinder, com um diálogo evidenciando as dificuldades – em alguns casos maiores – da inversão bayesiana.

O que é o p-valor


Já havíamos falado do p-valor aqui, aqui, aqui e aqui. Agora veja este vídeo sobre o p-valor, explicando que, diferentemente do que as pessoas fazem na prática, você: (i) não pode inverter a probabilidade; (ii) não pode comparar diferentes p-valores com amostras diferentes como medida de evidência (isto é, um p-valor menor não quer dizer evidência mais forte); (iii) e que significância estatística não é a mesma coisa de significância prática.

Confusão eterna! A “descoberta” do Bóson de Higgs


Como havíamos falado em post anterior, quase todo mundo confunde o significado dos p-valores ou intervalos de confiança. E não é que lendo a matéria da FAPESP sobre o bóson de Higgs, uma notícia de uma agência de financiamento oficial, vemos a mesma confusão!

Na física das partículas, 5 Sigma indica 99,9% de probabilidade de o resultado da medida estar correto e de que há uma chance em 1,75 milhão de se tratar de um desvio estatístico.

A interpretação correta aqui é de que, caso o resultado fosse derivado de um “desvio estatístico”, isto é, caso o resultado fosse derivado apenas por sorte, as chances de se obter uma observação tão extrema ou mais extrema do que a observada pelos cientistas seria de uma em 1,75 milhão. Isso não é a mesma coisa de dizer que “há uma chance em 1,75 milhão de se tratar de um desvio estatístico”.

O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.

E se o seu p-valor for igual a 0,999?


Suponha que você rode um teste \chi^2 de fit e seu p-valor resulte em 0,999.

Então, não dá para rejeitar de forma alguma H_0 certo?

Bom, veja o que disse Fisher sobre o assunto:

“valores acima de 0,999 tem algumas vezes sido reportados e, se a hipótese for verdadeira, ocorreriam apenas uma vez em mil testes [...] nesses casos, a hipótese é considerada definitivamente rejeitada como se  tivesse sido 0,001″

Para refletir. Vou tentar voltar neste tema mais a frente. Também vale lembrar algo que já tínhamos falado sobre o p-valor aqui.

A evidência prova: você é obeso… mas não é gordo!


O p-valor (ou valor p) é, talvez, a estatística mais difundida entre médicos, psicólogos, economistas e quase toda profissão que utilize inferência estatística.

Virtualmente todo mundo que fez um curso de graduação ou pós-graduação já se deparou com o p-valor, seja nas disciplinas de estatística, seja ao realizar um trabalho empírico aplicado.

Entretanto, quase ninguém sabe muito bem o que o p-valor é ou pode ser considerado quando se trata de evidência. Sobre este ponto, há um artigo de 1996, do Schervish, que mostra como o p-valor não é uma medida coerente de evidência. Como assim? Bom, deixe-me tentar explicar de uma maneira simples.

Em geral, alguém é considerado obeso quando é muito gordo: o conceito de obeso pressupõe o conceito de gordo. Em outras palavras, é impossível ser obeso sem ser gordo.

Representemos obeso por O e gordo por G. Em termos formais, dizemos que O -> G (leia-se, O implica em G), isto é, se você é obeso, então você é gordo.

Note que o fato de O -> G não quer dizer que a volta é válida, isto é que, G -> O. Você pode ser gordo, mas apenas gordinho, ou gordo-magro, ou semi-gordo (ou diversos outros nomes que inventam por aí), mas pode não ser muito gordo e, consequentemente, não é obeso.

Bom, suponha agora que você queira descobrir se um determinado indivíduo é gordo ou é obeso. Suponha, também, que você tenha dados de exames deste indivíduo, que forneçam evidência para a hipótese de ele ser gordo ou ser obeso. Como uma boa evidência deveria se comportar?

Note que uma evidência “bem comportada” deveria ser coerente no seguinte sentido: se ela é uma evidência que dê bons indícios de que o indivíduo seja obeso, ela deve ser tão boa ou melhor evidência de que o indivíduo seja gordo. Por quê? Ora, porque, como vimos, se você é obeso, necessariamente você é gordo. Uma medida de evidência que indicasse que você é obeso, mas não é gordo, seria contraditória, certo?

Mas é isso que o p-valor, de certo modo,  faz.

Por exemplo, no exemplo simples de uma distribuição normal trazido por Schervish, utilizando um teste uniformemente mais poderoso não viesado para hipóteses intervalares,  quando se observa x=2,18, para uma hipótese de que a média esteja no intervalo [-0,82, 0,52], o p-valor é de 0,0498. Já para uma hipótese de que a média esteja no intervalo [-0,5, 0,5] o p-valor é de 0,0502. Note, entretanto, que, se a média não estiver no primeiro intervalo, necessariamente ela não está no segundo intervalo. Mas a evidência é “mais forte” contra a primeira hipótese do que contra a segunda. E se o limiar de 5% (que é comumente adotado) fosse utilizado para rejeitar ou aceitar uma hipótese (isso por si só já poderia ser bastante problemático, pois não rejeitar não é a mesma coisa de aceitar), você diria que a média não está em [-0,82, 0,52] mas que está em [-0,5, 0,5]. Isso é mais ou menos a mesma coisa de dizer que alguém é obeso, mas não é gordo.

Há vários problemas de interpretação com os métodos de inferência que estão sendo utilizados atualmente, e pretendo trazer outros pontos mais a frente.