P-valor não é probabilidade a posteriori II


Na época da “descoberta” do Boson de Higgs, quase todo jornal confundiu. Inclusive, é comum ver essa confusão nas salas de aula. Andrew Gelman aponta para mais uma confusão na mídia, desta vez no New York Times:

Bakalar afirma que o p-valor é desenhado para

quantificar a probabilidade de o resultado de um experimento não ser fruto do acaso.

Isso é errado.

Vale lembrar o que o p-valor calcula: supondo que o resultado do experimento tenha sido fruto do acaso, qual seria a probabilidade de observarmos um resultado tão extremo ou mais extremo do que de fato foi observado.

 

 

A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III


Demos um exemplo de confusão entre significância estatística e significância prática em um teste de normalidade: a rejeição (ou não-rejeição) da hipótese nula, arbitrariamente, sem levar em conta as magnitudes dos desvios, sua importância, o tamanho amostral, entre outros fatores, é análoga à situação ilustrada por este cartoon do XKCD:

Frequentists vs. Bayesians

Mas voltemos ao Nate Silver, que traz um exemplo simples e bastante ilustrativo da diferença entre significância estatística e significância econômica: um “teste” para a hipótese dos mercados eficientes.

Suponha que, nos dez anos após a publicação do Eugene Fama, você tenha coletado os dados diários do Down Jones Industrial Average. Suponha, também, que você tenha percebido que uma alta tenha sido, na maior parte das vezes, precedida por outra alta e uma perda, por outra perda. Deste modo, você suspeita que dados históricos poderiam ser usados para prever rentabilidade futura. Você resolve testar sua hipótese e um teste estatístico padrão te diz que haveria apenas 1 chance em 7.000.000.000.000.000 de um resultado tão ou mais extremo como o observado ter sido fruto da sorte.

A hipótese nula é (estatisticamente) rejeitada. A hipótese de mercados eficientes, inclusive em sua forma fraca, foi refutada!

Não tão rápido… se você incluir os custos de transação para tentar lucrar em cima do padrão encontrado, você descobre que um investidor que aplicasse $10.000 e seguisse a estratégia sugerida terminaria, ao final dos dez anos, com apenas $1.100!

Perceba como o exemplo acima é mais uma das formas de se confundir significância estatística com significância econômica. Como todo modelo ou teoria, a hipótese dos mercados eficientes não é uma reprodução fiel da realidade. Assim, se você queria saber se a hipótese vale exatamente e literalmente, nem era preciso se dar ao trabalho de testá-la: a resposta é, não, não vale. Mas isso não responde nem se e nem quando e nem como e nem por que a hipótese é (ou não) uma boa aproximação da realidade, isto é, sua “significância econômica”. No caso acima, mesmo aceitando que houvesse alguma previsibilidade real* no mercado, esta se mostrou economicamente insignificante. Neste exemplo, hipotético, a teoria não foi, economicamente, refutada.

* na maioria das vezes pode ser apenas uma correlação espúria. Nos anos 2000, por exemplo, o padrão citado se inverteu.

O culto da significância estatística II: Nate Silver


Após atuar com métodos estatísticos para previsão no Basebol, Nate Silver foi destaque nas previsões para a eleição presidencial dos Estados Unidos. Com a popularidade alcançada, seu livro “The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t” virou best-seller na Amazon.

O livro é voltado para o público geral, e trata dos percalços enfrentados no mundo da previsão, tentando distinguir quando e como a estatística pode ser utilizada e boas previsões podem ser feitas. Nate discute o trabalho de Kahneman sobre vieses cognitivos muito comuns, presentes principalmente quando lidamos com incerteza e probabilidade; discute o trabalho de Tetlock, que mostrou como, na média, “experts” políticos não são muito melhores do que um simples “cara-e-coroa” –  a não ser que eles tenham certas características, como uma visão plural e interdisciplinar, conhecimento sobre a própria ignorância entre outros fatores. Essas são armadilhas que todos que lidam com dados devem estar cientes, para buscar evitá-las.

Nate defende a necessidade de se ter uma teoria sólida para se tratar os dados –  e que essa necessidade aumenta no mundo com dados cada vez mais abundantes. Alega que, em geral, áreas em que previsões geralmente falham são aquelas em que a teoria ainda é nebulosa e que recorrem demasiadamente a modelos data-driven.  Ele aborda também a dificuldade inerente a sistemas não-lineares, sistemas dinâmicos,  leis de potência entre outras fatores que, se negligenciados, podem resultar em péssimas previsões.

Nate traz diversos exemplos (às vezes chega a ser exaustivo) para ilustrar seu ponto, passando por Basebol, Clima, Terremotos, Economia, Pôquer etc.

Mas, o capítulo 8 do livro foi o que me mais chamou a atenção. Em um livro para o público geral, e que virou best-seller, Nate resgata a literatura sobre as críticas aos testes de significância estatística (uma discussão mais extensa aqui, wikipedia aquialguns temas no blog aqui). Ele cita:

- o texto do Nickerson “Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy”;

- o texto do Cohen “The Earth Is Round (p < .05)”;

- o texto do Gill “The insignificance of null hypothesis significance testing”;

Entre outros. O tom que ele usa não é leve, atribuindo grande parte da culpa pelos métodos atualmente utilizados a Fisher. Seguem alguns trechos:

“Fisher é provavelmente mais responsável do que qualquer outro indivíduo pelos métodos estatísticos que ainda permanecem em amplo uso hoje. Ele desenvolveu a terminologia do teste de significância estatística e muito de sua metodologia” (p. 353).

“Estes métodos [testes de significância] desencorajam o pesquisador de considerar o contexto ou a plausibilidade de suas hipóteses […] assim, você verá artigos aparentemente sérios sobre como sapos podem prever terremotos, ou como lojas como a Target geram grupos de ódio racial, que aplicam testes frequentistas para produzir resultados “estatisticamente significantes” (mas manifestamente ridículos)” (p.253).

“Os métodos fisherianos não nos encorajam a pensar sobre quais correlações implicam em causalidade e quais não. Talvez não seja surpresa que depois de passar uma vida interia pensando assim, Fisher perdeu a habilidade de dizer a diferença [entre causalidade e correlação] (p.255). Nate faz referência ao fato de Fisher defender que fumar não causa câncer.

Como o livro se tornou um best-seller, é bem provável que isso desperte a curiosidade do aluno, que geralmente aprende passivamente um algoritmo qualquer na sala de aula; e também que chame mais a atenção dos pesquisadores (e professores) sobre a forma como estão fazendo inferência. Por este motivo, acho que o impacto do livro será bastante positivo. O Nate propõe o uso de métodos Bayesianos; mas, como o livro não é técnico – e o universo bayesiano bastante amplo – difícil saber quais ele realmente defende. De qualquer forma, não caberiar aqui discutir isso agora (o Larry Wasserman chegou ao ponto de dizer que vai mostrar ao próprio Nate que ele não é baeysiano, mas sim que é um raving frequentista, desfilando como bayesiano. Vamos ver o que vai sair disso…).

Em resumo, vale lembrar que este não é um livro técnico e que, tampouco, Nate irá te ensinar a fazer previsões. Mas conseguirá fazer você refletir sobre as possibilidades e limitações, tanto dos pesquisadores quanto dos métodos estatísticos, em uma leitura agradável e recheada de exemplos práticos.

O que é o p-valor


Já havíamos falado do p-valor aqui, aqui, aqui e aqui. Agora veja este vídeo sobre o p-valor, explicando que, diferentemente do que as pessoas fazem na prática, você: (i) não pode inverter a probabilidade; (ii) não pode comparar diferentes p-valores com amostras diferentes como medida de evidência (isto é, um p-valor menor não quer dizer evidência mais forte); (iii) e que significância estatística não é a mesma coisa de significância prática.