O culto da significância estatística II: Nate Silver


Após atuar com métodos estatísticos para previsão no Basebol, Nate Silver foi destaque nas previsões para a eleição presidencial dos Estados Unidos. Com a popularidade alcançada, seu livro “The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t” virou best-seller na Amazon.

O livro é voltado para o público geral, e trata dos percalços enfrentados no mundo da previsão, tentando distinguir quando e como a estatística pode ser utilizada e boas previsões podem ser feitas. Nate discute o trabalho de Kahneman sobre vieses cognitivos muito comuns, presentes principalmente quando lidamos com incerteza e probabilidade; discute o trabalho de Tetlock, que mostrou como, na média, “experts” políticos não são muito melhores do que um simples “cara-e-coroa” –  a não ser que eles tenham certas características, como uma visão plural e interdisciplinar, conhecimento sobre a própria ignorância entre outros fatores. Essas são armadilhas que todos que lidam com dados devem estar cientes, para buscar evitá-las.

Nate defende a necessidade de se ter uma teoria sólida para se tratar os dados –  e que essa necessidade aumenta no mundo com dados cada vez mais abundantes. Alega que, em geral, áreas em que previsões geralmente falham são aquelas em que a teoria ainda é nebulosa e que recorrem demasiadamente a modelos data-driven.  Ele aborda também a dificuldade inerente a sistemas não-lineares, sistemas dinâmicos,  leis de potência entre outras fatores que, se negligenciados, podem resultar em péssimas previsões.

Nate traz diversos exemplos (às vezes chega a ser exaustivo) para ilustrar seu ponto, passando por Basebol, Clima, Terremotos, Economia, Pôquer etc.

Mas, o capítulo 8 do livro foi o que me mais chamou a atenção. Em um livro para o público geral, e que virou best-seller, Nate resgata a literatura sobre as críticas aos testes de significância estatística (uma discussão mais extensa aqui, wikipedia aquialguns temas no blog aqui). Ele cita:

– o texto do Nickerson “Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy”;

– o texto do Cohen “The Earth Is Round (p < .05)”;

– o texto do Gill “The insignificance of null hypothesis significance testing”;

Entre outros. O tom que ele usa não é leve, atribuindo grande parte da culpa pelos métodos atualmente utilizados a Fisher. Seguem alguns trechos:

“Fisher é provavelmente mais responsável do que qualquer outro indivíduo pelos métodos estatísticos que ainda permanecem em amplo uso hoje. Ele desenvolveu a terminologia do teste de significância estatística e muito de sua metodologia” (p. 353).

“Estes métodos [testes de significância] desencorajam o pesquisador de considerar o contexto ou a plausibilidade de suas hipóteses […] assim, você verá artigos aparentemente sérios sobre como sapos podem prever terremotos, ou como lojas como a Target geram grupos de ódio racial, que aplicam testes frequentistas para produzir resultados “estatisticamente significantes” (mas manifestamente ridículos)” (p.253).

“Os métodos fisherianos não nos encorajam a pensar sobre quais correlações implicam em causalidade e quais não. Talvez não seja surpresa que depois de passar uma vida interia pensando assim, Fisher perdeu a habilidade de dizer a diferença [entre causalidade e correlação] (p.255). Nate faz referência ao fato de Fisher defender que fumar não causa câncer.

Como o livro se tornou um best-seller, é bem provável que isso desperte a curiosidade do aluno, que geralmente aprende passivamente um algoritmo qualquer na sala de aula; e também que chame mais a atenção dos pesquisadores (e professores) sobre a forma como estão fazendo inferência. Por este motivo, acho que o impacto do livro será bastante positivo. O Nate propõe o uso de métodos Bayesianos; mas, como o livro não é técnico – e o universo bayesiano bastante amplo – difícil saber quais ele realmente defende. De qualquer forma, não caberiar aqui discutir isso agora (o Larry Wasserman chegou ao ponto de dizer que vai mostrar ao próprio Nate que ele não é baeysiano, mas sim que é um raving frequentista, desfilando como bayesiano. Vamos ver o que vai sair disso…).

Em resumo, vale lembrar que este não é um livro técnico e que, tampouco, Nate irá te ensinar a fazer previsões. Mas conseguirá fazer você refletir sobre as possibilidades e limitações, tanto dos pesquisadores quanto dos métodos estatísticos, em uma leitura agradável e recheada de exemplos práticos.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

P-valor não é probabilidade a posteriori!


Quando saiu a “descoberta” do Bóson de Higgs, praticamente todos os jornais divulgaram a notícia confundindo o p-valor da pesquisa como a probabilidade a posteriori de se cometer um erro. Esta confusão é muito mais comum do que se imagina, inclusive entre os próprios professores e livros de estatística (vide, por exemplo, Haller e Kraus, 2002 ou Gigerenzer, 2000).

A esse respeito, neste último final de semana, vi uma apresentação de uma aula de métodos quantitativos de um ótimo curso de pós-graduação em que se afirmava que o p-valor indicaria, “informalmente”, a probabilidade de a hipótese nula ser verdadeira. Isso não é verdade, nem informalmente – essas duas probabilidades podem até coincidir, mas apenas em circunstâncias específicas, pois ambas podem ser arbitrariamente distantes, a depender dos pressupostos a priori (vide DeGroot, 1973 ou Casella e Berger, 1987 para casos em que coincidem. Vide Berger e Selke 1987, para casos gerais em que não).

Vale a pena, portanto, recolocar aqui o link para um breve video sobre o p-valor. Provavelmente voltarei a este assunto em breve (p<5% ?).

HALLER, H.; KRAUSS, S. Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online. v.7(1), p. 1–20. 2002.

GIGERENZER, G. Adaptive Thinking—Rationality in the Real World. Oxford Univ. Press, New York. 2000.

DEGROOT, M. H. Doing What Comes Naturally: Interpreting a Tail Area as a Posterior Probability or as a Likelihood Ratio. Journal of the American Statistical Association, 68, p. 966-969, 1973.

CASELLA, G.; BERGER, R. L. Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p. 344-347, 1987b.

BERGER, J. O.; SELLKE, T. Testing a point null hypothesis: The irreconcilability of P values and evidence. Journal of the American Statistical Association, v.82(397), p. 112-122, 1987

O que é a probabilidade a posteriori


Deborah Mayo achou que o vídeo do post anterior, sobre as más interpretações do p-valor, parte implicitamente do pressuposto de que, caso o resultado tivesse sido divulgado em forma de uma probabilidade a posteriori, não haveria problemas de interpretação.

Mayo propõe, assim, um rejoinder, com um diálogo evidenciando as dificuldades – em alguns casos maiores – da inversão bayesiana.

O que é o p-valor


Já havíamos falado do p-valor aqui, aqui, aqui e aqui. Agora veja este vídeo sobre o p-valor, explicando que, diferentemente do que as pessoas fazem na prática, você: (i) não pode inverter a probabilidade; (ii) não pode comparar diferentes p-valores com amostras diferentes como medida de evidência (isto é, um p-valor menor não quer dizer evidência mais forte); (iii) e que significância estatística não é a mesma coisa de significância prática.

Confusão eterna! A “descoberta” do Bóson de Higgs


Como havíamos falado em post anterior, quase todo mundo confunde o significado dos p-valores ou intervalos de confiança. E não é que lendo a matéria da FAPESP sobre o bóson de Higgs, uma notícia de uma agência de financiamento oficial, vemos a mesma confusão!

Na física das partículas, 5 Sigma indica 99,9% de probabilidade de o resultado da medida estar correto e de que há uma chance em 1,75 milhão de se tratar de um desvio estatístico.

A interpretação correta aqui é de que, caso o resultado fosse derivado de um “desvio estatístico”, isto é, caso o resultado fosse derivado apenas por sorte, as chances de se obter uma observação tão extrema ou mais extrema do que a observada pelos cientistas seria de uma em 1,75 milhão. Isso não é a mesma coisa de dizer que “há uma chance em 1,75 milhão de se tratar de um desvio estatístico”.

Espionando os dados


Acredito que o livro do Wooldridge seja um dos mais utilizados no ensino da econometria na graduação (e, não duvido nada, infelizmente em alguns cursos de pós). É um bom livro, tem vários exemplos com dados disponíveis em softwares econométricos de fácil acesso, como o Gretl.

Mas, existe uma pegadinha fundamental – somente no último capítulo, Wooldridge informa explicitamente ao aluno que tudo aquilo que ele aprendeu não funciona se ele “espionar” os dados . Em suas palavras:

Virtualmente todos os pesquisadores examinam vários modelos antes de encontrar o “melhor” deles. Infelizmente, a prática da exploração da base de dados viola as hipóteses que fizemos em nossa análise econométrica. Os resultados sobre a inexistência de viés do MQO e de outros estimadores, como também sobre as distribuições t e F que derivamos para os testes de hipóteses, pressupõem que observamos uma amostra que segue o modelo populacional e que o tenhamos estimado uma vez.

Se, antes de realizar um teste, você rodou vários modelos diferentes até encontrar o “melhor” deles – seja qual for sua concepção de melhor, como um sinal correto, ou uma significância estatística na variável de interesse –  as distribuições das estatísticas de teste não são as distribuições que você aprendeu. Isto é, os p-valores e demais estatísticas não são o que você acha que está calculando e as probabilidades de erro são diferentes dos valores nominais.

Por quê?

Provavelmente a forma mais fácil de se explicar isso seja a seguinte imagem:

sharpshooter

 

Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros. Veja, o problema não é a busca por especificação, é realizá-la e fazer de conta que não fez. Leamer chama quem faz tal uso, e acredita ou finge acreditar nos resultados, de “believers”:

 Believers report the summary statistics from the nth equation as if the other n-1 were not tried, as if the nth equation defined a controlled experiment.

Infelizmente, esta prática é disseminada na literatura, muito por conta de uma cultura que busca resultados “estatisticamente significantes”. Um working paper recente (dica do Leo) sugere que pesquisadores buscam especificações que “inflem” suas estatísticas de teste.

Já que a exploração de dados é parte inevitável da prática econômica, parece ser interessante começar a exigir a formalização disto nos trabalhos aplicados. Vou tentar trazer referências que tratem do assunto aqui.  Por agora, para não me alongar muito, cito uma das mais “clássicas” – de que estou gostando –   mas com uma abordagem bayesiana, linguagem ainda não muito comum entre economistas: o livro de Leamer de 1978, que encontra-se integralmente disponível em pdf em seu site: Specification Searches: Ad-Hoc Inference with Nonexperimental Data.

PUC-RJ x Reinaldo Azevedo: sobre causalidade e VI.


Quase todo mundo que acompanha a blogosfera econômica deve ter ouvido falar da controvérsia PUC-RJ x Reinaldo Azevedo. Drunkeynesian resumiu a querela em um único post para quem ainda não tinha visto e quiser conferir, ou para aqueles que não acompanharam toda a repercussão. Não vou comentar sobre o debate, mas quero aproveitá-lo para chamar a atenção sobre duas questões interessantes.

A primeira é a discussão sobre causalidade. Em muitos momentos, alguns comentários deram a entender que confundir correlação e causalidade é um erro trivial: não é. Todo mundo faz isso o tempo inteiro, inclusive os melhores economistas. Infelizmente, parece que a discussão sobre causalidade só foi formalizada recentemente, muito recentemente – Donald Pianto me alertou sobre o livro de Judea Pearl.  Até agora, o que eu tenho a dizer é que, para mim, o contato com essa literatura tem sido groundbreaking. É basicamente uma linguagem nova que torna clara e inteligível a discussão de causalidade. No próprio site do Judea Pearl é possível encontrar diversos reviews sobre o livro, inclusive de econometristas. Deixo também, aqui, um post sucinto de Larry Wasserman sobre o assunto.

O outro ponto é sobre o uso de variáveis instrumentais. Vi que chegaram a mencionar o artigo de Angrist e Pischke sobre a revolução de credibilidade nos trabalhos empíricos, que já havíamos mencionado neste blog. Cito novamente, portanto, a resposta de Leamer,  Tantalus on the Road to Asymptopia. Em suma, o ponto de Leamer é que Randomization is not Enough (por randomization leia-se variáveis instrumentais). Destaco este parágrafo (mas o interessante é  ler o texto inteiro):

When the randomization is accidental, we may pretend that the instrumental variables estimator is consistent, but we all know that the assumptions that justify that conclusion cannot possibly hold exactly. Those who use instrumental variables would do well to anticipate the inevitable barrage of questions about the appropriateness of their instruments. Ever-present asymptotic bias casts a large dark shadow on instrumental variables estimates and is what limits the applicability of the estimate even to the setting that is observed, not to mention extrapolation to new settings. In addition, small sample bias of instrumental variables estimators, even in the consistent case, is a huge neglected problem with practice, made worse by the existence of multiple weak instruments.

O erro padrão da Revista Brasileira de Economia


Havia prometido em post anterior comentar sobre o uso de erro-padrão robusto (à heterocedasticidade [White] ou à autocorrelação e heterocedasticidade [Newey-West]).  Entretanto, procrastinei. Mas isso foi excelente, pois ontem mesmo o David Giles tocou no assunto de forma sintética.

Hoje, praticamente todo mundo usa o erro-padrão robusto à heterocedasticidade – a tal ponto que há casos em que nem se demonstra mais a preocupação em verificar sua presença e tamanho. Por exemplo, em 2010, 77% dos artigos aplicados da RBE que usaram econometria não testaram para a presença de heterocedasticidade. Mais ainda, 40% não testaram e sequer mencionaram se o erro-padrão utilizado era robusto ou não. Talvez isso não fosse um problema tão grande se os próprios artigos não levassem seus testes tão a sério – mas não é este o caso. Quero deixar claro que isso não quer dizer que a RBE seja diferente das outras revistas – provavelmente uma amostra de qualquer outra, inclusive internacional, revelaria situação análoga. O fato é que, infelizmente, esta prática se tornou padrão na literatura aplicada, como o próprio Giles comenta:

Regrettably, this is not something that we see applied researchers taking into account very often. They just charge ahead with tests based on the HC or HAC estimators.

Isto é algo que Edward Leamer também lamenta. Em seu texto Tantalus on the Road to Asymptopia , Leamer batiza a prática de White Washing, e afirma que atualmente ela tem sido usada apenas para trocar uma fonte de incerteza  (a forma da heterocedasticidade) por outra (a confiança em resultados assintóticos em amostras finitas) como se isto fosse uma solução de fato – e em grande parte dos casos não é. Assim, ao invés de tentar quantificar a incerteza envolvida, o usuário finge que ela não existe e, como diz Leamer, “trudge relentlessly toward Asymptopia, where data are unlimited and estimates are consistent, where the laws of large numbers apply perfectly and where the full intricacies of the economy are completely revealed“.

Esta passagem também é provocadora e vale citação integral:

A legacy of White’s (1980) paper on robust standard errors, one of the most highly cited from the period, is the near-death of generalized least squares in cross-sectional applied work. An earlier generation of econometricians corrected the heteroskedasticity problems with weighted least squares using weights suggested by an explicit heteroskedasticity model. These earlier econometricians understood that reweighting the observations can have dramatic effects on the actual estimates, but they treated the effect on the standard errors as a secondary matter. A “robust standard” error completely turns this around, leaving the estimates the same but changing the size of the confidence interval. Why should one worry about the length of the confidence interval, but not the location? This mistaken advice relies on asymptotic properties of estimators. I call it “White-washing.” Best to remember that no matter how far we travel, we remain always in the Land of the Finite Sample, infinitely far from Asymptopia. Rather than mathematical musings about life in Asymptopia, we should be doing the hard work of modeling the heteroskedasticity and the time dependence to determine if sensible reweighting of the observations materially changes the locations of the estimates of interest as well as the widths of the confidence intervals.

O interessante é que há diversos artigos que sugerem formas de se lidar com alguns problemas, ou pelo menos entender de maneira geral como as probabilidades de erro são afetadas. Como lição (que certamente também vale para mim) deixo o final do texto do Giles:

Don’t simply use a “canned” package without being aware of the relevant econometric theory. After all, there’s no guarantee that the programmer had an appropriate level of awareness, is there?

O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.