Déficits causam câncer


Reinhart e Rogoff perderam muito tempo com os argumentos errados. Vejam o gráfico:

deficit_e_cancer

Brincadeiras à parte, gostei da carta dos autores a Krugman e do post do Hamilton.

Já DeLong argumenta que, se os autores dizem que a idéia geral do artigo não se altera radicalmente por causa dos erros, por outro lado, isso não muda o fato de o argumento ter sido fraco desde o princípio (não que eu concorde com DeLong, mas o ponto é mais do que pertinente):

The third thing to note is how small the correlation is. Suppose that we consider a multiplier of 1.5 and a marginal tax share of 1/3. Suppose the growth-depressing effect lasts for 10 years. Suppose that all of the correlation is causation running from high debt to slower future growth. And suppose that we boost government spending by 2% of GDP this year in the first case. Output this year then goes up by 3% of GDP. Debt goes up by 1% of GDP taking account of higher tax collections. This higher debt then reduces growth by… wait for it… 0.006% points per year. After 10 years GDP is lower than it would otherwise have been by 0.06%. 3% higher GDP this year and slower growth that leads to GDP lower by 0.06% in a decade. And this is supposed to be an argument against expansionary fiscal policy right now?….

Gráfico retirado de Os números (não) mentem.

Sobre a acurácia das variáveis econômicas III


Em posts anteriores falamos sobre a qualidade dos dados macroeconômicos e que dados oficiais são estimativas (ver aqui e aqui). Mas, qual o sentido prático disto? Vejamos com um exemplo.

Na conta de importação de serviços do balanço de pagamentos do México, fretes e seguros respondem por US$ 9,8 bilhões, cerca de 33% dos US$ 29 bilhões que totalizam a rubrica – trata-se de seu componente mais relevante. Como o México estima esse valor?

Antes de entrar no caso do México, tratemos brevemente dos meios de estimação mais comuns de fretes e seguros entre os países. O primeiro método é por meio dos valores declarados na aduana. Quando esta tem um campo de fretes e seguros discriminados em algum documento administrativo, é possível ao compilador utilizar estes valores para a estimação. Um segundo método é utilizar alguma proporção das importações ou exportações. Muitas vezes, a aduana do país registra apenas o valor CIF das importações, isto é, o valor com os custos de fretes e seguros incluídos. Deste modo, o compilador realiza uma pesquisa a cada 5 ou 10 anos, por exemplo, para estimar qual é a proporção do valor importado que corresponde a fretes e seguros.

É possível que você tenha pensado: “o primeiro método, com os dados da aduana, não deveria ser considerado uma estimativa, é o valor real!”. Mas não é. Voltemos ao México.

O México é um país que poderia se enquadrar no primeiro caso – sua aduana registra valores de fretes e seguros. Contudo, os pagamentos de fretes e seguros relatados em uma operação da aduana correspondem à importação de uma ampla gama de produtos, de diferentes naturezas e de vários países, tudo consolidado em um único documento. A regulamentação aduaneira tem suas próprias peculiaridades, não necessariamente relacionadas às informações que desejariam os compiladores da estatística. Ao fim, os dados da aduana lhes pareciam muito imprecisos, subestimados e demasiadamente agregados.

Com isto em mente, o Banxico buscou metodologia alternativa. Sua intenção era calcular o valor ao custo real de mercado e, assim, buscou preços no país vizinho, os Estados Unidos, que publicam, mensalmente, dados de custo médio dos fretes e seguros de importação por tipo de produto, país de origem e meio de transporte. Entretanto, o custo médio varia bastante por volume importado, e é preciso realizar este ajuste. Assim, roda-se uma regressão deste custo médio contra dummies dos portos dos EUA (pois cada porto pode ter um custo diferente) e volume importado (em log), para encontrar o coeficiente de ajuste entre volume e custo médio, chamado aqui de beta. Com o custo médio, o beta para ajuste e o volume das importações mexicanas em mãos , é possível estimar os custos de fretes e seguros do país. Atualizam-se o beta anualmente e o preço médio mensalmente sendo possível, deste modo, obter estimativas por produto, país e meio de transporte, que variam conforme condições de mercado, algo que não seria factível com os dados administrativos da aduana.

Mas, qual a diferença deste valor com o anterior, da aduana? O novo método estima custos cerca de duas vezes maiores e isso pareceu mais alinhado à realidade de mercado do que os dados anteriormente declarados. É uma diferença bem significativa.

Portanto, é importante atentar-se para dois detalhes: (i) dados que, a primeira vista, poderiam ser considerados “os valores reais” (dados de questionários, formulários administrativos, etc), podem ter problemas e estar tão sujeitos a erros quanto outros procedimentos; (ii) muitos componentes dos dados macroeconômicos que você utiliza, tal como a conta de fretes e seguros do exemplo acima, são derivados de um processo de estimação prévia. No nosso exemplo, seja o dado administrativo, ou o dado derivado pela outra metodologia, fica claro que ambos têm que ser vistos como estimativas, cada método com suas vantagens e limitações, sendo preciso entendê-las para saber o que aquele dado pode ou não pode te responder. 

Sobre a acurácia das variáveis econômicas II


Em post anterior tratamos da importância de se conhecer bem as variáveis com que se trabalha. Muitas vezes o economista utiliza dados que, por sua dificuldade de mensuração, são estimados por terceiros (IBGE, Banco Central, Tesouro Nacional etc). Assim, há uma tendência a se saber muito pouco sobre como esses dados são produzidos na prática e, sem entender quais suas limitações e quais seus pontos fortes, se esquece de tratá-los devidamente como estimativas.

Neste sentido, gostei muito de ver que outros blogs tem compartilhado desta mesma preocupação.

Dave Giles, por exemplo, resume algumas verdades importantes sobre dados oficiais, que são comumente esquecidas:

  • Dados são revisados o tempo inteiro: o número que saiu ontem do PIB pode mudar drasticamente amanhã.
  • Dados somem: eu já enfrentei isso com uma série de horas de trabalho que estava disponível no IPEA Data e que, alguns meses depois, simplesmente foi descontinuada e excluída.
  • As definições e metodologia mudam: por exemplo, a metodologia do Censo de Capitais Estrangeiros no País mudou recentemente. O usuário tem que ter isto em mente e não pode simplesmente comparar um dado com outro sem ajustes.
  • Os dados oficiais são estimativas: sobre isso tratamos no post anterior!

Dave Giles também recomendou alguns papers sobre o assunto e tratou de um interessante relatório sobre a qualidade dos dados chineses, aspecto fundamental para quem analisa aquela economia.

Já Mark Thoma começou a se dar conta do problema ao ler a notícia de que o IBGE americano está incorporando novos aspectos às contas nacionais que, simplesmente, podem “reescrever a história econômica”. Você já parou para se perguntar quantos “fatos estilizados” que conhecemos, como, por exemplo, a semi-estagnação de algumas economias desenvolvidas, podem (ou não) ser fruto da adoção de uma ou outra metodologia? Em posts futuros trarei exemplos interessantes de dados oficiais que são estimativas, mas agora queria tratar sobre aspectos que norteiam a discussão sobre a qualidade dos dados.

Sobre este quesito, o FMI tem um site inteiramente dedicado ao assunto: o Data Quality Reference Site. Trata-se de um louvável esforço para promover a agenda de pesquisa sobre a qualidade dos dados (macro)econômicos. O Fundo criou um interessante marco para a avaliação da qualidade – em um aspecto ainda qualitativo e não quantitativo – dividido em 6 dimensões:

0 – Condições Prévias: busca verificar alguns aspectos institucionais para a produção do dado, como o entorno jurídico e a quantidade de recursos disponível;

1 – Garantias de Integridade: avalia aspectos como o profissionalismo, a transparência e as normas éticas da produção;

2 – Rigor Metodológico: inspeciona se os conceitos e definições adotados estão conformes ao padrão internacional, se o alcance da pesquisa é suficiente, se as categorizações são adequadas;

3 – Acurácia e Confiança: verificam a adequação das fontes de dados utilizadas, se há um processo de avaliação, validação e revisão dos dados, se as técnicas estatísticas são sólidas;

4 – Utilidade para o Usuário: trata de questões de periodicidade, pontualidade, consistência e revisão;

5 – Acesso: aborda questões de acesso aos dado, acesso aos metadados (isso é, aos dados sobre como os dados foram produzidos) e assistência aos usuários.

O ideal seria termos, também, uma noção quantitativa do erro, mas este esforço já é um grande passo. Você pode encontrar o detalhamento destes pontos para contas nacionais, contas externas, finanças públicas, índices de preço, entre outros, em seu respectivo Data Quality Assessment Framework.

Você, que já trabalhou ou pretende trabalhar com dados em painel, comparando diversos países, já teve a curiosidade de se perguntar sobre a diferente qualidade dos dados que está misturando?

Para alguns países, é possível fazer isso analisando o seu Report on the Observance of Standards and Codes (mais conhecido como ROSC) sobre dados. Tomando o caso do Chile como exemplo, que possui um ROSC para dados no ano de 2007, seria possível descobrir que havia sérios problemas no escopo da pesquisa de índices de preços, e que havia propostas para solucionar a questão em dezembro de 2008. Perceba que, para quem trabalha com dados de preços chilenos antes de 2007, esta é uma informação fundamental!

Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3


Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.

A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.

20130312-220846.jpg

Veja mais aplicações da estatística neste blog aqui e aqui.

Via Marginal Revolution.

Como organizar dados de corte transversal?


Aparentemente esta pergunta não faria sentido. Afinal, por definição, se o dado é de corte-transversal, a ordem não interferiria na análise. A rigor, não importaria quem é o 1º dado, quem é o 2º dado, e assim por diante.

Todavia, nenhum dado é literalmente – stricto sensu – de corte transversal. Na verdade, o que define se o dado é uma “série temporal” ou “corte-transversal” não é sua natureza intrínseca, mas como ele foi ordenado. Na maioria dos casos, é impossível observar todos os indivíduos no mesmo período de tempo e o que de fato fazemos é julgar que a diferença temporal (ou espacial) entre uma coleta e outra é praticamente irrelevante para análise que queremos fazer. Só que às vezes essa ordem pode revelar informações (ou vieses) interessantes.

Recentemente, trabalhando com dados que seriam de corte transversal, parei para pensar na ordem que estavam dispostos. Eles estavam organizados aleatoriamente pelo sistema. Mas eu poderia recuperar as informações de preenchimento. E se eu organizasse os dados pela ordem de entrega do questionário? Ou pela ordem de início preenchimento? Será que valeria à pena esse esforço e seriam reveladas diferenças de correlação ou heterogeneidade uma vez que esse caráter “temporal” do dado fosse explicitado? Ainda não fiz este exercício e não tenho a resposta.

Mas, ao pensar nisso, lembrei na hora de um exemplo do livro texto do Aris Spanos, que gostaria de compartilhar. Ele utiliza dados de notas de alunos em uma prova, que não sei se são anedóticos ou reais*, mas que ilustram bem o ponto.

Os dados organizados por ordem alfabética tem o seguinte gráfico:

ordem_alfabetica

Pelo gráfico, os dados não parecem apresentar auto-correlação. Estimativas de um AR(1) e AR(2) apresentam coeficientes pequenos com coeficiente de variação grande. Isso juntamente à nossa crença a priori de que a ordem alfabética não deveria interferir nas notas, nos faz concluir que provavelmente não existe dependência nos dados.

Já a organização pela ordem dos assentos resulta no seguinte gráfico:

posicao_sentado

Esta figura, diferentemente da anterior, apresenta dependência nos dados. As notas parecem estar correlacionadas positivamente. O coeficiente de um AR(1) é bastante alto e sugere que notas altas estavam próximas de notas altas e, notas baixas, de notas baixas. A ordem dos dados, neste caso, pode ter revelado algo fundamental: para Spanos, por exemplo, isso é evidência de que houve muita cola durante a prova! Eu já diria que esta conclusão é precipitada. Outro fato que poderia explicar a correlação é o de que alunos com afinidades (e, consequentemente, notas parecidas) podem gostar de sentar juntos.

Mas a lição é clara: dados que tomamos como certo serem de “corte transversal” podem apresentar uma interessante dependência entre si quando observados com mais cuidado.

* o Spanos tem uns exemplos com dados curiosos. Neste post ele utiliza uma variável secreta X, que se sabe não ser correlacionada com a população dos EUA, para prever a população dos EUA. Ele mostra como uma regressão ingênua pode ter resultados espúrios, indicando, erroneamente, que a variável X explica a população. A variável X, supostamente, seria o número de sapatos que a vó de Spanos tinha em cada ano, desde 1955. Surge daí uma pergunta natural, feita por Corey:

“…how is it that Spanos has annual data on the number of pairs of shoes owned by his grandmother going back to 1955?”

Ao que Spanos responde.

“That’s easy! My grandmother would never throw away any shoes and each pair had a different story behind it; the stories I grew up with. Each pair was bought at a specific annual fair and it was dated.”

Como o cara é de Cyprus, sei lá, pode ser que essa resposta seja culturalmente plausível. Mas para um brasileiro é no mínimo estranha; eu prefiro acreditar que os dados sejam inventados do que acreditar que ele resolveu contabilizar o número de sapatos da avó em cada ano. Com relação aos dados das notas, uma possível pista de que talvez Spanos tenha inventado os dados é a de que, primeiro, ele diz que as notas são da matéria “Principles of Economics”. Depois, de que são da matéria “Macro-Economic Principles”. Mas, sejam os dados reais, ou fictícios, os exemplos continuam válidos!

Estatística no Google


Jeff Leek do Simply Statistics trouxe uma entrevista bacana com Nick Chamandy, um estatístico do Google.

Destaque para a parte em que ele diz que, na maioria dos casos, o estatístico que trabalha no Google não é somente responsável por fazer as análises, mas também por coletar e tratar os dados brutos.

In the vast majority of cases, the statistician pulls his or her own data — this is an important part of the Google statistician culture. It is not purely a question of self-sufficiency. There is a strong belief that without becoming intimate with the raw data structure, and the many considerations involved in filtering, cleaning, and aggregating the data, the statistician can never truly hope to have a complete understanding of the data. For massive and complex data, there are sometimes as many subtleties in whittling down to the right data set as there are in choosing or implementing the right analysis procedure

Esta é uma reflexão importante, principalmente para os (macro)economistas, que dependem em grande medida de dados de terceiros e podem acabar não tendo intimidade com a produção dos dados e o grau de acurácia das medidas.

PS.: o Google realmente parece ser a empresa dos sonhos para quem quer conciliar teoria e prática. Além da entrevista acima, veja Hal Varian aplicando teoria dos jogos na prática aqui.

Sobre a acurácia das variáveis econômicas


Segundo as contas nacionais trimestrais do IBGE, o PIB brasileiro no terceiro trimestre de 2012, a preços constantes de 1995, foi de R$ 292.011.667.484,06. Isto resultou em uma variação real de 0,8652892558907% em relação ao mesmo período do ano anterior.

Qual a acurácia destes números? Ninguém em sã consciência acreditaria que os últimos seis centavos são exatos ou precisos. Poucos também apostariam grande soma com relação à exatidão dos quatrocentos e oitenta e quatro reais. É bem possível que existam erros na ordem dos milhões; e, quem sabe, dos bilhões. Mas não sabemos quanto.

Diferentemente de pesquisas eminentemente amostrais (como a PME, por exemplo), dados como o PIB, que envolvem a agregação de diversos valores, com metodologias bastante diferentes, não costumam ser acompanhados de uma medida quantitativa de erro. Isto ocorre porque são consultadas várias fontes de informação para se gerar a estimativa do PIB: governamentais, pesquisas de campo amostrais, pesquisas quase-censitárias, formulários administrativos, extrapolações, interpolações, entre outros instrumentos. Cada uma dessas fontes está sujeita a diversos vieses, erros amostrais e não-amostrais, sendo bastante difícil chegar a uma medida quantitativa da incerteza em relação ao número.

Antes que me entendam mal, vale ressaltar: não estou criticando o IBGE, que atualmente é respeitado nacionalmente e internacionalmente por seus dados, principalmente se compararmos com os dados da Argentina os dados de outros países.

A questão é que o erro existe e isso é natural. A mensuração é uma atividade fundamental na ciência*, mas junto de toda mensuração há incerteza, bem como um trade-off entre custo e acurácia. Definir o grau de exatidão e precisão (e que tipo de exatidão e precisão**) a se alcançar depende de saber tanto para quê o dado será utilizado, quanto o custo de torná-lo mais acurado. Além disso, uma vez coletado o dado, saber a incerteza presente no número é, às vezes, quase tão importante quanto saber o próprio número, posto que exercício fundamental para – como diria Morgenstern – podermos distinguir “entre o que achamos que sabemos e o que de fato sabemos ou o que de fato podemos saber” com esses dados .

Entretanto, ao se observar a mídia e, inclusive, trabalhos acadêmicos, a impressão que se tem é a de que muitos dos números econômicos divulgados não são vistos como estimativas, mas como valores reais, absolutos. Muitas vezes se toma o número pelo seu valor de face. E, para a ciência econômica, isso pode ser um grande problema.

Para não ficar em uma discussão etérea, vejamos alguns exemplos.

Primeiro – a Pesquisa Mensal de Emprego (PME), que divulga uma medida de erro. Este caso ilustra como esta medida pode ser importante para se interpretar o número. No boxe do relatório de inflação de dezembro de 2012, há uma discussão sobre a aparente contradição entre os cenários sugeridos pelos dados da PME e pelos dados do Caged para o mercado de trabalho. Um dos pontos relacionados no texto, para conciliar os cenários das duas pesquisas, é o erro amostral, que evidencia o cuidado que tem de ser tomado ao interpretar as variações mês a mês da PME. Por exemplo, em outubro de 2012, o coeficiente de variação da pesquisa foi de 0,7%; assim, uma variação nos dados, suponha, de 0,6%, é consistente tanto com um crescimento robusto do emprego (uma taxa anualizada de 7,8%), quanto com uma variação natural na amostra.

Segundo, um exemplo anedótico – o caso dos livros que pesam 0Kg. Este é um exemplo propositalmente absurdo e que, por isso mesmo, torna o problema da falta de informação sobre o erro auto-evidente. Suponha que, além dos livros em que a balança acusou o peso de 0Kg, tenhamos uma terceira medida com peso de 2Kg. Tomando os dados por seu valor de face, o peso total dos livros seria, aritmeticamente, 0Kg + 0Kg + 2Kg= 2Kg. O número final é manifestamente errado, pois não sabemos a ordem de grandeza que o instrumento de mensuração (a balança) consegue identificar. A partir do momento em que se sabe que a balança é errática para pesos menores do que 2Kg, você percebe que este dado não serve para distinguir entre um peso total de 2Kg e um peso total de 6Kg. Entretanto serviria caso você quisesse saber se os livros pesam menos do que 20Kg. Veja, estamos distinguindo “entre o que achamos que sabemos e o que de fato sabemos ou o que de fato podemos saber” com esses dados.

Terceiro, talvez um caso de erro proposital – os dados do Indec sugerem que o crescimento argentino, desde 2002, apresenta taxa de cerca de 7,7% ao ano. Este dado, entretanto, pode servir para julgar a eficácia das políticas econômicas dos hermanos? Alexandre Schwartsman sugere que não, mostrando inconsistência considerável entre os dados do PIB e os dados de geração de energia da Argentina. Inclusive, dados de preços coletados on-line sugerem que também os índices de preços oficiais parecem ter erro muito grande para qualquer inferência.

Os exemplos acima ilustram como os dados são matéria prima importante para a economia, e também mostram que ter uma medida do erro inerente a esses dados nos ajuda a entender o que eles podem e o que eles não podem responder. Com esta preocupação em mente, comecei a procurar trabalhos sobre o assunto, e tive contato com o livro de Morgenstern “On the accuracy of economics observations”. Este trabalho, cuja segunda e última revisão é de 1963, foi o único que encontrei que discute extensivamente os problemas inerentes a muitas variáveis (macro)econômicas (caso alguém tenha conhecimento de algo com este fôlego e mais recente, favor indicar).

O trabalho passa por discutir a natureza dos dados econômicos não experimentais, os diversos tipos de erro naturalmente esperados, e ainda trata de vários exemplos nas mais diversas áreas (comércio exterior, índices de preços, emprego, PIB). Como este post já esta enorme, vou apenas mencionar um exemplo de contas nacionais, trazido por Morgenstern.

Como dissemos no início do post, os valores publicados nas contas nacionais são daquele tipo de estatística em que uma medida de erro não tem uma fórmula pronta, sendo difícil quantificar a incerteza. Entretanto, Kuznets, à época, reuniu especialistas envolvidos no cálculo do PIB para tentar chegar a uma medida. Resultado: cerca de 10%. Qual a implicação disso? Veja o gráfico abaixo (p.269):

morgenstern

Morgenstern mostra os dados de renda nacional bruta dos EUA, de 1946 a 1961, com o intervalo de 10% de erro. Neste caso, nota-se que os dados servem para analisar o crescimento econômico de longo prazo, mas são bastante duvidosos quanto sua utilidade para se confrontar teorias de ciclos econômicos, pois além dos ciclos divulgados oficialmente (reta contínua do gráfico) outra trajetória, com ciclos opostos, também é consistente com o erro (reta tracejada do gráfico).

Com o avanço da tecnologia, é provável que os dados de hoje não sejam tão incertos quanto os da época. Mas não sabemos em que medida, e isso é fundamental para distinguirmos o que podemos extrair dos dados. Estamos em uma época em que o reconhecimento do erro, da aleatoriedade, e da incerteza está se tornando cada vez mais comum e, talvez, seja hora de tentar resgatar a linha de pesquisa de Morgenstern.

* pelo menos para aqueles que descem do pedestal criado para si em sua própria mente e buscam confrontar ideias, sempre sujeitas a erro, com o que se observa.

** por exemplo, suponha que você tenha dois métodos para medir uma variável, em um deles você sabe que há alta probabilidade de subestimar a medida e, com o outro, alta probabilidade de superestimá-la: qual é melhor?

A Hipótese dos Mercados Eficientes. Ou culto da significância estatística III


Demos um exemplo de confusão entre significância estatística e significância prática em um teste de normalidade: a rejeição (ou não-rejeição) da hipótese nula, arbitrariamente, sem levar em conta as magnitudes dos desvios, sua importância, o tamanho amostral, entre outros fatores, é análoga à situação ilustrada por este cartoon do XKCD:

Frequentists vs. Bayesians

Mas voltemos ao Nate Silver, que traz um exemplo simples e bastante ilustrativo da diferença entre significância estatística e significância econômica: um “teste” para a hipótese dos mercados eficientes.

Suponha que, nos dez anos após a publicação do Eugene Fama, você tenha coletado os dados diários do Down Jones Industrial Average. Suponha, também, que você tenha percebido que uma alta tenha sido, na maior parte das vezes, precedida por outra alta e uma perda, por outra perda. Deste modo, você suspeita que dados históricos poderiam ser usados para prever rentabilidade futura. Você resolve testar sua hipótese e um teste estatístico padrão te diz que haveria apenas 1 chance em 7.000.000.000.000.000 de um resultado tão ou mais extremo como o observado ter sido fruto da sorte.

A hipótese nula é (estatisticamente) rejeitada. A hipótese de mercados eficientes, inclusive em sua forma fraca, foi refutada!

Não tão rápido… se você incluir os custos de transação para tentar lucrar em cima do padrão encontrado, você descobre que um investidor que aplicasse $10.000 e seguisse a estratégia sugerida terminaria, ao final dos dez anos, com apenas $1.100!

Perceba como o exemplo acima é mais uma das formas de se confundir significância estatística com significância econômica. Como todo modelo ou teoria, a hipótese dos mercados eficientes não é uma reprodução fiel da realidade. Assim, se você queria saber se a hipótese vale exatamente e literalmente, nem era preciso se dar ao trabalho de testá-la: a resposta é, não, não vale. Mas isso não responde nem se e nem quando e nem como e nem por que a hipótese é (ou não) uma boa aproximação da realidade, isto é, sua “significância econômica”. No caso acima, mesmo aceitando que houvesse alguma previsibilidade real* no mercado, esta se mostrou economicamente insignificante. Neste exemplo, hipotético, a teoria não foi, economicamente, refutada.

* na maioria das vezes pode ser apenas uma correlação espúria. Nos anos 2000, por exemplo, o padrão citado se inverteu.

Culto da significância estatística I: um exemplo do teste de normalidade


A maioria dos trabalhos econométricos aplicados parece confundir significância estatística com significância prática ou econômica.  Apesar de ser um problema simples, por ser uma prática bastante difundida, percebe-se que ainda há certa dificuldade de entender como e quando isso ocorre.

Aproveitando o post do Dave Giles, vamos dar um exemplo corriqueiro: um teste de normalidade.

Ao tomar um artigo aplicado que utilize o teste de normalidade, é provável que você se depare com o seguinte procedimento.

1) O autor escolherá algum teste frequentista disponível, como o bastante utilizado teste de Jarque-Bera.

2) O teste de Jarque-Bera tem como hipótese nula a normalidade. Assim, se o p-valor for menor do que 5% (ou 10%), p<0,05 (p<0,10), então o autor rejeita a normalidade. Já se p>0,05, aceita-se a normalidade.

O que acabamos de descrever acima é algo bastante comum e é um dos exemplos da confusão entre significância estatística e significância prática ou econômica.

Por quê?

Porque você, muito provavelmente, não quer saber se a distribuição é exatamente normal, mas sim se ela é aproximadamente normal.  E o teste, da forma como está formulado, não responde a última pergunta.

Apenas o p-valor não irá te dizer o quão grande é o desvio em relação à normalidade.

O teste Jarque-Bera utiliza como parâmetros os coeficientes de curtose e assimetria (que na normal são de 3 e 0, respectivamente).  Queremos saber se nossa distribuição é aproximadamente normal porque, desvios muitos grandes, como, por exemplo, uma curtose acima de 4 e assimetria acima de 1 invalidaria nossos erros-padrão e intervalos de confiança.

Agora imagine que sua distribuição tenha os coeficientes iguais a 3,000000000001 e 0,00000000000001. Podemos dizer que a distribuição seria, para fins práticos, igual a uma normal, pois assumir normalidade não prejudicaria sua inferência. Mas, com uma amostra enorme, você consegue ter um p-valor arbitrariamente baixo, como p<0,00001 – um resultado “significante” – e você rejeitaria a normalidade quando ela é cabível.

Vide o caso do post do Dave Giles, em que com uma amostra de 10.000 observações você poderia rejeitar a normalidade “a 10% de significância”, sendo que, para fins práticos, muito provavelmente os desvios sugeridos poderiam ser negligenciáveis.

Por outro lado, você poderia ter uma distribuição cujos coeficientes fossem iguais a 5 e 2, mas, devido ao reduzido tamanho amostral, o p-valor poderia ser moderado, como p=0,30. O resultado não é “significante”. Mas, neste caso, você aceitaria a normalidade em uma situação em que qualquer inferência posterior seria completamente prejudicada.

O poder da estatística, ou como você é tão previsível 2


No mundo de dados abundantes, como disse Hal Varian, saber tratá-los e interpretá-los (bem) torna-se cada vez mais fundamental, e a (boa) estatística já se torna a profissão sexy da vez.

As aplicações são as mais diversas: desde prever, pelos hábitos de compra, quando sua cliente está grávida e quando o bebê irá nascer; passando, também, por utilizar buscas do Google para fazer “previsões em tempo real”; até prever o resultado de duas eleições presidenciais.

Sobre este último ponto, o livro do Nate Silver ainda estava na minha wish list, esquecido… mas, depois do animado post do Drunkeynesian, venci a procrastinação. Livro comprado – comentários em breve eventualmente!