Estatísticas de homicídio – mais sobre erro de medida.


Qual foi a quantidade de homicídios no EUA em 2010? Três medidas diferentes, com 25% de diferença entre a maior e menor.

12,966, FBI, Crime in the United States 2010.

13,164, FBI, Crime in the United States 2011 (2010 figure).

14,720, Bureau of Justice Statistics (Table 1, based on FBI, Supplementary Homicide Statistics).

16,259, CDC (based on death certificates in the National Vital Statistics System). 

Veja mais no Marginal Revolution.

Para saber mais sobre o assunto, veja no blog também  aqui aqui ,aquiaqui, aqui e aqui.

 

Dificuldades metodológicas na coleta de dados


Como já havia citado antes, segundo Leontief, o economista é famoso por não sujar as mãos coletando os próprios dados. Ao não colocar a mão na massa, acaba sendo fácil não se familiarizar com os detalhes e a acurácia dos dados que utiliza.  E, muitas vezes, os detalhes do processo revelam dificuldades que você sequer imagina. Vejam, abaixo, alguns problemas de coleta de dados enfrentados pelo IBGE, na Pnad!

IBGE

IBGE2

Imagens da apresentação do 12º Fórum Sistema Integrado de Pesquisas Domiciliares (slides 54 a 72).

Dica do Ricardo Sabbadini

Sobre a acurácia das variáveis econômicas III


Em posts anteriores falamos sobre a qualidade dos dados macroeconômicos e que dados oficiais são estimativas (ver aqui e aqui). Mas, qual o sentido prático disto? Vejamos com um exemplo.

Na conta de importação de serviços do balanço de pagamentos do México, fretes e seguros respondem por US$ 9,8 bilhões, cerca de 33% dos US$ 29 bilhões que totalizam a rubrica – trata-se de seu componente mais relevante. Como o México estima esse valor?

Antes de entrar no caso do México, tratemos brevemente dos meios de estimação mais comuns de fretes e seguros entre os países. O primeiro método é por meio dos valores declarados na aduana. Quando esta tem um campo de fretes e seguros discriminados em algum documento administrativo, é possível ao compilador utilizar estes valores para a estimação. Um segundo método é utilizar alguma proporção das importações ou exportações. Muitas vezes, a aduana do país registra apenas o valor CIF das importações, isto é, o valor com os custos de fretes e seguros incluídos. Deste modo, o compilador realiza uma pesquisa a cada 5 ou 10 anos, por exemplo, para estimar qual é a proporção do valor importado que corresponde a fretes e seguros.

É possível que você tenha pensado: “o primeiro método, com os dados da aduana, não deveria ser considerado uma estimativa, é o valor real!”. Mas não é. Voltemos ao México.

O México é um país que poderia se enquadrar no primeiro caso – sua aduana registra valores de fretes e seguros. Contudo, os pagamentos de fretes e seguros relatados em uma operação da aduana correspondem à importação de uma ampla gama de produtos, de diferentes naturezas e de vários países, tudo consolidado em um único documento. A regulamentação aduaneira tem suas próprias peculiaridades, não necessariamente relacionadas às informações que desejariam os compiladores da estatística. Ao fim, os dados da aduana lhes pareciam muito imprecisos, subestimados e demasiadamente agregados.

Com isto em mente, o Banxico buscou metodologia alternativa. Sua intenção era calcular o valor ao custo real de mercado e, assim, buscou preços no país vizinho, os Estados Unidos, que publicam, mensalmente, dados de custo médio dos fretes e seguros de importação por tipo de produto, país de origem e meio de transporte. Entretanto, o custo médio varia bastante por volume importado, e é preciso realizar este ajuste. Assim, roda-se uma regressão deste custo médio contra dummies dos portos dos EUA (pois cada porto pode ter um custo diferente) e volume importado (em log), para encontrar o coeficiente de ajuste entre volume e custo médio, chamado aqui de beta. Com o custo médio, o beta para ajuste e o volume das importações mexicanas em mãos , é possível estimar os custos de fretes e seguros do país. Atualizam-se o beta anualmente e o preço médio mensalmente sendo possível, deste modo, obter estimativas por produto, país e meio de transporte, que variam conforme condições de mercado, algo que não seria factível com os dados administrativos da aduana.

Mas, qual a diferença deste valor com o anterior, da aduana? O novo método estima custos cerca de duas vezes maiores e isso pareceu mais alinhado à realidade de mercado do que os dados anteriormente declarados. É uma diferença bem significativa.

Portanto, é importante atentar-se para dois detalhes: (i) dados que, a primeira vista, poderiam ser considerados “os valores reais” (dados de questionários, formulários administrativos, etc), podem ter problemas e estar tão sujeitos a erros quanto outros procedimentos; (ii) muitos componentes dos dados macroeconômicos que você utiliza, tal como a conta de fretes e seguros do exemplo acima, são derivados de um processo de estimação prévia. No nosso exemplo, seja o dado administrativo, ou o dado derivado pela outra metodologia, fica claro que ambos têm que ser vistos como estimativas, cada método com suas vantagens e limitações, sendo preciso entendê-las para saber o que aquele dado pode ou não pode te responder. 

Experimentos na Economia


Bastante interessante a entrevista com John List, em que ele defende um maior uso de experimentos na Economia.

Um dos experimentos que ele menciona é sobre a aversão à perda. Alunos que recebiam 20 dólares no início das aulas e tinham de tirar notas boas para mantê-los, na média, acabavam indo melhor na disciplina do que aqueles alunos a quem eram prometidos 20 dólares ao final do curso caso tirassem boas notas. A interpretação do resultado é a de que as pessoas tem mais medo de “perder” algo que já têm do que “perder” algo que ainda vão ganhar.

Gostaria de ver isso replicado aqui no Brasil, mas com a seguinte questão: será que turmas em que os alunos começam o semestre com a nota 10, e vão perdendo pontos caso falhem nas atividades propostas, irão realmente superar em grande montante o rendimento de alunos que comecem com a nota zero, e vão acumulando pontos caso completem com sucesso os exercícios de aula?

Acredito haver muito espaço para economia experimental no Brasil. Nos últimos 4 anos da RBE (2008-2011), apenas um artigo tratou do tema.

(via Mankiw)

P-valor não é probabilidade a posteriori!


Quando saiu a “descoberta” do Bóson de Higgs, praticamente todos os jornais divulgaram a notícia confundindo o p-valor da pesquisa como a probabilidade a posteriori de se cometer um erro. Esta confusão é muito mais comum do que se imagina, inclusive entre os próprios professores e livros de estatística (vide, por exemplo, Haller e Kraus, 2002 ou Gigerenzer, 2000).

A esse respeito, neste último final de semana, vi uma apresentação de uma aula de métodos quantitativos de um ótimo curso de pós-graduação em que se afirmava que o p-valor indicaria, “informalmente”, a probabilidade de a hipótese nula ser verdadeira. Isso não é verdade, nem informalmente – essas duas probabilidades podem até coincidir, mas apenas em circunstâncias específicas, pois ambas podem ser arbitrariamente distantes, a depender dos pressupostos a priori (vide DeGroot, 1973 ou Casella e Berger, 1987 para casos em que coincidem. Vide Berger e Selke 1987, para casos gerais em que não).

Vale a pena, portanto, recolocar aqui o link para um breve video sobre o p-valor. Provavelmente voltarei a este assunto em breve (p<5% ?).

HALLER, H.; KRAUSS, S. Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online. v.7(1), p. 1–20. 2002.

GIGERENZER, G. Adaptive Thinking—Rationality in the Real World. Oxford Univ. Press, New York. 2000.

DEGROOT, M. H. Doing What Comes Naturally: Interpreting a Tail Area as a Posterior Probability or as a Likelihood Ratio. Journal of the American Statistical Association, 68, p. 966-969, 1973.

CASELLA, G.; BERGER, R. L. Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p. 344-347, 1987b.

BERGER, J. O.; SELLKE, T. Testing a point null hypothesis: The irreconcilability of P values and evidence. Journal of the American Statistical Association, v.82(397), p. 112-122, 1987

Os casados são mais felizes? Ou sobre causas e conseqüências.


Tratei anteriormente sobre a troca entre meios e fins bem como entre intenções e resultados. Agora, para passar o tempo antes de escrever a dissertação, gostaria de falar de uma confusão muito mais intrincada. Até, muitas vezes, a depender do problema, eternamente insolúvel: aquela entre causa e conseqüência.

Suponha que alguém lhe apresente dados de uma pesquisa em que se constate que a felicidade de pessoas casadas é maior do que a dos solteiros. A partir daí podemos concluir que casar deixa, na média, as pessoas mais felizes e, portanto, recomendar que as pessoas se casem, certo?

Bem, antes de concluirmos apressadamente, que tal pensarmos na seguinte hipótese. Pessoas mais felizes têm mais facilidade de se casar. Parece algo plausível, afinal, se você é uma pessoa “naturalmente mais alegre”, ou que está em uma situação confortável na vida, pode ter mais facilidade em um relacionamento do que alguém “naturalmente mais triste”, ou que passa, digamos, dificuldades financeiras.

Ora, mas se isso é uma hipótese válida, não poderia ser que observamos os casados mais felizes do que os solteiros justamente porque aqueles que são  (ou estão) mais felizes se casam mais facilmente? Aí entra o problema de identificação entre causa e conseqüência – casar deixa as pessoas mais felizes ou as pessoas mais felizes se casam mais?

Há diversos estudos sobre este assunto em particular. Em geral, do que já li, as conclusões são ambíguas, mas tendem a aceitar as duas hipóteses: sim, pessoas felizes casam mais; contudo, ainda assim há um efeito positivo do casamento em si sobre a felicidade do casal. Para não ficar sem citar nada, um em particular que trata do assunto e que sempre me vem à cabeça (por causa do título fácil – olhe a importância de um bom título) é o do Bruno Frey “Does marriage make people happy,or do happy people get married?”, autor que tenho evitado mencionar pois se envolveu em caso de (auto)plágio.

Há vários exemplos que poderíamos abordar. Por exemplo, no Brasil, as universidades públicas são realmente melhores do que as universidade particulares (como diz o senso comum), ou essa impressão decorre simplesmente do fato de que os melhores alunos acabam indo para as universidades públicas? Crianças que passam muito tempo em frente à televisão se tornam “anti-sociais” ou crianças que não gostam tanto de sair passam muito tempo em frente à televisão justamente para evitar contato?

Por fim, gostaria de ressaltar que se percebe daqui que dados, sozinhos, não nos fornecem muita coisa. Infelizmente, os dados não falam por si, é preciso tratá-los, interpretá-los. Para isso é essencial uma boa teoria que explique a relação observada. Às vezes, quando muito bem deduzida, a teoria por si só pode ser suficiente. Entretanto, como não somos infalíveis e em geral nossas especulações não são completas, nunca é demais – e às vezes pode ser o melhor que temos – tratar os dados estatisticamente e confrontar teoria com realidade.