Erro de medida, Precificação de ativos e Prêmio Nobel


Entrevista com Larry Cahoon, estatístico do Censo norte-americano. Destaco a passagem abaixo, em que ele ressalta a importância de se saber sobre a variabilidade de uma estimativa, algo tão ou mais crítico do que saber a própria estimativa. Isto está em linha com o que discutimos acerca da acurácia das variáveis econômicas, aqui, aqui e aqui.

To do good statistics, knowledge of the subject matter it is being applied to is critical. I also learned early on that issues of variance and bias in any estimate are actually more important than the estimate itself. If I don’t know things like the variability inherent in an estimate and the bias issues in that estimate, then I really don’t know very much.

A favorite saying among the statisticians at the Census Bureau where I worked is that the biases are almost always greater than the sampling error. So my first goal is always to understand the data source, the data quality and what it actually measures.

But, I also still have to make decisions based on the data I have. The real question then becomes given the estimate on hand, what I know about the variance of that estimate, and the biases in that estimate, what decision am I going to make.

Se você não tinha seguido a recomendação de acompanhar o blog do Damodaran, seguem alguns posts interessantes que você perdeu:

– Chill, dude: Debt Default  Drama Queens

When the pieces add-up too much: Micro Dreams and Macro Delusions;

– Twitter announces the IPO: Pricing Games Begins, The Valuation, Why a good trade be a bad investment (or vice-versa).

Sobre o prêmio Nobel, saiu tanta coisa na internet que inclusive descobri muitos detalhes interessantes dos trabalhos dos três ganhadores que sequer imaginava. Deixo aqui, para quem ainda não leu, os materiais do Marginal Revolution e do Cochrane.

Lei de Benford – por que ela surge?


No post anterior falamos da Lei de Benford e que ela surge naturalmente em diversos fenômenos do mundo real, inclusive em dados contábeis e econômicos. Mas não explicamos o porquê. Aqui traremos duas explicações.  A primeira, bastante intuitiva, é pensar que estes dados tem crescimento exponencial. Por exemplo, na economia (brasileira), variáveis como o PIB real e os preços crescem entre 2% e 6% ao ano, respectivamente. E como o crescimento exponencial levaria à Lei de Benford?

Suponha que o valor inicial de uma variável seja 10 e que ela tenha uma taxa de crescimento de 10% por período. Veja que, ao crescer exponencialmente, a variável vai demorar 7 períodos para chegar na casa dos 20’s. Todavia, após chegar no 20, ela cresce mais rapidamente, e leva apenas 4 períodos para chegar na casa dos 30’s. Note que esta variável irá ficar apenas um período na casa dos 90’s, para logo em seguida passar mais 7 períodos nos 100’s (e com primeiro digito 1). Parece condizer com a Lei.

Para verificar, façamos uma simulação, com uma variável que cresça 3% por período. Após 2000 períodos, a distribuição dos dígitos da série segue muito aproximadamente a Lei de Benford (como a amostra é grande, no gráfico utilizamos a distribuição dos dois primeiros dígitos, que tem maior capacidade de discriminação do que apenas a distribuição do primeiro dígito).

cresc_benfordAlém do crescimento exponencial, existe, ainda, uma razão mais convincente. Dados contábeis e econômicos também são, em geral, fruto da multiplicação de diversos números. Para saber o valor da produção,por exemplo, multiplicam-se quantidades e preços. E ocorre que a multiplicação de distribuições contínuas tem como distribuição limite um conjunto  de Benford. Façamos uma simulação com distribuições normal – N(10,10) – qui-quadrado – Q(3) e uniforme – U(0,1).

Perceba que elas, separadamente, não seguem a Lei.  Primeiro, a normal:

norm_benford

Agora a Qui-Quadrado:

qui_benford

E a Uniforme:

unif_benford

Entretanto, ao multiplicarmos as 3, eis que surge a distribuição dos dígitos!

mult_benford

Lei de Benford


Chute um valor: quanto seria o percentual de posts deste blog cujo número de acessos se inicia com o número 1?

Sendo mais claro, se o post X tem 10.251 acessos e, o post Y, 152 acessos, o primeiro digito de ambos seria o número 1. Quantos semelhantes a estes, com primeiro digito 1, teríamos em relação ao total? Se extraíssemos todos os primeiros dígitos, haveria algum padrão nesta distribuição? Uma resposta “intuitiva” (mas geralmente errada) é a de que provavelmente haveria tantos posts com números iniciais 1, quanto com números 2 ou 9. Mas quem já ouviu falar da Lei de Benford saberia que, muito provavelmente, não seria isso o observado. Haveria mais ou menos 30% de números 1, seguidos de 17% de números 2 e, após, 12% de números 3, decaindo até mais ou menos 5% de números 9.

Passemos aos dados para verificar se esta tendência realmente se confirma:

Benford

Funciona.  E o interessante é que isto ocorre não somente neste blog, mas nas mais diversas estatísticas do mundo real.

A Lei de Benford é assim chamada por conta do – cada vez mais famoso – artigo de Frank Benford, The Law of Anomalous Numbers. Segundo Benford, o insight para investigar este resultado é curioso.  Aparentemente, nas tabelas de logaritmos, as páginas mais desgastadas eram aquelas cujos números tinham primeiro digito 1 (em 1930, estas tabelas eram bastante utilizadas para facilitar operações de multiplicação). Com uma base de dados de 20.000 observações dos mais diversos fatos da natureza (tamanhos de rio, população de cidades, constantes da física, taxa de mortalidade etc), Benford verificou que, em cada uma delas, a distribuição dos dígitos seguia este mesmo padrão.

O resultado investigado por Benford não define apenas uma distribuição para os primeiros dígitos, conforme ilustrado no gráfico acima, mas uma distribuição para todos os dígitos significativos de um número. Mais formalmente, um conjunto de números que siga a Lei de Benford teria a mantissa de seus logaritmos uniformemente distribuída. Para o economista isto importaria pelo seguinte motivo –  como grande parte dos dados econômicos e contábeis seguem (aproximadamente) esta distribuição, dados errados, inventados ou fraudados poderiam ser identificados por desvios dos valores esperados pela Lei de Benford. Interessante, não? Espero que sim, pois trataremos mais disto em posts futuros.

Salários do setor público sobem quase 70% a mais do que no setor privado!


Comentário do ano passado na CBN.

Na verdade, o que tinha ocorrido é que os salários na iniciativa privada aumentaram 0,9%, contra aumento de 1,5% no setor público.  Tudo bem, não está estritamente errado. Mas, gostaria de ver a chamada na CBN quando os reajustes forem 0% contra 0,001%.

“Salários do setor público crescem infinitos porcentos a mais do que no setor privado!”

Dica do Thiago Said.

Bicicletas aumentam em 30% a permanência de meninas na escola, na Índia.


Foi o que encontraram os pesquisadores Karthik Muralidharan e Nishith Prakash. A bicicleta afeta principalmente as meninas que vivem entre 5 a 10 Km da escola. Isto mostra: (i) como pequenas distâncias, isto é, pequenos custos, podem ter efeito substancial em algo tão importante no longo prazo como a educação; mas, também, que (ii) esses obstáculos podem ser, muitas vezes, resolvidos com medidas bastante simples.

Veja, abaixo, o vídeo dos pesquisadores:

Via Mankiw.

IV Escola de Amostragem e Metodologia de Pesquisa (ESAMP)


Vai ocorrer na Universidade de Brasília, entre 05 a 08 de novembro de 2013. 

As submissões de trabalho já se encontram abertas, até o dia 02/09 e as inscrições, até o dia 01/11.

esamp

 

Vídeos de introdução ao R


Google Developers disponibiliza uma série de vídeos introdutórios ao R.

Voltando ao caso da Target: previsão de gravidez


Lembra da história da Target prevendo quando uma cliente terá um bebê? Veja aqui vídeo de Andrew Pole, da Target, falando sobre o uso de dados para melhorar o marketing da empresa. Entre os exemplos, ele cita o famoso caso de prever a gravidez (para ir diretamente à parte dos exemplos clique, em cima do video, em “Data to Drive Performance Examples”).

Solucionando crimes com matemática e estatística


Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.

Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?

E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.

A primeira equação que Rossmo criou tinha a seguinte cara:

rossmo

A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.

Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!

PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.

Dificuldades metodológicas na coleta de dados


Como já havia citado antes, segundo Leontief, o economista é famoso por não sujar as mãos coletando os próprios dados. Ao não colocar a mão na massa, acaba sendo fácil não se familiarizar com os detalhes e a acurácia dos dados que utiliza.  E, muitas vezes, os detalhes do processo revelam dificuldades que você sequer imagina. Vejam, abaixo, alguns problemas de coleta de dados enfrentados pelo IBGE, na Pnad!

IBGE

IBGE2

Imagens da apresentação do 12º Fórum Sistema Integrado de Pesquisas Domiciliares (slides 54 a 72).

Dica do Ricardo Sabbadini