Livros em promoção (Kindle): Big Data e Manual de sobrevivência na universidade


Três livros sobre Big Data, da O’Reilly, estão gratuitos na versão Kindle:

Disruptive Possibilities: How Big Data Changes Everything;

Big Data Now: 2012 Edition;

Real-Time Big Data Analytics: Emerging Architecture.

Obviamente, ainda não tive tempo de ler, mas mesmo assim não poderia deixar de divulgar e já baixei para conferir.

E o livro do Leo Monastério, Manual de sobrevivência na universidade: da graduação ao pós-doutorado, também se encontra, por tempo limitado, gratuito na versão Kindle!

Erro de medida, Precificação de ativos e Prêmio Nobel


Entrevista com Larry Cahoon, estatístico do Censo norte-americano. Destaco a passagem abaixo, em que ele ressalta a importância de se saber sobre a variabilidade de uma estimativa, algo tão ou mais crítico do que saber a própria estimativa. Isto está em linha com o que discutimos acerca da acurácia das variáveis econômicas, aqui, aqui e aqui.

To do good statistics, knowledge of the subject matter it is being applied to is critical. I also learned early on that issues of variance and bias in any estimate are actually more important than the estimate itself. If I don’t know things like the variability inherent in an estimate and the bias issues in that estimate, then I really don’t know very much.

A favorite saying among the statisticians at the Census Bureau where I worked is that the biases are almost always greater than the sampling error. So my first goal is always to understand the data source, the data quality and what it actually measures.

But, I also still have to make decisions based on the data I have. The real question then becomes given the estimate on hand, what I know about the variance of that estimate, and the biases in that estimate, what decision am I going to make.

Se você não tinha seguido a recomendação de acompanhar o blog do Damodaran, seguem alguns posts interessantes que você perdeu:

– Chill, dude: Debt Default  Drama Queens

When the pieces add-up too much: Micro Dreams and Macro Delusions;

– Twitter announces the IPO: Pricing Games Begins, The Valuation, Why a good trade be a bad investment (or vice-versa).

Sobre o prêmio Nobel, saiu tanta coisa na internet que inclusive descobri muitos detalhes interessantes dos trabalhos dos três ganhadores que sequer imaginava. Deixo aqui, para quem ainda não leu, os materiais do Marginal Revolution e do Cochrane.

Felicidade, Realidade e Expectativa


Vocês já devem ter visto as seguintes fórmulas para a felicidade: 1) Felicidade=Realidade/Expectativa e 2) Felicidade=Realidade-Expectativa.

Essas fórmulas foram amplamente divulgadas e fazem parte do discurso do dia-a-dia. Intuitivamente, elas parecem fazer sentido, pois, quanto maior a expectativa que você tem com relação a algo, e quanto mais esta expectativa se afasta da realidade, maiores a chances de você se decepcionar e ficar infeliz. Entretanto, estas fórmulas implicam mais do que isso e, aparentemente, elas foram aceitas de forma passiva e nunca colocadas à prova ou discutidas criticamente pela sociedade. Vejamos. Chamemos Felicidade de “F”, Realidade de “R” e Expectativa de “E”. Assim, nossas fórmulas seriam: 1) F = R/E e 2) F = R - E

Para verificar se elas fazem sentido, confrontemos com nossa experiência. Imagine que você seja muito pobre. Ganhar uma casa própria aumentaria em muito sua felicidade, certo? Por outro lado, se você fosse extremamente rico, uma casa a mais não afetaria em mesma magnitude sua felicidade. Se você concorda com este fato, as equações acima não estão adequadas, pois ambas são lineares em R. Isto é, elas ferem o princípio que acabamos de descrever de que, quanto mais riqueza você tem – quanto melhor sua realidade – menos felicidade a riqueza adicional te proporciona. A função número 2 também fere o mesmo princípio para as expectativas, pois implica que um aumento de expectativas tem sempre o mesmo impacto (negativo) sobre a felicidade.

A função 1 é um tanto peculiar em outros aspectos. Em primeiro lugar, note que para ela fazer sentido temos que ter E \in (0, \infty) e R \in (0, \infty) e isto nunca é explicitado nos memes do Facebook. Além de o ponto zero causar uma descontinuidade, veja que se permitirmos E negativo junto a um R positivo (ou vice-versa), isto feriria o senso-comum de que quanto pior a expectativa frente à realidade, mais feliz a pessoa é. Além disso, a derivada de 1) em relação a E é igual a \partial F/\partial E = -R/E^2 – isso significa que a desutilidade da expectativa depende da realidade. Mais especificamente, quanto melhor a realidade, pior o impacto de um aumento de expectativa. Suponha que você tinha uma expectativa de ganhar uma oferta de salário de R$1.000,00 e, por algum motivo, esta expectativa aumenta para R$2.000,00. Quanta tristeza este aumento de expectativa pode gerar? Se a realidade for uma proposta de R$500,00, nossa fórmula diz que a sua mudança de expectativa reduziu sua felicidade em 0.25. Já se a realidade for uma proposta de R$800,00, a equação diz que sua mudança de expectativa reduziu sua felicidade em maior magnitude, 0.4. Isto te parece plausível? Para mim, não.

Deste modo, essas equações de internet são falaciosas e você deveria parar de compartilhar os memes que as contém. Mas, reconheço, essa recomendação será inócua sem uma fórmula nova que substitua as que rejeitamos. Assim, proponho uma, conforme abaixo. Deixo para o leitor o escrutínio da sugestão.

F = Ln(R) - Ln(E), E \in (0, \infty), R \in (0, \infty)

E já vem com o mene pronto.

or85s

De antemão peço desculpas aos meus co-autores por ter perdido tempo nisso, mas as vezes a vontade de procrastinar fala mais alto.

Lei de Benford – por que ela surge?


No post anterior falamos da Lei de Benford e que ela surge naturalmente em diversos fenômenos do mundo real, inclusive em dados contábeis e econômicos. Mas não explicamos o porquê. Aqui traremos duas explicações.  A primeira, bastante intuitiva, é pensar que estes dados tem crescimento exponencial. Por exemplo, na economia (brasileira), variáveis como o PIB real e os preços crescem entre 2% e 6% ao ano, respectivamente. E como o crescimento exponencial levaria à Lei de Benford?

Suponha que o valor inicial de uma variável seja 10 e que ela tenha uma taxa de crescimento de 10% por período. Veja que, ao crescer exponencialmente, a variável vai demorar 7 períodos para chegar na casa dos 20’s. Todavia, após chegar no 20, ela cresce mais rapidamente, e leva apenas 4 períodos para chegar na casa dos 30’s. Note que esta variável irá ficar apenas um período na casa dos 90’s, para logo em seguida passar mais 7 períodos nos 100’s (e com primeiro digito 1). Parece condizer com a Lei.

Para verificar, façamos uma simulação, com uma variável que cresça 3% por período. Após 2000 períodos, a distribuição dos dígitos da série segue muito aproximadamente a Lei de Benford (como a amostra é grande, no gráfico utilizamos a distribuição dos dois primeiros dígitos, que tem maior capacidade de discriminação do que apenas a distribuição do primeiro dígito).

cresc_benfordAlém do crescimento exponencial, existe, ainda, uma razão mais convincente. Dados contábeis e econômicos também são, em geral, fruto da multiplicação de diversos números. Para saber o valor da produção,por exemplo, multiplicam-se quantidades e preços. E ocorre que a multiplicação de distribuições contínuas tem como distribuição limite um conjunto  de Benford. Façamos uma simulação com distribuições normal – N(10,10) – qui-quadrado – Q(3) e uniforme – U(0,1).

Perceba que elas, separadamente, não seguem a Lei.  Primeiro, a normal:

norm_benford

Agora a Qui-Quadrado:

qui_benford

E a Uniforme:

unif_benford

Entretanto, ao multiplicarmos as 3, eis que surge a distribuição dos dígitos!

mult_benford

Lei de Benford


Chute um valor: quanto seria o percentual de posts deste blog cujo número de acessos se inicia com o número 1?

Sendo mais claro, se o post X tem 10.251 acessos e, o post Y, 152 acessos, o primeiro digito de ambos seria o número 1. Quantos semelhantes a estes, com primeiro digito 1, teríamos em relação ao total? Se extraíssemos todos os primeiros dígitos, haveria algum padrão nesta distribuição? Uma resposta “intuitiva” (mas geralmente errada) é a de que provavelmente haveria tantos posts com números iniciais 1, quanto com números 2 ou 9. Mas quem já ouviu falar da Lei de Benford saberia que, muito provavelmente, não seria isso o observado. Haveria mais ou menos 30% de números 1, seguidos de 17% de números 2 e, após, 12% de números 3, decaindo até mais ou menos 5% de números 9.

Passemos aos dados para verificar se esta tendência realmente se confirma:

Benford

Funciona.  E o interessante é que isto ocorre não somente neste blog, mas nas mais diversas estatísticas do mundo real.

A Lei de Benford é assim chamada por conta do – cada vez mais famoso – artigo de Frank Benford, The Law of Anomalous Numbers. Segundo Benford, o insight para investigar este resultado é curioso.  Aparentemente, nas tabelas de logaritmos, as páginas mais desgastadas eram aquelas cujos números tinham primeiro digito 1 (em 1930, estas tabelas eram bastante utilizadas para facilitar operações de multiplicação). Com uma base de dados de 20.000 observações dos mais diversos fatos da natureza (tamanhos de rio, população de cidades, constantes da física, taxa de mortalidade etc), Benford verificou que, em cada uma delas, a distribuição dos dígitos seguia este mesmo padrão.

O resultado investigado por Benford não define apenas uma distribuição para os primeiros dígitos, conforme ilustrado no gráfico acima, mas uma distribuição para todos os dígitos significativos de um número. Mais formalmente, um conjunto de números que siga a Lei de Benford teria a mantissa de seus logaritmos uniformemente distribuída. Para o economista isto importaria pelo seguinte motivo –  como grande parte dos dados econômicos e contábeis seguem (aproximadamente) esta distribuição, dados errados, inventados ou fraudados poderiam ser identificados por desvios dos valores esperados pela Lei de Benford. Interessante, não? Espero que sim, pois trataremos mais disto em posts futuros.