Nova base de dados de séries de tempo


Há pouco tempo surgiu uma nova base de dados de série de tempos – Quandl.

Além de agrupar diversas estatísticas de fontes diferentes, o site permite baixar os dados em vários formatos (como excel ou csv) e ainda permite importação de dados diretamente em várias ferramentas de análise, como R e Python. Isso é uma mão na roda em muitos casos.

Outra possibilidade no Quandl é a de incorporar gráficos diretamente nos posts, tal como o exemplo abaixo com a evolução do IPCA acumulado em 12 meses.

Graph of IPCA - Acumulado em 12 meses

Apesar da ressalva de ser uma fonte secundária de informações, para quem ainda não conhecia, certamente vale a pena conferir.

Análise de dados com R e ggplot2 – Hadley Wickham no Google Tech Talks


Vídeo antigo, mas com o qual só tomei contato agora. Hadley Wickham no Google Tech Talks.

Hadley Wickham é o criador de pacotes para o R como: ggplot2, plyr, reshape2.

Livros de R e Python


Compartilharam comigo, agora passo em frente. Seguem dois links com alguns livros em pdf para programação em R e em Python.

Mais sobre Python: o Sargent publicou um livro online de modelagem e economia quantitativa com a linguagem.

Concentração do Investimento Brasileiro no Exterior e erro de medida


Já que falamos do CBE no post anterior, aproveito para destacar outro dado daquela pesquisa, que muitas vezes passa despercebido: a concentração do Investimento Brasileiro Direto (IBD) no exterior em poucos investidores. Na publicação dos resultados, os declarantes foram separados pelo tamanho de seu investimento, como, por exemplo, investidores que possuem investimentos no exterior de até US$ 1 milhão (a menor categoria) ou investidores que possuem investimentos no exterior maiores do que US$1 bilhão (a maior categoria).

No quadro 2 da publicação, você encontrará a seguinte distribuição, reproduzida no gráfico abaixo (agrupei as duas últimas categorias do quadro). Em vermelho, você tem o percentual de investidores que se encontram naquela faixa de investimento – perceba que quase 70% dos declarantes do CBE têm um investimento menor ou igual a  US$ 1 milhão e que apenas 0,3% dos declarantes possuem investimentos maiores do que US$500 milhões. Já em azul, você encontra o quanto cada uma dessas categorias responde pelo valor total declarado. Note que 0,3% dos declarantes respondem por cerca de 70% dos 356 bilhões de dólares que o Brasil possuía investidos no exterior.

Concentracao IBD

Em outras palavras, a distribuição do IBD tem cauda bastante pesada – poucas observações respondem pela quase totalidade do valor. Além de ilustrar  o grau de concentração deste tipo de investimento , isto tem uma implicação importante com relação ao (provável) erro de medida, e consequentemente, na incerteza dessas estatísticas.

Para tanto, vejamos o quadro 7, que é análogo ao quadro 2, mas faz a separação apenas para a modalidade de IBD participação no capital. Pelo quadro, 32 declarantes respondem por US$ 158 bilhões do estoque total, isto dá, na média, cerca de US$ 5 bilhões por declarante. Agora veja a distribuição da mesma modalidade por país (quadro 3). Em 2012, o maior estoque de IBD participação no capital, segundo o quadro 3 do CBE, estava na Áustria, com cerca de US$ 57 bilhões. Este valor, então, decresce exponencialmente, sendo a média por país mais ou menos US$ 6 bilhões e a mediana US$ 1 bilhão. Perceba que, caso apenas um dos grandes declarantes esteja classificado de forma errada – e considerando, conservadoramente, o valor médio do grupo – no melhor cenário, se o erro for na Áustria, isso responde por 10% do total estimado para aquele país; se for em um país de IBD médio, isso responde por um erro de 83%; e se for em um país de IBD mediano, o valor do erro é cinco vezes maior do que o valor estimado!

Então se, por um lado, o fato de a distribuição estar concentrada em poucos investidores reduz o número de declarantes que o Banco Central precisa investigar para validar grande parte do valor total declarado, por outro, o impacto de apenas um registro errado pode ser bastante significativo. Note a diferença deste tipo de estatística, para, por exemplo, a estimativa da expectativa de vida média do brasileiro – neste caso, vários registros errados dificilmente alterariam o valor médio de forma substancial.

Para finalizar,  uma curiosidade. Veja abaixo os gráficos do logaritmo do valor do investimento (X) contra o logaritmo da probabilidade de o investidor ter investimentos maiores do que X (a linha preta é reta de regressão). Lembra o gráfico de um lei de potência, não?

CBE_ConcentracaoMais sobre este tipo de assunto neste blog aqui.

 

Em que países os brasileiros investem?


No post anterior vimos quais países tem investimento direto no Brasil (pelo critério de país de origem imediata).

Agora, que tal visualisarmos em que países os brasileiros investem?

Para tanto, podemos pegar os dados da pesquisa de Capitais Brasileiros no Exterior. Tal qual criança quando ganha um brinquedo novo, vamos lá brincar no R mais uma vez. Abaixo, mapa com a distribuição do Investimento Brasileiro Direto (IBD), participação no capital, conforme país de destino imediato, em 2012.

IBD_pais

PS: encontrei o pdf do Applied Spatial Data Analysis with R,  então esperem mais posts deste tipo.

Investimento Estrangeiro Direto no Brasil (mapa por País de Origem Imediata)


Que tal visualizar os dados do Censo de Capitais Estrangeiros de uma maneira diferente?

Abaixo, mapa com a distribuição do Investimento Estrangeiro Direto (IED) no Brasil, critério participação no capital, em 2010, segundo o país de origem imediata. O mapa foi feito no R. Quanto mais escuro, maior o investimento daquele país em empresas brasileiras.
IED_Pais

PS: agradeço ao Rogério pelo didático post ensinando o caminho das pedras.

Lei de Benford – por que ela surge?


No post anterior falamos da Lei de Benford e que ela surge naturalmente em diversos fenômenos do mundo real, inclusive em dados contábeis e econômicos. Mas não explicamos o porquê. Aqui traremos duas explicações.  A primeira, bastante intuitiva, é pensar que estes dados tem crescimento exponencial. Por exemplo, na economia (brasileira), variáveis como o PIB real e os preços crescem entre 2% e 6% ao ano, respectivamente. E como o crescimento exponencial levaria à Lei de Benford?

Suponha que o valor inicial de uma variável seja 10 e que ela tenha uma taxa de crescimento de 10% por período. Veja que, ao crescer exponencialmente, a variável vai demorar 7 períodos para chegar na casa dos 20’s. Todavia, após chegar no 20, ela cresce mais rapidamente, e leva apenas 4 períodos para chegar na casa dos 30’s. Note que esta variável irá ficar apenas um período na casa dos 90’s, para logo em seguida passar mais 7 períodos nos 100’s (e com primeiro digito 1). Parece condizer com a Lei.

Para verificar, façamos uma simulação, com uma variável que cresça 3% por período. Após 2000 períodos, a distribuição dos dígitos da série segue muito aproximadamente a Lei de Benford (como a amostra é grande, no gráfico utilizamos a distribuição dos dois primeiros dígitos, que tem maior capacidade de discriminação do que apenas a distribuição do primeiro dígito).

cresc_benfordAlém do crescimento exponencial, existe, ainda, uma razão mais convincente. Dados contábeis e econômicos também são, em geral, fruto da multiplicação de diversos números. Para saber o valor da produção,por exemplo, multiplicam-se quantidades e preços. E ocorre que a multiplicação de distribuições contínuas tem como distribuição limite um conjunto  de Benford. Façamos uma simulação com distribuições normal – N(10,10) – qui-quadrado – Q(3) e uniforme – U(0,1).

Perceba que elas, separadamente, não seguem a Lei.  Primeiro, a normal:

norm_benford

Agora a Qui-Quadrado:

qui_benford

E a Uniforme:

unif_benford

Entretanto, ao multiplicarmos as 3, eis que surge a distribuição dos dígitos!

mult_benford

Vídeos de introdução ao R


Google Developers disponibiliza uma série de vídeos introdutórios ao R.