Mais dados da copa, jogo a jogo!


Qual a posição média dos jogadores na partida entre Brasil e Camarões? Como foram as jogadas de cada chute a gol? O Huffington Post, para cada jogo, traz esses e outros dados com gráficos interativos. Vale a pena conferir!

 

copaVia Cesar Hildago.

 

Matriz insumo-produto do mundo


Esta é uma dica que eu não poderia deixar passar: a Comissão Européia bancou a construção de uma base de dados que praticamente acabou de sair do forno: o World Input-Output Database (WIOD) (não confunda com a Input-Output Tables da OCDE!). O projeto – que iniciou em 2009, mas só foi terminado em 2012 – utiliza dados do COMTRADE e matrizes insumo-produto domésticas para construir uma matriz insumo-produto das relações de comércio internacional. Os dados abrangem 40 países de 1995 a 2011.  Certamente vale a pena conferir!

USP com a mão na massa!


Parece que Sérgio Almeida e Mauro Rodrigues, do Economistas X, estão com um paper bacana no forno: coletar os próprios dados não é tarefa fácil, confiram no post algumas das agruras pelas quais os dois passaram!

PS: sou partidário da idéia de que a coleta de dados interessantes vale um paper por si só. E, claro, que os dados sejam abertos ao público! 

 

 

Aprenda a fazer previsão de eleições com o NYT.


Depois que o Nate Silver saiu do NYT, o jornal montou um novo time de previsão para eleições. O novo modelo, denominado LEO, está no ar e com uma descrição bem amigável de seu funcionamento.  A parte gráfica dos resultados também está bacana, inclusive com uma seção comparando o modelo do NYT com seus concorrentes (vale lembrar que o site conta com a ajuda do Michael Bostock, um dos caras que desenvolveu o fantástico D3 para JavaScript)

Mas, tem algo ainda melhor. O NYT liberou os dados e os códigos do modelo no github. E o modelo é em R. Ou seja, agora, para replicar e adaptar o modelo à realidade brasileira só faltam duas coisas: tempo e vontade.

Jornalismo baseado em dados – Blog do Nate Silver está no ar!


Está no ar o blog do Nate Silver – FiveThirtyEight!

Nate Silver, economista e estatístico, alçou-se à fama prevendo quantitativamente os resultados das eleições norte americanas, em meio a dezenas de pundits que, de maneira arrogante, erraram grosseiramente. Seu segredo? Dados.

Agora, Nate reuniu uma equipe para dedicar-se ao jornalismo fundamentado na análise rigorosa de dados, tratando dos temas mais variados: além de política,  o blog tratará de economia, esportes, ciência e outras questões do dia-a-dia.

Três destaques que você deve conferir:

Geral: O manifesto de Nate Silver, com uma introdução ao blog.

Esporte: Esta fantástica tabela com previsões do campeonato de basquete da NCAA, acompanhada da explicação do modelo. Imagine uma dessas para a Copa ou para o Brasileirão?

Economia: Artigo simples, mas interessante, com três recomendações para avaliar dados econômicos (que muitas vezes são tomados as is). Sobre este assunto, neste blog, veja os pots sobre a acurácia das variáveis econômicas.

Este é um blog promissor, certamente vale a pena acompanhar.  E, falando em acompanhar blogs, se você ainda não usa, recomendo fortemente baixar um leitor de RSS, o FiveThirtyEight tem feed.

PS: Você pode encontrar outros posts sobre Nate Silver neste blog aqui.

Estatísticas de homicídio – mais sobre erro de medida.


Qual foi a quantidade de homicídios no EUA em 2010? Três medidas diferentes, com 25% de diferença entre a maior e menor.

12,966, FBI, Crime in the United States 2010.

13,164, FBI, Crime in the United States 2011 (2010 figure).

14,720, Bureau of Justice Statistics (Table 1, based on FBI, Supplementary Homicide Statistics).

16,259, CDC (based on death certificates in the National Vital Statistics System). 

Veja mais no Marginal Revolution.

Para saber mais sobre o assunto, veja no blog também  aqui aqui ,aquiaqui, aqui e aqui.

 

Lei de Benford – por que ela surge?


No post anterior falamos da Lei de Benford e que ela surge naturalmente em diversos fenômenos do mundo real, inclusive em dados contábeis e econômicos. Mas não explicamos o porquê. Aqui traremos duas explicações.  A primeira, bastante intuitiva, é pensar que estes dados tem crescimento exponencial. Por exemplo, na economia (brasileira), variáveis como o PIB real e os preços crescem entre 2% e 6% ao ano, respectivamente. E como o crescimento exponencial levaria à Lei de Benford?

Suponha que o valor inicial de uma variável seja 10 e que ela tenha uma taxa de crescimento de 10% por período. Veja que, ao crescer exponencialmente, a variável vai demorar 7 períodos para chegar na casa dos 20’s. Todavia, após chegar no 20, ela cresce mais rapidamente, e leva apenas 4 períodos para chegar na casa dos 30’s. Note que esta variável irá ficar apenas um período na casa dos 90’s, para logo em seguida passar mais 7 períodos nos 100’s (e com primeiro digito 1). Parece condizer com a Lei.

Para verificar, façamos uma simulação, com uma variável que cresça 3% por período. Após 2000 períodos, a distribuição dos dígitos da série segue muito aproximadamente a Lei de Benford (como a amostra é grande, no gráfico utilizamos a distribuição dos dois primeiros dígitos, que tem maior capacidade de discriminação do que apenas a distribuição do primeiro dígito).

cresc_benfordAlém do crescimento exponencial, existe, ainda, uma razão mais convincente. Dados contábeis e econômicos também são, em geral, fruto da multiplicação de diversos números. Para saber o valor da produção,por exemplo, multiplicam-se quantidades e preços. E ocorre que a multiplicação de distribuições contínuas tem como distribuição limite um conjunto  de Benford. Façamos uma simulação com distribuições normal – N(10,10) – qui-quadrado – Q(3) e uniforme – U(0,1).

Perceba que elas, separadamente, não seguem a Lei.  Primeiro, a normal:

norm_benford

Agora a Qui-Quadrado:

qui_benford

E a Uniforme:

unif_benford

Entretanto, ao multiplicarmos as 3, eis que surge a distribuição dos dígitos!

mult_benford

Empresas com capital estrangeiro no país: informações contábeis e econômicas


Ontem foi publicado novo quadro no Censo de Capitais Estrangeiros no País, com algumas informações contábeis e econômicas das empresas com capital estrangeiro. Os dados podem ser acessados aqui, quadro nº 21.

Em 2010, os dados se referem a empresas de investimento estrangeiro direto, isto é, àquelas que detinham pelo menos um investidor estrangeiro com 10% ou mais do poder de voto. Naquele ano, por exemplo, essas empresas empregaram cerca de 2 milhões de pessoas e responderam por cerca de 40% das importações e exportações nacionais. É interessante notar que não entram nestes dados operacionais os números correspondentes às empresas de investimento estrangeiro indireto cujas informações não estejam consolidadas na matriz. Assim, muito provavelmente, esses números subestimam as atividades relacionadas ao capital estrangeiro no país.

Convém ressaltar que o quadro também apresenta dados contábeis e econômicos das empresas com capital estrangeiro de 1995 a 2005, mas esses não são diretamente comparáveis aos dados de 2010, pois houve uma mudança de metodologia na pesquisa. Em 1995, 2000 e 2005, os dados se referiam às empresas em que os investidores não residentes detinham, individualmente ou não, 10% ou mais das ações ou quotas com direito a voto, ou 20% de participação direta ou indireta no capital total, abarcando grupo de empresas mais amplo do que o da pesquisa de 2010.