Inferência causal e Big Data: Sackler Big Data Colloquium


Uma série de palestras interessantes do Sackler Big Data Colloquium:

 

Hal Varian: Causal Inference, Econometrics, and Big Data

***

Leo Bottou: Causal Reasoning and Learning Systems

***

David Madigan: Honest Inference From Observational Database Studies

***

Susan Athey: Estimating Heterogeneous Treatment Effects Using Machine Learning in Observational Studies

Impactos de Contágio do Setor Real no Sistema Financeiro


O novo Relatório de Estabilidade Financeira (REF) do Banco Central do Brasil foi publicado ontem. Dentre várias informações interessantes, neste relatório foi publicado um boxe que discute a mensuração de impactos de contágio do setor real da economia no sistema financeiro.

Resumidamente, a partir de uma rede de conexões do setor real, o BCB simula um processo de contágio e verifica os possíveis afetados bem como seus empregados. Com esses dados em mão, o BCB mapeia as exposições do SFN a essas empresas e funcionários e, em seguida, simula um segundo processo de contágio no setor financeiro.

A rede do setor real (representada abaixo) foi montada a partir dos dados de TED entre as empresas. Na figura abaixo, “cada esfera representa um grupo econômico. O tamanho delas é proporcional à sua participação no fluxo de transferências do SPB. As cores das arestas refletem a importância do fluxo de TED para a empresa recebedora – quanto mais vermelho, maior a importância e maiores as chances de contágio. Nem todos os grupos estão representados.” (BCB, 2015)

setor real

Já a rede do setor financeiro é montada a partir das exposições que os conglomerados financeiros possuem entre si. Na figura abaixo, “as esferas azuis referem-se aos Bancos Múltiplos e Comerciais, as verdes, aos Bancos de Desenvolvimento, as vermelhas, aos Bancos de Investimento, as laranjas, às Cooperativas de Crédito e Financeiras, e as amarelas, às Corretoras e empresas de leasing.” (BCB, 2015)

rede sfnVale a pena tirar um tempo e conferir o REF!

Foda-se a nuance, entrevista com Alvin Roth, erro de medida no desemprego e Machine Learning no Airbnb.


Algumas leituras e vídeos interessantes

– Kieran Healy mandando um fuck nuance. (Abstract: Seriously, fuck it).

– Entrevista de Alvin Roth no Google:

– Sobre a acurácia das variáveis econômicas: quanto é o desemprego da China? Nessa linha, qual é a medida adequada para “desemprego”? Veja uma discussão interessante para o caso dos EUA no Econbrowser.

Como o Airbnb usa Machine Learning?

Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança


O pessoal do Open Science Framework acabou de concluir um trabalho hercúleo: durante mais de 3 anos, juntaram 270 colaboradores para realizar 100 replicações de 98 artigos de psicologia. Todos os materiais do projeto, para cada replicação, encontram-se disponíveis no site, inclusive os códigos em R!

E quais os resultados? Os efeitos replicados tiveram a magnitude estimada reduzida pela metade quando comparados com os efeitos originais. Apenas 36% das replicações alcançaram “significância” estatística (p-valor menor do que 5%) e apenas 47% dos efeitos originais ficaram dentro do intervalo de confiança de 95% das replicações. Supondo que não exista viés de seleção nos estudos originais (o que é difícil de acreditar, considerando os resultados acima), uma meta análise combinando os resultados indica apenas 68% dos efeitos como “significantes”. 

Essa é uma iniciativa fantástica, é ciência como deve ser feita. E que venham mais replicações, para termos estimativas mais precisas, sem viés de publicação, do tamanho e da incerteza ao redor desses efeitos.

PS: Em economia, provavelmente nossa situação é ainda pior: a maior parte de nossos estudos é baseada em dados observacionais.

Peixes, meias e simulações: uma introdução intuitiva (e divertida) à estatística bayesiana


Como tinha dito anteriormente, gostei muito do tutorial do Rasmus no useR! 2105 e estava apenas esperando ele publicar online para divulgar por aqui.

Rasmus resolveu introduzir estatística Bayesiana com simulações, de uma forma bem intuitiva, e acho que funcionou muito bem –  pretendo descaradamente  roubar  adotar essa estratégia para cursos introdutórios. Você pode baixar o material aqui.

Além do tutorial, outra apresentação divertida do Rasmus foi o uso de estatística bayesiana para resolver um problema, de certo modo, trivial, mas também bastante didático: se todas as 11 primeiras meias que você tirou de um cesto de roupas não fazem par, qual o provável total de meias no cesto? Ficou curioso, dê uma conferida no material (acompanhe escrevendo os códigos)!

socks

 

Data Colada!


Fazia algum tempo que não descobria um blog tão bom quanto o Data Colada!

Em especial destaco esse post  que discute a falha na replicação de um estudo famoso sobre posições corporais e níveis de testosterona e cortisol (o vídeo do TED sobre o estudo tem mais de 26 milhões de exibições):

4-hormones-2

Detalhe que ao final do post há comentários dos autores tanto do artigo original, quanto da réplica.  E o post também discute o uso de curvas de p-valor para esse caso (há um web-app para construir as curvas de p-valor). Muito bacana.