Peixes, meias e simulações: uma introdução intuitiva (e divertida) à estatística bayesiana


Como tinha dito anteriormente, gostei muito do tutorial do Rasmus no useR! 2105 e estava apenas esperando ele publicar online para divulgar por aqui.

Rasmus resolveu introduzir estatística Bayesiana com simulações, de uma forma bem intuitiva, e acho que funcionou muito bem –  pretendo descaradamente  roubar  adotar essa estratégia para cursos introdutórios. Você pode baixar o material aqui.

Além do tutorial, outra apresentação divertida do Rasmus foi o uso de estatística bayesiana para resolver um problema, de certo modo, trivial, mas também bastante didático: se todas as 11 primeiras meias que você tirou de um cesto de roupas não fazem par, qual o provável total de meias no cesto? Ficou curioso, dê uma conferida no material (acompanhe escrevendo os códigos)!

socks

 

useR! 2015 – R mainstream


Se eu tiver que passar uma impressão principal do useR! 2015 é a de que o R provavelmente chegou em um tipping point e está se tornando, oficialmente, mainstream.

O grande diferencial do R sempre foi sua comunidade com a grande quantidade de pacotes disponíveis. Entretanto, como a comunidade era basicamente em torno do meio acadêmico, havia um pouco mais de dificuldade de dedicar recursos para aplicações comerciais e corporativas. Além disso, por ser uma linguagem feita por e para estatísticos, não necessariamente a implementação atual é a mais eficiente, podendo, em algumas circunstâncias, deixar a desejar em performance (mas garantindo correição e acurácia).

Esses são dois pontos que já estão mudando: (i) várias empresas (como Microsoft, Rstudio, Oracle, Google) se reuniram oficialmente para colocar dinheiro na comunidade do R; e, (ii) a popularidade do R está estimulando iniciativas para o tornar mais rápido e eficiente. Acredito que em pouco tempo veremos os benefícios disso.

 Empresas investindo na comunidade: o R Consortium

A Linux Foundation anunciou a criação do R Consortium, uma organização com o objetivo de dar suporte à R Foundation e às demais organizações envolvidas com o desenvolvimento do R.  Em resumo, as empresas participantes do consórcio vão se juntar para colocar dinheiro no desenvolvimento de projetos em torno da linguagem principalmente em projetos de infraestrutura (como o R-Forge ou o próprio encontro anual useR! – que será em Stanford em 2016).

Entre os fundadores estão:

  • a própria  R Foundation;
  • membros platinum: Microsoft e RStudio;
  • membros ouro, TIBCO;
  • membros prata:  Alteryx, Google, HP, Soluções Mango, Ketchum Trading e Oracle.

Durante o encontro, todas as empresas mostraram que já implementaram (ou estão implementando) aplicações corporativas do R em seus produtos, como, por exemplo, o R dentro do SQL server 2016 da Microsoft.

O R está ficando e vai ficar ainda mais rápido e eficiente

A popularidade do R está estimulando uma saudável competição em torno de uma implementação eficiente da linguagem. Além do trabalho da Microsoft com a Revolution R – ou de outras implementações corporativas – duas apresentações chamaram bastante a atenção: (i) o projeto CXXR  que reescreve o interpretador do R em C++;  e, (ii) o fastR da Oracle que – na verdade dentro de um projeto mais ambicioso envolvendo várias linguagens – reescreve o interpretador do R em Java.  O fastR não tem uma data precisa para soltar uma versão plenamente funcional, mas o CXXR, aparentemente, já vai ter uma versão compatível com o GNU R a partir da próxima versão (3.3).

***

Faço questão de ressaltar aqui – como muitos já o fizeram – que a organização do useR! 2015 foi impecável! Mesmo com um público duas vezes maior do que o esperado (foram mais de 650 pessoas) tudo correu perfeitamente, tendo, inclusive, jantar Viking com arremessos de machados (literalmente). Meus parabéns para o pessoal da universidade de Aalborg e, em especial, ao Torben Tvedebrink –  ano que vem o encontro será em Stanford e Aalborg elevou o nível para os próximos organizadores.

Axes

 

Statistical Analysis of Network Data and Testing R Code


Alguns materiais dos tutoriais de ontem no useR!2015:

O Rasmus também fez um tutorial bem didático de introdução à estatística bayesiana, mas o material ainda não está disponível. Assim que estiver publico aqui.

 

Data Colada!


Fazia algum tempo que não descobria um blog tão bom quanto o Data Colada!

Em especial destaco esse post  que discute a falha na replicação de um estudo famoso sobre posições corporais e níveis de testosterona e cortisol (o vídeo do TED sobre o estudo tem mais de 26 milhões de exibições):

4-hormones-2

Detalhe que ao final do post há comentários dos autores tanto do artigo original, quanto da réplica.  E o post também discute o uso de curvas de p-valor para esse caso (há um web-app para construir as curvas de p-valor). Muito bacana.

Pessoas não gostam quando economistas dizem para elas fazerem mais sexo, descobrem economistas.


Tradução ipsis litteris do título do artigo do Quartz.

The findings seem to indicate that “the instruction to have more sex leads to a decline in wanting for sex and in enjoyment of sex.

Por mim, esse entra para a lista dos gag papers, mesmo que involuntariamente.

PS1: candidato ao Ig Nobel?

PS2: Subscrevo a dica do Quartz – Relationship pro-tip: Don’t take part in economics studies