useR! 2015 – R mainstream


Se eu tiver que passar uma impressão principal do useR! 2015 é a de que o R provavelmente chegou em um tipping point e está se tornando, oficialmente, mainstream.

O grande diferencial do R sempre foi sua comunidade com a grande quantidade de pacotes disponíveis. Entretanto, como a comunidade era basicamente em torno do meio acadêmico, havia um pouco mais de dificuldade de dedicar recursos para aplicações comerciais e corporativas. Além disso, por ser uma linguagem feita por e para estatísticos, não necessariamente a implementação atual é a mais eficiente, podendo, em algumas circunstâncias, deixar a desejar em performance (mas garantindo correição e acurácia).

Esses são dois pontos que já estão mudando: (i) várias empresas (como Microsoft, Rstudio, Oracle, Google) se reuniram oficialmente para colocar dinheiro na comunidade do R; e, (ii) a popularidade do R está estimulando iniciativas para o tornar mais rápido e eficiente. Acredito que em pouco tempo veremos os benefícios disso.

 Empresas investindo na comunidade: o R Consortium

A Linux Foundation anunciou a criação do R Consortium, uma organização com o objetivo de dar suporte à R Foundation e às demais organizações envolvidas com o desenvolvimento do R.  Em resumo, as empresas participantes do consórcio vão se juntar para colocar dinheiro no desenvolvimento de projetos em torno da linguagem principalmente em projetos de infraestrutura (como o R-Forge ou o próprio encontro anual useR! – que será em Stanford em 2016).

Entre os fundadores estão:

  • a própria  R Foundation;
  • membros platinum: Microsoft e RStudio;
  • membros ouro, TIBCO;
  • membros prata:  Alteryx, Google, HP, Soluções Mango, Ketchum Trading e Oracle.

Durante o encontro, todas as empresas mostraram que já implementaram (ou estão implementando) aplicações corporativas do R em seus produtos, como, por exemplo, o R dentro do SQL server 2016 da Microsoft.

O R está ficando e vai ficar ainda mais rápido e eficiente

A popularidade do R está estimulando uma saudável competição em torno de uma implementação eficiente da linguagem. Além do trabalho da Microsoft com a Revolution R – ou de outras implementações corporativas – duas apresentações chamaram bastante a atenção: (i) o projeto CXXR  que reescreve o interpretador do R em C++;  e, (ii) o fastR da Oracle que – na verdade dentro de um projeto mais ambicioso envolvendo várias linguagens – reescreve o interpretador do R em Java.  O fastR não tem uma data precisa para soltar uma versão plenamente funcional, mas o CXXR, aparentemente, já vai ter uma versão compatível com o GNU R a partir da próxima versão (3.3).

***

Faço questão de ressaltar aqui – como muitos já o fizeram – que a organização do useR! 2015 foi impecável! Mesmo com um público duas vezes maior do que o esperado (foram mais de 650 pessoas) tudo correu perfeitamente, tendo, inclusive, jantar Viking com arremessos de machados (literalmente). Meus parabéns para o pessoal da universidade de Aalborg e, em especial, ao Torben Tvedebrink –  ano que vem o encontro será em Stanford e Aalborg elevou o nível para os próximos organizadores.

Axes

 

Trabalhar como economista/cientista de dados no facebook: o que é preciso?


Será que você – ou o seu programa de doutorado – está em sintonia  com as demandas de um economista/cientista de dados moderno, como um economista no facebook?

Segue abaixo a tradução livre que fiz dos trechos relevantes de uma oferta de emprego:

O Facebook está buscando economistas excepcionais para se juntar à nossa equipe de Ciência de Dados. Os indivíduos deverão ter uma compreensão profunda da análise causal – desde a criação e análise de experimentos até o trabalho com dados complexos ou não estruturados. Economistas no Facebook criam e executam projetos em áreas como o design de mercado online, previsão, análise de redes, design de leilão, comportamento do consumidor e economia comportamental.

Algumas habilidades requeridas ou desejáveis:

  • Doutorado em Economia ou um campo relevante;
  • Ampla experiência na resolução de problemas analíticos utilizando abordagens quantitativas;
  • Confortável com a manipulação e análise de dados complexos, de alto volume e alta-dimensionalidade de fontes variadas;
  • Conhecimento especializado de uma ferramenta de análise, tais como R, Matlab, ou Stata;
  • Experiência com os dados on-line: a mineração da web social, webscraping de  websites, puxar dados de APIs, etc;
  • Confortável na linha de comando e com ferramentas unix;
  • Fluência em pelo menos uma linguagem de script como Python ou Ruby;
  • Familiaridade com bancos de dados relacionais e SQL;
  • Experiência de trabalho com grandes conjuntos de dados ou ferramentas de computação distribuída (Map/Reduce, Hadoop, Hive, etc.).