Trabalhar como economista/cientista de dados no facebook: o que é preciso?


Será que você – ou o seu programa de doutorado – está em sintonia  com as demandas de um economista/cientista de dados moderno, como um economista no facebook?

Segue abaixo a tradução livre que fiz dos trechos relevantes de uma oferta de emprego:

O Facebook está buscando economistas excepcionais para se juntar à nossa equipe de Ciência de Dados. Os indivíduos deverão ter uma compreensão profunda da análise causal – desde a criação e análise de experimentos até o trabalho com dados complexos ou não estruturados. Economistas no Facebook criam e executam projetos em áreas como o design de mercado online, previsão, análise de redes, design de leilão, comportamento do consumidor e economia comportamental.

Algumas habilidades requeridas ou desejáveis:

  • Doutorado em Economia ou um campo relevante;
  • Ampla experiência na resolução de problemas analíticos utilizando abordagens quantitativas;
  • Confortável com a manipulação e análise de dados complexos, de alto volume e alta-dimensionalidade de fontes variadas;
  • Conhecimento especializado de uma ferramenta de análise, tais como R, Matlab, ou Stata;
  • Experiência com os dados on-line: a mineração da web social, webscraping de  websites, puxar dados de APIs, etc;
  • Confortável na linha de comando e com ferramentas unix;
  • Fluência em pelo menos uma linguagem de script como Python ou Ruby;
  • Familiaridade com bancos de dados relacionais e SQL;
  • Experiência de trabalho com grandes conjuntos de dados ou ferramentas de computação distribuída (Map/Reduce, Hadoop, Hive, etc.).

O que o Facebook diz sobre o seu relacionamento?


O time de análise de dados do Facebook fez uma série de 6 posts sobre o valentine’s day (dia dos namorados) nos Estados Unidos.

Recomendo fortemente a leitura de todos. O posts tratam dos seguintes temas:

  • O primeiro post trata de amor e religião e constata que há poucos casais de religiões diferentes, mesmo em países com alta diversidade religiosa.
  • O segundo post trata da diferença de idade entre casais. Na média, homens são mais de dois anos mais velhos do que suas  parceiras.
  • O terceiro post trata da duração dos relacionamentos. Um dos resultados: quanto mais tempo de relacionamento, menor a chance de o casal se separar.
  • O quarto post trata das “melhores” cidades para os solteiros (como são cidades dos EUA, provavelmente não interessará muito os leitores deste blog).
  • O quinto post trata da mudança de comportamento dos casais antes e depois do relacionamento. Esse é um dos mais bacanas. Para quem quiser ler algo em português, a Folha fez uma matéria. Vale reproduzir um gráfico, relacionando a quantidade de posts com palavras positivas e os dias antes/após o início do namoro:

1898250_10152219519288415_127545461_n

Os dados confirmam aquilo que você já percebia: casais recém formados postam sobre unicórnios vomitando arco-iris e o efeito pode durar muito, muito tempo (destaque para o gráfico feito com ggplot2).

  • Por fim, o último post trata do que acontece após o término do relacionamento. As interações, principalmente de apoio dos amigos, aumentam bastante.

O Facebook é, muito provavelmente, a organização com a maior base de dados sobre informações pessoais do mundo. O potencial disso é inimaginável. No final do ano passado, eles contrataram o professor da NYU Yann LeCun para liderar o departamento de inteligência articial da empresa – parece que ainda há muita coisa interessante por esperar.

Mais sobre análise de dados do Facebook neste blog, aqui (analise seus próprios dados) e aqui (descubra características  da pessoa – como a orientação sexual – com base no que ela curte).

Analise a rede de seu facebook


Continuando o tema de análise de redes, abordado em post passado, vejamos agora um exemplo legal que você mesmo pode reproduzir!

O gráfico abaixo é o da minha rede do Facebook. Cada nódulo representa uma pessoa (não coloquei os nomes, mas você pode colocar caso queira) e cada arco uma relação de amizade entre elas.

Veja que as pessoas foram separadas em grupos com base nas relações de amizade, e cada grupo recebeu uma cor diferente. Isto foi feito por um algoritmo que, no meu caso, corretamente identificou os grupos sociais da rede (trabalho, família, viagens, cursos) com base em quão fortemente conectados os nódulos são. Perceba que algumas pessoas são representadas por nódulos maiores: no caso, elas são pessoas com alto nível de betweeness centrality, isto é, pessoas que são como uma ponte para grupos de amizades distintos dentro da rede – também seria possível mudar o tamanho dos nódulos segundo o número de conexões de cada pessoa (grau, na linguagem de rede) ou outras medidas de centralidade.

rede_do_facebook

Bacana, não?

Quer fazer o seu? Você vai precisar entrar no aplicativo Netvizz para baixar os dados do Facebook e, depois, rodá-los no programa Gephi (que pode ser baixado gratuitamente aqui). Caso tenha alguma dificuldade, há um didático tutorial na internet. Futuramente, para não dizer que não falamos de economia, vamos fazer esse mesmo experimento com a visualização de dados de investimento direto no exterior e ver o que sai.

Os reviews mais engraçados da Amazon e página do blog no Facebook


Voltando de férias, resolvi fazer algo que estava pendente e tinham me sugerido há algum tempo: criar uma página do blog no Facebook. Ela foi criada semana passada e pode ser acessada aqui. Ou, ali ao lado, à direita do blog. Ainda não sei se foi uma boa idéia, pois é mais uma fonte de procrastinação. Assim, a outra sugestão de uma conta do Twitter fica para depois das próximas férias – ou algum outro dia.

Para não gastar um post somente com este assunto insosso de páginas de Facebook, segue um link com os reviews mais engraçados da Amazon (segundo a própria Amazon). Um ótimo livro que gerou vários destes reviews, A Million Random Digits with 100,000 Normal Deviatesjá foi mencionado aqui.

Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3


Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.

A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.

20130312-220846.jpg

Veja mais aplicações da estatística neste blog aqui e aqui.

Via Marginal Revolution.