Excel, csv e C++ no R. Livro do Alvin Roth, Nova biografia de Steve Jobs. PCO e liberdade de expressão.


Alguns links interessantes:

R

O pessoal do RStudio não para de trabalhar:

Novo pacote (readr) para ler arquivos de texto (csv e similares) no R;

Novo pacote (readxl) para ler arquivos do Excel no R;

Novo pacote (dygraphs) para fazer gráficos interativos de séries temporais no R usando JavaScript; e

O novo RStudio está ficando cada vez mais poderoso: agora tem uma série de recursos novos para C++ como code completion, diagnóstico de sintaxe e source interativo.

Livros

– O Nobel Alvin Roth irá lançar um novo livro para o público geral: Who Gets What — and Why: The New Economics of Matchmaking and Market Design. O livro está em pré-venda, previsto para sair em junho.

– Nova biografia de Steve Jobs está tendo uma boa repercussão no público e na crítica: Becoming Steve Jobs: The Evolution of a Reckless Upstart into a Visionary Leader.

Para finalizar

– Ainda estou na dúvida se é sério, mas o PCO tem um texto  – aparentemente de verdade – defendendo a liberdade de expressão:

Levy Fidelix é um político de direita e inimigo da luta dos homossexuais, e seu discurso foi um ataque direito aos direitos democráticos, mas a condenação dele não é uma vitória da luta pelas liberdades democráticas (…) A multa de um milhão de reais como penalidade para um candidato expressar a sua opinião política em um debate de campanha eleitoral é uma gravíssimo precedente contra a já limitada possibilidade de livre expressão. A crença de que a justiça está do lado do progresso social e da democracia e, por este motivo, podemos dar a ela poderes discricionários, é não só equivocada, como é uma completa cegueira política (…) Nessas condições, é uma política suicida, já não digamos deixar de denunciar estes abusos, mas principalmente aplaudi-los e confundir a consciência das massas, chamando-as apoiar medidas antidemocráticas apenas porque atingem este ou aquele elemento reacionário. (…) A liberdade de expressão, completa e irrestrita, é uma condição sine qua non para a existência das outras liberdades democráticas, ela é uma liberdade que engloba toda a sociedade e que precede todas as liberdades individuais. (…) Existe uma crescente campanha para solidificar o “crime de opinião” o crime onde você pensa algo que alguns não gostaram e naturalmente você é culpado, onde a sua liberdade está reboque da opinião pública, e se sua opinião tem de ter “selo de aprovação” da opinião pública formada pelos monopólios de comunicação e pela burguesia, a opinião própria já está proibida.

 

Retrospectiva: posts mais lidos de 2014


Tivemos copa e eleições e assim, neste ano, os posts acabaram sendo bem temáticos.

Segue, abaixo, uma lista com os mais lidos em 2014, separados por tema.


Estatística (diversos)

 

Que variáveis incluir na regressão? Ou, por que grande parte dos trabalhos aplicados está errada.

Statistics – Emir Sader Style

Statistics – Emir Sader Style – The return of …

Statistics – PSDB Style


Copa

 

Nate Silver – Previsões para a copa do mundo

Previsões para a copa: sem Neymar, Brasil ainda é favorito?

Previsões para a copa: USP e UFSCar x Nate Silver x Céticos

Previsões para a copa: afinal, como se saíram os modelos?


 Eleições

 

Indício de fraude nas eleições? Usando a Lei de Benford.

Votos e Bolsa Família: correlação se mantém quando controlada por estado?

Votos e Bolsa Família: segundo turno!

Dilma, Marina e Aécio no Google Trends, um dia antes das eleições

Previsões para eleições: o que estão dizendo para amanhã?

Previsões para eleição no Brasil?


 Imóveis (Brasília)

 

Mapas de roubos em Brasília?

Quanto mais tempo sem alugar, maior a variação do preço do aluguel? E mais um mapa.

Mapa de aluguel em Brasília (Plano Piloto)

Valores de aluguel em Brasília (plano piloto)

Imóveis no DF: preços de venda estão caindo? 10 meses de coleta.

Links diversos: Discriminação de preços em passagens, vídeo Piketty na USP e replicação dos códigos dos artigos.


Seguem alguns links interessantes da semana:

– Vai comprar passagens? Então não busque somente no “site em português” da companhia aérea, mas também nas versões estrangeiras. Algumas vezes o preço pode ser mais barato, bem mais barato.  Para verificar se isso ocorre por aqui, simulei hoje uma passagem Brasília – Vitória para a virada do ano, tanto na versão em português quanto na versão em inglês do site da TAM. Resultado: no site em inglês a passagem está quase R$1.000,00 mais cara. Neste caso, o gringo que estiver no Brasil pode economizar bastante apenas mudando a linguagem da página, mas já houve relatos de o inverso acontecer (a passagem no site em inglês estar mais barata).

– Lembra que o Piketty estava pelo Brasil? Pois bem, para quem não conseguiu estar presente, agora o  vídeo do debate que ocorreu na USP, com André Lara Resende e Paulo Guedes, está disponível (via Prosa Econômica).

–  Desde 2005, o Quarterly Journal of Political Science solicita aos autores os dados e códigos necessários para a replicação de seus papers. Com isso, o periódico faz uma revisão bem básica: apenas roda o que foi enviado pelos autores – as is – e verifica se os resultados são os mesmos apresentados pelo artigo. Este processo simples tem valido a pena? Segundo Nicholas Eubank, sim:

Experience has shown the answer is an unambiguous “yes.” Of the 24 empirical papers subject to in-house replication review since September 2012, [1] only 4 packages required no modifications. Of the remaining 20 papers, 13 had code that would not execute without errors, 8 failed to include code for results that appeared in the paper, [2] and 7 failed to include installation directions for software dependencies. Most troubling, however, 13 (54 percent) had results in the paper that differed from those generated by the author’s own code. Some of these issues were relatively small — likely arising from rounding errors during transcription — but in other cases they involved incorrectly signed or mis-labeled regression coefficients, large errors in observation counts, and incorrect summary statistics. Frequently, these discrepancies required changes to full columns or tables of results. Moreover, Zachary Peskowitz, who served as the QJPS replication assistant from 2010 to 2012, reports similar levels of replication errors during his tenure as well. The extent of the issues — which occurred despite authors having been informed their packages would be subject to review — points to the necessity of this type of in-house interrogation of code prior to paper publication.

Fica a pergunta: quantos journals brasileiros fazem isso?

(via Dave Giles)

Trabalhar como economista/cientista de dados no facebook: o que é preciso?


Será que você – ou o seu programa de doutorado – está em sintonia  com as demandas de um economista/cientista de dados moderno, como um economista no facebook?

Segue abaixo a tradução livre que fiz dos trechos relevantes de uma oferta de emprego:

O Facebook está buscando economistas excepcionais para se juntar à nossa equipe de Ciência de Dados. Os indivíduos deverão ter uma compreensão profunda da análise causal – desde a criação e análise de experimentos até o trabalho com dados complexos ou não estruturados. Economistas no Facebook criam e executam projetos em áreas como o design de mercado online, previsão, análise de redes, design de leilão, comportamento do consumidor e economia comportamental.

Algumas habilidades requeridas ou desejáveis:

  • Doutorado em Economia ou um campo relevante;
  • Ampla experiência na resolução de problemas analíticos utilizando abordagens quantitativas;
  • Confortável com a manipulação e análise de dados complexos, de alto volume e alta-dimensionalidade de fontes variadas;
  • Conhecimento especializado de uma ferramenta de análise, tais como R, Matlab, ou Stata;
  • Experiência com os dados on-line: a mineração da web social, webscraping de  websites, puxar dados de APIs, etc;
  • Confortável na linha de comando e com ferramentas unix;
  • Fluência em pelo menos uma linguagem de script como Python ou Ruby;
  • Familiaridade com bancos de dados relacionais e SQL;
  • Experiência de trabalho com grandes conjuntos de dados ou ferramentas de computação distribuída (Map/Reduce, Hadoop, Hive, etc.).

Links diversos: o Estatístico Automático e um pouco de história do R.


Seguem alguns links interessantes:

1. Andrew Gelman comentou sobre o estatístico automático e resolvi testar. Como ainda é um protótipo, por enquanto o site só trabalha com modelos lineares. O que o algoritmo tentará fazer? O seguinte:

 (…)  the automatic statistician will attempt to describe the final column of your data in terms of the rest of the data. After constructing a model of your data, it will then attempt to falsify its claims to see if there is any aspect of the data that has not been well captured by its model.

Testei com os dados dos votos municipais na Dilma vs variáveis socio-econômicas dos municípios (primeiro turno). Veja aqui os resultados.

2. Ok, este link só vai ser interessante se você tiver um pouco de curiosidade sobre o R. Rasmus Baath comprou os livros das antigas versões do S (a linguagem que deu origem ao R) e ressaltou alguns pontos interessantes sobre o desenvolvimento da linguagem ao longo do tempo.

Você Fiscal: ajude a fiscalizar o processo eleitoral brasileiro.


Aproveitando os posts sobre eleição, divulgo aqui o Você Fiscal, iniciativa do professor Diego Aranha. A idéia é que eleitores tirem fotos do Boletim de Urna logo após o encerramento das eleições para realizar uma apuração independente dos resultados. Há um aplicativo para Android, mas você também pode participar sem o aplicativo. Confira abaixo o vídeo sobre o projeto: