Links diversos: Discriminação de preços em passagens, vídeo Piketty na USP e replicação dos códigos dos artigos.


Seguem alguns links interessantes da semana:

- Vai comprar passagens? Então não busque somente no “site em português” da companhia aérea, mas também nas versões estrangeiras. Algumas vezes o preço pode ser mais barato, bem mais barato.  Para verificar se isso ocorre por aqui, simulei hoje uma passagem Brasília – Vitória para a virada do ano, tanto na versão em português quanto na versão em inglês do site da TAM. Resultado: no site em inglês a passagem está quase R$1.000,00 mais cara. Neste caso, o gringo que estiver no Brasil pode economizar bastante apenas mudando a linguagem da página, mas já houve relatos de o inverso acontecer (a passagem no site em inglês estar mais barata).

- Lembra que o Piketty estava pelo Brasil? Pois bem, para quem não conseguiu estar presente, agora o  vídeo do debate que ocorreu na USP, com André Lara Resende e Paulo Guedes, está disponível (via Prosa Econômica).

-  Desde 2005, o Quarterly Journal of Political Science solicita aos autores os dados e códigos necessários para a replicação de seus papers. Com isso, o periódico faz uma revisão bem básica: apenas roda o que foi enviado pelos autores - as is – e verifica se os resultados são os mesmos apresentados pelo artigo. Este processo simples tem valido a pena? Segundo Nicholas Eubank, sim:

Experience has shown the answer is an unambiguous “yes.” Of the 24 empirical papers subject to in-house replication review since September 2012, [1] only 4 packages required no modifications. Of the remaining 20 papers, 13 had code that would not execute without errors, 8 failed to include code for results that appeared in the paper, [2] and 7 failed to include installation directions for software dependencies. Most troubling, however, 13 (54 percent) had results in the paper that differed from those generated by the author’s own code. Some of these issues were relatively small — likely arising from rounding errors during transcription — but in other cases they involved incorrectly signed or mis-labeled regression coefficients, large errors in observation counts, and incorrect summary statistics. Frequently, these discrepancies required changes to full columns or tables of results. Moreover, Zachary Peskowitz, who served as the QJPS replication assistant from 2010 to 2012, reports similar levels of replication errors during his tenure as well. The extent of the issues — which occurred despite authors having been informed their packages would be subject to review — points to the necessity of this type of in-house interrogation of code prior to paper publication.

Fica a pergunta: quantos journals brasileiros fazem isso?

(via Dave Giles)

Links diversos: o Estatístico Automático e um pouco de história do R.


Seguem alguns links interessantes:

1. Andrew Gelman comentou sobre o estatístico automático e resolvi testar. Como ainda é um protótipo, por enquanto o site só trabalha com modelos lineares. O que o algoritmo tentará fazer? O seguinte:

 (…)  the automatic statistician will attempt to describe the final column of your data in terms of the rest of the data. After constructing a model of your data, it will then attempt to falsify its claims to see if there is any aspect of the data that has not been well captured by its model.

Testei com os dados dos votos municipais na Dilma vs variáveis socio-econômicas dos municípios (primeiro turno). Veja aqui os resultados.

2. Ok, este link só vai ser interessante se você tiver um pouco de curiosidade sobre o R. Rasmus Baath comprou os livros das antigas versões do S (a linguagem que deu origem ao R) e ressaltou alguns pontos interessantes sobre o desenvolvimento da linguagem ao longo do tempo.

Statistics – PSDB Style


Porque pau que bate em Chico, bate em Francisco.

Em sua Fanpage do Facebook, o PSDB inovou com um gráfico de escalas, digamos, heterodoxas:

Captura de Tela 2014-09-17 às 19.47.36

Note que a distância de Marina para Aécio (11 pontos percentuais) está menor do que a distância de 15 para 19 (4 pontos percentuais) do próprio Aécio . O gráfico com escalas ortodoxas ficaria assim:

psdb

Mais similares: Emir Sader/Emir Sader de novo/Fox News/Venezuela/Globo News

PS: veja pelo lado bom, é uma lição de como ver o copo meio cheio.

Dica do Marco Antonio!

 

 

Statistics – Emir Sader Style – The return of …


Emir Sader, com todo seu conhecimento estatístico, se pronuncia novamente:

sader2

É chato se repetir, mas aqui é caso de utilidade pública.

Para ver o ato anterior, clique aqui.

Semelhantes: Statistics – Fox Style , Statistics – Gobo News Style e Statistics – Venezuela Style.

Novamente, vale frisar que o Ibope não precisa estar certo para o Emir estar errado.

 Dica do Guilherme Duarte via Radamés Marques!

Novo na lista de blogs: Dados Aleatórios


Blog novo na lista de blogs: o Dados Aleatórios.

O blog tem foco em programação e estatística. Em destaque, as boas dicas de R.

Vale a pena conferir!

 

Statistics – Emir Sader Style


Aparentemente Emir Sader não estudou amostragem estatística.

936686_10152454432138101_1668728040391228267_n

Note que a DataFolha não precisa estar certa para o Emir estar errado. Pois se, por acaso, a pesquisa não reflete satisfatoriamente a população, certamente não será por causa do tamanho amostral (2884 pessoas)!

Semelhantes: Statistics – Fox Style , Statistics – Gobo News Style e Statistics – Venezuela Style.

 Dica do Guilherme Duarte via Radamés Marques.

useR! 2014 – Palestra do John Chambers e entrevista com Hadley Wickham


Eduardo Arino de la Rubia acabou de me informar que, hoje, entrou no ar o site datascience.la, e já com dois vídeos interessantes decorrentes do useR! 2014: uma palestra do John Chambers e uma entrevista com Hadley Wickham.

Após o primeiro dia de tutoriais, o segundo dia da conferência se iniciou com uma apresentação de John Chambers (slides aqui e vídeo abaixo). Para quem não conhece, John Chambers é o criador da linguagem S (pela qual ganhou o prêmio ACM Software System) que se tornou o “pai” do R e atualmente é um dos membros do core team do R. O foco da palestra foi o de ressaltar o papel do R não como uma solução geral que tenta resolver todos os problemas, mas principalmente como uma interface geral que converse com outros instrumentos e ferramentas quando necessário (como, por exemplo, quando a base de dados é muito grande para caber na memória). Para ilustrar iniciativas com esta filosofia, ele citou três frentes em especial:

  • Interface com C++ e C++11, como já havíamos mencionado no post anterior. Os pacotes que têm recebido destaque nesta área são o Rcpp e Rcpp11;
  • LLVM, com o pacote RLLVM do Duncan Temple Lang.
  • Machine Learning em grandes bases de dados e o exemplo foi o H2O e seu pacote homônimo, mas em caixa baixa, para o R.

Confira a apresentação na íntegra abaixo:

 

Além disso, o Eduardo fez várias entrevistas interessantes no decorrer do encontro e agora começou postar os vídeos. O primeiro deles é com o Hadley Wickham e as perguntas estão excelentes. Vale conferir!