Detectando reviews falsos na Amazon


Agora que comecei a usar mais a Amazon no dia-a-dia (usava basicamente para livros e eletrônicos) percebi a quantidade assustadora de reviews falsos que existem por lá. Isso naturalmente levou a outra pergunta: que tal usar análise de dados para filtrar os reviews falsos dos verdadeiros?

Pois bem, como quase toda a idéia que temos, alguém já a implementou. Então se você ainda não conhece, vai aqui a dica do fakespot. Usando técnicas de processamento de linguagem natural e machine learning, o site tenta identificar quais e quantos reviews são realmente autênticos. O serviço poderia ser melhor executado, mas tem funcionado bem nos casos que testei.

Foda-se a nuance, entrevista com Alvin Roth, erro de medida no desemprego e Machine Learning no Airbnb.


Algumas leituras e vídeos interessantes

– Kieran Healy mandando um fuck nuance. (Abstract: Seriously, fuck it).

– Entrevista de Alvin Roth no Google:

– Sobre a acurácia das variáveis econômicas: quanto é o desemprego da China? Nessa linha, qual é a medida adequada para “desemprego”? Veja uma discussão interessante para o caso dos EUA no Econbrowser.

Como o Airbnb usa Machine Learning?

Links diversos: Credibilidade da pesquisa empírica em economia, Boostrap e Bayes, Comece pelo R e Rajan.


–  Sobre a credibilidade da pesquisa empírica em economia – uma discussão curta (menos de 10 páginas) do Ioannidis (2013). Conclusão: Overall, the credibility of the economics literature is likely to be modest or even low.

– Rasmus Baath tem um post bacana sobre Boostrap e estatística Bayesiana.

– Se interessou sobre programação e não sabe por qual linguagem começar? Se você é economista (ou estatístico) comece pelo R. Pretendo escrever um post sobre isso, mas como ainda não o fiz, segue um post que esboça alguns porquês.

– Falando de programação, no começo, provavelmente você vai se sentir assim quando alguém ler seus códigos (via xkcd):

code_quality

 (mas algumas pessoas, como o Hadley, não gostaram muito do tom do cartoon)

 – Um profile do Raghuram Rajan.

Prêmios para pesquisas abertas, transparentes e reproduzíveis!


A Berkeley Initiative for Transparency in the Social Sciences (BITSS) anunciou ontem a criação dos prêmios Leamer-Rosenthal por uma ciência social aberta (The Leamer-Rosenthal Prizes for Open Social Science).

Os prêmios tomam os nomes de Edward Leamer – de quem já falamos aqui no blog – e Robert Rosenthal. Ambos trataram de problemas sérios na pesquisa acadêmica como a tendência de publicar/buscar “resultados significantes” – muitas vezes genuinamente confundindo sua função  – ou a tendência de ignorar a sensibilidade das próprias estimativas.  Edward Leamer, em particular, trata extensivamente de uma prática bastante comum entre pesquisadores: a de experimentar vários modelos diferentes, até encontrar um que “pareça publicável”, para depois apresentar apenas aquele resultado como se fosse o único modelo testado.

Serão distribuídos de 6 a 8 prêmios de 10.000 a 15.000 dólares para pesquisadores em ciências sociais (como Economia, Psicologia e Ciências Políticas) que tenham feito trabalhos de transparência exemplar, ferramentas para melhorar o rigor das ciências sociais, ou para professores que tenham causado impacto no ensino e difusão de boas práticas de pesquisa.

Mais especificamente sobre as pesquisas, serão premiadas aquelas que busquem, entre outro pontos: (i) apresentar pré-registro,  cálculo de poder do teste e do tamanho amostral (ainda é raro); (iii) ter os dados e o código para replicação disponíveis e bem documentados (lembrem do caso Reinhart-Rogoff); (iv) disponibilizar os materiais originais – como os questionários de pesquisa – para escrutínio público (lembrem do caso Stapel); (v) apresentação adequada e detalhada dos métodos e resultados.

Ou seja, esta é uma iniciativa que busca premiar bons processos! Acredito que tenha vindo em boa hora, juntando-se a diversas outras críticas sistemáticas que têm sido feitas ao atual estado dos métodos quantitativos nas ciências sociais aplicadas.

O prazo para inscrição é até 13 de setembro. Para você que está fazendo uma pesquisa aberta, reproduzível e cuidadosa, eis uma boa chance de ser reconhecido sem ter que se submeter à busca por temas de manchete de jornal.

Economia comportamental


Flávia Ávila me avisou do site Economia Comportamental, que busca difundir a área no Brasil, e reune informações sobre cursosvídeos, grupos de pesquisa entre outras coisas interessantes.  A página também tem um blog e já conta com diversos colaboradores.

A iniciativa é louvável, pois esta é uma área de pesquisa que ainda está carente de divulgação e publicações no país.  Àqueles que publicam sobre o tema por aqui, sugiro entrar em contato com a Flávia para divulgar o trabalho. E para quem tem interesse no tema, vale a pena fazer uma visita!

O Estatístico Automático – patrocínio do Google e Séries Temporais


Vai fazer análise de séries temporais? Agora você também pode testá-las no Estatístico Automático. Dê uma olhada nos exemplos, são bem interessantes.   E parece que o projeto está caminhando, o Google resolveu investir na iniciativa.

Dilma, Marina e Aécio (e Pastor Everaldo?) no Google Trends!


Olhem que curioso o Google Trends das buscas pelos presidenciáveis, Dilma, Marina e Aécio, nos últimos 30 dias:

Trends

 

Por algum acaso, as tendências parecem refletir um pouco os resultados das pesquisas eleitorais. Dilma, em azul pontilhado, tinha o maior número de buscas. Até que, de repente, Marina – em vermelho –  a ultrapassou. Uma nota: o pico de Dilma Rousseff é fruto da entrevista no Jornal Nacional e, aparentemente, parece ter sido mais mérito de William Bonner do que da Presidenta, segundo os dados das pesquisas relacionadas.

BONNER

Mais recentemente, parece que as buscas estão se aproximando. Vendo apenas os últimos sete dias:

trends7dias

Vale ressaltar, logicamente, que os dados do Google Trends são dados de busca na internet; por favor, não são dados de intenção de voto.  Para ilustrar, vejamos o pastor Everaldo, em verde:

everaldo

 

Algo estranho para quem tem menos de 2% das intenções de votos. Entretanto, vejamos as buscas relacionadas:

peido_everaldo

 

Se você não entendeu, provavelmente foi um dos poucos que não viu este vídeo. Ou seja, não basta ver o número de buscas, mas também seu teor. A despeito dessas ressalvas, incluir o Google Trends como mais um dos inputs para previsão eleitoral talvez não seja uma má idéia.

PS: você pode brincar com essas pesquisa aqui!

Gráficos interativos com ggvis – apresentação do useR! 2014


O pessoal do RStudio apresentou, no useR! 2014, um novo pacote que integra a gramática de gráficos do ggplot2, a sintaxe intuitiva do magritrr, e a interatividade web do Shiny: o ggvis (clique no link para ver exemplos).

Abaixo, segue a apresentação do Winston Chang, disponibilizada pelo datascience.la.

O material da apresentação pode ser encontrado aqui.