Nate Silver – Previsões para a copa do mundo


Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.
20140609-213015-77415484.jpg
O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!

Aprenda a fazer previsão de eleições com o NYT.


Depois que o Nate Silver saiu do NYT, o jornal montou um novo time de previsão para eleições. O novo modelo, denominado LEO, está no ar e com uma descrição bem amigável de seu funcionamento.  A parte gráfica dos resultados também está bacana, inclusive com uma seção comparando o modelo do NYT com seus concorrentes (vale lembrar que o site conta com a ajuda do Michael Bostock, um dos caras que desenvolveu o fantástico D3 para JavaScript)

Mas, tem algo ainda melhor. O NYT liberou os dados e os códigos do modelo no github. E o modelo é em R. Ou seja, agora, para replicar e adaptar o modelo à realidade brasileira só faltam duas coisas: tempo e vontade.

Voltando ao caso da Target: previsão de gravidez


Lembra da história da Target prevendo quando uma cliente terá um bebê? Veja aqui vídeo de Andrew Pole, da Target, falando sobre o uso de dados para melhorar o marketing da empresa. Entre os exemplos, ele cita o famoso caso de prever a gravidez (para ir diretamente à parte dos exemplos clique, em cima do video, em “Data to Drive Performance Examples”).

Solucionando crimes com matemática e estatística


Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.

Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?

E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.

A primeira equação que Rossmo criou tinha a seguinte cara:

rossmo

A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.

Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!

PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.

Mais Google: previsões de gripe e de dengue em “tempo real”


Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.

Agora, veja a empresa fornecendo mapas com tendências de gripe  e  de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.

Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:

Dengue

Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:

Dengue 2

Impressionante.

Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).

Via Marginal Revolution

Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3


Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.

A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.

20130312-220846.jpg

Veja mais aplicações da estatística neste blog aqui e aqui.

Via Marginal Revolution.

O poder da estatística, ou como você é tão previsível 2


No mundo de dados abundantes, como disse Hal Varian, saber tratá-los e interpretá-los (bem) torna-se cada vez mais fundamental, e a (boa) estatística já se torna a profissão sexy da vez.

As aplicações são as mais diversas: desde prever, pelos hábitos de compra, quando sua cliente está grávida e quando o bebê irá nascer; passando, também, por utilizar buscas do Google para fazer “previsões em tempo real”; até prever o resultado de duas eleições presidenciais.

Sobre este último ponto, o livro do Nate Silver ainda estava na minha wish list, esquecido… mas, depois do animado post do Drunkeynesian, venci a procrastinação. Livro comprado – comentários em breve eventualmente!