Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.

O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!
previsão
Aprenda a fazer previsão de eleições com o NYT.
Depois que o Nate Silver saiu do NYT, o jornal montou um novo time de previsão para eleições. O novo modelo, denominado LEO, está no ar e com uma descrição bem amigável de seu funcionamento. A parte gráfica dos resultados também está bacana, inclusive com uma seção comparando o modelo do NYT com seus concorrentes (vale lembrar que o site conta com a ajuda do Michael Bostock, um dos caras que desenvolveu o fantástico D3 para JavaScript)
Mas, tem algo ainda melhor. O NYT liberou os dados e os códigos do modelo no github. E o modelo é em R. Ou seja, agora, para replicar e adaptar o modelo à realidade brasileira só faltam duas coisas: tempo e vontade.
Voltando ao caso da Target: previsão de gravidez
Lembra da história da Target prevendo quando uma cliente terá um bebê? Veja aqui vídeo de Andrew Pole, da Target, falando sobre o uso de dados para melhorar o marketing da empresa. Entre os exemplos, ele cita o famoso caso de prever a gravidez (para ir diretamente à parte dos exemplos clique, em cima do video, em “Data to Drive Performance Examples”).
Solucionando crimes com matemática e estatística
Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.
Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?
E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.
A primeira equação que Rossmo criou tinha a seguinte cara:
A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.
Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!
PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.
Mais Google: previsões de gripe e de dengue em “tempo real”
Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.
Agora, veja a empresa fornecendo mapas com tendências de gripe e de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.
Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:
Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:
Impressionante.
Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).
Diga-me o que curtes e te direi quem és: o poder da estatística, ou como você é tão previsível 3
Estudo de Kosinski, Stillwella e Graepelb com 58.000 usuários do Facebook mostra que é possível prever varias características pessoais com base apenas nas “curtidas” do indivíduo.
A figura abaixo ilustra o poder de previsão para algumas variáveis sensíveis, como preferência política, orientação sexual e uso de cigarro, drogas e bebidas.
O poder da estatística, ou como você é tão previsível 2
No mundo de dados abundantes, como disse Hal Varian, saber tratá-los e interpretá-los (bem) torna-se cada vez mais fundamental, e a (boa) estatística já se torna a profissão sexy da vez.
As aplicações são as mais diversas: desde prever, pelos hábitos de compra, quando sua cliente está grávida e quando o bebê irá nascer; passando, também, por utilizar buscas do Google para fazer “previsões em tempo real”; até prever o resultado de duas eleições presidenciais.
Sobre este último ponto, o livro do Nate Silver ainda estava na minha wish list, esquecido… mas, depois do animado post do Drunkeynesian, venci a procrastinação. Livro comprado – comentários
em breve eventualmente!



