O Estatístico Automático – patrocínio do Google e Séries Temporais


Vai fazer análise de séries temporais? Agora você também pode testá-las no Estatístico Automático. Dê uma olhada nos exemplos, são bem interessantes.   E parece que o projeto está caminhando, o Google resolveu investir na iniciativa.

As ruas coloridas do Brasil – Brazil’s Painted Streets !


Momento Urban Demographics no Análise Real.

O Google lançou uma página,  Brazil’s Painted Streets, em que você pode passear pelas ruas decoradas para a copa no Brasil:

google_streets

E também tem um vídeo no YouTube:

Bem bacana.

Mas, como contraponto, vale colocar as pinturas contra a copa elencadas no The Guardian:

the_guardian

Solucionando crimes com matemática e estatística


Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.

Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?

E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.

A primeira equação que Rossmo criou tinha a seguinte cara:

rossmo

A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.

Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!

PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.

Mais Google: previsões de gripe e de dengue em “tempo real”


Como já havia dito, para quem gosta de trabalhar com dados, conciliando teoria e prática, o Google deve ser a empresa dos sonhos.

Agora, veja a empresa fornecendo mapas com tendências de gripe  e  de dengue ao redor do mundo, com detalhes anuais por país e em “tempo real”, tomando por base termos de pesquisa relacionados às doenças e seus sintomas.

Será que a dengue está pior este ano do que no ano passado no Brasil? Aparentemente sim. E os dados do Google podem fornecer uma resposta mais tempestiva do que os dados oficiais:

Dengue

Mas esses dados fornecem uma boa aproximação dos casos reais? Bom, julgue você mesmo com o gráfico abaixo, comparando o indicador do Google com os dados do Ministério da Saúde:

Dengue 2

Impressionante.

Mais sobre o Google aqui (entrevista com Nate Silver) e aqui (Hal Varian aplicando teoria dos jogos na prática).

Via Marginal Revolution

Estatística no Google


Jeff Leek do Simply Statistics trouxe uma entrevista bacana com Nick Chamandy, um estatístico do Google.

Destaque para a parte em que ele diz que, na maioria dos casos, o estatístico que trabalha no Google não é somente responsável por fazer as análises, mas também por coletar e tratar os dados brutos.

In the vast majority of cases, the statistician pulls his or her own data — this is an important part of the Google statistician culture. It is not purely a question of self-sufficiency. There is a strong belief that without becoming intimate with the raw data structure, and the many considerations involved in filtering, cleaning, and aggregating the data, the statistician can never truly hope to have a complete understanding of the data. For massive and complex data, there are sometimes as many subtleties in whittling down to the right data set as there are in choosing or implementing the right analysis procedure

Esta é uma reflexão importante, principalmente para os (macro)economistas, que dependem em grande medida de dados de terceiros e podem acabar não tendo intimidade com a produção dos dados e o grau de acurácia das medidas.

PS.: o Google realmente parece ser a empresa dos sonhos para quem quer conciliar teoria e prática. Além da entrevista acima, veja Hal Varian aplicando teoria dos jogos na prática aqui.

Hal Varian e Nate Silver: entrevista no Google


Vale à pena conferir a entrevista, abaixo, de Nate Silver com Hal Varian no Google:

Mais sobre Nate Silver neste blog aqui.

Via Simply Statistics.

PS: Em futuros posts, alguns comentários sobre papers da ANPEC/SBE 2012.

O poder da estatística, ou como você é tão previsível 2


No mundo de dados abundantes, como disse Hal Varian, saber tratá-los e interpretá-los (bem) torna-se cada vez mais fundamental, e a (boa) estatística já se torna a profissão sexy da vez.

As aplicações são as mais diversas: desde prever, pelos hábitos de compra, quando sua cliente está grávida e quando o bebê irá nascer; passando, também, por utilizar buscas do Google para fazer “previsões em tempo real”; até prever o resultado de duas eleições presidenciais.

Sobre este último ponto, o livro do Nate Silver ainda estava na minha wish list, esquecido… mas, depois do animado post do Drunkeynesian, venci a procrastinação. Livro comprado – comentários em breve eventualmente!