Solucionando crimes com matemática e estatística


Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.

Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?

E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.

A primeira equação que Rossmo criou tinha a seguinte cara:

rossmo

A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.

Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!

PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.

O peso-morto das festas de fim-de-ano? Ou, como o economista deseja Feliz Natal.


É fim de ano. Provavelmente, você foi convidado para participar de um amigo-oculto da sua empresa. Você, animado, comprou aquele vinho bacana… mas, voltou com uma vela de Natal para casa. É capaz, ainda, de a pessoa que voltou com o seu vinho não ser um apreciador da bebida e, caso pudesse, ter preferido ficar com a sua vela.

O mesmo pode acabar acontecendo, também, nas trocas de presentes de Natal em família. Será que aquela roupa que você comprou para seu sobrinho mais novo era, realmente, o melhor uso que ele faria do dinheiro? Muito difícil. Você terá sorte se ele não falar na sua frente (e na frente de todos) que preferia um jogo de PlayStation 3. Nem ele e nem você saem felizes.

Todos esses são exemplos de ineficiência. Os presentes, em geral, perdem muito valor para quem os recebeu. E é aí que o economista, geralmente estraga-prazeres, entra para estimar qual é a perda que os presentes das festas de fim-de-ano geram na economia.

Waldfogel, há cerca de 20 anos, em artigo intitulado “o peso-morto do Natal“, estimou esta ineficiência para os EUA, com base em uma amostra de estudantes de economia de Yale. Resultado: os presentes recebidos perdiam cerca de 10% a 30% do valor, podendo gerar um “desperdício” anual de 4 a 13 bilhões de dólares (isso a dólares de 1992!).

Mas, nem todos os economistas querem acabar com a magia do Natal. E aquele rabisco desenho que seu filho fez especialmente para você, com um “te amo papai!” ao final? O custo foi quase zero, mas o valor do presente é quase inestimável! Deste modo, os resultados de Waldfogel foram contestados por Solnick e Hemenway. Os autores alegaram que amostra utilizada era muito restritiva e, assim, não representativa. Com uma amostra mais abrangente, envolvendo entrevistas em trens e aeroportos, o resultado dos autores foi em direção bastante diversa: dar presentes aumenta, em média, em 214% o valor recebido!

List e Shogren julgaram que ambos os artigos tinham um problema metodológico. Tentaram, assim, melhorar os resultados com leilões em que os sujeitos indicariam a quanto estavam dispostos a vender seus presentes de Natal. O resultado também foi de um ganho, mas menor do que anterior, entre 121% a 135%.

Por fim, Ruffle e Tykocinski argumentaram que as principais divergências entre os estudos decorreram, não da amostra utilizada, mas da forma como a pergunta foi formulada. Enquanto um perguntou “quanto dinheiro o tornaria indiferente”, para uma platéia de economistas, o outro perguntou “quanto dinheiro o deixaria igualmente feliz”, pois temia que não-economistas pudessem ignorar o conceito de indiferença. Aparentemente, a mera introdução da palavra “feliz” tem um efeito enquadramento poderoso, fazendo com que as estimativas subam cerca de 50% quando comparadas com a pergunta anterior.

20121224-183054.jpg
Feliz Natal (e boa sorte)!

Um efeito da pobreza


Tinha deixado escapar um post bastante interessante do Alex Tabarrok no Marginal Revolution sobre um artigo que discute um possível efeito imediato da pobreza: com recursos escassos, há uma tendência de focarmos naquilo que é mais urgente e não naquilo que é mais importante.

O paper buscou mostrar, com experimentos, que jogadores com menos “recursos” durante a partida acabaram por, na média, focar nas rodadas mais próximas, prestando menos atenção nas rodadas futuras. Este resultado é intuitivo, pois, dado que nossa razão é limitada, quanto mais problemas urgentes tivermos para lidar, mais difícil será dedicar-se a problemas não-urgentes mas extremamente importantes. Não só esses resultados podem sinalizar um possível (e muitas vezes negligenciado) efeito imediato da pobreza, como também dão (mais) uma explicação geral sobre muitas decisões que tomamos contra nosso próprio bem-estar no longo-prazo.

O culto da significância estatística II: Nate Silver


Após atuar com métodos estatísticos para previsão no Basebol, Nate Silver foi destaque nas previsões para a eleição presidencial dos Estados Unidos. Com a popularidade alcançada, seu livro “The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t” virou best-seller na Amazon.

O livro é voltado para o público geral, e trata dos percalços enfrentados no mundo da previsão, tentando distinguir quando e como a estatística pode ser utilizada e boas previsões podem ser feitas. Nate discute o trabalho de Kahneman sobre vieses cognitivos muito comuns, presentes principalmente quando lidamos com incerteza e probabilidade; discute o trabalho de Tetlock, que mostrou como, na média, “experts” políticos não são muito melhores do que um simples “cara-e-coroa” –  a não ser que eles tenham certas características, como uma visão plural e interdisciplinar, conhecimento sobre a própria ignorância entre outros fatores. Essas são armadilhas que todos que lidam com dados devem estar cientes, para buscar evitá-las.

Nate defende a necessidade de se ter uma teoria sólida para se tratar os dados –  e que essa necessidade aumenta no mundo com dados cada vez mais abundantes. Alega que, em geral, áreas em que previsões geralmente falham são aquelas em que a teoria ainda é nebulosa e que recorrem demasiadamente a modelos data-driven.  Ele aborda também a dificuldade inerente a sistemas não-lineares, sistemas dinâmicos,  leis de potência entre outras fatores que, se negligenciados, podem resultar em péssimas previsões.

Nate traz diversos exemplos (às vezes chega a ser exaustivo) para ilustrar seu ponto, passando por Basebol, Clima, Terremotos, Economia, Pôquer etc.

Mas, o capítulo 8 do livro foi o que me mais chamou a atenção. Em um livro para o público geral, e que virou best-seller, Nate resgata a literatura sobre as críticas aos testes de significância estatística (uma discussão mais extensa aqui, wikipedia aquialguns temas no blog aqui). Ele cita:

– o texto do Nickerson “Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy”;

– o texto do Cohen “The Earth Is Round (p < .05)”;

– o texto do Gill “The insignificance of null hypothesis significance testing”;

Entre outros. O tom que ele usa não é leve, atribuindo grande parte da culpa pelos métodos atualmente utilizados a Fisher. Seguem alguns trechos:

“Fisher é provavelmente mais responsável do que qualquer outro indivíduo pelos métodos estatísticos que ainda permanecem em amplo uso hoje. Ele desenvolveu a terminologia do teste de significância estatística e muito de sua metodologia” (p. 353).

“Estes métodos [testes de significância] desencorajam o pesquisador de considerar o contexto ou a plausibilidade de suas hipóteses […] assim, você verá artigos aparentemente sérios sobre como sapos podem prever terremotos, ou como lojas como a Target geram grupos de ódio racial, que aplicam testes frequentistas para produzir resultados “estatisticamente significantes” (mas manifestamente ridículos)” (p.253).

“Os métodos fisherianos não nos encorajam a pensar sobre quais correlações implicam em causalidade e quais não. Talvez não seja surpresa que depois de passar uma vida interia pensando assim, Fisher perdeu a habilidade de dizer a diferença [entre causalidade e correlação] (p.255). Nate faz referência ao fato de Fisher defender que fumar não causa câncer.

Como o livro se tornou um best-seller, é bem provável que isso desperte a curiosidade do aluno, que geralmente aprende passivamente um algoritmo qualquer na sala de aula; e também que chame mais a atenção dos pesquisadores (e professores) sobre a forma como estão fazendo inferência. Por este motivo, acho que o impacto do livro será bastante positivo. O Nate propõe o uso de métodos Bayesianos; mas, como o livro não é técnico – e o universo bayesiano bastante amplo – difícil saber quais ele realmente defende. De qualquer forma, não caberiar aqui discutir isso agora (o Larry Wasserman chegou ao ponto de dizer que vai mostrar ao próprio Nate que ele não é baeysiano, mas sim que é um raving frequentista, desfilando como bayesiano. Vamos ver o que vai sair disso…).

Em resumo, vale lembrar que este não é um livro técnico e que, tampouco, Nate irá te ensinar a fazer previsões. Mas conseguirá fazer você refletir sobre as possibilidades e limitações, tanto dos pesquisadores quanto dos métodos estatísticos, em uma leitura agradável e recheada de exemplos práticos.

Uma partida de futebol pode mudar o resultado das eleições?


Tomando como analogia este estudo, sim.

A hipótese é a de que, quando você está de bom (mau) humor, você tende a gastar mais tempo avaliando o lado positivo (negativo) das coisas, inclusive do atual governante.

Os autores buscaram testar esta hipótese analisando os jogos esportivos locais. Sabe-se que os resultados desses jogos afetam o bem-estar das pessoas e não são frutos de decisões políticas. 

Em tese, portanto, você não deveria mudar a avaliação sobre um governante simplesmente porque seu time ganhou um jogo na última semana.

Contudo, os resultados encontrados indicam que, na média, as pessoas mudam o voto – e os valores encontrados foram relativamente altos! Uma vitória do time local, 10 dias antes das eleições, poderia aumentar os votos para o candidato da situação em até 1.13 pontos percentuais.

A primeira reação a esse valor pode ser – como foi a minha – a de pensar que estamos diante de uma correlação espúria. Ora, não é possível que um mero resultado de um jogo mude tanto os resultados de uma eleição… Mas os autores são cuidadosos e têm uma retórica persuasiva. Primeiro, eles controlam para outros fatores e isso não muda muito a magnitude do coeficiente. Segundo, eles realizam um teste placebo, buscando verificar se jogos futuros afetam as eleições no passado (o que seria absurdo) e encontram coeficientes quase iguais a zero e estatisticamente insignificantes.

Mas, além dos dados acima – não experimentais – os autores aplicam questionários durante um campeonato de basquete universitário. Neste caso, é possível controlar com mais cuidado fatores diversos que permitiriam encontrar uma correlação espúria. Os resultados foram similares – cada vitória elevava a aprovação de Obama, na média, em 2.3 pontos percentuais. E, fato interessante, quando os participantes foram informados dos resultados dos jogos antes de se perguntar sobre Obama, o efeito desapareceu! Isto é, uma vez que o sujeito se torna consciente do que está afetando seu bom humor, ele não deixa isso afetar outras áreas de sua vida, como o julgamento sobre o desempenho de um político.

Com dados eleitorais e esportivos abundantes no Brasil, acredito que seja possível replicar este estudo por aqui.

Via Andrew Gelman e Marginal Revolution.

Pombos são mais espertos do que humanos?


Segundo este estudo, pelo menos no que tange ao problema de Monty Hall*, sim.

(Este é um problema que envolve uma pegadinha de probabilidade na qual quase todo ser humano cai. Aparentemente, os pombos aprendem. Para saber o que é o problema de Monty Hall, leia abaixo ou o link do wikipedia acima. Para quem assistiu ao filme Quebrando a Banca, este problema aparece logo no início.)

O estudo aplicou o problema de Monty Hall a pombos e verificou que durante o experimento os pássaros foram se adaptando ao problema. Ao final, os pombos adotaram uma estratégia ótima que maximizasse o retorno esperado do prêmio.

Já os humanos, não. No primeiro dia de experimento, ambos, humano e pombo, adotavam uma estratégia razoavelmente similar. Ao final do trigésimo dia de experimento, como os pombos aprenderam rapidamente, os participantes humanos eram 30,67% menos propensos do que os pombos a adotarem a estratégia correta.

*O que é o problema de Monty Hall?

Suponha que você esteja participando de um jogo com três portas e que atrás de uma delas tenha um carro como prêmio. O apresentador do jogo pede a você que escolha uma porta. Se você escolher a porta que tem o carro, você ganha o carro.

Entretanto, após você escolher sua porta, o apresentador abre uma outra porta do jogo e mostra que aquela porta está vazia. Atrás dela não está o prêmio. O apresentador, então, pergunta: “Você quer mudar de porta?”. Há apenas duas portas sobrando, aquela que você escolheu primeiro e aquela que não foi aberta.

Você mudaria de porta? Qual a probabilidade de você ganhar o prêmio, se mudar de porta?

Em geral, as pessoas acham que é 50%. Afinal, ou o prêmio está na porta que você escolheu, ou está na outra porta que sobrou. Mas essa resposta não é correta.

A forma mais fácil de visualizar isso é a seguinte. Vamos nomear as portas de “porta premiada”, “porta não premiada 1” e “porta não premiada 2”. Ao escolher a sua porta, você tinha 1/3 de probabilidade de escolher cada uma delas.

Se você escolher a “porta premiada” e mudar, você perde. Este evento tem probabilidade de 1/3.

Se você escolher a “porta não premiada 1”, o apresentador irá abrir a “porta não premiada 2”, restando unicamente a “porta premiada”. Então se você mudar, você ganha. Este evento tem probabilidade de 1/3

O mesmo raciocínio acima vale para caso você escolha a “porta não premiada 2”. E, novamente, este evento tem probabilidade 1/3.

Logo, a probabilidade de você ganhar caso mude de porta é 1/3+1/3=2/3=66,66%.

Ao que parece, os pombos aprendem rapidamente que mudar de porta dá mais prêmios ao longo do tempo. Já os humanos têm uma dificuldade enorme de aprender o problema acima, mesmo depois de duas centenas de tentativas, conforme o experimento do estudo!