Solucionando crimes com matemática e estatística


Enquanto Breaking Bad não volta, comecei a assistir ao seriado Numb3rs, cujo enredo trata do uso da matemática e da estatística na solução de crimes. Confesso que, a princípio, estava receoso. Na maior parte das vezes, filmes e seriados que tratam desses temas costumam, ou mistificar a matemática, ou conter erros crassos.

Todavia, o primeiro episódio da série abordou uma equação para tentar identificar a provável residência de um criminoso, sendo que: (i) os diálogos dos personagens e as explicações faziam sentido; e, algo mais surpreendente, (ii) as equações de background, apesar de não explicadas, pareciam fazer sentido. Desconfiei. Será que era baseado em um caso real?

E era. Bastou pesquisar um pouco no Google para encontrar a história do policial que virou criminologista, Kim Rossmo, em que o episódio foi baseado. E inclusive, encontrar também um livro para leigos, de leitura agradável, que aborda alguns dos temas de matemática por trás do seriado: The Numbers behind Numb3rs.

A primeira equação que Rossmo criou tinha a seguinte cara:

rossmo

A intuição por trás da equação pode ser resumida desta forma: o criminoso não gosta de cometer crimes perto da própria residência, pois isso tornaria muito fácil sua identificação; assim, dentro de uma certa zona B, a probabilidade de o criminoso residir em um certo local é menor quanto mais próximo este estiver do crime (esse é o segundo termo da equação). Entretanto, a partir de certo ponto, começa a ser custoso ao criminoso ir mais longe para cometer o crime – assim, a partir dali, a situação se inverte, e locais longe do crime passam a ser menos prováveis (esse é o primeiro termo da equação). Em outras palavras, você tenta calcular a probabilidade de um criminoso morar na coordenada (Xi , Xj), com base na distância desta com as demais coordenadas dos crimes (xn, yn), levando em conta o fato de a residência estar ou não em B. Os parâmetros da equação são estimados de modo a otimizar o modelo com base nos dados de casos passados.

Por mais simples que seja, a equação funcionou muito bem e Kim Rossmo prosseguiu com seus estudos em criminologia. Evidentemente que, como em qualquer modelo, há casos em que a equação falha miseravelmente, como em situações em que os criminosos mudam de residência o tempo inteiro – mas isso não é um problema da equação em si, pois o trabalho de quem a utiliza é justamente identificar se a situação é, ou não, adequada para tanto. Acho que este exemplo ilustra muito bem como sacadas simples e bem aplicadas podem ser muito poderosas!

PS: O tema me interessou bastante e o livro de Rossmo, Geographic Profiling, entrou para a (crescente) wishlist da Amazon.

Como acompanhar blogs de uma maneira melhor? Ou, você já substituiu o Google Reader?


Uma das melhores formas de acompanhar seus blogs favoritos é ter um leitor de RSS. Com ele você não precisa lembrar de entrar em cada um dos blogs que acompanha para saber se há um post novo. Você recebe o conteúdo diretamente no seu leitor, seja no computador, tablet ou celular. Inclusive, a formatação de leitura costuma ser melhor do que nos próprios blogs.

Um leitor muito popular era o Google Reader que, infelizmente, será encerrado. Se você ainda utiliza o Google Reader, não perca mais tempo e migre logo para um outro leitor, para não correr o risco de ter que reconstruir sua lista de blogs. Eu, particularmente, recomendo o Feedly, pois a migração é muito fácil, basta um click.

E se você ainda não tinha um leitor de RSS, aproveite para começar a utilizar um. No começo você poderá achar um pouco estranho, mas depois verá que ele te poupará bastante tempo e será bastante útil em suas leituras.

Para não dizerem que sugeri apenas um leitor, seguem abaixo outras opções:

 

Debate Libertário


20130614-215622.jpg

PS1: se você riu, você é um marxista-esquerdopata-estatista.

suffixocation

PS2: para quem está acostumado com os debates nos EUA, as tirinhas são hilárias por si só. Para o brasileiro que não entendeu, já temos alguns exemplos nacionais, veja algum contexto aquiaquiaquiaqui.

Via Mimi and Eunice.

Dificuldades metodológicas na coleta de dados


Como já havia citado antes, segundo Leontief, o economista é famoso por não sujar as mãos coletando os próprios dados. Ao não colocar a mão na massa, acaba sendo fácil não se familiarizar com os detalhes e a acurácia dos dados que utiliza.  E, muitas vezes, os detalhes do processo revelam dificuldades que você sequer imagina. Vejam, abaixo, alguns problemas de coleta de dados enfrentados pelo IBGE, na Pnad!

IBGE

IBGE2

Imagens da apresentação do 12º Fórum Sistema Integrado de Pesquisas Domiciliares (slides 54 a 72).

Dica do Ricardo Sabbadini

Guias e dicas para alunos de mestrado e doutorado


Na semana passada divulgamos o Manual de sobrevivência na universidade: da graduação ao pós-doutoradodo Leo Monasterio. Nesta semana, Dave Giles faz um levantamento de guias e dicas para os alunos de mestrado e doutorado que valem a pena ser compartilhados:

Para você que está fazendo mestrado ou doutorado e se sentia perdido, eis bastante material para consulta.

Agora parece ser uma boa hora para comprar seu Kindle no Brasil (até 12/06)


Em janeiro escrevi um post explicando por que, se você gosta de ler, você deveria comprar um e-reader.  Agora fiquei sabendo de uma promoção da Amazon Brasil, com um desconto de R$100 no Kindle 4, saindo por R$199,00, mas a princípio somente até o dia 12/06/2013. Se por algum motivo você estava adiando a compra, esta parece uma excelente oportunidade.

PS: não ganho nada com a propaganda do Kindle, você também pode olhar o Kobo da Cultura. Mas por R$199,00 o Kindle, que é um excelente e-reader, também é, agora, o mais barato em venda no Brasil. Vamos torcer para que isto incite uma guerra de preços e para que estas reduções sejam permanentes.

Manual de sobrevivência na universidade: da graduação ao pós-doutorado


Ainda não li, mas já peguei o meu. Leo Monasterio divulga seu livro Manual de sobrevivência na universidade: da graduação ao pós-doutorado.

Dentre os tópicos abordados, os seguintes me chamaram a atenção:

– Como ser um ninja no Google Acadêmico
– Técnicas de sobrevivência aplicadas às reuniões
– Qual a diferença entre ciência e picaretagem?
– Como descobrir se um concurso para professor é armado?

E, apenas hoje, você baixa de graça para o Kindle.

A inflação na Argentina III


O jornal La Nación anuncia: argentinos ressuscitam os fiscais do Sarney.

La funcionaria resaltó que la presidenta Cristina Kirchner, la semana pasada, al anunciar “Mirar para Cuidar”, el programa de militantes en la calle controlando precios, “convocó a que todos cuidemos los logros y les dijo a los empresarios que el aumento en los salarios y asignaciones, no hay ninguna razón para que nada cambie de precio por estos anuncios”.

Via Celso Toledo.

Déficits causam câncer


Reinhart e Rogoff perderam muito tempo com os argumentos errados. Vejam o gráfico:

deficit_e_cancer

Brincadeiras à parte, gostei da carta dos autores a Krugman e do post do Hamilton.

Já DeLong argumenta que, se os autores dizem que a idéia geral do artigo não se altera radicalmente por causa dos erros, por outro lado, isso não muda o fato de o argumento ter sido fraco desde o princípio (não que eu concorde com DeLong, mas o ponto é mais do que pertinente):

The third thing to note is how small the correlation is. Suppose that we consider a multiplier of 1.5 and a marginal tax share of 1/3. Suppose the growth-depressing effect lasts for 10 years. Suppose that all of the correlation is causation running from high debt to slower future growth. And suppose that we boost government spending by 2% of GDP this year in the first case. Output this year then goes up by 3% of GDP. Debt goes up by 1% of GDP taking account of higher tax collections. This higher debt then reduces growth by… wait for it… 0.006% points per year. After 10 years GDP is lower than it would otherwise have been by 0.06%. 3% higher GDP this year and slower growth that leads to GDP lower by 0.06% in a decade. And this is supposed to be an argument against expansionary fiscal policy right now?….

Gráfico retirado de Os números (não) mentem.

Sobre a acurácia das variáveis econômicas III


Em posts anteriores falamos sobre a qualidade dos dados macroeconômicos e que dados oficiais são estimativas (ver aqui e aqui). Mas, qual o sentido prático disto? Vejamos com um exemplo.

Na conta de importação de serviços do balanço de pagamentos do México, fretes e seguros respondem por US$ 9,8 bilhões, cerca de 33% dos US$ 29 bilhões que totalizam a rubrica – trata-se de seu componente mais relevante. Como o México estima esse valor?

Antes de entrar no caso do México, tratemos brevemente dos meios de estimação mais comuns de fretes e seguros entre os países. O primeiro método é por meio dos valores declarados na aduana. Quando esta tem um campo de fretes e seguros discriminados em algum documento administrativo, é possível ao compilador utilizar estes valores para a estimação. Um segundo método é utilizar alguma proporção das importações ou exportações. Muitas vezes, a aduana do país registra apenas o valor CIF das importações, isto é, o valor com os custos de fretes e seguros incluídos. Deste modo, o compilador realiza uma pesquisa a cada 5 ou 10 anos, por exemplo, para estimar qual é a proporção do valor importado que corresponde a fretes e seguros.

É possível que você tenha pensado: “o primeiro método, com os dados da aduana, não deveria ser considerado uma estimativa, é o valor real!”. Mas não é. Voltemos ao México.

O México é um país que poderia se enquadrar no primeiro caso – sua aduana registra valores de fretes e seguros. Contudo, os pagamentos de fretes e seguros relatados em uma operação da aduana correspondem à importação de uma ampla gama de produtos, de diferentes naturezas e de vários países, tudo consolidado em um único documento. A regulamentação aduaneira tem suas próprias peculiaridades, não necessariamente relacionadas às informações que desejariam os compiladores da estatística. Ao fim, os dados da aduana lhes pareciam muito imprecisos, subestimados e demasiadamente agregados.

Com isto em mente, o Banxico buscou metodologia alternativa. Sua intenção era calcular o valor ao custo real de mercado e, assim, buscou preços no país vizinho, os Estados Unidos, que publicam, mensalmente, dados de custo médio dos fretes e seguros de importação por tipo de produto, país de origem e meio de transporte. Entretanto, o custo médio varia bastante por volume importado, e é preciso realizar este ajuste. Assim, roda-se uma regressão deste custo médio contra dummies dos portos dos EUA (pois cada porto pode ter um custo diferente) e volume importado (em log), para encontrar o coeficiente de ajuste entre volume e custo médio, chamado aqui de beta. Com o custo médio, o beta para ajuste e o volume das importações mexicanas em mãos , é possível estimar os custos de fretes e seguros do país. Atualizam-se o beta anualmente e o preço médio mensalmente sendo possível, deste modo, obter estimativas por produto, país e meio de transporte, que variam conforme condições de mercado, algo que não seria factível com os dados administrativos da aduana.

Mas, qual a diferença deste valor com o anterior, da aduana? O novo método estima custos cerca de duas vezes maiores e isso pareceu mais alinhado à realidade de mercado do que os dados anteriormente declarados. É uma diferença bem significativa.

Portanto, é importante atentar-se para dois detalhes: (i) dados que, a primeira vista, poderiam ser considerados “os valores reais” (dados de questionários, formulários administrativos, etc), podem ter problemas e estar tão sujeitos a erros quanto outros procedimentos; (ii) muitos componentes dos dados macroeconômicos que você utiliza, tal como a conta de fretes e seguros do exemplo acima, são derivados de um processo de estimação prévia. No nosso exemplo, seja o dado administrativo, ou o dado derivado pela outra metodologia, fica claro que ambos têm que ser vistos como estimativas, cada método com suas vantagens e limitações, sendo preciso entendê-las para saber o que aquele dado pode ou não pode te responder.