Fluxo de caixa descontado, O melhor jogo de tabuleiro do planeta, teoria dos jogos e casamentos.


Alguns links interessantes pós-carnaval. Hora de voltar ao ritmo.

– Damodaran fez um post bem bacana sobre fluxo de caixa descontado (FCD), mostrando que não é somente, digamos, um fluxo de caixa descontado. Vale a pena pela etimologia de FCDs mal-feitos e pelo checklist para saber se você está fazendo direito.

– Como fazer o melhor jogo de tabuleiro do planeta? War, Jogo da Vida e Banco Imobiliário estão entre os piores? Dois posts bacanas do 538 que queria ter compartilhado há algum tempo seguem agora aqui e aqui.

– Dollar auction na vida real, por  SMBC:

20141229

Previsões para copa: modelos x mercado, como estão se saindo?


Com o fim da primeira fase da copa, chegou a hora de começar a comparar os diferentes modelos de previsão. Temos uma amostra que não é grande, mas é, de certa forma, razoável – foram 48 jogos!

Como comparar previsões? Em post anterior discutimos brevemente como fazer isso, e lá ilustramos com os modelos de Nate Silver e do Grupo de Modelagem Estatística no Esporte (GMEE), da USP/USFCAR.

Entretanto, além desses dois modelos, temos agora mais algumas novidades: como o Nate Silver atualiza suas previsões jogo a jogo,  pegamos também aquelas que valiam antes de cada partida. Dessa forma podemos verificar se essas mudanças foram benéficas ou não.

Além disso, com a dica do Pedro Sant’Anna, coletamos as probabilidades implícitas pelo mercado de apostas do Betfair, tanto aquelas que estavam valendo bem antes de todas as partidas, como aquelas que constavam no início do dia de cada jogo.

Temos, portanto, dois benchmarks para nossos previsores. O primeiro é o cético, que acredita que o futebol é muito imprevisível e que qualquer resultado (vitória, derrota ou empate) é equiprovável. Entretanto, se o cético parece um oponente muito fácil,  temos também as previsões do Betfair, que podem ser vistas como uma média do senso comum em relação a cada partida, e parecem trazer uma competição mais acirrada.

O gráfico com a evolução do erro médio dia após dia segue abaixo. Note que, quanto menor o erro, melhor. A linha tracejada verde marca o erro médio do cético, nosso benchmark mínimo (0.222). A linha sólida vermelha e a linha tracejada amarela representam o mercado, antes e após atualizar as probabilidades, nosso benchmark  mais rigoroso.

modelos_copa

Como no primeiro dia só houve um jogo (o do Brasil) que era relativamente mais fácil de acertar, todo mundo começou com um erro muito baixo, e isso deixa a escala do gráfico muito grande para enxergar as diferenças dos dias posteriores. Então vamos dar um zoom na imagem, considerando os valores a partir do dia 14, quando o erro médio dos modelos começa a se estabilizar:

modelos_copa_zoom

A primeira coisa a se notar é que tanto o Nate Silver quanto o GMEE foram, de maneira consistente, melhores do que o cético e do que mercado. Vale fazer uma pequena ressalva para o GMEE que, hoje, no último dia da primeira fase, se aproximou bastante do Betfair. Nate Silver, contudo, ainda mantém uma distância razoável.

Outra coisa interessante é que o modelo atualizado de Nate Silver realmente terminou com erro menor do que suas previsões no início da competição! É importante ter em mente que isso não é um resultado óbvio:  saber como incorporar informações novas na medida que surgem não é algo trivial. Como contra-exemplo temos o mercado, que, surpreendentemente, conseguiu fazer com que suas previsões atualizadas ficassem piores!

Por agora ficamos aqui. Mais para frente veremos alguns gráficos com a calibração dos modelos: será que, quando eles previam 40% de chances de um resultado acontecer, eles aconteceram mais ou menos 40% das vezes?

Previsões para a copa: USP e UFSCar x Nate Silver x Céticos


Previsões brasileiras

Grupo de Modelagem Estatística no Esporte (GMEE), parceria de um pessoal da USP e UFSCar, também colocou no ar um site com previsões para a copa, tanto nas classificações, quanto no jogo a jogo (resumi as probabilidades jogo a jogo em uma tabela ao final do post). Na última copa, o GMEE deu uma bola dentro: o grupo (a contra-gosto dos brasileiros) estimou como favoritos Espanha e Holanda.

Uma das coisas de que eu particularmente gostei neste site é que, além das probabilidades, eles colocaram um boxplot que ilustra a incerteza das estimativas. Assim como nas previsões do Nate Silver, o Brasil consta como favorito, entretanto com uma probabilidade menor: 30%.

boxplot

Como comparar previsões? Nate Silver x GEMM x Céticos

Agora já temos dois modelos diferentes para a copa do mundo. E há muitos outros por aí (que não coletei os dados por falta de tempo). Como avaliar a performance dessas previsões?

Uma forma simples e efetiva é utilizar o erro quadrático médio (que pode ser decomposto em outras medidas mais refinadas). Suponha que você atribua a probabilidade p a um evento x. O erro quadrático será:

(p – x)^2

Em que x é uma variável dummy que assume valor 1 se o evento em questão ocorrer e 0 caso contrário. Note que o melhor resultado possível é um erro de zero, e isto acontece quando você dá probabilidade de 100% para um evento que ocorre (1-1)^2 ou uma probabilidade 0% para um evento que não ocorre (0-0)^2. Já o pior resultado é um erro de 1, que acontece quando você diz que era impossível algo ocorrer (0%), mas este algo ocorre (0-1)^2, ou quando você diz que algo ocorrerá com certeza (100%) e o evento não ocorre (1-0)^2.

Quando há mais de um evento possível, calculamos isso para cada um deles e tiramos uma média, sob a restrição de que a probabilidade atribuída ao conjunto some 1. Por exemplo,  no caso da copa, em cada jogo há três resultados possíveis e mutuamente excludentes. Isto é,  tomando um dos times como referência, ou ele ganha, ou perde, ou empata. Suponha, por exemplo, que uma vitória tenha ocorrido. O erro quadrático médio de uma previsão para o jogo será:

((Probabilidade Estimada de Vitória – 1)^2 + (Probabilidade Estimada de Derrota – 0)^2 + (Probabilidade Estimada de Empate – 0)^2 ) /3

Vejamos, o caso do jogo Brasil x Croácia.

Nate Silver estimou chances de 88% para o Brasil,  9% para o empate e 3% para a derrota.  Já o GMEE foi mais conservador em sua previsão, estimando probabilidades de 66%, 21% e 13%, respectivamente. Ambos colocaram o Brasil como favorito e, realmente, o Brasil ganhou. Entretanto, como Nate deu maior certeza ao evento que de fato ocorreu, seu erro quadrático nesta partida foi de apenas 0.01, contra 0.06 do GMEE.

Note que estamos começando a distinguir entre tipos de previsões, mesmo que elas apontem o mesmo time como favorito.

Podemos fazer outra comparação. Suponha que você seja um cético de previsões no futebol. Afinal, poder-se-ia argumentar, trata-se de um esporte bastante imprevisível em que tudo pode acontecer.  Uma vitória, derrota ou empate são equiprováveis (33,33% cada). E de fato, caso isso fosse verdade, este seria o cenário mais difícil de se acertar.

Qual é o erro quadrático do cético? Ao atribuir a mesma probabilidade para todos os eventos, ele sempre terá o mesmo erro independentemente do resultado: 0.22. É uma estratégia conservadora, com previsões não informativas. Podemos, então, utilizar o cético como um benchmark mínimo. Em outras palavras, para o modelo ser minimamente aceitável, ele tem de, na média, errar menos do que o cético.

Depois de 11 partidas, como estão os previsores?

Nate Silver está na frente, com um erro médio de 0.159; O GMEE está apenas um pouco atrás, com erro de 0.163. E ambos, pelo menos por enquanto, com bastante vantagem em relação ao cético.

Esta é uma primeira aproximação para avaliar as previsões e ela pode ser refinada. Por exemplo, vocês notaram que não houve empate na Copa até agora? A probabilidade média estimada para os empates está em cerca de 23%. Se isso continuar a ocorrer por mais algumas partidas, desconfiaremos de que a probabilidade de empate dos modelos não está bem calibrada.

Discutiremos esta e outras medidas para avaliar as previsões no futuro. Vejamos um pouco sobre a atualização de modelos.

Atualização das probabilidades

Um bom modelo de previsão, sempre quando possível, deve tentar incorporar informações novas em seus cálculos.  Tomemos o caso da Holanda, que goleou a Espanha mesmo enquanto todos consideravam esta última como favorita.  Intuitivamente, após observar este resultado, você diria que as chances de a Holanda ganhar do Chile no dia 23 de junho devem permanecer as mesmas? Provavelmente não.

Se, em seu modelo, você dava baixa probabilidade para este evento, isto é um sinal de que você tem de reajustar, pelo menos um pouco, suas expectativas. O FiveThirtyEight está fazendo isso.  Antes do jogo Holanda x Espanha, o modelo estimava que o Chile era favorito contra a Holanda no dia 23: 48% de chances de ganhar. Agora a situação se inverteu e a laranja mecânica é a favorita com 37%.

Essas atualizações tentam aprimorar o modelo, mas será que as novas probabilidades serão melhores do que as anteriores? Como de costume, isto é uma questão empírica, e somente descobriremos  no decorrer dos jogos.

 

***

Probabilidade jogo a jogo do Previsão Esportiva

previsoes1

Aprenda a fazer previsão de eleições com o NYT.


Depois que o Nate Silver saiu do NYT, o jornal montou um novo time de previsão para eleições. O novo modelo, denominado LEO, está no ar e com uma descrição bem amigável de seu funcionamento.  A parte gráfica dos resultados também está bacana, inclusive com uma seção comparando o modelo do NYT com seus concorrentes (vale lembrar que o site conta com a ajuda do Michael Bostock, um dos caras que desenvolveu o fantástico D3 para JavaScript)

Mas, tem algo ainda melhor. O NYT liberou os dados e os códigos do modelo no github. E o modelo é em R. Ou seja, agora, para replicar e adaptar o modelo à realidade brasileira só faltam duas coisas: tempo e vontade.

Jornalismo baseado em dados – Blog do Nate Silver está no ar!


Está no ar o blog do Nate Silver – FiveThirtyEight!

Nate Silver, economista e estatístico, alçou-se à fama prevendo quantitativamente os resultados das eleições norte americanas, em meio a dezenas de pundits que, de maneira arrogante, erraram grosseiramente. Seu segredo? Dados.

Agora, Nate reuniu uma equipe para dedicar-se ao jornalismo fundamentado na análise rigorosa de dados, tratando dos temas mais variados: além de política,  o blog tratará de economia, esportes, ciência e outras questões do dia-a-dia.

Três destaques que você deve conferir:

Geral: O manifesto de Nate Silver, com uma introdução ao blog.

Esporte: Esta fantástica tabela com previsões do campeonato de basquete da NCAA, acompanhada da explicação do modelo. Imagine uma dessas para a Copa ou para o Brasileirão?

Economia: Artigo simples, mas interessante, com três recomendações para avaliar dados econômicos (que muitas vezes são tomados as is). Sobre este assunto, neste blog, veja os pots sobre a acurácia das variáveis econômicas.

Este é um blog promissor, certamente vale a pena acompanhar.  E, falando em acompanhar blogs, se você ainda não usa, recomendo fortemente baixar um leitor de RSS, o FiveThirtyEight tem feed.

PS: Você pode encontrar outros posts sobre Nate Silver neste blog aqui.