Previsões para copa: modelos x mercado, como estão se saindo?


Com o fim da primeira fase da copa, chegou a hora de começar a comparar os diferentes modelos de previsão. Temos uma amostra que não é grande, mas é, de certa forma, razoável – foram 48 jogos!

Como comparar previsões? Em post anterior discutimos brevemente como fazer isso, e lá ilustramos com os modelos de Nate Silver e do Grupo de Modelagem Estatística no Esporte (GMEE), da USP/USFCAR.

Entretanto, além desses dois modelos, temos agora mais algumas novidades: como o Nate Silver atualiza suas previsões jogo a jogo,  pegamos também aquelas que valiam antes de cada partida. Dessa forma podemos verificar se essas mudanças foram benéficas ou não.

Além disso, com a dica do Pedro Sant’Anna, coletamos as probabilidades implícitas pelo mercado de apostas do Betfair, tanto aquelas que estavam valendo bem antes de todas as partidas, como aquelas que constavam no início do dia de cada jogo.

Temos, portanto, dois benchmarks para nossos previsores. O primeiro é o cético, que acredita que o futebol é muito imprevisível e que qualquer resultado (vitória, derrota ou empate) é equiprovável. Entretanto, se o cético parece um oponente muito fácil,  temos também as previsões do Betfair, que podem ser vistas como uma média do senso comum em relação a cada partida, e parecem trazer uma competição mais acirrada.

O gráfico com a evolução do erro médio dia após dia segue abaixo. Note que, quanto menor o erro, melhor. A linha tracejada verde marca o erro médio do cético, nosso benchmark mínimo (0.222). A linha sólida vermelha e a linha tracejada amarela representam o mercado, antes e após atualizar as probabilidades, nosso benchmark  mais rigoroso.

modelos_copa

Como no primeiro dia só houve um jogo (o do Brasil) que era relativamente mais fácil de acertar, todo mundo começou com um erro muito baixo, e isso deixa a escala do gráfico muito grande para enxergar as diferenças dos dias posteriores. Então vamos dar um zoom na imagem, considerando os valores a partir do dia 14, quando o erro médio dos modelos começa a se estabilizar:

modelos_copa_zoom

A primeira coisa a se notar é que tanto o Nate Silver quanto o GMEE foram, de maneira consistente, melhores do que o cético e do que mercado. Vale fazer uma pequena ressalva para o GMEE que, hoje, no último dia da primeira fase, se aproximou bastante do Betfair. Nate Silver, contudo, ainda mantém uma distância razoável.

Outra coisa interessante é que o modelo atualizado de Nate Silver realmente terminou com erro menor do que suas previsões no início da competição! É importante ter em mente que isso não é um resultado óbvio:  saber como incorporar informações novas na medida que surgem não é algo trivial. Como contra-exemplo temos o mercado, que, surpreendentemente, conseguiu fazer com que suas previsões atualizadas ficassem piores!

Por agora ficamos aqui. Mais para frente veremos alguns gráficos com a calibração dos modelos: será que, quando eles previam 40% de chances de um resultado acontecer, eles aconteceram mais ou menos 40% das vezes?

Mais dados da copa, jogo a jogo!


Qual a posição média dos jogadores na partida entre Brasil e Camarões? Como foram as jogadas de cada chute a gol? O Huffington Post, para cada jogo, traz esses e outros dados com gráficos interativos. Vale a pena conferir!

 

copaVia Cesar Hildago.

 

Futebol e teorias econômicas


Os jogadores batem pênalti como previsto pela teoria dos jogos? Os mercados de apostas no futebol são eficientes?  Confira o  artigo de Ignacio Palacios-Huerta no NYT e veja como o futebol pode ter interseção com temas da teoria econômica.

Via Al Roth.

Previsões para a copa: USP e UFSCar x Nate Silver x Céticos


Previsões brasileiras

Grupo de Modelagem Estatística no Esporte (GMEE), parceria de um pessoal da USP e UFSCar, também colocou no ar um site com previsões para a copa, tanto nas classificações, quanto no jogo a jogo (resumi as probabilidades jogo a jogo em uma tabela ao final do post). Na última copa, o GMEE deu uma bola dentro: o grupo (a contra-gosto dos brasileiros) estimou como favoritos Espanha e Holanda.

Uma das coisas de que eu particularmente gostei neste site é que, além das probabilidades, eles colocaram um boxplot que ilustra a incerteza das estimativas. Assim como nas previsões do Nate Silver, o Brasil consta como favorito, entretanto com uma probabilidade menor: 30%.

boxplot

Como comparar previsões? Nate Silver x GEMM x Céticos

Agora já temos dois modelos diferentes para a copa do mundo. E há muitos outros por aí (que não coletei os dados por falta de tempo). Como avaliar a performance dessas previsões?

Uma forma simples e efetiva é utilizar o erro quadrático médio (que pode ser decomposto em outras medidas mais refinadas). Suponha que você atribua a probabilidade p a um evento x. O erro quadrático será:

(p – x)^2

Em que x é uma variável dummy que assume valor 1 se o evento em questão ocorrer e 0 caso contrário. Note que o melhor resultado possível é um erro de zero, e isto acontece quando você dá probabilidade de 100% para um evento que ocorre (1-1)^2 ou uma probabilidade 0% para um evento que não ocorre (0-0)^2. Já o pior resultado é um erro de 1, que acontece quando você diz que era impossível algo ocorrer (0%), mas este algo ocorre (0-1)^2, ou quando você diz que algo ocorrerá com certeza (100%) e o evento não ocorre (1-0)^2.

Quando há mais de um evento possível, calculamos isso para cada um deles e tiramos uma média, sob a restrição de que a probabilidade atribuída ao conjunto some 1. Por exemplo,  no caso da copa, em cada jogo há três resultados possíveis e mutuamente excludentes. Isto é,  tomando um dos times como referência, ou ele ganha, ou perde, ou empata. Suponha, por exemplo, que uma vitória tenha ocorrido. O erro quadrático médio de uma previsão para o jogo será:

((Probabilidade Estimada de Vitória – 1)^2 + (Probabilidade Estimada de Derrota – 0)^2 + (Probabilidade Estimada de Empate – 0)^2 ) /3

Vejamos, o caso do jogo Brasil x Croácia.

Nate Silver estimou chances de 88% para o Brasil,  9% para o empate e 3% para a derrota.  Já o GMEE foi mais conservador em sua previsão, estimando probabilidades de 66%, 21% e 13%, respectivamente. Ambos colocaram o Brasil como favorito e, realmente, o Brasil ganhou. Entretanto, como Nate deu maior certeza ao evento que de fato ocorreu, seu erro quadrático nesta partida foi de apenas 0.01, contra 0.06 do GMEE.

Note que estamos começando a distinguir entre tipos de previsões, mesmo que elas apontem o mesmo time como favorito.

Podemos fazer outra comparação. Suponha que você seja um cético de previsões no futebol. Afinal, poder-se-ia argumentar, trata-se de um esporte bastante imprevisível em que tudo pode acontecer.  Uma vitória, derrota ou empate são equiprováveis (33,33% cada). E de fato, caso isso fosse verdade, este seria o cenário mais difícil de se acertar.

Qual é o erro quadrático do cético? Ao atribuir a mesma probabilidade para todos os eventos, ele sempre terá o mesmo erro independentemente do resultado: 0.22. É uma estratégia conservadora, com previsões não informativas. Podemos, então, utilizar o cético como um benchmark mínimo. Em outras palavras, para o modelo ser minimamente aceitável, ele tem de, na média, errar menos do que o cético.

Depois de 11 partidas, como estão os previsores?

Nate Silver está na frente, com um erro médio de 0.159; O GMEE está apenas um pouco atrás, com erro de 0.163. E ambos, pelo menos por enquanto, com bastante vantagem em relação ao cético.

Esta é uma primeira aproximação para avaliar as previsões e ela pode ser refinada. Por exemplo, vocês notaram que não houve empate na Copa até agora? A probabilidade média estimada para os empates está em cerca de 23%. Se isso continuar a ocorrer por mais algumas partidas, desconfiaremos de que a probabilidade de empate dos modelos não está bem calibrada.

Discutiremos esta e outras medidas para avaliar as previsões no futuro. Vejamos um pouco sobre a atualização de modelos.

Atualização das probabilidades

Um bom modelo de previsão, sempre quando possível, deve tentar incorporar informações novas em seus cálculos.  Tomemos o caso da Holanda, que goleou a Espanha mesmo enquanto todos consideravam esta última como favorita.  Intuitivamente, após observar este resultado, você diria que as chances de a Holanda ganhar do Chile no dia 23 de junho devem permanecer as mesmas? Provavelmente não.

Se, em seu modelo, você dava baixa probabilidade para este evento, isto é um sinal de que você tem de reajustar, pelo menos um pouco, suas expectativas. O FiveThirtyEight está fazendo isso.  Antes do jogo Holanda x Espanha, o modelo estimava que o Chile era favorito contra a Holanda no dia 23: 48% de chances de ganhar. Agora a situação se inverteu e a laranja mecânica é a favorita com 37%.

Essas atualizações tentam aprimorar o modelo, mas será que as novas probabilidades serão melhores do que as anteriores? Como de costume, isto é uma questão empírica, e somente descobriremos  no decorrer dos jogos.

 

***

Probabilidade jogo a jogo do Previsão Esportiva

previsoes1

Previsões para a copa: “Roubo” de juiz já está no modelo?


Ontem, Nate Silver provavelmente torceu mais para o Brasil do que muitos brasileiros. Ele havia previsto que a Croácia tinha apenas 3% de chances de ganhar. E o gol contra do Marcelo, logo aos 11 minutos do primeiro tempo, deixou os croatas na liderança no início do jogo.

Note que, diferentemente dos demais palpiteiros  especialistas, que fazem previsões e comentários de maneira qualitativa – quase impossíveis de verificar depois – , a previsão do Nate era clara: as chances eram de 3%. Não eram 10% ou 20%. Sim,uma vitória da Croácia era possível… mas bastante improvável. Nate Silver teria de se explicar.

Entretanto, alguns minutos depois, eis que surge um pênalti roubado duvidoso para o Brasil que mudou os rumos da partida. Que sorte, não!?

Nem tanto.

Entre os fatores que o modelo do FiveThirtyEight pondera para calcular as chances de o Brasil ganhar a copa (que está bastante alta, 46%), um deles é justamente isso: estar jogando em casa. Aparentemente, no futebol, mais do que em muitos outros esportes, alguns lances conseguem determinar a partida fazendo com que o juiz acabe tendo muito poder.  E tem sido verificado, consistentemente, que juízes tendem a favorecer o anfitrião do jogo.  Se é pressão social, viés psicológico, “roubo”, ou qualquer outra razão, não importa muito neste caso. O fato é que isso ocorre e tem que ser levado em conta na hora de se fazer a previsão.

O bacana do modelo do Nate Silver é que ele está dando previsões jogo a jogo (coloquei baixo uma tabela com todas as probabilidades), então poderemos verificar sua calibração e comparar sua performance contra outros benchmarks. Futuramente explico como podemos fazer isso.  Outra coisa legal é que, como bom bayesiano, o modelo é recalculado jogo após jogo, levando em conta as novas informações nas probabilidades dos resultados. O jogo de ontem, como era o resultado esperado, alterou pouca coisa nas previsões.

E vale lembrar: sim, o Brasil ainda tem a probabilidade mais alta de ganhar entre todos os times – 46%. Só que isso implica também que, por enquanto, a probabilidade de não ganhar é de 54%. Acompanhemos!

jogos

 

As ruas coloridas do Brasil – Brazil’s Painted Streets !


Momento Urban Demographics no Análise Real.

O Google lançou uma página,  Brazil’s Painted Streets, em que você pode passear pelas ruas decoradas para a copa no Brasil:

google_streets

E também tem um vídeo no YouTube:

Bem bacana.

Mas, como contraponto, vale colocar as pinturas contra a copa elencadas no The Guardian:

the_guardian

Nate Silver – Previsões para a copa do mundo


Nate Silver lançou suas previsões para a copa do mundo: Brasil sai como favorito, com 45% chances de ganhar.
20140609-213015-77415484.jpg
O que você acha das previsões? Quer entender como chegaram a esses números? Leia, aqui, a discussão que Nate faz sobre o modelo!