Previsões para a copa: USP e UFSCar x Nate Silver x Céticos


Previsões brasileiras

Grupo de Modelagem Estatística no Esporte (GMEE), parceria de um pessoal da USP e UFSCar, também colocou no ar um site com previsões para a copa, tanto nas classificações, quanto no jogo a jogo (resumi as probabilidades jogo a jogo em uma tabela ao final do post). Na última copa, o GMEE deu uma bola dentro: o grupo (a contra-gosto dos brasileiros) estimou como favoritos Espanha e Holanda.

Uma das coisas de que eu particularmente gostei neste site é que, além das probabilidades, eles colocaram um boxplot que ilustra a incerteza das estimativas. Assim como nas previsões do Nate Silver, o Brasil consta como favorito, entretanto com uma probabilidade menor: 30%.

boxplot

Como comparar previsões? Nate Silver x GEMM x Céticos

Agora já temos dois modelos diferentes para a copa do mundo. E há muitos outros por aí (que não coletei os dados por falta de tempo). Como avaliar a performance dessas previsões?

Uma forma simples e efetiva é utilizar o erro quadrático médio (que pode ser decomposto em outras medidas mais refinadas). Suponha que você atribua a probabilidade p a um evento x. O erro quadrático será:

(p – x)^2

Em que x é uma variável dummy que assume valor 1 se o evento em questão ocorrer e 0 caso contrário. Note que o melhor resultado possível é um erro de zero, e isto acontece quando você dá probabilidade de 100% para um evento que ocorre (1-1)^2 ou uma probabilidade 0% para um evento que não ocorre (0-0)^2. Já o pior resultado é um erro de 1, que acontece quando você diz que era impossível algo ocorrer (0%), mas este algo ocorre (0-1)^2, ou quando você diz que algo ocorrerá com certeza (100%) e o evento não ocorre (1-0)^2.

Quando há mais de um evento possível, calculamos isso para cada um deles e tiramos uma média, sob a restrição de que a probabilidade atribuída ao conjunto some 1. Por exemplo,  no caso da copa, em cada jogo há três resultados possíveis e mutuamente excludentes. Isto é,  tomando um dos times como referência, ou ele ganha, ou perde, ou empata. Suponha, por exemplo, que uma vitória tenha ocorrido. O erro quadrático médio de uma previsão para o jogo será:

((Probabilidade Estimada de Vitória – 1)^2 + (Probabilidade Estimada de Derrota – 0)^2 + (Probabilidade Estimada de Empate – 0)^2 ) /3

Vejamos, o caso do jogo Brasil x Croácia.

Nate Silver estimou chances de 88% para o Brasil,  9% para o empate e 3% para a derrota.  Já o GMEE foi mais conservador em sua previsão, estimando probabilidades de 66%, 21% e 13%, respectivamente. Ambos colocaram o Brasil como favorito e, realmente, o Brasil ganhou. Entretanto, como Nate deu maior certeza ao evento que de fato ocorreu, seu erro quadrático nesta partida foi de apenas 0.01, contra 0.06 do GMEE.

Note que estamos começando a distinguir entre tipos de previsões, mesmo que elas apontem o mesmo time como favorito.

Podemos fazer outra comparação. Suponha que você seja um cético de previsões no futebol. Afinal, poder-se-ia argumentar, trata-se de um esporte bastante imprevisível em que tudo pode acontecer.  Uma vitória, derrota ou empate são equiprováveis (33,33% cada). E de fato, caso isso fosse verdade, este seria o cenário mais difícil de se acertar.

Qual é o erro quadrático do cético? Ao atribuir a mesma probabilidade para todos os eventos, ele sempre terá o mesmo erro independentemente do resultado: 0.22. É uma estratégia conservadora, com previsões não informativas. Podemos, então, utilizar o cético como um benchmark mínimo. Em outras palavras, para o modelo ser minimamente aceitável, ele tem de, na média, errar menos do que o cético.

Depois de 11 partidas, como estão os previsores?

Nate Silver está na frente, com um erro médio de 0.159; O GMEE está apenas um pouco atrás, com erro de 0.163. E ambos, pelo menos por enquanto, com bastante vantagem em relação ao cético.

Esta é uma primeira aproximação para avaliar as previsões e ela pode ser refinada. Por exemplo, vocês notaram que não houve empate na Copa até agora? A probabilidade média estimada para os empates está em cerca de 23%. Se isso continuar a ocorrer por mais algumas partidas, desconfiaremos de que a probabilidade de empate dos modelos não está bem calibrada.

Discutiremos esta e outras medidas para avaliar as previsões no futuro. Vejamos um pouco sobre a atualização de modelos.

Atualização das probabilidades

Um bom modelo de previsão, sempre quando possível, deve tentar incorporar informações novas em seus cálculos.  Tomemos o caso da Holanda, que goleou a Espanha mesmo enquanto todos consideravam esta última como favorita.  Intuitivamente, após observar este resultado, você diria que as chances de a Holanda ganhar do Chile no dia 23 de junho devem permanecer as mesmas? Provavelmente não.

Se, em seu modelo, você dava baixa probabilidade para este evento, isto é um sinal de que você tem de reajustar, pelo menos um pouco, suas expectativas. O FiveThirtyEight está fazendo isso.  Antes do jogo Holanda x Espanha, o modelo estimava que o Chile era favorito contra a Holanda no dia 23: 48% de chances de ganhar. Agora a situação se inverteu e a laranja mecânica é a favorita com 37%.

Essas atualizações tentam aprimorar o modelo, mas será que as novas probabilidades serão melhores do que as anteriores? Como de costume, isto é uma questão empírica, e somente descobriremos  no decorrer dos jogos.

 

***

Probabilidade jogo a jogo do Previsão Esportiva

previsoes1

Anúncios

5 pensamentos sobre “Previsões para a copa: USP e UFSCar x Nate Silver x Céticos

  1. Pingback: Previsões para copa: modelos x mercado, como estão se saindo? | Análise Real

  2. Pingback: Previsões para a copa: afinal, como se saíram os modelos? | Análise Real

  3. Pingback: Previsões para eleições: o que estão dizendo para amanhã? | Análise Real

  4. Pingback: Retrospectiva: posts mais lidos de 2014 | Análise Real

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s