O quarteto de Anscombe – ou por que você não pode confiar nos ***.


Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.

O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:

Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:

y = 3** + 0,5***x

R2 = 66%

Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.

Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.

Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?

Os resultados para os modelos são:

1) p=0,78;

2) p = 0,00;

3) p= 0,78;

4) p= 1,00

Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.

Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.

Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?

PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.

Anúncios

Um pensamento sobre “O quarteto de Anscombe – ou por que você não pode confiar nos ***.

  1. Pingback: O que é o p-valor | Análise Real

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s