Leo Monastério trouxe o exemplo do quarteto de Anscombe para ilustrar a importância de explorar os dados antes de se fazer uma análise estatística.
O exemplo trata de quatro conjuntos de dados, com óbvias relações diferentes, mas que apresentam o mesmo ajuste caso uma regressão linear ingênua seja feita. Vejam abaixo os gráficos:
Caso o usuário rodasse uma regressão linear (com uma constante), obteria os seguintes resultados em todos os casos:
y = 3** + 0,5***x
R2 = 66%
Onde ** é estatisticamente significante a 5% e *** estatisticamente significante a 1%.
Daqui já é fácil perceber por que você não pode amar a significância estatística nem o R2, conforme vimos nos Dez Mandamentos da Econometria Aplicada.
Agora, vamos supor que não fosse possível, por algum motivo, plotar os dados. O que fazer? Que tal o velho teste de especificação RESET?
Os resultados para os modelos são:
1) p=0,78;
2) p = 0,00;
3) p= 0,78;
4) p= 1,00
Com este tamanho amostral, um resultado como o obtido em 2 indica um claro problema de especificação. E o p-valor de 1 no modelo 4? Como já haviamos visto aqui, isso também não é bom sinal, indicando que há alguma coisa errada (o que ocorreu foi que a rotina automatizada do programa omitiu os quadrados e cubos por conta de “colinearidade exata”, o teste na força bruta fornece p=0,00). Então os modelos 2 e 4 devem estar mal especificados, mas os modelos 1 e 3, aparentemente, não.
Analisando os resíduos dos modelos 1 e 3, você perceberá que, enquanto no modelo 1 não há nenhum dado muito discrepante dos demais, no modelo 3 há uma observação cujo resíduo é mais do que três vezes superior aos outros. Provavelmente há um outlier. Bom, muito provavelmente o outlier deveria ser desconsiderado; contudo, neste caso seria interessante entender por que o dado é discrepante, antes de retirá-lo da amostra.
Agora, dado interessante: muitos artigos publicados em revistas importantes não têm nem apresentado estatísticas descritivas dos seus dados, nem apresentado gráficos, ou feito testes de especificação como os acima. Isso não seria algo a se preocupar?
PS: também não é somente por se rejeitar estatisticamente que o modelo esteja corretamente especificado que você deva descartá-lo ou considerá-lo inadequado. Ele pode ser economicamente interessante. Trataremos disso futuramente.