Erro de medida, preços de imóveis e growth regressions.


Em post passado falamos de erro de medida com o cartoon do Calvin. Hoje, enquanto mexia numa base de dados de imóveis de Brasília para passar algumas consultas para um amigo,  pensei em voltar no assunto. Dados de oferta de imóveis podem fornecer uma ilustração simples e fácil do problema.

Preços declarados online variam desde 1 centavo até R$ 950 milhões. Tamanhos declarados online vão desde 0.01 metro quadrado até 880 mil metros quadrados. Em outras palavras, o erro de medida pode ser grande. E, neste caso,  felizmente, isso é fácil de perceber, pois todos nós temos alguma noção do que são valores razoáveis. Não existe apartamento de 0.01 metro quadrado.

Como isso afeta modelos usuais, tais como uma regressão linear?

Resumidamente: bastam alguns pontos extremos para atrapalhar muito. A regressão linear é extremamente sensível a outliers e erros de observação. 

Para ilustrar, façamos a regressão de preços de venda de apartamento contra a metragem do imóvel, nos dados brutos, sem qualquer tratamento. Temos 13.200 observações. A equação resultante foi:

preço = 1.770.902,90  + 2,68 m2

Isto é, segundo a estimativa, cada metro quadrado a mais no imóvel aumentaria seu preço, em média, em R$ 2,68. Não é preciso ser um especialista da área para ver que resultado é patentemente absurdo.

E o que acontece com a estimativa se limparmos a base de dados? Tirando apenas 200 observações das 13.200 (1,5% dos dados), obtemos a seguinte equação:

preço = -45.500,44 + 9.989,81 * m2

Agora, cada metro quadrado a mais está associado a um aumento de R$9.989,81 nos preços, em média – de acordo com o senso comum (infelizmente) para a cidade de Brasília. Ou seja, com a regressão sem tratamento dos dados, você subestimaria o efeito em nada menos do que 3 mil e 700 vezes.

***

O caso anterior é fácil de identificar, mas no dia a dia nem sempre isso ocorre. E é comum tomar dados oficiais por seu valor de face.

Quer um exemplo?

A Penn World Tables, na versão 6.1, publicou uma queda de 36% no PIB da Tanzânia em 1988. Isso levou Durlauf e outros autores a colocarem em seu texto, Growth Econometrics, o “caso” da Tanzânia como um dos top 10 de queda do produto (vide tabela 8). Entretanto, na versão 7.1 da Penn Tables,  os dados mostram um crescimento de 8% para Tanzânia, para o mesmo ano! Se um dado como esse já pode ser muito enganoso apenas como estatística descritiva,  imagine o efeito em growth regressions com regressões lineares e variáveis instrumentais.

PS1: o legal é que o próprio texto do Durlauf tem uma seção bacana sobre erro de medida!

PS2: Sobre dados de PIB da África,  livro recente do Jerven, Poor Numbers, discute muitos desses problemas.

6 pensamentos sobre “Erro de medida, preços de imóveis e growth regressions.

    • Oi, Marcelo,

      O exemplo não é uma análise dos preços dos imóveis, é apenas para ilustrar o efeito do erro de medida.

      Para analisar determinantes (e fazer previsão) de fato uso um modelo de preços hedônicos com outras variáveis dos imóveis, dentre elas algumas referentes à localização.

      Curtir

  1. Pingback: Regressão robusta, erro de medida e preços de imóveis | Análise Real

Deixe um comentário