Mapa de aluguel em Brasília (Plano Piloto)


Em post anterior fizemos uma breve análise dos dados de aluguel no plano piloto.

Agora, que tal navegar por todos imóveis em um mapa da cidade, vendo a localização, tamanho, número de quartos e valor do aluguel? Clique aqui ou na mapa abaixo para navegar.

Atenção,  ainda é um protótipo!

Se o mapa não aparecer na sua tela, provavelmente o seu navegador bloqueou a execução do javaScript. Procure por um cadeado no navegador (canto superior direito ou esquerdo, geralmente) e autorize o carregamento do site.

Captura de Tela 2014-02-23 às 21.13.59

PS: agora já estamos coletando diariamente e automaticamente preços online de imóveis dos principais sites e das principais capitais do país. Ainda estamos testando métodos de análise e visualização.

Existe um pacote para isso.


Por que eu uso R, em 30 segundos:

O que o Facebook diz sobre o seu relacionamento?


O time de análise de dados do Facebook fez uma série de 6 posts sobre o valentine’s day (dia dos namorados) nos Estados Unidos.

Recomendo fortemente a leitura de todos. O posts tratam dos seguintes temas:

  • O primeiro post trata de amor e religião e constata que há poucos casais de religiões diferentes, mesmo em países com alta diversidade religiosa.
  • O segundo post trata da diferença de idade entre casais. Na média, homens são mais de dois anos mais velhos do que suas  parceiras.
  • O terceiro post trata da duração dos relacionamentos. Um dos resultados: quanto mais tempo de relacionamento, menor a chance de o casal se separar.
  • O quarto post trata das “melhores” cidades para os solteiros (como são cidades dos EUA, provavelmente não interessará muito os leitores deste blog).
  • O quinto post trata da mudança de comportamento dos casais antes e depois do relacionamento. Esse é um dos mais bacanas. Para quem quiser ler algo em português, a Folha fez uma matéria. Vale reproduzir um gráfico, relacionando a quantidade de posts com palavras positivas e os dias antes/após o início do namoro:

1898250_10152219519288415_127545461_n

Os dados confirmam aquilo que você já percebia: casais recém formados postam sobre unicórnios vomitando arco-iris e o efeito pode durar muito, muito tempo (destaque para o gráfico feito com ggplot2).

  • Por fim, o último post trata do que acontece após o término do relacionamento. As interações, principalmente de apoio dos amigos, aumentam bastante.

O Facebook é, muito provavelmente, a organização com a maior base de dados sobre informações pessoais do mundo. O potencial disso é inimaginável. No final do ano passado, eles contrataram o professor da NYU Yann LeCun para liderar o departamento de inteligência articial da empresa – parece que ainda há muita coisa interessante por esperar.

Mais sobre análise de dados do Facebook neste blog, aqui (analise seus próprios dados) e aqui (descubra características  da pessoa – como a orientação sexual – com base no que ela curte).

Valores de aluguel em Brasília (plano piloto)


Está pesquisando apartamento para alugar em Brasília?  Um pouco de web scrapingmanipulação e visualização de dados com os valores (de oferta) dos aluguéis de 1.030 imóveis (Asa Sul, Asa Norte e Sudoeste) do site wimoveis pode ajudar a responder algumas perguntas interessantes.

A primeira delas: qual o bairro mais caro para se alugar, hoje, no plano piloto? Esta é uma pergunta que, veremos, depende do ponto de vista. Veja a tabela abaixo (versão ampliada aqui). M2 quer dizer metro quadrado e pm2 preço por metro quadrado.

Captura de Tela 2014-01-30 às 00.08.44

Na média e mediana – em conformidade com a impressão pessoal de muitos – a Asa Sul é o bairro mais caro para se alugar dos três. Entretanto, note que isso ocorre porque há mais apartamentos maiores para aluguel na Asa Sul, e não porque o valor por metro quadrado é mais caro. Na verdade, o valor por metro quadrado, na média, é maior na Asa Norte e, na mediana, maior no Sudoeste.

Podemos agora decompor a tabela acima não somente por bairro, mas por bairro e número de quartos (versão ampliada aqui) . Na média, o bairro mais barato/caro para morar não é o mesmo a depender de quantos cômodos você quer no apartamento. E, uma curiosidade: na amostra, a média do tamanho dos apartamentos da Asa Norte, em todos os grupos de números de quartos, é menor do que a média do tamanho da Asa Sul.

tabela_wi_2014_01_24

Uma última forma de visualizar as diferenças de preços pode ser com um gráfico de densidade (versão ampliada aqui):

teste

Veja que o pico do Sudoeste (em verde) é em valores mais altos do que na Asa Norte e na Asa Sul. Entretanto, a Asa Sul tem a “cauda” mais pesada em valores próximos a R$ 5.000.

Uma outra pergunta que podemos tentar responder é a seguinte: dos anúncios que temos hoje, na média, os preços daqueles atualizados em 2014 são maiores do que aqueles cuja última atualização foi feita em dezembro de 2013? Pelo quadro abaixo (versão ampliada aqui), infelizmente, sim, e por mais ou menos RS$100,00.

Captura de Tela 2014-01-30 às 00.24.58

E como é a concentração da oferta dos anúncios por corretora? A distribuição de anúncios por imobiliária é homogênea? 

Aparentemente, não. Veja o gráfico abaixo (versão ampliada aqui).

corretoras

Enquanto algumas imobiliárias têm 30 a 40 apartamentos listados, muitas outras têm apenas 1 ou 5.

Isso quer dizer que os anúncios são concentrados? Não necessariamente. Note que apesar de a distribuição de anúncios não ser homogênea, a concorrência é bem grande, e usando como exemplo o índice de Herfindahl–Hirschman chegamos a um valor de 0.013, comumente considerado indicador de alta competitividade.

Há mais que poderíamos ver sobre aluguel. Mas deixemos para depois.  No próximo (em algum próximo) post veremos os dados de valor de venda!

PS: iremos acompanhar regularmente esses preços. E não somente para Brasília. Uma área específica do blog será criada para isso. 

Introducing dplyr


Novo pacote dplyr, com foco em performance. Estive usando o data.table e é realmente muito rápido, se o dplyr for tão rápido quanto e mais intuitivo, será excelente.

RStudio Blog

dplyr is a new package which provides a set of tools for efficiently manipulating datasets in R. dplyr is the next iteration of plyr, focussing on only data frames. dplyr is faster, has a more consistent API and should be easier to use. There are three key ideas that underlie dplyr:

  1. Your time is important, so Romain Francois has written the key pieces in Rcpp to provide blazing fast performance. Performance will only get better over time, especially once we figure out the best way to make the most of multiple processors.
  2. Tabular data is tabular data regardless of where it lives, so you should use the same functions to work with it. With dplyr, anything you can do to a local data frame you can also do to a remote database table. PostgreSQL, MySQL, SQLite and Google bigquery support is built-in; adding a new backend is…

Ver o post original 493 mais palavras

Benford Analysis R Package


Em post anterior falamos sobre a Lei de Benford e que ela pode ser utilizada para o auxílio na detecção de fraudes contábeis ou dados estranhos. Também explicamos por que ela surge – resumidamente, pode-se dizer que números que tenham crescimento exponencial, ou que sejam derivados da multiplicação de outros números, tenderiam à lei de Benford – e isto abrange muitos dados econômicos.

Além da Lei de Benford, temos falado bastante sobre o R por aqui. Então, que tal unirmos as duas coisas? Bem, em alguns dias, com o pacote benford.analysis, você poderá analisar facilmente e rapidamente (espero!) seus dados contra a lei de Benford para identificar possíveis erros.

A idéia do pacote é tornar a análise algo rápido e simples. Por exemplo, o gráfico abaixo é gerado com apenas dois comandos: bfd <- benford(dados) e plot(bfd).

Plot BenfordVamos ver se vai ficar bacana.

Atualização: a versão 0.1 está no CRAN.

Analisando microdados do IBGE com o R


Os materiais do Seminário de Metodologia do IBGE de 2013 estão disponíveis para download. Dentre eles, destaco o do mini-curso Introdução à análise de dados amostrais complexos. Lá você vai aprender a replicar os resultados da POF, da PNAD e amostra do Censo levando em conta o desenho amostral das pesquisas (que é necessário para se calcular corretamente medidas de precisão, como a variância). O material é bastante focado no blog de Anthony Damico, Analyze Survey Data for Free. O blog é fantástico, com diversos exemplos de como baixar e analisar dados de pesquisas públicas levando em conta o plano amostral, tudo com ferramentas gratuitas como o R.

Analise a rede de seu facebook


Continuando o tema de análise de redes, abordado em post passado, vejamos agora um exemplo legal que você mesmo pode reproduzir!

O gráfico abaixo é o da minha rede do Facebook. Cada nódulo representa uma pessoa (não coloquei os nomes, mas você pode colocar caso queira) e cada arco uma relação de amizade entre elas.

Veja que as pessoas foram separadas em grupos com base nas relações de amizade, e cada grupo recebeu uma cor diferente. Isto foi feito por um algoritmo que, no meu caso, corretamente identificou os grupos sociais da rede (trabalho, família, viagens, cursos) com base em quão fortemente conectados os nódulos são. Perceba que algumas pessoas são representadas por nódulos maiores: no caso, elas são pessoas com alto nível de betweeness centrality, isto é, pessoas que são como uma ponte para grupos de amizades distintos dentro da rede – também seria possível mudar o tamanho dos nódulos segundo o número de conexões de cada pessoa (grau, na linguagem de rede) ou outras medidas de centralidade.

rede_do_facebook

Bacana, não?

Quer fazer o seu? Você vai precisar entrar no aplicativo Netvizz para baixar os dados do Facebook e, depois, rodá-los no programa Gephi (que pode ser baixado gratuitamente aqui). Caso tenha alguma dificuldade, há um didático tutorial na internet. Futuramente, para não dizer que não falamos de economia, vamos fazer esse mesmo experimento com a visualização de dados de investimento direto no exterior e ver o que sai.

Análise de dados com R e ggplot2 – Hadley Wickham no Google Tech Talks


Vídeo antigo, mas com o qual só tomei contato agora. Hadley Wickham no Google Tech Talks.

Hadley Wickham é o criador de pacotes para o R como: ggplot2, plyr, reshape2.

Livros de R e Python


Compartilharam comigo, agora passo em frente. Seguem dois links com alguns livros em pdf para programação em R e em Python.

Mais sobre Python: o Sargent publicou um livro online de modelagem e economia quantitativa com a linguagem.