Statistics – PSDB Style


Porque pau que bate em Chico, bate em Francisco.

Em sua Fanpage do Facebook, o PSDB inovou com um gráfico de escalas, digamos, heterodoxas:

Captura de Tela 2014-09-17 às 19.47.36

Note que a distância de Marina para Aécio (11 pontos percentuais) está menor do que a distância de 15 para 19 (4 pontos percentuais) do próprio Aécio . O gráfico com escalas ortodoxas ficaria assim:

psdb

Mais similares: Emir Sader/Emir Sader de novo/Fox News/Venezuela/Globo News

PS: veja pelo lado bom, é uma lição de como ver o copo meio cheio.

Dica do Marco Antonio!

 

 

Mapa de Imóveis de Vitória – Venda


Seguindo a retomada da análise dos dados de webscraping de  imóveis, resolvi colocar no ar também as informações de venda de apartamentos em Vitória – ES.

A oferta online fica em torno de apenas mil anúncios diários, sendo que muitos são anúncios duplicados com bairros diferentes, mas próximos (por exemplo, Barro Vermelho e Praia do Canto). Isto torna a limpeza dos dados um pouco mais difícil.

A oferta concentra-se em Jardim Camburi, Praia do Canto, Jardim da Penha e Mata da Praia. Algo que chama a atenção é a grande diferença do preço por metro quadrado de bairros tão próximos. Segue, abaixo, tabela com as medianas do Preço, Preço por M2, somente M2 e quantidade ofertada.

tableVix

Clique na imagem abaixo para acessar o mapa com a possível geolocalização dos anúncios. Lembrando que isto é um protótipo, pois este não é objetivo principal destes dados.

Se o mapa não aparecer na sua tela, provavelmente o seu navegador bloqueou a execução do javaScript. Procure por um cadeado ou escudo no navegador (canto superior direito ou esquerdo, geralmente) e autorize o carregamento do site.
vix

Mais dados da copa, jogo a jogo!


Qual a posição média dos jogadores na partida entre Brasil e Camarões? Como foram as jogadas de cada chute a gol? O Huffington Post, para cada jogo, traz esses e outros dados com gráficos interativos. Vale a pena conferir!

 

copaVia Cesar Hildago.

 

Visualizações dinâmicas dos investimentos estrangeiros no Brasil!


Os resultados do Censo de Capitais Estrangeiros no País, para o ano-base 2012, acabaram de ser divulgados no site do Banco Central do Brasil.

E, desta vez, o Censo trouxe duas novidades de visualização que merecem destaque:

Mapa do IED participação no capital, feito em D3.js:

Visualizar mapa

Treemap do IED participação no capital, com separações por país ou por setor, feito em D3plus.js:

Visualizar distribuição

Nas duas visualizações, vale a pena brincar com a distribuição do IED pelos critérios de país do investidor imediato e país do investidor final. Note que nem todas as combinações de país e setor são possíveis, pois esta abertura dos dados pode não estar disponível. O arquivo em formato xls pode ser baixado aqui.

Mapas de roubos em Brasília?


Recentemente conheci um site com uma iniciativa bem bacana chamado Onde Fui Roubado. Lá qualquer pessoa pode reportar um crime especificando local, hora, objetos roubados e inclusive fornecer um relato. Há mais de 16 mil registros para várias cidades do país, e resolvi fazer um webscraping para ver como são estes dados.

Especificamente para Brasília, infelizmente, existem apenas cerca de 200 registros. A maioria na Asa Sul, Asa Norte e Sudoeste, com mais de 100. A ideia aqui será montar um mapa de calor, ou de densidade, dos roubos no Plano Piloto.

Temos, entretanto, dois problemas que valem ser ressaltados: (i) a amostra é pequena; e, (ii) possivelmente viesada. Isto é, como o site ainda não parece ser muito conhecido, não necessariamente o público que está informando é representativo da população do local. Ainda assim, tendo em mente essas ressalvas, vamos brincar um pouco com a visualização dos dados!

Primeiro, vejamos um mapa com todos os casos – note que, quanto mais vermelho, maior a concentração de roubos reportados na região. A maior parte dos registros foram na Asa Sul e Asa Norte. Na Asa Norte, em especial, a região próxima à UnB tem destaque. Lembre que talvez isto seja decorrência, por exemplo, de pessoas mais jovens conhecerem o site e reportarem mais casos.

crimes_geral

 

Vamos dividir agora o mapa por horário do roubo, entre manhã, tarde, noite e madrugada. A maior parte dos roubos registrados ocorreu durante a noite, com focos na Asa Norte e início da Asa Sul.

hora

 

Vejamos, ainda, uma divisão por dias da semana. De maneira consistente com os mapas anteriores, aparece um foco nas sextas, na região próxima à UnB.

semana

Poderíamos fazer um mapa cruzando dias da semana e hora, mas temos poucos dados para isso. A ideia aqui é mostrar como podem ser poderosas essas visualizações! Se a Secretaria de Segurança Pública liberar os microdados dos BO’s (se alguém tiver estes dados, por favor, entre em contato), seria possível montar mapas bem acurados. E imagine cruzá-los com as informações de imóveis – poderíamos medir o impacto da criminalidade nos preços imobiliários.

Por fim, reforço a divulgação do Onde Fui Roubado, é uma iniciativa louvável!

***

A quem interessar, seguem os códigos para a construção dos mapas. Os dados podem ser baixados aqui.


library(ggmap)
library(dplyr)

### carrega dados
dados <- readRDS("roubo2.rds")

### Pega mapa de Brasília
q<-qmap("estadio mane garrincha, Brasilia", zoom=13, color="bw")

### transformando data em POSIXlt e extraindo hora

dados$hora <- as.POSIXlt(dados$data)$hour

### selecionando a base de dados do plano piloto, criando semanas e horários
bsb <- filter(na.omit(dados), cidade=="Brasília/DF",
lon > -47.95218, lon < -47.84232,
lat > -15.83679, lat < -15.73107)%.%
mutate(semana = weekdays(data),
hora = cut(hora,
breaks=c(-1,6,12,18,25),
labels=c("Madrugada", "Manhã", "Tarde", "Noite")))

### reordenando os dias da semana
bsb$semana <- factor(bsb$semana, levels = c("segunda-feira", "terça-feira",
"quarta-feira", "quinta-feira",
"sexta-feira", "sábado", "domingo"))

### estrutura básica do gráfico
map <- q + stat_density2d(
aes(x = lon, y = lat, fill = ..level.., alpha = ..level..),
size = 2, bins = 4, data = bsb,
geom = "polygon")

### mapa geral
map + scale_fill_gradient(low = "black", high = "red", guide=FALSE)+
scale_alpha(guide=FALSE)

### mapa por dia da semana
map+scale_fill_gradient(low = "black", high = "red", guide=FALSE)+
facet_wrap(~ semana)+scale_alpha(guide=FALSE)

### mapa por horário
map+scale_fill_gradient(low = "black", high = "red", guide=FALSE)+
facet_wrap(~ hora) + scale_alpha(guide=FALSE)

 

Quanto mais tempo sem alugar, maior a variação do preço do aluguel? E mais um mapa.


Hoje, com 30 dias de coleta e mais de 60.000 observações de preços de aluguéis de Brasília, resolvi explorar um pouco os dados.

Será que, como nos diz a intuição, quanto mais tempo o imóvel passou ofertado, maiores as reduções observadas do preço do aluguel?  

Vejamos com o gráfico abaixo.

No eixo x temos quantos dias o imóvel ficou ofertado durante os 30 dias de coleta e, no eixo y, a soma da variação percentual do valor do aluguel no período:

variacao

Parece que os preços de oferta são relativamente rígidos, mas depois de 20 dias sem alugar começam a ceder. Vejamos se o padrão se mantém e como isso se comporta mais para frente!

PS: como muitos imóveis podem estar no mesmo ponto – por exemplo, a maioria tem variação zero no preço – o gráfico pode dar a impressão de que há poucas observações com poucos dias de anúncio. Na verdade há muitos pontos ali, o problema é que eles estão um em cima do outro, o que chamamos de overplotting. Uma outra forma de visualizar a distribuição tentando suavizar o overplotting é com um pouco de jitter (desvios aleatórios na posição dos pontos), você pode ver o mesmo gráfico com jitter aqui. Outra coisa que vale a pena ser novamente ressaltada é que o gráfico não é uma série temporal! Ele relaciona a quantidade de dias que um anúncio ficou no ar com a variação percentual do preço deste anúncio.

***

Resolvi também testar outra forma de visualização espacial dos dados. No mapa abaixo, quanto mais vermelho, mais caro o aluguel e, quanto maior a bola, maior o apartamento (em metros quadrados). Os dados são de hoje.

mapa_aluguel

Mapa de aluguel em Brasília (Plano Piloto)


Em post anterior fizemos uma breve análise dos dados de aluguel no plano piloto.

Agora, que tal navegar por todos imóveis em um mapa da cidade, vendo a localização, tamanho, número de quartos e valor do aluguel? Clique aqui ou na mapa abaixo para navegar.

Atenção,  ainda é um protótipo!

Se o mapa não aparecer na sua tela, provavelmente o seu navegador bloqueou a execução do javaScript. Procure por um cadeado no navegador (canto superior direito ou esquerdo, geralmente) e autorize o carregamento do site.

Captura de Tela 2014-02-23 às 21.13.59

PS: agora já estamos coletando diariamente e automaticamente preços online de imóveis dos principais sites e das principais capitais do país. Ainda estamos testando métodos de análise e visualização.

Análise de dados com R e ggplot2 – Hadley Wickham no Google Tech Talks


Vídeo antigo, mas com o qual só tomei contato agora. Hadley Wickham no Google Tech Talks.

Hadley Wickham é o criador de pacotes para o R como: ggplot2, plyr, reshape2.

Concentração do Investimento Brasileiro no Exterior e erro de medida


Já que falamos do CBE no post anterior, aproveito para destacar outro dado daquela pesquisa, que muitas vezes passa despercebido: a concentração do Investimento Brasileiro Direto (IBD) no exterior em poucos investidores. Na publicação dos resultados, os declarantes foram separados pelo tamanho de seu investimento, como, por exemplo, investidores que possuem investimentos no exterior de até US$ 1 milhão (a menor categoria) ou investidores que possuem investimentos no exterior maiores do que US$1 bilhão (a maior categoria).

No quadro 2 da publicação, você encontrará a seguinte distribuição, reproduzida no gráfico abaixo (agrupei as duas últimas categorias do quadro). Em vermelho, você tem o percentual de investidores que se encontram naquela faixa de investimento – perceba que quase 70% dos declarantes do CBE têm um investimento menor ou igual a  US$ 1 milhão e que apenas 0,3% dos declarantes possuem investimentos maiores do que US$500 milhões. Já em azul, você encontra o quanto cada uma dessas categorias responde pelo valor total declarado. Note que 0,3% dos declarantes respondem por cerca de 70% dos 356 bilhões de dólares que o Brasil possuía investidos no exterior.

Concentracao IBD

Em outras palavras, a distribuição do IBD tem cauda bastante pesada – poucas observações respondem pela quase totalidade do valor. Além de ilustrar  o grau de concentração deste tipo de investimento , isto tem uma implicação importante com relação ao (provável) erro de medida, e consequentemente, na incerteza dessas estatísticas.

Para tanto, vejamos o quadro 7, que é análogo ao quadro 2, mas faz a separação apenas para a modalidade de IBD participação no capital. Pelo quadro, 32 declarantes respondem por US$ 158 bilhões do estoque total, isto dá, na média, cerca de US$ 5 bilhões por declarante. Agora veja a distribuição da mesma modalidade por país (quadro 3). Em 2012, o maior estoque de IBD participação no capital, segundo o quadro 3 do CBE, estava na Áustria, com cerca de US$ 57 bilhões. Este valor, então, decresce exponencialmente, sendo a média por país mais ou menos US$ 6 bilhões e a mediana US$ 1 bilhão. Perceba que, caso apenas um dos grandes declarantes esteja classificado de forma errada – e considerando, conservadoramente, o valor médio do grupo – no melhor cenário, se o erro for na Áustria, isso responde por 10% do total estimado para aquele país; se for em um país de IBD médio, isso responde por um erro de 83%; e se for em um país de IBD mediano, o valor do erro é cinco vezes maior do que o valor estimado!

Então se, por um lado, o fato de a distribuição estar concentrada em poucos investidores reduz o número de declarantes que o Banco Central precisa investigar para validar grande parte do valor total declarado, por outro, o impacto de apenas um registro errado pode ser bastante significativo. Note a diferença deste tipo de estatística, para, por exemplo, a estimativa da expectativa de vida média do brasileiro – neste caso, vários registros errados dificilmente alterariam o valor médio de forma substancial.

Para finalizar,  uma curiosidade. Veja abaixo os gráficos do logaritmo do valor do investimento (X) contra o logaritmo da probabilidade de o investidor ter investimentos maiores do que X (a linha preta é reta de regressão). Lembra o gráfico de um lei de potência, não?

CBE_ConcentracaoMais sobre este tipo de assunto neste blog aqui.

 

Em que países os brasileiros investem?


No post anterior vimos quais países tem investimento direto no Brasil (pelo critério de país de origem imediata).

Agora, que tal visualisarmos em que países os brasileiros investem?

Para tanto, podemos pegar os dados da pesquisa de Capitais Brasileiros no Exterior. Tal qual criança quando ganha um brinquedo novo, vamos lá brincar no R mais uma vez. Abaixo, mapa com a distribuição do Investimento Brasileiro Direto (IBD), participação no capital, conforme país de destino imediato, em 2012.

IBD_pais

PS: encontrei o pdf do Applied Spatial Data Analysis with R,  então esperem mais posts deste tipo.