Livro de Nate Silver em promoção relâmpago, agora, na Amazon.com


Acabei de receber um email da Amazon sobre uma promoção relâmpago do livro do Nate Silver, The Signal and the Noise: Why So Many Predictions Fail — but Some Don’t. Apenas por 12 horas, o livro está com 75% de desconto, (6,99 dólares a versão hardcover). Para quem pensava em comprar, eis uma boa oportunidade.

falamos sobre o Nate Silver no blog aqui e para quem procura uma resenha do livro em português, deixo a do Luciano Sobral.

PS: quem estiver lendo somente agora, a promoção já se encerrou.

Livros em promoção (Kindle): Big Data e Manual de sobrevivência na universidade


Três livros sobre Big Data, da O’Reilly, estão gratuitos na versão Kindle:

- Disruptive Possibilities: How Big Data Changes Everything;

- Big Data Now: 2012 Edition;

- Real-Time Big Data Analytics: Emerging Architecture.

Obviamente, ainda não tive tempo de ler, mas mesmo assim não poderia deixar de divulgar e já baixei para conferir.

E o livro do Leo Monastério, Manual de sobrevivência na universidade: da graduação ao pós-doutorado, também se encontra, por tempo limitado, gratuito na versão Kindle!

Divulgando – Manual de sobrevivência na universidade: da graduação ao pós-doutorado


Se você não aproveitou na vez passada, não deixe passar novamente! Hoje, você baixa de graça, para o Kindle, o Manual de sobrevivência na universidade: da graduação ao pós-doutorado do Leo Monasterio.

 

Guias e dicas para alunos de mestrado e doutorado


Na semana passada divulgamos o Manual de sobrevivência na universidade: da graduação ao pós-doutoradodo Leo Monasterio. Nesta semana, Dave Giles faz um levantamento de guias e dicas para os alunos de mestrado e doutorado que valem a pena ser compartilhados:

Para você que está fazendo mestrado ou doutorado e se sentia perdido, eis bastante material para consulta.

Manual de sobrevivência na universidade: da graduação ao pós-doutorado


Ainda não li, mas já peguei o meu. Leo Monasterio divulga seu livro Manual de sobrevivência na universidade: da graduação ao pós-doutorado.

Dentre os tópicos abordados, os seguintes me chamaram a atenção:

- Como ser um ninja no Google Acadêmico
- Técnicas de sobrevivência aplicadas às reuniões
- Qual a diferença entre ciência e picaretagem?
- Como descobrir se um concurso para professor é armado?

E, apenas hoje, você baixa de graça para o Kindle.

As coisas mudam…igualdade de gêneros.


Em 1824, James Mill (pai de John Stuart Mill) publicou um ensaio, suplemento da enciclopédia britânica, intitulado On Government. A certa altura, ao discorrer sobre como definir o eleitorado em uma democracia representativa, menciona (grifo meu):

One thing is pretty clear, that all those individuals whose interests are indisputably included in those of other individuals may be struck off without inconvenience. In this light may be viewed all children, up to a certain age, whose interests are involved in those of their parents. In this light, also, women may be regarded, the interest of almost all of whom is involved either in that of their fathers or in that of their husbands.

Essas poucas linhas geraram uma furiosa resposta, de mais de 200 páginas, de William Thompson e Anna Wheeler, no livro – com título mais do que auto-explicativo - Appeal of One Half the Human Race, Women, Against the Pretensions of the Other Half, Men, to Retain Them in Political, and hence in Civil and Domestic Slavery.  A visão de James Mill, felizmente, também não foi seguida por seu filho, que, mesmo que tardiamente, publicou ensaio em defesa da igualdade de gêneros, The Subjection of Women.

Avançou-se bastante. Mas, aproveitando o assunto, vale lembrar que a causa não deve ser utilizada para justificar irracionalidades econômicas, como nestes casos de salão de beleza (aqui) e seguro de automóvel (aqui).

Como organizar dados de corte transversal?


Aparentemente esta pergunta não faria sentido. Afinal, por definição, se o dado é de corte-transversal, a ordem não interferiria na análise. A rigor, não importaria quem é o 1º dado, quem é o 2º dado, e assim por diante.

Todavia, nenhum dado é literalmente – stricto sensu – de corte transversal. Na verdade, o que define se o dado é uma “série temporal” ou “corte-transversal” não é sua natureza intrínseca, mas como ele foi ordenado. Na maioria dos casos, é impossível observar todos os indivíduos no mesmo período de tempo e o que de fato fazemos é julgar que a diferença temporal (ou espacial) entre uma coleta e outra é praticamente irrelevante para análise que queremos fazer. Só que às vezes essa ordem pode revelar informações (ou vieses) interessantes.

Recentemente, trabalhando com dados que seriam de corte transversal, parei para pensar na ordem que estavam dispostos. Eles estavam organizados aleatoriamente pelo sistema. Mas eu poderia recuperar as informações de preenchimento. E se eu organizasse os dados pela ordem de entrega do questionário? Ou pela ordem de início preenchimento? Será que valeria à pena esse esforço e seriam reveladas diferenças de correlação ou heterogeneidade uma vez que esse caráter “temporal” do dado fosse explicitado? Ainda não fiz este exercício e não tenho a resposta.

Mas, ao pensar nisso, lembrei na hora de um exemplo do livro texto do Aris Spanos, que gostaria de compartilhar. Ele utiliza dados de notas de alunos em uma prova, que não sei se são anedóticos ou reais*, mas que ilustram bem o ponto.

Os dados organizados por ordem alfabética tem o seguinte gráfico:

ordem_alfabetica

Pelo gráfico, os dados não parecem apresentar auto-correlação. Estimativas de um AR(1) e AR(2) apresentam coeficientes pequenos com coeficiente de variação grande. Isso juntamente à nossa crença a priori de que a ordem alfabética não deveria interferir nas notas, nos faz concluir que provavelmente não existe dependência nos dados.

Já a organização pela ordem dos assentos resulta no seguinte gráfico:

posicao_sentado

Esta figura, diferentemente da anterior, apresenta dependência nos dados. As notas parecem estar correlacionadas positivamente. O coeficiente de um AR(1) é bastante alto e sugere que notas altas estavam próximas de notas altas e, notas baixas, de notas baixas. A ordem dos dados, neste caso, pode ter revelado algo fundamental: para Spanos, por exemplo, isso é evidência de que houve muita cola durante a prova! Eu já diria que esta conclusão é precipitada. Outro fato que poderia explicar a correlação é o de que alunos com afinidades (e, consequentemente, notas parecidas) podem gostar de sentar juntos.

Mas a lição é clara: dados que tomamos como certo serem de “corte transversal” podem apresentar uma interessante dependência entre si quando observados com mais cuidado.

* o Spanos tem uns exemplos com dados curiosos. Neste post ele utiliza uma variável secreta X, que se sabe não ser correlacionada com a população dos EUA, para prever a população dos EUA. Ele mostra como uma regressão ingênua pode ter resultados espúrios, indicando, erroneamente, que a variável X explica a população. A variável X, supostamente, seria o número de sapatos que a vó de Spanos tinha em cada ano, desde 1955. Surge daí uma pergunta natural, feita por Corey:

“…how is it that Spanos has annual data on the number of pairs of shoes owned by his grandmother going back to 1955?”

Ao que Spanos responde.

“That’s easy! My grandmother would never throw away any shoes and each pair had a different story behind it; the stories I grew up with. Each pair was bought at a specific annual fair and it was dated.”

Como o cara é de Cyprus, sei lá, pode ser que essa resposta seja culturalmente plausível. Mas para um brasileiro é no mínimo estranha; eu prefiro acreditar que os dados sejam inventados do que acreditar que ele resolveu contabilizar o número de sapatos da avó em cada ano. Com relação aos dados das notas, uma possível pista de que talvez Spanos tenha inventado os dados é a de que, primeiro, ele diz que as notas são da matéria “Principles of Economics”. Depois, de que são da matéria “Macro-Economic Principles”. Mas, sejam os dados reais, ou fictícios, os exemplos continuam válidos!