Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança

Publicado por Carlos Cinelli

O pessoal do Open Science Framework acabou de concluir um trabalho hercúleo: durante mais de 3 anos, juntaram 270 colaboradores para realizar 100 replicações de 98 artigos de psicologia. Todos os materiais do projeto, para cada replicação, encontram-se disponíveis no site, inclusive os códigos em R!

E quais os resultados? Os efeitos replicados tiveram a magnitude estimada reduzida pela metade quando comparados com os efeitos originais. Apenas 36% das replicações alcançaram “significância” estatística (p-valor menor do que 5%) e apenas 47% dos efeitos originais ficaram dentro do intervalo de confiança de 95% das replicações. Supondo que não exista viés de seleção nos estudos originais (o que é difícil de acreditar, considerando os resultados acima), uma meta análise combinando os resultados indica apenas 68% dos efeitos como “significantes”.

Essa é uma iniciativa fantástica, é ciência como deve ser feita. E que venham mais replicações, para termos estimativas mais precisas, sem viés de publicação, do tamanho e da incerteza ao redor desses efeitos.

PS: Em economia, provavelmente nossa situação é ainda pior: a maior parte de nossos estudos é baseada em dados observacionais.

Focus: crescimento negativo para 2016

Publicado por Carlos Cinelli

A mediana das expectativas do crescimento do PIB foi para baixo de zero também para 2016: -0,15%.

(original aqui)

Caçando p-valores, causalidade, LaCour e Pnad Contínua no R

Publicado por Carlos Cinelli

Links diversos

Uma apresentação bacana do Leif D. Nelson sobre Falso-Positivo, p-Hacking, poder estatístico etc;

Risco Sistêmico na prática: indo além do setor financeiro

Publicado por Carlos Cinelli

Como mapear riscos sistêmicos provenientes do setor real da economia? Quais metodologias podem ser utilizadas, que bases de dados estão disponíveis e como juntar tudo isso? Esses são alguns dos pontos discutidos na apresentação de Edson Bastos, no workshop de Risco Sistêmico promovido pelo IPAM, na UCLA.

(clique na imagem para assistir)

Prêmios para pesquisas abertas, transparentes e reproduzíveis!

Publicado por Carlos Cinelli

A Berkeley Initiative for Transparency in the Social Sciences (BITSS) anunciou ontem a criação dos prêmios Leamer-Rosenthal por uma ciência social aberta (The Leamer-Rosenthal Prizes for Open Social Science).

Os prêmios tomam os nomes de Edward Leamer – de quem já falamos aqui no blog – e Robert Rosenthal. Ambos trataram de problemas sérios na pesquisa acadêmica como a tendência de publicar/buscar “resultados significantes” – muitas vezes genuinamente confundindo sua função – ou a tendência de ignorar a sensibilidade das próprias estimativas. Edward Leamer, em particular, trata extensivamente de uma prática bastante comum entre pesquisadores: a de experimentar vários modelos diferentes, até encontrar um que “pareça publicável”, para depois apresentar apenas aquele resultado como se fosse o único modelo testado.

Serão distribuídos de 6 a 8 prêmios de 10.000 a 15.000 dólares para pesquisadores em ciências sociais (como Economia, Psicologia e Ciências Políticas) que tenham feito trabalhos de transparência exemplar, ferramentas para melhorar o rigor das ciências sociais, ou para professores que tenham causado impacto no ensino e difusão de boas práticas de pesquisa.

Mais especificamente sobre as pesquisas, serão premiadas aquelas que busquem, entre outro pontos: (i) apresentar pré-registro, cálculo de poder do teste e do tamanho amostral (ainda é raro); (iii) ter os dados e o código para replicação disponíveis e bem documentados (lembrem do caso Reinhart-Rogoff); (iv) disponibilizar os materiais originais – como os questionários de pesquisa – para escrutínio público (lembrem do caso Stapel); (v) apresentação adequada e detalhada dos métodos e resultados.

Ou seja, esta é uma iniciativa que busca premiar bons processos! Acredito que tenha vindo em boa hora, juntando-se a diversas outras críticas sistemáticas que têm sido feitas ao atual estado dos métodos quantitativos nas ciências sociais aplicadas.

O prazo para inscrição é até 13 de setembro. Para você que está fazendo uma pesquisa aberta, reproduzível e cuidadosa, eis uma boa chance de ser reconhecido sem ter que se submeter à busca por temas de manchete de jornal.

Focus: -0,42% para o PIB e 7,27% para a inflação (IPCA)

Publicado por Carlos Cinelli

O título é auto-explicativo. Lembrando que esses dados são medianas.

Pesquisa Nacional de Saúde, Pesquisa Brasileira de Mídia, Como o comportamento dos outros te influencia? E um cartoon.

Publicado por Carlos Cinelli

Alguns links interessantes

1. No final do ano, saíram os microdados da Pesquisa Nacional de Saúde.

2. Também saiu a Pesquisa Brasileira de Mídia 2015.

3. Quanto o comportamento dos outros te influencia?

Pedro Gardete, professor de Stanford, fez a seguinte pergunta: se um passageiro que você não conhece, sentado ao seu lado, compra algo, o quanto isto aumenta probabilidade de você comprar também? Como ele possuía dados das reservas dos vôos, além de excluir amigos que voavam juntos, pôde controlar outros fatores. Foram analisadas 65.525 transações, em 1.966 vôos, totalizando mais de 257 mil passageiros.

Resultado: em geral, caso alguém a seu lado compre algo, suas chances de comprar também aumentam em cerca de 30%.

4. Para finalizar, um cartoon. Mais uma boa do SMBC:

Erro de medida, preços de imóveis e growth regressions.

Publicado por Carlos Cinelli

Em post passado falamos de erro de medida com o cartoon do Calvin. Hoje, enquanto mexia numa base de dados de imóveis de Brasília para passar algumas consultas para um amigo, pensei em voltar no assunto. Dados de oferta de imóveis podem fornecer uma ilustração simples e fácil do problema.

Preços declarados online variam desde 1 centavo até R$ 950 milhões. Tamanhos declarados online vão desde 0.01 metro quadrado até 880 mil metros quadrados. Em outras palavras, o erro de medida pode ser grande. E, neste caso, felizmente, isso é fácil de perceber, pois todos nós temos alguma noção do que são valores razoáveis. Não existe apartamento de 0.01 metro quadrado.

Como isso afeta modelos usuais, tais como uma regressão linear?

Resumidamente: bastam alguns pontos extremos para atrapalhar muito. A regressão linear é extremamente sensível a outliers e erros de observação.

Para ilustrar, façamos a regressão de preços de venda de apartamento contra a metragem do imóvel, nos dados brutos, sem qualquer tratamento. Temos 13.200 observações. A equação resultante foi:

preço = 1.770.902,90 + 2,68 m2

Isto é, segundo a estimativa, cada metro quadrado a mais no imóvel aumentaria seu preço, em média, em R$ 2,68. Não é preciso ser um especialista da área para ver que resultado é patentemente absurdo.

E o que acontece com a estimativa se limparmos a base de dados? Tirando apenas 200 observações das 13.200 (1,5% dos dados), obtemos a seguinte equação:

preço = -45.500,44 + 9.989,81 * m2

Agora, cada metro quadrado a mais está associado a um aumento de R$9.989,81 nos preços, em média – de acordo com o senso comum (infelizmente) para a cidade de Brasília. Ou seja, com a regressão sem tratamento dos dados, você subestimaria o efeito em nada menos do que 3 mil e 700 vezes.

***

O caso anterior é fácil de identificar, mas no dia a dia nem sempre isso ocorre. E é comum tomar dados oficiais por seu valor de face.

Quer um exemplo?

A Penn World Tables, na versão 6.1, publicou uma queda de 36% no PIB da Tanzânia em 1988. Isso levou Durlauf e outros autores a colocarem em seu texto, Growth Econometrics, o “caso” da Tanzânia como um dos top 10 de queda do produto (vide tabela 8). Entretanto, na versão 7.1 da Penn Tables, os dados mostram um crescimento de 8% para Tanzânia, para o mesmo ano! Se um dado como esse já pode ser muito enganoso apenas como estatística descritiva, imagine o efeito em growth regressions com regressões lineares e variáveis instrumentais.

PS1: o legal é que o próprio texto do Durlauf tem uma seção bacana sobre erro de medida!

PS2: Sobre dados de PIB da África, livro recente do Jerven, Poor Numbers, discute muitos desses problemas.

Calvin sobre a qualidade dos dados em surveys – I love messing with data

Publicado por Carlos Cinelli

Calvin mostrando mais uma fonte (bem comum) de erro de medida:

I love messing with data!

Trabalhar como economista/cientista de dados no facebook: o que é preciso?

Publicado por Carlos Cinelli

Será que você – ou o seu programa de doutorado – está em sintonia com as demandas de um economista/cientista de dados moderno, como um economista no facebook?

Segue abaixo a tradução livre que fiz dos trechos relevantes de uma oferta de emprego:

O Facebook está buscando economistas excepcionais para se juntar à nossa equipe de Ciência de Dados. Os indivíduos deverão ter uma compreensão profunda da análise causal – desde a criação e análise de experimentos até o trabalho com dados complexos ou não estruturados. Economistas no Facebook criam e executam projetos em áreas como o design de mercado online, previsão, análise de redes, design de leilão, comportamento do consumidor e economia comportamental.

Algumas habilidades requeridas ou desejáveis:

Doutorado em Economia ou um campo relevante;
Ampla experiência na resolução de problemas analíticos utilizando abordagens quantitativas;
Confortável com a manipulação e análise de dados complexos, de alto volume e alta-dimensionalidade de fontes variadas;
Conhecimento especializado de uma ferramenta de análise, tais como R, Matlab, ou Stata;
Experiência com os dados on-line: a mineração da web social, webscraping de websites, puxar dados de APIs, etc;
Confortável na linha de comando e com ferramentas unix;
Fluência em pelo menos uma linguagem de script como Python ou Ruby;
Familiaridade com bancos de dados relacionais e SQL;
Experiência de trabalho com grandes conjuntos de dados ou ferramentas de computação distribuída (Map/Reduce, Hadoop, Hive, etc.).

Análise Real

Economia: teoria, prática e política.

Dados

Replicação de 100 estudos de psicologia: efeitos reduzidos pela metade, apenas 47% com magnitudes dentro do intervalo de confiança

Focus: crescimento negativo para 2016

Caçando p-valores, causalidade, LaCour e Pnad Contínua no R

Risco Sistêmico na prática: indo além do setor financeiro

Focus: -0,42% para o PIB e 7,27% para a inflação (IPCA)

Pesquisa Nacional de Saúde, Pesquisa Brasileira de Mídia, Como o comportamento dos outros te influencia? E um cartoon.

Erro de medida, preços de imóveis e growth regressions.

Calvin sobre a qualidade dos dados em surveys – I love messing with data

Trabalhar como economista/cientista de dados no facebook: o que é preciso?

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe:

Compartilhe: