Considere duas amostras aleatórias, com 10 observações, retiradas de uma distribuição normal com médias diferentes e mesma variância desconhecida. Para utilizar um exemplo concreto, simulei no R duas amostras, uma de uma normal com média 5 e desvio-padrão 3 e a outra de uma normal com média 2 e desvio-padrão 3.
As amostras resultaram nas seguintes estatÃsticas:
***
Amostra 1
Média amostral: 5,3
Desvio-padrão amostral: 2,9
Intervalo de 95% de confiança: 3,2 a 7,4
***
Amostra 2
Média amostral: 2,6
Desvio-padrão amostral: 2,2
Intervalo de 95% de confiança: 0,7 a 4,5
***
Note que os intervalos de confiança se cruzam. O limite inferior da amostra 1 é 3,2 e o limite superior da amostra 2 é 4,5.
Isso quer dizer que a diferença entre as médias amostrais não é estatisticamente significante a 5%?
Não, fazendo um teste t para a diferença entre duas médias com variância igual você obtém um resultado estatisticamente significante a 5%, com intervalo de 95% de confiança indicando diferenças entre 0,5 a 5. Mesmo supondo que você não soubesse que as variâncias fossem iguais, o teste t de Welch nos dá um intervalo de 95% de confiança para a diferença entre as médias entre 0,1 e 5,3.
Agora imagine que esses dados eram de crescimento de PIB, isto é, um grupo tem média amostral de crescimento de 5,3% e outro de 2,6%. Se você comparasse os intervalos de confiança, você poderia tender a falar que os dois grupos não têm crescimento “diferentes”… quando, na verdade, o próprio teste clássico de diferenças entre médias indica uma diferença entre 0,5 e 5 pontos percentuais, que abarca magnitudes muito relevantes em termos de crescimento econômico!
Mas esse erro acontece?
Sim, no Banco Mundial. No EconBrowser, sobre a controvérsia Reinhart and Rogoff, Chinn divulgou este gráfico relacionando a média de crescimento e o percentual de endividamento público em relação ao PIB. As barras são a média e a linha preta representa o intervalo de 95% de confiança .
Note que, apesar de a média de crescimento dos paÃses com alto endividamento (mais de 90% do PIB) ser bem menor do que a média dos demais, os intervalos de confiança se cruzam. Isso levou o pessoal do blog do banco mundial a dizer que “[…] the confidence intervals of all three bins above the 30 percent debt/GDP threshold also overlap. On this (admittedly crude) basis, then, any claim that a 1 percent growth differential over a decade compounds is simply overstating the case made by the data.”
Isso não é verdade, o simples fato de os intervalos de 95% de confiança cruzarem não quer dizer nada, mesmo se você achasse que significância estatÃstica pura fosse o ponto relevante aqui. Como vimos no exemplo anterior, super simples, os intervalos de confiança podem se cruzar e mesmo assim a diferença ser “estatisticamente significante” e indicar diferenças economicamente relevantes! Cientes do erro, os autores fizeram um postscript alertando para o fato e reduzindo o intervalo de confiança do gráfico para um erro-padrão. O problema é que mesmo nesse caso, se houver alguma forma de dependência entre as amostras (o que provavelmente é o caso), a comparação também não é correta.
Apesar da brincadeira do tÃtulo, isso não foi uma “burrice” do Banco Mundial. Um problema que tenho encontrado ao discutir estes assuntos é que, em geral, as pessoas acham que somente somente journals de “baixa qualidade” publicam coisas deste tipo. Ledo engano… a incompreensão sobre intervalos de confiança, significância estatÃstica, p-valores é pervasiva nas ciências sociais, inclusive em trabalhos aplicados nas melhores revistas e com os melhores pesquisadores!
PS: como havia dito em post anterior, o risco de escrever em blogs é não ter revisor. Agradeço ao Fábio Gomes por corrigir um erro primário constante na primeira e afobada versão deste post, escrita ontem de madrugada!
Olá,
Qual foi o acerto entre a duas versões do post?
CurtirCurtir
Olá, Maciel,
O DP populacional estava digitado errado e na hora de copiar o valor do desvio-padrão amostral para o post eu copiei o erro-padrão.
O erro-padrão é o desvio-padrão amostral divido pela raiz de N. Como N=10, a raiz dá aproximadamente 3,16 e o erro-padrão dá algo menor do que 1.
Se você tomasse o erro-padrão pelo desvio-padrão amostral e dividisse por raiz de N novamente para construir os intervalos de confiança, eles sairiam errados e bem pequenos e seriam diferentes dos intervalos de confiança corretos que você via no post, causando confusão.
Abs
CurtirCurtir
Putz, cara, vou te falar a real, eu sempre fiz isso, não tinha nem ideia. Muito bom estes temas de estatistica que vc traz.
CurtirCurtir
Legal, vi o post no grupo de estatistica, vou acompanhar o blog!
CurtirCurtir
É possÃvel comparar intervalos de confiança desde que se considere a correção de Bonferroni, não? Embora, a correção de Bonferroni seja conservadora e, desta forma, o mais adequado seja utilizar intervalo de confiança para a diferença como ressaltado por ti.
CurtirCurtir
Contudo, ao considerar a correção Bonferroni, os intervalos tornaram-se mais extensos e a conclusão de que as médias são iguais terá validade.
CurtirCurtir
Relembrei: a dualidade entre intervalo de confiança e teste de hipóteses somente é válida quando o intervalo de confiança é construÃdo para o mesmo parâmetro para qual o teste de hipóteses foi formulado, certo? Além disso, matematicamente, raiz quadrada(a + b) != raiz quadrada(a) + raiz quadrado(b), por isso, construir intervalos de confiança para duas médias separadamente e verificar se há sobreposição não é equivalente a construir intervalo de confiança para a diferença. Valeu pela chamada de atenção.
CurtirCurtir
Olá, Marcio,
Isso aÃ. No caso de médias independentes de uma normal isso é fácil de ver matematicamente, você pega em que condições os IC não vão cruzar e depois em que condições o IC da diferença entre as medias exclui zero. Mas tem casos ainda mais complicados como, por exemplo, quando os dados são dependentes.
Abraços
CurtirCurtir
Ah, desculpe pelos posts duplicados. Pode deletá-los. Abraço!
CurtirCurtir
Deletados, valeu! Abs!
CurtirCurtir
Muito bom!!!!!
CurtirCurtir
Prof Carlos,
Em primeiro lugar, parabéns pelo blog, sou seu leitor e acho seus posts muito interessantes.
Poderia por gentileza tirar uma dúvida?
Tenho duas séries de preços, ambas são estacionárias, I(o), tantos nos nÃveis como na primeira diferença. Nesse caso, posso fazer um teste de cointegração de Johansen (traço e lambda max) e depois um VECM para ver a velocidade de ajuste dos coeficientes?
Aprendi o pouco que sei sobre séries “na raça”, então ainda tenho dificuldades com essas técnicas.
Se possÃvel, também gostaria de seu e-mail para contato.
Abraço!
Davi
CurtirCurtir
Olá, Davi, obrigado pelos comentários.
Acabei de retornar de uma viagem, estou com o tempo apertado e projetos em atraso, quando as coisas estiverem mais calmas te respondo!
Abraços,
Carlos
CurtirCurtir
OK prof Carlos, agradeço à sua atenção ! Até ! Davi
CurtirCurtir