O p-valor (ou valor p) é, talvez, a estatística mais difundida entre médicos, psicólogos, economistas e quase toda profissão que utilize inferência estatística.
Virtualmente todo mundo que fez um curso de graduação ou pós-graduação já se deparou com o p-valor, seja nas disciplinas de estatística, seja ao realizar um trabalho empírico aplicado.
Entretanto, quase ninguém sabe muito bem o que o p-valor é ou pode ser considerado quando se trata de evidência. Sobre este ponto, há um artigo de 1996, do Schervish, que mostra como o p-valor não é uma medida coerente de evidência. Como assim? Bom, deixe-me tentar explicar de uma maneira simples.
Em geral, alguém é considerado obeso quando é muito gordo: o conceito de obeso pressupõe o conceito de gordo. Em outras palavras, é impossível ser obeso sem ser gordo.
Representemos obeso por O e gordo por G. Em termos formais, dizemos que O -> G (leia-se, O implica em G), isto é, se você é obeso, então você é gordo.
Note que o fato de O -> G não quer dizer que a volta é válida, isto é que, G -> O. Você pode ser gordo, mas apenas gordinho, ou gordo-magro, ou semi-gordo (ou diversos outros nomes que inventam por aí), mas pode não ser muito gordo e, consequentemente, não é obeso.
Bom, suponha agora que você queira descobrir se um determinado indivíduo é gordo ou é obeso. Suponha, também, que você tenha dados de exames deste indivíduo, que forneçam evidência para a hipótese de ele ser gordo ou ser obeso. Como uma boa evidência deveria se comportar?
Note que uma evidência “bem comportada” deveria ser coerente no seguinte sentido: se ela é uma evidência que dê bons indícios de que o indivíduo seja obeso, ela deve ser tão boa ou melhor evidência de que o indivíduo seja gordo. Por quê? Ora, porque, como vimos, se você é obeso, necessariamente você é gordo. Uma medida de evidência que indicasse que você é obeso, mas não é gordo, seria contraditória, certo?
Mas é isso que o p-valor, de certo modo, faz.
Por exemplo, no exemplo simples de uma distribuição normal trazido por Schervish, utilizando um teste uniformemente mais poderoso não viesado para hipóteses intervalares, quando se observa x=2,18, para uma hipótese de que a média esteja no intervalo [-0,82, 0,52], o p-valor é de 0,0498. Já para uma hipótese de que a média esteja no intervalo [-0,5, 0,5] o p-valor é de 0,0502. Note, entretanto, que, se a média não estiver no primeiro intervalo, necessariamente ela não está no segundo intervalo. Mas a evidência é “mais forte” contra a primeira hipótese do que contra a segunda. E se o limiar de 5% (que é comumente adotado) fosse utilizado para rejeitar ou aceitar uma hipótese (isso por si só já poderia ser bastante problemático, pois não rejeitar não é a mesma coisa de aceitar), você diria que a média não está em [-0,82, 0,52] mas que está em [-0,5, 0,5]. Isso é mais ou menos a mesma coisa de dizer que alguém é obeso, mas não é gordo.
Há vários problemas de interpretação com os métodos de inferência que estão sendo utilizados atualmente, e pretendo trazer outros pontos mais a frente.
Pingback: E se o seu p-valor for igual a 0,999? | Análise Real
Inicialmente, parabéns pelo Blog. Sensacional. Discussões de muito alto nível.
Quanto ao post, tenho alguns comentários e gostaria de abrir uma discussão:
Fiquei com dúvia em seu cometário. Quem é a hipótese nula do teste que vc propôs? Ao que me parece é que a média está nos intervalos contruídos. Se for mesmo isso, há mais coisas que afetam as conclusões a que você chegou. Vc supõs que tenha encontrado esses dois intervalos para uma mesma média? Obtida da mesma amostra? (impossível!)
Se não, é completamente possível que o teste, realizado a partir de duas amostras diferentes (e por isso com dois desvios padrão diferentes e, eventualmente com nº de obs. defierente) apresentem os resultados que vc apresentou e isso não seria nenhum problema. Continua a validade do teste de hipótese e não há a limitação apresentada. Se está com duas amostras diferentes, por isso, dois intervalos diferentes, não quer dizer que furou o O -> G. Essa é a beleza da inferência. Ela depende das características da sua amostra: Desv. padrão, probabilidade que você se permite cometer erro (nível de significância e do nº de observações. Então, com duas amostras diferentes, sem “furar a lógica” ´´e bem possível chegar aos resultados que vc apresentou e a inferência continua MUITO poderosa.
CurtirCurtir
Olá, Arthur, obrigado!
Neste caso é a mesma “amostra”, isto é, x=2.18. A hipótese nula seria que a média está nos intervalos. Para intervalos diferentes, o p-valor vai ser diferente com os mesmos dados, e ele não vai ser uma media “coerente”. Em tese, isto não é uma contradição, pois a definição do p-valor é apenas a probabilidade de observar dados mais extremos do que o observado.
O “problema” aqui é interpretar o p-valor como uma medida de suporte da hipótese nula, essa interpretação é incorreta e poderia levar o usuário a uma contradição.
Veja também o exemplo 1.1 do Alexandre Patriota, paper abaixo.
Com os mesmos dados, normal bivariada matriz var-covar identidade, médias amostrais 0.14 e -0.16.
O pvalor supondo que as médias sejam iguais é 3%, mas o pvalor de que as médias sejam ambas iguais a zero é10%. Mas se você rejeitar que ambas sejam iguais, logicamente elas não podem ser as duas iguais a zero.
Clique para acessar o 1201.0400.pdf
Abraços
CurtirCurtir
Pingback: Confusão eterna! A “descoberta” do Bóson de Higgs | Análise Real
Pingback: O que é o p-valor | Análise Real
Oi Carlos, tudo certo?
Eu sou o Diego Brandao que vc conheceu no curso do Bacen. Tudo certo por ai?
Só uma pergunta. O p-valor eh calculado supondo q a hipotese nula eh verdadeira nao?
Entao, por exemplo, o p-valor da hipotese de a media ser maior que .5 tem necessariamente que ser menor do que a hipotese de .52. Isto eh, se vc rejeita a hipotese que a media eh maior que .52, entao vc rejeita a hipotese de ser .5 e todos ficamos felizes.
Agora no seu problema, a hipotese nula eh um intervalo. Como se calcula o p valor nesse caso? Qual media se usa na normal? Se for o menor valor p entre todas as medias, por exemplo, entao claramente o intervalo maior ira ter o menor p valor.
Tem alguma coisa sutil nessa historia.
Bom era isso.
Abraco!
Diego
CurtirCurtir
Fala, Diego, tranquilo!
Então, se você ver o paper do Schervish ele define o p-valor e inclusive dá uma notação diferente para cada tipo de hipótese, simples ou composta.
Mas explicando de maneira intuitiva, o tamanho do teste é a probabilidade de você errar quando H0 é verdadeira, e o p-valor é essa probabilidade usando como cut-off o valor observado (isto é, a probabilide de se ter uma estatística tão ou mais extrema do que a observada). Assim, em geral, p-valor vai ser o sup da função poder no conjunto paramétrico da hipótese nula, tomando como cut-off a estatística observada. No caso da função normal, como ela é bem comportada fica fácil, basta calcular com o extremo.
Um exemplo mais interessante pode ser o do Alexandre que eu citei no comentário acima, caculando a distribuição quando ambas as médias são iguais a zero e quando ambas são iguais a qualquer valor.
Abraços!
CurtirCurtir
Ah, no seu exemplo você também usaria mais ou menos o mesmo principio para calcular o p-valor, pois se você queria saber se a media é maior do que .5, então provavelmente você testaria H0: mu pertence a (-infinito, .5], que também é um conjunto, e calcularia o pvalor na fronteira.
CurtirCurtir
Pingback: Tops do blog de 2012 – I | Análise Real
Pingback: Obesos e gordos na estatística | De Gustibus Non Est Disputandum
Pingback: Você é obeso… mas não é gordo 2! Ou, mais sobre p-valores. | Análise Real