A evidência prova: você é obeso… mas não é gordo!


O p-valor (ou valor p) é, talvez, a estatística mais difundida entre médicos, psicólogos, economistas e quase toda profissão que utilize inferência estatística.

Virtualmente todo mundo que fez um curso de graduação ou pós-graduação já se deparou com o p-valor, seja nas disciplinas de estatística, seja ao realizar um trabalho empírico aplicado.

Entretanto, quase ninguém sabe muito bem o que o p-valor é ou pode ser considerado quando se trata de evidência. Sobre este ponto, há um artigo de 1996, do Schervish, que mostra como o p-valor não é uma medida coerente de evidência. Como assim? Bom, deixe-me tentar explicar de uma maneira simples.

Em geral, alguém é considerado obeso quando é muito gordo: o conceito de obeso pressupõe o conceito de gordo. Em outras palavras, é impossível ser obeso sem ser gordo.

Representemos obeso por O e gordo por G. Em termos formais, dizemos que O -> G (leia-se, O implica em G), isto é, se você é obeso, então você é gordo.

Note que o fato de O -> G não quer dizer que a volta é válida, isto é que, G -> O. Você pode ser gordo, mas apenas gordinho, ou gordo-magro, ou semi-gordo (ou diversos outros nomes que inventam por aí), mas pode não ser muito gordo e, consequentemente, não é obeso.

Bom, suponha agora que você queira descobrir se um determinado indivíduo é gordo ou é obeso. Suponha, também, que você tenha dados de exames deste indivíduo, que forneçam evidência para a hipótese de ele ser gordo ou ser obeso. Como uma boa evidência deveria se comportar?

Note que uma evidência “bem comportada” deveria ser coerente no seguinte sentido: se ela é uma evidência que dê bons indícios de que o indivíduo seja obeso, ela deve ser tão boa ou melhor evidência de que o indivíduo seja gordo. Por quê? Ora, porque, como vimos, se você é obeso, necessariamente você é gordo. Uma medida de evidência que indicasse que você é obeso, mas não é gordo, seria contraditória, certo?

Mas é isso que o p-valor, de certo modo,  faz.

Por exemplo, no exemplo simples de uma distribuição normal trazido por Schervish, utilizando um teste uniformemente mais poderoso não viesado para hipóteses intervalares,  quando se observa x=2,18, para uma hipótese de que a média esteja no intervalo [-0,82, 0,52], o p-valor é de 0,0498. Já para uma hipótese de que a média esteja no intervalo [-0,5, 0,5] o p-valor é de 0,0502. Note, entretanto, que, se a média não estiver no primeiro intervalo, necessariamente ela não está no segundo intervalo. Mas a evidência é “mais forte” contra a primeira hipótese do que contra a segunda. E se o limiar de 5% (que é comumente adotado) fosse utilizado para rejeitar ou aceitar uma hipótese (isso por si só já poderia ser bastante problemático, pois não rejeitar não é a mesma coisa de aceitar), você diria que a média não está em [-0,82, 0,52] mas que está em [-0,5, 0,5]. Isso é mais ou menos a mesma coisa de dizer que alguém é obeso, mas não é gordo.

Há vários problemas de interpretação com os métodos de inferência que estão sendo utilizados atualmente, e pretendo trazer outros pontos mais a frente.

About these ads

11 pensamentos sobre “A evidência prova: você é obeso… mas não é gordo!

  1. Pingback: E se o seu p-valor for igual a 0,999? | Análise Real

  2. Inicialmente, parabéns pelo Blog. Sensacional. Discussões de muito alto nível.
    Quanto ao post, tenho alguns comentários e gostaria de abrir uma discussão:
    Fiquei com dúvia em seu cometário. Quem é a hipótese nula do teste que vc propôs? Ao que me parece é que a média está nos intervalos contruídos. Se for mesmo isso, há mais coisas que afetam as conclusões a que você chegou. Vc supõs que tenha encontrado esses dois intervalos para uma mesma média? Obtida da mesma amostra? (impossível!)
    Se não, é completamente possível que o teste, realizado a partir de duas amostras diferentes (e por isso com dois desvios padrão diferentes e, eventualmente com nº de obs. defierente) apresentem os resultados que vc apresentou e isso não seria nenhum problema. Continua a validade do teste de hipótese e não há a limitação apresentada. Se está com duas amostras diferentes, por isso, dois intervalos diferentes, não quer dizer que furou o O -> G. Essa é a beleza da inferência. Ela depende das características da sua amostra: Desv. padrão, probabilidade que você se permite cometer erro (nível de significância e do nº de observações. Então, com duas amostras diferentes, sem “furar a lógica” ´´e bem possível chegar aos resultados que vc apresentou e a inferência continua MUITO poderosa.

    Curtir

    • Olá, Arthur, obrigado!

      Neste caso é a mesma “amostra”, isto é, x=2.18. A hipótese nula seria que a média está nos intervalos. Para intervalos diferentes, o p-valor vai ser diferente com os mesmos dados, e ele não vai ser uma media “coerente”. Em tese, isto não é uma contradição, pois a definição do p-valor é apenas a probabilidade de observar dados mais extremos do que o observado.

      O “problema” aqui é interpretar o p-valor como uma medida de suporte da hipótese nula, essa interpretação é incorreta e poderia levar o usuário a uma contradição.

      Veja também o exemplo 1.1 do Alexandre Patriota, paper abaixo.

      Com os mesmos dados, normal bivariada matriz var-covar identidade, médias amostrais 0.14 e -0.16.

      O pvalor supondo que as médias sejam iguais é 3%, mas o pvalor de que as médias sejam ambas iguais a zero é10%. Mas se você rejeitar que ambas sejam iguais, logicamente elas não podem ser as duas iguais a zero.

      http://arxiv.org/pdf/1201.0400.pdf

      Abraços

      Curtir

  3. Pingback: Confusão eterna! A “descoberta” do Bóson de Higgs | Análise Real

  4. Pingback: O que é o p-valor | Análise Real

  5. Oi Carlos, tudo certo?

    Eu sou o Diego Brandao que vc conheceu no curso do Bacen. Tudo certo por ai?

    Só uma pergunta. O p-valor eh calculado supondo q a hipotese nula eh verdadeira nao?

    Entao, por exemplo, o p-valor da hipotese de a media ser maior que .5 tem necessariamente que ser menor do que a hipotese de .52. Isto eh, se vc rejeita a hipotese que a media eh maior que .52, entao vc rejeita a hipotese de ser .5 e todos ficamos felizes.

    Agora no seu problema, a hipotese nula eh um intervalo. Como se calcula o p valor nesse caso? Qual media se usa na normal? Se for o menor valor p entre todas as medias, por exemplo, entao claramente o intervalo maior ira ter o menor p valor.

    Tem alguma coisa sutil nessa historia.

    Bom era isso.

    Abraco!
    Diego

    Curtir

    • Fala, Diego, tranquilo!

      Então, se você ver o paper do Schervish ele define o p-valor e inclusive dá uma notação diferente para cada tipo de hipótese, simples ou composta.

      Mas explicando de maneira intuitiva, o tamanho do teste é a probabilidade de você errar quando H0 é verdadeira, e o p-valor é essa probabilidade usando como cut-off o valor observado (isto é, a probabilide de se ter uma estatística tão ou mais extrema do que a observada). Assim, em geral, p-valor vai ser o sup da função poder no conjunto paramétrico da hipótese nula, tomando como cut-off a estatística observada. No caso da função normal, como ela é bem comportada fica fácil, basta calcular com o extremo.

      Um exemplo mais interessante pode ser o do Alexandre que eu citei no comentário acima, caculando a distribuição quando ambas as médias são iguais a zero e quando ambas são iguais a qualquer valor.

      Abraços!

      Curtir

      • Ah, no seu exemplo você também usaria mais ou menos o mesmo principio para calcular o p-valor, pois se você queria saber se a media é maior do que .5, então provavelmente você testaria H0: mu pertence a (-infinito, .5], que também é um conjunto, e calcularia o pvalor na fronteira.

        Curtir

  6. Pingback: Tops do blog de 2012 – I | Análise Real

  7. Pingback: Obesos e gordos na estatística | De Gustibus Non Est Disputandum

  8. Pingback: Você é obeso… mas não é gordo 2! Ou, mais sobre p-valores. | Análise Real

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s