Testes e regiões de confiança
Com a abordagem bayesiana, podemos fazer afirmações do tipo , o que é difere da proposta frequentista, já que lá o parâmetro é fixo, apesar de desconhecido. Alguns bayesianos acreditam que o teste, em especial o teste com hipótese nula pontual, não deveria ser realizado por diversos motivos: representação redutiva do modelo; priori modificada de forma não natural para representar a questão pontual; falta de estrutura baseada em teoria da decisão; impossibilidade do uso de prioris impróprias.
Uma primeira abordagem
Considere um modelo com . Queremos verificar com sendo um subconjunto de interesse. Chamamos de hipótese nula. Em contrapartida, temos a hipótese alternativa com e pertencendo a um dos dois conjuntos.
A perda proposta por Neyman e Pearson é Para essa perda, o estimador de Bayes é Podemos generalizar essa perda para cujo estimador de Bayes é se , sendo essa fração o nível de aceitação.
Fator de Bayes
Definimos o fator de Bayes como a razão das razões da posteriori e da priori: que avalia a modificação das chances de contra . Observe que é a distribuição a priori sob .
Jeffreys desenvolveu uma escala (fora da uma configuração baseada em teoria da decisão) para avaliar a evidência trazida por contra , considerando o valor :
📝
Exemplo (Basquete)
Um jogador de basquete tem "mão quente" quando tem bons e maus dias, ao invés de uma probabilidade fixa de vencer em um lançamento. O modelo base é para cada jogo ( é fixo). A Alternativa é que varia com o dia. Considere a priori , de forma que . Isto é, estamos fixando as médias das jogadas dos dias e afirmando que alguns dias teremos e outros , é claro com alguma probabilidade. Além do mais, consideramos . O fator de Bayes é
No paper Kass, Raftery (1995), verificou-se que para , temos , que dá baixa evidência a favor de , isto é, que existem bons e maus dias. Escolhemos olhando para
Note que se for pontual, não conseguimos usar o Fator de Bayes. Para esses casos, precisamos definir Apesar de hipóteses pontuais serem problemáticas, elas têm muita utilidade na prática.
Assim, teremos a priori com posteriori em que é a marginal dos dados sob . Em particular, o Fator de Bayes é levando à relação
📝
Exemplo (Distribuição normal)
Considere e . Se usarmos a priori imprópria , teremos que a posteriori de será isto é, a posteriori é limitada superiormente por um valor baixo. Fenômeno parecido acontece quando é um conjunto compacto.
Uma questão interessante é que para os níveis tradicionais, que ocorrem quando e (respectivamente níveis ), a posteriori de é próxima a esses valores (quando a priori é a medida de Lebesgue).
Em particular, quando para , temos que que é o p-valor desse mesmo teste.
Comparação com a abordagem clássica
A abordagem clássica da teoria de testagem é de Neyman-Pearson. Com isso, consideramos a seguinte definição:
Poder: O poder de um procedimento de teste é a probabilidade de rejeitar sob a hipótese alternativa, isto é, quando . A quantidade é o erro do tipo II, enquanto o erro do tipo I é quando . Em resumo,
- é erro do tipo I.
- é erro do tipo II.
Testes UMP
Testes frequentistas buscam minimizar o risco frequentista sob . Em particular, minimiza-se na classe de procesdimentos , em que e
Um teste é dito Uniformemente Mais Poderoso (UMP) a nível se e se ele minimiza o risco frequentista uniformemente em em . Esse método é desbalanceado com respeito às hipóteses, porque o erro do tipo II pode ser muito grande, mesmo quando é uma transformação contínua de .
Proposição: Seja uma distribuição que possua razão de verossimilhança crescente em , isto é, para , a função cresce com . Se queremos testar , existe um teste UMP da forma de forma que .
📝
Exemplo (Família exponencial)
Seja da família exponencial, isto é, que é crescente em .
Podemos construir uma proposição no mesmo sentido da anterior, só que quando é do tipo e a densidade do dado pertence à família exponencial. Nesse caso o teste UMP é da forma se e se , em que e são escolhidos a partir da condição de que . No caso em que o papel de é trocado com o de , não existe teste UMP. Nessas situações, podemos restringir a classe de testes para os não enviesados, em que Isso leva a noção de teste Uniformemente Mais Poderoso não enviesado (UMPU).
Outra forma de construir testes é baseada na distribuição (em geral assintótica) de
p-valores
O p-valor associado a um teste é o menor nível de significância para o qual a hipótese nula é rejeitada.
Para a hipótese nula pontual, uma definição mais geral considera como p-valor qualquer estatística com distribuição uniforme sob a hipótese nula.
Algumas críticas:
-
O p-valor contradiz o Princípio da Verossimilhança, pois envolve a distribuição inteira da observação;
-
Não são avaliados sob nenhum função de perda, loho não tem otimalidade intrínseca;
-
O p-valor é frequentemente visto como uma aproximação para , apesar de isso ser insignificante em uma configuração frequentista.
-
p-valores não sumarizam toda a informação do teste, afinal o erro do tipo II é omitido. Isso é perigoso, afinal na prática o p-valor é visto como o procedimento de teste.
Uma segunda abordagem
A ideia é construir uma alternativa a Newyman-Pearson que justifique o uso de probabilidades a posteriori como medidas para testes. A primeira modificação é alterar o espaço de decisões para o intervalo . Queremos que eles indiquem o grau de evidência a favor de .
Proposição: Sob a perda , o estimador de Bayes associado a é a probabilidade a posteriori .
Essa proposição é consequência direta de o estimador de Bayes ser a média a posteriori de .
Consideremos a família exponencial natural
Para a hipótese nula unilateral , um intervalo é dito conjunto truncação para quando se e para . No caso de uma hipótese bilateral, vale quando para . Para a hipótese bilateral com , um estimador com conjunto truncação é admissível se existe uma medida de probabilidade em e uma medida -finita em tal que para . Alternativamente, se é admissível, existem , e satisfazendo a relação acima.
Para o teste logo acima, quando a distribuição amostral é contínua com respeito a Lebesgue, o p-valor é inadmissível.
Regiões de confiança
Intervalos de credibilidade
Para uma priori , um conjunto é dito conjunto se Essa região é chamada de região HPD ("highest posterior density") quando pode ser escrita sob a forma em que é o maior valor tal que . Essas regiões minimizam o volume entre as regiões -credíveis.
Uma alternativa é definir um intervalo tal que
Intervalos de confiança clássicos
Sob a teoria de Neyman-Pearson, regiões de confiança podem ser estabelecidas a partir de testes UMPU. Seja a região de não rejeição de . Note que e . De forma mais geral, se vale que para todo , então é dita região de confiança.