Testes e regiões de confiança

Com a abordagem bayesiana, podemos fazer afirmações do tipo , o que é difere da proposta frequentista, já que lá o parâmetro é fixo, apesar de desconhecido. Alguns bayesianos acreditam que o teste, em especial o teste com hipótese nula pontual, não deveria ser realizado por diversos motivos: representação redutiva do modelo; priori modificada de forma não natural para representar a questão pontual; falta de estrutura baseada em teoria da decisão; impossibilidade do uso de prioris impróprias.

Uma primeira abordagem

Considere um modelo com . Queremos verificar com sendo um subconjunto de interesse. Chamamos de hipótese nula. Em contrapartida, temos a hipótese alternativa com e pertencendo a um dos dois conjuntos.

A perda proposta por Neyman e Pearson é Para essa perda, o estimador de Bayes é Podemos generalizar essa perda para cujo estimador de Bayes é se , sendo essa fração o nível de aceitação.

Fator de Bayes

Definimos o fator de Bayes como a razão das razões da posteriori e da priori: que avalia a modificação das chances de contra . Observe que é a distribuição a priori sob .

Jeffreys desenvolveu uma escala (fora da uma configuração baseada em teoria da decisão) para avaliar a evidência trazida por contra , considerando o valor :


📝 Exemplo (Basquete)

Um jogador de basquete tem "mão quente" quando tem bons e maus dias, ao invés de uma probabilidade fixa de vencer em um lançamento. O modelo base é para cada jogo ( é fixo). A Alternativa é que varia com o dia. Considere a priori , de forma que . Isto é, estamos fixando as médias das jogadas dos dias e afirmando que alguns dias teremos e outros , é claro com alguma probabilidade. Além do mais, consideramos . O fator de Bayes é

No paper Kass, Raftery (1995), verificou-se que para , temos , que dá baixa evidência a favor de , isto é, que existem bons e maus dias. Escolhemos olhando para


Note que se for pontual, não conseguimos usar o Fator de Bayes. Para esses casos, precisamos definir Apesar de hipóteses pontuais serem problemáticas, elas têm muita utilidade na prática.

Assim, teremos a priori com posteriori em que é a marginal dos dados sob . Em particular, o Fator de Bayes é levando à relação


📝 Exemplo (Distribuição normal)

Considere e . Se usarmos a priori imprópria , teremos que a posteriori de será isto é, a posteriori é limitada superiormente por um valor baixo. Fenômeno parecido acontece quando é um conjunto compacto.

Uma questão interessante é que para os níveis tradicionais, que ocorrem quando e (respectivamente níveis ), a posteriori de é próxima a esses valores (quando a priori é a medida de Lebesgue).

Em particular, quando para , temos que que é o p-valor desse mesmo teste.


Comparação com a abordagem clássica

A abordagem clássica da teoria de testagem é de Neyman-Pearson. Com isso, consideramos a seguinte definição:

Poder: O poder de um procedimento de teste é a probabilidade de rejeitar sob a hipótese alternativa, isto é, quando . A quantidade é o erro do tipo II, enquanto o erro do tipo I é quando . Em resumo,

Testes UMP

Testes frequentistas buscam minimizar o risco frequentista sob . Em particular, minimiza-se na classe de procesdimentos , em que e

Um teste é dito Uniformemente Mais Poderoso (UMP) a nível se e se ele minimiza o risco frequentista uniformemente em em . Esse método é desbalanceado com respeito às hipóteses, porque o erro do tipo II pode ser muito grande, mesmo quando é uma transformação contínua de .

Proposição: Seja uma distribuição que possua razão de verossimilhança crescente em , isto é, para , a função cresce com . Se queremos testar , existe um teste UMP da forma de forma que .


📝 Exemplo (Família exponencial)

Seja da família exponencial, isto é, que é crescente em .


Podemos construir uma proposição no mesmo sentido da anterior, só que quando é do tipo e a densidade do dado pertence à família exponencial. Nesse caso o teste UMP é da forma se e se , em que e são escolhidos a partir da condição de que . No caso em que o papel de é trocado com o de , não existe teste UMP. Nessas situações, podemos restringir a classe de testes para os não enviesados, em que Isso leva a noção de teste Uniformemente Mais Poderoso não enviesado (UMPU).

Outra forma de construir testes é baseada na distribuição (em geral assintótica) de

p-valores

O p-valor associado a um teste é o menor nível de significância para o qual a hipótese nula é rejeitada.
Para a hipótese nula pontual, uma definição mais geral considera como p-valor qualquer estatística com distribuição uniforme sob a hipótese nula. Algumas críticas:

Uma segunda abordagem

A ideia é construir uma alternativa a Newyman-Pearson que justifique o uso de probabilidades a posteriori como medidas para testes. A primeira modificação é alterar o espaço de decisões para o intervalo . Queremos que eles indiquem o grau de evidência a favor de .

Proposição: Sob a perda , o estimador de Bayes associado a é a probabilidade a posteriori .

Essa proposição é consequência direta de o estimador de Bayes ser a média a posteriori de .

Consideremos a família exponencial natural

Para a hipótese nula unilateral , um intervalo é dito conjunto truncação para quando se e para . No caso de uma hipótese bilateral, vale quando para . Para a hipótese bilateral com , um estimador com conjunto truncação é admissível se existe uma medida de probabilidade em e uma medida -finita em tal que para . Alternativamente, se é admissível, existem , e satisfazendo a relação acima.

Para o teste logo acima, quando a distribuição amostral é contínua com respeito a Lebesgue, o p-valor é inadmissível.

Regiões de confiança

Intervalos de credibilidade

Para uma priori , um conjunto é dito conjunto se Essa região é chamada de região HPD ("highest posterior density") quando pode ser escrita sob a forma em que é o maior valor tal que . Essas regiões minimizam o volume entre as regiões -credíveis.

Uma alternativa é definir um intervalo tal que

Intervalos de confiança clássicos

Sob a teoria de Neyman-Pearson, regiões de confiança podem ser estabelecidas a partir de testes UMPU. Seja a região de não rejeição de . Note que e . De forma mais geral, se vale que para todo , então é dita região de confiança.