Introdução


📝 Exemplo (modelo capture-recapture)

Suponha que queremos estimar o número de ônibus em uma cidade. Uma forma de fazer isso é a seguinte: contamos a quantidade vista de ônibus em um dia () e armazenamos a identificação de cada um. No dia seguinte, fazemos a mesma coisa e obtemos (). Seja o número de ônibus que vimos nos dois dias. Qual a distribuição de ? Olhando para o segundo dia, em uma população de tamanho , tínhamos ônibus de interesse para recontar. Nossa amostra é de tamanho . Isso define a distribuição hipergeométrica, pois a amostragem do segundo dia é sem reposição (note que simplificamos que só podemos ver o mesmo ônibus uma vez). Logo

Sabemos que é um possível estimador para . Note que esse estimador não é necessariamente não enviesado, pois .


Modelo paramétrico

Schervish apresenta uma definição formalizada de modelo paramétrico, a qual eu apresento a seguir.

Seja um espaço de probabilidade, e e espaços de Borel (espaço mensurável isomorfo a um subconjunto mensurável dos reais. Em geral, veremos que esses espaços são subconjuntos mensuráveis dos reais). Seja e funções mensuráveis. Chamamos de parâmetro e de espaço de parâmetros. A distribuição de é família paramétrica de distribuições de dada por . A medida de probabilidade sobre induzida por a partir de é chamada de distribuição a priori (). A densidade de (que é absolutamente contínua) com respeito à uma medida é dada por a derivada de Radon-Nikodym.

Paradigma bayesiano

No paradigma bayesiano, as quantidades desconhecidas são tratadas como variáveis aleatórias, incluindo o parâmetro . Na página 12 de seu livro, Shervish apresenta uma justificativa matemática para esse fato. Assim, se temos um modelo para , precisamos de uma distribuição para , a qual chamamos de distribuição a priori. Com elas, construímos uma distribuição em . Em particular,

se for a densidade da distribuição de . Para isso, basta exigir que seja mensurável em .Matematicamente, probabilidades podem representar crenças numericamente, relacionando informação com probabilidade. A Regra de Bayes provê um método racional para atualizar essas crenças frente a novas informações. O processo indutivo de atualizar crenças com Bayes é chamada de inferência bayesiana.

Teorema de Bayes

Se é um evento com probabilidade positiva e é um outro evento, temos que Podemos expressar através de densidades, com em que é a densidade da priori do parâmetro e é chamada de distribuição a posteriori de (para uma demonstração detalhada do Teorema de Bayes, vale conferir a página 16 do livro de Schervish). Além disso, como o parâmetro é desconhecido, também denotamos a densidade de condicionada em como uma função de , após observar . Nesse caso, chamamos de função de verossimilhança para cada e observado. O denominador da expressão acima é chamada de densidade preditiva a priori e não depende de . É a marginal no espaço de estados.

A distribuição a priori encapsula a informação disponível sobre o parâmetro antes do experimento, incluindo a incerteza residual. Se a distribuição a priori e a distribuição dos dados representam crenças racionais, a regra de Bayes é o método ótimo para atualizar essas crenças sobre o parâmetro dada nova informação. Claro que, em geral, não conseguimos explorar as crenças de modo perfeito e a posteriori não vai ser ótima, nesse sentido.


📝 Exemplo (Bayes, 1974)

Uma bola de sinuca é rolada em uma linha de comprimento 1. É natural assumir que ela tem uma distribuição uniforme de parar em qualquer lugar, só dependendo da força exercida sobre ela. Seja o ponto de parada. Em seguida, rolamos uma outra bola vezes e contamos a quantidade de vezes () que ela parou antes de . Nesse caso, observado , queremos inferir . Se fosse conhecido, qual seria distribuição de ? Veja que temos experimentos independentes e idênticos de sucesso ou falha, com probabilidade de sucesso (lembrando da distribuição uniforme!). Nesse caso . Com essas configurações, podemos verificar que em que é a função Beta.


Enquanto a estatística clássica é dirigida por princípios justificados axiomaticamente, a abordagem bayesiana incorpora esses princípios sem a restrição sobre os procedimentos e também rejeita outros princípios. Por exemplo, o conceito de estimadores não enviesados, em geral preferidos na estatística clássica, impõe restrições fortes sobre os procedimentos adotados e leva a performances ineficientes (ver exemplo de Stein). Isso acontece, pois a justificativa é assintótica, já que em média o estimador é correto.

Por fim, em estatística bayesiana, TODAS AS INFERÊNCIAS SÃO BASEADAS NA DISTRIBUIÇÃO A POSTERIORI.

Um pouco de história

Em 1763, é publicado An Essay towards Solving a Problem in the Doctrine of Chances, paper atribuído a Thomas Bayes e publicado por Richard Price. O principal objeto desse trabalho, além do exemplo acima, é o que conhecemos como Teorema de Bayes, mas com a priori sendo uniforme. Laplace, em Memoir on the Probability of the Causes of Events foi quem descreveu em uma forma mais geral, apesar de ainda ser discreta. Do ponto de vista probabilístico, o Teorema de Bayes é apenas uma forma de mensurar a incerteza. A controvérsia advém da interpretação da probabilidade e se ele deveria ser considerado ponto central no processo de aprendizado.

Visão subjetiva da probabilidade

A visão de que o mundo é determinístico ou não, como a discussão do Demônio de Laplace, é pouco importante na verdade para a estatística. O que importa é a incerteza que temos sobre as quantidades. No prefácio de seu livro Theory of Probability, Bruno de Finetti argumenta que "probabilidade não existe" no sentido objetivo. A única exigência é que exista consistência em nossas crenças e na relação com dados objetivos. Basicamente, a definição de probabilidade é subjetiva: a taxa em que o indivíduo está disposto a apostar na ocorrência de um evento.

Considere um dado normal de seis lados. Um frequentista afirmaria que, por simetria, cada lado tem igual chance de ocorrer. Evidência empírica passada suportaria sua afirmação. Um subjetivista ouviria os argumentos, mas o que realmente iria considerar seria sua crença sobre o que acontecerá em uma jogada de dados, isto é, quanto seria apostado em cada lado, dada a informação presente. Logo, no trabalho de De Finetti, Probabilidade e Preço são equivalentes. Para uma discussão mais detalhada, consulte esse trabalho.

Princípio da Verossimilhança e Princípio da Suficiência

Suficiência

Seja . Uma função/estatística (a imagem de , juntamente com o conjunto de seus singletons, pode ser qualquer espaço mensurável) é suficiente se a distribuição de condicionada em não depende de . Para mais detalhes, ver aqui. De forma simplificada, traz toda a informação sobre advinda de . Schervish (página 84) adiciona o fato de que para qualquer priori , a distribuição a posteriori de condicionada em e a posteriori condicionada em são iguais quase certamente. Como demonstrado no Teorema 2.14 do mesmo livro, essas definições são equivalentes dadas algumas hipóteses de regularidade.

O Teorema da fatoração Fisher-Neyman mostra que se a densidade de é a derivada de Radon-Nikodym para alguma medida de probabilidade ( - finita) cuja distribuição seja absolutamente contínua, então vale que é suficiente para se, e somente se, existem funções e não-negativas tal que

O conceito de suficiência foi introduzido por Fisher e está associado com o seguinte princípio:

Princípio da Suficiência (PS): Se duas observações e são tais que para alguma estatística suficiente , então elas devem levar à mesma inferência sobre o parâmetro.


📝 Exemplo

Suponha que observamos . Uma estatística suficiente para é a média amostral , em particular, Logo, inferências sobre só devem se basear em , segundo o Princípio da suficiência.


Princípio da Verossimilhança

Esse conceito é também atribuído a Fisher, mas a sua formalização se deve a Birnbaum (1962).

Princípio da Verossimilhança (PV): a informação trazida por uma observação sobre é inteiramente contida na função de verossimilhança . Além do mais, se duas observações e dependem de , de forma que para alguma constante , então elas levam à mesma inferência sobre .

Uma outra forma de expressar esse princípio é o seguinte: Se e são experimentos definidos em , representados pelas densidades e , e e são observações determinando a mesma função de verossimilhança, então a evidência trazida por ambos os experimentos é a mesma vista a partir dessas observações, isto é, o resultado de qualquer experimento é caracterizado somente pela verossimilhança até uma constante.


📝 Exemplo

Seja a proporção de doentes em uma população. Um examinador encontrou nove pessoas saudáveis e três doentes. Se nenhuma informação adicional é obtida, podemos propor dois modelos diferentes para esse fenômeno:

(1) O examinador testou 12 pessoas e observou com .

(2) Ele questionou pessoas até encontrar doentes. Nesse caso,

Apesar do dado ser diferente em ambos os experimentos, as verossimilhanças são proporcionais. Portanto, as inferências devem ser as mesmas sobre .


Como as inferências são baseadas na posteriori, a abordagem bayesiana satisfaz o Princípio da Verossimilhança. Porém, na abordagem frequentista, isso não é verdade, já que é baseada no comportamento médio dos procedimentos. O estimador de máxima verossimilhança também satisfaz.

Derivando o princípio da verossimilhança

Princípio da Condicionalidade (PC): Se dois experimentos e sobre estão disponíveis e um deles é selecionado com probabilidade , a inferência resultante sobre só deveria depender do experimento selecionado.

O fato que Birnbaum demonstrou é que PS + PC = PL. Isso é interessante, pois, para muitos estatísticos, PS e PC são aceitáveis, mais PL não. Isso faz com que os resultados científicos, para serem coerentes, devessem ser descritos através da função de verossimilhança, e não por níveis de significância e estimativas intervalares. Evans, 2013 utiliza teoria dos conjuntos para mostrar que a demonstração de Birnbaum tem falhas, já que ignora uma hipótese chave. Gandenberger, 2015 ofereceu uma nova demonstração para o Princípio da Verossimilhança, mas com hipóteses diferentes. Aqui temos um breve resumo em formato de slides.

Distribuições a priori e a posteriori

Dada a distribuição de dada por e a distribuição a priori , podemos derivar as seguintes distribuições:

(a) a distribuição conjunta

(b) a distribuição marginal de

(c) a distribuição a posteriori de

(d) a distribuição preditiva de , quando

Distribuições a priori impróprias

Para a especificação de um modelo (paramétrico) segundo o preceito bayesiano, é preciso definir uma família paramétrica para as observações e uma distribuição a priori para . É importante destacar que ambas são escolhas que introduzem subjetividade. Para especificar uma priori, traduzimos conhecimento prévio em uma distribuição de probabilidade. Nem sempre, temos uma informação suficiente para tal. Uma maneira usual de contornar essa situação é construir uma sequência de distribuições no espaço de parâmetros e tomar como a distribuição limite. Todavia, ela poderá sofrer com a propriedade que Nesse caso temos uma distribuição imprópria ou generalizada.


📝 Exemplo

Suponha que tenhamos , em que . Queremos uma priori normal em , mas não temos muita certeza de sua localização. Logo, uma variância baixa seria uma péssima escolha. Seja . Qual a variância que podemos dizer que não é baixa? Se fizermos , não teremos mais uma distribuição normal.


Nesses casos, escolhemos uma medida sobre , cuja posteriori calculada exista, com respeito a . Nesse caso, basta verificar se é finita e positiva. Nesse caso, definimos a posteriori segundo a sua fórmula pelo Teorema de Bayes. Para definir matematicamente, de forma precisa, a distribuição imprópria, existem algumas tentativas.

(1) Remover a restrição de que a probabilidade do espaço é 1.

(2) Probabilidades são finitamente aditivas, e não contavelmente aditivas.

Em ambos os casos, muitos resultados de probabilidade falham.

Alguns comentários sobre prioris impróprias destacados por Robert (páginas 27-31):