Escolha de modelos
Podemos considerar a escolha de modelos como um caso especial de testagem, afinal estamos testando qual modelo usar. Todavia, cuidado adicional deve ser tomado porque estamos lidando com modelos potencialmente bastante diferentes, diferente de apenas verificarmos se o parâmetro de um modelo específico mora em uma região do espaço de parâmetros.
Estamos agora considerando que a distribuição dos dados é desconhecida, o que torna mais difícil condicionar em . Isso também levanta a pergunta se pertence mesmo à família considerada e, de forma mais pronfunda, se um modelo verdadeiro de fato existe. Considere inicialmente uma situação que temos modelos paramétricos competindo: Do ponto de vista bayesiano, poderíamos contruir uma distribuição a priori para , e todas as inferências deveriam ser baseadas na posteriori definida em . Em geral, é um conjunto pequeno, com distribuições conhecidas.
📝
Exemplo
Em problemas de contagem, por exemplo o número de acidentes de carro em uma rodovia em um período de tempo, estamos modelando . Podemos atribuir duas distribuições distitas: ou . Note que a dimensão dos parâmetros é completamente diferente e cada distribuição tem suas particularidades.
Podemos também atribuir modelos não paramétricos, quando pouca informação sobre o processo gerador é obtido. Nesse caso, é infinito e possivelmente não enumerável. Outro problema que precisamos enfrentar, é que modelos diferentes podem ter resultados similares e serem apropriados, mesmo que não sejam os verdadeiros (se é que isso existe!). Por fim, existe a situação de compararmos modelos em que um é submodelo do outro. Nesse caso, em geral o modelo maior vai apresentar uma perda quadrática menor, por exemplo, mas mais parâmetros são estimados a partir da mesma amostra. O clássico exemplo dessa situação é a escolha das variáveis que vão compor uma regressão linear.
Framework padrão
Modelagem a priori
Podemos extender o espaço dos parâmetros para , em que é também um parâmetro. Assim, podemos definir como a probabilidade a priori para o modelo . Com isso, o Teorema de Bayes diz que Quando é infinito, a construção da priori para cada é delicada. Além do mais, quando um modelo é submodelo de outro , deveria haver uma coerência entre e e, talvez, entre e . Um outro ponto importante é que parâmetros comuns a modelos diferentes devem ser tratados como entidades separadas. Exceções devem ser consideradas caso a caso.
Fator de Bayes
O fator de Bayes é usado para comparar os modelos e . O problema acontece quando queremos comparar muitos modelos.
Critério de Schwartz
Considere a expansão de Laplace em que é o argumento máximo de e é a Hessiana de . Aplicando essa aproximação ao fator de Bayes, obtemos em que é a verossimilhança do modelo para observações e o respectivo argumento máximo. Portanto, em que O critério de Schwartz é dado por quando e o termo restante é negligenciável.
Esse critério também é conhecido como Critério de Informação de Bayes (BIC). Substituindo por , e temos o primeiro termo multiplicado por 2, temos o Critério de Informação Akaike (AIC). Apesar de ser uma aproximação de primeira ordem para o fator de Bayes, a dependência na priori desaparece, e a comparação só é válida para modelos regulares, logo a relevância em Inferência Bayesiana é menor.
Desvio bayesiano
Uma alternativa ao AIC e ao BIC é o Critério de Informação de Desvio (DIC), definido como em que é uma medida de desvio. e é uma penalização. Assim, quanto menor o valor de , melhor o modelo.
Ideias adicionais
Modelo médio: Uma forma de lidar com a escolha de modelos é não escolher um de fato, mas sim, incluir todos os modelos para lidar com a incerteza do modelo propriamente. Isso nem sempre é possível em questões científicas, já que a escolha de um modelo explicativo pode ser relevante. Além do mais, essa maneira parece infringir a parcimônia.
Projeção de modelos: essa abordagem é baseada na ideia de projetar um modelo em submodelos através de restrições em . Isso permite a construção de uma única priori para e, portanto, acomoda bem prioris impróprias. Dada uma restrição , uma ideia é considerar uma restrição aceitável se , em que é uma medida de divergência, tal como a pseudo-distância de Kullback-Leibler.