Teoria da Decisão

Em geral, a estatística se preocupa em propor uma decisão frente a um problema apresentado. Nesse caso, a avaliação deve estar clara, como, por exemplo, com a descrição do procedimento e suas consequências. A Teoria da Decisão entra para axiomatizar a estrutura de avaliar um estimador para algum parâmetro. O critério para avaliar uma tomada de decisão é usualmente através de uma função de perda. Alguns estatísticos discordam de usá-la, justamente porque defini-la para um problema pode levar a resultados inesperados.

Seja o espaço das decisões (por exemplo, uma estimativa é uma decisão) e o espaço dos parâmetros. Uma função de perda é uma função e avalia uma penalidade em tomar a decisão com respeito a . Quando , temos que mede o erro em obter por . Escolher uma função de perda de maneira a considerar o problema em questão não é uma tarefa fácil. A complexidade envolvida em defini-la a partir de conceitos subjetivos leva ao uso de perdas matematicamente tratáveis, como a perda quadrática ou absoluta, por exemplo.

Então, em uma inferência bayesiana, do ponto de vista da Teoria da Decisão, os três fatores principais são: a família paramétrica de distribuições das observações, a distribuição a priori dos parâmetros, e a função de perda associada às decisões. Inclusive a subjetividade em definir a função de perda e a priori não pode ser separada, conforme destacado por Lindley (1985).


📝 Exemplo (Função de perda)

Considere o problema de estimar a , em que , em que é conhecido. Nesse caso, . Uma ideia é usar a perda da forma em que o mínimo de é em 0. Além disso, a divisão pelo desvio padrão reduz o viés de variância grande, principalmente quando a dimensão de aumenta. Usualmente é a perda escolhida.


Função utilidade

Utilidade é definida como o oposto de perda e é utilizada quando se pretende ordenar consequências de decisões. Ou seja, a utilidade sumariza os possíveis resultados de uma decisão, como, por exemplo, o lucro da empresa. Seja o espaço das recompensas, que assumimos possuir uma ordenação total de forma que para todo , tem-se que ou e com implica . A primeira propriedade permite comparar qualquer duas recompensas, enquanto a segunda é a transitividade e fixa uma noção que esperaríamos de recompensas.

Agora, vamos estender essa noção de ordem para , o espaço das distribuições de probabilidade em . Assumimos que está disponível em e que satisfaz

(H1) ordem total;

(H2) transitividade.

No caso, de certa forma, através das distribuições de Dirac com massa em um ponto específico.

Queremos construir uma função em que chamaremos de função de utilidade através da relação . Através da seguinte axiomatização, conseguimos assegurar tal existência. Observe que se a relação for equivalente a , então conseguimos determinar a existência dessa relação em , o que dá uma espécie de recíproca do que queremos encontrar.

Considere o conjunto das distribuições definidas em um suporte limitado . Uma mistura é definida como , em que . Assumimos que

(H3) Se , temos que , .

(H4) Se , então existem de forma que,

Note que H4 implica que se com , então existe um único de forma que . Para demonstrar esse resultado, basta supor a não existência e usar um argumento de supremo e ínfimo associado à hipótese de (H4). Com esse resultado, dados , defina da seguinte forma:

Com essa definição, temos que e . Além do mais, preserva relação de ordem e se , então teremos que .

Agora, precisamos extender a definição de para , o que existe uma hipótese adicional. Defina em que . Note que é obtido a partir das relações do parágrafo anterior, isto é, sabemos que para cada , existe , de forma que e obtemos através da fórmula . Além disso indica a probabilidade de selecionarmos quando escolhemos uma loteria segundo a distribuição de probabilidade . Assumimos que

(H5) .

Com isso, é possível definir a função de utilidade em . Dos resultados que se seguem, considere o seguinte teorema:

Teorema: Sejam . Então se, e somente se, . Além do mais, se outra função de utilidade satisfaz a relação de equivalência, então existem constantes e de forma que .

Com duas hipóteses adicionais, podemos extender esse resultado para que é o conjunto das distribuições que tem finita.

Algumas críticas ao formalismo incluem: é impossível que um indivíduo consiga comparar quaisquer duas recompensas. Além do mais, a transitividade é algo forte demais. Às vezes, resultados da vida real levam à não transitividade. A extensão de para também é bastante problematizada, mas explica um pouco da relação da priori com a escolha da função de perda, no sentido bayesiano.

Um exemplo interessante é o paradoxo de Saint Petersburg que argumenta que o valor esperado do prêmio é infinito, mas a quantidade que os jogadores recebem é em geral baixa. Uma solução possível para esse paradoxo é mudar a função de utilidade para uma limitada.

Relação entre utilidade e perda

A Teoria da Decisão assume que cada ação pode ser avaliada e leva a uma recompensa com utilidade . Seja . Temos que mede uma proximidade entre e . Após definir a função de utilidade, fazemos como a função de perda. Note que essa desigualdade implica que é limitada superiormente por .

É claro que , quando é desconhecido, é praticamente impossível, pois deveríamos ter um resultado uniforme em . Por isso, os frequentistas usam a noção de perda média ou risco frequentista: em que é a decisão baseada em quando . Chamamos de estimador, enquanto de estimativa. No cenário frequentista, estimadores são comparados segundo a performance a longo-prazo, para todos os valores de .

Note que é uma perda média ponderada sobre a distribuição de . Logo, o dado observado não é considerado nesse caso, o que é uma crítica ao método. Além disso, existe uma controvérsia sobre a ideia de repetir experimentos, conceito importante para o frequentismo. Por fim, para cada , temos que é uma função e, portanto, não induz uma ordem total no conjunto de procedimentos.

No procedimento bayesiano, já integramos sobre o espaço de dos parâmetros. Assim, usamos a perda esperada a posteriori: em que . O erro integrado é definido como em que a última relação é uma aplicação do Teorema de Fubini dado que . Além do mais, para minimizar , para cada , podemos tomar que minimiza , pela última igualdade da expressão acima.

Estimador de Bayes: Seja uma priori e uma perda . O estimador de Bayes é que minimiza . Em particular, para cada , temos que . O risco bayesiano é o valor .

Note que para perdas estritamente convexas, o estimador de Bayes é único.

Maximalidade e admissibilidade

Considere o espaço das distribuições de probabilidade em . Um estimador aleatorizado significa tomar uma decisão de acordo com a densidade de probabilidade . A perda é definida como Usar esse estimador não é usual porque ele adiciona ruído em um fenômeno para tomar uma decisão sob incerteza. Além do mais, ele não obedece o Princípio da Verossimilhança, dado que para o mesmo valor de , podem existir vários valores estimados.


📝 Exemplo (Estimador randomizado)

Podemos definir um estimador randomizado segundo em que é a massa de Dirac em .


Para toda priori , o risco de Bayes é o mesmo no conjunto dos estimadores randomizados e não randomizados, isto é, Como um procedimento randomizado é a média de riscos de estimadores não randomizados, ele não pode melhorá-los.

Maximalidade

Risco minimax: . Um estimador minimax é um estimador que satisfaz .

Note que esse estimador, toma o pior caso para e então minimiza para os procedimentos desse pior caso. Esse método enxerga a natureza como um agente inimigo que tende a escolher o pior caso.

O estimador minimax nem sempre existe. Para isso, condições suficientes precisam ser estudadas. Se é finito e é contínua, então existe uma estratégia minimax. Outra proposta é verificar que o conjunto das funções de risco em é compacto em um espaço maior em que está inserido e que a perda é constante.

Teorema: Se é um conjunto convexo compacto e é contínua e convexa como função de para fixado, então existe um estimador minimax não randomizado. O estimador será não randomizado pela desigualdade de Jensen. Esse resultado é um caso particular do Teorema Rao-Blackwell.

O risco de Bayes é sempre menor do que o risco minimax, o que é expresso matematicamente por A distribuição menos favorável é tal que . O problema de estimação tem um valor quando .

Um resultado interessante é que se é estimador de Bayes com respeito a e para todo , então é estimador minimax e é a distribuição menos favorável.

Teorema: Considere um problema estatístico que possua um valor, uma distribuição menos favorável e um estimador minimax . Então se é compacto e é função analítica de , então tem suporte finito ou é constante.

Esse teorema mostra que o minimax não é um bom estimador do ponto de vista bayesiano, dado que (1) ele pode ser randomizado ou (2) ele pode levar a prioris não realísticas com suporte finito.

Admissibilidade

Admissibilidade: Um estimador é inadmissível se existe um estimador que domina , isto é, para todo , e pelo menos para um valor , vale a desigualdade estrita. Caso contrário, o estimador é admissível.

Construir um estimador apenas considerando a admissibilidade não é uma boa estratégia, afinal é um estimador que tem valor exato para . Logo, faz sentido considerar maximalidade simultaneamente. O interessante é que se existe um único estimador minimax, então ele é admissível. A recíproca é falsa em geral, mas se é admissível com risco constante, então ele é o único estimador minimax.

A relação de admissibilidade com estimadores de Bayes é bem estrita:

(1) Se a priori é estritamente positiva em , com risco de Bayes finito, e a função de risco é contínua em para todo , então o estimador de Bayes é admissível.

(2) Se o estimador de Bayes é único, então ele é admissível.

Perdas clássicas

Essas perdas são tratáveis matematicamente e bem documentadas, mesmo que não representem perfeitamente o problema em questão.

Perda quadrática

É definida como . Provavelmente a perda mais utilizada. Penalizada fortemente desvios altos. Mas, como a perda é convexa e vale a desigualdade de Jensen mencionada mais acima, o que exclui estimadores randomizados. O interessante é que, sob essa perda, o estimador de Bayes é a média a posteriori, um dos valores que pensaríamos naturalmente, mesmo sem adicionar a carga da teoria da decisão.

Proposição: O estimador de Bayes associado com a perda quadrática é a esperança a posteriori . O resultado imediato ocorre quando , como uma ponderação. Nesse caso, o estimador de Bayes é

Perda absoluta

Uma alternativa à perda quadrática é , que pode ser generalizada para A penalização para desvios maiores é menor, apesar de manter a convexidade. é possível também propor uma perda como uma mistura dessas perdas. Em uma região próxima de zero, usamos a perda quadrática. Depois, usamos a perda absoluta. Com essa perda, por exemplo, não existe estimador de Bayes em forma fechada.

O estimador de Bayes associado a e a é um quartil de . Em particular, quando , o estimador é a mediana a posteriori.

Perda 0-1

Essa perda é mais utilizada no contexto de teste de hipóteses. Ela é definida como .


📝 Exemplo (Teste de hipóteses)

Seja o teste de hipóteses e . Então em que significa rejeitar . Logo queremos estimar a função . O risco frequentista é que são os erros do tipo 1 e do tipo 2, respectivamente.


O estimador de Bayes é dado por

Perdas intrínsecas

Às vezes, estamos em uma situação não informativa sobre a parametrização natural e a escolha da função de perda. O estimador de Bayes não é invariante por transformações biunívocas em geral. Dessa forma, pode ser interessante obter perdas invariantes. Nesse caso, comparar com pode ser interessante, isto é, definir Duas distâncias usuais são: (1) entropia, Kullback–Leibler divergence, ou (2) Hellinger. Elas resultam nas seguintes perdas: