Estatísticas Suficientes
A ideia por traś da estatística é, como o nome diz, ser suficiente. Uma estatística é uma função das variáveis aleatórias, como, por exemplo, . Média amostral, variância amostral, valor máximo, são todos exemplos. Imagine que temos um problema como o seguinte:
Vamos imaginar que um estatístico dá um trabalho para seu estagiário para organizar os dados de forma mais eficiente possível, enquanto ele pensa no modelo. O estagiário de forma muito ingênua cria uma lista em seu Jupyter Notebook e salva o notebook com os dados na sua lista. Depois ele salva num arquivo .txt
e vai para casa tranquilo que o trabalho acabou mais cedo.
Será que era necessário ter salvo todos os dados? O estatístico no dia seuinte diz que não! E manda o estagiário estudar novamente estatística. Ele disse para estudar Estatística Suficientes.
Definição Unidimensional
Seja uma amostra aleatória de distribuição indexada pelo parâmetro . Suponha que para todo valor que assume e para todo valor que assume (vamos chamar de , nesse caso já observamos o processo e calculamos ), a distribuição conjunta condicional de dado e , isto é, dado que você observou uma estatística (a média de temperaturas, por exemplo) depende apenas de , mas não de .
Isso significa que a distribuição é constante para todos os valores de . Chamaremos essa estatística de suficiente para .
Obs.: Para quem estudou funções mensuráveis, podemos definir estatística como função mensurável dos dados.
Seja um espaço mensurável tal que contém todos os conjuntos unitários. Se é mensuável, então é uma estatística.
Seja uma familia paramétrica de distribuições em . Seja um espaço dos parâmetros e um parâmetro. Seja uma estatística. Ela é suficiente para se para toda priori , existem versões da posteriori e tal que , quase certamente convergente para onde é distribuição marginal de .
Critério de Fatorização
Teorema atribuído a Neyman-Fisher.
amostra aleatória com pdf ou pmf , onde é desconhecido. Uma estatística para é suficiente se, e somente se, a distribuição conjunta pode ser fatorada para todo valor da seguinte forma:
Onde e são não negativas, não depende de e só depende dos dados através da estatística. Isto é, não adianta você encontrar qualquer função de , tem que encontrar a estatística em .
Estatísticas Conjuntas Suficientes
Suponha que para cada , vetor, e cada valor das estatísticas a distribuição conjunta condicional dos dados dadas as estatísticas não depende de . Veja que nesse caso, a diferença é que condiciono em estatísticas, .
Critério de Fatorização
Sejam funções de variáveis. A estatísticas são estatísticas suficientes conjuntas para se, e somene se, a pdf conjunta pode ser fatorado como
para todos os valores e
Obs.: Podemos mostrar que qualquer função injetiva de uma estatística suficiente é uma estatística suficiente.
Estatística Suficiente Mínima
Estatística de Ordem
Considere uma amostra aleatória e a ordene. Diremos que a nova amostra, ordenada, é uma estatística de ordem. Observe que ela funciona como uma matrix de "shifts" que opera trocando as linhas do vetor de lugar. Por isso ela é uma função.
Essa estatística é sufciente conjunta para . O interessante que podemos ver isso dado que o produtório não importa a ordem.
Estatística Suficiente Mínima
É uma estatística suficiente e, além disso, é função de todas as outras estatísticas suficientes.
MLE e Estatística Suficiente
Seja uma estatística suficiente para . Então o estimador de máxima verossimilhança depende das observações somente através da estatística . Além disso, se é suficiente, então é mínimo.
Estatísticas Suficientes e Estimador de Bayes
estatística suficiente para . Então todo estimador de Bayes depende nas observações apenas através da estatística . Além do mais, se for suficiente, será suficiente mínimo.
Definições Adicionais
Considere uma amostra aleatória
Estatística Completa
Seja estatística. Se
então ela é dita completa.
Estatística Ancillary
Suponha que queremos estimar e seja a pdf conjunta. Seja uma estatística. Se a sua distribuição não depende de , então será uma estatística ancillary (auxiliar?)
Por exemplo, se e é desconhecido, temos que é uma estatística auxiliar.
Melhorando um Estimador
Suponha que temos uma amostra aleatória cuja pdf é e desconhecido, tal que queremos estimar para alguma função . Seja .
Para cada estimado e para todo valor de , definimos o MSE (Erro Médio Quadrático)
Quando não atribuímos uma priori para , então queremos encontrar um estimador para que o MSE seja pequeno para vários valores de .
Seja uma estatística suficiente conhecida. Definimos
(1) Agora, por que podemos chamar de estimador se depende de ?
Como é uma estatística suficiente, a distribuição condicionada em e em da amostra não depende de !!! Em particular o valor esperado do estimador . Logo, como esse valor esperado não depende de , podemos dizer sim que ele é um estimador.
Teorema Rao - Blackwell
Teorema 7.9.1 do livro.
Seja um estimador e uma estatística suficiente para . O estimador definido acima, para todo valor é:
isto é, é um estimador com menor erro quadrático médio (MSE). Em particular se , a desigualdade se torna estrita, a menos que seja um afunção de , isto é, se não for função de , então a desigualdade será estrita. Por desigualdade estrita entenda .
Obs.: Chamamos o processo de melhorar um estimador com esse teorema de "Rao-Blackwelliation".
Obs.2: Podemos generalizar um pouco mais. Para isso, pesquise sobre Conjuntos Convexos e sobre Funções Convexas. Em um conjunto convexo, se a nossa função de perda não for o MSE, mas for uma função convexa, o teorema também valerá. Uma suposição interessante que o Livro não impõe é que .
Inadmissibilidade
Suponha que é MSE. O estimador é inadimissível se existe outro estimador tal que para todo valor de e existe a desigualdade estrita em, pelo menos um valor de . Dizemos nesse caso que domina o estimador . Um estimador é admissível se não existe outro estimador que o domine.