Estimação pontual
Um estimator pontual de uma é uma estatística que toma valores em . Mais formalmente:
Sejam espaço de parâmetros de uma família paramétrica de distribuições e uma função mensurável (contínua, por exemplo). Uma função é estimador de , em que é o espaço amostral.
Vamos explorar formas de comparar estimadores pontuais.
Viés de um estimador
Dizemos que é não enviesado se Além do mais, o viés de um estimador é dado por . Se existe um estimador não enviesado para , dizemos que é U-estimável.
Um estimador é uma função das amostras, enquanto uma estimativa é uma avaliação dessa função em observações.
📝
Exemplo (Normal)
Seja , em que é o parâmetro. Suponha que estamos interessados em . Um estimador para é ou . Todavia, um estimador com melhores propriedades, que veremos ao decorrer do curso, é . Note que o que mostra que é não enviesado.
Aparentemente, um estimador ser não enviesado parece muito bom, não é? Mas nem sempre isso é suficiente ou possível. No exemplo a seguir, mostramos que não existe estimador não enviesado para a taxa da distribuição exponencial.
📝
Exemplo (Exponencial)
Seja , em que é o parâmetro. Seja um estimador não enviesado para . Então Dividindo ambos os lados por e diferenciando com respeito a , pela Regra de Leibniz: Mas . Se em um conjunto de medida positiva, pelo que estudamos em Integração, teríamos que a integral deveria ser positiva, o que é um absurdo. Com isso quase certamente e, portanto, não é um estimador não enviesado. Concluímos que não pode haver um estimador não enviesado para .
Um estimador ser não enviesado implique que, na prática, se fossem feitos infinitos experimentos e calculássemos o valor do estimador, o valor médio convergiria para o valor verdadeiro do parâmetro. Isso ocorre pela Lei dos Grandes Números. Mas na prática, fazemos uma quantidade finita de experimentos e isso pode impactar nossos resultados. No próximo exemplo, vamos mostras que um estimador não enviesado e vamos visualizar sua distribuição.
📝
Exemplo (Correlação normal multivariada)
Seja , com média e matriz de correlação . Assim o parâmetro de interesse é a correlação entre e . Considere o estimador para para amostras sendo conhecido como correlação empírica ou correlação de Pearson. Apesar de famoso, esse estimador tem viés não nulo. Todavia, pode-se corrigi-lo para obtermos um estimador não enviesado (Olkin and Pratt, 1958), da forma que tem a propriedade de não ser enviesado, em que é a função hipergeométrica de Gauss. Como e são funções mensuráveis das amostras, eles também têm uma distribuição amostral. Uma maneira de visualizar essas distribuições é através de simulações de Monte Carlo.
1) Geramos amostras da normal multivariada. 2) Calculamos e . 3) Repetimos esse processo vezes e temos amostras da distribuição de e .
```python
Parâmetros
rho = 0.1 n = 30 M = 100000 phi_samples = np.zeros(M) psi_samples = np.zeros(M)
Gerando os dados de acordo com a distribuição especificada
rng = np.random.RandomState(1001) for i in range(M): Z = rng.multivariate_normal(mean=[0,0], cov=[[1,rho], [rho,1]], size=n) X = Z[:,0] Y = Z[:,1] # Calculando ~ correlação de Pearson phi_samples[i] = np.corrcoef(X,Y)[0,1] psi_samples[i] = phi_samples[i] * hyp2f1(1/2, 1/2, (n-1)/2, 1 - phi_samples[i]**2)
Desenhando as distribuições
plt.hist(phi_samples, label=r'', color='pink', bins=50) plt.hist(psi_samples, label=r'', color='blue', bins=50) plt.legend() plt.show() ```
Nesse caso, temos que o Erro Absoluto Percentual Médio do estimador é, aproximadamente,
Ou seja, apesar de ser não enviesado e ter viés baixo, a variância dos estimadores é bem grande.
Nesse caso, temos uma probabilidade alta de obter uma estimação 100% maior ou menor do que o valor verdadeiro de .
Note que a diferença entre os estimadores é pequena, pois é razoavelmente grande e tem viés baixo.
Erro quadrático
Seja a perda quadrática. A função de risco para o estimador é dada por Portanto, para estimadores não enviesados, o risco é dado somente pela variância do estimador.
Estimação não enviesada de menor variância
Note que quando queremos avaliar o melhor estimador, estamos lidando com uma classe bem grande para comparar. Por exemplo, o estimador para todo tem o menor MSE em , mas é um estimador horrível quando se afasta de zero. Nesse, sentido uma forma de avaliar estimadores é restringindo a classe de interesse. Uma classe considerada razoável é a dos estimadores não enviesados. Nesse caso, os MSEs serão iguais às variâncias dos estimadores.
Um estimador não enviesado é uniformly minimum variance unbiased estimator (UMVUE) (estimador não enviesado de variância uniformemente mínima) se tem variância finita e, para todo estimador não enviesado, .
Essa definição leva ao seguinte importante teorema:
Teorema (Lehmann-Scheffé): Se é uma estatística completa, então todos os estimadores não enviesados de , que são funções de , mas não de , são iguais quase certamente para todo . Além disso, se existe um estimador não enviesado que é função de uma estatística suficiente completa, então ele é UMVUE.
Ideia da prova: Sejam e estimadores não enviesados de . Então para todo . Como é uma estatística completa, vale que quase certamente. Agora suponha que é estatística suficiente completa e seja um estimador não enviesado. Tome um estimador não enviesado e defina . Usando a perda quadrática, pelo Teorema de Rao-Blackwell, para todo . Portanto é UMVUE. Além disso, como acabamos de provar, quase certamente e, portanto, também é UMVUE.
Note que basta a existência de um estimador não enviesado e de uma estatística completa para que encontremos um estimador UMVUE usando Rao-Blackwell:
Considere o exemplo para o caso normal.
📝
Exemplo (Distribuição normal - ela de novo)
Seja e . Então são estatísticas suficientes e completas, além de serem estimadores não enviesados para e respectivamente. Pelo Teorema acima, qualquer função deles é um UMVUE pelo resultado acima, para e , respectivamente. Todavia, é possível verificar que não minimiza o erro quadrado.
Obs.: para mostrar a suficiência, o Teorema da Fatorização é suficiente. Já a completude vem do fato de que o espaço de parâmetros natural contém um conjunto aberto em .
Quando não existem estatísticas completas, o seguinte resultado pode ser útil:
Teorema: Uma condição suficiente e necessária para que um estimador de seja UMVUE é que para todo que satisfaça , valha que
📝
Exemplo (Bernoulli)
Seja . Temos que é uma estatística suficiente completa para . Além disso, sabemos que . Em particular, é estatística completa, pois o espaço de parâmetros natural da distribuição binomial tem interior não vazio. Considere . Um estimador não enviesado para é . Nesse caso, o estimador UMVUE de é , isto é, Podemos calcular essa probabilidade pela definição de probabilidade condicional, mas vamos fazer isso intuitivamente. Temos espaços e bolinhas para preencher desses espaços.
-
Quantas formas eu tenho de posicionar as bolinhas? .
-
Quantas dessas formas eu tenho interesse? Posiciono duas bolinhas nas primeiras posições (veja que preciso de ) e tenho formas de posicionar as outras bolinhas. Portanto:
Portanto, o estimador se e se é UMVUE para .
Método dos Momentos
O método de momentos é uma abordagem para derivar estimadores para os parâmetros do modelo a partir dos dados. Ele é simples para ser definido, mas pode apresentar vários problemas como estimador. Considere uma amostra aleatória com densidade , com . Então, o estimador do método de momentos para é a solução do sistema em que é o -ésimo momento empírico da amostra e , isto é, dada uma observação, estamos igualando momentos empíricos aos momentos da distribuição.
Um problema com o método de momentos é que ele nem sempre provê estimativas no espaço dos parâmetros. Isso pode acontecer se a variabilidade nos dados é muito grande.
Estimador de Máxima Verossimilhança
Outro método para derivar estimadores é o de maximar a função de verossimilhança.
Seja uma variável aleatória cuja distribuição tem densidade . Se é observado, a função do parâmetro é a função de verossimilhança. O estimador de máxima verossimilhança (MLE) de é o valor isto é, é o valor do parâmetro em que maximiza a função de verossimilhança.
📝
Exemplo (Uniforme)
Considere , cuja densidade é Supondo observada a amostra, queremos encontrar (caso contrário, a densidade se anularia) que maximize . Isso acontece quando é mínimo. Nesse caso, . Observe que se tivéssemos tomado intervalo aberto, ao invés de fechado, teríamos que , mas não poderia ser igual de fato. Nessa situação, não existe MLE, visto que para qualquer , existe tal que .
Mesmo quando o MLE existe, não há garantias de que ele é único. Porém, se ele existe, ele satisfaz a seguinte propriedade chamada de invariância
Teorema: Seja uma função mensurável. Suponha que exista um espaço e uma função bijetiva tal que para alguma função . Se é MLE de , então é MLE de .
Note que uma consequência direta é que transformações bijetivas levam MLEs em MLEs.
Note que maximiza a verossimilhança se, e somente se, maximiza o logaritmo da verossimilhança. Com isso, temos uma abordagem mais simples para encontrar o MLE de distribuições da família exponencial, pois Se o MLE ocorre no interior do espaço de parâmetros natural, as derivadas parciais de se anulam em . Em particular, como visto aqui, o que implica que o MLE de é o valor tal que .
Portanto o procedimento padrão para encontrar o MLE é o seguinte:
-
Verificar se a verossimilhança tem alguma estrutura que facilite maximizar, como no caso da distribuição uniforme.
-
Tomar o logaritmo da verossimilhança e encontrar o ponto crítico derivando e igualando a zero para pontos no interior do espaço de parâmetros.
-
Verificar condições de suficiência para os pontos críticos. Por exemplo: segunda derivada negativa (ou Hessiana no caso de multivariada negativa definida).
-
Verificar a fronteira se necessário.
-
Utilizar recursos numéricos.