Preview only show first 10 pages with watermark. For full document please download

Estatística

As noções básicas, e os princípios fundamentais da estatística.

   EMBED


Share

Transcript

PROBABILIDADE E ESTATÍSTICA AMOSTRAGEM Estatística - Aula 2 SUMÁRIO 1. Seleção de Amostras 2. Estimação 3. Propriedades dos Estimadores 4. Método da Máxima Verossimilhança 5. Distribuição Amostral das Médias 6. Teorema Central do Limite Inferência Estatística Através da parte fazer inferência sobre o todo!! Subconjunto 1 Seleção de Amostras O primeiro passo para fazer inferências corretas utilizando amostragem, é fazer o levantamento dessas amostras de maneira adequada. Seleção de Amostras Tipos de Amostras • As amostras podem ser de dois tipos: Amostras Probabilísticas Cada item da amostra tem a mesma chance de ser selecionado que os demais. Amostras Não – Probabilísticas Cada item selecionado não possui a mesma chance de ser selecionado que os demais. Seleção de Amostras Amostras Probabilísticas A seleção de uma amostra é vista como resultado de um experimento aleatório e cada valor observado xi é o resultado de uma variável aleatória Xi As variáveis aleatórias (X1, X2, ..., Xn) são uma amostra aleatória de tamanho n, se: a. Os Xi´s forem variáveis aleatórias independentes e b. Cada Xi tiver a mesma distribuição de probabilidades 2 Seleção de Amostras Amostras Probabilísticas servirão como base para a correta estimação dos parâmetros da população a qual se referem. Tipos de Amostras Probabilísticas • Amostra Aleatória Simples • Amostra Aleatória Sistemática • Amostra Aleatória Estratificada Seleção de Amostras Tipos de Amostras Probabilísticas Amostra Aleatória Simples Cada elemento da População é selecionado de maneira aleatória Exemplo: Pesquisa em uma empresa com 5000 empregados, deseja-se selecionar uma amostra de 100 pessoas. Seleção de Amostras Tipos de Amostras Probabilísticas Amostra Aleatória Sistemática O primeiro elemento da População é selecionado de maneira aleatória os demais de acordo com alguma lei de formação Exemplo: Empresa com 5000 empregados, deseja-se selecionar uma amostra de 100 pessoas. Ordena-se os empregados, o primeiro é selecionado e os outros serão escolhidos somando 15 a ordenação. 3 Seleção de Amostras Tipos de Amostras Probabilísticas Amostra Aleatória Estratificada A população é dividida em estratos com mesmas características.São selecionados os elementos da amostra de maneira aleatória e os parâmetros resultantes serão agregados de forma proporcional Exemplo: Pesquisa Eleitoral Estimação “Procedimento estatístico que permitirá a determinação de características populacionais com base em dados coletados em amostras.” Exemplo: 1. Pesquisas eleitorais 2. Procedimentos de Controle de Qualidade 3. Pesquisas do IBGE. Estimação Estimador e Estimativa Estimador: Função matemática que terá a finalidade de avaliar determinada característica populacional Exemplo: média, desvio-padrão etc. Estimativa: Valor que essa função poderá assumir. 4 Estimação Tipos de Estimador Estimador por Pontos ou Pontual: Função que irá gerar um único valor para a característica populacional Estimador por Intervalos ou Intervalar: Função que irá gerar um intervalo de valores para a característica populacional em estudo. Estimação Tipos de Estimador Exemplo Parâmetro Ponto Intervalo Média A venda média é de 120 camisas em uma rede de lojas de roupas A venda média varia entre de 110 e 130 camisas em uma rede de lojas de roupas Desvio Padrão O desvio padrão dos retornos mensais das ações da EMBRAER é de 10% O desvio padrão dos retornos mensais das ações da VALE varia entre 8% e 9% SUMÁRIO 1. Seleção de Amostras 2. Estimação 3. Propriedades dos Estimadores 4. Método da Máxima Verossimilhança 5. Distribuição Amostral das Médias 6. Teorema Central do Limite 5 Propriedades dos Estimadores Características dos Estimadores • Estimadores não-tendenciosos • Variância de um Estimador Propriedades dos Estimadores Estimadores não-tendenciosos ˆ é um estimador não tendencioso para o O estimador Θ parâmetro θ, se: ˆ )=θ E( Θ Se o estimador for tendencioso, então a diferença ˆ )-θ E(Θ É chamada de tendência do estimador Propriedades dos Estimadores Estimadores não-tendenciosos - EXEMPLO Suponha que X seja uma variável aleatória com média µ e variância σ2. Faça X1, X2, ..., Xn ser uma amostra aleatória de tamanho n, de uma população representada por X. Mostre que a média da amostra X e a variância da amostra s2 são estimadores não tendenciosos de µ e σ2 respectivamente. Sol: É mais fácil ver que E( X ) = µ. Dessa maneira, a média da amostra será um estimador não tendencioso da média da população. Para a Variância da amostra.  n 2 ∑(Xi − X )  1   n i =1  = E(S ) = E E ∑ ( X i − X )2  n −1   n − 1  i =1    2 6 Propriedades dos Estimadores Estimadores não-tendenciosos – EXEMPLO (Cont.) 1  n  2 E  ∑ ( X i + X 2 − 2 XX i )  n − 1  i =1  1  n  2 E  ∑ ( X i + nX 2 )  n − 1  i =1   1  n ∑ E ( X i 2 ) − nE ( X 2 ) n − 1  i =1 sabe − se que : E ( X i2 ) = µ 2 + σ 2 e E ( X 2 ) = µ 2 + σ2 n Propriedades dos Estimadores Estimadores não-tendenciosos - EXEMPLO E (S 2 ) = 1 n σ2  2 2 2 ( ) ( ) µ + σ − n µ + ∑  n − 1  i =1 n  [ ] 1 nµ 2 + nσ 2 − nµ 2 − σ 2 = n −1 σ2 Logo, a s2 será um estimador não tendencioso da variância populacional σ2. Propriedades dos Estimadores Variância de um Estimador Definição: Se considerarmos todos os estimadores não tendenciosos de θ, aquele com a menor variância será chamado de estimador não tendenciosos de variância mínima (ENTVM) ˆ e Θ ˆ dois estimadores não Dados Θ 1 2 tendenciosos de θ, ambos centralizados nesse valor. O que possuir menor variância será o que produzirá estimativa mais próxima do valor verdadeiro de θ. 7 Propriedades dos Estimadores Variância de um Estimador ˆ Distribuição de Θ 1 ˆ Distribuição de Θ 2 θ Método da Máxima Verossimilhança É uma metodologia para a obtenção de estimadores Definição: Suponha que X seja uma variável aleatória com distribuição de probabilidades f(x;θ), em que θ é o único parâmetro desconhecido. Faça x1, x2, ..., xn serem os valores observados na amostra aleatória de tamanho n. Então a função de verossimilhança da amostra é L(θ) = f(x1;θ) f(x2;θ) ... f(xn;θ) Note que a função verossimilhança é agora uma função somente do parâmetro desconhecido θ. O estimador de máxima verossimilhança de θ é o valor de θ que maximiza a função de verossimilhança L(θ). Método da Máxima Verossimilhança EXEMPLO Seja X uma variável aleatória de Bernoulli. A função de distribuição de probabilidades é  p x (1 − p ) 1− x x = 0,1 f ( x; p ) =  caso contrário 0 sendo p o parâmetro a ser estimado. A função de verossimilhança de uma amostra de tamanho n é L( p ) = p x1 (1 − p )1− x1 ... p xn (1 − p)1− xn 8 Método da Máxima Verossimilhança EXEMPLO Observa-se que se p maximiza L(p) ele também maximiza lnL(p) (logaritmo neperiano). Assim, n    n  ln L( p ) =  ∑ xi  ln p +  n − ∑ xi  ln(1 − p) i =1    i =1  Agora, n    n − ∑ xi  d ln L( p ) i =1 i =1   = − dp p 1− p n ∑x i Método da Máxima Verossimilhança Igualando a zero e resolvendo para p resulta pˆ = 1 n ∑ xi n i =1 Conseqüentemente, o estimador de Máxima Verossimilhança de p é 1 n Pˆ = ∑ X i n i =1 (média da amostra) SUMÁRIO 1. Seleção de Amostras 2. Estimação 3. Propriedades dos Estimadores 4. Método da Máxima Verossimilhança 5. Distribuição Amostral das Médias 6. Teorema Central do Limite 9 Distribuição Amostral da Médias EXEMPLO Suponha uma população de 5 empresas no Rio de Janeiro que obtiveram o lucro hipotético de 3, 4, 5, 6 e 7 valores monetários, respectivamente. Essa população simples nos dará parâmetros para chegar a importantes conclusões e metodologias Distribuição Amostral da Médias Amostras Selecionadas Médias das Amostras 3,3,3 3,00 3,3,4 3,33 3,3,5 3,67 3,3,6 4,00 3,3,7 4,33 3,4,3 3,33 3,4,4 3,67 3,4,5 4,00 3,4,6 4,33 3,4,7 3,67 3,5,3 3,67 3,5,4 4,00 3,5,5 4,33 Etc.. - Dessa população de 5 elementos, serão tomadas todas as possíveis amostras de 3 elementos, com reposição, conforme mostrado na tabela ao lado. Para cada uma delas, será calculada a média da amostra. Observe que diversas amostras possuirão a mesma média. Distribuição Amostral da Médias Y=X Frequência Frequência (%) 3,00 1 0,80% 3,33 3 2,40% 3,67 6 4,80% 4,00 10 8,00% 4,33 15 12,00% 4,67 18 14,40% 5,00 19 15,20% 5,33 18 14,40% 5,67 15 12,00% 6,00 10 8,00% 6,33 6 4,80% 6,67 3 2,40% 7,00 1 0,80% Após calculado o valor de média é possível agrupar de acordo com o número de vezes que esses valores aparecem. Com essa tabela é possível montar o gráfico a seguir. 10 Distribuição Amostral da Médias 16,00% 14,00% 12,00% 10,00% 8,00% 6,00% 4,00% 2,00% 0,00% Observe a distribuição conforme foi montada, se assemelha a uma Normal 3, 00 3, 33 3, 67 4, 00 4, 33 4, 67 5, 00 5, 33 5, 67 6, 00 6, 33 6, 67 7, 00 Frequências Distribuição Amostral Médias das Amostras Distribuição Amostral da Médias Vamos agora, comparar as medidas de Média e Desvio Padrão, tanto da população considerada da Distribuição Amostral das Médias • A média dos valores de lucro da população de empresas é $5. O desvio padrão desses valores é $1,41. (Confira com o Excel) • Para o exemplo anterior, supondo amostras com 3 elementos, com reposição. Será possível estabelecer 125 possíveis resultados. A média desses resultados será 5,00. O desvio padrão será 0,8185. Distribuição Amostral da Médias • A Distribuição Amostral das Médias será um tipo de distribuição de probabilidades relacionando todos os possíveis resultados de ocorrência e suas respectivas estatísticas. • Na prática as populações serão maiores. Os valores de média e desvio padrão para a população serão determinados com resultados sobre as amostras. 11 Distribuição Amostral da Médias • É possível estabelecer um relacionamento matemático entre a média das amostras e a média populacional, tal como o erro padrão das médias amostrais e o desvio padrão da população. Distribuição Amostral da Médias Equações 1) σ ( X ) = σ X = 2) E ( X ) = µ σ n Onde: σ ( X ) = Erro padrão σ das médias = Desvio Padrão Populacional n = Tamanho da Amostra E ( X ) = Valor Esperado das µ médias amostrais = Média da População Distribuição Amostral da Médias Erro Amostral Definição: diferença entre a estatística obtida na amostra e o respectivo valor populacional sendo estimado. Tratando-se de amostras probabilísticas, sua ocorrência será devida simplesmente ao acaso! Dessa maneira, pode-se concluir que os erros irão variar em função: Da amostra, do parâmetro em estudo (se desvio padrão, valor esperado, etc.) e do Tamanho da Amostra, 12 SUMÁRIO 1. Seleção de Amostras 2. Estimação 3. Propriedades dos Estimadores 4. Método da Máxima Verossimilhança 5. Distribuição Amostral das Médias 6. Teorema Central do Limite Teorema Central do Limite 1 - Para uma população Normalmente distribuída, a distribuição amostral das médias terá formato aproximadamente normal, independente do tamanho da amostra. 2 - Para toda e qualquer população, a distribuição amostral das médias tenderá à distribuição normal, desde que o tamanho da amostra seja suficientemente grande. Teorema Central do Limite Populações Amostra n = 3 Amostra n = 30 13 Teorema Central do Limite Exemplo: Para estimar a idade de empregados de uma empresa é selecionada uma amostra aleatória simples de 40 pessoas. Considere que σ = 8,2 anos. Qual a probabildade de a idade média da amostra estar dentro de ± 2 anos da idade média da população? Considerando a distribuição amostral de médias das idades, o erro padrão será dado por: σX = µ σ n = 8,2 ≅ 1,3 40 Teorema Central do Limite Exemplo (Cont.): Com o erro-padrão = 1,3 é possível achar os valores z1 e z2 que possibilitarão o cálculo da probabilidade da média da população estar entre ± 2 anos da idade média da população. z1 = X − µ ( µ − 2anos) − µ = ≅ −1,54 σX 1,3 z2 = X − µ ( µ + 2anos) − µ = ≅ 1,54 σX 1,3 Consultando a tabela da distribuição normal, P(µ ± 2anos) = 0,8764 z1 µ z2 Teorema Central do Limite Fator de Correção para Populações Finitas • Em populações finitas a retirada sem reposição para coleta de amostras (maioria dos casos) altera as probabilidades associadas aos elementos da amostra. • Nessas situações o erro-padrão calculado deverá ser multiplicado pelo FATOR DE CORREÇÃO PARA POPULAÇÕES FINITAS. FC = N −n N −1 Onde: N é o tamanho da população e n é o tamanho da amostra. 14 Teorema Central do Limite Fator de Correção para Populações Finitas Exemplo: Utilizando o exemplo anterior com população (3, 4, 5, 6, 7) média 5 e desvio padrão σ≈1,41, determine o erro das médias admitindo amostras de 3 elementos e sem reposição. σ (X ) = σ n × N −n = N −1 2 5−3 1 × = = 0,5774 5 −1 3 3 Teorema Central do Limite Fator de Correção para Populações Finitas Na prática, nem sempre será necessário trabalhar com o Fator de correção. Quando o tamanho da amostra for insignificante em relação ao tamanho da população o valor FC será aproximadamente 1. Para n=50 e N=100, 500, 1000 ou 100.000, vejam o que acontece. FC = 100 − 50 = 0,7170 100 − 1 FC = 1000 − 50 = 0,9752 1000 − 1 FC = FC = 500 − 50 = 0,9496 500 − 1 100 .000 − 50 = 0,9998 100 .000 − 1 Teorema Central do Limite Aplicação dos Conceitos Sabe-se que em uma determinado mês, o retorno médio obtido pelos 500 fundos de investimento existentes em uma economia foi de 5%, com desvio padrão de 7,44%. Determine as chances de uma particular amostra composta por 50 fundos apresentar média entre 3,00 e 7,00% Solução: Tem-se que µ=5, σ=7,07, N=500 e n=50. Assim, calcula-se: E ( X ) = 5,00 σ (X ) = 7,44 500 − 50 × = 1,00 500 − 1 50 15 Teorema Central do Limite Aplicação dos Conceitos Dado o tamanho da amostra n>30, pode-se utilizar o Teorema Central do Limite para concluir que a variável X seguirá uma distribuição Normal, com média 5 e desvio padrão 1. 95,44% 3 5 7 -2 0 2 X z No problema, pode-se afirmar que 95,44% das amostras de 50 elementos apresentarão médias entre [3,7]. Nesse exemplo, partindo de dados da população chegou-se ao comportamento da amostra. Na prática, será feito o inverso. 16