Preview only show first 10 pages with watermark. For full document please download

Estatística Básica - Daniel Furtado Ferreira

Livro de estatistica

   EMBED


Share

Transcript

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO ESTATÍSTICA BÁSICA Prof. DANIEL FURTADO FERREIRA LAVRAS - MG 1996 i ÍNDICE Pag. I. Conteúdo programático II. Bibliografia básica v vii 1. Estatística Descritiva 1 1.1. Importância nas ciências agrárias 1 1.2. Coleta, organização e apresentação de dados 2 1.3. Medidas de posição e dispersão 12 1.3.1. Medidas de posição ou de tendência central 12 1.3.2. Medidas de dispersão 21 1.3.3. Medidas de assimetria e curtose 27 1.4. Exercícios 31 2. Distribuição de probabilidade 38 2.1. Conceito e importância 38 2.2. Variáveis aleatórias e distribuição de probabilidades 39 2.3. Distribuição de probabilidades discretas e contínuas 40 A. Distribuição Binomial 41 B. Distribuição de Poisson 42 C. Distribuição uniforme discreta 45 D. Distribuição normal 45 E. Aproximação normal da Binomial e Poisson 49 ii Pag. 2.4. Esperança matemática e suas leis 49 2.5. Tabelas de F, χ2 , t e Normal 51 3. Amostragem 49 3.1. Importância nas ciências agrárias 3.2. Amostra e população 49 49 3.3. Amostragem probabilística e não probabilística. 50 3.3.1. Amostragem probabilística 50 3.3.2. Amostragem não probabilística 53 4. Distribuição de amostragem 54 4.1. Importância nas ciências agrárias 54 4.2. Distribuição amostral das médias 56 − 4.2.1. Distribuição de X 56 − − 4.2.2. Distribuição de X 1 − X 2 4.3. Distribuição de t, χ2 e F A. Distribuição de t de Student 60 62 62 B. Distribuição de χ2 (Qui-Quadrado) 64 C. Distribuição de F de Snedecor 65 4.4. Distribuição amostral das proporções (p) 5. Teoria da estimação 66 69 iii Pag. 5.1. Importância nas ciências agrárias 69 5.2. Estimação por ponto e por intervalo e propriedades dos estimadores 5.3. Estimação de médias, variâncias e proporções 69 71 5.3.1. Intervalo de confiança para µ 71 5.3.2. Intervalo de confiança para P 73 5.3.3. Intervalo de confiança para diferença entre médias 77 5.3.4. Intervalo de confiança para σ2 79 5.3.5. Intervalo de confiança para σ 80 5.3.6. Intervalo de confiança para CV 80 5.4. Dimensionamento das amostras 82 6. Teoria da decisão 6.1. Importância nas ciências agrárias 86 86 6.2. Hipótese estatística. Erros envolvidos no processo de decisão 6.3. Construção de uma regra de decisão 86 88 6.3.1. Algoritmo 88 6.3.2. Teste para µ com variância desconhecida 90 6.3.3. Teste para proporções 91 6.3.4. Teste para variância populacional 93 6.3.5. Comparações entre duas médias populacionais 95 iv A. Variâncias populacionais desconhecidas e diferentes (σ12 ≠ σ 22 ) 95 B. Variâncias populacionais desconhecidas e iguais (σ12 = σ 22 ) 98 C. Dados emparelhados 6.4. Teste de χ2 para ajuste de modelos 7. Regressão e Correlação 99 102 106 v MEC/UFLA/DEX CEX-117 - ESTATÍSTICA CARGA HORÁRIA: 45 TEÓRICA e 30 PRÁTICA CRÉDITOS: 4 CONTEÚDO PROGRAMÁTICO I- ESTATÍSTICA DESCRITIVA 1. IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. COLETA, ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS 3. MEDIDAS DE POSIÇÃO E DISPERSÃO 4. TÓPICOS EM ESTATÍSTICA DESCRITIVA II- DISTRIBUIÇÃO DE PROBABILIDADE 1. CONCEITO E IMPORTÂNCIA DE PROBABILIDADE 2. VARIÁVEL ALEATÓRIA E DISTRIBUIÇÃO DE PROBABILIDADE 3. DISTRIBUIÇÃO DE PROBABILIDADES DISCRETAS E CONTÍNUAS: BINOMIAL, POISSON, UNIFORME DISCRETA E NORMAL. APROXIMAÇÃO NORMAL. 4. ESPERANÇA MATEMÁTICA E SUAS LEIS. 5. TÓPICOS EM DISTRIBUIÇÃO DE PROBABILIDADES. vi III- AMOSTRAGEM 1. IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. AMOSTRA E POPULAÇÃO. AMOSTRAGEM PROBABILÍSTICA E NÃO PROBABILÍSTICA. 3. AMOSTRAGEM SIMPLES AO ACASO, ESTRATIFICADA, POR CONGLOMERADO E SISTEMÁTICA. 4. TÓPICOS EM AMOSTRAGEM. IV- DISTRIBUIÇÃO DE AMOSTRAGEM 1. IMPORTÂNCIA DO ESTUDO EM CIÊNCIAS AGRARIAS. 2. DISTRIBUIÇÃO DE AMOSTRAGEM DE MEDIAS 3. DISTRIBUIÇÃO DE t, χ 2 E F. 4. DISTRIBUIÇÃO DE AMOSTRAGEM DE PROPORÇÕES. 5. TÓPICOS DE DISTRIBUIÇÃO DE AMOSTRAGEM. V- TEORIA DA ESTIMAÇÃO 1 . IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. ESTIMATIVAS POR PONTO E POR INTERVALO. PROPRIEDADES ESTIMADORES. 3. ESTIMATIVAS DE MEDIAS, VARIÂNCIAS E PROPORÇÕES. 4. ERROS DAS ESTIMATIVAS E DIMENSIONAMENTO DAS AMOSTRAS. 5. TÓPICOS EM TEORIA DA ESTIMAÇÃO. DOS vii VI- TEORIA DA DECISÃO 1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS 2. HIPÓTESE ESTATÍSTICA. ERROS ENVOLVIDOS NUM PROCESSO DE DECISÃO. 3. CONSTRUÇÃO DE UMA REGRA DE DECISÃO E MECÂNICA OPERACIONAL DE APLICAÇÃO DOS TESTES. 4. TESTES DE INDEPENDÊNCIA, ADERÊNCIA E COMPROVAÇÕES DE LEIS. 5. TÓPICOS EM TEORIA DA DECISÃO. VII- REGRESSÃO E CORRELAÇÃO BIBLIOGRAFIA AQUINO, L.H. de Estatística. Lavras, MG, 1981. Vol. 3 (mimeografado). BUSSAB, W.O. & MORETTIN, P.A. Estatística básica. 4a ed., Atual Editora, S.P., 1993. STEVENSON, W.J. Estatística aplicada à administração. Tradução de Alfredo Alves de Farias. Harbra, S.P., 1981. FONSECA, J.S. & MARTINS, G. de A. Curso de estatística, 4a ed., Editora Atlas, S.P., 1993. GUERRA, M.J. & DONAIRE, D. Estatística indutiva: Teoria e aplicações. Livraria Ciência e Tecnologia Editora, S.P., 1984. MEYER, P.L. Probabilidade, aplicações a estatística. Tradução de Ruy C. B. Lourenço Filho, (ENCE/IBGE), Rio de Janeiro, R.J., 1984. SNEDECOR, G.W. & COCHRAN, W.G. Statistical methods, 7th edition. The Iowa State University Press, Ames, Iowa, USA, 1980. DANIEL FURTADO FERREIRA 1 CAPÍTULO I - ESTATÍSTICA DESCRITIVA 1.1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS A estatística é um ramo da matemática que se interessa em obter conclusões a partir de dados observados e nos métodos científicos para coleta, organização, resumo, apresentação, análise e interpretação dos dados amostrais. Iniciou-se como método cientifico a partir de 1925 com os trabalhos de R.A. Fisher, embora os trabalhos pioneiros de Gauss no fim do século anterior e dos trabalhos de Gosset de 1908, publicados com o pseudônimo de "Student", foram de extrema importância. A estatística se divide em estatística descritiva e indutiva (ou inferência). A estatística descritiva preocupa-se com a coleta, organização e apresentação dos dados amostrais, sem inferir sobre a população; e a estatística indutiva preocupa-se com a análise e interpretação dos dados amostrais. Conclusões importantes podem ser inferidas da análise dos dados amostrais. No entanto, a inferência não pode ser "absolutamente certa", daí a necessidade de se utilizar uma linguagem de probabilidade. Na maioria das situações agrícolas as leis de causa e efeito não são conhecidas na prática pelo pesquisador, no entanto, existe a necessidade de se obter uma solução para os problemas que surgem naturalmente. Foi com o objetivo de se apresentar tais soluções é que a estatística se desenvolveu, face às incertezas oriundas da variabilidade dos dados provenientes das observações dos pesquisadores. Finalmente é necessário ter em mente que a estatística é um método científico, por meio do qual o pesquisador pode tomar decisões para solucionar os problemas que são encontrados durante suas pesquisas. Para que a estatística seja bem usada é necessário conhecer os seus fundamentos e os seus princípios, e que acima de tudo que o pesquisador tenha a possibilidade de desenvolver um espírito critico sobre a pesquisa empreendida. ESTATÍSTICA BÁSICA 2 1.2. COLETA, ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS. As observações se constituem no material básico com que o pesquisador trabalha. Para que a estatística possa ser aplicada a essas observações, elas devem estar na forma de números. Para exemplificar, pode-se destacar, por exemplo, que no melhoramento de plantas esses números podem ser produtividade de uma parcela de milho ou de feijão, na zootecnia podem ser ganhos de peso por animal sob o efeito de alguma dieta especial, ração com produto ou dosagem de componente diferente, entre outras possibilidades. Estes números são os dados e a característica comum inerente aos mesmos é a variabilidade ou variação que apresentam. Essa característica, que pode assumir diferentes valores de indivíduo para indivíduo, é chamada de variável. Quando todos os elementos de uma população ou de uma amostra apresentam o mesmo valor para uma determinada característica, essa característica é denominada de constante. As variáveis podem ser qualitativas ou quantitativas. As variáveis qualitativas são aquelas para as quais uma medição numérica não é possível; e as quantitativas aquelas que podem ser mensuradas numa escala de valores. As variáveis qualitativas podem ser ordinais ou nominais. As variáveis quantitativas dividem em discretas e contínuas. As discretas são definidas em um conjunto enumerável, sendo próprias de dados de contagem. As contínuas por sua vez, podem assumir qualquer valor real entre dois extremos. As variáveis são mensuradas em uma amostra, e as suas realizações (ou observações) podem ser dispostas da seguinte forma: DADOS BRUTOS: Dados originais na forma com que foram coletados (não foram numericamente organizados ou ordenados). Ex. Peso de 10 coelhos híbridos NORFOLK em kg abatidos aos 90 dias. 2,61 2,56 2,47 2,62 2,59 2,56 2,62 2,70 2,49 2,62 DANIEL FURTADO FERREIRA 3 De uma forma geral: X1, X2, ..., Xn. DADOS ELABORADOS: Dados numéricos arranjados em ordem crescente ou decrescente. 2,47 2,49 2,56 2,56 2,59 2,61 2,62 2,62 2,62 2,70 De uma forma geral: X(1), X(2), ..., X(n). Com os dados elaborados pode-se estimar a amplitude total (A), ou seja, a diferença entre o maior e menor valor da amostra. A = X(n) – X(1) = MAIOR VALOR - MENOR VALOR A forma de representar os dados depende da sua natureza. Para dados qualitativos a enumeração e tabulação e a forma mais simples de representá-los. A seguir será discutido um exemplo, no qual se destaca a forma de representação dos dados qualitativos mais comuns. Exemplo: Num determinado estudo de cor de flor, as cores branca e roxa foram observadas. Na progênie F2 constituída de 100 indivíduos foi anotada a cor de flor: 4 ESTATÍSTICA BÁSICA Tabela 1.1. Representação tabular para representar a herança de cor de flor em uma progênie F 2. Cor da flor BRANCA ROXA 15 85 Número de indivíduos Representação gráfica: 90 75 Branca Roxa 60 45 30 15 0 Branca Roxa Figura 1.1. Gráfico de colunas para representar a herança de cor de flor em uma progênie F2 15% Roxa Branca 85% Figura 1.2. Gráfico de setores para representar a herança de cor de flor em uma progênie F2. Para os dados quantitativos a forma de representação mais simples é a distribuição de freqüência. A distribuição de freqüência é a distribuição dos dados em classes ou categorias, onde o número de elementos pertencentes a cada classe é determinado e representa a freqüência de classe. DANIEL FURTADO FERREIRA 5 A seguir será abordada uma das formas mais comuns de se construir uma tabela de distribuição de freqüência. A seqüência de passos é: (a) Determinar o número de classes (k): geralmente o número de classes é escolhido por muitos autores em um valor entre 5 e 20, de uma forma empírica. A familiaridade do pesquisador com os dados é que deve indicar quantas classes devem ser construídas. No entanto, esse critério pode variar consideravelmente de pesquisador para pesquisador, por isso 2 critérios são propostos a seguir. (i) Critério baseado no tamanho amostral (n) proposto por Oliveira (1995). Em função do tamanho da amostra pode-se determinar o número de classes ideal, de acordo com os critérios apresentados na Tabela 1.2. Tabela 1.2. Número de classes (k) determinado em função do tamanho amostral (n) (OLIVEIRA, 1994) Tamanho da amostra (n) Número de classes (k) Até 100 n (inteiro mais próximo) Acima de 100 5 log10 n (inteiro mais próximo) (ii) Critério baseado na distribuição normal dos dados da amostra proposto por SCOTT (1979). Partindo-se do pressuposto que os dados seguem a distribuição normal, a qual possui forma de sino, o número de classes é determinado por: 1 An 3 k = 1+ 3, 49S ESTATÍSTICA BÁSICA 6 Em que: A é a amplitude total, n o tamanho da amostra e S o desvio padrão (cuja estimação é apresentada no Capítulo 2). No exemplo dos coelhos, usando o primeiro critério tem-se: k = n0,5 = 100,5 = 3,16 ≅ 3 classes. (b) Amplitude de classe (c) A amplitude de classe é a diferença entre os limites superior e inferior de uma determinada classe. Na construção da distribuição de freqüência não é possível saber quais são os limites de classe a priori e, portanto, deve-se ter uma maneira diferente para determinar c. Neste material é adotado o seguinte critério. c= A k −1 Para o exemplo: c = 0,230/2 = 0,115kg (c) Limite inferior da primeira classe (LI1a) Deve-se iniciar o processo de construção das classes determinando o limite inferior da primeira classe a ser formada. A escolha deste valor é feita por muitos autores, como menor valor amostral. No presente material, adota-se o critério a seguir. A idéia por detrás desse critério é determinar o limite inferior da primeira classe como um valor menor do que o menor valor observado na amostra, uma vez que por um mero acaso valores da população inferiores a X(1) podem não ter sido amostrados. LI1a = X(1) - c/2 No exemplo dos coelhos tem-se: LI1a = 2,47 - 0,115/2 = 2,413. 7 DANIEL FURTADO FERREIRA A forma de representação de uma classe adotada é dada por 2,413├─ 2,528, ou seja, a classe tem seu limite inferior de 2,413Kg incluído na classe e o seu limite superior de 2,528Kg excluído. Outra notação pode ser usada, qual seja [2,413; 2,528). O significado é o mesmo do descrito anteriormente. (d) Determinação das classes Para a determinação das k classes é necessário seguir os seguintes passos: (i) Somar ao valor do limite inferior da primeira classe a amplitude de classe e obter-se o limite superior; (ii) O limite superior da primeira classe será o limite inferior da segunda classe; (iii) Repetem-se os passos (i) e (ii) até completar k classes, ou equivalentemente até que o maior valor esteja contido na última classe. No exemplo dos coelhos híbridos Norfolk, a Tabela 1.3. apresenta a distribuição de freqüências obtida. Tabela 1.3. Distribuição de freqüência para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Classes (Kg) Xi Fi Fri Fpi 2,413├─ 2,528 2,471 2 0,20 20 2,528├─ 2,643 2,586 7 0,70 70 2,643├─ 2,758 2,701 1 0,10 10 10 1,00 100 Total 8 ESTATÍSTICA BÁSICA Uma outra possibilidade utilizada é fazer a tabela das distribuições de freqüências acumuladas: Freqüência acumulada abaixo de (Fc↓) e acima de (Fc↑), Tabela 1.4 e 1.5. Tabela 1.4. Distribuição de freqüência acumulada “abaixo de” para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Abaixo de Fc↓ 2,413 0 2,528 2 2,643 9 2,758 10 Tabela 1.5. Distribuição de freqüência acumulada “acima de” para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Acima de Fc↑ 2,413 10 2,528 8 2,643 1 2,758 0 Para fins de análises matemáticas todas as observações contidas num intervalo de classe são consideradas iguais ao ponto médio da classe. Essa hipótese é conhecida como hipótese tabular básica (HTB). Os cálculos das medidas de posição ou de dispersão amostral usando os pontos médios das classes como representantes de todos os seus elementos contém menor precisão do que àqueles realizados utilizando os dados brutos ou elaborados. No entanto, estes erros, como já constatado por muitos pesquisadores em estatística, podem ser considerados desprezíveis e, portanto, devem ser ignorados. A vantagem de se utilizar a distribuição de freqüência refere-se à simplificação estrutural dos dados sem grandes perdas de 9 DANIEL FURTADO FERREIRA precisão, bem como a aumento da facilidade de cálculos devido a estas simplificações, além de fornecer uma idéia da forma da distribuição da variável por meio da representação gráfica. REPRESENTAÇÃO GRÁFICA (a) Histogramas: Retângulos cujas bases são proporcionais às amplitudes de classes e as áreas proporcionais às freqüências das classes. Se todas as classes tiverem a mesma amplitude, as alturas dos retângulos são proporcionais às freqüências das classes, e em caso contrário têm que ser ajustadas por: Fi( aj .) = Fi ci (b) Polígono de freqüência: Gráfico de linhas que une os pontos médios das classes no topo dos retângulos. H istog ram a Polig ono de freq uência Frequência 6 4 2 0 2.300 2.415 2.530 2.645 2.760 C lasses de peso Figura 1.3. Polígono de freqüência e histograma da distribuição dos pesos de coelhos híbridos norfolk, abatidos aos 90 dias. 10 ESTATÍSTICA BÁSICA Os gráficos das freqüências acumuladas são denominados ogivas e estão apresentados na Figura 1.4. Frequência acumulada acima de 10 Frequência acumulada abaixo de 8 6 4 Frequências acumuladas 2 OGIVAS 0 2.298 2.413 2.528 2.643 2.758 2.873 Peso dos coelhos Figura 1.4. Representação gráfica das distribuições acumuladas (ogivas) do peso de coelhos híbridos Norfolk abatidos aos 90 dias. Tipos de curvas de freqüências Com base no polígono de freqüência pode-se classificar o tipo de distribuição dos dados amostrais ou experimentais. Esta classificação é de suma importância, pois grande parte das análises que são abordadas posteriormente neste material depende da natureza desta distribuição, sendo que a maioria requer distribuição do tipo simétrica ou aproximadamente simétrica. DANIEL FURTADO FERREIRA ASS. Á DIREITA SIMÉTRICA BIMODAL ASS. Á ESQUERDA MULTIMODAL 11 ESTATÍSTICA BÁSICA 12 1.3. Medidas de posição e dispersão. 1.3.1. Medidas de posição ou de tendência central Uma medida de tendência central procura sintetizar as informações da amostra em um único e informativo valor. Ao examinar uma distribuição amostral simétrica ou aproximadamente simétrica, nota-se que geralmente que os dados são mais freqüentes perto de um valor central e são mais raros ao afastar-se deste. A obtenção deste valor central é de importância fundamental tanto para a pesquisa quanto para a extensão. Pode-se exemplificar através de uma situação em que em uma grande firma produtora de milho, o empregador exige do agrônomo que este lhe forneça uma estimativa da produtividade da área de 10.000 ha plantados em uma região. O empregador tomará uma grande decisão com base nesta estimativa. Utilizando métodos de amostragem apropriados e uma medida de posição e de seu erro, o agrônomo pode fornecer as informações solicitadas com grande probabilidade de acerto. Este é um problema que pode ser solucionado com o auxílio e conhecimento das técnicas estatísticas. As principais medidas de posição estão apresentadas a seguir. (a) Média aritmética A média é a principal medida de posição, sendo utilizada principalmente quando os dados apresentam distribuição simétrica ou aproximadamente simétrica, como acontece com a maioria das situações práticas. Deve-se diferenciar, por meio de notação apropriada à média populacional da amostral. A população refere-se a todos os elementos de interesse do pesquisador para a qual fica praticamente impossível tomar as informações elemento a elemento. A amostra por sua vez refere-se a um subconjunto de elementos desta população e obtida de acordo com alguns critérios, de tal forma que haja uma representatividade da população da qual foi extraída, e para qual se deseja extrapolar as informações (inferências estatísticas). No exemplo anterior da plantação de milho, a população refere-se a todos os DANIEL FURTADO FERREIRA 13 10.000ha plantados e uma amostra poderia ser de 20ha distribuídos ao acaso pela região plantada. Será utilizada para diferenciar a média da amostra e da população a seguinte notação: ⎧ ⎪ µ PARA POPULA Ç Ã O ⎨ Simbologia: ⎪ X PARA AMOSTRA ⎩ em que, o estimador da média populacional é: n X= ∑ Xi i =1 n = X1 + X 2 +...+ Xn n em que, n é o tamanho da amostra, Para o exemplo dos coelhos (dados elaborados), tem-se que: X= 2,47 + 2,49+"+2,70 = 2,584 kg 10 Para os dados agrupados em distribuição de freqüência o estimador é: k X= ∑X F i i i =1 n em que, X i é o ponto médio e Fi é a freqüência da classe i. Para o exemplo dos coelhos em questão: ESTATÍSTICA BÁSICA X= 14 2,471 × 2 + 2,586 × 7 + 2,701 × 1 = 2,5745kg 10 Alguém pode questionar a razão da diferença observada no uso dos dois estimadores. A resposta é dada pela hipótese tabular básica, a qual considera que todos os elementos de uma classe são representados pelo seu ponto médio, fato este, que não é verdadeiro em praticamente todas as situações. Desta forma, este último resultado é apenas aproximado. No entanto, o erro cometido é mínimo e, portanto, pode ser desprezado. Propriedades da média (i) A soma algébrica dos desvios em relação à média aritmética é nula. ∑ ( Xi − X) = 0 n i=1 (ii) A soma dos quadrados dos desvios de um conjunto de dados em relação a sua média e um valor mínimo. D = ∑ ( X i − X ) representa um valor mínimo. n 2 i=1 Demonstração: Fazendo: D = ∑ ( Xi − A) n 2 i=1 Expandindo o somatório e derivando D em relação a A tem-se: 15 DANIEL FURTADO FERREIRA D = ∑ ( X i − A ) = ∑ ( X i2 − 2AX i + A 2 ) = ∑ X 2i − ∑ 2AX i + ∑ A 2 n i=1 2 n n n n i=1 i=1 i=1 i=1 n ∂D = −2∑ X i + 2nA i=1 ∂A Igualando a derivada a zero, e resolvendo em A, tem-se: n ∂D = −2∑ X i + 2nA = 0 i=1 ∂A n 2 nA = 2∑ X i i=1 n A= ∑ Xi i=1 n =X Portanto, o ponto ótimo obtido igualando a primeira derivada a zero, pode ser um ponto de máximo ou de mínimo. Para certificar que o valor de D, quando A é igual à média amostral, é um valor mínimo basta mostrar que a segunda derivada é positiva. A segunda derivada de D em relação a A é dada por: ∂D = 2n > 0 ∂A∂A Verifica-se que para qualquer tamanho de amostra o valor 2n será positivo, ficando concluído assim a demonstração. (iii) A média de um conjunto de dados acrescido (ou subtraído) em cada elemento por uma constante e igual à média original mais (ou menos) essa constante. X '= X ± K em que X ' é a média do novo conjunto de dados. 16 ESTATÍSTICA BÁSICA (iv) Multiplicando todos os dados por uma constante a nova média será igual ao produto da média anterior pela constante. X′ =K X (v) A média é influenciada por valores extremos (vi) Não pode ser mensurada em distribuições com classes indeterminadas. Exemplo, Classes Fi 5├─ 10 10 10├─ 20 20 20├─ 50 45. 50 ou mais 20 (b) Mediana (md ) A mediana divide as observações ordenadas em partes iguais. Para sua determinação é necessário o conhecimento da posição central. Basicamente têm-se duas situações distintas: X ( n / 2 ) + X ( (n + 2) / 2) (i) Se n for par: md = (ii) Se n for impar: m d = X ( (n +1) / 2) 2 Exemplo 1. No caso dos coelhos a posição central esta entre o 50 e o 60 elemento. Portanto, a mediana é a média aritmética destas duas observações. DANIEL FURTADO FERREIRA 17 md = (2,59 + 2,61)/2 = 2,60Kg Exemplo 2. A = {1, 2, 3}. n=3 ⇒ md = X(2) = 2 No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte expressão: ⎤ ⎡n ⎢ 2 − FA ⎥ m d = LI md + ⎢ c Fmd ⎥ md ⎢ ⎥ ⎣ ⎦ Em que, Fmd: freqüência da classe mediana; cmd: amplitude da classe mediana; FA: freqüência acumulada das classes anteriores à classe mediana; e Limd é o limite inferior da classe mediana. A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de freqüência. No exemplo: Posição mediana = 10/2 = 5 (contida na 2a classe), FA= 2; Limd = 2,528 Fmd = 7 e cmd = 0,115kg. md = 2,528 + [(5-2)/7] x 0,115 = 2,577 kg Propriedades (i) md ' = md ± K (somando constante aos dados) (ii) md ' = md .K (multiplicando os dados por uma constante) ESTATÍSTICA BÁSICA (iii) Σi│Xi-md │ representa um 18 valor mínimo Muitas vezes existem dúvidas de qual medida utilizar para sintetizar os dados amostrais. Como uma regra geral, pode-se definir qual medida é mais conveniente para uma dada situação com base na análise do histograma ou do polígono de freqüências. Se a distribuição dos dados for assimétrica, isto é quando valores extremos predominam em uma das caudas da distribuição, deve se preferir a mediana como medida sintetizadora. Isto se deve ao fato da mediana ser pouco sensível a presença de valores extremos, sendo considerada mais robusta que a média. O termo robusto é o termo técnico usado para indicar esta propriedade da mediana em relação à média aritmética, que quando a situação de simetria é violada a mediana é uma medida que sofre menos “interferências” nas suas estimativas. (c) moda (mo) A moda é definida para dados qualitativos ou para quantitativos discretos como sendo o valor de maior freqüência na amostra. Para dados quantitativos contínuos a moda é o valor de maior densidade. Portanto para dados quantitativos contínuos o estimador da moda é baseado na distribuição de freqüências. Esse estimador busca encontrar o ponto de máximo do polígono de freqüências. Um conjunto pode ter mais de uma moda ou até mesmo não ter moda. O estimador da moda para dados quantitativos contínuos é definido a partir da distribuição de freqüência por meio de um método geométrico, o qual conduz a seguinte expressão: m o = LI mo + ∆ 1 ∆1 + ∆ 2 c mo LImo : limite inferior da classe modal; ∆1: diferença entre as freqüências da classe modal e a classe anterior; DANIEL FURTADO FERREIRA 19 ∆2: diferença entre as freqüências da classe modal e a classe posterior; cmo : amplitude da classe modal; ▄ Classe modal é a classe com maior freqüência. No exemplo, a classe modal foi à segunda: 2,528 ├── 2,643 com F2=7. Logo, mo = 2,528 + {(7-2)/[(7-2)+(7-1)]}0,115 = 2,580Kg O estimador da moda pode também ser considerado como o valor médio da classe modal, como é apresentado por diversos autores. A justificativa é dada pela hipótese tabular básica, que diz que todos os valores de uma classe são iguais ao seu ponto médio. Como neste caso a classe modal é a de maior freqüência, a moda é considerada como igual a este ponto médio. Nesse material o método geométrico anteriormente apresentado é considerado, por ser considerado mais eficiente. É conveniente comentar que as calculadoras eletrônicas não fornecem os cálculos da mediana e da moda, o que para grandes conjuntos de dados, seus cálculos exatos podem ser extremamente laborioso. Propriedades (i) mo' = mo ± K (somando K a todos os dados) (ii) mo' = mo .K (multiplicando todos os dados por K) Relações empíricas entre média, mediana e moda (i) X = md = mo (distribuição simétrica) (ii) X > md > mo (distribuição assimétrica à direita) 20 ESTATÍSTICA BÁSICA (iii) X < md < mo (distribuição assimétrica à esquerda) Outras medidas de posição (i) média geométrica (G) Definida somente para números positivos, da seguinte forma: G = n X1. X2 ... Xn Usada principalmente para variáveis que crescem em progressão geométrica, como, por exemplo, o número de bactérias em uma colônia. Espera-se que a cada reprodução, o número de bactérias dobre. (ii) Média harmônica (H) H = 1 1 n n ∑ i =1 1 X i (iii) Média aparada ( X A ) A média aparada é obtida eliminando do conjunto de dados m observações menores e m observações maiores. O valor de m corresponde a uma percentagem entre 2,5% e 20% do número total de observações. Esta eliminação dos valores extremos é para eliminar o efeito de observações discrepantes, conhecidas como outliers, no cálculo da média aritmética. DANIEL FURTADO FERREIRA 21 A título de ilustração considere o conjunto de dados a seguir e com o cálculo da média aritmética e da média aparada com m=1 (5%) das observações. 1 4 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 10 10 40 A média é: X = 8,80 a média aparada X A = 4 + 5+...+10 135 = = 7,50 18 18 1.3.2. Medidas de dispersão As medidas de posição não informam sobre a variabilidade dos dados e são insuficientes para sintetizar as informações amostrais. Para exemplificar este fato, têm-se a seguir três amostras com a mesma média: A={8, 8, 9, 10, 11, 12, 12} X A = 10 B={5, 6, 8, 10, 12, 14, 15} X B = 10 C={1, 2, 5, 10, 15, 18, 19} X C = 10 Pode se observar que as amostras diferem grandemente em variabilidade. Por esta razão torna-se necessário estabelecer medidas que indiquem o grau de dispersão, ou variabilidade em relação ao valor central. Desta forma pode-se afirmar que uma amostra deve ser representada por uma medida de posição e dispersão. As principais medidas de dispersão que são abordadas estão apresentadas a seguir. (a) Amplitude total (A) ESTATÍSTICA BÁSICA 22 A amplitude é definida como a diferença entre o maior e o menor valor de uma amostra. No exemplo do peso de coelhos a amplitude foi A = 0,23kg. A amplitude tem a desvantagem de (i) só considerar os valores extremos para o seu cálculo, e principalmente se houver “outlier” ela será grandemente afetada. Como só dois extremos são considerados amostras com valores intermediários praticamente idênticos podem apresentar grande amplitude se só o maior e o menor valor discrepar dos demais; e (ii) ser influenciada pelo tamanho da amostra, pois à medida que a amostra aumenta a amplitude tende a ser maior. Esta última desvantagem, não será demonstrada aqui por requerer conhecimentos profundos de estatísticas de ordens. (b) Variância e desvio padrão Para contornar a desvantagem de que apenas dois valores são utilizados para o cálculo da amplitude, poderia ser cogitado, então, o uso de a soma dos desvios em relação à média como medida de dispersão ou de variabilidade. No entanto, esta medida não é adequada, devido ao fato de a soma de desvios em relação à média ser nula, sendo que todos as amostras apresentariam variabilidade nula. Assim, uma medida da variabilidade que considera todas as observações e que é a mais utilizada na maioria das situações na estatística, devido às propriedades que possui, é a variância ou a sua raiz quadrada, o desvio padrão. A variância pode ser entendida como se fosse praticamente a “média” da soma de quadrados de desvios em relação à média. Numa amostra de tamanho n deveria ser utilizado este valor (n) como divisor desta soma de quadrados de desvios. No entanto, devido a motivos associados a propriedades dos estimadores, o divisor da variância amostral é dado por n-1 em lugar de n na expressão do estimador da variância. Simbologia DANIEL FURTADO FERREIRA 23 População: Variância ⇒ σ Desvio padrão ⇒ σ 2 Amostra: Variância ⇒ S2 Desvio padrão ⇒ S A variância amostral é dada por: ∑ ( Xi − X ) n S2 = 2 i=1 n −1 em que, n - 1 é denominado graus de liberdade. A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido pela extração da raiz quadrada da variância. Para o cálculo da variância ou desvio padrão amostral a partir dos dados elaborados pode-se usar a expressão anterior. No entanto, devido à necessidade de se calcular os desvios em relação à média e calcular, ainda, o seu quadrado, erros de arredondamentos ocorrem com freqüência. Por essa razão é preferível utilizar as seguintes expressões: 2 ⎡ ⎛ n ⎞ ⎤ X ⎢ ∑ i ⎥ 1 ⎢ n 2 ⎜⎝ i=1 ⎟⎠ ⎥ S2 = X − ∑ i ⎥ n − 1 ⎢ i=1 n ⎢ ⎥ ⎢⎣ ⎥⎦ Para a obtenção do desvio padrão, basta extrair a raiz quadrada: S= S 2 24 ESTATÍSTICA BÁSICA No exemplo dos coelhos: S2 = (66,8116-25,842/10)/9 = 0,00456kg2 S= 0,00456 = 0,0675kg Cálculo para dados agrupados em distribuições de freqüência: 2 ⎡ ⎛ n ⎞ ⎤ FX ⎢ ⎜∑ i i ⎟ ⎥ 1 ⎢ n ⎝ i =1 ⎠ ⎥ 2 2 S = FX ∑ i i − ⎢ ⎥ n − 1 i =1 n ⎢ ⎥ ⎢⎣ ⎥⎦ S= S 2 Variância Desvio padrão Para o exemplo: S2 = [(2x2,4712+7x2,5862+1x2,7012) - (2x2,471+7x2,586+1x2,701)2 /10]/9= 0,004261kg2 S = 0,065279kg A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a variabilidade de amostras de grandezas diferentes ou de médias diferentes não pode ser comparada diretamente pelas estimativas da variância ou do desvio padrão obtidas. Para esclarecer este fato os três conjuntos a seguir são ilustrativos. X = {1, 2, 3}; Y = {101, 102, 103} e Z = {1001, 1002, 1003} DANIEL FURTADO FERREIRA Sx = 1,0; Sy = 1,0 e 25 Sz = 1,0 Os três conjuntos possuem a mesma variabilidade absoluta, porém é bastante intuitivo que os desvios padrão de valores iguais a 1 têm importâncias diferentes. É conveniente observar que um desvio padrão igual a 1 é mais importante no conjunto X, pois representa 50% do valor médio. Propriedades (i) Variância Somando ou subtraindo uma constante aos dados a variância não se altera; Multiplicando todos os dados por uma constante K a nova variância ficara multiplicada por K2. (ii) Desvio padrão Somando ou subtraindo uma constante K aos dados o desvio padrão não se altera; Multiplicando todos os dados por uma constante K o novo desvio padrão fica multiplicado por K. (c) Coeficiente de variação (CV) O desvio padrão ou variância permitem a comparação da variabilidade entre conjuntos numéricos que possuem a mesma média e a mesma unidade de medida ou grandeza. Diz-se que o desvio padrão é uma medida de dispersão absoluta. Nos casos em que os conjuntos 26 ESTATÍSTICA BÁSICA possuem diferentes unidades e possuem médias diferentes, uma medida de dispersão relativa, como o coeficiente de variação (CV), é indispensável para se comparar à variabilidade. O coeficiente de variação refere-se à variabilidade dos dados mensurada em relação a sua média, sendo obtido pela expressão seguinte. CV = S X x 100 No exemplo dos três conjuntos apresentados anteriormente, tem-se: CVx=50%; CVy=1% e CVz=0,1% Portanto, o conjunto X apresentou uma maior variabilidade em relação aos demais. No exemplo dos coelhos o CV = (0,0675/2,584) x 100 =2,61% representa relativamente uma pequena dispersão dos dados em relação ao valor central. Um outro exemplo, referente a dados de temperatura e de precipitação num determinado período está apresentado na Tabela 1.6. Verifica-se que a temperatura apresentou uma maior variabilidade relativa do que a apresentada pela precipitação, pois o CV foi maior para essa variável. Se fossem comparados os desvios padrão, a conclusão seria de que a precipitação seria mais variável que a temperatura. Essa conclusão seria, não obstante, incorreta, pois as grandezas são bastante diferentes. Tabela 1.6. Estatísticas amostrais de posição e dispersão de uma determinada região em um determinado período referente à temperatura e precipitação. Estatísticas amostrais Temperatura Precipitação Média 220C 800mm S 5 0C 100mm 27 DANIEL FURTADO FERREIRA CV 22,7% 12,5% (d) Erro padrão da média ( S ) X Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela da primeira amostra. Esse processo se repetido fornecerá estimativas diferentes em cada etapa. Dessa forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis (ou as infinitas) amostras são retiradas de uma população. No entanto, é intuitivo, também, o conceito de que as médias amostrais variem menos que uma simples observação. A variabilidade de uma média é estimada pelo seu erro padrão ( SX ): SX = S n O erro padrão fornece um mecanismo de medir a precisão com que a média populacional foi estimada. Para o exemplo dos coelhos o erro padrão é: SX = 0, 0675 = 0, 02135kg 10 Nesse caso o erro padrão foi de 0,02135kg e representou 0,83% do valor médio, indicando que a média foi estimada com alta precisão. Nos próximos capítulos outros métodos para avaliação da precisão com que uma média foi calculada são apresentados. 28 ESTATÍSTICA BÁSICA 1.3.3. Medidas de assimetria e curtose Como foi visto várias medidas sintetizadoras da amostra são apresentadas, destacando-se suas vantagens e desvantagens. São apresentadas, também, formas gráficas para avaliação da natureza da distribuição dos dados. Neste último caso por uma inspeção empírica o pesquisador podia inferir que tipo de distribuição os dados de sua pesquisa apresentavam. Naquele instante deu-se ênfase a simetria da distribuição, ou seja, se a forma da distribuição apresentava uma concentração maior dos valores em torno do valor central e se à medida que se afastassem em ambas as direções deste centro, o comportamento se mantinha semelhante, reduzindo-se as freqüências. Uma forma de se estimar o grau de assimetria ou de simetria de uma distribuição, pode ser dada pelo coeficiente de assimetria, cuja notação para representá-lo é a3 ou b1 , sendo esta última notação mais conhecida na literatura. a 3 = b1 = m3 m2 m2 em que, m2 e m3 são momentos de ordem 2 e 3, respectivamente, centrados para a média, podendo ser obtidos por: n m2 = ( ∑ xi − x i =1 ) 2 n n e m3 = ( ∑ xi − x i =1 ) 3 n O coeficiente de assimetria pode ser interpretado da seguinte forma: i. a3 < 0 distribuição assimétrica à esquerda; ii. a3 = 0 distribuição simétrica. iii. a3 > 0 distribuição assimétrica à direita. DANIEL FURTADO FERREIRA 29 Nas situações reais da pesquisa, esta informação é de grande valia, uma vez, que os processos de decisão e estimação são baseados em distribuições simétricas. Como os dados destas pesquisas referem-se a amostras de uma população, dificilmente o coeficiente de assimetria será exatamente igual a zero, mesmo quando proveniente de uma distribuição sabidamente simétrica. Para que não se infira incorretamente a respeito da natureza da distribuição quanto à simetria, no capítulo 6, será apresentado um critério estatístico para fazer este julgamento. Uma outra medida para verificar a natureza da distribuição, é denominada de curtose, a qual é representada por a4 ou b2. Esta é uma medida do grau de achatamento da distribuição quando comparada ao de uma distribuição conhecida como distribuição normal, que será vista no capítulo 2. Para esta distribuição normal o valor de a4 é 3, sendo denominada de distribuição mesocúrtica. Valores de a4 maiores que 3, representam as distribuições leptocúrticas, ou seja, são mais “afiladas“ que a distribuição normal. E distribuições com valores de a4 menores do que 3 representam as distribuições platicúrticas, ou seja, aquelas mais achatadas do que a normal. O coeficiente de curtose pode ser estimado pela seguinte expressão: a 4 = b2 = m4 m22 em que, m4 é o momento de ordem 4 centrado na média, podendo ser estimado por: n m4 = ( ∑ xi − x i =1 ) 4 n Na Figura 1.5 estão representados os tipos de distribuição quanto ao grau de achatamento, em relação aos valores do coeficiente de curtose. 30 ESTATÍSTICA BÁSICA leptocúrtica mesocúrtica platicúrtica Figura 1.5. Tipos de distribuições quanto ao grau de achatamento (curtose): leptocúrtica, mesocúrtica e platicúrtica. Exemplo: Calcular os coeficiente de assimetria e de curtose para os dados de peso de coelhos apresentados anteriormente, e discutir sobre os resultados encontrados. Os coeficientes m2, m3 e m4 devem ser calculados inicialmente. Devido às elevadas potências aconselha-se a utilização de planilhas eletrônicas na obtenção destes coeficientes. Os valores desses momentos para o exemplo estão apresentados a seguir. n m2 = ∑(x i =1 i ∑(x i =1 i =0,004104 − x) 3 =-0,000062112 n n m4 = 2 n n m3 = − x) ∑(x i =1 i n − x) 4 =0,000043419552 DANIEL FURTADO FERREIRA 31 O próximo passo é utilizar as expressões para obter as estimativas do coeficiente de assimetria (a3)e de curtose (a4): a 3 = b1 = a 4 = b2 = m3 m2 m2 =-0,2362 m4 =2,5779 m22 Como o valor de assimetria é menor que zero, pode se inferir que a distribuição possui assimetria negativa, ou seja, é considerada assimétrica à esquerda. Da mesma forma pode-se inferir que a distribuição é platicúrtica, uma vez que seu coeficiente de curtose é inferior a 3. Como já comentado, os valores amostrais destas estatísticas, em geral não são exatamente iguais aos padrões de uma normal, mesmo quando são provenientes de uma distribuição sabidamente normal. Então, neste momento, ainda não há como saber com grande segurança se a diferença dos valores desta estatística para os padrões da distribuição normal é irrelevante ou não. A resposta para essa questão será fornecida no capítulo 6. ESTATÍSTICA BÁSICA 32 1.4. Exercícios 1.4.1. Técnicas de somatório 1. Índices ou notação por índices O símbolo Xj (leia X índice j) representa qualquer um dos n valores, X1, X2, ..., Xn, assumidos pela variável X, na amostra ou no conjunto de dados. A letra j, usada como índice, pode representar qualquer um dos valores: 1, 2, ..., n. Evidentemente pode ser usada qualquer outra letra além de j. 2. Notação de somatório n O símbolo ∑ X j é usado para representar a soma de todos os valores Xj desde j=1 até j =1 j = n, ou seja, por definição: n ∑ X j =X1 + X2 + ... + Xn, j =1 O símbolo Σ é a letra grega sigma, que indica soma. 3. Propriedades n n j =1 j =1 3.1. ∑ aX j = aX1 + aX2 + ... + aXn=a ∑ X j n 3.2. ∑Y j X j = Y1 X1 + Y2X2 + ... + YnXn j =1 n n n j =1 j =1 j =1 3.3. ∑ (aX j + bY j ) = a ∑ X j + b ∑Y j n 3.4. ∑ K = nK j =1 Obs. a, b e K são constantes e X e Y variáveis aleatórias. 4. Soma de variáveis arranjadas com dupla identificação É um procedimento comum que os dados de um experimento ou de uma amostragem serem representados em uma tabela de dupla entrada. Desta forma tem se a variável X com dois índices (Xi j). O índice i representa as linhas e o índice j às colunas. Um exemplo, apresentado na Tabela 1.7, refere-se à produção média por hectare de uma gramínea após a utilização de adubos nitrogenados e fosfatados. Três quantidades de nitrogênio foram aplicadas e quatro doses de fósforo. 33 DANIEL FURTADO FERREIRA Tabela 1.7. Produtividade em t/ha de uma forrageira sob o efeito de 3 doses de N em combinação com 4 doses de P observados em um experimento zootécnico. Teor de nitrogênio (j) Teor de fósforo (i) 1 2 3 1 4,6 5,0 5,5 2 5,0 5,5 6,1 3 5,2 5,8 6,4 4 6,0 6,2 6,8 Em algumas análises estatísticas é necessário muitas vezes somar as linhas e/ou colunas, bem como toda a tabela. A notação de somatório pode ser utilizada com essa finalidade. Como dois fatores determinam a produtividade, dois índices são utilizados para representá-los, como comentado anteriormente. Assim, dois símbolos de somatórios podem ser utilizados em alguns casos. Assim será definido, o seguinte somatório: i. Somar todas as produtividades da Tabela 1.. 4 3 ∑∑ x i =1 j=1 ij = x 11 + x 12 + " + x 43 = 4, 6 + 5, 0 + " + 6,8 = 68,1 ii. Somar cada uma das linhas 3 ∑ xij = xi1 + xi 2 + xi 3 ∀ i = 1, 2, 3, 4 j= 1 Assim por exemplo, para fósforo dose 2 (i=2), a produtividade total é: 3 ∑ x 2 j = x 21 + x 22 + x 23 = 5,0 + 5,5 + 6,1 = 16,6 j =1 iii. Somar cada uma das colunas 4 ∑ x ij = x1 j + x 2 j + x 3 j + x 4 j ∀ j = 1, 2, 3 i =1 Assim por exemplo, para nitrogênio dose 3 (j=3), a produtividade total é: 4 ∑ x i 3 = x13 + x23 + x 33 + x 43 = 5,5 + 6,1 + 6,4 + 6,8 = 24,8 i =1 ESTATÍSTICA BÁSICA 5. 34 Exercícios propostos Sejam os conjuntos de dados a seguir: X={2, 4, 4, 3, 2 } Y={1, 2, 3, 6, 7} Obtenha: 4 5 5.1. ∑ X j 5.2. ∑Y j j =1 j =1 5 5 2 5.3. ∑ 4 X j 5.4. ∑ X jY j j =1 j =1 5 j =1 n X= 6. Seja j=1 n 5 j =2 j =1 2 5.6. ∑ X jY j + ∑Y j 5.5. ∑ ( 3 X j + 2Y j ) ∑X 4 j 2 ⎡ ⎛n ⎞ ⎤ ⎜∑X ⎟ ⎥ ⎢ 1 ⎢ n 2 ⎝ j=1 j ⎠ ⎥ 2 ∑X − a média aritmética e S = a variância. Dado o ⎥ n − 1 ⎢ j =1 j n ⎥ ⎢ ⎦ ⎣ conjunto de dados X={2, 4, 5, 6, 1, 8}, calcule a sua média e variância. n 7. Demonstre numericamente e algebricamente que ∑ (X j=1 j − X) = 0 . Use os dados do exemplo anterior para demonstrar numericamente. 8. Obtenha a partir da Tabela 1.7, as seguintes somas: 4 8.1. 3 ∑ ∑ X2ij i = 1 j= 1 4 2 8.2. ∑ Xij j = 1, 2, 3 i =1 3 8.3. ∑ X2ij i = 1, 2, 3, 4 j=1 1.4.2. Coleta organização e apresentação de dados 1. Os dados apresentados a seguir são relativos às produções de 50 plantas de uma progênie F2 de feijoeiro em g/planta, avaliados no Departamento de Biologia da UFLA, em 1997. 35 DANIEL FURTADO FERREIRA 2,81 3,19 3,49 3,76 6,02 8,23 2,23 3,01 4,43 13,94 3,10 1,52 3,38 2,85 4,64 7,33 6,78 13,12 13,84 9,40 6,20 2,39 9,19 7,07 9,20 13,46 3,90 8,99 7,97 5,15 12,95 25,52 6,61 16,56 9,60 6,71 6,73 3,86 3,50 4,80 8,40 13,86 6,53 18,44 22,14 9,15 8,75 10,86 14,20 10,09 a) Agrupe os dados, determinando o número de classes pelo critério de Oliveira. b) Faça o histograma e o polígono de freqüência num mesmo gráfico. c) Construir as distribuições de freqüências acumuladas. d) Trace as ogivas no mesmo plano cartesiano. e) Qual é a porcentagem de plantas com produtividade superior a 9g/planta. Utilize as ogivas e a interpolação algébrica a partir da distribuição de freqüência. Compare e discuta os resultados obtidos com a proporção amostral exata, obtida dos dados elaborados. f) Discuta sobre a natureza da distribuição, baseado no item b? g) Acima de qual produtividade estão 50% das plantas (25 plantas)? h) Qual a porcentagem de plantas com produtividade inferior a 3,5g? i) Obtenha as produtividades que deixam 25% de plantas com produtividade acima das mesmas e 25% abaixo. Obs. Utilize em todos os casos (g, h, i) a distribuição de freqüência. 1.4.3. Medidas de posição 1. Foi realizada na região Oeste do Paraná, no município de Marechal Cândido Rondon, em 1992, um levantamento da produtividade leiteira diária de 30 produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler, 1997). Os resultados da produtividade diária dos 30 produtores estão apresentados a seguir. 8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13 10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14 Obtenha as seguintes estimativas das medidas de posição: a) Média aritmética b) Média aparada (m=2) c) Mediana n − d) Cheque que ∑ ( X j − X ) = 0 . j =1 36 ESTATÍSTICA BÁSICA e) Se for multiplicado a produtividade por 0,27 de cada produtor, para se obter a renda média por produtor/animal/dia, qual, qual será o valor para amostra? f) obtenha a média harmônica. 2) Faça a distribuição de freqüência destes dados e calcule: a) Média aritmética b) Mediana c) Moda d) Faça a comparação destes valores com os obtidos no exercício anterior, e discuta sobre as razões das diferenças. e) Trace o histograma e o polígono de freqüência f) Baseado nestes gráficos, determine qual é a natureza da distribuição, quanto à simetria. Baseado nesta resposta indique qual medida de posição é a mais adequada para representar os dados amostrais. Justifique g) Se você fosse solicitado pelo prefeito da cidade para estimar a produtividade de leite total diária da cidade, como você faria? Informações adicionais: número de produtores de leite da cidade - 7309; Quantidade total de vacas (média da amostra) - 11,80 vacas/produtor; Número médio de vacas em lactação: 8,075. 1.4.4. Medidas de dispersão 1. Foi realizada na região Oeste do Paraná, no município de Marechal Cândido Rondon, em 1992, um levantamento da produtividade leiteira diária de 20 produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler, 1997). Os resultados dos intervalos de parto (em meses) dos 20 produtores estão apresentados a seguir. 11,80 11,90 12,00 12,30 12,80 12,99 13,10 13,50 13,80 14,10 14,55 14,65 14,70 15,00 15,10 15,20 15,50 15,80 15,90 15,96 Obtenha as seguintes estimativas das medidas de dispersão: a) Amplitude total b) Variância e desvio padrão c) Coeficiente de variação d) Erro padrão da média e) Em cada caso anterior comentar, sobre o significado da estimativa obtida e sobre a forma que devem ser aplicadas. 37 DANIEL FURTADO FERREIRA f) Se cada dado for dividido por 12, para se obter o intervalo de partos em anos, qual será os novos valores da amplitude, variância, desvio padrão, CV e erro padrão da média? 2) Faça a distribuição de freqüência destes dados e calcule: a) Amplitude, variância, desvio padrão, CV e erro padrão da média? b) Faça a comparação destes valores com os obtidos no exercício anterior, e discuta sobre as razões das diferenças. c) Se você fosse solicitado a representar os dados por duas medidas, quais você usaria e por que? d) Após o programa Panela Cheia o intervalo de partos apresentou média de 13,85 e desvio padrão de 2,00 meses. Qual é na sua opinião a situação que apresentou maior variabilidade, ante ou após o Programa? 3) A seguir estão apresentadas às estimativas dos coeficientes de assimetria e de curtose de algumas situações amostrais. Classifique cada uma delas quanto à simetria e o grau de achatamento da distribuição de freqüência, baseando-se nas estimativas destes coeficientes. Coef. simetria (a3) 0,5 -2,0 2,0 3,0 0,0 0,0 -3,0 Coef. curtose (a4) 3,0 2,0 2,0 3,0 3,0 3,5 4,5 Class. da simetria Class. da curtose 1.5. Literatura citada ROESLER, D.A. Impactos do programa de crédito por equivalência-produto no sistema de produção de leite - um estudo no oeste do Paraná - Brasil. Lavras, MG, Agosto, 1997. 89p. (Dissertação de Mestrado). CAPÍTULO II - DISTRIBUIÇÃO DE PROBABILIDADE 2.1. CONCEITO E IMPORTÂNCIA Na experimentação agropecuária um dos principais objetivos é a retirada de conclusões a partir de experimentos que envolvem incertezas. Na obtenção das conclusões é necessário o uso da teoria da probabilidade. Os dados de uma amostra são realizações de variáveis aleatórias. Inúmeros modelos probabilísticos podem ser usados para modelar a ocorrência à distribuição e facilitar a compreensão de como os eventos aleatórios ocorrem. A inferência estatística usa esses modelos e suas propriedades para formular as principais teorias utilizadas pelos investigadores científicos em suas pesquisas. Nesse material, apenas uma abordagem simplificada do conceito de probabilidade é apresentada. Nessa abordagem a probabilidade é relacionada com a ocorrência de um evento em relação a todas possibilidades possíveis. Se um evento pode ocorrer de "a" maneiras diferentes num total de “n” modos possíveis, então a probabilidade de ocorrência do evento é definida por: p = a n . Assim, o conjunto de todas as possíveis formas de ocorrer um determinado fenômeno deve ser especificado ou pelo menos enumerado. Esse conjunto é denominado de espaço amostral. O subconjunto de interesse é denominado de evento. Exemplo: Seja o nascimento de fêmeas numa leitegada de tamanho 3. Qual é a probabilidade de nascer 2 fêmeas? e nenhuma fêmea? Os eventos possíveis são apresentados a seguir pelo espaço amostral Ω: Ω: {1.MMM; 2.MMF; 3.MFM; 4.FMM; 5.MFF; 6.FMF; 7.FFM; 8.FFF} DANIEL FURTADO FERREIRA 40 E1 ={ocorrência de duas fêmeas}={5,6,7} p = Prob {E1} = 3/8 =0,375 = 37,50% E2={não ocorrência de fêmeas}={1} p = Prob {E2} = 1/8 =0,1250 = 12,50% 2.2. VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÃO DE PROBABILIDADES As variáveis aleatórias podem assumir qualquer valor de um determinado conjunto de dados, denominado de domínio da variável aleatória. Como já foi visto, elas podem ser discretas ou continuas. Será visto duas principais distribuições discretas e a mais importante das continuas, a distribuição normal. Nesse curso, devido a carga horária limitada e a grande quantidade de assuntos a serem tratados, são penalizados alguns conceitos fundamentais de probabilidade, regras de contagem e análise combinatória. DISTRIBUIÇÕES DE PROBABILIDADES DISCRETAS Se uma variável X pode assumir um conjunto de valores discretos X1, X2, ..., Xn com probabilidades p1, p2, ..., pn, sendo Σpi=1, diz-se que está definida uma distribuição de probabilidade de X. DISTRIBUIÇÕES DE PROBABILIDADES CONTÍNUAS Neste caso X pode assumir um conjunto continuo de valores. O polígono de freqüência amostral torna-se, no limite de uma população, uma curva continua. Essa curva contínua é denominada distribuição de probabilidade contínua. As probabilidades dos eventos são definidas por áreas sob essa curva. 41 ESTATÍSTICA BÁSICA µ a b A área total sob a curva limitada pelo eixo X é igual a 1. E a área entre a e b fornece a probabilidade de X estar entre a e b. 2.3. DISTRIBUIÇÃO DE PROBABILIDADES DISCRETAS E CONTINUAS. A. DISTRIBUIÇÃO BINOMIAL A distribuição binomial é apropriada para situações em que se têm 2 únicos resultados: sucesso e fracasso quando se obtém uma amostra de um único elemento da população. Se em uma amostra de tamanho n forem mantidas constantes as probabilidades associadas ao sucesso e ao fracasso, pode-se definir a variável X pelo número de sucessos observados. Essa variável tem distribuição binomial. São exemplos de variáveis binomiais: florescimentos de plantas de uma espécie em uma amostra de tamanho n; nascimento de fêmeas em uma amostra de tamanho n; entre outros. A distribuição binomial é a mais importante das distribuições de v.a.discretas. DANIEL FURTADO FERREIRA 42 Se p e a probabilidade do sucesso de um evento ocorrer em uma única tentativa e q=1-p e a probabilidade do fracasso, então, a probabilidade do evento ocorrer x vezes em n tentativas é apresentada a seguir: x P(X=x)= C nx p q em, Cn = x n−x n! e x é o número de sucessos ocorridos em n tentativas. x=0, 1, 2, ..., n. x !( n − x )! Exemplo. No nascimento de dois bezerros considerando o sucesso a ocorrência de fêmeas, pergunta-se qual a probabilidade de nascer 2 fêmeas? 1 fêmea? e nascer pelo menos uma fêmea? n=2; p=1/2; q=1-p = 1/2 e X: número de fêmeas; x=0, 1, 2. Ω={MM, MF, FM, FF} 2 P(X=2)= 2! ⎛ 1 ⎞ ⎛ 1 ⎞ ⎜ ⎟⎜ ⎟ 2!0! ⎝ 2 ⎠ ⎝ 2 ⎠ 1 2! ⎛ 1 ⎞ ⎛ 1 ⎞ P(X=1)= ⎜ ⎟⎜ ⎟ 1!1! ⎝ 2 ⎠ ⎝ 2 ⎠ 2−2 = 0,25 = 25% 2 −1 = 0,50 = 50% P(X≥1) = P(Pelo menos uma fêmea)=P(X=1)+P(X=2)=0,25+0,50=75% P(X=0)= 25% 43 ESTATÍSTICA BÁSICA A distribuição de probabilidade de X (número de fêmeas), está apresentada no Tabela 2.1. A distribuição de probabilidade refere-se aos possíveis valores que X pode assumir associados as suas respectivas probabilidades de ocorrência. x P(X=x) 0 1 2 0,25 0,50 0,25 Tabela 2.1. Distribuição de probabilidade da ocorrência de fêmeas. A função de distribuição de probabilidade refere-se as probabilidades acumuladas. No exemplo, refere-se à probabilidade de ocorrência de no máximo x fêmeas e é representada por F(x). F(x) = P (X≤x) = P(X=0)+P(X=1)+...+P(X=x-1)+P(X=x) Ex. F(1) = P(X≤1) = P(X=0)+P(X=1)=0,25+0,50=0,75=75% F(2) = P(X≤2) = P(X=0)+P(X=1)+P(X=2) =0,25+0,50+0,25=100% Média e Variância da Binomial µ x = np σ 2x = npq = np(1 − p) B. DISTRIBUIÇÃO DE POISSON A distribuição de Poisson pode ser vista como sendo uma aproximação da binomial quando o n é grande tendendo para ∞ e a probabilidade do sucesso p é pequena tendendo para zero, permanecendo finito e não nulo o produto np (média da distribuição). Na prática, para uma boa aproximação, adota-se n≥50 e p≤0,10. A distribuição de Poisson, também, DANIEL FURTADO FERREIRA 44 pode ser vista como sendo a distribuição de uma variável X que mede a ocorrência do número de elementos por unidade de tempo, área ou volume. Assim, por exemplo, a ocorrência de uma planta de uma determinada espécie por unidade de área pode ser modelada pela distribuição Poisson; a ocorrência de formigueiros por talhão; a ocorrência do número de uma determinada doença por uma determinada unidade de tempo; entre outros. Função de densidade P(X=x) = e −k k x x! onde, k =np é a média da distribuição. Função de distribuição de Poisson: x −k F(x) = P(X≤x) = ∑ e t=0 t k t! Exemplo: 2% dos animais de um rebanho estão atacados por uma doença. Qual a probabilidade de encontrar em uma amostra de 100 animais: (i) nenhum animal doente? (ii) 1 doente? (iii) 2 doentes? (iv) mais de três animais doentes? n=100>50 e p=0,02 < 0,10 (sucesso ou fracasso) ⇒ Poisson. k=np=100x0,02=2 (i) P(X=0)= e−2 0 2 =13,53% 0! ESTATÍSTICA BÁSICA (ii) P(X=1)= e −2 21 =27,07% 1! (iii) P(X=2)= e −2 2 2 =27,07% 2! 45 (iv) P(X>3) = 1-F(3)=1-P(X≤3)=1-[P(X=0)+P(X=1)+P(X=2)+P(X=3)]=1-0,8571=14,29% Média e Variância da Poisson µ x = np = k σ 2x = np = k A distribuição Poisson possui média e variâncias iguais. C. DISTRIBUIÇÃO DE PROBABILIDADE UNIFORME DISCRETA Uma variável aleatória discreta X assumindo valores x1, x2, . . ., xk terá distribuição uniforme discreta se todos elementos forem equiprováveis. A função de densidade de probabilidade é dada por: P(X=x)= 1 ; x = x1, x2, . . ., xk k DANIEL FURTADO FERREIRA 46 D. DISTRIBUIÇÃO NORMAL É a mais importante das distribuições do grupo continuo pela grande aplicabilidade em pesquisas das ciências agrárias. A distribuição normal tem densidade dada por: f (x) = 1 2πσ2 e − (x −µ ) 2 2 σ2 Em que µ e σ2 são os parâmetros dessa distribuição, os quais são respectivamente a média e variância dessa distribuição. O gráfico da função normal é: Propriedades (i) simétrica em relação a µ; (ii) tem forma de sino; (iii) fica completamente definida conhecendo-se a sua média e variância; (iv) é assintótica em relação à abscissa; (v) área total sob a curva e igual a 1. 47 ESTATÍSTICA BÁSICA Distribuição normal reduzida ou padronizada (σ2 = 1 e µ = 0) Se X ∩ N( µ , σ2) então a V.A. Z, definida por: Z = X−µ , terá distribuição normal σ padronizada-N(0,1). Sabe-se que a probabilidade de X estar entre dois valores quaisquer (a, b) é dada pela área sob a curva normal entre estes valores: a µ b b P(a2,701)=? (i) Usar gráfico para visualizar melhor a probabilidade desejada 2 ,5 8 4 2 ,7 0 1 (ii) Colocar X na forma reduzida: Zc = X− X S = 2,701 − 2,584 0,0675 =1,73 0 1 ,7 3 (iii) P(X>2,701) = P(Z>1,73)=0,50-0,4582= 0,0418 ⇒ P(X>2,701) = 4,18% DANIEL FURTADO FERREIRA 50 E. Aproximação normal das distribuições Binomial e Poisson (i) Binomial X ∩ B(n,p) Deseja-se calcular probabilidades tais como P(X≥7), P(0≤X≤4), etc. Pode-se fazer tal cálculo usando a própria distribuição binomial ou usar a aproximação normal. No caso da aproximação normal, o erro cometido será tanto menor quanto maior for n e quanto mais próximo de 0,50 estiver o valor de p. Alguns autores afirmam que quando np≥5 a aproximação normal é considerada boa. EX. X ∩ B(n=10, p=0,50). Qual P(X≥7)? ■ Usando a Binomial: P(X≥7)=P(X=7)+P(X=8)+P(X=9)+P(X=10)=0,171875=17,1875% ■ Usando a aproximação Normal: µx= np =10x0,50 = 5 ≥ 5 σ2 = npq =10x0,5x0,5 = 2,5 ■ Como P(X≥7) inclui o 7 e X segue uma distribuição discreta, deve-se fazer correção para descontinuidade, para que P(X=7) seja considerada na aproximação normal, e o erro seja minimizado. 51 ESTATÍSTICA BÁSICA ■ P(X≥7) inclui o 7, logo se deve considerar no caso contínuo P(X>6,5) (pois considera a probabilidade de X ser 6,5 ou mais). Se fosse P(X>7), que não inclui o valor 7 deve-se calcular a P(X>7,5). Observe a figura ilustrativa a seguir para visualizar as correções de continuidade apresentadas. A probabilidade de cada valor de X é estimada no caso contínuo pela área do retângulo correspondente sob a curva contínua usada para aproximar a distribuição discreta. -1 0 1 2 3 4 P(X>6,5) = P(Z> Zc), onde Zc é dado por: Zc= X − µx σx = 6,5 − 5,0 2,5 = 0,95 P(Z>0,95) = 0,1711 = 17,11% O erro cometido é desprezível. 5 6 7 8 9 10 11 DANIEL FURTADO FERREIRA 52 (ii) Poisson Nesse caso o processo é análogo, sendo que a média e a variância são dados por: µx= np =k e σ2 = np=k Ex. Seja k=5 e n=100. Qual a P(X>7)? ■ Deve ser feito o ajuste para descontinuidade: P(X>7) não inclui o 7, logo a probabilidade desejada será: P(X>7,5) na aproximação Normal. P(X>7,5) = P(Z>Zc) = P(Z>1,12), pois: Zc = X − µx σx = 7,5 − 5,0 5 = 1,12 P(Z>1,12) = 0,50 - P(07)=13,34%. Novamente observa-se que o erro cometido foi pequeno, não sendo importante. 2.4. ESPERANÇAS MATEMÁTICAS A média de uma variável aleatória X recebe o nome de valor esperado ou esperança matemática de X. E é definida por: n E(X) = ∑ x P(X = x ) , se X é uma v.a. discreta. i i i ESTATÍSTICA BÁSICA 53 ∞ E(X) = ∫ xf ( x )dx , se X é uma v.a. contínua −∞ Propriedades (i) Sejam a e b constantes: ■ E(aX+b) = aE(X) + b (X v.a. discreta) ■ E(aX+b) = ∫ (ax + b)f (x)dx =a ∫ xf (x)dx + b (X v.a. contínua) (ii) E[X-E(X)]2 é um valor mínimo (variância de X) (iii) E[X-E(X)]=0 2.5. EXERCÍCIOS 2.5.1. Distribuição de probabilidades discretas 1. Considere ninhadas de 4 filhotes de coelhos. Construa todos os possíveis eventos de nascimentos quanto ao sexo dos filhotes. Ex. (MMMM), (MMMF), etc. a) sendo X a ocorrência de fêmeas, construa a distribuição de probabilidade de X. b) Calcule as probabilidades dos seguintes eventos, pelo conceito de probabilidade. i) nascimento de exatamente duas fêmeas? ii) nascimento de pelo menos um macho? iii) nascimento de pelo menos duas fêmeas? iv) nascimento de no máximo uma fêmea? c) Suponha que você faça uma amostragem de 500 ninhadas de 4 filhotes. Em quantas vocês espera encontrar exatamente 1 macho? 2) Suponha que X (V.A. discreta) seja o número de animais doentes de uma determinada raça. Sabe-se que esta doença é controlada geneticamente e que ataca 1/3 da raça. Numa amostra de 5 animais, pede-se: a) A distribuição de probabilidade de X? (Use a binomial) b) A probabilidade de haver na amostra mais de 1 animal doente? c) A probabilidade de haver mais de um animal sadio? 54 DANIEL FURTADO FERREIRA d) A probabilidade de haver no máximo três animais doentes? e) A função de distribuição de probabilidade de X, F(X). f) A média e a variância? 3) Numa lâmina verificou-se que existiam em média 2,5 bactérias/cm2. A lâmina foi subdividida em 300 quadrados de 1cm2. Em quantos destes quadrados vocês espera encontrar no máximo 1 bactéria? Qual é a probabilidade de se encontrar mais de 3 bactérias por centímetro quadrado? 4) Um pesquisador da área de zootecnia conseguiu uma série de dados dos últimos 120 anos, com o registro do número de uma doença rara em eqüinos da localidade em que trabalhava. Os dados obtidos foram: Número de doenças 0 1 2 3 4 5 Número de anos 50 42 20 5 2 1 a) Estime o número médio de doenças /ano? b) Calcule para cada valor de X, as probabilidades associadas. suponha que X possua distribuição de Poisson. c) Calcule a freqüência esperada (em anos) para cada valor de X. d) Compare os resultados esperados com os observados. Com base nesta comparação, você pode afirmar que a distribuição de Poisson é adequada para explicar a ocorrência desta doença na região de estudo? Justifique. 2.5.2. Distribuição de probabilidades contínuas 1. Calcule e faça os esboços dos gráficos para representar as seguintes probabilidades da distribuição normal padronizada N(0,1), com média zero e variância 1: P(Z≥1,96), P(Z≥0,95), P(Z≤1,54), P(Z≤-1,645) e P(-0,45≤Z≤2,00). 2. Encontre o valor de Zc tal que: P(Z> Zc)=0,025, P(Z< Zc)=0,600 e P(18), P(10Zc) = P(Z>2,57) = 0,50-0,4949 = 0,51% Sob a hipótese de que as rações não possuem efeitos diferenciais, a probabilidade que a diferença amostral de 3kg entre as duas rações, seja devida ao acaso é de apenas 0,51%. Portanto é mais fácil acreditar que as rações A e B tenham efeitos diferentes para o ganho de peso dos animais, do que acreditar que a diferença amostral de 3kg seja devida ao acaso, haja vista, a pequena probabilidade (0,51%) de que essa diferença seja devida ao acaso. 4.3. DISTRIBUIÇÃO DE t, χ2 E F Outras importantes distribuições amostrais que desempenham papel crucial na estatística são as distribuições t, qui-quadrado e F. Essas distribuições participam dos testes de hipóteses e da estimação de parâmetros das amostragens de populações normais ou aproximadamente normais. CEX 117 - ESTATÍSTICA DANIEL FURTADO FERREIRA 73 (A) DISTRIBUIÇÃO DE t DE STUDENT Foi visto que as médias amostrais segue a distribuição normal, i. e., X n N( µ X = µ ; σ 2X = σ2 n ), dessa forma, pode-se obter o valor da curva normal padronizada, N(0,1), calculando o valor padronizado por: ZC = X−µ σ n que também segue a distribuição normal padrão, N(0,1). No entanto, se não se conhece a variância populacional, situação mais comum na pratica, e se as amostras forem pequenas (n<30), e S2 (variância da amostra), sujeita à variação amostral, for usada como estimador de σ2, os valores estandardizados, de uma população normal: tC = X−µ S n seguem uma distribuição de t de Student, com n-1 graus de liberdade: Características da distribuição de t (i) Simétrica em relação à média; (ii) Forma de sino; (iii) Quando n tende para infinito, a distribuição de t, se torna equivalente à distribuição normal; (iv) Possui n-1 graus de liberdade. CEX 117 - ESTATÍSTICA DANIEL FURTADO FERREIRA 74 Exemplo: Um agricultor afirma que sua produtividade média é de 2,20t/ha. Um agrônomo numa amostra de n=25 parcelas obteve uma média de 1,70t/ha, e desvio padrão de 0,8t/ha. Baseado no resultado da amostra é possível que o agricultor esteja superestimando sua produtividade média? É considerado, para fins de se avaliar a afirmação feita, que a produtividade média de 2,20t/ha seja verdadeira. Usando este valor como verdadeiro determinar se a diferença de 0,50t/ha (2,2-1,70) é devida apenas ao acaso, ou realmente é porque a hipótese é falsa. Para isso, calcula-se a probabilidade de que a diferença encontrada seja devida ao acaso, usando a hipótese como verdadeira. Se esta probabilidade é baixa, é mais fácil acreditar que a hipótese é falsa, do que ela ocorreu devido ao acaso. O valor de t calculado é: tC = 1,7 − 2,2 = −3,125 0,8 25 A avaliação da probabilidade exata na distribuição de t é difícil de ser obtida, exceto quando se utilizam alguns softwares de estatística e probabilidade. Portanto, são definidas regiões que correspondem a probabilidades pequenas (5% e 1%) divididas nos extremos da curva, como ilustrado na Figura 4.4. Se o valor de tc cai numa destas regiões a probabilidade do evento ter ocorrido devido ao acaso deve ser menor que os níveis estipulados. Desta forma, para o exemplo, o valor de tc=-3,125 caiu na região achurada, apresentada na Figura 4.4. 9 5 % 2 ,5 % 2 ,5 % -2 ,0 6 4 0 2 ,0 6 4 FIGURA 4.4. Região crítica ou de rejeição da hipótese da distribuição amostral de t para uma amostra de n=25, com média 1,70t/ha e desvio padrão de 0,8t/ha. CEX 117 - ESTATÍSTICA DANIEL FURTADO FERREIRA 75 ■ Conclusão: Como o valor de tc=-3,125 supera o valor em módulo de t tabelado ao nível de 95% de confiança, rejeita-se a afirmação do agricultor. (B) DISTRIBUIÇÃO DE χ 2 (QUI-QUADRADO) 2 A variável aleatória obtida por: χ = ( n − 1) S 2 σ2 , é definida como qui-quadrado. Sua distribuição é conhecida por distribuição de qui-quadrado, sendo também dependente do número de graus de liberdade (n - 1), como na distribuição de t de Student. Esta distribuição é usada principalmente, entre diversas aplicações, na determinação de intervalos de confiança para variâncias e desvios padrões. Curvas de aderência entre uma distribuição teórica e uma distribuição experimental, e ajuste de freqüências teóricas esperadas e freqüências experimentais observadas. Detalhes de sua utilização serão vistos no capítulo de estimação. Exemplo: Qual o valor de χ 2 cuja área acima do mesmo é de 5%, obtido numa amostra de n=25. Consultando a tabela de qui-quadrado para 24 graus de liberdade e 5% de probabilidade, tem-se a representação apresentada na Figura 4.5. O valor de qui-quadrado tabelado é 36,415. CEX 117 - ESTATÍSTICA DANIEL FURTADO FERREIRA 76 95 % R eg ião de aceitação de H0 R eg ião d e reje ição de H 0 5% 0 0 3 6,41 5 FIGURA 4.5. Região crítica ou de rejeição da hipótese da distribuição de qui-quadrado para uma amostra de n=25. (C) DISTRIBUIÇÃO F DE SNEDECOR 2 S1 A estatística definida por: F = S 2 2 σ1 2 σ segue a distribuição F de Snedecor. É usada 2 2 para testar a igualdade entre duas variâncias e na análise de variância (estatística experimental), para se efetuar o teste da hipótese de igualdade de efeitos tratamentos que se deseja comparar. As tabelas de F, são consultadas de acordo com os graus de liberdade (n1-1) associados à variância 1 (numerador da expressão) na primeira linha, e graus de liberdade (n2-1) associados à variância 2 (denominador da expressão) na primeira coluna, e probabilidade desejada. CEX 117 - ESTATÍSTICA 77 DANIEL FURTADO FERREIRA n1-1 n2-1 1 2 3 4 5 1 F 1 F 2 F3 F4 F 5 2 3 4 . . . ∞ F 1 F 2 F3 F4 F 5 QUADRO 4.4. Esquema da tabela de F, para n1-1 e n2-1 graus de ... . . . . . . ∞ F∞ F∞ liberdade. Os valores Fi representam os valores tabelados da distribuição de F. 4.4. DISTRIBUIÇÃO DE AMOSTRAGEM DE PROPORÇÕES (P) Para se estudar a distribuição de amostragem para proporções, a população considerada foi definida no esquema 4.1. A partir desta população serão realizadas diversas amostragens. POPULAÇÃO Parâmetro populacional desconhecido N1 ⇒ P=N1/N N ESQUEMA 4.1. População de tamanho N, com N1 elementos que constitui um evento de interesse para o pesquisador, Neste caso, P representa a proporção de elementos favoráveis do evento, em relação à população. CEX 117 - ESTATÍSTICA 78 DANIEL FURTADO FERREIRA A partir do esquema 4.1, definiu-se: N: tamanho total da população; por exemplo, total de plantas doentes e sadias de um campo de produção de sementes genéticas. N1: número total de elementos da população que constituem um evento de interesse do pesquisador. Por exemplo, o numero de plantas doentes deste campo de produção de sementes. Se for realizado um processo de amostragem, com K amostras, tem-se a distribuição de amostragem apresentada no Quadro 4.5. Amostras Tamanho 1 n 2 n Estimador P 1 = P 2 = . . . . . . . K n P k = n1 n n2 n . . nk n QUADRO 4.5. Distribuição de amostragem para K amostras de tamanho n retiradas de uma população de tamanho N. Fazendo a distribuição de P , tem-se a distribuição amostral das proporções, cuja média e variância são: µP = P e σ P2 = P(1 − P) n Se np≥5 a distribuição pode ser bem aproximada pela normal. Com populações finitas e amostras sem reposição, a média e variância são: CEX 117 - ESTATÍSTICA µP = P e DANIEL FURTADO FERREIRA σ P2 = 79 P(1 − P) N − n x n N−1 Se for feita a distribuição do número de sucessos ni ao invés de P , tem-se a distribuição definida com média e variâncias: µ X = nP e σ 2X = nP(1 − P) E para populações finitas e amostragem sem reposição: µ X = nP e ⎛N − n⎞ ⎟ ⎝ N− 1⎠ σ 2X = nP(1 − P) ⎜ Pode ser observado que se trata da distribuição binomial, já estudada ˆ também é binomial, embora possa ser aproximada pela anteriormente. Assim, a distribuição de p normal em algumas situações de p próximo a ½ e n grande. CAPÍTULO V - TEORIA DA ESTIMAÇÃO 5.1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS Foi visto que a inferência estatística tem por objetivo fazer generalizações sobre uma população com base em dados amostrais, uma vez que os parâmetros populacionais são desconhecidos na maioria das situações práticas. Muitos problemas, na área agrícola, necessitam desse tipo de inferência. POPULAÇÃO AMOSTRA µ X σ 2 ⎯⎯→ ⎯⎯→ S 2 ^ P P Parâmetros populacionais desconhecidos Estimadores amostrais TABELA 5.1. Descrição do processo de amostragem de uma população com parâmetros desconhecidos com os respectivos estimadores (ou estatísticas). Na inferência pode-se salientar (a) Estimação de parâmetros: é o processo que usa os resultados amostrais (estatísticas) para inferir, fazer afirmações ou conjecturas, sobre a população (parâmetros); (b) Testes de hipóteses sobre parâmetros populacionais. 5.2. ESTIMAÇÃO POR PONTO E POR INTERVALO (a) Estimação por ponto: obtém-se nesse caso um único valor amostral. Ex. X é uma estatística usada para fazer a estimação por ponto de µ. ESTATÍSTICA 81 ■ Obs. Como já foi visto, o estimador (ou estatística) é uma variável aleatória que é função dos elementos amostrais e a estimativa é o valor numérico obtido pelo estimador em uma certa amostra. Principais propriedades de um estimador (i) Não viciado ou não viesado: Quando sua esperança (valor médio) é igual ao próprio valor do parâmetro populacional que se pretende estimar. Ex. E( X ) = µ, portanto X é um estimador não viciado de µ; por outro lado, E(S) ≠ σ, portanto S é um estimador viciado de σ. (ii) Consistência: Um estimador será consistente se além de não viciado sua variância tende para zero, quando n tende para ∞. Ex. Como, E( X )=µ e lim σ X2 = lim n→∞ n→∞ σ2 n = 0 , portanto, X é um estimador consistente de µ. (iii) Eficiência: o estimador de maior eficiência é o que possui menor variância. (b) Estimação por intervalo A estimação por intervalo é feita quando a partir da amostra procura-se construir intervalos de confiança, com uma certa probabilidade, de conter o parâmetro populacional. As probabilidades utilizadas são em geral de 95% e 99%. As estimativas por ponto, as quais foram vistas até agora, são usadas quando se necessita, pelo menos aproximadamente, conhecer o valor do parâmetro para utilizá-lo numa expressão qualquer. No entanto, os estimadores são variáveis aleatórias, e as estimativas obtidas quase certamente são distintas do valor do parâmetro, ou seja, quase certamente se comete um erro de estimação. Por esta razão torna-se necessário à construção de intervalos de confiança que DANIEL FURTADO FERREIRA 82 tenha probabilidade (1-α) de conter o valor do parâmetro. O nível α é chamado de nível de significância, e refere-se à probabilidade de se cometer o erro tipo I, rejeitar uma hipótese verdadeira. No caso, o nível de probabilidade α, refere-se à probabilidade do IC não conter o valor paramétrico. Como os níveis de confiança são, em geral, fixados com 95% e 99%, α será igual a 5% e 1%, respectivamente. Um pesquisador desavisado, poderia pensar em diminuir o máximo possível o valor de α, no entanto, é conveniente lembrar neste instante que este valor é inversamente proporcional a probabilidade de se cometer o erro tipo II. Então, não se pode reduzir demasiadamente o valor de α, sem aumentar a probabilidade de se aceitar uma hipótese falsa como verdadeira (erro tipo II). Exemplo de IC: Com 95% de confiança a verdadeira média da produtividade de milho BR201 está entre [4,0 t/ha; 6,0 t/ha], para um determinado nível de utilização de tecnologia. 5.3. ESTIMAÇÃO DE MÉDIAS, VARIÂNCIAS PROPORÇÃO E COEFICIENTE DE VARIAÇÃO. Será visto nos itens subsequentes, a estimação por intervalo dos principais parâmetros estudados no curso de estatística. Todos os exemplos apresentados adotam os níveis de 95% ou 99% de confiança. 5.3.1. INTERVALO DE CONFIANÇA PARA µ Como foi visto no capítulo de distribuição de amostragem (capítulo IV), na prática não se conhece a variância populacional (σ2) e deve-se usar seu estimador amostral (S2). Nesse caso a distribuição de X será aproximadamente normal. Quanto maior o tamanho de n, melhor será a aproximação. Na prática, quando n≥30, a aproximação é considerada boa, e a distribuição normal pode ser usada. 83 ESTATÍSTICA No entanto quando n<30, o estimador da variância populacional (S2), está sujeito às variações amostrais, e a distribuição de t é mais apropriada. Por outro lado, foi comentado que quando n aumenta a distribuição de t de Student se aproxima da distribuição normal. Por essa razão, será usada somente a distribuição de t, independentemente do tamanho da amostra. No entanto, o pesquisador fica livre para escolher entre as duas distribuições quando n≥30. A seguir, estão apresentadas as regras para se obter os IC para µ, de populações finitas e infinitas e amostragem com ou sem reposição. ■ Populações infinitas ou finitas e amostras com reposição Sabe-se, como já abordado no capítulo IV, que X ∩ N(µ, σ n ). No entanto, como em geral, nas situações práticas, não se conhece a variância populacional, então se deve utilizar o estimador, S2, e a distribuição de t, como já argumentado anteriormente. Desta forma, a regra para construção do IC neste caso é: IC1-α: X ± e onde, e = tα/2 S n e tα/2 com n - 1 graus de liberdade (GL). n ■ Populações finitas ( > 0,05 ) e amostras sem reposição. N A regra geral é a mesma para o caso da amostragem ser feita com reposição de populações finitas ou amostragem com ou sem reposição de populações infinitas, e está apresentada a seguir: IC1-α: X ± e 84 DANIEL FURTADO FERREIRA onde, e = z α / 2 S n N−n e tα/2 com n - 1 graus de liberdade (GL), sendo a única alteração o N −1 fator de correção para amostragem sem reposição de populações finitas. 5.3.2 INTERVALO DE CONFIANÇA PARA P (PROPORÇÃO) As mesmas observações usadas para média valem para as proporções, no que se refere-se ao uso de um estimador da variância populacional, que neste caso é  pq n . No entanto neste caso, devido a algumas considerações de ordem teórica que não serão abordadas neste material, por fugir do seu objetivo, a distribuição de amostragem aproximada é a normal. Neste caso é usada a distribuição normal para construir os intervalos de confiança, além de outras aproximações que fornecem melhores resultados. As aproximações do intervalo de confiança são apresentadas a seguir. Primeiramente é apresentada a aproximação de normal e posteriormente, serão apresentados dois métodos aproximados e um exato. 5.3.2.1. IC para P utilizando a aproximação normal A seguir serão apresentados os IC obtidos a partir da aproximação normal. Esta aproximação é recomendada quando p tende para 0,5 e n tende para ∞. ■ Populações infinitas ou finitas e amostras com reposição ESTATÍSTICA 85 O IC é dado pela regra geral: IC1-α: p ± e onde, e = zα / 2  pq . n n ■ Populações finitas ( > 0,05 ) e amostras sem reposição N Da mesma forma anterior, o intervalo de confiança aproximado é: IC1-α: p ± e onde, e = zα / 2  pq n N−n , sendo a única alteração o fator de correção para amostragem sem N −1 reposição de populações finitas. É conveniente salientar que a aproximação normal para populações finitas é apenas uma aproximação grosseira, uma vez que o modelo normal assume populações infinitas. Mesmo em condições favoráveis de P próximo a ½ ou grandes tamanhos amostrais, tal aproximação é ainda considerada grosseira. 5.3.2.2. IC para P de Blyth Outras aproximações baseadas na distribuição normal são conhecidas na literatura e apresentadas a seguir. A primeira delas devida a Blyth (1986) é baseada na seguinte padronização, a qual tem distribuição aproximadamente normal, mas que não pode ser utilizada em situações reais devido ao fato de exigir que o parâmetro binomial p seja conhecido. Em todos os casos são apresentadas as seguintes definições necessárias para a obtenção do intervalo de confiança. Seja n o tamanho da amostra e y o número de sucessos (y=0, 1, 2, ..., n-1, n). DANIEL FURTADO FERREIRA 86 Nos casos especiais em que y=0 e y=n, deve-se proceder da seguinte forma: ■ Se y=0, o LI do IC é tomado como 0 e o LS obtido conforme a expressão apresentada. ■ Se y=n, o LS do IC é tomado como 1 e o LI obtido conforme a expressão apresentada. y + 0,5 − np np(1 − p ) = − z α/ 2 Elevando ao quadrado, ambos os lados desta expressão e resolvendo a equação quadrática em p, e checando as raízes para satisfazer a expressão, o resultado é: 1 LI = 1+ ( zα / 2 ) 2 n 1 LS = 1+ ( zα / 2 ) 2 n ⎧⎪ y − 0,5 zα / 2 ⎨ − n ⎪⎩ n ⎧⎪ y + 0,5 zα / 2 ⎨ + n ⎪⎩ n 2 ( zα / 2 ) 2 ⎫⎪ y − 0,5 ⎛ y − 0,5 ⎞ ( zα / 2 ) ⎬ + ⎜1 − ⎟+ 4n 2n ⎪ n ⎝ n ⎠ ⎭ 2 ( zα / 2 ) 2 ⎫⎪ y + 0,5 ⎛ y + 0,5 ⎞ ( zα / 2 ) ⎬ + ⎜1 − ⎟+ 4n 2n ⎪ n ⎝ n ⎠ ⎭ 5.3.2.3. IC para P de Pratt Usando a aproximação de qui-quadrado para F, Pratt (1968) derivou a forma alternativa para os limites de confiança para o parâmetro binomial, a qual é apresentada a seguir. 87 ESTATÍSTICA [ ] ⎡ 2 2⎧ ⎢ ⎛ y ⎞ ⎪ 81y( n − y +1) − 9n − 8 + 3 zα / 2 9y( n − y +1)(9n + 5 − zα / 2) + n +1 LI = ⎢1+ ⎜ ⎟ ⎨ ⎝ n − y +1⎠ ⎪ [81y2 − 9y(2 + zα2 / 2) +1] ⎩ ⎢⎣ [ −1 ⎫3 ⎤ ⎪ ⎥ ⎬ ⎥ ⎪⎭ ⎥ ⎦ ] ⎡ 2 2⎧ ⎢ ⎛ y +1 ⎞ ⎪ 81( y +1)( n − y) − 9n − 8 − 3 zα / 2 9( y +1)( n − y)(9n + 5 − zα / 2) + n +1 LS = ⎢1+ ⎜ ⎟ ⎨ ⎝ n − y⎠ ⎪ [81( y +1)2 − 9( y +1)(2 + zα2 / 2) +1] ⎩ ⎢⎣ −1 ⎫3 ⎤ ⎪ ⎥ ⎬ ⎥ ⎪⎭ ⎥ ⎦ 5.3.2.4. IC exato para P utilizando a distribuição de F O intervalo de confiança exato para o estimador de máxima verossimilhança de P dado por p = y n , em que y representa o número de sucessos do evento sob estudo em uma amostra de tamanho n, geralmente é obtido por processos numéricos iterativos. Estes processos se tornam lentos, em geral, quando n e y crescem, requerendo grande quantidade de tempo de computação. Um intervalo de confiança exato, utilizando a distribuição de F é apresentado por Leemis & Trivedi (1996). Este intervalo é em geral de rápido cálculo, vistos que muitos softwares já apresentam os percentis da distribuição de F em suas rotinas. Este intervalo é apresentado a seguir: ⎡ ⎢ 1 1 IC1-α: ⎢ ; n−y +1 n−y ⎢1+ 1+ ⎢⎣ yF2 y;2(n − y + 1);1− α / 2 (y + 1)F2( y + 1);2( n− y );α / 2 ⎤ ⎥ ⎥ ⎥ ⎥⎦ em que, F refere-se ao valor cuja probabilidade α/2 ou 1-α/2 é da cauda superior direita da distribuição de F; n é o tamanho da amostra e y o número de sucessos (y=0, 1, 2, ..., n-1, n). Nos casos especiais em que y=0 e y=n, deve-se proceder da mesma forma descrita anteriormente, ou seja: 88 DANIEL FURTADO FERREIRA ■ Se y=0, o LI do IC é tomado como 0 e o LS obtido anteriormente. ■ Se y=n, o LS do IC é tomado como 1 e o LI obtido anteriormente. Convém lembrar que uma importante propriedade da distribuição de F permite que sejam obtidos os percentis 1-α/2 a partir dos percentis α/2, da seguinte forma: Fv1, v 2,1− α / 2 = 1 Fv 2, v1,α / 2 5.3.2.5. Exemplos a) n=10 y=3 α=0,05 p =0,30 Método LI LS 1 - Exato 0,067 0,652 2 - Aproximação normal 0,016 0,584 3 – Aproximação de Blyth 0,081 0,646 4 - Aproximação de Pratt 0,065 0,652 LI LS 1 – Exato 0,212 0,400 2 - Aproximação normal 0,210 0,390 3 - Aproximação Blyth 0,215 0,401 4 - Aproximação Pratt 0,212 0,400 b) n=100 y=30 α=0,05 p =0,30 Método 89 ESTATÍSTICA A aproximação normal é a pior de todas, principalmente quando p afasta-se de 0,5 e até mesmo quando n é grande (n=100). A aproximação de Pratt é a melhor aproximação dentre todas as aproximações, mesmo em situações de p afastado de ½ e/ou de n pequeno. 5.3.3. INTERVALO DE CONFIANÇA PARA DIFERENÇA DE MÉDIAS Muitas vezes o pesquisador se depara com o problema de estimar o efeito diferencial entre duas populações ou entre dois tratamentos, para alguma variável de interesse. Estas inferências sobre as médias de duas populações podem ser feitas utilizando os IC para diferenças entre as médias destas populações. (a) Variâncias populacionais desconhecidas e diferentes (σ 12 ≠ σ 22 ) Foi visto, no capítulo de distribuição de amostragem, capítulo IV, que a distribuição da diferença entre médias, é aproximadamente normal, com média µ 1 − µ 2 e variância σ 12 n1 + σ 22 n2 . No entanto, como, em geral, não se conhece na prática a variância de ambas as populações, deve-se utilizar, os estimadores amostrais. Desta forma, como já comentado nos casos anteriores, a distribuição apropriada é a distribuição de t de Student. No caso de variâncias populacionais diferentes, o teste t é apenas aproximado. As razões deste fato estão fora do propósito deste material, e não será discutido. Neste caso, a regra geral, é: IC1-α: X1 − X 2 ± e 90 DANIEL FURTADO FERREIRA 2 onde, e= t α 2 S1 + S2 n1 n2 2 e t α 2 possui ν graus de liberdade, dados por Satterthwaite (1946): 2 ⎡ S12 S22 ⎤ ⎢ + ⎥ ⎣ n1 n2 ⎦ ν= 2 2 ⎛ S12 ⎞ ⎛ S22 ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ n1 ⎠ ⎝ n2 ⎠ + n1 − 1 n2 − 1 (b) Variâncias populacionais desconhecidas e iguais (σ1 = σ2 ) 2 2 As mesmas considerações feitas no item (a) se aplicam aqui também. No entanto, quando as variâncias são iguais, como neste tópico, o teste t é exato. Por outro lado, alguém pode questionar: se as variâncias populacionais são desconhecidas, como se pode afirmar que elas são iguais ou diferentes? A resposta, para essa pergunta, poderá ser formulada apenas no capítulo seguinte, em que será apresentado, baseado nos estimadores das variâncias populacionais, um teste para a hipótese de igualdade das variâncias populacionais. Neste capítulo, a informação de que as variâncias populacionais são iguais ou diferentes, será fornecida, até que seja apresentado o teste comentado. Desta forma, a regra geral é: IC1-α: X1 − X 2 ± e em que, e= t SP α 2 1 + 1 n1 n2 e t α 2 possui n1 + n2 - 2 graus de liberdade. Como as variâncias das duas populações são iguais, uma melhor estimador da variância comum é obtida pela média ponderada das variâncias amostrais, cujos pesos são os graus de liberdade de cada amostra. Esta variância é definida por SP2 , onde o subscrito “p” refere-se a palavra americana “pooled” que 91 ESTATÍSTICA significa, combinada. Portanto, o símbolo SP refere-se ao estimador do desvio padrão combinado, o qual é apresentado a seguir: ( n1 − 1) S12 + ( n 2 − 1) S22 Sp = n1 + n 2 − 2 5.3.4. INTERVALO DE CONFIANÇA PARA VARIÂNCIA DE UMA POPULAÇÃO NORMAL. Como foi visto no capítulo IV, (n − 1) S2 σ 2 segue a distribuição de χ2. Portanto pode- se construir o IC para σ2, baseado nesta distribuição, da seguinte forma: ⎡ (n − 1) S2 IC1-α: ⎢ ⎣ em que, χ 1−α / 2 e 2 χα/ 2 2 ; (n − 1) S2 ⎤ ⎥ 2 χ1−α/ 2 ⎦ χ α2 / 2 são os valores da distribuição de qui-quadrado com n - 1 graus de liberdade. 5.3.5. INTERVALO DE CONFIANÇA PARA DESVIO PADRÃO DE UMA POPULAÇÃO NORMAL. Da mesma forma que para variância, o IC desvio padrão é dado pela regra geral apresentada a seguir. Observe que se trata da raiz quadrada dos limites do IC para variância. 92 DANIEL FURTADO FERREIRA ⎡ (n − 1) 2 S IC1-α: ⎢ ⎢⎣ em que, χ 1−α / 2 e 2 χα/ 2 2 ; (n − 1) S2 ⎤ ⎥ 2 χ1−α/ 2 ⎥⎦ χ α2 / 2 são os quantis superiores da distribuição de qui-quadrado com n - 1 graus de liberdade. 5.3.6. INTERVALO DE CONFIANÇA PARA COEFICIENTE DE VARIAÇÃO Seja, k = σ S um estimador do CV populacional K = , na escala de 0 a 1. Como µ X se sabe uma estimativa por ponto deste parâmetro é muito importante para se avaliar a variabilidade de uma variável de interesse e na experimentação para se avaliar a precisão experimental. No entanto, o IC é muito mais informativo para se inferir a respeito deste parâmetro. Para se obter o IC Vangen (1996) apresenta a expressão de McKay, relatada a seguir. Sejam, U 1 = χ ν2 ; α / 2 e U 2 = χ ν2 ; 1 − α / 2 os percentis 1-α/2 e α/2 da cauda direita da distribuição de qui-quadrado com ν=n-1 graus de liberdade, então o IC modificado de McKay para o CV de uma população normal é: ⎡ ⎢ k k ⎢ ; IC1-α/2: ⎢ ⎛U + 2 ⎞ ⎛ U + 2 ⎞ 2 U2 U 1 − 1⎟ k 2 + 1 ⎜ 2 − 1⎟ k + ⎢ ⎜ ν ν ⎝ ν+1 ⎠ ⎠ ⎣ ⎝ ν+1 ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ Exemplo: Dada à amostra com 5 tensões mensuradas em plantas: 326, 302, 307, 299, 329. As estatísticas amostrais são: X = 312,6; S=13,94; k=0,0446. Com α=0,05, determinar o IC para o CV populacional. ESTATÍSTICA 93 U1 = χ 24;0,025 = 11,14 e U 2 = χ 24;0,975 = 0, 4844 , então: IC0,95: [0,0267; 0,1287] Observa-se que se trata de um intervalo assimétrico por ser baseado na distribuição de qui-quadrado. Pode-se inferir também que, o CV populacional se encontra entre 2,67% e 12,87% com 95% de confiança. EXEMPLOS 1. Em uma amostra de 25 plantas de uma variedade braquítica de milho foi encontrada a média de altura de 122cm e variância amostral de 28cm2. Obtenha o IC de 95% de confiança para a média (µ) da variedade em questão. Como o tamanho da população não foi fornecido, deve-se considerar que a fração da amostra em relação ao da população é menor que 5%, devendo esta população ser considerada infinita. Com 95% de confiança tem-se que α=0,05. Para graus de liberdade de n-1=24 o valor de t0,025 é 2,064. Portanto: e = 2,064 28 = 2,18 , logo, 25 IC0,95: 122 ± 2,18 = [119,82; 124,18] Com 95% de confiança pode-se afirmar que a média da variedade braquítica de milho está compreendida entre 119,82cm a 124,18cm. DANIEL FURTADO FERREIRA 94 2. De uma população de tamanho N=40, foi retirada uma amostra de tamanho n=10. A média da amostra foi de 130,2cm e a variância foi de 69,2888cm2. Faça o IC para a média populacional com 90% de confiança. Com 90% de confiança tem-se que α=0,10. Para graus de liberdade de n-1=9 o valor de t0,05 é 1,833. Portanto: e = 1833 , 69,2888 40 − 10 = 4,23 , logo, 10 40 − 1 IC0,90: 130,2 ± 4,23 = [125,97; 134,43] 5.4. DIMENSIONAMENTO DE AMOSTRAS O tamanho da amostra esta diretamente relacionado com a precisão das estimativas. O erro "e" é conhecido como semi-amplitude do IC. Assim, o pesquisador interessado na estimação de um parâmetro populacional com maior precisão do que a encontrada em estudos prévios, ou seja, com um menor erro e sem alterar o nível de confiança, deve aumentar o tamanho da amostra (n). A seguir são discutidas formas de dimensionar amostra para estimar os parâmetros: média ou a proporção. 5.4.1. Dimensionamento da amostra para obter uma determinada precisão na estimação da média populacional. Foi visto que para o calculo do intervalo de confiança calculava-se a semi-amplitude desse intervalo por: e = tα/ 2 S . Assim, se o valor de α e o valor desse erro forem n 95 ESTATÍSTICA fixados pode-se estimar a amostra adequada. Portanto, para que o pesquisador possa determinar o tamanho da amostra ideal é necessário conhecer uma estimativa do desvio padrão populacional e ter-se uma idéia do erro que se deseja cometer. Para isso, pode-se fazer uma pequena amostra, denominada amostra piloto, que fornecerá estes valores. Uma regra para se determinar o tamanho amostral, é apresentada a seguir: ⎛ S× tα/ 2 ⎞ n =⎜ ⎟ ⎝ e ⎠ 2 Essa fórmula deve ser utilizada iterativamente, pois para se obter o tamanho da amostra depende-se do quantil tα/2 que por sua vez depende dos graus de liberdade, que são desconhecidos. Assim, obtém-se o valor de t com os graus de liberdade da amostra piloto e calcula-se utilizando a fórmula proposta o valor de n. Com esse novo valor de n, obtém-se novo quantil superior de t de Student e refaz-se o cálculo de n. O processo é aplicado reiteradas vezes até que uma dada estimativa de n não difira da imediatamente anterior para uma dada precisão pré-estipulada. Com base nas informações obtidas “a priori” na amostra piloto conclui-se qual deve ser o tamanho da amostra para aqueles níveis de significância e precisão estabelecidos. Se o tamanho da amostra for menor que o da amostra piloto, indica que nenhum elemento deve ser acrescido à amostra. 5.4.2. Dimensionamento da amostra para a estimação de proporções. Utilizando-se o mesmo raciocínio do item 5.4.1 tem-se a seguinte regra de dimensionamento de amostras. DANIEL FURTADO FERREIRA 96 2 ⎛ zα 2 ⎞ n =⎜ ⎟ p (1 − p ) ⎝ e ⎠ É conveniente salientar que essa fórmula não depende de processos iterativos como o anterior. Isso porque o valor de zα/2, quantil superior da distribuição normal, não depende de graus de liberdade para ser computado. No entanto, depende de uma estimativa de P, a qual pode ser obtida em uma amostra piloto. Para contornar o problema de se ter que realizar uma amostra piloto adota-se o  (1 − p ) tem máximo quando p = 0,5 , então, para que seguinte procedimento. Como o valor de p não haja uma dependência de estimativas de P em amostras piloto, obtém-se o nmax. Esse valor de n garante na pior das hipóteses que o erro cometido no processo de estimação não irá ser maior do que aquele fixado a priori para o coeficiente de confiança adotado. Isso se verifica pois com o  (1 − p ) . valor ½ têm-se o máximo do valor de p ⎛ zα / 2 ⎞ ⎟ n =⎜ ⎝ 2e ⎠ 2 Exemplo: Em uma amostra y=57 em n=150 plantas apresentaram uma determinada doença. Essa amostra é suficiente para estimar a proporção de plantas doentes com erro de 0,08 e 95% de confiança? p = 57 = 0,38 = 38% e z0,025=1,96 150 2 ⎛ 1,96 ⎞ n =⎜ ⎟ x0,38x 0,62 ≅ 141 plantas ⎝ 0,08 ⎠ ESTATÍSTICA 97 Conclui-se que a amostra de 150 plantas foi suficiente para estimar a proporção de plantas doentes com o erro e a confiança desejados. Para esse exemplo, utilizando-se a expressão de nmax tem-se: 2 ⎛ 1,96 ⎞ n =⎜ ⎟ ≅ 150 plantas ⎝ 2x 0,08 ⎠ Nesse caso verifica-se que, também, nenhuma planta deveria ser incluída na amostra. Esta última situação é mais conservadora e o pesquisador deve optar entre uma maior confiabilidade ou uma maior economia. 5.5. Referências LEEMIS, L.M.; TRIVEDI, K.S. A comparison of approximate interval estimators for the Bernoulli parameter. The American Statistician. V. 50, n.1, p.63-68, February, 1996. VANGEN, M.G. Confidence interval for a normal coefficient of variation. The American Statistician. V.50, n.1, February, 1996. BLYTH, C.R. Approximate binomial confidence limits. Journal of the American Statistical Association. v.81, n.395, p.843-855, 1986. PRATT, J.W. A normal approximation for binomial, F, beta, and other common, related tail probabilities, II. Journal of the American Statistical Association. n.63, p.1457-1483, 1968. CAPÍTULO V - TEORIA DA DECISÃO 6.1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS Na prática é necessário, com muita freqüência, tomar decisões a respeito das populações, com base nas informações das amostras. Para se tomar decisões é conveniente à formulação de hipóteses. Essas hipóteses podem ser verdadeiras ou não. A tomada de decisão será então baseada no teste desta hipótese. Uma decisão errada pode levar a grandes prejuízos, daí a importância desse capítulo, que tem por objetivo demonstrar os procedimentos para se testar hipóteses sobre os principais parâmetros populacionais. 6.2. TIPOS DE HIPÓTESES - ERROS ENVOLVIDOS NA DECISÃO No teste das hipóteses que são formuladas, existe sempre a probabilidade de se cometer erros, nas decisões tomadas. Inicialmente, antes de se comentar sobre os erros, será visto que as hipóteses são de dois tipos básicos, que estão apresentadas a seguir. (i) Hipótese nula (H0) - aquela que será testada; admite-se que a diferença entre a estimativa e o parâmetro populacional é devida ao acaso; e (ii) Hipótese alternativa (H1) - qualquer hipótese diferente de H0, isto é, é aquela que será aceita se H0 for rejeitada. Ex: H0: µA=10 H1: µA>10 Dois tipos de erros podem ser cometidos, como comentado anteriormente, os quais estão apresentados a seguir: (i) Erro tipo I: erro que se comete ao rejeitar uma hipótese verdadeira. (ii) Erro tipo II: erro que se comete ao aceitar uma hipótese falsa como verdadeira. 99 ESTATÍSTICA Os erros tipo I e tipo II e as suas respectivas probabilidades, bem como às probabilidades de se tomar as decisões corretas estão apresentados na Tabela 6.1. Realidade Decisão Aceitar H0 Rejeitar H0 H0 verdadeira H0 falsa Decisão correta Erro tipo II 1-α β Erro tipo I Decisão correta α 1-β Tabela 6.1. Probabilidades de se cometer os erros tipo I e II, e de se tomar à decisão correta para os testes de hipóteses. CARACTERÍSTICAS (i) Erro tipo I e tipo II são correlacionados: O aumento da probabilidade de ocorrência de um reduz a probabilidade de ocorrência do outro; (ii) Erro tipo I é controlado com a escolha de α. (iii) A única forma de causar uma redução de α e β simultaneamente é aumentar o tamanho da amostra. (iv) Se H0 for falsa, β será maior quanto mais próximo o valor do parâmetro estiver do valor sob a hipótese H0. Neste capítulo será realizado apenas teste de significância, haja vista que não se pode controlar diretamente a probabilidade de se cometer o erro tipo II a não ser indiretamente com amostras representativas e suficientemente grandes e escolha de testes mais poderosos. 100 DANIEL FURTADO FERREIRA 6.3. CONSTRUÇÃO DE UMA REGRA DE DECISÃO. 6.3.1. ALGORITMO (i) Formular as hipóteses H0 e H1; (ii) Usar a teoria estatística e as informações disponíveis para julgar o estimador adequado; (iii) Fixar α e usar esse valor para criar a região crítica; RRH0 1−α RRH0 α Figura 6.1. Região crítica para um teste unilateral, usando a distribuição de t de student ou a normal. (iv) Calcular o valor da estatística que norteará a decisão; (v) Se o valor da estatística pertencer RAH0 não se rejeita H0, caso contrario rejeita-se. Exemplo. Uma máquina de empacotar café foi regulada para 500g. O fabricante resolveu fazer amostras de 16 pacotes de 2 em 2 horas. Numa dessas amostras ele encontrou X =492g e 101 ESTATÍSTICA S2=400g2. Ele resolveu consultar um estatístico se deveria paralisar a máquina para novo ajuste. Qual seria sua decisão? (i) H0: µ=500g H1: µ≠500g (Hipótese bilateral) ou H1: µ<500g (Hipótese unilateral). (ii) X ∩ t (µ, 400 16 ) (iii) α = 0,01 RRH 0 α /2 RRH 0 1−α -2 ,9 4 7 0 RRH α /2 0 2 ,9 4 7 B IL A T E R A L RRH 0 α - 2 ,6 0 2 RAH0 1 - α /2 0 U N IL A T E R A L Figura 6.2. Regiões de rejeição de H0 para o teste bilateral e unilateral ao nível de 1% (mutuamente exclusivos). (iv) t c = 492 − 500 = −1,60 20 4 O tc é o mesmo independentemente se o teste for unilateral ou bilateral. O que se alteram são as regiões de rejeição e aceitação de H0. (v) tc = -1,60 ∈ a RAH0 em ambos os casos (unilateral e bilateral). Portanto, o desvio da média amostral para a média hipotética proposta em H0 foi devido ao acaso. Então, esta hipótese não deve ser rejeitada no valor nominal de 1% de significância. DANIEL FURTADO FERREIRA 102 6.3.2. TESTE PARA MÉDIA POPULACIONAL NORMAL COM VARIÂNCIA DESCONHECIDA Sabe-se do capítulo IV, que X ∩ t (µ, S 2 n ). Desta forma, o algoritmo para o teste de hipótese é: (i) H0: µ = µo H1: µ ≠ µo (Hipótese bilateral) ou H1: µ > µo (Hipótese unilateral) ou H1: µ < µo (Hipótese unilateral). (ii) t c = X − µ S o n (ii) Define-se a região de rejeição de H0 com: ■ tα/2 com n - 1 GL para o teste bilateral; ■ tα com n - 1 GL para o teste unilateral (µ > µo); e ■ -tα com n - 1 GL para o teste unilateral (µ < µo). (iii) Rejeita-se H0 se t c ≥ t tab , ou seja, se tc ∈ RRH0. ■ Existe uma relação direta entre teste de significância e intervalos de confiança. Com a construção do IC pode-se verificar se o valor do parâmetro sob H0 se encontra no mesmo. Se afirmativo não se rejeita H0, caso contrário, rejeita-se. ■ Para amostras sem reposição em populações finitas (n/N>0,05), o erro padrão da média é: portanto, o valor de tc, neste caso é: S N−n n N−1 ESTATÍSTICA tc = 103 X− µ0 S N−n n N−1 Exemplo: No caso dos coelhos abatidos aos 90 dias (n=10, X =2,584Kg, S=0,0675Kg), teste a hipótese de que a média populacional é igual a 2,701Kg, contra a hipótese alternativa que ela é menor que 2,701Kg. Dado, α=0,05. (i) H0: µ = 2,701kg ⇒ µo=2,701 H1: µ < 2,701kg (ii) t c = X − µ o 2,584 − 2,701 = = −5,481 S 0,0675 n 10 (iii) t0,05 = 1,833 ⇒ -t0,05 = -1,833 com 9 GL. (iv) Como t c ≥ t tab , ou seja, 5,481>1,833, então Rejeita-se H0 ao nível de 5% de probabilidade pelo teste t, ou seja, a média do peso ao abate aos 90 dias é inferior a 2,701kg, com 95% de confiança. 6.3.3. TESTES PARA PROPORÇÕES Para se testar a hipótese de que a proporção de uma população é igual a um dado valor (P0) o seguinte algoritmo deverá ser implementado. Este algoritmo pressupõe que a distribuição do estimador de P é aproximadamente normal e que quando se utiliza o estimador da variância a distribuição adequada passará a ser a distribuição t de Student. DANIEL FURTADO FERREIRA 104 (i) Formulam-se as hipóteses de nulidade e a alternativa, que pode ser unilateral ou bilateral. H0: P = Po H1: P ≠ Po (Hipótese bilateral) ou H1: P > Po (Hipótese unilateral) ou H1: P < Po (Hipótese unilateral). (ii) O nível crítico, ou a probabilidade de se cometer o erro tipo I é fixado em geral por α = 5% ou α = 1% (iii) Determina-se o valor da estatística do teste adequado por: zc = P − P0 P (1 − P ) n (iv) Se zc ≥ ztab rejeita-se H0 Exemplo: Numa amostra de 100 plantas de um campo de produção de sementes, verificou-se que 2% estavam com uma determinada doença. Teste a hipótese que a verdadeira proporção de doenças do campo é igual a 3,5%, como afirma um técnico de inspeção do campo de produção de sementes. (i) Determinando as hipóteses H0: P = 0,035 H1: P < 0,035 (unilateral) (ii) Fixar o nível de significância em 5% (iii) Calculando o valor de zc 105 ESTATÍSTICA tz = P − P0 = P (1 − P ) n 0,02 − 0,035 0,02(1 − 0,02 ) 100 = −1,07 (iv) o valor de tabelado é: z0,05=-1,645 com 99 GL (v) Como zc ≤ ztab , aceita-se H0 ao nível de 95% de confiança, ou seja, a não existe razão para duvidar que a média da incidência de doença no campo não seja de 3,5%. A diferença amostral de 1,5% foi apenas casual. 6.3.4. TESTE PARA VARIÂNCIA POPULACIONAL σ2 A seguir é apresentado o algoritmo para se testar hipóteses sobre uma variância de uma população com distribuição normal. O teste adequado é o de χ2, cuja distribuição foi vista no capítulo IV. (i) Formulam-se as hipóteses de nulidade e alternativa, a qual pode ser unilateral ou bilateral. H0: σ 2 = σ 20 H1: σ 2 ≠ σ 20 (Hipótese bilateral); ou H1: σ 2 > σ 20 (Hipótese unilateral); ou H1: σ 2 < σ 20 (Hipótese unilateral). (ii) O valor crítico de significância ou a probabilidade de se cometer o erro tipo I é fixada em α = 5% ou α = 1% (iii) Determina-se o valor da estatística, para o teste adequado por: χ 2c = (n − 1) S2 σ 20 DANIEL FURTADO FERREIRA (iv) Determinar a região critica (RRH0) R A H 1− α R R H α /2 0 0 χ 0 R R H α /2 0 2 χ 1 -α /2 0 2 α /2 Figura 6.3. Regiões críticas (RRH0) para o teste bilateral, da hipótese apresentada em (i). R A H 1 - α 0 R R H α 0 0 χ 0 2 α Figura 6.4. Região crítica (RRH0) para o teste unilateral, da hipótese apresentada em (i). 106 ESTATÍSTICA 107 R A H 0 1 -α R R H 0 α 0 0 χ 2 1 -α Figura 6.5. Região crítica (RRH0) para o teste unilateral, da hipótese apresentada em (i). (v) Se χ c ∈ RRH0 definidas nas Figuras 6.3, 6.4 e 6.5, rejeita-se H0 2 6.3.5. COMPARAÇÕES ENTRE DUAS MÉDIAS POPULACIONAIS Um dos principais testes apresentado refere-se à necessidade de comparar duas médias populacionais distintas. Este teste tem grande aplicabilidade nas ciências agrárias, que é o principal interesse deste material. Muitas vezes deseja-se comparar dois tratamentos distintos, duas variedades de qualquer espécie quanto à produtividade, duas rações na dieta de animais, entre diversos outros exemplos. A seguir é apresentada a situação em que normalmente estas comparações podem ser realizadas do ponto de vista prático. As situações mais teóricas fogem do objetivo do presente material, e não serão abordadas. (A) VARIÂNCIAS POPULACIONAIS DESCONHECIDAS E DIFERENTES (σ 12 ≠ σ 22 ) Duas médias populacionais distintas podem ser comparadas por este método, desde que a amostragem, ou até mesmo a experimentação, seja realizada de forma independente para cada uma delas. Alguém, no entanto, pode questionar o fato de que se as variâncias DANIEL FURTADO FERREIRA 108 populacionais são desconhecidas, fato bastante comum na prática, então, como saber se elas são diferentes, para enquadrar o teste nesta opção. Para responder esta pergunta, antes de apresentar o algoritmo para o teste da hipótese de igualdade entre as duas médias populacionais, será apresentado o teste para a hipótese de igualdade das variâncias populacionais. A.1. Teste para hipótese de igualdade entre as variâncias populacionais Inicialmente deve ser lembrado neste ponto que a estatística definida por: 2 S1 F= σ 2 1 2 S2 σ segue a distribuição F de Snedecor. É usada para testar a igualdade entre duas 2 2 variâncias. As tabelas de F, são consultadas de acordo com os graus de liberdade n1-1 associados a variância 1 (numerador da expressão) na primeira linha, e graus de liberdade n2-1 associados a variância 2 (denominador da expressão), na primeira coluna, e probabilidade desejada. Pode-se observar que a estatística F, se H0: σ 12 = σ 22 for verdadeira, se resume em 2 Fc = S1 2 S2 . Desta forma Fc segue a distribuição de F, e um valor observado, muito alto, ou seja, um valor que deixe menos de 5% ou menos de 1% dos valores de F acima do mesmo deve ser considerado significativo. Desta forma, este valor indica que é mais fácil acreditar que a hipótese, não seja verdadeira, do que este grande valor tenha ocorrido ao acaso. O algoritmo para realizar o teste está apresentado a seguir. i) Formulam-se as hipóteses de nulidade e alternativa bilateral. H 0: σ 1 = σ 2 2 2 H 1: σ 1 ≠ σ 2 2 2 (ii) Fixa-se o valor crítico, ou a probabilidade de se cometer o erro tipo I, que em geral é: ESTATÍSTICA 109 α = 5% ou α = 1% (iii) Determina-se o valor da estatística, para o teste adequado por: 2 Fc = S1 2 S2 As variâncias amostrais são denominadas de tal forma que S12 ≥ S22 . Desta forma Fc será sempre maior ou igual a 1. (iv) Rejeita-se a hipótese H0 se Fc≥Fα/2 com (n1 - 1) e (n2 - 1) GL, respectivamente. A.2. Teste para hipótese de igualdade entre as médias populacionais Rejeitando-se a hipótese apresentada em A.1, o seguinte algoritmo deverá ser usado. Para o caso de se aceitar a hipótese em questão o procedimento adequado a ser adotado para o teste é aquele do item B. (i) Formulam-se as hipóteses de nulidade e alternativa, as quais podem ser unilaterais ou bilaterais H0: µ1-µ2 = 0 H1: µ1-µ2 ≠ 0 (bilateral); ou H1: µ1-µ2 > 0 (unilateral); ou H1: µ1-µ2 < 0 (unilateral); ou O teste de que a diferença entre as médias populacionais é igual a zero, equivale ao teste de que elas são iguais. (ii) Fixa-se o nível crítico, ou a probabilidade de se cometer o erro tipo I, que em geral é: α = 5% ou α = 1% DANIEL FURTADO FERREIRA 110 (iii) Determina-se o valor da estatística, para o teste adequado por: tc = X1 − X 2 2 S1 n1 2 + S2 n2 onde, tα/2 (teste bilateral) ou tα (teste unilateral) possui ν graus de liberdade dados por: 2 ⎛ S12 S22 ⎞ ⎜ + ⎟ n n2 ⎠ ν = ⎝ 12 2 ⎛ S12 ⎞ ⎛ S22 ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ n1 ⎠ + ⎝ n 2 ⎠ n1 − 1 n 2 − 1 Convém salientar que este teste, quando as variâncias populacionais são distintas, é apenas aproximado. Estudos de simulação feitos por Borges & Ferreira (1996) demonstra que este teste mantém satisfatoriamente a probabilidade de se cometer o erro tipo I, mesmo, para baixos tamanhos amostrais, mas o erro tipo II fica comprometido à medida que magnitude da razão entre as variâncias populacionais aumenta. (B) VARIÂNCIAS POPULACIONAIS DESCONHECIDAS E IGUAIS (σ 12 = σ 22 ) Como no caso do item A.2, o teste para hipótese de igualdade entre duas médias populacionais quando as variâncias são iguais, segue praticamente todos os passos. O primeiro passo é verificar se realmente as variâncias populacionais são iguais, conforme descrito no item A.1. O segundo passo consiste em implementar o seguinte algoritmo, lembrando que o teste, sob a pressuposição de igualdade de variâncias, é exato: ESTATÍSTICA 111 (i) Formulam-se as hipóteses de nulidade e alternativa, as quais podem ser unilaterais ou bilaterais: H0: µ1-µ2 = 0 H1: µ1-µ2 ≠ 0 (bilateral); ou H1: µ1-µ2 > 0 (unilateral); ou H1: µ1-µ2 < 0 (unilateral); ou O teste de que a diferença entre as médias populacionais é igual a zero equivale ao teste de que elas são iguais. (ii) Se fixa o nível crítico, ou a probabilidade de se cometer o erro tipo I, que em geral é: α = 5% ou α = 1% (iii) Determina-se o valor da estatística, para o teste adequado por: X1 − X 2 tc = Sp 1 n1 + 1 n2 em que, tα/2 (teste bilateral) ou tα (teste unilateral) possui ν=n1+n2-2 graus de liberdade. Como as variâncias das duas populações são iguais, o melhor estimador da variância comum é obtido por uma variância média ponderada pelos graus de liberdade de cada amostra. Esta variância é definida por SP2 , onde o subscrito “p” refere-se a palavra americana “pooled” que significa, combinada. Portanto, o símbolo SP apresentado, refere-se ao estimador do desvio padrão combinado que é a raiz quadrada da variância, o qual é apresentado a seguir: SP = ( n1 − 1) S12 + ( n 2 − 1) S22 n1 + n 2 − 2 112 DANIEL FURTADO FERREIRA (C) DADOS PAREADOS Quando os dados são relacionados dois a dois, eles são denominados pareados. É comum na experimentação, tomar-se dados de uma amostra de uma população antes e após a aplicação de um determinado tratamento. Como, cada elemento da amostra é mensurado antes e após o tratamento diz-se que os dados são pareados. Exemplo: os dados de peso de bezerros foram medidos antes e depois da aplicação de uma ração nova, em uma amostra de tamanho n=5. Seja, X: peso antes do tratamento (ração nova); e Y: peso após tratamento; n=5 bezerros. Bezerros 1 2 3 4 5 Xi 100 105 108 106 110 Yi 120 115 130 140 112 Diferença 20 10 22 34 2 (Di) Tabela 6.2. Peso de cinco bezerros antes (Xi) e após (Yi) o tratamento de uma ração nova por um mês, além da diferença (Di) entre o peso após e antes do tratamento (ganho de peso do período). Neste exemplo fica claro que os dados são pareados, pois são mensurados cinco bezerros antes e após a dieta com uma ração específica. Antes de prosseguir, é necessário, que se calcule algumas estatísticas básicas, desta variável aleatória Di. Estas estatísticas são a média e o desvio padrão. n Média: D= ∑ Di i=1 n ESTATÍSTICA SD = Desvio Padrão: 113 2 ⎡ ⎛⎜ n ⎞⎟ ⎤ ∑ D 1 ⎢ n 2 ⎝ i= 1 i ⎠ ⎥ ⎢ ∑ Di − ⎥ n − 1 ⎢ i= n ⎥ ⎢⎣ ⎥⎦ Se a ração, para o exemplo em questão, ou o tratamento qualquer que se deseja testar, não possui efeito significativo, então se espera que não haja diferença entre as medidas antes e após o tratamento ser aplicado. Desta forma, a diferença média real livre dos efeitos de meio deve ser testada para hipótese de que ela é realmente igual a zero. Esta hipótese seguida dos testes apropriados está apresentada a seguir: (i) Determinar as hipóteses H0: µD = D0 H1: µD ≠ D0 Bilateral; ou H1: µD > D0 Unilateral; H1: µD < D0 Unilateral (ii) Se fixa o nível crítico, ou a probabilidade de se cometer o erro tipo I, que em geral é α = 5% ou α = 1%. (iii) Determina-se o valor da estatística, para o teste adequado por: tc = D − D0 SD n (iv) Rejeita-se H0 se |tc| > |ttab|. DANIEL FURTADO FERREIRA 114 Voltando para o exemplo do ganho de peso nos bezerros, tem-se os seguintes resultados: D = 17,6kg e SD = 12,1984kg As hipóteses de nulidade e alternativa são: H0: µD = 0 H1: µD > 0 Unilateral; que significa que está se testando a ausência de efeito da ração para promover o ganho de peso, contra a alternativa que esta possui um efeito positivo no ganho de peso. O valor de tc, utilizando as expressões anteriormente apresentadas, foi de 3,226. O valor de ttabelado (t0,05) foi 2,132 com n-1=4 GL. Então, como |tc| > |ttab| rejeita-se H0, existe efeito positivo da ração no ganho de peso dos bezerros. 6.4. TESTE DE χ2 PARA AJUSTAMENTO DE MODELOS Muitos modelos teóricos, para os valores da variável aleatória, fornecem as freqüências relativas esperadas. Estes modelos teóricos muitas vezes podem ser aplicados a dados experimentais observados em um dado fenômeno. Neste caso, cada valor da variável aleatória (classe) possui uma freqüência observada em uma amostra de tamanho n. De acordo com as características deste fenômeno, pode-se elaborar um modelo teórico para ajustá-lo. Com base neste modelo podem-se obter as freqüências relativas esperadas nesta amostra de tamanho n. Pela comparação das freqüências observadas e esperadas pode se avaliar a qualidade do ajustamento. Porém, uma avaliação, visual além de muito pobre, pode não conseguir distinguir entre afastamentos entre as freqüências esperadas e observadas que são devidos ao acaso e os que são estatisticamente significativos. Para um tratamento adequado de problemas desta 115 ESTATÍSTICA natureza, o teste de χ2 é recomendado. A seguir será apresentado, como proceder para se avaliar o ajuste de um modelo teórico a dados observados experimentalmente (curvas ou ajustes de aderência). Passos para ajuste de qui-quadrado (i) Primeiro passo é determinar qual o modelo teórico deve ser usado: Isto normalmente não é trivial, mesmo para pesquisadores experientes. Este primeiro passo é o mais importante, pois uma escolha errada de um modelo levará a um ajustamento muito pobre ou na maioria dos casos a um não ajustamento; (ii) Calcular de acordo com o modelo proposto as freqüências esperadas (FE) para cada classe da variável aleatória; (iii) Comparar as freqüências esperadas com as freqüências observadas (Fo) através do seguinte teste: ⎛ ⎞ ⎜ Fo i − FE i ⎟ K ⎝ ⎠ χ 2c = ∑ i= 1 FE i 2 Em que, Foi é a freqüência observada da classe i; Fei é a freqüência esperada da classe i; K é o número de classes; e gl = K - 1 é o número de graus de liberdade. (iv) A hipótese que se testa é H0: o modelo teórico se ajusta à distribuição observada. O valor de qui-quadrado calculado em (iii) deve ser comparado com o valor crítico da distribuição de 116 DANIEL FURTADO FERREIRA qui-quadrado para um nível de significância de α e com K-1 graus de liberdade. Rejeita-se H0 se χ α 2 < χ c. 2 K −1 GL Exemplo: Verificar se os dados abaixo estão de acordo com a 2a lei de Mendel, ou seja, lei da segregação independente de genes. Na Tabela 6.2, estão apresentados o fenótipo de dois genes, um que controla, a altura das plantas, as quais podem ser alta ou anã, e o outro que controla o tipo de folha, que podem ser normal ou tipo batata. Se os genes forem independentes, ou seja, se estiverem situados em cromossomos diferentes, então é esperada pelos geneticistas a seguinte segregação fenotípica na geração F2 de um certo cruzamento: 9 plantas altas com folha normal : 3 plantas altas com folha batata : 3 plantas anãs com folha normal : 1 planta anã com folha batata (9:3:3:1). Fenótipo da planta Tipo da folha FO FE ALTA NORMAL 925 900 ALTA BATATA 309 300 ANà NORMAL 280 300 ANà BATATA 86 100 - TOTAL 1600 1600 Tabela 6.3. Segregação fenotípica observada e esperada para geração F2 de um cruzamento entre uma linhagem alta de folha normal com outra anã de folha batata. A freqüência esperada foi baseada no modelo de segregação independente dos genes que controlam a altura de planta e o tipo de folha (2a lei de Mendel), na proporção de 9:3:3:1. (i) formulam-se as hipóteses: H0: Os dados observados estão de acordo com a 2a lei de Mendel; H1: Os dados observados não estão de acordo com a 2a lei de (ii) calculam-se as freqüências esperadas tomando-se por base a hipótese H0: As freqüências esperadas estão apresentadas na Tabela 6.3. ESTATÍSTICA 117 (iii) calcula-se o valor da estatística para o teste por: χ 2c =(925-900)2/900 + (309-300)2/300 + (280-300)2/300 + (86-100)2/100=4,258 (iv) o valor tabelado é: χ 20, 05 = 7,815 com 3 GL. (v) conclusão: como χ c < χ 0, 05 aceita-se H0, ou seja, os dados seguem a 2a lei de Mendel, ou 2 2 seja os genes para controle da altura de planta e do tipo de folha, são independentes. $SrQGLFH FHVV 7DEHOD $ 3UREDELOLGDGHV D  GD GLVWULEXLomR QRUPDO SDGUmR 1    SDUD YDORUHV GR TXDQWLO =W SDGURQL]DGRGHDFRUGRFRPRVHJXLQWHHYHQWR3 ==W D =W                                                                                                                                                                                                                                                                                                                                                                                                                                                                    7DEHOD$3UREDELOLGDGHV D GDGLVWULEXLomRQRUPDOSDGUmR1  SDUDYDORUHVGRTXDQWLO=W SDGURQL]DGRGHDFRUGRFRPRVHJXLQWHHYHQWR3 =!=W D =                                                                                                                                                                                                                                                                                                                                                                                                                                                                    7DEHOD$4XDQWLVVXSHULRUHVGDGLVWULEXLomRGHTXLTXDGUDGR FD FRPQ JUDXVGHOLEHUGDGHHSDUD  GLIHUHQWHV YDORUHV GD SUREDELOLGDGH D  GH DFRUGR FRP R VHJXLQWH HYHQWR 3 F  ! F D D  Q                                                                                                                                                                                                                                                                                                                 7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGHTXLTXDGUDGR FD FRPQ JUDXVGHOLEHUGDGHH SDUD  GLIHUHQWHV YDORUHV GD SUREDELOLGDGH D  GH DFRUGR FRP R VHJXLQWH HYHQWR 3 F  ! F D D  Q                                                                                                                                                                                                                                                                                                                 7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGH OLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRP RVHJXLQWHHYHQWR3 )!)  Q      Q                                                                                                                                                          ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGR FRP RVHJXLQWHHYHQWR3 )!)  Q      Q      ’                                                                                                                                                    ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRPR VHJXLQWHHYHQWR3 )!)  Q      Q                                                                                                                                                          ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRPR VHJXLQWHHYHQWR3 )!)  Q      Q      ’                                                                                                                                                    ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRP RVHJXLQWHHYHQWR3 )!)  Q      Q                                                                                                                                                          ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRP RVHJXLQWHHYHQWR3 )!)  Q      Q      ’                                                                                                                                                    ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRPR VHJXLQWHHYHQWR3 )!)  Q      Q                                                                                                                                                          ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRPR VHJXLQWHHYHQWR3 )!)  Q      Q      ’                                                                                                                                                    ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRP RVHJXLQWHHYHQWR3 )!)  Q      Q                                                                                                                                                          ’                                                                                                                                                                                                                                                                                                                      7DEHOD$ 4XDQWLVVXSHULRUHVGDGLVWULEXLomRGH) ) FRPQ JUDXVGHOLEHUGDGHGRQXPHUDGRUH Q JUDXVGHOLEHUGDGHGRGHQRPLQDGRUYDORUGDSUREDELOLGDGH D GHGHDFRUGRFRP RVHJXLQWHHYHQWR3 )!)  Q      Q      ’                                                                                                                                                    ’                                                                                                                                                                                                                                                                                                                      7DEHOD $ 4XDQWLV VXSHULRUHV GD GLVWULEXLomR W GH 6WXGHQW WD  FRP Q JUDXV GH OLEHUGDGH H SDUD GLIHUHQWHV YDORUHV GD SUREDELOLGDGH D  GH DFRUGR FRP R VHJXLQWH HYHQWR 3 W ! W D D  Q                                                                     ’                                                                                                                                                                                                                                                                                                                                            7DEHOD $ /LPLWHV FUtWLFRV TXDQWLV VXSHULRUHV D  Z D  GR WHVWH GRV SRVWRV FRP VLQDLV GH :LOFR[RQSDUDGLIHUHQWHVYDORUHVGDSUREDELOLGDGH D GHDFRUGRFRPRVHJXLQWHHYHQWR SUREDELOtVWLFR 3 :  t ZD t   D  QW                                                                                                                                                                                                        D QW                                                      D                                                                                                          9DORUHVFUtWLFRVVLPpWULFRV TXDQWLVVXSHULRUHVD  Z D VmRREWLGRVSRU Z D                                                                                                          Q W Q W    ZD