Preview only show first 10 pages with watermark. For full document please download

Estatística Experimental

Alguns exercícios resolvidos.

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    252KB
  • Views

    8,822
  • Categories


Share

Transcript

Delineamento Inteiramente Casualizado 26 1. DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC). O DIC é mais simples dos delineamentos. Os tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de repetições por tratamento pode ser igual ou diferente. É muito útil para o estudo de métodos e técnicas de trabalho de laboratório, ensaios de vegetação e em experimentos com animais. Para sua aplicação, há necessidade que o meio atue de forma uniforme em todas as unidades experimentais e que estas sejam facilmente identificadas para receber o tratamento. Vamos começar com um exemplo: • Em um estudo do efeito da glicose na liberação de insulina, 12 espécies de tecido pancreático idênticas foram subdivididas em três grupos de 4 espécies cada uma. Três níveis (baixo - tratamento 1, médio tratamento - 2 e alto tratamento - 3) de concentração de glicose foram aleatoriamente designados aos três grupos, e cada espécie dentro de cada grupo foi tratado com o nível de concentração de glicose sorteado a eles. A quantidade de insulina liberada pelos tecidos pancreáticos amostrados são as seguintes: Tratamento 1 Nível baixo (T1) Nível médio (T2) Nível alto (T3) Total 1,59 3,36 3,92 Repetições 2 3 1,73 4,01 4,82 3,64 3,49 3,87 4 1,97 2,89 5,39 Nº de repetições ri 4 4 4 12 Total 8,93 13,75 18,00 40,68 Média Variância 2,23 3,44 4,50 0,91 0,21 0,54 Este é um estudo experimental com 12 unidades experimentais (amostras de tecido pancreático) e k=3 tratamentos. Cada tratamento é um nível de fator simples: concentração de glicose. Existem 4 repetições para cada tratamento. Os dados, quantidade de insulina liberada pelo tecido pancreático podem ser considerados como três amostras aleatórias, cada uma com r=4 repetições, ou de tamanho r=4 sorteadas de três populações. Dado que os tratamentos são designados às unidades experimentais completamente ao acaso, este delineamento é denominado de DELINEAMENTO INTEIRAMENTE AO ACASO (DIC). Em geral em um DIC, um número fixo de k tratamentos são sorteados às N unidades experimentais de tal forma que o i-ésimo tratamento é sorteado a exatamente ri unidades experimentais. Assim, ri é o número de repetições do i-ésimo tratamento e r1 + r2 + r3 + ... + rk = N . No caso em que ri são iguais, i.é., r1 = r2 = r3 = ... = rk = r , então N = rk e o delineamento é balanceado. Notação: Estatística Experimental Delineamento Inteiramente Casualizado 27 Repetições Tratamento 1 1 y11 2 y12 3 y13 ... ... j ... ... ... r y1r 2 y21 y22 y23 ... ... ... y2r 3 y31 y32 y33 ... ... ... y3r . . . i . . . k . . . . . . . yk1 . . . . . . . yk2 . . . . . . . yk3 . . . . . . . ... ... ... ... yij . . . ... . . . . . . . ... . . . . . . . ykr N=rk Total Média y 1+ y 2+ y 2+ y 1+ y 2+ y 2+ . . . . . . . . . . . . . . y k+ y ++ y k+ y ++ Convenções: • y i + e y i + representam, respectivamente, o total e a média do iésimo tratamento, respectivamente, • y + + e y + + representam, respectivamente, o total geral (soma de todas as observações) e a média geral de todas as observações. 2. ANÁLISE DE VARIÂNCIA (ANOVA). O método da análise de variância pode ser visto como uma extensão do teste t de student para amostras independentes. Como no teste t de amostras independentes, o método da ANOVA compara uma medida da magnitude variabilidade observada dentro das k amostras com uma medida da variabilidade entre as médias das k amostras. 3. MODELO MATEMÁTICO DO DIC COM EFEITOS DE TRATAMENTOS FIXOS. O modelo associado ao DIC com efeitos fixos é y ij = µ + τ i + eij , sendo, • y ij é a observação na unidade experimental que recebeu o i-ésimo tratamento na j-ésima repetição; • µ é a média geral comum a todas as observações definida como k ∑r µ i • • i , com µ i a média populacional do i-ésimo tratamento; N τ i o efeito do i-ésimo tratamento na variável dependente Y e mede o afastamento da média µ i em relação a µ , isto é, τ i = µ i − µ ; e eij é um erro casual não observável. µ= i =1 Estatística Experimental Delineamento Inteiramente Casualizado 28 Pela definição de µ e τ i acima, temos que este modelo possui a k restrição ∑ n i i τ i = 0 , pois, i =1 k k k i =1 i =1 i =1 ∑ riτ i = ∑ ri ( µ i − µ ) = ∑ ri µ i − rµ = 0 . 4. SUPOSIÇÕES ASSOCIADAS AO MODELO. As suposições usualmente associadas aos componentes do modelo do DIC são que os eij são variáveis aleatórias independentes e identicamente distribuídas com distribuição N ( 0 , σ 2 ) . Como os y ij são funções lineares dos eij , das suposições sobre os erros decorre que: • E ( y ij ) = µ + τ i = µ i ; • Var ( y ij ) = σ 2 ; • y ij são normalmente distribuídos e independentes, ou, resumidamente que y ij ~ N ( µ i , σ ) . 2 Portanto, estamos supondo que as observações do experimento a ser analisado correspondem a amostras aleatórias de k populações normais com a mesma variância e que podem ou não ter médias diferentes. A figura abaixo representa graficamente esse fato, considerando, no caso, três tratamentos. τ3 τ1 τ2 µ1 µ2 µ µ3 Figura: Ilustrações das suposições do modelo matemático associado ao DIC com um fator fixo. 5. HIPÓTESES ESTATÍSTICAS. A Hipótese geral é: H 0 : τ 1 = τ 2 = ... = τ k = 0 , ou seja, vamos testar a não existência de efeito do fator (tratamento). Estatística Experimental Delineamento Inteiramente Casualizado 29 6. PARTIÇÃO DA SOMA DE QUADRADOS. Voltemos ao quadro de representação das observações no DIC Repetições Tratamento 1 1 y11 2 y12 3 y13 ... ... j ... ... ... r y1r 2 y21 y22 y23 ... ... ... y2r 3 y31 y32 y33 ... ... ... y3r . . . i . . . k . . . . . . . yk1 . . . . . . . yk2 . . . . . . . yk3 . . . . . . . ... ... ... ... yij . . . ... . . . . . . . ... . . . . . . . ykr N=rk Total Média y 1+ y 2+ y 2+ y 1+ y 2+ y 2+ . . . . . . . . . . . . . . y k+ y ++ y k+ y ++ Podemos identificar os seguintes desvios: • y ij − y + + , como o desvio de uma observação em relação a média • amostral geral; y ij − y i + , como o desvio da observação em relação à média de seu grupo ou do i-ésimo tratamento; y i + − y + + , como o desvio da média do i-ésimo tratamento em relação á média geral. Consideremos a identidade • ( y ij − y + + ) = ( y ij − y i + ) + ( y i + − y + + ) , a qual diz que a “ a variação de uma observações em relação à média geral amostral é igual à soma variação desta observação em relação à média de seu grupo com a variação da média do i-ésimo tratamento em que se encontra esta observação em relação à média geral amostral “. Elevando-se ao quadrado os dois membros da identidade acima e somando em relação aos índices i e j, obtemos: k ri k ri k ∑ ∑ ( y ij − y + + ) 2 = ∑ ∑ ( y ij − y i + ) 2 + ∑ ri ( y i + − y + + ) 2 , i =1 j =1 i =1 j =1 i =1 os duplos produtos são nulos. O termo k ri ∑ ∑( y ij − y ++ )2 , i =1 j =1 Estatística Experimental Delineamento Inteiramente Casualizado 30 é denominado de Soma de Quadrados Total e vamos denotá-lo por SQT.O número de graus de liberdade associado à SQT é kr - 1, ou N – 1, pois temos N observações e a restrição ri k ∑ ∑( y ij − y ++ ) = 0 . i =1 j =1 A parcela: ri k ∑ ∑( y ij − yi+ ) , i =1 j =1 É denominada de Soma de quadrados Residual, representada por SQR, e é uma medida da homogeneidade interna dos tratamentos. Quanto mais próximas estiverem as observações dentro de cada grupo (tratamento), menor é a SQR. Notem que a magnitude da SQR não depende da diferença entre as médias dos tratamentos. Considerando apenas o i-ésimo tratamento, temos que ri ∑( y ij − y i + )2 j =1 Possui ri – 1 graus de liberdade. Assim, o número de graus de liberdade associado à SQR é: jk ∑( r i − 1 ) = kr − k = N − k . i =1 A componente k ∑r ( y i i+ − y + + ) 2 , mede a variabilidade entre as médias dos i =1 tratamentos e por isso é denominada de Soma de Quadrados Entre Tratamentos, representada por SQTr. Quanto mais diferentes entre si forem as médias dos tratamentos, maior será a SQTr. Desde que temos k tratamentos e a restrição de que k ∑r (y i i+ − y ++ ) = 0 , i =1 A SQTr possui k - 1 graus de liberdade. Com esta notação, podemos escrever que: SQT = SQR + SQTr. 6. QUADRADOS MÉDIOS. Dividindo a SQR e SQTr pelos correspondentes graus de liberdade, obtemos, respectivamente o Quadrado Médio Residual (QMR) e o Quadrado Médio Entre Tratamentos (QMTr), isto é, SQR SQTr QMR = e QMTr = N−k k −1 Estatística Experimental Delineamento Inteiramente Casualizado 31 7. ESTATÍSTICA E REGIÃO CRÍTICA DO TESTE. A estatística para o teste é QMTr , QMR a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (N – k) graus de liberdade. Resumidamente, indicamos: Fc ~ F( k −1 , N −K ) , sob H 0 . Fc = Rejeitamos H0 para o nível de significância α se Fc > F( k −1 , N − K ,α ) , sendo, F( k −1 , N −K , α ) o quantil de ordem (1 − α ) da distribuição F-Snedecor com (k -1) e (N – k) graus de liberdade. Graficamente temos: Estatística Experimental Delineamento Inteiramente Casualizado 32 8. QUADRO DA ANÁLISE DE VARIÂNCIA (ANOVA). Dispomos as expressões necessárias ao teste na Tabela abaixo denominada de Quadro de Análise de Variância (ANOVA). Fonte de variação g.l. SQ QM k-1 Yi 2+ ( Y+ + ) 2 − ∑ N i =1 r i QMTr = SQTr k −1 N-k ( Yi + ) 2 ∑ ∑Y − ∑ r i =1 j =1 i =1 QMR = SQR N−k ri Entre Tratamentos k Resíduo (dentro dos tratamentos) r N-1 k 2 ij k TOTAL Fc r ∑ ∑ Yij2 − i =1 j =1 QMTr QMR ( Y+ + ) 2 N Pode-se provar que: • E ( QMR ) = σ 2 , ou seja, QMR é um estimador não viesado da variância σ 2 ; k r 2 • E ( QMTr ) = σ + ∑ τ i , ou seja, QMTr é um estimador não ( k − 1 ) i =1 viesado da variância σ 2 se a hipótese H 0 : τ 1 = τ 2 = ... = τ k = 0 é verdadeira. 9. DETALHES COMPUTACIONAIS. Apresentaremos alguns passos que facilitam os cálculos das somas de quadrados da ANOVA. ( y )2 • Calcule a correção para a média CM = + + ; N • Calcule a Soma de Quadrados dos Totais (SQT) k ri SQT = ∑ ∑ y ij2 − CM ; i =1 j =1 Calcule a Soma de Quadrados Entre os Tratamentos (SQTr) ri Y2 SQTr = ∑ i + − CM ; i =1 r i • Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto é, SQR = SQT − SQTr ; • Calcule os Quadrados Médios Entre os Tratamentos (QMTr) e o SQTr SQR Quadrado Médio Residual (QMR) QMTr = e QMR = k −1 N−k QMTr • Calcule Fc para tratamentos Fc = QMR Notem que estas fórmulas computacionais assumem que existe ri repetições para o i-ésimo tratamento; consequentemente, para um • Estatística Experimental Delineamento Inteiramente Casualizado 33 experimento balanceado com r repetições para cada tratamento, ri deve ser substituído por r. Estas várias soma de quadrados obtidas nestes cinco passos podem ser resumidas no quadro da ANOVA apresentado no item 8. 10. EXEMPLO 1: Vamos considerar os dados apresentados no item 1. Desejamos testar a hipótese nula H 0 : µ1 = µ 2 = µ 3 H1 : µ i ≠ µ j para pelo menos um par i ≠ j Os cálculos para montar-mos o quadro da ANOVA são: temos k = 3, r = 4, e N = 3x4 =12. Então • • • • Graus de liberdade: Total = N − 1 = 12 − 1 = 11; Trat . = k − 1 = 3 − 1 = 2 Re s = N − k = 12 − 3 = 9 ( 40 ,68 ) 2 CM = = 137 ,91 12 SQT = (1,59 ) 2 + (1,73 ) 2 + ... + ( 5 ,39 ) 2 − CM = 153 ,18 − 137 ,18 = 15 ,28 ( 8 ,93 ) 2 (13 ,75 ) 2 (18 ,00 ) 2 SQTr = − CM = 148 ,20 − 137 ,91 = 10 ,30 + + 4 4 4 SQR = SQT − SQTr = 15 ,28 − 10 ,30 = 4 ,98 10 ,30 4 ,98 • QMTr = = 5 ,15 e QMR = = 0 ,55 2 9 QMTr 4 ,98 • Fc = = = 9 ,31 QMR 0 ,55 O quadro da ANOVA para a variável insulina liberada é o seguinte: • Fonte de variação Entre Tratamentos Resíduo (dentro dos tratamentos) g.l. SQ QM 2 10,30 5,15 9 4,98 0,55 Fc 9,31 11 15,28 TOTAL Das tabelas das distribuições F, temos que F( 2 ,9 , 0 ,05 ) = 4 ,257 e F( 2 ,9 , 0 ,01 ) = 8 ,022 . O valor Fc=9,31 é maior do que estes valores tabelados, então rejeitamos a hipótese nula H0 a um nível α = 0 ,01, ou 1% de probabilidade (se é significativo a 1%, logo também é significativo a 5%). Estatística Experimental Delineamento Inteiramente Casualizado 34 Podemos concluir que, para um nível de α = 0 ,01, ou 1% , que a quantidade de insulina liberada é diferente para pelo menos dois níveis de glicose. Resultados fornecidos pelo Minitab Welcome to Minitab, press F1 for help. One-way ANOVA: Ilib versus Nível Analysis of Variance for Ilib Source DF SS MS Nível 2 10.297 5.148 Error 9 4.979 0.553 Total 11 15.276 Level 0 1 2 N 4 4 4 Pooled StDev = Mean 2.2325 3.4375 4.5000 0.7438 StDev 0.9514 0.4605 0.7366 F 9.31 P 0.006 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+------(------*------) (------*------) (-------*------) ---------+---------+---------+------2.4 3.6 4.8 Estatística Experimental Delineamento Inteiramente Casualizado 35 11. EXEMPLO 2: Em um experimento em que se mediu o peso corporal (kg), 19 porcos foram distribuídos aleatoriamente a 4 grupos. Cada grupo foi alimentado com dietas diferentes. Deseja-se testar se oos pesos dos porcos são os mesmos para as 4 dietas. Desejamos testar a hipótese nula H 0 : µ1 = µ 2 = µ 3 = µ 4 H1 : µ i ≠ µ j para pelo menos um par i ≠ j As observações obtidas são Tratamento 1 Dieta 1 Dieta 2 Dieta 3 Dieta 4 Total 60,8 68,7 102,6 87,9 2 57,7 67,7 102,1 84,2 Repetições 3 65,0 74,0 100,2 83,1 4 58,6 66,3 96,5 85,7 5 61,7 69,8 * 90,3 Nº de repetiç ões ri 5 5 4 5 19 Total 303,1 346,5 401,4 431,2 1482,2 Temos um experimento desbalanceado com número de repetições desigual para os tratamentos. Então, os cálculos para montar-mos o quadro da ANOVA são: Total = N − 1 = 19 − 1 = 18 ; Trat . = k − 1 = 4 − 1 = 3 • Graus de liberdade: Re s = N − k = 19 − 4 = 15 2 (1482 ,2 ) • CM = = 115627 ,202 19 SQT = ( 60 ,8 ) 2 + ... + ( 90 ,3 ) 2 − CM = 119981,900 − 115627 ,202 • = 4354 ,698 • • • • ( 303 ,1 ) 2 ( 346 ,5 ) 2 ( 401,4 ) 2 ( 431,2 ) 2 + + + − CM 5 5 4 5 = 119853 ,900 − 115627 ,202 = 4226 ,348 SQR = SQT − SQTr = 4354 ,698 − 4226 ,202 = 128 ,350 4226 ,348 128 ,350 QMTr = = 1408 ,783 e QMR = = 8 ,557 3 15 QMTr 1408 ,783 Fc = = = 165 QmR 8 ,557 SQTr = Estatística Experimental Delineamento Inteiramente Casualizado 36 O quadro da ANOVA para a variável peso (kg) é o seguinte: Fonte de variação Entre Tratamentos Resíduo (dentro dos tratamentos) g.l. TOTAL SQ QM 3 4226,348 1408,783 15 128,50 8,557 18 4354,698 Fc 165 Das tabelas das distribuições F, temos que F( 3 ,15 , 0 ,05 ) = 3 ,287 e F( 3 ,15 , 0 ,01 ) = 5 ,417 . O valor Fc=165 é maior que estes valores, então, rejeitamos a hipótese nula H0 a um nível α = 0 ,01, ou 1% de probabilidade (se é significativo a 1%, logo também é significativo a 5%). Graficamente a regra de decisão fica Podemos concluir que, para um nível de α = 0 ,01, ou 1% , que os pesos dos porcos são diferentes para pelo menos duas dietas. Atenção!!!! Com um pouco de prática, estes cálculos simples são facilmente e rapidamente feitos com o uso de uma calculadora de mão. Mais facilmente, ainda, com um bom programa computacional estatístico, e claro, juntamente com um computador. (Fazer este exemplo no Minitab) Estatística Experimental Delineamento Inteiramente Casualizado 37 12 ESTIMADORES DE MÍNIMOS QUADRADOS. Nesta seção mostraremos os estimadores do modelo do DIC y ij = µ + τ i + eij . Estes estimadores são obtidos minimizando-se a expressão do erro deste modelo k ri ∑ ∑( y ij − yˆ ij ) 2 i =1 j =1 Em relação a µ e τ i , i=1, 2, ...k, sujeito a restrição k ∑r τ i i = 0 . Assim i =1 procedendo, obtemos os estimador de µˆ = y + + e τˆ i = y i + − y + + e o estimador de µˆ i = µˆ − τˆ i = y i + , i = 1, 2 , ..., k . Para construir um intervalo de confiança para a média de cada tratamento, devemos notar que: y i + − µi ~ t ( n−k ) , QMR ri i.é., tem distribuição t – Student com (n – k) graus de liberdade. Um intervalo de confiança para µ i com um coeficiente de confiança (1 − α ) é dado por QM Re s IC ( µ i ; 1 − α ) = y i + ± t α , ( ;N −k ) r 2 ( α 2 , N −k ) o quantil de ordem (1 − α ) da distribuição t – Student com 2 (n – k) graus de liberdade, os mesmos graus de liberdade do resíduo da ANOVA. sendo, t Como primeiro exemplo, vamos considerar os dados do experimento apresentado no item 11. As médias destes dados são: 303,1 346 ,50 401,4 y 1+ = = 60 ,62 ; y 2 + = = 69 ,30 ; y 3 + = = 100 ,35 ; 5 5 4 • 431,2 e y 4+ = = 86 ,24 e a média geral é y + + = 79 ,13 5 • do quadro da ANOVA temos o valor de QMR para calcular desvio padrão médio para os tratamentos 1, 2 e 4 é QMR 8 ,557 = = 1,31 ;. Para o terceiro tratamento o erro padrão ri 5 médio é QMR 8 ,557 = = 1,46 ri 4 o valor de t ( 0 ,025 ; 15 ) = 2 ,1314 . Assim, os intervalos são: • Estatística Experimental Delineamento Inteiramente Casualizado 38 IC ( µ i ; 95%) = y i + ± 2 ,1314 8 ,557 = y i + ± 1,31, para i = 1,2 , e 4 5 8 ,557 = y i + ± 1,46 , para i = 3 4 Dieta 2 Dieta 3 Dieta 4 69,30 100,35 86,24 (67,99; 70,61) (98,89 101,81) (84,93; 87,55) IC ( µ i ; 95%) = y i + ± 2 ,1314 µi IC ( µ i , 95%) Dieta 1 60,62 (59,31; 61,93) Problema: identificar quais as Dietas (tratamentos) que tiveram efeitos não nulos sobre o peso dos suínos. Como segundo exemplo, vamos considerar os dados do experimento apresentado no item 1, cujos cálculos foram mostrados no item 10. As médias destes dados são: 8,93 13 ,75 18 ,00 y 1+ = = 2 ,23 ; y 2 + = = 3 ,44 ; y 3 + = = 4 ,50 e • ; 4 4 4 y + + = 3 ,39 • do quadro da ANOVA temos o valor de QMR para calcular QMR 0 ,553 = = 0 ,372 ; r 4 • o valor de t ( 0 ,025 , 9 ) = 2 ,262 . Assim, os intervalos são: 0 ,553 = y i + ± 0 ,841 4 Nível médio Nível alto de glicose de glicose 3,44 4,50 (2,599; 4,281) (3,659; 5,341) IC ( µ i ; 95%) = y i + ± 2 ,262 µi IC ( µ i , 95%) Nível baixo de glicose 2,23 (1,389; 3,071) Problema: identificar quais os níveis de glicose (tratamentos) que tiveram efeitos não nulos sobre a liberação de insulina dos tecidos. 13 COEFICIENTES DE DETERMINAÇÃO (R2) E DE VARIAÇÃO (CV). A parte da Soma de Quadrados Total (SQT), a variação total nas observações , que pode ser explicada pelo modelo matemático do DIC, é denominada de coeficiente de determinação. Assim, o coeficiente de determinação para modelo do DIC, y ij = µ + τ i + eij , é definido como R2 = SQTr . SQT Estatística Experimental Delineamento Inteiramente Casualizado 39 Pode ser verificado que 0 ≤ R 2 ≤ 1 e que R 2 = 1 quando toda variabilidade nas observações esta sendo explicada pelo modelo matemático do DIC. A variabilidade entre as unidades experimentais de experimentos envolvendo diferentes unidades de medidas e/ou tamanhos de parcelas pode ser comparada pelos coeficientes de variação, os quais expressam o desvio padrão por unidade experimental como uma porcentagem da média geral do experimento, ou seja, S CV = * 100 , y ++ mas, da ANOVA sabemos que S = QMR , daí resulta que QMR * 100 . y ++ Como exemplo vamos considerar os dados do experimento apresentado no item 1, cujos cálculos foram mostrados no item 10. Neste exemplo temos: SQTr 10 ,30 • SQT = 15 ,28 e SQTr = 10 ,30 , então R 2 = = = 0 ,674 SQT 15 ,28 CV = 0 ,55 QMR * 100 = * 100 = 21,88% y ++ 3 ,39 Concluímos que 67,4% da variabilidade que existe nas observações deste experimento são explicadas pelo modelo matemático do DIC e que este experimento apresenta um coeficiente de variação de aproximadamente 22%. • CV = 14. CHECANDO AS VIOLAÇÕES DAS SUPOSIÇÕES DA ANOVA. Falando de um modo geral, o teste F da ANOVA não é muito sensível às violações da suposição de distribuição normal. Ele também é moderadamente insensível às violações de variâncias iguais, se os tamanhos das amostras são iguais e não muito pequenas em cada tratamento. Entretanto, variâncias desiguais podem ter um efeito marcante no nível do teste, especialmente se amostras pequenas estão associadas com tratamentos que têm as maiores variâncias. Existe uma série de procedimentos para se testar se as suposições da ANOVA são violados. Entre estes temos o teste de Anderson-Darling, teste de Shapiro-Wilks e teste de Kolmogorov-Smirnov, que testam a normalidade da população. A igualdade das variâncias (homocedasticidade) pode ser testada pelos testes de Bartlett e de Levene. Com o advento dos modernos computadores, métodos gráficos são ferramentas muito populares para checar as violações das hipóteses da ANOVA. Alguns destes métodos gráficos mais comumente usados para checar as suposições da ANOVA são baseados em gráficos denominados gráficos dos resíduos. Resíduos. O resíduo correspondente a uma observação y ij é definido como: eij = y ij − yˆ ij = y ij − µˆ − τˆ i = y ij − y i + , Estatística Experimental Delineamento Inteiramente Casualizado 40 ou seja, o resíduo corresponde á parte da observação que não foi explicada pelo modelo. Calculando os resíduos correspondentes a todas as observações de um experimento e analisando-os descritivamente de forma apropriada, podemos saber se as suposições da ANOVA estão sendo satisfeitas. Gráfico dos resíduos para testar a normalidade. Técnicas gráficas para checar se uma amostra de resíduos é provenientes de uma população normal incluem os gráficos do Histograma, do Box – Plot, etc. Uma outra importante técnica é o gráfico q- q normal (quantile-quantile normal plot). O gráfico q-q normal, é um gráfico entre os resíduos e um conjunto de percentis devidamente escolhidos da normal padronizada. Sob a hipótese de normalidade este gráfico q – q normal deve se aproximar de uma reta. Se o gráfico é sigmóide é uma indicação de que a população tem as caudas pesadas ou leves. A assimetria é indicada por gráficos côncavos (assimetria a esquerda) e convexos (assimetria a direita). Veja os esquemas a seguir O primeiro passo na construção de um gráfico q – q normal é o cálculo de nº de resíduos ≤ eij pij = , denominada de probabilidade empírica N +1 posto de eij acumulada e está associada a todo eij , de tal forma que pij = . N +1 Por exemplo, a probabilidade empírica acumulada associada ao resíduo, cujo posto é o sexto (seu rank=6) em uma conjunto de N=10 resíduos é p=6/11 = 0.545. O gráfico q - q normal de um conjunto de resíduos é obtido plotando-se os resíduos eij vs q ij = z(1 − pij ) , Sendo que: zα é o valor critico de nível α de uma distribuição normal padronizada Exemplo: vamos considerar os dados apresentados no item 1. Vamos construir um gráfico q-q normal para ver se a suposição de normalidade parece razoável para a quantidade de insulina liberada Estatística Experimental Delineamento Inteiramente Casualizado 41 O Quadro abaixo apresenta os dados, o valor estimado pelo modelo, os resíduos e os percentis associados: i 1 1 1 1 2 2 2 2 3 3 3 3 j 1 2 3 4 1 2 3 4 1 2 3 4 Yij 1.59 1.73 3.64 1.97 3.36 4.01 3.49 2.89 3.92 4.82 3.87 5.39 Yest 2.23 2.23 2.23 2.23 3.44 3.44 3.44 3.44 4.50 4.50 4.50 4.50 eij -0.64 -0.50 1.41 -0.26 -0.08 0.57 0.05 -0.55 -0.58 0.32 -0.63 0.89 R(eij) 1 5 12 6 7 10 8 4 3 9 2 11 Pij 0.077 0.385 0.923 0.462 0.538 0.769 0.615 0.308 0.231 0.692 0.154 0.846 qij -1.426 -0.293 1.426 -0.097 0.097 0.736 0.293 -0.502 -0.736 0.502 -1.020 1.020 e o gráfico q q normal ( eij x q ij ) fica sendo: Normal Probability Plot .999 .99 Probability .95 .80 .50 .20 .05 .01 .001 -0.5 0.0 0.5 1.0 1.5 eij Average: 0.0000000 StDev: 0.672806 N: 12 Anderson-Darling Normality Test A-Squared: 0.549 P-Value: 0.123 Estatística Experimental Delineamento Inteiramente Casualizado 42 e os gráficos do Histograma e do Box – Plot dos resíduos fica: Descriptive Statistics Variable: eij Anderson-Darling Normality T est A-Squared: P-Value: -0.6 0.0 0.6 1.2 95% Confidence Interval for Mu 0.549 0.123 Mean StDev Variance Skewness Kurtosis N 0.000000 0.672806 0.452668 0.964946 1.89E-02 12 Minimum 1st Quartile Median 3rd Quartile Maximum -0.64250 -0.57188 -0.17000 0.50937 1.40750 95% Confidence Interval for Mu -0.42748 -0.5 0.0 0.5 0.47661 95% Confidence Interval for Median 0.42748 95% Confidence Interval for Sigma 1.14234 95% Confidence Interval for Median -0.57145 0.50606 Pelos gráficos q q normal, pelo histograma e pelo Box-Plot é razoável supor a normalidade para os dados de liberação de insulina. Pelo teste de normalidade de Anderson-Darling, A 2 = 0 ,549 e p = 0 ,123 ( p > 0 ,05 ) , o qual testa a hipótese H 0 : a população amostrada tem distruição normal H1 : a população amostrada não tem distruição normal ou H 0 : eij ~ N ( 0 , σ 2 ) H1 : eij não tem N ( 0 , σ 2 ) Concluímos que não rejeitamos H 0 , logo é razoável supor a normalidade para os dados de liberação de insulina. Para o teste da homogeneidade da variância somente apresentaremos os resultados dos testes de Bartlett e Levene fornecidos pelo Minitab: Estatística Experimental Delineamento Inteiramente Casualizado 43 Test for Equal Variances for Yij 95% Confidence Intervals for Sigmas Factor Levels 1 Bartlett's Test Test Statistic: 1.270 P-Value : 0.530 2 Levene's Test Test Statistic: 0.375 P-Value : 0.698 3 0 1 2 3 4 5 Aqui a hipótese que está sendo testada é H 0 : σ 12 = σ 22 = σ 32 H1 : σ i2 ≠ σ 2j i≠ j Pelos resultados destes testes não rejeitamos H 0 , os níveis mínimos de significância dos testes é p=0,53 (p>0,05) para o teste de Bartlett e p=0,698 (p>0,05) para o teste de Levene. Concluímos, então, que a homogeneidade das variâncias é uma suposição plausível para os dados da liberação da insulina. Assim é razoável supor que este conjunto de dados suporta as suposições básicas de normalidade e homogeneidade da variância para a correta aplicação da ANOVA. 14. VANTAGENS E DESVANTAGENS DO DIC. As principais vantagens do DIC são: • é fácil de ser planejado e é flexível quanto ao número de tratamento e de repetições tendo como única limitação o número de unidades experimentais disponíveis para o experimento; • o número de repetições pode variar de tratamento para tratamento, embora o desejável é ter o mesmo número de unidades experimentais em todos os tratamentos; • o DIC proporciona o número máximo de graus de liberdade para o resíduo; • a análise estatística é simples mesmo que se perca algumas unidades experimentais. Algumas desvantagens são: • é mais apropriado para um pequeno número de tratamentos e para um material experimental homogêneo; • todas as fontes de variação não associadas aos tratamentos farão parte do resíduo, podendo comprometer a precisão das análises; • super-estima a variância residual. Estatística Experimental Delineamento Inteiramente Casualizado 44 15. RESUMO. O DIC é mais útil onde não existe nenhuma fonte de variação identificável entre as unidades experimentais, exceto às dos efeitos dos tratamentos. É o mais flexível com respeito ao arranjo físico das unidades experimentais. Ele maximiza os graus de liberdade para a estimação da variância por unidade experimental (erro experimental ou erro residual) e minimiza o valor da estatísca F requerido para a significância estatística. Leitura complementar: • • VIEIRA, S. Estatística experimental. 2.ed. São Paulo: Atlas: 1999. 185p. SHCHLOTZHAUER, S. LITTELL, R. C. SAS System for elementary statistical analysis. 2.ed.Cary, NC: SAS Institute Inc.1999, 456p. • SAMPAIO, I.B.M. Estatística aplicada à experimentação animal. Belo Horizonte: Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. 221p. • PEREZ, P.A., SALDIVA, C. D. Planejamento de experimentos. 5º SIMPÓSIO NACIONAL DE PROBABILIDADE E ESTATÍSTICA. 1981, 98p. Estatística Experimental