Preview only show first 10 pages with watermark. For full document please download

Estudo Da Análise De Variância

Trabalho de Estatística Escola de Engenharia de Lorena

   EMBED


Share

Transcript

ESTUDO DO MÉTODO DA ANÁLISE DE VARIÂNCIAS ESTATÍSTICA Profª Renata André Boing (EQ) -7649604 Andressa Artico (EB) - 7549589 Diogo Alves (EB) - 7639121 Eduardo Alcova (EB) - 7549589 Igor Leonardo (EQ) - 7711569 Leonardo Simões (EM) - 7648965 Marina Magalhães (EB) - 7549763 Rayane Camargo (EM) - 7692941 Sarah Viana (EB) - 7549492 ANÁLISE DE VARIÂNCIAS INTRODUÇÃO Talvez o problema mais frequente no trabalho estatístico seja testar se duas amostras diferem significativamente com relação a alguma propriedade. Os experimentadores quase sempre projetam um experimento para comparar uma nova técnica ou processo com uma técnica/processo-padrão. Um educador pode julgar que descobriu uma maneira mais eficiente de ensinar línguas estrangeiras do que a usada até então; ou um químico pode ter descoberto um novo plástico que reputa superior ao usado na sua fábrica; em ambo os casos, é preciso elaborar um novo experimento para testar se o novo método ou material é realmente superior ao antigo. Frequentemente ocorrem situações em que há vários métodos ou produtos, e não apenas dois competindo entre si. Por exemplo, em um produto de misturas de bolo pode variar a quantidade de certos ingredientes para obter seis diferentes misturas a serem comparadas entre si, quanto à qualidade. Geralmente é muito incomodo e ineficiente compararmos duas amostras tomando-as duas a duas (o método do teste das hipóteses se aplica apenas a comparações entre dois fatores). Se tivéssemos, por exemplo, seis amostras para compararmos, haveria quinze pares de comparação. Além do que, a probabilidade associada com o ato de testarmos uma única diferença não é mais aplicável quando tivermos de testar várias simultaneamente. Outra desvantagem na comparação de pares de amostras é que os experimentadores só acostumados a este tipo de comparação são levados a criar experimentos pobres para chegar a seu objetivo final. O produtor de misturas para bolo, por exemplo, que só mudava um único ingrediente por vez e depois retinha a melhor das duas misturas poderia ter-se saído melhor ao tentar uma mistura variando diversos ingredientes e alterando suas misturas. Em experiências agrícolas relacionadas ao teste de diferentes tipos e quantidades de fertilizantes e a diferentes variedades de sementes, perde-se muito em eficiência se não se consideram as diferentes combinações dessas quantidades simultaneamente. A análise de variância é um método que resolve problemas com várias variáveis contínuas. Consiste em dividir a variância da amostra em componentes úteis. UMA CLASSIFICAÇÃO: AMOSTRAS DE MESMO TAMANHO AMOSTRAGEM E ERRO AMOSTRAL Conjunto de procedimentos através dos quais se seleciona uma Amostra de uma População. AMOSTRAGEM PROBABILÍSTICA— Procedimento em que todos os elementos da População têm uma probabilidade conhecida e superior a zero de integrar a Amostra. Pode ser:   Intencional — Amostragem subordinada a objetivos específicos do investigador. Não intencional — Amostragem regida por critérios de conveniência e/ou de disponibilidade dos inquiridos. O Erro amostral ou variabilidade amostral é a diferença entre a estimativa da amostra e o parâmetro da população. Decorre da própria noção de amostra. Quando se recolhe uma amostra, alguma coisa se perde da população de onde foi retirada, pelo que, embora cuidadosamente recolhida, uma amostra pode não ser representativa da população. Do mesmo modo, não se pode esperar que duas amostras, independentemente retiradas da mesma população, forneçam resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra não é uma perfeita representação da população, os resultados que ela fornece são de alguma forma errados. Na ANOVA, o mais simples modelo é aquele no qual as observações são classificadas em grupos baseados em uma única propriedade. Vamos considerar que temos k amostras de tamanho n, retiradas de k populações cuja média (i= 1, 2, ..., k) queremos comparar. Para entender melhor, consideremos os dados da tabela a seguir, que representam os pontos conseguidos por 24 datilógrafos durante um experimento para determinar se há diferenças entre três marcas de máquina de escrever. Os datilógrafos foram divididos em 3 grupos iguais, por escolha casual; cada grupo de 8 foi designado para um tipo de máquina; Máquina I Máquina II Máquina III 44 40 54 39 37 50 33 28 40 56 53 55 43 38 45 56 51 66 47 45 49 58 60 65 Tabela 1 – Pontos obtidos em três marcas distintas de máquinas de escrever (Fonte: HOEL, Paul G. Estatística Elementar, cap. 11, pg. 294 – São Paulo: Atlas, 1981) São hipóteses implícitas básicas à aplicação do modelo que vamos estudar as de que as k populações tenham a mesma variância homocedasticidade) e que a variável de interesse seja normalmente distribuída em todas as populações. Entretanto o método é robusto, isso querendo dizer que algum afastamento das hipóteses básicas ainda leva e resultados válidos com razoável aproximação. Por outro lodo, devemos considerara diferença entre os modelos fixo e aleatório da Análise de Variância. A fim de esclarecer a diferença existente entre as duas situações, imaginemos que as k populações que vão ser comparadas quanto a suas médias resultem da aplicação de k diferentes tratamentos sobre os elementos em estudo. Queremos, portanto, saber se aceitamos ou rejeitamos a hipótese de que todos os tratamentos produzem, em média, o mesmo efeito. Ora, pode ocorrer que os k tratamentos representem a totalidade dos tratamentos que nos interessa examinar, mas também pode ocorrer que os k tratamentos utilizados sejam apenas uma amostra aleatória de uma população de possíveis tratamentos. Note-se que, em ambos os casos, desejamos fazer uma indução sobre a população de tratamentos, mas existe uma diferença básica aleatória. No primeiro caso, temos o modelo fixo da Análise de Variância; no segundo, o modelo aleatório. Note-se também que, e se o experimento objeto da AV precisasse ser repetido, no primeiro caso os mesmos tratamentos seriam aplicados, ao passo que, no segundo, deveríamos ter uma outra amostra aleatória de tratamentos para que a indução fosse conduzida de acordo com a condição real. Entretanto, embora ambos os casos mencionados sejam diversos em essência, o modelo da AV conduz a uma mesma montagem formal da solução do problema. A ANOVA baseia-se em que, sendo verdadeira uma dada hipótese, existem 3 maneiras pelas quais a  Estimativa Total  Estimativa entre amostras  Estimativa Residual Resultado possível – não há desvantagem em uma marca de máquina sobre as outras e, se simbolizarmos os pontos da média da população correspondente às três marcas como µ 1, µ2 e µ3, basta testarmos a hipótese: H0: µ1 = µ2 = µ3 Isso significaria tomarmos uma amostra de tamanho 24 de uma ÚNICA população. Ou seja, seria como se os 24 datilógrafos utilizassem a mesma máquina e as variações de pontos ao datilografar fosse resultante do datilógrafo. 2 Se σ representa a variância da população, podemos utilizar as 24 medidas para estimar uma variância amostral familiar. Poderíamos também utilizar a variância de uma coluna apenas (dentre as três) como uma estimativa válida não tendenciosa, embora não seja tão boa quanto uma estimativa baseada em todas as 2 2 2 medidas. Se s 1, s 2 e s 3 representam as variâncias amostrais para as três colunas, e a estimativa familiar é simbolizada por Vc, temos: 2 2 2 Vc = (s 1 + s 2 + s 3)/3 Pode-se obter outra estimativa a partir da relação entre a variância de uma média amostral e a variância da população: 2 2 σ x¯ = σ /n Em geral, a variância amostral de um conjunto de medidas é uma estimativa válida da variância da população das medidas (sejam estas simples ou médias de medidas simples ou outras funções de medidas 2 2 simples). Temo que, se dispomos de uma estimativa σ x¯, devemos multiplica-la por n para obter σ ; no exemplo, temos três médias das três colunas, cuja média representa a grande média (de todas as medidas); temos uma estimativa não tendenciosa baseada nas médias: 3 Vm = 8. Σ j=1 (ẍj - ẍ)² 2 Já temos duas estimativas não tendenciosas: Vc e Vm. Ambas são válidas quando H0 é verdadeira, portanto deveriam ter valores aproximadamente iguais e sua razão deveria estar próxima de 1. No entanto, quando H0 não é verdadeira e as médias de cada coluna são bem diferentes entre si, também o farão as estimativas: diferirão muito em valor. Isso pois, enquanto Vc (variância de cada coluna) não é afetada pela alteração das médias dessas colunas, V m é calculada a partir desses valores. Dessa forma, se H0 não for verdadeira, essa razão F = Vm/Vc (quantidade desejada para se testar a hipótese H0) excederá 1. Aplicando essas fórmulas ao experimento relativo às maquinas, os cálculos com os dados da Tabela I nos fornecem os seguintes valores: _ _ _ x1 = 47 x2 = 44 x3 = 53 s 2 1 = 81,1 Vc = 89,9 2 2 3 s 2 = 106,3 s = 82,3 Vm = 168 F = 1,87 Agora no perguntamos: o valor de F é grande demais quando comparado aos valores de F que poderiam ser esperados em experimentos repetidos desse tipo com máquinas idênticas (ou seja, na suposição de que H 0 fosse verdadeira)? Para isso precisaríamos avaliar a distribuição amostral de F. Distribuição de F: esta pode ser obtida por repetidos experimentos amostrais e histogramas com os respectivos resultados de F. A distribuição exata de F, no entanto, pode ser obtida por métodos matemáticos, desde que sejam feitas as suposições corretas. No caso, devemos supor que as variáveis das 24 células sejam normais e 2 independentes, todas com a mesma média µ e a mesma variância σ . Dessa forma, a distribuição de F depende apenas da quantidade de dados disponíveis para a estimativa do numerador da variância e para a estimativa do denominador. A tabela de Distribuição de F lista os valores críticos de 5% e 1% da cauda direita de F correspondente aos diferentes valores dos parâmetros v1 e v2; estes valores são chamados número de graus de liberdade do numerador e denominador de F, aqueles naturalmente associados à variância amostral usada. Como v = n – 1 (ou seja, um menos que o número de medidas), o nº de graus de liberdade para o numerador F neste problema é dado por v1 = 2, porque a estimativa é baseada na média das três amostras. Já para o denominador, seria v 2 = 21, pois a variância de cada coluna contribui com 7 graus de liberdade e são usadas as variâncias de 3 colunas. Pela tabela encontramos que, o valor crítico de 5% de F corresponde a v 1 = 2 e v2 = 21 é 3,47. Como F = 1,87 para esse problema, aceita-se essa hipótese. Dessa forma, os dados estão de acordo com o ponto de vista de que a habilidade de datilografar não é afetada pelas três marcas das máquinas usadas. Pudemos demonstrar que o teste F, quando aplicado para testar a igualdade das médias das duas colunas, é equivalente ao do teste T para o mesmo problema. Portanto, o teste baseado em F é uma generalização do teste anterior de duas colunas baseado em t. DUAS CLASSIFICAÇÕES SEM REPETIÇÃO Os elementos observados serão classificados de acordo com dois critérios, constituindo duas classificações cruzadas. Em um desses critérios serão consideradas n amostras em k elementos, enquanto no outro k amostras e n elementos, dando um total de nk observações. Esses nk elementos serão dispostos segundo uma matriz com k linhas e n colunas (conforme o modelo a seguir). Segundo critério (colunas) X11 X12 X1j X1n ... ... Primeiro critério (linhas) X21 X22 ... X2j ... X2n X i1 Xi2 Xij Xin Xk1 Xk2 ... Xkj ... Xkn A análise da variância permitirá testar simultânea e independentemente as hipóteses (H 01 e H02). H01, 1. = 2. = ... = k. ; H02= .1 = .2 = ... = .n A aceitação da primeira hipótese indica que não há comprovação de diferença significativa entre as médias () segundo a classificação usando o critério de linhas (k). O mesmo ocorre com a aceitação da segunda hipótese, mas segundo a classificação que usa o critério de colunas (n). Na tabela xij (linha x coluna) representa o tratamento a que cada elemento foi submetido e ao todo são nk tratamentos aplicados aos elementos amostrais. De acordo com as hipóteses já vistas na análise de uma classificação com amostras de mesmo tamanho, para todos os tratamentos a variável de interesse deverá ser normalmente distribuída e com a mesma variância. Para fazer a analise de variância deve-se considerar: 1. o modelo de análise a se escolher, entre:    2. modelo fixo: se os efeitos resultantes as classificações segundo linhas e colunas forem ambos fixos, ou seja, se as condições dadas pelas linhas e colunas representarem a totalidade de todas as condições existentes. modelo aleatório: se as condições de linhas e colunas forem amostras de duas populações de possíveis condições experimentais. modelo misto: se o efeito de uma das classificações for fixo o da outra for aleatório. a possibilidade de existência de interação entre duas classificações. Por exemplo: Supondo que o tempo gasto para produzir uma peça seja a variável de interesse. As diferentes máquinas usadas na produção da peça serão as linhas e os diferentes operários que as manipulam serão as colunas. As diferenças entre as linhas e colunas pode ser causado por:    uma máquina ser mais difícil de se operar que outra; diferença entre a eficiência do funcionário; dificuldade ou facilidade que o operário pode ter para lidar com determinada máquina; Nesta última há interação entre as classificações (operários e máquinas). Com a presença de interação s² R não mais seja mais uma estimativa válida de ² . Por isso deve-se ter cuidado quanto as hipóteses implícitas ao se aplicar o modelo. No modelo fixo há hipótese implícita de inexistência de interação entre linhas e colunas (sendo semelhante ao caso de uma única classificação). O modelo aleatório é válido independentemente da hipótese de existência ou não de interação. E no misto o teste da hipótese referente à classificação com efeito fixo prescinde a hipótese de não-interação, ao passo que o teste que o teste da hipótese referente à classificação com efeito aleatório parte da validade dessa hipótese. A sistemática de teste será a mesma para qualquer dos modelos fixos e será vista a seguir: 3. A variância pode ser estimada de quatro modos: 1º estimativa total s²T 2º estimativa entre linha s²L (SQL) 3º estimativa entre colunas s²C (SQC) 4º estimativa residual s²R (SQR) Então SQT = SQL + SQC + SQR, sendo que SQL, SQC e SQR são termos independentes. Pode-se testar então a igualdade entre as medias segundo as linhas e colunas. Obs.: A hipótese 1 não sendo verdadeira não impedirá que se teste a hipótese 2 e vice-versa. A disposição prática para se realizar a Análise de Variância no presente caso será vista na tabela a seguir: Tabela 2 – Aplicação de fórmulas na Análise de Variância Exemplo de duas classificações sem repetição: Numa experiência agrícola, foram usados seis diferentes fertilizantes em duas variedades de milho, tendo sido obtidas as colheitas dadas a seguir, em sacas, para os vários canteiros de mesma área que foram plantados. Utilizar a Análise de Variância para verificar se existem diferenças significativas entre os fertilizantes e entre as variedades ao nível de 1% de significância. Fertilizante Variedade 1 Variedade 2 A 5,4 5,7 B 3,2 4,0 C 3,8 4,2 D 4,6 4,5 E 5,0 5,3 F 4,4 5,0 Tabela 3 – Fertilizantes utilizados em experimento agrícola Solução: Adotando uma disposição semelhante à utilizada na Tab. 2, construímos a Tab.4, a qual facilita o cálculo das várias quantidades necessárias. Tabela 4 – Valores necessários à aplicação da Análise de Variância Temos: O valor de SQR pode ser calculado por diferença: SQR = SQT – SQL – SQC  0,234 Podemos, então, montar o quadro da Análise de Variância conforme indicado na Tab. 2, o que é feito na Tab. 5. Vemos que, ao nível de 1% de significância, existe diferença significativa entre as linhas, ou seja, entre os fertilizantes, mas não existe diferença significativa entre as colunas, ou seja, entre as variedades. Tabela 5 – Quadro da Análise de Variância DUAS CLASSIFICAÇÕES (DOIS FATORES) COM REPETIÇÃO É certo que podemos obter mais informações sobre o experimento através da repetição. Neste caso, haverá mais de uma célula correspondente a um tratamento e um bloco. Admitir-se-á que haverá C células para cada posição; mudanças apropriadas poderão ser efetuadas quando os números de repetições forem desiguais. Devido a repetição, deve ser usado um modelo apropriado para substituir o fornecido pela equação Xjk= µ + αj + βk + εjk. Usa-se: Xjkl = = µ + αj + βk + γjk + εjkl (1) Onde os índices j, k e l de x(jkl) correspondem à linha de ordem j (tratamento), à coluna de ordem k(bloco) e a repetição de ordem l na equação (1) µ, αj e βk são definidos como anteriormente, ε(jkl) é um termo aleatório ou erro, enquanto γjk representa a linha-coluna (tratamento-bloco), efeitos de interação, muitas vezes denominada interações. Tem-se as restrições: ∑αj = 0 ∑βk = 0 ∑γjk = 0 ∑γjk =0 j k j k (2) e os x(jkl) são supostos serem normalmente distribuídos com média μ e variância δ². Como já visto: V=Vr + Vc +Vi + Vê onde : V = ∑j,k,l (xjkl – \bar{x})² (3) Os valores esperados das variações podem ser obtidos como anteriormente. Fazendo-se uso de um número apropriado de grau de liberdade para cada fonte de variação, pode-se montar a tabela de análise de variância, como apresentada na Tabela 6 abaixo. As razões F da última coluna podem ser usadas para testar as hipóteses nulas:  H0(1): Todas as médias dos tratamento (linhas)são iguais, isto é, αj=0.  H0(2): Todas as médias dos blocos (colunas) são iguais, isto é, βk=0.  H0(3): Não há interações entre os tratamentos e os blocos, isto é, γjk=0. Variação Entre tratamento , Vr Graus de liberdade a-1 Quadrado médio S²r= Vr/a-1 Entre blocos , Vc b-1 S²c= Vc/b-1 Interação, (a-1)(b-1) S²i= Vt/ F S²r/ S²e= com a-1 e abc(c-1) graus de liberdade S²r/S²e com (a-1)(b-1) graus de liberdade S²t/S²e com vt (a-1)(b-1) Residual ou aleatória, Ve Ab(c-1) Total Abc-1 (a-1)(b-1) graus de liberdade S²e = Ve/ ab(c-1) Tabela 6 Sob um ponto de vista prático, decidiríamos, inicialmente, se H0(3) pode ou não ser rejeitado ao nível de significância apropriado, usando-se a razão F equivalente a S²i/S²e da tabela 6. Dois casos são possíveis: 1-H0(3) não pode ser rejeitado. Nesse caso concluímos que as interação não são demasiadamente grandes. Testa-se H0(1) e H0(2) usando as razões de F. 2- H0(3) pode ser rejeitada. Neste caso concluímos que as interações são significativamente grandes. Diferenças nos fatores seriam, então, importantes somente se elas fossem grandes quando comparadas com tais interações. A análise de variância com repetição é realizada mais facilmente totalizando-se, inicialmente, os valores de repetição que correspondem a tratamentos (linhas) e os blocos(colunas) particulares. Exemplo de duas classificações com repetição Um fabricante quer determinar a eficiência de quatro tipos de maquinas A, B, C e D, na produção de parafusos. Para atingir tal intento, obtém-se os números de parafusos defeituosos produzidos por cada maquina nos dias de uma certa semana em cada um dos turnos de trabalho; os resultados estão apresentados na Tabela 7. Efetuar uma análise da variância para determinar, ao nível de significância 0,05, (a) se existe diferença entre as maquinas e (b) entre os turnos de trabalho. Solução: Os dados podem ser dispostos como na Tabela 8 na qual estão indicados os dois fatores principais: maquinas e turno. Note-se que estão indicados 2 turnos para desempenho de cada máquina para os 2 turnos. A variação total para todos os dados da Tabela 8 é : V= 6² + 4²+ 5² + ... + 7² + 10² - (268)²/40 = 1946-1795,6 = 150,4 Máquina A B C D Seg. 6 10 7 8 Ter. 4 8 5 4 Primeiro turno Qua. Qui. 5 5 7 7 6 5 6 5 Sex. 4 9 9 5 Seg. 5 7 9 5 Ter. 7 9 7 7 Segundo turno Qua. Qui. 4 6 12 8 5 4 9 7 Tabela 7 Repetições Fator I: Máquina Fator II: Turno A {1 {2 {1 {2 {1 {2 {1 {2 B C D TOTAL Seg. 6 5 10 7 7 9 8 5 57 Ter. 4 7 8 9 5 7 4 7 51 Tabela 8 Já a Tabela 9 representa a varianção subtotal Vs que é dada por: Qua. 5 4 7 12 6 5 6 9 54 Qui. 5 6 7 8 5 4 5 7 47 Sex. 4 8 9 8 9 6 5 10 59 TOTAL 24 30 41 44 32 31 28 38 268 Sex. 8 8 6 10 Vs= (24)²/5 +(41)²/5 +(32)²/5 +(28)²/5 +(30)²/5 +(44)²/5 + (31)²/5 +(38)²/5 +(268)²/5 = 65,6 A variação entre as linhas é dada por: Vr= (54)²/10 +(85)²/10 +(63)²/10 +(66)²/10 +(268)²/10 = 51 A variação entre as colunas é dada por: Vc= (125)²/20 + (143)²/20 + (268)²/20 = 8,1 Máquina A B C D 1º turno 24 41 32 28 2º turno 30 44 31 38 TOTAL 54 85 63 66 Tabela 9 Se agora subtrairmos da variação subtotal Vs a soma das variações entre as linhas e colunas, que é dada por Vi= Vs – Va – Vc= 65,6 – 51 – 8,1= 6,5 Finalmente, a variação residual, que pode ser considerada aleatória ou devida a erro (desde que acreditamos que os dias da semana não proporcionem quaisquer diferenças importantes) é obtidas subtraindose a variação subtotal, isto é, a soma das variação linha, coluna e interações, da variância total, o que produz: Ve= V – (Vr + Vc + Vi) = V – Vs = 150,4 – 65, 6 = 84,8. Essas variações estão apresentadas na Tabela 10 que representa a análise de variância devida às duas colunas, e tem 2-1=1 grau de liberdade. Para determinar-se os graus de liberdade devidos à intersecção, deve-se notar que existem 8 entradas na tabela 1.5; por conseguinte , o total de graus de liberdade é 8-1=7. Como 3 destes 7 graus são devidos as linhas e um às colunas, os restantes, 7 – (3+1)= 3 são devidos à interação. Como existem 40 entradas na tabela 1.3, o total de graus de liberdade é 40 – 1 =39. Assim, os graus de liberdade devidos à variação aleatória ou residual são 39-7=32. Variação Linhas (maquinas) Vr=51 Colunas (turnos) Vc=8,1 Interação, Vi=6,5 Subtotal Vs=65,6 Residual ou aleatória, Ve=84,8 Total V=150,4 Graus de liberdade 3 Quadrado médio S²r= 17 F 17,0/2,65=6,42 1 S²c= 8,1 8,1/2,65=3,06 3 S²r=2,167 2,167/2,65=0,817 7 32 S²e =2,65 39 Tabela 10 Além disso, para prosseguir, devemos inicialmente determinar se existe qualquer interação significante entre os fatores básicos, isto é, as linhas e colunas da Tabela 9. Da Tabela 10 vemos que para a interação F= 0,817, que mostra não ser ela significativa, isto é, não podemos rejeitar a hipótese H 0(3). Seguindo as regras estabelecidas quando se abordou os experimentos de 2 fatores com repetição, vemos que o F calculado para as linhas é 6,42. Como F(0,95)=2,90 para 3 e 32 graus de liberdade, podemos rejeitar a hipótese H0(1) de que as linhas possuem as mesmas médias. Isto equivale a dizes que, ao nível 0,05, podemos concluir que as máquinas não são igualmente eficientes. Para 1 e 32 graus de liberdade , F=4,15, e como o F calculado para as colunas são iguais, ou seja, ao nível 0,05, não existe diferença significante entre os turnos. Se decidíssemos analisar os resultados combinando-se as variações de interação e residual, encontraríamos Vi + Ve = 6,5 + 84,8 = 91,3 para a variação combinada, e Vi + Ve = 3 + 32 = 35 para os graus de liberdade combinados, fornecendo uma variância combinada de 91,3 /35 = 2,61. Usando-se este valor ao invés de 2,65 para o denominador de F na tabela 1.5, tal fato não afetará as conclusões obtidas anteriormente. COMPARAÇÕES MÚLTIPLAS O método de Análise de Variância aceita ou rejeita as hipóteses H 0 de igualdade das médias populacionais. Se H0 for rejeitada pode-se dizer que pelo menos uma das médias é diferente das demais. Existem alguns métodos para se descobrir quais médias entre as várias que foram comparadas, diferem entre si ao nível de significância estipulado. Teste de Tuckey Quando as amostras têm tamanhos iguais este teste é mais adequado considerando que as amostras devem ser aleatórias e independentes sendo extraídas de populações normais e as populações devem ter variâncias iguais (σ 1 = L = σ k = σ 2 ). O teste HSD de Tuckey foi originalmente desenvolvido para amostras de igual tamanho, no entanto, muitos estatísticos sustentam que este é um método robusto a desvios moderados deste pressuposto. Este teste é feito comparando-se a diferença absoluta (em módulo) entre as várias médias pareadas duas a duas, a um valor (Δ), previamente calculado. __________ Δ= √q (QMR)/n Onde: k= número de amostras n= número de elementos de cada amostra v (número de graus de liberdade da estimativa de QMR) = k.(n-1) q = amplitude total studentizada, valor obtido em uma tabela (de acordo com o nível de significância desejado) de dupla entrada com k e v; QMR = quadrado médio do resíduo e n = número de observações por tratamento (repetições). Caso o número de observações por tratamento seja diferente, o Δ será calculado da seguinte forma: __________________ Δ = √1∕2(1∕n1+ 1∕n2) *QMR No entanto, nesse caso os resultados são aproximados e devem ser encarados com reserva. Serão consideradas significativas ao nível de significância pré determinado (α) aquelas diferenças entre médias cujo valor absoluto for maior que o Δ calculado. Portanto as médias são consideradas distintas e Ho é rejeitado se: _________ | Δ | ˃ q k,vR, α . √ (QMR)/n Teste de Scheffé Além de ser um teste efetivo quando as amostras tem tamanhos diferentes apresenta a vantagem de utilizar os próprios valores do quadro da Análise de Variância. Uma forma geral para o teste nos casos vistos de modelo fixo seria: ____________________________ Δα = √ QMR.(p-1).(1/nl + 1/nm) . Fp-1 , vR, α p= número de linhas ou colunas vR( número de graus de liberdade de QMR)= k.(n-1) Δα= diferença crítica que deve ser superada pela diferença das médias amostrais EXEMPLO: Três chapas de uma liga metálica de mesma procedência foram submetidas a três diferentes tratamentos térmicos, A, b e C. Após o tratamento, foram tomadas 5 medidas de dureza superficial de cada chapa, obtendo-se os seguintes resultados: Tratamento A B C Dureza 68 74 77 70 71 67 65 69 66 67 73 77 76 69 80 Média ẍA ẍB ẍC |ẍA- ẍB| = 5,2 |ẍA – ẍc| = 3 |ẍB- ẍC| = 8,2 Em função de k =3 ; vR= k. (n-1) = 3.(5-1) = 12 . Para um nível de significância 5 % a tabela nos fornece q 3, 12, 5% = 3,77 . O Quadrado Médio do Resíduo é dado por: QMR= Σ residual de quadrados / vR = 128,8 / 12 = 10, 733 Pelo Método de Tukey: _______ ________ q k,vR, α . √ QMR/ n = 3,77 . √ 10, 733/ 5 = 5,52 Logo, são significamente distintas as médias cujas diferenças superem 5,52. Portanto existe diferença assinalável ao nível α= 5% entre tratamentos B e C. Pelo Método de Scheffé, teríamos Δ5% . Como F k-1 , k (n-1), α = F 2, 5; 5% = 3,89, temos: __________________ Δ5%= √ 10,733 . 2(3-1)/5 . 3,89 = 5,78 Logo, leva à mesma conclusão do teste anterior, porém, como 5,78˃ 5,52, notamos que o método de Tukey é mais poderoso para efeito de comparação das médias duas a duas. Contrastes A ideia de diferença entre duas médias generalizada dá-se pelos contrastes entre k médias, definido por k coeficientes tais que sua soma seja nula. EXEMPLO: Tomates de determinada espécie foram submetidos a quatro diferentes tratamentos com fertilizantes em iguais quantidades e foram feitas n verificações do peso destes depois de cada tratamento e calculadas as médias : tratamento 1: sem fertilizante = ẍ1 tratamento 2 : fertilizante = Aẍ2 tratamento 3: fertilizante B = ẍ3 tratamento 4: fertilizante A+B= ẍ4 Pode-se construir diferentes contrates entre as médias das amostras, que representam comparações: C1=(-1, 1, -1,1) = (- ẍ1/2 + ẍ2/2 - ẍ3/2 + ẍ4/2) C2= (-1, -1, 1, 1)= (- ẍ1/2 - ẍ2 /2 + ẍ3 /2 + ẍ4/2 ) C3= (-1, 1, 1, -1)= (-ẍ1/2 + ẍ2 /2 + ẍ3/2 + ẍ4/2 ) Nota-se que não havendo interação C1 mede apenas o efeito do fertilizante A, considerando que o efeito de B foi somado e subtraído. Analogamente C2 mede apenas o efeito de B e C3 mede o efeito da eventual interação entre os fertilizantes A e B sendo que não havendo de fato interação, o valor esperado desse contraste é nulo. Induções quanto aos contrastes Pode-se desejar construir intervalos de confiança ou testar hipóteses a respeito de certos contrates. Para isso basta calcular a estimativa do desvio padrão admitindo que todas as populações tenham a mesma variância, estimada pelo Quadrado da Média Residual QMR, e o mesmo tamanho n, temos para C1 o seguinte intervalo de confiança: _______ (- ẍ1/2 + ẍ2/2 - ẍ3/2 + ẍ4/2) ± t 4(n-1) , α/2 √ QMR/n Se for desejado estimar ou testar simultaneamente diversos contrastes, em geral, é recomendável que se use o procedimento de Schefflé. O procedimento de Schefflé para estabelecer o intervalo de confiança para diversos contrastes C com estimativas Ĉ pode ser resumido na expressão: Ĉ ± S . SĈ __________________ SĈ= √ QMR . ( 1/ n1 + 1/ n2 ) _________________ S = √ ( k-1) . F k-1, Σ ni- k , α k= número de médias a serem contrastadas Σ ni- k = números de graus de liberdade do quadrado da estimativa do QMR. SĈ que em geral é igual ao número de graus ANÁLISE DE VARIÂNCIA APLICADA A REGRESSÃO Para o estudo dos problemas envolvendo a comparação de várias médias, a técnica principal e mais importante para determinar a solução é a análise de variância. Esta consegue identificar diferenças entre as médias devido a várias causas atuantes. O teste de regressão linear através da Análise de Variância é de interesse imediato e também devido a suas extensões. ∑ n i=1 (yi – ӯ)² = ∑ n i=1 (ŷi – ӯ)² + ∑ n i=1 (yi – ŷ)² Sendo o 1 termo: Variância total. o 2 termo: Desvio da reta de mínimos quadrados em relação a ӯ. o 3 termo: Variância residual. Para efetuar o teste, deve-se ter como hipótese não ter regressão (β=0). Não havendo regressão, a variância total se confunde com a variância residual. Essa Variância σr ² comum, pode ser estimada pela variância amostral de Y: Sy² = ∑ Mas a variância amostral é: σr = ∑ n i=1 n i=1 (yi – ӯ)²/(n-1) = Syy / (n-1) (yi – ŷi)²/(n-2) = Syy - b².Sxx Logo, o Quociente F = b².Sxx / σr² pode ser usado para testar a hipótese de não haver regressão. Sendo falsa a hipótese de Ho = 0, o numerador tenderá a crescer, pois b².S xx corresponde a parcela de variação explicada pela reta de regressão. Exemplo: Testar pela Análise de Variância a existência da regressão para a seguinte relação: X Y 1 0,5 2 0,6 Xi 1 2 3 4 5 6 7 8 ----------------36 Sxx = ∑ Sxy = ∑ 3 0,9 4 0,8 yi 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2 ----------------9,2 n i=1 xi² n i=1 xi*yi – (∑ n i=1 xi)² - (∑ n i=1 xi * ∑ xi*yi 0,5 1,6 2,7 3,2 6,0 9,0 11,9 16,0 ----------------50,5 5 1,2 6 1,5 xi² 1 4 9 16 25 36 49 64 ----------------204 7 1,7 yi² 0,25 0,36 0,81 0,64 1,44 2,25 2,89 4,00 ----------------12,64 / n  Sxx = 204 – (36²/8) Sxx = 42 n i=1 yi)/n  Sxy = 50,5 – (36*9,2)/5  Sxy = 9,1 8 2 Syy = ∑ n i=1 yi² - (∑ n i=1 yi)²/n  Syy = 12,64 – (9,2)²/8  Syy = 2,06 b = Sxy/Sxx  b = 9,1/42  b = 0,216667 Como σr = Syy – b²*Sxx = 2,06 – (0,21667)²*42  σr = 0,0833 Logo: F= b²*Sxx/ σr²  F = 1,97166/0,0833²  F = 284,146 Como o quociente é muito grande, está provado que existe regressão linear . ANÁLISE DE VARIÂNCIA NA REGRESSÃO LINEAR MÚLTIPLA A análise da variância pode ser usada para verificar se a equação obtida é significativa como explicação do fenômeno. O problema é semelhante ao teste da regressão linear para o caso da reta em que a variação total é medida pela soma dos quadrados total Syy e a variação residual em torno do hiperplano de regressão múltipla medida pela soma dos quadrados residual. A diferença corresponde a parcela da variação total explicada pelo hiperplano da regressão múltipla. A soma de quadrados é dada por R². Syy, em que R é o coeficiente de correlação da regressão linear múltipla. R1². S1y + R²2. S2y+.....+ R2k. Sky Onde k é o nº da sua população. A diferença da quantidade (equacionada acima) com Syy é a soma dos quadrados residual. A soma dos quadrados residual possui número de graus de liberdade igual a: n-(k+1)= n-k-1. O princípio da melhoria também pode ser aplicado a regressão múltipla. No caso da regressão linear múltipla pode–se incluir sucessivas variáveis, mesmo que as variáveis não seja significante para melhorar o ajuste. São utilizados diversos programas de computadores para tentar solucionar esse problema como a utilização do processo stepwise. Com isso procura-se chegar em uma equação (com todas as variáveis colocadas) que represente bem o fenômeno a sem sobrecarregar com variáveis insignificantes. ANÁLISE DE MELHORIA Como a regressão linear gera um problema, já que não conhecemos previamente o modelo adequado para a equação que iremos determinar, surge a necessidade de encontrar a equação de um polinômio que melhor representa o fenômeno em estudo. Porém, esse processo matemático nada tem de estatístico, uma vez que sempre encontraríamos um polinômio de grau n-1 que se ajustaria sem desvio a todos os pontos experimentais. Surge então a ideia de se buscarem equações mais elaboradas até o ponto em que a melhoria de ajuste conseguida em relação ao modelo anterior seja significativa. Por exemplo: se procuramos uma equação polinomial que possa ser considerada satisfatória, antes devemos achar a equação da reta de regressão. Da mesma forma, procuramos uma parábola, que no lugar da reta, de uma melhoria de ajuste significativa. Se tivermos sucesso, verificamos se a cúbica de regressão apresenta melhoria de regressão em relação à parábola. Procedemos dessa maneira até que duas etapas sucessivas não tenham produzido melhoria significativa. Sempre buscamos o modelo mais simples, desde que um mais elaborado não apresente uma melhoria significativa que represente o fenômeno em estudo. O princípio da Análise de Melhoria está em que a participação da variação total, no caso da reta, pode ser, de modo análogo, verificada para polinômios de maior grau. Assim, a soma de quadrados devida à variação residual em torno da reta de mínimos quadrados pode, por sua vez, ser desdobrada em uma parcela de melhoria de ajuste explicada pela adoção da parábola e uma parcela devida à variação residual em torno da parábola. FONTES BIBLIOGRÁFICAS 1. SPIEGEL, Murray R. Estatística (3ª Edição) – São Paulo: Pearson Makron Books, 1993. – (Coleção Schaum) 2. TRIOLA, Mario F. Introdução à Estatística (Décima edição) – Rio de Janeiro: LTC, 2008. 3. HOEL, Paul G. Estatística Elementar – São Paulo: Atlas, 1981. 4. HINES, William W. ... [et al]. Probabilidade e estatística na engenharia – Rio de Janeiro: LTC, 2006. 5. COSTA NETO, Pedro L. de Oliveira. Estatística – São Paulo: Edgard Blücher, 1977.