Preview only show first 10 pages with watermark. For full document please download

Análise De Variância

Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais.

   EMBED


Share

Transcript

Análise de Variância Wagner Oliveira de Araujo Technical Report - RT-MSTMA_001-09 - Relatório Técnico April - 2009 - Abril The contents of this document are the sole responsibility of the authors. O conteúdo do presente documento é de única responsabilidade dos autores. Mestrado Sociedade, Tenologia e Meio Ambiente Centro Universitário de Anápolis www.unievangelica.edu.br Análise de Variância Wagner Oliveira de Araujo ∗ [email protected] Clarimar Jose Coelho † [email protected] Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais. 1 Introdução a) A análise da variância é uma técnica que pode ser usada para determinar se as médias de duas ou mais populações são iguais. ANalysis Of Variance (ANOVA); b) Permite determinar se as médias de 2 ou mais populações são iguais. c) População: o grupo (universo) do qual se extrai a amostra d) Amostra: parcela do grupo examinada e) Suposições: - As amostras devem ser aleatórias e independentes - As amostras devem ser extraídas de populações normais - As populações devem ter variâncias iguais, isto é: σ12 = σ32 = σ22 = . . . = σk2 Observações: Média n 1X y= yi n i=1 Variância = n s2 = Covariância = Pn Sxy = ∗ † 1 X (yi − y)2 n − 1 i=1 i=1 (xi yi − nx y) n−1 Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo. Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA 1 (1) 2 Tabela 1: Dados de Quilometragem Tipos de Gasolina Observação 1 2 3 4 1 15,1 14,9 15,4 15,6 2 15,0 15,2 15,2 15,5 3 14,9 14,9 16,1 15,8 4 15,7 14,8 15,3 15,3 5 15,4 14,9 15,2 15,7 6 15,1 15,3 15,2 15,7 Médias Amostrais 15,2 15,0 15,4 15,6 Variâncias Amostrais 0,088 0,040 0,124 0,032 Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a média e a variância. População 1 População 2 População 3 População k Parâmetros desconhecidos µ1 µ2 µ3 µk σ1 σ2 σ3 σk ↓ ↓ ↓ ↓ Estatística Amostral x1 x2 x3 xk s21 s22 s23 s2k • Duas hipóteses possíveis: – H0 : as médias das populações são todas iguais (nula); – H1 : as médias das populações não são iguais (alternativa). • Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras • Caso contrário as diferenças são muito grandes para serem causadas apenas devido a aleatoriedade • Fundamentos lógicos: – Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amostras tenham sido tiradas de uma única população – Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas normais e com variâncias iguais) • Variância populacional é a média das variâncias amostrais. – Variância "dentro": s2 +s2 +s2 +s2 +...+s2 k Sw2 = 1 2 3K 4 2 s1 = variância da amostra 1 s22 = variância da amostra 2 .. . s2k = variância da amostra k K = número de amostras 3 Veja Tabela 1 página 2 Sw2 = 0, 088 + 0, 040 + 0, 124 + 0, 032 4 (2) 0, 2840 = 0, 0710 4 (3) • Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode ser usada sozinha para julgar se as médias populacionais são iguais; • Estimativa "entre"da variância é sensível às diferenças das médias populacionais. • Desvio padrão da distribuição amostral é: – σx = σx √ n • σx => desvio padrão da população • n = tamanho da amostra • Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desvio padrão da distribuição da qual se extraiu a amostra; • A determinação da variância das médias amostrais possibilita estimar a variância da distribuição da qual se extraiu a amostra. – Sx2 = Sb2 n • Estimativa "entre"da variância (Sb ): Veja Tabela 1 página 2 • Calcular a média das médias amostrais: P – x = kj=1 xj = 15,2 + 15,0 +4 15,4 + 15,6 = 15, 3 • Calcular Sx2 – Sx2 = Pk 2 j=1 (xj −x) k−1 = (15,2−15,3)2 +(15,0−15,3)2 +(15,4−15,3)2 +(15,6−15,3)2 4−1 • Sendo n o número de amostras (observações) teremos: – Sb2 = ns2x = 6(0, 067) = 0, 402 • Comparando com a variância "dentro": – Sw2 = 0, 071 • Sb2 > Sw2 – 0, 402 > 0, 071 • Temos então 2 estimativas da variância populacional. – Se H0 é verdadeira Sb2 ∼ = Sw2 – Se H0 é falsa Sb2 > Sw2 = 0, 067 4 Figura 1: Teste de hipótese • No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamente maior (a variação casual devida a amostragem pode ser responsável por isso). • Calculemos então a razão F : Razão F = Sb2 2 Sw • O valor obtido com a estatística é comparado com uma tabela de valores F • As formas da distribuição F variam de acordo com os graus de liberdade do numerador e denominador. Ver Figura 2 Figura 2: Grau de liberdade do numerador e denominador • Os graus de liberdade são calculados como: – Numerador: número de amostras menos 1 (k − 1) – Denominador: número de amostras x (tamanho da amostra -1) {k[n − 1]} – Exemplo: (k−1) {k[n−1]} = 4−1 4(6−1) = 3 20 • Utilização da tabela F – Representam a linha divisória entre o aleatório e o não aleatório; – Compara-se a razão F calculada com o valor tabelado – Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura 3 5 Figura 3: Rejeitando a hipótese nula Figura 4: Maior que o tabulado • Lembrando . . . F = Sb2 2 Sw = 0,402 0,071 = 5, 661 ≈ 5, 70 • Este valor é maior que o tabulado => rejeita-se H0 . Ver Figura 4 • Atualmente os programas estatísticos fornecem diretamente o valor p Tabela 3: Fontes Fonte de variação Soma de quadrados G.L. Variância Razão F Pk 2 2 entre médias n j=1 (xj − x) ÷k−1 = Sb2 F = SS2x w dentro de amostras ÷ k(n − 1) = Sw2 Total kn − 1 k = número de amostras n = número de observações em cada amostra nk = número total de observações Nota: i se refere às linhas, e j às colunas 1.1 Utilizando Matlab Utilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo. 6 Tabela 4: Exemplo de tabela amostral Amostra Observações 1 2 3 ... n1 x1 x1 x1 . . . x1 n2 x2 x2 x2 . . . x2 n3 x3 x3 x3 . . . x3 .. .. .. .. n4 . . . . n5 n6 Médias Amostrais xn x1 xn x2 xn x3 ... ... xn xk Exemplo 1 – Código Entrada e Saída MatLab 1 2 3 4 5 %Valores de Entrada X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5; 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3; 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7] p = anova1(X) 6 7 8 %Valores de Saída 9 10 X = 11 15.1000 15.0000 14.9000 15.7000 15.4000 15.1000 12 13 14 15 16 17 14.9000 15.2000 14.9000 14.8000 14.9000 15.3000 18 19 20 p = 21 0.0058 22 23 24 >> Resultado produzido no MatLab: 15.4000 15.2000 16.1000 15.3000 15.2000 15.2000 15.6000 15.5000 15.8000 15.3000 15.7000 15.7000 7 16 15.8 Values 15.6 15.4 15.2 15 14.8 1 2 3 Column Number (a) Execução de resultados (b) Plotagem do gráfico Figura 5: Resultado da execução juntamente com o gráfico 4 8 Referências FREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabilidade. 9.ed. Porto Alegre: Bookman, 1997. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys. 5.ed. New Jersey-USA: Prentice-Hall, 1998. MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre: Bookman, 2005. RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons, Inc, 2002. STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.