Transcript
Análise de Variância Wagner Oliveira de Araujo Technical Report
- RT-MSTMA_001-09 - Relatório Técnico April - 2009 - Abril
The contents of this document are the sole responsibility of the authors. O conteúdo do presente documento é de única responsabilidade dos autores.
Mestrado Sociedade, Tenologia e Meio Ambiente Centro Universitário de Anápolis www.unievangelica.edu.br
Análise de Variância Wagner Oliveira de Araujo ∗
[email protected]
Clarimar Jose Coelho †
[email protected]
Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais.
1 Introdução a) A análise da variância é uma técnica que pode ser usada para determinar se as médias de duas ou mais populações são iguais. ANalysis Of Variance (ANOVA); b) Permite determinar se as médias de 2 ou mais populações são iguais. c) População: o grupo (universo) do qual se extrai a amostra d) Amostra: parcela do grupo examinada e) Suposições: - As amostras devem ser aleatórias e independentes - As amostras devem ser extraídas de populações normais - As populações devem ter variâncias iguais, isto é: σ12 = σ32 = σ22 = . . . = σk2 Observações: Média
n
1X y= yi n i=1
Variância =
n
s2 = Covariância =
Pn Sxy =
∗ †
1 X (yi − y)2 n − 1 i=1 i=1 (xi yi
− nx y) n−1
Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo. Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA
1
(1)
2
Tabela 1: Dados de Quilometragem Tipos de Gasolina Observação 1 2 3 4 1 15,1 14,9 15,4 15,6 2 15,0 15,2 15,2 15,5 3 14,9 14,9 16,1 15,8 4 15,7 14,8 15,3 15,3 5 15,4 14,9 15,2 15,7 6 15,1 15,3 15,2 15,7 Médias Amostrais 15,2 15,0 15,4 15,6 Variâncias Amostrais 0,088 0,040 0,124 0,032 Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a média e a variância. População 1 População 2 População 3 População k Parâmetros desconhecidos µ1 µ2 µ3 µk σ1 σ2 σ3 σk ↓ ↓ ↓ ↓ Estatística Amostral x1 x2 x3 xk s21 s22 s23 s2k • Duas hipóteses possíveis: – H0 : as médias das populações são todas iguais (nula); – H1 : as médias das populações não são iguais (alternativa). • Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras • Caso contrário as diferenças são muito grandes para serem causadas apenas devido a aleatoriedade • Fundamentos lógicos: – Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amostras tenham sido tiradas de uma única população – Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas normais e com variâncias iguais) • Variância populacional é a média das variâncias amostrais. – Variância "dentro": s2 +s2 +s2 +s2 +...+s2
k Sw2 = 1 2 3K 4 2 s1 = variância da amostra 1 s22 = variância da amostra 2 .. .
s2k = variância da amostra k K = número de amostras
3
Veja Tabela 1 página 2 Sw2 =
0, 088 + 0, 040 + 0, 124 + 0, 032 4
(2)
0, 2840 = 0, 0710 4
(3)
• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode ser usada sozinha para julgar se as médias populacionais são iguais; • Estimativa "entre"da variância é sensível às diferenças das médias populacionais. • Desvio padrão da distribuição amostral é: – σx =
σx √ n
• σx => desvio padrão da população • n = tamanho da amostra • Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desvio padrão da distribuição da qual se extraiu a amostra; • A determinação da variância das médias amostrais possibilita estimar a variância da distribuição da qual se extraiu a amostra. – Sx2 =
Sb2 n
• Estimativa "entre"da variância (Sb ): Veja Tabela 1 página 2 • Calcular a média das médias amostrais: P – x = kj=1 xj = 15,2 + 15,0 +4 15,4 + 15,6 = 15, 3 • Calcular Sx2 – Sx2 =
Pk
2 j=1 (xj −x)
k−1
=
(15,2−15,3)2 +(15,0−15,3)2 +(15,4−15,3)2 +(15,6−15,3)2 4−1
• Sendo n o número de amostras (observações) teremos: – Sb2 = ns2x = 6(0, 067) = 0, 402 • Comparando com a variância "dentro": – Sw2 = 0, 071 • Sb2 > Sw2 – 0, 402 > 0, 071 • Temos então 2 estimativas da variância populacional. – Se H0 é verdadeira Sb2 ∼ = Sw2 – Se H0 é falsa Sb2 > Sw2
= 0, 067
4
Figura 1: Teste de hipótese • No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamente maior (a variação casual devida a amostragem pode ser responsável por isso). • Calculemos então a razão F : Razão F =
Sb2 2 Sw
• O valor obtido com a estatística é comparado com uma tabela de valores F • As formas da distribuição F variam de acordo com os graus de liberdade do numerador e denominador. Ver Figura 2
Figura 2: Grau de liberdade do numerador e denominador • Os graus de liberdade são calculados como: – Numerador: número de amostras menos 1 (k − 1) – Denominador: número de amostras x (tamanho da amostra -1) {k[n − 1]} – Exemplo:
(k−1) {k[n−1]}
=
4−1 4(6−1)
=
3 20
• Utilização da tabela F – Representam a linha divisória entre o aleatório e o não aleatório; – Compara-se a razão F calculada com o valor tabelado – Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura 3
5
Figura 3: Rejeitando a hipótese nula
Figura 4: Maior que o tabulado • Lembrando . . . F =
Sb2 2 Sw
=
0,402 0,071
= 5, 661 ≈ 5, 70
• Este valor é maior que o tabulado => rejeita-se H0 . Ver Figura 4 • Atualmente os programas estatísticos fornecem diretamente o valor p
Tabela 3: Fontes Fonte de variação Soma de quadrados G.L. Variância Razão F Pk 2 2 entre médias n j=1 (xj − x) ÷k−1 = Sb2 F = SS2x w dentro de amostras ÷ k(n − 1) = Sw2 Total kn − 1 k = número de amostras n = número de observações em cada amostra nk = número total de observações Nota: i se refere às linhas, e j às colunas
1.1 Utilizando Matlab Utilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.
6
Tabela 4: Exemplo de tabela amostral Amostra Observações 1 2 3 ... n1 x1 x1 x1 . . . x1 n2 x2 x2 x2 . . . x2 n3 x3 x3 x3 . . . x3 .. .. .. .. n4 . . . . n5 n6 Médias Amostrais
xn x1
xn x2
xn x3
... ...
xn xk
Exemplo 1 – Código Entrada e Saída MatLab 1 2 3 4 5
%Valores de Entrada X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5; 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3; 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7] p = anova1(X)
6 7 8
%Valores de Saída
9 10
X =
11
15.1000 15.0000 14.9000 15.7000 15.4000 15.1000
12 13 14 15 16 17
14.9000 15.2000 14.9000 14.8000 14.9000 15.3000
18 19 20
p =
21
0.0058
22 23 24
>>
Resultado produzido no MatLab:
15.4000 15.2000 16.1000 15.3000 15.2000 15.2000
15.6000 15.5000 15.8000 15.3000 15.7000 15.7000
7
16
15.8
Values
15.6
15.4
15.2
15
14.8 1
2
3 Column Number
(a) Execução de resultados
(b) Plotagem do gráfico
Figura 5: Resultado da execução juntamente com o gráfico
4
8
Referências FREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabilidade. 9.ed. Porto Alegre: Bookman, 1997. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys. 5.ed. New Jersey-USA: Prentice-Hall, 1998. MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre: Bookman, 2005. RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons, Inc, 2002. STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.