Preview only show first 10 pages with watermark. For full document please download

Métodos Estatísticos Multivariados - Uma Introdução

Manly-2008-Métodos Estatísticos Multivariados - Uma Introdução

   EMBED


Share

Transcript

, .' i" .., • W~~t,,'l1\k:t...'ÓS~t~l1\$ '1i!~\t)108Y, 1ft . L~:rêl,n1'I,~Wy:()'!Hil')~USA .-- METODOS .-ESTATISTICOS MULTIVARIA'DOS UMA INTRODUÇAO-- Tradução: Sara [anda Correa Carrnona Consu lto ria, supervisão e revisão técnica desta edição: Carlos Tadeu dos Santos Dias ~----------------- lSBl\ ':178-85-7780-1&.')-5 1..E5tat1stica. r Titulo. Doutor em E:-.té1tÍStiC8 Experi.ncntai Agronômica pela USP Pós-Doutor pela Universitv (}f Exeter, Inglaterra r!~-,it>s~o;Associado .ia Escola Superior de !\gri(ultura "Luiz de Queiroz" -- ES,:l.L(2/USP o objetivo deste livro é introduzir métodos estatísticos multivariados para quern não tem formação em matemática. Ele não pretende ser um livro-texto detalhado. Ao contrário, a intenção é que sirva como um guia prático para ilustrar as possibilidades da análise estatística multivariada. Em outras palavras, é um livro para "fazer você ir adiante" em uma determinada área de métodos estatísticos. Assume-se que os leitores tenham um conhecimento prático de estatística elementar, incluindo testes de significância usando a distribuição normal, t, quiquadrado e F; análise de variância e regressão linear. O material coberto em um primeiro ano de um curso universitário típico em estatística deve ser bastante adequado a este respeito. Algum conhecimento de álgebra também é necessário para seguir as equações em certas partes do texto. A compreensão da teoria de métodos multivariados requer conhecimento de álgt'hra matrir-ial, Fntn>taptn. ;:l f!l'A~ra.à de 5€.1:.(1,,,,, mais curto possível e não pretender mais do que colocar os leitores no estágio em que possam começar a usar os métodos mtiltivariados de uma maneira inteligente. Estou em dívida com muitas pessoas pelos comentários sobre o texto das três edições do livro e por apontarem vários erros. Agradeço especialmente a Earl Bardsley, [ohn Harraway e Liliana Gonzalez por sua ajuda. Erros que ainda tenham permanecido são somente de minha responsabilidade. Gostaria de agradecer ao Departamento de Matemática e Estatística da Universidade de Otago na Nova Zelândia por me hospedar como visitante duas vezes em 2003, em maio e junho, e mais tarde em novembro e dezembro. Sua excelente biblioteca universitária foi particularmente importante nas atualizações e referências finais. Concluindo, quero agradecer à equipe da Chapman & Hall e da CRC por seu trabalho ao longo de anos em promover o livro e em me encorajar a produzir a segunda e a terceira edições. Bryan EJ. Manly Laramie, Wyoming Sumário . Capítulo 1 O material de análise multivariada 1.1 Exemplos de dados multivariados 1.2 Visão prévia dos métodos multivariados 1.3 A distribuição normal multivariada 1.4 Programas computacionais 1.5 Métodos gráficos 1.6 Resumo do capítulo Referências , ,. , , Capítulo 2 Álgebra matricial 2.1 A necessidade de álgebra matricial 2.2 Matrizes e vetores ,. 2.3 Operações com matrizes 2.4 Inversão matricial. 2.5 Formas quadráticas 2.6 Autovalores e autovetores 2.7 Vetares de médias e matrizes de covariâncias 2.8 Leitura adicional 2.9 Resumo do capítulo R e f erenClas ~ . ,. Capítulo 3 Representação Capítulo 4 Testes de significância 4.1 Testes simultâneos 29 29 ,. 29 31 33 34 34 35 37 37 38 de dados multivariados 3.1 O problema da representação de muitas variáveis 3.2 Representando variáveis índices 3.3 A representação de draftsman 3.4 A representação de pontos de dados individuais 3.5 Perfis de variáveis 3.6 Discussão e leitura adicional 3.7 Resumo do capítulo Referências 13 13 23 26 26 27 27 28 39 em duas dimensões com dados multivariados em várias variáveis 4.2 Comparação de valores médios para duas amostras: o caso univariável.. 4.3 Comparação de valores médios para duas amostras: o caso multivariado 4.-1 Testes multivariados versus testes univariados 39 39 41 41 44 44 45 46 47 47 47 49 53 4.5 Comparação de variação para duas amostras: o caso univariado 4.6 Comparação da variação para duas amostras: o caso multivariado 4.7 Comparação de médias para várias amostras 4.8 Comparação da variação para várias amostras 4.9 Programas computacionais 4.10 Resumo do capítulo Exercício __ __ __ __ __ __ Referências __ __ __ __ __.__ __ Capítulo 5 Medindo e testando distâncias multivariadas 5.1 Distâncias multivariadas 5.2 Distâncias entre observações individuais __ 5.3 Distâncias entre populações e amostras " 5.4 Distâncias baseadas em proporções 5.5 Dados presença-ausência __ 5.6 O teste de aleatorização de Mantel.. __ __ 5.7 Programas computacionais __ __ 5.8 Discussão e leitura adicional __ __ 5.9 Resumo do capítulo __ Exercício __ .__ __ Referências __.__ __ __ .__ __ __ 54 55 58 62 66 66 67 70 __ __ .. 71 .71 " 71 75 78 80 81 84 85 85 __ 86 86 Capítulo 6 Análise de componentes principais 89 6.1 Definição de componentes principais --..-- __ __ 89 6.2 Procedimento para uma análise de componentes principais __ ..__ .__ ..__ 90 6.3 Programas computacionais __ 98 6.4 Leitura adicional __ __ 99 6.5 Resumo do capítulo __ 99 Exercícios 101 Referências __ ' 104 Capítulo 7 Análise de fatores 7.1 O modelo de análise de fatores 7.2 Procedimento para uma análise de fatores 7.3 Análise de fatores de componentes principais ..--7.4 Usando um programa de análise de fatores para fazer análise de componentes principais ---· ·..·..··..·..· ··· 7.5 Opções em análises __ .__ ..__ 7.6 A importância da análise de fatores ------ -- __ ..__ 7.7 Programas computacionais __ __ 105 105 107 109 111 115 115 116 7.8 Discussão e leitura adicional 7.9 Resumo do capítulo Exercício '" ""'" Referências __ -- __ 116 117 118 118 Capítulo 8 Análise de função discriminante 8.1 O problema da separação de grupos __ 8.2 Discriminação usando distâncias de Mahalanobis 8.3 Funções discriminantes canônicas 8.4 Testes de significância 8.5 Suposições __ __ 8.6' Permitindo probabilidades a priori de membros de grupo 8.7 Análise de função discriminante passo a passo __ 8.8 Classificação jacknife de indivíduos 8.9 Atribuição de indivíduos não grupados a grupos __ 8.10 Regressão logística __ -8.11 Programas computacionais 8.12 Discussão e leitura adicional 8.13 Resumo do capítulo -Exercícios __ -Referências 119 119 119 121 122 123 129 129 130 130 ----.. 131 136 136 137 138 138 : .__ __ '..: __ Capítulo 9 Análise de agrupamentos 139 9.1 Usos de análise de agrupamentos __.__ __ 139 9.2 Tipos de análise de agrupamentos -__ 139 9.3 Métodos hierárquicos __ __ __.141 9.4 Problemas de análise de agrupamentos .. __ 143 9.5 Medidas de distâncias __ 144 9.6 Análise de componentes principais com análise de agrupamentos 144 9.7 Programas computacionais __ __ 148 9.8 Discussão e leitura adicional ...__ __ .__ __ __ 15O 9.9 Resumo do capítulo 150 E ,. xerClClOS __ 151 Referências -"'" __ 155 Capítulo 10 Análise de correlação canônica 10.1 Generalizando uma análise de regressão múltipla 10.2 Procedimento para uma análise de correlação canônica 10.3 Testes de significância ..__ 10.4 Interpretando variáveis canônicas -- __ __ __ 157 157 159 160 162 10.5 Programas computacionais al .' 10 .6 Lelitura adicio 10.7 Resumo do capítulo i •......•. Capítulo 1 ~73 _73 "T'J ",...... .L J ~~: o material de análise multivariada ~;;~~~~~~~.:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::~:::::::::::::::::::::::::::::::::::::::::::::::::::: Ca ítulo 11 Escalonamento multidimensional Construindo um mapa de uma matriz de distâncias 11.2 Procedimento para escalonamento multidimensional.. 11.3 Programas computacionais 11.4 Leitura adicional 11.5 Resumo do capítulo ············· ll.i 177 177 179 188 189 189 :~:~~~~i~~·:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ~:~ 1.1 ít I 12 C~api u o 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 O r d enaçao - · · ,,··,. · ··· ·· ·..· ·..·..· O problema da ordenação . . . Análise de componentes pnnClpals Análise de coordenadas principais Escalonamento multidimensional Análise de correspondência Comparação de métodos de ordenação Programas computacionais Leitura adicional Resumo do capítulo 191 1 · · · ·19 . 1~ 197 203 207 211 212 212 212 Os métodos estatísticos que são descritos em textos elementares são na maioria métodos univariados porque tratam somente da análise de variação em uma única variável aleatória. Por outro lado, o ponto principal de uma análise multivariada é considerar várias variáveis relacionadas simultaneamente, sendo todas consideradas igualmente importantes, pelo menos inicialmente. O valor potencial dessa abordagem mais geral pode ser visto considerando alguns poucos exemplos. Exemplo 1.1 Pardais sobreviventes de tempestade Após uma forte tempestade em 1 de fevereiro de 1898, diversos pardais moribundos foram levados ao laboratório biológico de Hermon Bumpus na Universidade de Brown em Rhode Island. Subseqüentemente cerca de metade dos pássaros morreram, e Bumpus viu isso como uma oportunidade de encontrar suporte para a teoria de seleção natural de Charles Darwin. Para esse fim, ele fez oito medidas morfológicas em cada pássaro, e também os pesou. Os resultados de cinco das medidas são mostrados na Tabela 1.1, para fêmeas somente. Dos dados que obteve, Bumpus (1898) concluiu que "os pássaros que morreram, morreram não por acidente, mas porque eles eram fisicamente desqualificados, e que os pássaros que sobreviveram, sobreviveram porque eles possuíam certas características físicas". Especificamente, ele verificou que os sobreviventes "são mais curtos e pesam menos ... tem ossos das asas mais longos, pernas mais longas, esternos mais longos e maior capacidade cerebral" do que os nãosobreviventes. Concluiu também que "o processo de eliminação seletiva é mais severo com indivíduos extremamente variáveis, não importando em qual direção a variação possa ocorrer. É tão perigoso estar acima de um certo padrão de excelência orgânica como estar visivelmente abaixo do padrão". Isso queria dizer que ocorreu seleção estabilizadora, de modo que indivíduos com medidas próximas da média sobrevivem melhor do que indivíduos com medidas longe da média. ~~:~~~~i~~·:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ~~~ piO go C ap!ítul o 13 sen ,. . proxlffio pas so 131 O 13.2 Alguns lembretes gerais 13.3 Valores perdidos Referências ·· ·· ·· · ·..· 215 . . · ··· 215 215 217 217 Apêndice Pacotes computacionais para análises multivariadas Referências 219 221 I,n d'Ice de nomes 223 Índice . 225 Exemplos de dados multivariados 0 Tabela 1.1 pássaro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 Medidas Tabela 1.1 do corpo de pardocas XI X2 '<3 X. (mm) (mm) (rnm) (mm) 156 154 153 153 155 163 157 155 164 158 158 160 161 157 157 156 158 153 155 163 159 155 156 160 152 160 155 157 165 153 162 162 159 159 155 162 152 159 155 163 163 156 159 161 245 240 240 236 243 247 238 239 248 238 240 244 246 245 235 237 244 238 236 246 236 240 240 242 232 250 237 245 245 231 239 243 245 247 243 252 230 242 238 249 242 237 238 245 31,6' 30,4 31,0 30,9 31,S 32,0 30,9 32,8 32,7 31,0 31,3 31,1 32,3 32,0 31,5 30,9 31,4 30,5 30,3 32,5 31,S 31,4 31,S 32,6 30,3 31,7 31,0 32,2 33,1 30,1 30,3 31,6 31,8 30,9 30,9 31,9 30,4 30,8 31,2 33,4 31,0 31,7 31,5 32,1 18,5 17,9 18,4 17,7 18,6 19,0 18,4 18,6 19,1 18,8 18,6 18,6 19,3 19,1 18,1 18,0 18,5 18,2 18,5 18,6 18,0 18,0 18,2 18,8 17,2 18,8 18,5 19,5 19,8 17,3 18,0 18,8 18,5 18,1 18,5 19,1 17,3 18,2 17,9 19,5 18,1 18,2 18,4 19,1 Xs (mm) 20,5 19,6 20,6 20,2 20,3 20,9 20,2 21,2 21,1 22,0 22,0 20,S 21,8 20,0 19,8 20,3 21,6 20,9 20,1 21,9 21,5 20,7 20,6 21,7 19,8 22,S 20,0 21,4 22,7 19,8 23,1 21,3 21,7 19,0 21,3 22,2 18,6 20,S 19,3 22,8 20,7 20,3 20,3 20,8 (Continua) Medidas do corpo de pardocas (continuação) Xl X2 X3 X4 Xõ pássaro (nun) (mm) (mm) (mm) (mm) 45 46 47 48 49 155 162 153 162 164 235 247 237 245 248 30,7 31,9 30,6 32,S 32,3 17,7 19,1 18,6 18,5 18,8 19,6 20,4 20,4 21,1 20,9 Nota: X, = comprimento total, X2 = extensão alar, X3 = comprimento do bico e cabeça, X4 = comprimento do úmero, X5 = comprimento da quilha do esterno. Pássaros de 1 a 21 sobreviveram, pássaros de 22 a 49 morreram. A fonte de dados é Bumpus (1898), que mediu em polegadas e milímetros. Fonte: Adaptado de Bumpus, H.c. (1898), Biological Lectures, 11th Lecture, Marine Biology Laboratory, Woods Hole, MA, pp. 209-226. De fato, o desenvolvimento dos métodos de análise multivariada havia recém-iniciado em 1898 quando Bumpus estava escrevendo. O coeficiente de correlação como uma medida do relacionamento entre duas variáveis foi delineada por Francis Galton em 1877. Entretanto, decorreram outros 56 anos antes de Harold Hotelling descrever um método prático para realizar uma análise de componentes principais, a qual é uma das análises multivariada mais simples que pode ser aplicada aos dados de Bumpus. Bumpus não calculou nem mesmo os desvios padrão. Apesar disso, seus métodos de análise foram sensíveis. Muitos autores têm reanalisado seus dados e, em geral, têm confirmado suas conclusões. Tomando os dados como um exemplo para ilustrar métodos multivariados, surgem muitas questões interessantes-Em particular: 1. Como estão relacionadas as várias variáveis? Por exemplo, um valor grande para uma das variáveis tende a ocorrer com valores grandes para as outras variáveis? 2. Os sobreviventes e os não-sobreviventes têm diferenças estatisticamente significantes para seus valores médios das variáveis? 3. Os sobreviventes e não-sobreviventes mostram quantidades similares de variação para as variáveis? 4. Se os sobreviventes e não-sobreviventes diferem em termos das distribuições das variáveis, então é possível construir alguma função dessas variáveis que separe os dois grupos? Então seria conveniente se valores grandes da função tendessem a ocorrer com os sobreviventes enquanto que a função seria então aparentemente um índice de ajuste darwiniano dos pardais. Exemplo 1.2 Crânios egípcios Para um segundo exemplo, considere os dados mostrados na Tabela 1.2 para medidas feitas em crânios masculinos da área de Tebas no Egito. Há cinco amostras de 30 crânios cada uma do período pré-dinástico primitivo (cerca de 4000 a.Ci), do período Tabela 1.2 Medidas de crânios egípciosmasculinos (mm) Pré-dinásticoprimitivo Crânios Xl X2 1"1 or 138 125 131 131 132 119 132 136 143 138 137 139 130 125 136 131 134 134 134 129 138 134 121 126 129 132 136 141 140 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X3 X4 89 92 99 96 100 89 108 93 102 99 95 95 109 100 100 49 48 50 44 54 56 48 48 51 51 50 53 51 50 51 Pré-dinásticoantigo Xl X2 X3 X4 124 133 138 148 126 135 132 133 131 133 133 131 131 138 130 138 134 134 129 124 136 145 130 134 125 136 139 136 134 136 101 97 98 104 95 98 100 102 96 94 103 98 99 98 104 48 48 45 51 45 52 54 48 50 46 53 51 56 49 53 - 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Nota: XI 131 135 132 139 132 126 135 134 128 130 138 128 127 131 124 = larjrura 134 137 133 136 131 133 135 124 134 130 135 132 129 136 138 97 103 93 96 101 102 103 93 103 104 100 93 106 114 101 54 50 53 50 49 51 47 53 50 49 55 53 48 54 46 131 138 123 130 134 137 126 135 129 134 131 132 130 135 130 128 129 131 129 130 136 131 136 126 139 134 130 132 132 128 98 107 101 105 93 106 100 97 91 101 90 104 93 98 101 -:::-- 45 53 51 47 54 49 48 52 50 49 53 50 52 54 51 12"e 13" dinastias -'o;- Período ptolemaico Xl x, X3 X4 Xl X2 137 129 132 130 134 140 138 136 136 126 137 137 136 137 129 141 133 138 134 134 133 138 145 131 136 129 139 126 133 142 96 93 87 106 96 98 95 99 92 95 100 97 101 90 104 52 47 48 50 45 50 47 55 46 56 53 50 50 49 47 137 141 141 135 133 131 140 139 140 138 132 134 135 133 136 134 107 128 95 130 87 131 99 120 91 135 90 137 94 130 90 134 90 140 100 133 90 97 134 135 99 136 95 130 99 --.~.;: 135 129 134 138 136 132 133 138 130 136 134 136 133 138 138 ~.;.~: X3 Período romano X4 Xl X2 X3 X4 54 53 49 51 46 50 60 48 51 52 53 54 50 52 55 137 136 128 130 138 126 136 126 132 139 143 141 135 137 142 123 131 126 134 127 138 138 126 132 135 120 136 135 134 135 91 95 91 92 86 101 97 92 99 9:'> 95 101 95 93 96 50 49 57 52 47 52 58 45 55 54 51 54 56 53 52 •• n~7i-::;-;-;';':7~;""',:>~~:~~,;."",-~~~~~#~~~$~~*~~Q_~ 138 102 135 92 125 90 134 96 135 94 130 91 131 100 137 94 127 99 133 91 123 95 137 101 131 96 133 100 133 91 55 50 60 51 53 52 50 51 45 49 52 54 49 55 46 134 137 93 131 141 99 129 135 95 136 128 93 131 125 88 139 130 94 144 124 86 141 131 97 130 131 98 133 128 92 138 126 97 131 142 95 136 138 94 132 136 92 135 130 100 máxima, X:! = altura basibregamáticâ, X3 = comprimento basíalveoíar, X. = altura nasal. 52 55 47 54 48 53 50 53 53 51 54 53 55 52 51 Fonte: de Thomson, A. and Randall-Maciver, R. (1905), Ancient Races Df the Thebaid, Oxford University Press,Oxford, U.K. 139 138 137 133 145 138 131 143 134 132 137 129 140 147 136 134 95 125 99 135 96 125 92 129 89 136 92 129 9í' 126 8& 124 9] 127 97 125 85 128 8í 135 103 129 87 133 97 47 51 54 50 47 46 44 54 55 52 57 52 48 48 51 pré-dinástico antigo (cerca de 3300 a.C). das 12a e 13a dinastias (cerca de 1850 a.C), dI' -:Ptrllemaicó.).(c rca de 200 a.C) e do período Romano (cerca de 150 d.C). Quatro medIdas são apresentadas para cada crânio, como!üstrado Di'! Fi üI'3 '_1. Para esse exemplo, algumas questões interessilntes são: 0-" ,,..l~ i ", 1. Como estão relacionadas as quatro medidas? 2. Existem diferenças estatisticamente significantes nas médias amos trais das variáveis, e se existem, essas diferenças refletem mudanças graduais ao longo do tempo na forma e tamanho dos crânios? 3. Existem diferenças significantes nos desvios padrão amostrais para as variáveis, e, se existem, essas diferenças refletem mudanças graduais ao longo do tempo na quantidade de variação? 4. É possível construir uma função das quatro variáveis que, em algum sentido, descreva as mudanças ao longo do tempo? Essas questões são, claramente, bastante similares àquelas sugeridas para o Exemplo 1.1. Veremos mais adiante que existem diferenças entre as cinco amostras que podem ser explicadas parcialmente como tendências no tempo. É preciso ser dito, entretanto, que as razões para as aparentes mudanças são desconhecidas. Migração de outras raças dentro da região pode muito bem ter sido o fator mais importante. Exemplo 1.3 Distribuição de uma borboleta Um estudo de 16 colônias de borboletas Euphydryas editha na Califórnia e Oregon produziu os dados apresentados na Tabela 1.3.Aqui existem quatro variáveis am_bientais (altitude, precipitação anual e temperaturas máxima e mínima) e seis variáveis genéticas (freqüências percentuais para diferentes genes (Fósforo glucoseisomerase) como determinado pela técnica de eletroforese). Para os objetivos desse exemplo, não há necessidade de entrar em detalhes de como as freqüências gênicas foram determinadas e, estritamente falando, elas não são exatamente freqüências gg~tg[g~~~§g~§~§~~ ""';""';NNNt--:c:i Figura 1.1 " Quatro medidas feitas em crâniosegípciosmasculinos. ,-< , ., . ue as freqüências descrevem, de certa forma, a distrigê~=as. E ~~flClednteb d~~l~as A Figura 1.2 mostra as localizações geográficas das bUlçao genetlca as ar '. ,. -'; ' . colônias. f .t . 1 em Neste exemplo, questões que podem ser ei asme u . 1. As freqüências Pgi são similares para as colônias que estão próximas espaço? m 2. O quanto, se a1gu ambientais? . das s as freqüências Pgi estão relaciona as as variavei ã , no • / <, \~ Exemplo 1.4 Cães pré-históricos da Tailândia • Essas são questões importantes na tentativa de decidir como as freqüê~cias P~i _ d terminadas. Se a composição genética das colôniasfoi larga:n:nte etder~lsao e . _ d e resentes então as frequenClas gemcas ten erao nada ~::~a:g;:;~e:or;::s ~~e ~tãO locaíizadas nas proximidade~, ap~sar delas a ser SI e ueno relacionamento com as variáveis amblentms. Por oupo~er:m :~=i::!b~nte é mais importante, então isso deve.aparecer.em rela~~n::~ntos entre as freqüências gênicas e as variáveis ambientais (assumindo que SS (Oregon) . tenham sido medidas as variáveis corretas), mas colônias próximas somente têm freqüências gênicas similares se elas têm ambientes similar=s. Obviamente colônias q.1C estão próximas no espaço usualmente têm ambie ites similares, de IHOUO qu~ pode ser difícil chegar a uma conclusão sobre essa questão. Escavações de locais pré-históricos no nordeste da Tailândia têm produzido urna coleção de ossos caninos cobrindo um período em torno de 3500 a.c. até o presente. Entretanto, a origem dos cães pré-históricos não é certa. Podem descender dos jacais dourados (Canis aureusi ou do lobo, mas o lobo não é nativo da Tailândia. As fontes de origem mais próximas são a parte ocidental da China (Canis lupus chanco) ou o subcontinente indiano (Canis lupus pallides). Para tentar esclarecer os ancestrais dos cães pré-históricos, foram feitas medidas da mandíbula dos espécimens disponíveis. Estas foram então comparadas com as mesmas medidas feitas no chacal dourado, no lobo chinês e no lobo indiano. As comparações foram também estendidas para incluir o dingo, o qual tem suas origens na Índia, o cuon (Cuon alpinus), o qual é indígena do sudeste da Ásia e os cães modernos de cidade da Tailândia. A Tabela 1.4 apresenta os valores médios para as seis medidas de mandíbulas para espécimens de todos os sete grupos. A questão principal aqui é O que as medidas sugerem sobre o relacionamento entre os grupos e, em particular, corno os cães pré-históricos parecem se relacionar com os outros grupos. MC i Exemplo 1.5 Emprego em países europeus Finalmente, como um contraste aos exemplos biológicos anteriores, considere os dados na Tabela 1.5. Eles mostram as porcentagens da força de trabalho em DP SB _---"-.;;:___--IF 1 ! <, WSB JRC CR AF Tabela 1.4 Médias de medidas de mandíbulas para sete grupos caninos _--~--GH SJ Califórnia Escala O 50 100 I Milhas Figura 1.2 Colônias de Euphydryas .. UO •• editha na Califórnia e Oregon. Grupo Cão moderno Chacal dourado Lobo chinês Lobo indiano Cuon Dingo Cão pré-histórico Xl (mm) ~ (mm) ~ (mm) ~ (mm) ~ (mm) ~ (mm) 9,7 8,1 13,5 11,5 10,7 9,6 10,3 21,0 16,7 27,3 24,3 23,5 22,6 22,1 19,4 18,3 26,8 24,5 21,4 21,1 19,1 7,7 7,0 10,6 9,3 8,5 8,3 8,1 32,0 30,3 41,9 40,0 28,8 34,4 32,2 36,5 32,9 48,1 44,6 37,6 43,1 35,0 Nota: XI = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X, = largura do primeiro molar; Xs = comprimento do primeiro ao terceiro molar, inclusive; e X6 = comprimento do primeiro ao quarto molar, inclusive. Fonte: Adaptado de Higham, c.F.w. et al. (1980),]. Archaeological Sci., 7,149-165 b lh d empregados em nove diferentes Porcentagens da força d e tra a o e 5 de indústrias em 30 países na Europa _-- --- . ... CON SER FIN SSP País Grupo AGR MIN FAB FE Tabela 1.5 gru P _ - Bélgica Dinamarca França Alemanha Grécia Irlanda Itália Luxemburgo Países Baixos Portugal Espanha Reino Unido Áustria Finlândia Islândia Noruega Suécia Suiça Albânia Bulgária República Tcheca/ Eslováquia Hungria Polônia ~~~:1~tiga) . Iugoslávia ~~~~:) Gibraltar M lt ; ~a 2,6 UE 5,6 UE 5,1 UE 3,2 UE 22,2 UE 13,8 UE 8,4 UE 3,3 UE 4,2 UE 11,5 UE 9,9 UE 2,2 DE 7,4 AELC 8,5 AELC AELC 10,5 5,8 AELC 3,2 AELC 5,6 AELC 55,5 Leste 19,0 Leste 12,8 Leste L t LeSte es e, 153 23'6 0,2 0,1 0,3 0,7 0,5 0,6 1,1 0,1 0,1 0,5 0,5 20,8 20,4 20,2 24,8 19,2 19,8 21,9 19,6 19,2 23,6 21,1 21,3 26,9 19,3 0,8 0,7 6,3 6,4 0,9 1,0 1,0 1,2 7,1 0,0 0,7 0,7 0,7 9,4 6,8 7,1 . 9,1 9,9 0,6 8,2 19,8 8,5 6,8 19,1 10,0 14,5 17,6 1,1 0,3 0,0 19,0 24,7 0,8 0,0 6,4 19,4 0,0 0,0 3,4 0,0 21,6 21,2 18,5 20,1 20,2 18,7 14,6 0,3 0,2 17,2 18,2 17,8 9,5 7,0 0,6 1,2 1,2 1,2 0,9 1,1 0,7 16,9 14,5 16,7 6,5 9,2 0,0 35,0 37,3 0,0 0,0 0,0 6,7 8,4 28,9 3,9 00 24'1 0,0 0,9 6,4 6,3 r 14,6 14,2 20,5 3,3 9,4 10,2 13,3 10,3 36,9 36,3 33,1 28,4 19,8 25,5 28,0 29,6 8,7 38,3 11,5 6,3 24,6 5,9 26,7 12,4 28,4 6,7 23,3 8,6 33,2 8,0 30,7 7,6 37,5 9,4 39,5 10,7 23,1 0,0 15,3 20,9 1,5 22,9 1,6 8,7 9,1 10,2 9,6 5,3 8,4 4,6 6,8 7,0 6,4 5,6 6,9 5,8 5,3 6,8 6,8 4,8 5,8 6,5 6,4 7,5 6,7 8,1 7,2 6,2 r 69 0,0 1,3 06 27,3 24,5 15,3 25,6 t 22 ' 387 , 2,2 8,1 7:9 13,8 3, 19,1 es e 5'0 , Outro Outro Outro Outro 13,5 0,0 2,6 44,8 0,3 0,0 0,6 0,9 19,0 6,8 27,9 15,3 0,5 2,0 1,5 0,2 9,1 16,9 4,6 5,2 23,~ 2~,2 1, 12,4 1~'~ 3' 9 2'4 '.' ~~'~ 41' 6 14'5 • Visão prévia dos métodos multivariados Os cinco exemplos que acabamos de considerar são matérias brutas típicas para métodos estatísticos multivariados. Em todos os casos, existem várias variáveis de interesse e elas são claramente não-independentes umas das outras. Nesse momento, éútil dar uma breve visão prévia do que está por vir nos capítulos que seguem em relação a esses exemplos. A análise de componentes principais é elaborada para reduzir o número de variáveis que necessitam ser consideradas a um número menor de índices (chamados de componentes principais) os quais são combinações lineares das variáveis originais. Por exemplo, muita da variação nas medidas do corpo dos pardais (X, a Xs) mostrada na Tabela 1.1 está relacionada ao tamanho geral dos pássaros, e o total 3,0 7,5 6,9 8,8 5,2 6,8 8,4 7,8 ~'~ 72 4'4 '. T q . . era ão e ex loração de pedreiras; FAB, fabn/Vota- AGR agricultura, florestal e pesca, MINC'OmNillç tr a-oPSER serviços' FIN, finanças; SSP, d rgia e água' cons _ uç"O dados para os',.palses m divid . cação: FEA, forneClmento e ene ". IVI uais r • • • • TC transportes e comurucaçoes. s anh R' serviços SOClalSe pessoais, , .t (1995) exceto para Alem a e emo são p~ra vários anos, de 1989 a ~995.Dados ~ .~uro:o&~~:d Nati~ns Statistical Yearbook (2000). Unido onde valores mais razoáveis foram o ti os o . P bli , M rketing Data and Statistics, Euromomtor li icaFonte: Adaptado do Euromonitor (1995),European. a b j 44th issue U.N. Department 01' Social tions, London; e de United Nations (2000), Statzstlcal Year 00(, , Affairs, New York • 1.2 deve medir muito bem esse aspecto dos dados. Este índice é responsável por uma dimensão dos dados. Outro índice é i:::~: ~~'~~:~~~:: ~:~1~:~ o:~ L Te nove diferentes tipos de indústrias para 30 países europeus. Nesse caso, método. rnultivarianos podem ser úteis para isolar grupos de países com padrões simila res dernpregos, e, em geral, ajudar o entendimento dos relaí ionamentos entre os países. Diferenças entre países que são relacionados a grupos políticos (UE, ;; União Européia; AELC, a área européia de livre comércio; países do leste europeL .é outros países) podem ser de particular interesse. o qual é um contraste entre as três primeiras medidas e as duas últimas. Este reflete outra dimensão dos dados. A análise de componentes principais fornece uma maneira objetiva de encontrar índices desse tipo de modo que a variação nos dados pode ser levada em consideração tão concisamente quanto possível. Pode muito bem acontecer que dois ou mais componentes principais forneçam um bom resumo de todas as variáveis originais. A consideração dos valores dos componentes principais ao invés dos valores das variáveis originais pode tornar muito mais fácil entender o que os dados têm a dizer. Em poucas palavras, a análise de componentes principais é um meio de simplificar dados pela redução do número de variáveis. A análise de fatores também tem como objetivo estudar a variação em uma quantidade de variáveis originais usando um número menor de variáveis índices ou fatores. Assume-se que cada variável original possa ser expressa como uma combinação linear desses fatores, mais um termo residual que reflete o quanto a variável é independente das outras variáveis. Por exemplo, um modelo de dois fatores paLa:' s dados dos pardais assume que X 1 = a11F1 + a12F2 + e\ X 2 = a21F1 + a22F2+ e2 X 3 = a31F1 + a32F2 + e3 X 4 = a41F1 + a42F2 + e4 X 5 = as1FI + as2F2 + es em que os valores a são constantes, FI e F2 são fatores e e, representa a variação jj em X, que é independente da variação nas outras variáveis X. Aqui F1 pode ser o fator tamanho. Nesse caso, os coeficientes a11, a2l' a31' a41 e aS1 seriam todos positivos, refletindo o fato de que alguns pássaros tendem a ser grandes e alguns pás2 saros tendem a ser pequenos em todas as medidas do corpo. O segundo fator F -reGeria então medir um aspecto da forma dos pássaros, com alguns coeficientes positivos e alguns negativos. Se esse modelo de dois fatores ajustar bem os dados, então ele forneceria uma descrição relativamente direta do relacionamento entre as cinco medidas do corpo que estão sendo consideradas. Um tipo de análise de fatores começa tomando alguns poucos primeiros componentes principais como os fatores nos dados a serem considerados. Esses fatores iniciais são então modificados por um processo especial de transformação chamado rotação fatorial, a fim de torná-Ias mais fáceis de serem interpretados. Outros métodos para encontrar fatores iniciais também são usados. Uma rotação 1.. )" I, para simplificar fatores é quase sempre feita. A análise de função discriminante refere-se à possibilidade de separar diferentes grupos com base nas medidas disponíveis. Isso pode ser usado, por exemplo, para ver quão bem pardais sobreviventes e não-sobreviventes podem ser separados usando suas medidas do corpo (Exemplo 1.1), ou como crânios de diferentes épocas podem ser separados, novamente usando medidas de tamanho (Exemplo 1.2). Assim como a análise de componentes principais, a análise de função discriminante é baseada na idéia de encontrar combinações lineares convenientes das variáveis originais para atingir o objetivo desejado. A análise de agrupamento diz respeito à identificação de grupos de objetos similares. Não há muito sentido em fazer esse tipo de análise com dados como os dos Exemplos 1.1 e 1.2, pois os grupos (sobreviventes/não-sobreviventes e épocas) já são conhecidos. No entanto, no Exemplo 1.3 poderá haver algum interesse em agrupar colônias com base nas variáveis ambientais ou freqüências Pgi, enquanto que no Exemplo 1.4 o principal ponto de interesse está na similaridade entre cães pré-históricos tailandeses e outros animais. Da mesma forma, no Exemplo 1.5 os países europeus podem possivelmente ser agrupados em termos de suas similaridades no padrão de empregos. Com correlação canônica, as variáveis (não . dois grupos, e o interesse está cent d . I o.s objetos) sao divididas er ' 1 1 '2 . . ra o no re acionamento entre 1 E r,o E . ,(emp.o L.J., as ..prrmeiras ., . estã e as. ntac _ "'-,_ c' quatrc ~_ U \-ra nave's I'. te,. enquanto que as restantes seis variá velS . re fi' etemaoaJe ' di aeienadas-eo-ambien t ib . , . dIferentes . colônias de Euphydryas eâ t'th a. E ncontrar quais lS rt uiçao genética na I . algum, existem entre esses dois grupos de . , ., re ~clOnamentos, s biológico. vanaveis, e de considerável interess. O escalonamento multidimensional come Ç a d das de distâncias entre um certo númer d ~~m ados sobre algumas medi construído um mapa mostrando como ~ste: ~~.etos. De:tas dis~âncias, é entãi uma técnica útil, pois muitas vezes e' 'I Jetdo~estao relacionados, Essa I . posslve me Ir o quã di t res de objetos sem ter nenhuma idéi pa ela d e como estes bi t ao lS- ante estao . num sentido geométrico. Assim no E 1 14 . o Je os est.ao relacionado: stem distâncias entre cães modernos e jaca~e:!~ad' ,ex: maneiras de medir a: ses, ete. Considerando cada par de dOs, .caes modernos e lobos chine ao todo, e destas distâncias o escal grupos e animais, resultam 21 distância' onamento multidi . I . do para produzir um tipo de mapa d laci 1 imensiona pode ser usa um mapa unidimensional os grupo ~ re a1ClOnamento entre os grupos. Corr , s sao co ocaàos 1 d t. Com um mapa bidimensional eles são re ao ongo e uma linha reta Com um mapa tridimensional ele _ presentados por pontos em um plano s cubo. Soluções de quarta dime'ns- sao rep:eselntados por pontos dentro de um ao ou mais a ta tamb ,,. e as terem uso limitado porque d em sao posslvels, apesal d I simples. O valor de um mapa de :::~u:m ser v~su~lizadas de uma maneira o Exemplo 1.4, pois tal mapa mostra '. . s di. tres dimensões está claro para 'h' ,. na ime latamente quai d pre- istóricos são mais similares P t IS grupos e cães nal pode ser uma alternativa u'til' ar a~tl~' o escalonamento multidimensiopara ana ise de agr mapa de países europeus basead upamento nesse caso. Um . o em seus padrões d ' ser d e interesse no Exemplo 1.5. e empregos tambem pode Análise de componentes principais e escal . . algumas vezes referidos como métod d d onamento multidimensional são todos para produzir eixos nos . os e ~r enação. Isto quer dizer, eles são mérepresentado. Outros métodos~eaISr;:n cO~Junt~ de obje:os de interesse pode ser A ~n~lise de coordenadas princi;aiS eén~~:oe~~o :ambem d~sponíveis. tes principais que inicia com inf _ tipo de análise de componen_ . ormaçoes sobre o q t sa~ diferentes em um conjunto de obi t uan o os pares de objetos objetos. Como tal ela pretende f Je os em vez dos valores das medidas dos . ' azer o mesmo qu I ~enslOnal. Entretanto, as suposições feitas ' e o esca 0r:a~ento multidisao os mesmos. e os metodos numencos usados não A análise de correspondência começa com dado uma das várias características para c d d s sobre, a abundância de cada útil em ecologia, por exem 10 a a um. e um ~onJunto de objetos. Isso é diferentes locais, as caract!rís;i;: ~:e ;i~eObJetos de ~n~eresse são muitas vezes de abundâncias de espécies e t rentes espeCles e os dados consistem m amos ras tomadas dos locais. O propósito da anáA • líse de correspondência seria então o de tornar claro os relacionamentos entre os locais, exp esses por distrib\~ições das espécies, e os relacionamentos entre as espécies, 1.3 expressos por düítribuiç5es dos locais. A distribuição normal multivariada A distribuição normal para uma única variável deve ser familiar para os leitores deste livro. Ela tem a curva de freqüências na bem-conhecida forma de sino, e muitos métodos estatísticos univariados padrão são baseados na suposição de que os dados são normalmente distribuídos. Sabendo da proeminência da distribuição normal com métodos estatísticos univariados, não será surpresa descobrir que a distribuição normal multivariada tem uma posição central nos métodos estatísticos multivariados. Muitos desses métodos requerem a suposição de que os dados que estão sendo analisados tenham uma distribuição normal multivariada. A-8xata definição de uma di.stribuição normal multivariada não é tão importante. A abordagem de muitas pessoas, para melhor ou pior, parece ser a de pensar os dados como sendo normalmente distribuídos, a menos que exista alguma razão para acreditar que isso não é verdadeiro. Em particular, se todas as variáveis individuais que estão sendo estudadas parecem ser normalmente distribuídas, então assume-se que a distribuição conjunta é normal multivariada. Esta é, de fato, uma exigência mínima, porque a definição de normalidade multivariada requer mais do que isso. Casos surgem onde a suposição de normalidade multivariada é claramente inválida. Por exemplo, uma ou mais das variáveis que estão sendo estudadas pode ter uma distribuição altamente assimétrica com vários valores muito altos (ou baixos); pode haver muitos valores repetidos; etc. Esse tipo de problema pode ser algumas vezes superado por uma transformação de dados apropriada, como discutido nos textos elementares em estatística. Se isso não funcionar, então uma forma bastante especial de análise poderá ser necessária. Um aspecto importante da distribuição normal multivariada é que ela é completamente especificada por um vetor de médias e uma matriz de covariâncias. As definições de um vetar de médias e uma matriz de covariâncias são dadas na Seção 2.7. Basicamente, o vetar de médias contém os valores médios para todas as variáveis que estão sendo consideradas, enquanto que a matriz de covariâncias contém as variâncias para todas as variáveis mais as covariâncias, as quais medem o quanto todos os pares de variáveis 1.4 dos para mais do que um pequeno' numero d e vanaveis ., t os computadores se tornassem dispo' ruveis. . P ortanto foi eve quet esperar,. até que anos ou algo assim , "~l.'e os L" 'J'I' 0'--' .' . , ,somen • . U. ~.erol ,aram razoavelm t e f"nos últimos '. .~~ 30 •.•. , executados pelo pesquisador médio. en e aceis \.:1"; ----: •• H~je ~m ~ia existem muitos pacotes estatísticos a -, putaclOnms disponíveis para cálcul os em computadores p drao com_ , de t ed plogramas . tençao e que este livro forneça aos leit1 ores m . f onnação s f .o os os tipos. A in. hgentemente qualquer um desses pa t u iciente para usar intequalquer um deles. No entanto ond fCO es e programas, sem falar muito sobre . ' e or apropriado o softw lísar os dados do exemplo será mencionado. ' are usado para ana- 1.5 Métodos gráficos Um dos resultados da grande evolução das f T sido o crescimento na variedade d 't d ac~ ~dade~ computacionais tem multivariados. Isso inclui represen~ m~ od os grafIcos disponíveis para dados perfícies em três dimensões p-"a f aç~o ; contornos e representação de. su, "'o> ai unçoes a€ dua ., . . ' de metodos especiais para mostrar o 1 s variaveis, e uma variedade três ou maí s va ores que casos individ . A res ou mais variáveis . Estes me't o d os estao __ sendo us d IVI UaIS tem ' para . como parte da análise de dados multi . d ~ os mais comumente no Capítulo 3. varra os e eles sao, por isso, discutidos 1.6 Resumo do capítulo • de dados foram introduzid -- egípcios que viveram em cincodif quatro medidas de crânios de homens 1 erentes períodos n d descrevendo o meio a bi . o passa o; (3) quatro , . m lente e seIS medidas d características genéticas de 16 IA' d b escrevendo as gon; (4) valores médios para s~~so:e~id:s ~:boIetas na Califórnia e Orepos de caninos incluindo cães pré-históricos d ma~d:bu~as para sete grugens de pessoas empregadas em no di f a Tailândia: e. (5) porcenta30 países da Europa. ve I erentes grupos de indústrias em . medidas • Vários métodos multivariados importantes -. relação a como eles podem d sao de sentas brevemente em , ser usa os com os conjunt d d d métodos são análise de com onent .,. os e a os. Esses se de função discriminante p 'l~nteds pnnClpals, análise de fatores, análi, ana lse e agrupamento c I -A escalonamento multidime . 1 '1' ' orre açao canonica, , . nSlOna , ana Ise de coord d' .., análise de correspondência. ena as pnncipais e • Aim por Cancia. d a distribuição estão relacionados. Programas computacionais Métodos práticos para executar os cálculos para análises multivariadas têm sido desenvolvidos através dos últimos 70 anos. Entretanto, a aplicação desses méto- Cinco conjuntos plos ao longo do livro. Esses coniuntos de o~ e serao usados como e~emmedidas do corpo de pardais fê J ado~ se referem a (1) cinco emeas que sobreviveram veram a uma forte tempestade' (2) . ou nao sobrevi- normal .. multivariada e' InenClOna . d a. Capítulo 2 • o uso de pacotes estatísticos é discutldO,e e ooservauu y.ut: u" yj- eo,', ssa ser perdida na redução. Esta abordagem é discutida em vários contextos nos capítulos que seguem e não será mais considerada aqui . ~ Q) E .~ E 165 o o 160 155 Comprimento total 150 Extensão alar 255 resentados contra o compri,mento O comprimento do b~coe da ca~~;;::~~s) para as 49 pardocas medidos por i _ I (t dos medidos em rru 1 totale a extensao a ar o, _ não-sobrevivente), mpus (e == sobrevlvente, O 13 Fgura 3.2 sentação dos valores de cada variável contra os valores de cada uma das outras variáveis, com os gráficos individuais sendo pequenos o suficiente de modo que possam ser vistos todos ao mesmo tempo. Isto tem a vantagem de serem necessárias somente representações bidimensionais, mas a desvantagem é que elas não mostram aspectos dos dados que somente seriam aparentes quando três ou mais variáveis são consideradas em conjunto. Um exemplo é mostrado na Figura 3.3. Aqui, as cinco variáveis medidas por Hermon Bumpus em 49 pardais (comprimento total: extensão alar, comprimento do bico e cabeça, comprimento do úmero e comprimento da quilha do estemo, todos em milímetros) estão representadas para os dados na Tabela 1.1, com uma primeira variável adicional sendo o número de pardais, de 1 a 49. Diferentes símbolos são usados para as medidas sobre sobreviventes (pássaros de 1 a 21) e nãosobreviventes (pássaros de 22 a 49). Retas de regressão também são incluídas nos gráficos algumas vezes, Este tipo de representação é obviamente boa para mostrar as relações entre pares de variáveis ou para destacar a existência de quaisquer objetos que tenham valores estranhos para uma ou duas variáveis. Ela pode, portanto, ser recomendada como parte de muitas análises multivariadas, e esta apresentação está disponível em muitos pacotes estatísticos, algumas vezes como o que é chamado de matriz de dispersão. Alguns pacotes também têm a opção de especificar as variáveis horizontal e vertical sem insistir em que elas sejam as mesmas. Os objetos individuais não são facilmente identificados em uma representação draftsman, e assim usualmente não é imediatamente claro quais objetos são similares e quais são diferentes. Portanto, esse tipo de representação não é adequado para mostrar relacionamentos entre objetos, distintamente do caso de relacionamentos entre variáveis. Hermon u , índi s que possam ser . ' duzir variávels In lce de muitas análises multivanadas e P:~ ue é chamado algumas vezes ~e ~rdeusadas para este propósito, um proce _ áos valores do componente príncípel 2 nação. Por exemplo, 'uma represent.aç~o all ode ser usada como um meio ~e recontra os valores do componen:e prInClPtos e~tre objetos, e uma represent~çao do presentar graficamente os relaclOnam~n. s dois componentes prinClpals pode t os pnmelro componente principal 3 con, r~ . também ser usada se necessano, 3.4 A representação de pontos de dados individuais Uma abordagem para apresentação de dados que é mais genuinamente multivariada envolve representação de cada um dos objetos para os quais as variáveis são medidas por um símbolo, com características diferentes desse símbolo variando de acordo com as diferentes variáveis. Muitos diferentes símbolos têm sido propostos para esse fim incluindo faces (Chernoff, 1973) e estrelas (Welsch, 1976). , 491:71 pas~v i ••• Comprimento ••• .0 _ -.80 • • 00°0 o o o • oeo.~o o oco 0 •• ~l hcl. o 0 • ~ o°eoe~ ()e _~ ~~~8J%'1.. • 30 " 20 'ORO ",,' o o :~. o o 00 00 1 °0 o ~frIoe~~ eJlo 49 Pássaro o 150 166 Comprimento F> .~~ J!:•• 225 ,~% o o", o s;"8e ~\,~~ o 255 30 Alar -;!\'. •• Chacal doa ourado L b h" c Ines ~ I Lobo indiano ;:&0 C \ ~ ~ Dingo (a) Cão moderno Chacal dourado Lobo chinês Lobo indiano Cuon 3*~4 a Cão p;1.tóriCo o 00 X (b) Bico e cabeça uon Cão pré-histórico 0ct~. o 17 'I "l/}- ~ • o o. o o 34 i" -O- o ~~ ~o· 0 ~® \Y) I \jJJ '~\/{~};/\' U • 'to oO~o. o~. I~ ~.~ .o~ o'" o o~o,.1 o A € o l~ ó<> 18 ~ 0° ,sfo o (tr:, .'.. I ( 'e') 0 " Esterno o o Cão moderno \l.o " ~o ~g~eo 0000 •• 17 24 o o Q) O iI-··"'o";i <18 Úmero ~.,oo ~. o .co o o o •• Bico e cabeça 00 o o~:ooo •• to 00 ~o ~oo ""':0 225 34 . ~:o• o o o o ',..008°& Alar \~., o. + . D o ( c( dó 0.0 ~oi/ (f]6 . 8cr~to ifeo ''0.0 oOo.r~ ~8lx>0 .0 . '!> aV/o 00 c õ'" o ~oo 20 Úmero 18 X2 24 Esterno Figura 3.3 Representação de draftsman do número de pássaros e cinco variáveis medidas (em milímetros) em 49 pardocas. As variáveis são o comprimento total, a extensão alar, o comprimento do bico e cabeça e o comprimento da quilha do esterno (sobrevivente, não-sobrevivente). Somente os valores extremos são mostrados em cada escala. Como uma ilustração, considere os dados na Tabela 1.4 sobre valores médios de seis medidas de mandíbulas para sete grupos caninos, como discutido no Exemplo 1.4. Aqui uma importante questão se refere a qual dos outros grupos é mais similar ao cão pré-histórico tailandês, e pode se esperar que isto se torne aparente de uma comparação gráfica dos grupos. Para este fim, a Figura 3.4 mostra os dados representados por faces e estrelas, Para as faces, havia a seguinte conexão entre características e as variáveis: largura da mandíbula ao tamanho do olho, altura da mandíbula ao tamanho do nariz, comprimento do primeiro molar ao tamanho da testa, largura do primeiro molar ao tamanho da orelha, comprimento do primeiro ao terceiro molar ao tamanho da boca e comprimento do primeiro ao quarto pré-molar à quantidade de sorriso. Por exemplo, os olhos são maiores para os lobos chineses com largura máxima da mandíbula de 13,5 mm, e menores para os jacais dourados com uma largura mínima de mandíbula de 8,1 mm. É aparente das representações que os cães pré-históricos tailandeses são mais similares aos cães modernos tailandeses, e mais diferentes dos lobos chineses. Dingo Xs X6 F' X1 19ura 3.4 Representação gráfica de medidas d nosusando (a) faces de Chernoff e (b) estrelas. (pa m~ndfiíb~~ em difer.e,ntes grupos canilegenda da FIgura 3 5 ) ara e mçao das vanaveis de X I a'X 6 ver . . No caso das estrelas, as seis variáveis fora lací (1) largura da mandíbula (2) alt d m re aCIOnadascom raios, na ordem ,ura a mandíbula (3) . mo 1ar, (4) largura do primeiro mal (5) .' compnmento do primeiro lar e (6) comprimento do primeiro :r, co;npnmento do primeiro ao terceiro morepresentada pelo raio correspondentOe~uar. °hPré-molar. A largura da mandIbula é v . as seIS oras em I' . eISseguem uma ordem horária como' di d um re ogio e as outras variáUma inspeção das estrelas indica in rca o pela chave que acompanha a figura. sã . . novamente que os c'h" . ao smulares aos cães modernos tail d . aes pre- Istoncos tailandeses Sugestões para alternativas a' fan eses e dIferentes dos lobos chineses. I . s aces e estrelas e di re ativos dos diferentes símbolos - f _ ,uma Iscussão dos méritos (1986, ch. 4). Em resumo pode s sda~tornendos por Everitt (1978) e Toit et ai. d ,er 1 o que o uso d ímb I e apresentar todas as variáveI's' 1 e SIm o os tem a vantagem . SImu taneamente d a Impressão captada do gráfico d d ' mas a esvantagem de que obí t po e epender fartem t d Je os sao apresentados e da o d en e a ordem na qual os r em na qual as v " . rentes aspectos do símbolo. anaveIS sao atribuídas aos difeA atribuição de variáveis parece ter ma' . ~as, porque a variação nas diferentes cara IS~fe~to com faces do que com estreImpactos sobre o observado ctenstIcas da face pode ter diferentes r, enquanto que é '. menos provavel que ISSOaconteça r i com diferentes raios de uma estrela. Por esta razão, a recomendação muitas vezes feita é de que atribuições alternativas de variáveis às características devam ser .errtadas com faces a fim de verinczr i! ra; par~·('e SPr.m Jhor. A natureza subjetiva desse tipo de processo é claramente bastante insatisfatória. Apesar do uso de faces, estrelas, e outras representações similares para os valores das variáveis sobre os objetos em consideração parecer ser útil em algumas circunstâncias, o fato é que isto raramente é feito. Uma dificuldade é encontrar programas computacionais para produzir os gráficos. No passado, esses programas eram facilmente disponíveis, mas agora essas opções dificilmente são encontradas em pacotes estatísticos. 3.5 ...... .... ..... .... Perfis de variáveis Outra maneira de representar objetos que são descritos por várias variáveis medidas é através de linhas que mostram o perfil dos valores das variáveis. Uma maneira simples de desenhá-Ias consiste apenas em marcar os valores das variáveis, como ~.;.;:.;~:~dc na Figura 3.5 para os sete grupos caninos que já foram considerados. A similaridade entre os cães tailandeses pré-históricos e modernos observada dos gráficos anteriores é ainda aparente, assim como é a diferença entre cães pré-históricos e lobos chineses. Neste gráfico, as variáveis foram marcadas na ordem de seus valores médios para os sete grupos para ajudar a enfatizar similaridades e diferenças. Uma representação alternativa usando barras ao invés de linhas é mostrada na Figura 3.6. Aqui as variáveis estão em sua ordem original porque parece haver pouca necessidade de mudá-Ia quando barras são usadas. A conclusão sobre similaridades e diferenças entre os grupos caninos é exatamente a mesma como visto na Figura 3.5. 3.6 .....•. »> Discussão e leitura adicional Parece justo dizer que não existe um método para representação de dados em muitas variáveis ao mesmo tempo que seja completamente satisfatório em situações nas quais não é desejável reduzir essas variáveis a duas ou três variáveis índices (usando um dos métodos a serem discutidos posteriormente neste livro). Os três tipos de métodos que temos discutido aqui envolvem o uso da representação de draftsman com todos os pares de variáveis marcados um contra o outro, símbolos (estrelas ou faces), e perfis de variáveis. Qual deles é o mais adequado para uma aplicação particular depende das ciscunstâncias, mas como uma regra geral, a representação de draftsman é boa para destacar relacionamentos entre pares de variáveis, enquanto que o uso de símbolos ou perfis é bom para destacar casos não usuais ou casos similares. Para mais informação sobre a teoria da construção de gráficos em geral, ver os livros de Cleveland (1985) e Tufte (2001). Mais detalhes sobre métodos gráficos especificamente para dados multivariados são descritos nos livros de Everitt (1978), Toit et al. (198q e [acoby (1998). 10 --...•... Cão moderno Chacal dourado ...•... -Á-- Lobo chinês L b . d· o o m rano ...•••... Cuon ...•... Oingo ."*.. Cão pré-histórico Figura.~.5. Perfis de variáveis para as medidas da As variáveis estão em ordem crescente de v I n;~~díbula para sete grupos caninos. bula; X2 = altura da mandíbula acima d .a o~es me lOS, com XI = largura da mandío primeiro molar- X - comnri do nrí mo Iar; X4 = largura do primeiro molar. X _ . ' 3mpnmento o pnmeiro . I ' 5 - compnmento d . . mc usive; X6 = comprimento do . . o pnmeiro ao terceiro molar pnmeuo ao quarto molar, inclusive. ' 3.7 Resumo do capítulo • ~:~~~l1i:~~:~:e~resent~r r~s~ltados .para várias variáveis simultaneariável índice ti· ma so uçao e substItuir várias variáveis por uma va, a como um componente pri . I resume a variação em todas as v ., . ~nClpa, que em algum sentido chamado de ordenação. anave1S. sse processo é algumas vezes ~;r:~:;;es=ntaçãO de draftsman para várias variáveis é uma coleção de ~~oe~ mostrando cada variável marcada contra cada uma das outras V anaveIS. • Quando pontos individua· d d d . , . 1S e a os sao defmidos por seus valores para vanas variáveis h' it ' d ' a mui os meto os que têm proposto representar estes pontos indi IVl.duai .. uais para vísualizar quais são similares e quais • 5°l,-----------1 ----- -_._-. ~--------- Capítulo 4 40 Ê Testes de significância com dados multivariados 5 'li·" çao aos valores m~djos -"e . revIVentes e '" I1 caracr ensticas ' , Ant d " Cln ".'....,.O,~:. morçando C~5 e tudo, test~s sobre variáveis individuais . "===~= ,m Xl' o compnmento A médí d podem ser considerados com e x2 ==15738 enq t . Ia esta e- rela- total (4.6) ' corre~po~d~ntes U:~i~~~:: :~~~:a~ra ~s 282 não-sobrevfv:~t:: ~~S~~~~i ~~n~s 1 combmada da Equação 4 3 e' . 1S sao s] 11,05 e s/ ==15 07 A " ,s . por ISSO ' . vanancIa = é então definida como 52 (4.7) A· ==(20x 11,05 + 27>, com 5 e 43 gl. Claramente, este não é significantemente grande porque ll~_,,_ª-1.ºr.F significante precisa exceder a unidade, Então não há evidência de uma diferença méd1ãs'pop-üiacIüilãis-para sobreviventes e não-sobreviventes, tomando todas as cinco variáveis juntas . S2 2 _ f t do de zero quanto o valor o serva bter um valor t tao a as a . Probabilidade de o _di populaciona1 é verdadelra. _não diferença na me ia esterno r A inversa da matriz C é encontrada corno sendo 00785 -0,1969 , 0,2061 -0,0694 --0,2395 05517 0,0277 -0,0694 0,1234 -0,0376 -, 4,2219 -3,2624 --0,0181 C1::: -0,2395 --0,0376 2720 -3,2624 11,4610 -1, 0,0785 -0,5517 1,8068 -0,1969 0,0277 -0,0181 -1,272 _ C x C1 e vendo que ela e uma ifi d 1culando o produto Isto pode ser ver ca o ca arredondamento. atriz identidade, a menos de ~r~l:e outros valores na EquaçãO 4.7 resulta em Substituindo os elementos e ) x O2061x (157,381-158,429 ) T2 = {(21x 28)/(21+ 28)}l(157,381-158,429 , .) 241 000 241 571 + ... ( _(157,318-158,429)xO,0694X r r-: ° + (20,810_ 20,839)x 1,8068x (20,810- 20,839) = 2,824 L Há maneiras de ajustar níveis de significância a fim de controlar a probabilidade total de um erro tipo um quando vários testes univariados são aplicados. A abordagem ú"'llis sim' i ~envclv, o uso de um ajuste de Bonferror.i, Por exemplo, se p testes univariados são aplicados usando o nível de signincância (5/p)%, então a probabilidade de obter qualquer resultado significante é 0,05 ou menos e a ou menos se a hipótese nula é verdadeira para cada teste. Mais geralmente, se p testes são aplicados usando o nível de significância (lOOa/p)%, então a probabilidade de obter ao acaso qualquer resultado significante é a ou menos. Algumas pessoas não são inclinadas a usar uma correção de Bonferroni para níveis de significãncia porque os níveis de significância aplicados aos testes individuais se tornam muito extremos se p é grande. Por exemplo, com p = 10 e um nível de significância global de 5%, um resultado de um teste univariado é declarado significante somente se ele é significante no nível 0,5%. Isso tem levado ao desenvolvimento de variações levemente menos conservadoras da correção de Bonferroni, como discutido por Peres-Neto (1999) e Manly (200l, seco 4.9). Pode cer amente ser argumentado que o uso de um único teste multivariado fornece um melhor procedimento em muitos casos do que fazendo um grande número de testes univariados. Um teste multivariado também tem a vantagem adicional de levar em conta apropriadamente a correlação entre as variáveis. 4.5 Comparação de variação para duas amostras: o caso uni variado Com uma única variável, o bem-conhecido método para comparação da variação em duas amostras é o teste F. Se s/ é a variância na j-ésima amostra, calculada como mostrado na Equação 4,1, então a razão S]2 /S22 é comparada com pontos percentuais na distribuição F com (n, - 1) e (n, - 1) gl. QJJ:l valor ~~J:él);:ªº.q1!.E;l'_~.9..~ignificantemente ..diferente de, umé ..então ..J~yig.êndª ..deil!!~ ª~amº~tras...s.ãQ ..de.duas populaçõescom. variâncias .diferentes. Infelizmente, sabe-se que o teste F é bastante sensível à suposição de normalidade. lLI!!.}·.e$..ulti!..s!g$i,g[lif!can.k1?o..d..E.:....~,~g2.Q~m_~º,gyJgo ao .fil,tc?,deuma variá vel não §gtJlQ.nnª'-lm-~_llt~·!to Exte-nsao ,_. a;::•...----:---- -;----/~_. total lCO x.ori ,prunento Quilha alar e cabeça doúmero 0,28 do esterno 1,00 d 0,25 J i I t r I ,I f W I '. ! )". f. ! ! f'0 ~ 0,83 1,11 1,11 0,55 1,66 0,00 0,55 1,94 0,28 0,28 0,83 1,11 0,00 0,00 0,28 0,28 1,11 0,55 1,66 0,55 1,11 0,83 0,28 1,94 0,28 1,11 0,55 1,66 1,66 0,83 0,83 0,00 0,00 1,11 0,83 1,94 0,00 1,11 1,11 1,11 0,83 0,00 0,00 0,00 0,80 0,60 1,40 0,40 0,20 1,59 0,40 0,00 0,80 1,20 1,00 1,00 0,60 0,80 0,40 0,80 1,20 0,80 0,40 0,40 0,00 1,99 1,59 1,00 0,60 0,60 2,19 0,60 0,20 0,60 1,00 0,20 1,99 2,39 0,00 0,80 1,40 0,00 1,00 0,80 1,27 0,51 0,64 0,13 0,76 0,64 1,78 1,65 0,51 0,13 0,38 1,14 0,76 0,13 0,64 0,00 1,14 1,40 1,40 0,13 0,13 0,00 1,40 1,53 0,25 0,64 0,89 2,03 1,78 1,53 0,13 0,38 0,76 0,76 0,51 1,40 0,89 0,38 2,42 0,64 0,25 0,00 0,00 1,07 0,18 1,43 0,18 0,90 0,18 0,18 1,07 0,54 0,18 0,18 1,43 1,07 0,72 0,90 0,00 0,54 0,00 0,18 0,90 0,90 0,54 0,54 2,33 0,54 0,00 1,79 2,33 2,15 0,90 0,54 0,00 0,72 0,00 1,07 2,15 0,54 1,07 1,79 0,72 0,54 0,18 0,10 1,02 0,00 0,41 0,31 0,31 0,41 0,61 0,51 1,43 1,43 0,10 1,22 0,61 0,82 0,31 1,02 0,31 0,51 1,32 0,92 0,00 0,10 1,02 0,92 1,83 0,71 0,71 2,04 0,92 2,45 0,61 1,02 1,73 0,61 1,53 2,14 0,20 1,43 2,14 0,00 0,41 0,41 1,07 2,12 1,23 2,12 0,90 2,49 0;87 1,98 3,23 1,68 1,47 1,23 2,74 1,76 1,48 1,32 1,32 1,75 1,78 2,82 1,61 1,48 1,07 1,83 4,04 2,52 1,77 2,27 4,10 4,02 3,19 1,19 1,24 2,26 1,49 2,90 4,54 1,06 2,28 4,10 1,46 1,48 0,91 (Continua) - -_._._~ Tabela 4.2 Desvios absolutos d~s me~ianas amos trais para os dados de Bumpus e ..valores d da Equação 4.11 (continuação) .~~~~. ~~~~E~t Compnmento :':":::S~ãO~~-~B~i:cO-;'---;C~omprimento x en b do úmero alar e ca eça total 0,60 1,40 1,00 1,00 0,60 1,20 0,55 1,11 0,83 1,66 0,83 1,38 Quilha do esterno 0,10 1,12 0,31 0,31 1,07 1,43 1,07 0,18 0,00 0,54 0,76 1,02 0,51 1,14 1,27 1,02 OA1 0,20 o primeiro teste a ser considerado , , d f 1,55 2,74 1,79 2,28 1,68 2,17 I I I I I I - , direcional e ele não leva em consideração a expectati1 acima, o teste de Le~ene nao e _ 'variáveis do que os não-sobreviventes. Por va de que os sobreviventes serao,menos ente para menos variação na amostra if outro lado, o teste de Van Valen e espec .1,ca~ No presente caso todas as variáveis 1 do que na amostra 2, para todas as var~aveIs. ~ ~~M' 2 O 'teste de Van Valen o _' mIe DCLé.l~~.!o..t~lIsto for,nec~ evidência de (:luea~~fu~~!ril~ Uª,º vêm de populações com o mesmo vetor de méçiia,s. Um teste aproximado para verificar se a variação dentro da amostra é significantemente baixa a este respeito, é descrito na Tabela 4.4. Tabelas de valores críticos exatos são também fornecidos. Sejam ÀI ;::::~ ;::::". ;::::Àp;::::O os autovalores de W! B, em que B = T _ W é chama- ~rnçomparação da a matriz entre amostras de somas de quadrados e produtos cruzados, porque a entrada típica é a diferença entre uma sorna total de quadrados ou produtos cruzados menos o termo correspondente dentro das amostras. Então o larnbda de Wilks pode também ser expresso como Mw=W/(n-m) p A= fIl/(l+\) i=l Total . + n2..+ + nm = número total de observações; X'j= d J ésimaarnostra n = 1\1 _ Nota: 1\= tama! o a , x. = média da j-ésima amostra; X = média de todas as i-ésirna observação na j-ésima amostra; , observações. .ih x (4.13) j=I i=l -----. IWI/ITI x ) . , 1 várias amostras para serem comparadas, a geneQuando há uma ~ca vanave e T e de variância de um fator. Os cálculos ralização do teste t e o teste Fd e uma ana 1S de Wilks I Comparação de médias para várias amostras , . lambda onde IWI é o deterrninante da matriz das sornas de quadrados e de produtos cruzados dentro da amostra e ITI é o determinante da matriz das sornas totais de quadrados e produtos cruzados. Essencialmente, isso compara a variação dentro das amostras com a variação em ambos dentro e entre as amostras. Aqui as matrizes Te W requerem alguma explicação adicional. Denote X corno sendo o ijk valor da variável Xk para o í-ésimo indivíduo e a j-ésirna amostra; denote corno jk a média da variável Xk na mesma amostra; e denote corno a média global de k Xk para todos os dados tornados juntos. Além disso, assuma que há m amostras, com a j-ésima de tamanho 1'\. Então o elemento na linha r e coluna c de T é W rc 4.7 usa a estatística Esta é a forma usada algumas (4.15) vezes para representá-Io. Uma segunda estatística é o maior autovalor ÀI da matriz W·1 B, o que leva ao chamado teste da maior raiz de Roy (lembrando que autovalores são também chamados de raízes latentes). A base para usar esta estatística é o fato de que se a [. combinação linear das variáveis de Xl à X2 que maxlmlza a razao entre a soma dOS quadrados entre amostras e a soma dos quadrados dentro da amostra é encon_ trada; então essa razão máxima é igual - À!' Is5,- enfãoi,JXl,ilica que esse autovalor máximo deva ser uma boa estatística para testar se a variação entre amostras é significantemente grande, e que há, portanto, evidência de que as amostras sendo consideradas não vêm de populações com o mesmo vetor médio. Essa abordagem está relacionada à análise da função discriminante, que é o assunto do Capítulo 8. Pode ser importante saber que o que alguns programas computacionais chamam de estatística da maior raiz de Roy é de fato "',/ (1- "',) ao invés de "', somente. Em caso de dúvida, consulte a documentação do programa. Para avaliar se "', é significantemente grande, a probabilidade exata de um valor tão grande quanto o observado pode ser calculada numericamente, ou uma distribuição F pode ser usada para encontrar um limite inferior para o nível de significância, i.e., o valor F é calculado e o verdadeiro nível de significância é maior do que a probabilidade de obter um valor tão grande ou maior. Usuários de pacotes computacionais devem estar cientes de qual destas alternativas é usada se um resultado significante é obtido. Isso porque se a distribuição F é usada, -entãe-e valor de "', pode não ser de fato significantemente grande naquele nível de significância escolhido. O valor F usado é descrito na Tabela 4.4. A terceira estatística, muitas vezes usada para testar se as amostras vêm de populações com vetores médias iguais, é a estatística traço de Pillai. Esta pode ser escrita em termos dos autovalores de .,;:o ' V) Novamente, valores grandes para esta estatística fornecem evidência de que as amostras sendo consideradas vêm de populações com vetores médias diferentes. Uma aproximação do nível de significância (a probabilidade de obter um valor tão grande ou maior do que V se as amostras vêm de populações com os mesmos vetores médias) é novamente fornecida na Tabela 4.4. Finalmente, a quarta estatística muitas vezes usada para testar a hipótese nula de vetares médias populacionais iguais é o traço de Lawley-Hotelling + c, I S, 5 c< + ,....; <: (4.17) --------e ~HJI 11 o qual é apenas a soma dos autovalores da matriz w' B. Ainda, novamente, grandes valores fornecem evidência contra a hipótese nula, com um teste F aproximado fornecido na Tabela 4.4. Geralmente, pode-se esperar que os quatro testes recém-descritos níveis de significância similares, de modo que não há real necessidade lher entre eles. Todos eles envolvem a suposição de que a distribuição riáveis é normal multivariada com a mesma matriz covariância dentro -------_._------_ .. __ .. - mostrem de escodas p vada amos- -~-_._-------_._------ -- > tra para to d as as m populações das quais as amostras toram extraídas. _. Também . são considerados bastante robustos se os tamanhos da~. amostras ~ao ~guals ou a normanc ._ ade multivariada ou a . g~c;e oara as m amostras. S e há questões .~, sobre ~ i u;lcÍ~de das matrizes de covariâncias, então estudos de simulação Asugere~ ~ue ,. agestatística traço d e Pillai I ai po de ser mais robusta dó que as outras tres estatísticas (Sebe r, 1984, p. 442). 4.8 e A aproximação F da Equação 4.19 é válida somente para c2 > c/. Se c < C12, 2 então uma aproximação alternativa é usada. Nesse caso alternativo, o valor F é calculado como sendo Comparação da variação para várias amostras o teste M de Box é o mais bem-conhecido para comparar a variação em vári~s amostras. Este teste já foi mencionado para situações de duas amostr~s com ~~rias variáveis a serem comparadas, e ele pode ser usado com uma ou vanas vanaveis, com duas ou mais amostras. _ Para m amostras, a estatística M é dada pela equaçao M={Úlcti-I)/2} /ICI(n-m)/2 (4.20) em que Este é testado contra a distribuição cantemente grande. (4.18) m C=I,(ni-1)C)(n-m) ;=1 e n =: L n· é o número total de observações. _ A Gra~des valores de M fornecem evidência de que as amostras nao provem de o ulações com a mesma matriz de covariâncias. Um test~ F apro~lmado para sa~efse um valor M observado é significantemente grande e fornecido calculando e encontrando a probabilidade de um valor desse tamanho distribuição F com VI e v2 graus de liberdade, em que VI =p(p+1) (4.19) e v2 gl para ver se ele é signifi- Alternativamente, as variáveis podem ser padronizadas para ter variâncias unitárias para todos os dados considerados em conjunto, e os valores d podem ser calculados usando a Equação 4.11. Estes valores d podem então ser analisados por uma análise de variância de um fator. Isto generaliza o teste de Van Valen, o qual foi sugerido para comparar a variação em duas amostras multivariadas. Uma razão F significante da análise de variância indica que algumas das m populações amostra das são mais variáveis do que outras. Como na situação de duas amostras, este teste é realmente apropriado somente quando amostras podem ser mais variáveis do que outras para todas as medições que estão sendo consideradas. ou maior para uma (m-1)/2 v =Iv. +2)/{c -ci) 2 VI Sabemos que o teste de Box é sensível a desvios da normalidade na distribuição das variáveis sendo consideradas. Por essa razão, alternativas robustas para o teste de Box são recomendadas aqui, estas sendo generalizações do que foi sugerido para a situação de duas amostras. Então podem ser calculados desvios absolutos de medianas amos trais para os dados em m amostras. Para uma única variável, estes podem ser tratados como as observações para uma análise de variância de um fator. Uma razão F significante é então evidência de que as amostras vêm de populações com desvios médios diferentes, i.e., populações com matrizes covariâncias diferentes. Com mais de uma variável, qualquer um dos quatro testes descritos na última seção pode ser aplicado aos dados transformados, e um resultado significante indica que a matriz de covariâncias não é constante para as m populações amostradas. , tamanho da i-ésima amostra, C, é a covariância amostral para ,ai-ésiemquenieo 'A' b da ma amos t ra como d e fin ido na Seção 2 .7, C é a matriz de covanancias com ma F =: -2 b log, (M) F com 2 e em que Exemplo 4.3 Comparação de amostras de crânios egípcios Como um exemplo dos testes para comparar várias amostras, considere os dados mostrados na Tabela 1.2 para quatro medidas de crânios egípcios masculinos para cinco amostras de várias idades passadas. L varlavel, largura ma.Xllnal' fornece F = 5,95, com 4 e 145 gl (Tabela 4.3). Isto é significantemente grande ao nível de 0,1 %, e então existe ums clara evidência de que a média populacional mudou com o tempo. Para as outras três variáveis, a análise de variância fornece os seguintes resultados: altura do basibregamátic~i' F.~ 2,45 (signi!icante ao ~ível de 5%); comprimento do basialveolar, F = 8,31 (slgn~ftca~t: nível de 0,1 Y~);.e altura nasal, F = 1,51 (não significante). Portanto, ha evid ência de que a media populacional mudou com o tempo p~~a a.s ~rês primeiras .variáveis. _ A seguir, considere as quatro vanaveis Juntas. Se as cinco amostras sao combinadas, então a matriz das somas de quadrados e produtos para as 150 observa'-" ..•....lL\.4 \.4.l.L\.4.L.l...;f ••..... \,A.\,;. V Cl.l.lQ..llLHl ue UUL .lCllVl lLct "? ções, calculadas usando [ l ,.'f ,j> ·t "'tt ·:r"t' :'{ :,' , :~;". 1 73 -615,16 3635,17 1046,28 426, 346,47 -615,16 1046,28 4309,27 -16,40 426,73 346,47 -16,40 1533,33 _ -222,81 T- -222,81 I ',1 .~ , :1 ' 13 ~'------"'rlI"aénlaalo determinante é I T I = 7,306 X 10 .Também, a matriz das somas dos quadrados e produtos cruzados dentro da amostra é encontrada da Equação 4.14 como sendo W = 1 3061,07 5,33 5,33 3405,27 11,47 754,00 291,30 412,53 11,47 754,00 3505,97 164,33 291,30 412,53 164,33 1472,13 [ F é então .~ "I~. a Equação 4.13, é 3563,89 A estatística }Jl'lllU:::~H'd 1 com 16 e 434,5 gl. Isto é significantemente grande ao nível de 0,1 % (p < 0,001). Há, portanto, clara evidência de que o vetor de valores médios das quatro variáveis mudou com o tempo. A raiz máxima da matriz w' B é ÀI = 0,4251 para o teste da raiz máxima de Roy A correspondente estatística F aproximada da Tabela 4.4 é F = (g12/gl1) Àl = (140(4) 0,4251 = 14,88 com 4 e 140 gl, usando a equação dada na Tabela 4.4 para os gL Isto é novamente significantemente grande (p < 0,001). A estatística traço de Pillai é V = 0,3533. A estatística F aproximada neste caso é . F ={n-m-p+s)V/{d(s- V)} = 3,51 com sd = 16 e s (n - m - p + s) = 580 gl, usando as equações dadas na Tabela 4.4. Este é outro resultado muito significante (p < 0,001). Finalmente, para os testes sobre vetares de médias, a estatística traço de Lawley-Hotelling tem o valor U = OA818. Ele é encontrado usando as equações na Tabela 4.4 com as quantidades intermediárias que são necessárias sendo s = 4, A = -0,5, e B = 70, de modo que os valores gl para a estatística F são glj = s(2A + s + 1) = 16 e g12= 2(sB + 1) = 562. A estatística F é então '~ para a qual o determinante é I W I = 4,848 X 10 13 .A estatística lambda de Wilks é A = IW t I": portanto I / I T I = 0,6636 "~o Os detalhes de um teste F aproximado para avaliar se este valor é significantemente pequeno são fornecidos na Tabela 4.4. Com p = 4 vari!veis, m = 5 amostras e n = 150 observações no total, é encontrado usando a notaçao na Tabela 4.4 que e gl2 = wt-gI1/2.+ 1 = 144,5 x 3,055-16/2+ 1= 434,5 f,. F = g12U/(sgll) = (562 x 0,4818)!( Ainda, novamente, este é um resultado muito Para comparar a variação nas cinco amostras, 11 Box. A Equação 4.18 resulta M = 2,869 X 10- .As guindo a Equação 4.19) resultam então b = 0,0235, 4 x 16) = 4,23 significante (p V" aUlUVcUUH::!s e aurovetores aa matriz de correlação para cinco medidas em 49 pardocas Autovetores Xl X2 X3 OA52 OA62 -0,051 0,691 -OA20 0,374 0,300 0,341 0,548 -0,530 Autovalor Componente 3,616 0532 0,386 0,302 0,165 1 2 3 4 5 (coeficientes para os componentes principais) X4 Xs OA51 OA71 0,325 -0,455 -0,606 -0,343 0,185 -OAlI 0,388 0,652 0,398 -0,877 -0,179 0,069 -0,192 Nota: Os autovalores são as variâncias dos componentes principais. Os autovetores dão os coeficientes das variáveis X padronizadas usadas para calcular os componentes principais. Q-ªb!tQYe!2r para llID componente principal indica o q~antQ."(:le_Y:ªl'.i.~ciàrl~ de 5,OOQ.,.A.§§.ün.o,piimeuocQmp.on.enlepxi,pÇip,.ill ~lÇPl!ç9.(3A16/S.(000)1J)Q% = 72,:?%qa,V r::! o O (f) (f)
  • Referências Capítulo 7 Dunternan, G-H. ("189), PrtncipalComponenis Analysis, Sage Publicaríons. i\lev'!otÍly i'i'ul~,CA:" , ' Hotelling, H. (1933), Analysis of a complex of statistical va[iables into principal components, f. Educational Psychol" 24, 417-441; 498-520, [ackso.n, J.E. (1991), A User's Cuide to Principal Components, Wiley, New York. Jolliffe, LI. (2002), Principal Component Analysis, 2nd ed. Springer-Verlag, New York. Pearson. K. (1901), On lines and planes of dosest fit to a system af points in space, Philos. Mag" 2,557-572. Weber, A, (1973), Agrarpolitik im Spannungsfeld der Internationalen tut für Agrapolitik und Marktlehre, Kiel, Cermany, Ernahrungspolítík, Análise defatores Insti- 7.1 -d!·,·'"-~~' o modelo de análise -A análise de fatores tem objetivos que são similares àqueles da análise de componentes principais. A idéia básica é que pode ser possível descrever um conjunto de p variáveis Xl' X2, .•. , X, em termos de um número menor de índices ou fatores, e no processo obter uma melhor compreensão do relacionamento destas variáveis. Há, no entanto, uma diferença importante. A análise de componentes principais não é baseada em um modelo estatístico particular, enquanto que a análise de fatores é baseada em um modelo. O desenvolvimento inicial de análise de fatores é o resultado do trabalho de Charles Spearman. Enquanto estudava correlações entre escores de testes de estudantes de vários tipos, ele notou que muitas correlações observadas poderiam estar contidas em um modelo simples (Spearman, 1904). Por exemplo, em um caso ele obteve a matriz de correlações mostrada na Tabela 7.1, para meninos em uma escola preparatória para seus escores em testes em clássicos, francês, inglês, matemática, discriminação de tom e música. Ele notou que esta matriz tinha a interessante propriedade de que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas. Então para as linhas clássicos e inglês na Tabela 7.1, há razões: Tabela 7.1 Correlações Clássicos Francês Inglês Matemática Discriminação Música " de fatores de tom entre escores de testes para meninos Clássicos Francês Inglês 1,00 0,83 0,78 0,70 0,66 -0,63 0,83 1,00 0,67 0,67 0,65 0,57 0,78 0,67 1,00 0,64 0,54 0,51 Fonte: De Spearman, C. (1904), Aro. J. Psychol., 15, 201-293. em uma escola preparatória Matemática 0,70 0,67 0,64 1,00 0,45 0,51 Discriminação de tom 0,66 0,65 0,54 0,45 1,00 0,4,0 Música 0,63 0,57 0,51 0,51 0,40 1,00 U,/U U,66 ü,63 0,64 '" 0,54 '" 0,51 V,O.:> 0,67 Baseado nesta observação, fossem descritos pela equação. = Spearman = sugeriu Com este modelo, 1,2 ~(X)-lV aL\ i - que os seis escores de teste s em que X, é o i-~simo escore depois dele ter sido padronizado para ter uma média ~ero e um ~/esvlO:,padrão um pa~a ~odos os meninos. Aqui ai é uma constante; F e .um valor, fator , o qual tem média zero e desvio-padrão um para todos os menmos; e ei e a parte de:i que é específica para o i-ésimo teste somente. Spearman rr:ostrou que uma razao .:?n~tante entre as linhas de uma matriz de correlações segue como uma consequencía destas suposições, e que, portanto, este é um modelo plausível para os dados. , Além das razões de correlações Xi e dada por Var(XJ constantes, = Var(al segue também que a varíância de Var(eJ = a; Var(F) + Var(eJ = a; + Var(eJ I?orque ~i é uma c~n,st.ante, F e ei são assumidas independentes, e assumida ser unitária. Também, porque Var(X) = 1, 1= a; =a~1 +a~2 + ... +a~ "(l'~)''17 __ (T::; )+~T._.1 2 , ...•-,-~2 "-ün v lm vaI\ei val\ c.L ) + Var(eJ 2 2 em que aj]2 + ai2 + ... + aim é chamado a comunalidade de X, (a parte de sua variância que é relacionada aos fatores comuns), e Var(e) é chamada a especificidade de X, (a parte de sua variância que não é relacionada aos fatores comuns). pode também ser mostrado que a correlação entre X, e Xj é Portanto dois escores de teste podem somente ser altamente correlacionados se eles têm altas cargas nos mesmos fatores. Além disso, como a comunalidade não pode exceder um, é preciso que -1 :s; aij :s; + 1. 7.2 Procedimento para uma análise defatores + ei) = Var(al)+ z" -ail 2V' ar./~\--,--t I}' ai2 e a variância de F + Var(ei) Po:tanto a constante ai' a qual é chamada de carga do fator, é tal que seu quadrado e a proporção da variância de Xi que está contida no fator. Com bas~ no seu trabalho, Spearman formulou sua teoria de dois fatores de testes mentais, De acordo com esta teoria, cada resultado do teste é composto de d~as pa~t~s, uma que é comum a todos os testes (inteligência geral), e outra que e especffíca para o teste. Isto dá o modelo de análise de fatores geral o qual estabelece que r e:n que X, é o i-ésimo escore do teste com média zero e variância unitária' a a a sao as c~rgas dos fatores para o i-és imo teste; FI a Fm são m fatores com~~~ nãl~ con:e.laClonados, cada u~ ,c~m média zero e variância unitária; e e é um fator esi pecífico somente para o r-esimo teste que é não correlacionado com qualquer dos fatores comuns e tem média zero. Os dados para uma análise de fatores têm a mesma forma como para uma análise de componentes principais. Isto é, há P variáveis com valores para n indivíduos, como mostrado na Tabela 6.2. Há três estágios para uma análise de fatores. Para começar, cargas de fatores provisórios aij são determinadas. Uma abordagem começa com uma análise de componentes principais e negligencia os componentes principais após os primeiros m, os quais são então tomados como sendo os m fatores. Os fatores encontrados desta maneira são não correlacionados entre si, e são também não correlacionados com os fatores específicos. No entanto, os fatores específicos não são não correlacionados entre si, o que significa que uma das suposições do modelo de análise fatorial não é válida. Isto pode não ser um problema desde que as comunalidades sejam altas. Qualquer que seja a maneira como as cargas de fatores provisórios são determinadas, é possível mostrar que eles não são únicos. Se Fu F2, ..., Fm são os fatores provisórios, então as combinações lineares deles da forma FI' = dnF1 + d12F2 + F; = d21F1 + d22F2 + + d1mFm + d2mFm podem ser construídos de modo a serem não correlacionados e explicar os dados tão bem quanto os fatores provisórios. De fato, há uma infinidade de soluções fatores. Isto leva ao segundo estágio na análise, o qual é chamado de rotação de fator. Neste estágio, os fatores provisórios são transformados a fim de encontrar novos fatores que sejam mais fáceis de interpretar, Girar ou transformar neste contexto significa essencialmente escolher os valores dij nas equações já vistas. O último estágio de uma análise envolve calcular os escores. dos fatores. Estes são os valores dos fatores rotacionados F;, F;, ..., F~ para cada um dos n indivíduos para os quais os dados estão disponíveis. Geralmente, o número de fatores (m) depende do analista, apesar de algumas vezes poder ser sugerido pela natureza dos dados. Quando uma análise de componentes principais é usada para encontrar uma solução provisória, uma regra rústica envolve escolher m como sendo o número de autovalores maiores do que a unidade na matriz de correlações dos escores do teste. A lógica aqui é a mesma que foi explicada no capítulo anterior sobre análise de componentes principais. Um fator associado com um autovalor menor que a unidade responde por menos variação nos dados do que os escores de teste originais. Em geral, aumentando m aumenta as comunalidades das variáveis. Entretanto, comunalidades não são alteradas por rotacão de fator. Rotáção de fat~res pode ser ortogonal ou oblíqua. Com rotação ortogonal, os novos fatores são não correlacionados, como os fatores provisórios. Com rotação oblíqua, os novos fatores são correlacionados. Qualquer que seja o tipo de rotação usada, é desejável que as cargas de fator para os novos fatores sejam ou próximas de zero ou muito diferentes de zero. Um aij próximo de zero significa que X, não é fortemente relacionado com o fator Fj' Um grande valor positivo ou negativo de aij significa que X, é determinado em grande parte por Fj' Se cada escore de teste é fortemente relacionado com alguns fatores, mas não relacionado com outros, então isso torna os fatores mais fáceis de serem identificados do que o seria em outro caso. Um método de rotação de fatores ortogonal que é muitas vezes usado é chamado de rotação varimax. Este é baseado na suposição de que a interpretabilidade do fator j pode ser medida pela variância dos quadrados de suas cargas de fator, i.e., a variância de alj2, a2 arnj2. Se esta variância é grande, então os valores aij tendem a ser ou próximos de zero ou próximos da unidade. A rotação varimax, portanto, maximiza a soma destas variâncias para todos os fatores. Kaiser primeiro sugeriu esta abordagem. Mais tarde, ele modificou-a levemente normalizando as cargas de fator antes de maximizar as variâncias de seus quadrados, porque isto parece dar melhores resultados (Kaiser, 1958). A rotação varimax pode, portanto, ser aplicada com ou sem a normalização de Kaiser. Inúmeros outros métodos de rotação ortogonal têm sido propostos. Entretanto, rotação varimax parece ser uma boa abordagem padrão. Algumas vezes analistas de fatores são preparados para desistir da idéia dos fatores serem não correlacionados a fim de tornar as cargas de fator tão simples quanto possível. Uma rotação oblíqua pode então dar uma melhor solução do • ~~ ~~ UHCtW,e r ..., '";Y-' .,- ue 'I' " : .. ;' que uma ortogonaL .. ,} ; I" , Novamen t e, h' an umerosos métodos disponíveis para fazer a rotação oblíqua. .. ~,re,.. ~ de r~r"r'~ baseado nos I 1" os eS"'i '''-\. i" y;>~ indivíduos, . ' Um método para ca eu ar . ~- - 'xI'ma seção Existem outros métodos . . . 'descnto na pro . componentes prmClpalS, e 1 11ido para uso dependerá do pacote comdisponíveis, de modo que aque e esco ,1. putacional que está sendo usado na anahse. 73 Análise de fatores de componentes principais , . . te ue uma maneira de fazer uma análise de fatores e Foi observado anteno,r~en q entes rincipais e usar os primeiros compocomeçar com uma anahsfe de comyonotacl'onPados Isto tem a virtude da simplici. . . mo atores nao r . nentes prmClpals co f cI'fl'COSe e e serem correlacionad .d os atores espe ]I 2'"'' pl dade, apesar q~e, ~v~ o a fatores não é muito correto. Algumas vezes analistas dos, o modelo de an~hs~ de '1' d fatores de componentes principais e de fatores fazem pnrnerro uma ana ise e " t t t m uma outra abordagem. .entao, apos 1S o, en a fatore ão -ot-~!onados é como segue. COiTl p O método para encontrar, os at~es na i ne~~es principais. Estes são combivariáveis, haverá o mesmo nun:e~o .e campo nações lineares das variáveis ongtnalS z, ==b11Xl + b12X2 +.,. ,lj + b1pXp Z2 ==b21Xl + b22X2 + .. + b2pXp (7.1) \-, Z p ==bplX 1 -r b P2X2+···+bppXp _ elos autovetores da matriz de correlações. E~ta em que os valores bij sao dados p 1 Z' togonal de modo que o relaciotransformação dos valores X para va ores e ar I namento inverso é simplesmente Xl ==bnZ1 + b21Z2 + ... + bplZp X ==b12Z1 + b22Z2 + .. + bp2Zp 2 X p ==bIp Z 1 +b2 P Z2+···+bppZp ntes principais Para uma análise de fatores, somente m das compone das, assim as últimas equações se tornam são reti- Os valores do i-és imo fator não rotacionado são justamente os valores do iésimo componente principal após eles terem' sido escalonados para terem uma variâ ..ri;:: um. Os valores dos fatores rotaciona 0S s5...Jmars-r-omplicados de se obter, mas pode-se observar que estes são dad;os pela equação matricial Xp =b Z1 + b2pZ2 + ... + b 1p mp (7.4) Z m + ep em ~ue ei ~ uma combinação linear dos com onentes rinci . que e preciso s~: fe.ito agora é escalonar os c~mponent~s pri~;tpS a TUZdo para terem vanancia, unitárias como re id l' 2' ... , m ~uen o pelos fatores. Para fazer isto, Z Precisa ser dividid o pe 1o seu desví esvlO-padrao o q 1 / --JÀ' respondente autovalor na matriz de correlaç'ões uAae i' a_raiz quadrada do Corsequaçoes entao se tornam . ;;2 ip· I X1 ==--JÀ1bllF1+--JÀ2b21F2 + ... +--JÀ b F +e --J m m l rn 1 X2 == À1b12F] +--JÀ2b22P2 + ... +..JÀ b 2F +e m m m em que F* é uma matriz n x m contendo os valores para os m fatores rotacionados em suas colunas, com uma linha para cada uma das n linhas originais de dados; X é a matriz n x p dos dados originais para p variáveis e n observações, após codificar as variáveis X1 a Xp para terem média zero e variância um; e G é a matriz p x m das cargas de fatores rotacionados dados pela Equação 7.3. 7.4 2 Usando um programa de análise de fatores para jazer análise de componentes principais Visto-que muitos programas computacíonais para análise de fatores permitem. a opção de usar componentes principais como fatores iniciais, é possível usar os programas para fazer análise de componentes principais. Tudo o que precisa ser feito é extrair o mesmo número de fatores quanto de variáveis e não fazer nenhuma rotação. As cargas de fator serão então como as dadas pela Equação 7.2, com m = p e e ==ez = ... = ep ==O. Os componentes principais são dados pela Equação 7.1, com bij==aji /Ài' em que Àié o i-ésimo autovalor. j (7.2) onde a, ==vÀb I) ) )1' Após uma rotação varimax ou outro ti d a forma po e rotação, uma nova solução tem (7.3) x p =s p' +g p2 p'2 + ... +g pl 1 . em que Ftrepresenta o novo i-ésirno fator. pm Fm. +e P Exemplo 7.1 Emprego em países europeus No Exemplo 6.2, uma análise de componentes principais foi implementada nos dados sobre porcentagens de pessoas empregadas em nove grupos de indústrias em 30 países na Europa para os anos de 1989 a 1995 (Tabela 1.5). É de algum interesse continuar o exame destes dados usando um modelo de análise de fatores. A matriz de correlações para as nove variáveis de porcentagem é dada na Tabela 6.5, e os autovalores e autovetores desta matriz de correlações são mostrados na Tabela 7.2. Há quatro autovalores maiores do que a unidade, de modo que a "regra do polegar" sugere que quatro fatores deveriam ser considerados. Isto é o que será feito aqui. Os autovetores na Tabela 7.2 fornecem os coeficientes das variáveis X para a Equação 7.1. Estes são transformados em cargas de fator para quatro fatores, usando a Equação 7.2, para dar o modelo Tabela 7.2 Autovalores e autovetores para dados de emprego europeu da Tabela 1.5 -' Autovalores 3,111 1,809 1,495 1,063 0,705 0,311 0,293 0,203 0,000 - ':;:..' '. c..' ',---,- XI Xs AGR CON 0,512 -0,024 -0,278 0,016 0,025 -0,045 0,166 0,539 -0,582 0,375 0,000 0,516 0,113 -0,345 0,203 -0,212 -0,447 -0,419 Uma rotação varimax com normalização de Kaiser foi executada. Isto produziu o modelo Autovetores -0,246 0,432 -0,503 0,058 0,231 -0,028 -0,238 -0,431 -0,447 -0,315 -0,222 0,109 -0,242 -0,292 0,071 0,023 0,783 -0,854 -0,064 0,208 -0,503 0,065 0,014 0,157 0,030 -0,030 -0,129 x, Te -0,382 -0,408 0,064 0,169 0,269 0,674 -0,165 0,203 -0,245 -0,131 -0,553 -0,096 -0,489 -0,133 -0,399 -0,463 -0,026 -0,191 -0,428 0,055 0,360 -0,317 0,046 -0,167 0,619 -0,045 -0,410 -0,205 0,516 0,413 -0,042 0,023 -0,136 -0,492 X, == + 0,90 FI - 0,03 F2 - 0,34 F3+ 0,02 F4+ el (0,93) X2 = + 0,66 FI + 0,00 F2 + 0,63 F3+ 0,12 F4+ e2 (0,85) X3= - 0,43 FI + 0,58 F2- 0,61 X4= - 0,56 FI + 0,15 F2 - 0,36 Xs= - 0,39 F1- 0,33 F2 + 0,09 X6 = - 0,67 F1- 0,55 F2 + 0,08 F3+ 0,06 F4+ e3 (0,91) F3+ 0,02 F4+ e4 (0,46) F3+ 0,81 F4+ es (0,92) F3+ 0,17 F4+ e6 (0,79) X7 = - 0,23 F1 - 0,74 F2 - 0,12 F3- 0,50 F4+ e7 (0,87) Xs= - 0,76 F1 + 0,07 F2 + 0,44 F3- 0,33 F4+ es (0,88) X9 = - 0,36 F1 + 0,69 F2 + 0,50 F3- 0,04 F4 + e9 (0,87) Aqui, os valores entre parênteses são as comunalidades. Por exemplo, a comunalidade para a variável X, é (O,90i + (-0,03)2 + (-0,34)2 + (0,02)2= 0,93. As comunalidades são bastante altas para todas as variáveis exceto X4 (FEA, fornecimento de energia e água). Grande parte da variância para as outras oito variáveis originais está, portanto, contida nos quatro fatores comuns. Cargas de fator que são 0,50 ou mais (ignorando o sinal) estão sublinhadas nas equações acima. Estas cargas grandes ou moderadas indicam como as variáveis estão relacionadas com os fatores. Pode ser visto que X1é quase inteiramente explicada pelo fator 1 sozinho; X2 é uma mistura do fator 1 e do fator 3; X3é explicada pelo fator 1 e fator 2; ete.Uma indesejável propriedade desta escolha de fatores é que cinco das nove varáveis Xsão fortemente relacionadas a dois dos fatores. Isto sugere que uma rotação de fatores pode fornecer um modelo mais simples para os dados. F4+ e2 X3=-0,03 F4+ e3 X4=-0,19 X, = -0,02 X6=-0,35 0,504 -0,061 Nota: As variáveis são as porcentagens de empregados em nove grupos de indústrias: AGR, agricultura, florestal e pesca; MIN, mineração e exploração de pedreiras; FAB, fabricação; FEA, fornecimento de energia e água; CON, construção; SER, serviços; FIN, finanças; SSp, serviços social e pessoal; TC, transporte e comunicações. Xl = + 0.85 FI + 0,10 F2 + 0,27 F3- 0,36 X2= + 0,11 FI + 0,30 F2 + 0.86 F3-0,10 X7=-O,08 Xs=-0,91 ~=-0.73 ;'. ','I~,',: FI + 0,32 F2 F1- 0,04 F2FI + 0,08 F2FI - 0,48 F2- 0.89 F3- 0,09 F4+ eI 0.64 F3+ 0,14 F4+ e4 0,04 F3+ 0,95 F4+ es 0,15 F3+ 0.65 F4+ e6 FI- 0,93 F2 + 0,00 F3- 0,01 F4+ e7 FI-O,17 F2 - 0,12 F3+ 0,04 F4+ es F1 + 0,57 F2- 0,03 F3- 0,14 F4 + e9 . As comunalidades não mudaram e os fatores são ainda não correlacionados. No entanto, esta é uma solução um pouco melhor do que a anterior, pois somente X9 é apreciavelmente dependente de mais do que um fator. Neste estágio, é usual tentar colocar rótulas aos fatores. É honesto dizer que isto muitas vezes requer um grau de criatividade e imaginação! No presente caso não é muito difícil, sendo baseadas somente nas cargas mais altas. O fator 1 tem uma carga positiva alta para X1(agricultura, florestal e pesca) e cargas negativas altas para Xs (serviços sociais e pessoais) e X, (transporte e comunicações). Ele, portanto, mede o quanto de pessoas estão empregadas em agricultura em vez de em serviços e comunicações. Ele pode ser chamado de "Indústrias rurais encontraste a serviço social e comunicação", O fator 2 tem cargas negativas altas para X7 (finança) e um coeficiente bastante alto para X9 (transporte e comunicações), Este pode ser chamado "falta de indústrias de finanças". O fator 3 tem uma carga positiva para X2 (mineração e exploração de pedreiras), uma carga negativa alta para X3 (fabricação) e uma carga negativa moderadamente alta para X4 (suprimento de energia). Este pode ser chamado "mineração em contraste a fabricação". Finalmente, o fator 4 tem urna carga positiva alta para Xs (construção) e uma carga positiva moderadamente alta para X6 (indústrias de serviços). "Indústrias de construção e de serviços" parece ser um rótulo justo neste caso. A matriz G da Equação 7.3 e Equação 7.4 é dada pelas cargas de fator mostradas acima. Por exemplo, gll = 0,85 e g12= 0,10, para duas casas decimais. Usando estas cargas e executando os cálculos da matriz mostrados na Equação 7.4 são fornecidos os valores para os escores de fator para cada um dos 30 países no conjunto de dados originais. Estes escores de fator são mostrados na Tabela 7.3. ) ranera '/.éS Escores de fatores rotacionados País Bélgica Dinamarca França Alemanha Grécia Irlanda Itália Luxemburgo Países Baixos Portugal Espanha Reino Unido Áustria Finlândia Islândia Noruega Suécia Suíça Albânia Bulgária Repúblicas Tcheca/Eslováquia Hungria Polônia Romênia USSR (antiga) Iugoslávia (antiga) Cingapura Gibraltar Malta Turquia Fator 1 -O,9í -0,89 -0,56 0,05 0,48 0,28 0,25 -0,46 -1,36 0,66 0,23 -0,50 0,18 -0,78 -0,18 -1,36 -1,20 0,12 3,16 0,47 -0,26 -1,05 0,97 1,11 0,08 0,13 0,46 -0,05 -1,17 2,15 para 30 países europeus Fator 2 -0,56 -0,47 -0,78 -0,57 0,19 -0,60 -0,13 -0,36 -1,56 -0,45 -0,11 -1,14 0,05 -0,20 -0,04 -0,17 -0,52 -0,67 -1,82 1,56 1,45 1,70 0,71 1,73 2,09 1,48 -0,32 -1,05 0,49 0,07 Fator 3 -0,10 -0,03 -0,15 -0,47 -0,23 -0,36 0,17 0,02 -0,03 -0,37 -0,09 -0,35 -0,71 -0,21 -0,06 0,20 0,04 0,01 1,76 -0,57 3,12 2,82 -0,37 -1,69 -0,11 -1,70 0,03 0,08 -0,79 0,15 Fator 4 -0,48 -0,67 -0,25 0,58 0,02 0,03 1,00 0,92 -2,09 0,64 0,93 -0,04 0,56 -0,52 0,46 -0,42 -0,74 0,65 -1,78 -0,65 0,44 -0,15 -0,42 -0,81 0,14 0,17 1,08 3,26 -1,31 -0,56 Nota: Fator_ 1 é indústrias rurais em contraste a indústrias de serviços sociais e comurucaça.0; fator 2 é falta de indústrias de finanças; fator 3 é mineração melhor do que fabncação e fator 4 é indústrias de construção, ~o estu~o dos escores de fator, pode ser visto que os valores para o fator 1 e~fatizam aAll~portância das indústrias rurais mais do que serviços e comunicaçoes n~ Albânia : na Turquia. Os valores para o fator 2 indicam que a Bugária, a Hungria, a Romenia e a USSR (antiga) tinham poucas pessoas empregadas em finança: mas os Países Baixos e a Albânia tinham grandes números de empregados nesta ~re~. Os valores para o fator 3 contrastam a Albânia e as repúblicas Tcheca/ Eslo~a~Ula - com a~t~sníveis de mineração melhor do que de fabricação - com a Romena e a Iugoslavl~, onde o inverso é verdadeiro. Finalmente, os valores para o fat.or 4 contrastam Cibraltar, com altos números na construção e indústrias de serviços, com os Países Baixos e a Albânia, onde isto está longe de ser o caso, Seria possível e razoável continuar a análise deste conjunto de dados, tentando modelos com menos fatores e diferentes métodos de extração de fatores, Entretanto, a abordagem geral foi suficientemente descrita aqui, e então o exemplo será deixado neste ponto, Deve ser lembrado por qualquer um que queira reproduzir a análise acima, que pacotes estatísticos diferentes podem fornecer os autovalores mostrados na Tabela 7.2, exceto que todos os coeficientes têm seus sinais invertidos. Um sinal invertido também pode ocorrer através de uma rotação de fatores, de modo que cargas para um fator rotacionado são o oposto do que é mostrado anteriormente. Sinais inversos como estes apenas invertem a interpretação do fator concernente. Por exemplo, se as cargas para o fator 1 rotacionados forem o oposto daquelas mostradas anteriormente, então os resultados seriam interpretados como serviços sociais e pessoais e como transporte e comunicações em contraste a indústrias rurais. 7.5 Opções em análises Programas computacionais para análise de fatores freqüentemente permitem muitas diferentes opções, o que provavelmente é bastante confuso para o novato nesta área. Tipicamente pode haver quatro ou cinco métodos para a extração inicial de fatores e em torno do mesmo número de métodos para rotação destes fatores (incluindo não rotação). Isto então dá na ordem se 20 diferentes tipos de análise de fatores que podem ser executadas, com resultados que serão diferentes, pelo menos até certo ponto. Há também a questão do número de fatores a extrair. Muitos pacotes farão uma escolha automática, mas isto pode ser aceitável ou não, A possibilidade de tentar números diferentes de fatores aumenta, portanto, ainda mais as escolhas para uma análise. No geral, é provavelmente melhor evitar o uso de muitas opções quando se está praticando pela primeira vez a análise de fatores. O uso de componentes principais como sendo fatores iniciais com rotação varimax, como usado no exemplo deste capítulo, é um começo razoável com qualquer conjunto de dados. O método de máxima verossimilhança para extração de fatores é uma boa abordagem no princípio, e isto também pode ser tentado se a opção está disponível no pacote computacional que está sendo usado. 7.6 A importância da análise de fatores A análise de fatores é quase uma arte, e ela não é certamente tão objetiva como muitos métodos estatísticos. Por esta razão, alguns estatísticos são céticos sobre a sua importância. Por exemplo, Chatfield and Collins (1980, P: 89) listam seis problemas com análise de fatores e concluem que" análise de fatores não deveria ser usada em muitas situações práticas". Da mesma forma, Seber (1984) observa com um resultado de estudos de simulação, que mesmo se o modelo de fatores postulado é correto, a chance de recuperá-Ia usando métodos disponíveis não é alta. Por outro lado, a an~·ll8'?d:.- 'f,lI,,-l.Y" (. ;.rg 'Dente usada para analisar dadL-~'~, sem dúvida, continuará a ser largamente usada!l0 futuro. A razão para isto é que os usuários consideram os resultados úteis para ganhar compreensão da estrutura dos dados multivariados. Portanto, se ela é pensada como uma ferramenta puramente descritiva, com limitações que são compreendidas, então ela precisa tomar seu lugar como um dos métodos multivariados importantes. O que deve ser evitado é executar uma análise de fatores em uma única amostra pequena que não possa ser replicada e então assumir que os fatores obtidos devem representar variáveis subjacentes que existem no mundo reaL 7.7 Programas computacionais Este capítulo tem destacado a análise de fatores baseada no uso de componentes principais como os fatores não rotacionados, seguido da rotação varimax. Este método é amplamente fornecido em programas computacionais, e é muitas vezes a opção padrão. Não deve ser muito difícil, portanto, a obtenção de software apropriado se esta abordagem é usada. O uso de métodos alternativos para extração e rotação de fatores provavelmente requer um dos pacotes estatísticos maiores que tenham muitas opções, como discutido na Seção 7.5. Os cálculos para o Exemplo 7.1 foram executados usando a opção de componentes principais de NCSS (Hintze, 2001). Este programa tem uma opção de análise de fatores separada que faz os cálculos de uma maneira diferente e, portanto, dá resultados diferentes. Entretanto, as diferenças são bastante pequenas. 7.8 Discussão e leitura adicional A análise de fatores é discutida em muitos textos sobre análise multivariada, apesar de, como observado anteriormente, o tópico algumas vezes não ser apresentado entusiasticamente (Chatfield e Collins, 1980; Seber, 1984), Textos recentes são geralmente mais positivos. Por exemplo, Rencher (1995) discute a extensão da validade da análise de fatores bem corno porquê ela muitas vezes não funciona. Ele observa que há muitos conjuntos de dados cuja análise de fatores não deveria ser usada, mas outros em que o método é útil. A análise de fatores como discutida neste capítulo é freqüentemente referida como análise de fatores exploratória porque ela inicia sem nenhuma suposição sobre o número de fatores que existem ou a natureza destes fatores. A este respeito, ela difere do que é chamado análise de fatores confirmatória, a qual requer que o número de fatores e a estrutura de fatores seja especifica da inicialmente. Desta maneira, análise de fatores confirmatória pode ser usada para testar teorias sobre a estrutura dos dados. A análise de fatores confirmatória é mais complicada de ser implementada do a análise de fatores exploratória.Os detalhes sãodescritos por Bernstein et aI. . D~88, Capítulo 7) e Tabachnick e Fiueíl ,:':'\;01.). A analise ue fatores confirmatória é um caso especial de modelagem de equação estrutural, a qual é coberta no Capítulo 14 do segundo livro. l'1lJ1:' 7.9 Resumo do capítulo • A análise de fatores tem objetivos que são similares àqueles de análise de componentes principais, i.e., descrever um conjunto de p variáveis Xl' X2, ..., Xp em termos de um número menor de índices ou fatores que represente as variáveis X. Entretanto, as duas análises diferem porque a análise de fatores é baseada em um modelo particular para os dados, enquanto que este não é o caso para a análise de componentes principais. • As idéias iniciais sobre análise de fatores foram desenvolvidas por Charles Spearman em termos de uma teoria de dois fatores para testes mentais, com cada resultado do teste sendo composto de um fator comum para todos os testes (inteligência geral) e um fator específico para aquele teste. A teoria foi então modificada para resultar no modelo de análise de fatores geral com m fatores comuns não correlacionados, o qual diz que o resultado do i-ésimo teste (padronizado para ter média zero e variância um) é dado por X, == ailFl + ai2F2+ ... + aimFm + ei, onde Fj é o valor para o j-ésimo fator comum, aijé um carregamento de fator e ei é a parte do resultado do teste que é específico para o i-ésimo teste. • A soma dos quadrados das cargas de fator fornece a comunalidade (a parte da variância do escore do teste que é sustentada pelos fatores comuns), enquanto que Var(ei) é a especificidade (a parte da variância do escore do teste que é não relacionada aos fatores comuns). • O procedimento para uma análise de fatores é descrito em termos de três estágios. Primeiro, cargas de fator provisórias são determinadas. Então, estas normalmente são modificadas por um processo de rotação de fatores para obter um modelo para os dados que seja mais fácil de interpretar. Finalmente, escores de fator são calculados, os quais são os valores dos fatores para os indivíduos que possuem os valores de X conhecidos, • Uma análise de componentes principais pode ser usada para encontrar a solução de fatores inicial, caso em que uma escolha razoável para o número de fatores a serem usados é o número de autovalores maiores do que um. • Rotação de fatores pode ser ortogonal (para dar fatores não correlacionados) ou oblíqua (para dar fatores correlacionados). A escolha de um método de rotação é discutido. Rotação varimax é muitas vezes usada. • O procedimento para implementar uma análise de fatores, começando com uma análise de componentes principais, é descrito em detalhes. ________ u< t'~vó,aala ue ct!lClllSe componentes principais é discutido. • Os dados sobre, as ~orcenta3ens de p .F,.=gados na Europa em diferentes grupos de indústrias (Tabela 1.5) são analisados usando quatro fatores. Após uma rotação varimax, os fatores são descritos corno "indústrias rurais em contraste a serviços sociais e comunicação", "falta de indústrias de finanças", "mineração em contraste a fabricação" e "construção e indústrias de serviços". • Programas computacionais para análise de fatores muitas vezes têm muitas opções. O uso de componentes principais como fatores iniciais com rotação varimax será um começo razoável na análise de qualquer conjunto de dados. Outras opções podem então ser tentadas mais tarde. • O valor geral de uma análise de fatores é discutido. Conclui-se que ela é uma ferramenta útil para compreender a estrutura dos dados. • A escolha de um programa computacional para análise de fatores é discutida. • Sugere-se leitura adicional em análise de fatores, incluindo algumas sobre análise de fatores confirmatória, na qual assume-se que a estrutura do modelo de análise de fatores é inicialmente conhecida. Exercício Usando o Exemplo 7.1 como um modelo, execute uma análise de fatores dos dados na Tabela 6.7 sobre consumo de proteína de dez diferentes fontes de alimento para os habitant~~ d: 25 países europeus. Identifique os fatores importantes descrevendo as varraveis observadas e examine os relacionamentos entre os países com respeito a estes fatores. Referências Bernstein, I.H., G~rbin, lag, Berhn. c.r. and Teng, G.c. (1988), Applied Multioariaie Ana/ysis, Springer-Ver- Chatfield, C. and Collins, A.I. (1980), Introduction to Mu/tivariate Analysis, Chapman London. Hinrze, J. (2001), :,CSS and PASS, Number vel on-line em www.ncss.com. Kaiser, H.F. (1958), The varimax criterion 23,187-200. c. (1904), "General Cruncher Statistical Systems, Kaysvílle, UT; disponífor analytic rotation in factor analysis Psychometrika ' , intelligence," objectively determined ---------.------------------------------ --------------------------- Análise dejunção discriminante 8.1 o problema da separação de grupos o problema ao qual se direciona a análise de função discriminante trata de avaliar o quanto é possível separar dois ou mais grupos de indivíduos, sendo dadas medidas para estes indivíduos em várias variáveis. Por exemplo, com os dados na Tabela 1.1 sobre cinco medidas do corpo de 21 pardais sobreviventes e 28 nãosobreviventes, é interessante considerar se é possível usar as medidas do corpo para separar sobreviventes e não-sobreviventes. Também, para os dados mostrados na Tabela 1.2 sobre quatro dimensões de crânios egípcios para amostras de cinco períodos de tempo, é razoável considerar se as medidas podem ser usadas para atribuir crânios a diferentes períodos de tempo. No caso geral, haverá m amostras aleatórias de diferentes grupos com tamanhos nl, ~, ... nm, e valores estarão disponíveis para p variáveis Xli X2, ••. , Xp para cada membro de amostra. Então os dados para urna análise de função discriminante tornam a forma mostrada na Tabela 8.1. Os dados para urna análise de função discriminante não necessitam ser padronizados para ter médias zero e variâncias unitárias antes de começar a análise. Isto porque o resultado de uma análise de função discriminante não é afetado de nenhuma forma importante pelo escalonamento de variáveis individuais. and Hall, Renchez, A.c. (1995), Methods of Multivariale Statistics, Wiley, New York. Seber, G.A.F. (1984), Multivariate Obseroations, Wiley, New York. Spearman, Capítulo 8 ae ratores para fazer uma análise de and measured, Am. J. Psychol., 15, 201-293. Tabadmick, B.G. and Fidell, L.S. (2001), Using Multivariate Siatistics, AlIyn and Bacon, Boston. 8.2 Discriminação usando distâncias de Mahalanobis Uma abordagem para discriminação é baseada em distâncias de Mahalanobis, como definidas na Seção 5.3. Os vetares de médias para as m amostras podem ser pensados como estimativas dos verdadeiros vetares de médias para os grupos. As distâncias de Mahalanobis dos casos individuais aos centros dos grupos podem então ser calculadas, e cada indivíduo pode ser alocado .ao ?r~po ao qual ele está mais próximo. Este pode ser ou não o grupo do qual o indivíduo de fato "~V"~d ~•.l A rorma dos dados para uma análise de função d:scnmmante com m grupos com tamanhos possivelmente dIferentes e com p variáveismfdidil51:'1TIcada caso individual Caso x, X2-·-·~~--· -_.,~: Grupo 1 2 n1 x1I1 x1l2 xllp 1 X211 ~12 X21p 1 Xn111 X121 X122 X12p 1 2 X221 XZ22 X22p 2 Xnz21 Xn222 1 2 n2 1 2 nm Xn}12 Xn11p ~22p X1m1 X1m2 x1mp X2m1 X2m2 x2mi' xnmm1 xnmm2 xnmmp Funções discriminantes canõnicas, Algumas vezes é útil ser capaz de determinar funções das varia reis Xl' X2, .", X), que em algum sentido separam os m grupos tant~ quanto possível. A mais simples abordagem então envolve tornar uma combinação linear das variáveis X Z = a1X1 + alXz+ ... + apXp para este fim. Grupos podem ser bem separados usando Z se o valor médio desta .,,;~ri;ávl~lmuda consideravelmente de grupo para grupo, com os valores dentro do grupo sendo razoavelmente constantes. Uma maneira de determinar os coeficientes aI' al, ..., ap no índice envolve es,cOJ.ne·-lC)S de modo a maximizar a razão F para uma análise de variância de um Assim se há um total de N indivíduos em todos os grupos, uma análise de variância nos valores de Z toma a forma mostrada na Tabela 8.2. Portanto, uma função adequada para separar os grupos pode ser definida como a combinação linear para a qual a razão F MB/Mw é tão grande quanto possível, como primeiro sugerido por Fisher (1936). Quando esta abordagem é usada, acontece que pode ser possível determinar várias combinações lineares para separar grupos. Em geral, o número disponível, s, é o menor entre p e m -1. As combinações lineares são referidas como funções discriminantes canônicas, A primeira função, 2 m m m provém, assim a porcentagem de alocações corretas é uma indicação bem podem ser.separados grupos, usando as variáveis disponíveis. Este procedImento é mais precisamente definido como segue. Seja de quão o vet~~ d~ valores médios para a amostra do i-ésimo grupo; seja C a matriz de covar~anClas para a mesma amostra; e seja C a matriz de covaríâncías amostral con:blnada, e~ qu~ e~tes. vetores e matrizes são calculados como explicados na Seçao 2.7. Entao a distância de Mahalanobis de uma observação x' = (x )' ao t d .,. Jt XZ' ... , x cen ro o grupo 1 e estimada como sendo P D; =(x-xJ' P == C-I(x-x dá a razão F máxima possível em uma análise de variância de um fator sujeita à condição de que não há correlação entre Z1 e Zz dentro dos grupos. Funções adicionais são definidas da mesma maneira. Então a i-ésima função discriminante canônica, ) j P L. L. (x xrJ c" (xs - xsJ (8.1) r - r=l dá a razão F máxima possível para uma análise de variância de um fator para a variação dentro e entre grupos. Se há mais do que uma função, então a segunda delas, s=l em que crsé o elemento ná r-ésima linha e s-ésima coluna de C-I A b _, entã 1 d ... . o servaçao x e ao a oca a ao grupo para o qual tem o menor valor. D; Tabela 8.2 Uma análise de variância nos índices Z Fonte de variação Graus de liberdade Entre grupos Dentro dos grupos N-m m-I N-l Quadrado médio Razão F é a combinação linear para a qual a razão F em uma análise de variância é rnaximizada, suie~~a a Z, ser não correlacionada com Zl'ZZ e Z,-i dentro dos grupos. . 'evidência de que os valores médios populacionais de Zj variam de grupo para grupo. A~ternafvamente, so~a~: + ~~+1 ~ "; + 4>~é al~m.as :rezes usada p.~~atestar por diferenças de grupo reiacionauas as runçoes discriminante de Lj a L..s' C~Ia é testada contra a distribuição qui-quadrado, com o gl sendo a soma daqueles associados com os termos componentes. Outros testes de uma natureza similar são também usados. Infelizmente, estes testes são um tanto suspeitos porque a j-ésima função discriminante na população pode não aparecer como a j-ésima função discriminante na amostra por causa de erros amostrais. Por exemplo, a primeira função discriminante estimada (correspondente ao maior autovalor para a matriz amostral W-1 B) pode na realidade corresponder à segunda função discriminante para a população que está sendo amostra da. Simulações indicam que isto pode prejudicar seriamente os testes qui-quadrados descritos anteriormente. Portanto, parece que os testes não deveriam se apoiar sobre quantas das funções discriminantes obtidas representam diferenças reais de grupo. Ver Harris (1985) para uma discussão prolongada das dificuldades cercando estes testes e maneiras alternativas para examinar a natureza das diferenças de grupo. Um tipo útil de teste que é válido, pelo menos para grandes amostras, envolve calcular a distância de Mahalanobis de cada uma das observações ao vetar médio para o grupo contendo a observação, como discutido na Seção 5.3. Estas distâncias devem seguir aproximadamente distribuições qui-quadrado com p graus de liberdade. Portanto, se uma observação está significantemente longe do centro de seu grupo em comparação com a distribuição qui-quadrado, então isto coloca em questão se a observação realmente veio daquele grupo. Encontrar os coeficientes das funções discriminantes canônicas vem a ser um problema de autovalor. A matriz de somas de quadrados e produtos cruzados dentro da amostra, W, e a matriz amostral total de somas de quadrados e produtos cruzados, T, são calculadas como descrito na Seção 4.7. Destas, a matriz entre grupos B=T-W pode ser determinada. A seguir, os autovalores e autovetores da matriz Wl B têm que ser encontrados. Se os autovalores são ~ > À.z > ... > Às, então Ài é a razão da soma ~o,s.quadrad~s entre grupos e da soma dos quadrados dentro dos grupos para a i-esima combinação linear, Z, enquanto que os elementos do correspondente autovetor, a~= (ail, ai2, .•. , aip)' são os coeficientes das variáveis X para este índice. A~ funções discriminantes canônicas ZI' Z2' ... r Z, são combinações lineares das variáveis originais escolhidas de tal maneira que ZI reflete diferenças de grup~ tanto quanto possível, Z2 captura tanto quanto possível as diferenças de grupo n~o apresentadas por ZI' Z3 captura tanto quanto possível as diferenças de grupo n~o apresenradas por 21 e 22' ete. A expectativa é que as primeiras poucas funçoes sejam suficientes para contar por quase todas as importantes diferenças de grupo. En: ~articul~r, ~e so~ente a primeira ou duas funções são necessárias para este propósito, entao e possível urna representação gráfica simples do relacionamento entre os vários grupos representando os valores destas funções para os indivíduos da amostra. 8.5 8.4 Testes de significância V.ári~s t~stes de significância são úteis conjuntamente com uma análise de função discriminante. Em particular, o teste da Seção 4.3 pode ser usado para testar por uma diferença significante entre os valores médios para qualquer par de grupos, e.nquanto q~e ~ dos testes descritos na Seção 4.7 pode ser usado para testar por diferenças significantes globais entre as médias para os m grupos. . ~lé~ disso, ~ teste é algumas vezes proposto para testar se a média da função discrirninante Zj difere significantemente de grupo para grupo. Este é baseado nos autovalores individuais da matriz W-I B. Por exemplo, algumas vezes a estatística r cj>f = {N -1- (p + m)/2} 10ge(1 + À) é,u~ad~, on~e N é o número tot~l de observações em todos os grupos. Esta esta. tística eentao testada contra a distribuição qui-quadrado com p + m - 2j graus de liberdade (gl), e um valor significantemente grande é considerado por fornecer , ~, Suposições Os métodos discutidos até então neste capítulo são baseados em duas suposições. Primeira, para todos os métodos, a matriz de covaríâncias dentro do grupo populacional deve ser a mesma para todos os grupos. Segunda, para testes de significância, os dados devem ter distribuição normal multivariada dentro dos grupos. Em geral parece que a análise multivariada que assume normalidade pode ser bastante prejudicada se esta suposição não é carreta. Isto contrasta com a situação de análises univariadas tais como regressão e análise de variância, as quais são geralmente bastante robustas para esta suposição. Entretanto, uma falha de uma ou ambas suposições não significa necessariamente que uma análise de função discriminante é uma perda de tempo. Por exemplo, pode muito bem acontecer de ser possível excelente discriminação em dados de distribuições não normais, apesar de poder não ser simples estabelecer a significância estatística das diferenças de grupo. Além do mais, métodos de discriminação que não requerem as suposições de normalidade e igualdade de matrizes de covariâncias populacionais, estão disponíveis, como discutido a seguir. Exempto 8.1 Comparação de amostras de crânios egípcios As variáveis X na Equação 8.2 são os valores como mostrados E~te ex:mplo se refere à compV"ção dos valores ara rv :., . _ ruos egipcios masculinOt:>P ara cinco amost . nd qu~tr ~ medidas em era, di ,. . ras vanan o em Idade do íod ' m.astico pnmitivo (cerca de 4000 a C ) , d peno o pre. . ao peno t> romano (cerca d 150 de) dados são mostrados na Tabela 1.2, e já foi estabe! .de, .... Os ferem significantemente de amostra:para amostraemx~~u~oo: valores me~lOs diças tendendo a crescer com a dif d P .3), com as dIferen_ A trí d 1 erença e tempo entre amostras (Exemplo 5 3) s ma nzes e somas de quadrados e produtos d d . . e éUTIdostratotal são calculadas como descrito na Seçã~r~~a E~:s se;otroobdtí.adaamostra sen o: . . s como w= e (061,67 291,30) r -222,81 -615,16 3635,17 1046,28 346,47 1046,28 4309,27 -16,40 346,47 -16,40 1533,33 ~6'73J 'S9 T = -222,81 -615,16 426,73 (·;.:servisto que grandes valores 'êhi'~-c()ri sporu ... c" . a crânios que são altos, mas !("V C/H/!; Ór UpUI:i ue pazses europeus " Os dados mostrados na Tabela 1.5 sobre as porcentagens de empregados em'nove [rupos de indústrias em 30 pai&'€& eun 92138 j2 foram examinados pela análise de componentes principais e pela análise de fator,es (Exemplos 6,2 e 7.1). Aqui eles serão considerados do ponto de vista do quanto é possível discriminar grupàs de países com base no padrão de empregos, Em particular, existiram quatro grupos na turais no período em que os dados foram coletados, Estes foram: (1) os países da União Européia (UE), Bélgica, Dinamarca, França, Alemanha, Grécia, Irlanda, Itália, Luxemburgo, os Países Baixos, Portugal, Espanha e Reino Unido., (2) os países da área Européia de Livre Comércio (AELC), Áustria, Finlândia, Islândia, Noruega, Suécia e Suíça; (3) os países do leste europeu, Albânia, Bulgária, as repúblicas Tcheca/Eslováquia, Hungria, Polônia, Romênia, a antiga USSR e a antiga Iugoslávia; e (4) os outros países, Chipre, Gibraltar, Malta e Turquia, Estes quatro grupos podem ser usados como uma base para uma análise de função discriminante, O teste Iambda de Wilks (Seção 4.7) dá um resultado altamente significante (p < 0,001), então há uma clara evidência que, globalmente, estes grupos são significativos, Sem considerar erros de arredondamento,-as-porcentagens nos nove grupos' de Lndüstrias somam 100% para cada um dos 30 países, Isto significa que qualquer uma das nove variáveis percentuais pode ser expressa como 100 menos as variáveis remanescentes, É, portanto, necessário omitir uma das variáveis a fim de implementar a análise, A última variável, a porcentagem empregada em transporte e comunicações, foi, portanto, omitida para a análise que será agora descrita, O número de variáveis canônicas é três, neste exemplo, este sendo o mínimo entre o número de variáveis (p = 8) e o número de grupos menos um (rn _ 1 = 3), Estas variáveis canônicas são obtidas como sendo Z1 = 0,427 AGR+O,295MIN+O,359FAB +0,688 SER +0,464 FIN +0,514 SSP Z2 = O,674AGR+O,579MIN +0,550FAB O' t 1 de W-I B correspondentes às três variáveis canônicas são À1 = s au ova ores t to claramente 9 1 - O 570 e A = O202, A primeira variável canoruca e,. por anto. ~34,03' • '. A' , - • ~~ I ''''' ", • t--'"" ~ (.;) "Ht"'~L .ái do fi tes são positivos em todas três variáveis canôniVisto que to os os coe icien d ." ' , atamente elas significam em termos as vanavelS, / ' difícil mterpretar o que ex ca~, ~ , É útil a este respeito considerar ao invés as correlações entre as variaongm~Is: , / is canônicas , como mostrado na Tabela 8.5. Esta 1tabela ' ongmms , e as vanavelS ,_ _ veis , ' / 1 " 1 TC (transporte e comunicações) porque as corre ' lUI a vanave ongma Z Zaçoes _ mc . / 1 sao - f aci lmente calculadas uma vez que os valores de 1 a 3 sao ara esta vanave p nhecidos para todos os países europeus. _ . co Pode ser VIsto , correlaçoes acima de 0,5 que a pn imeira variável canônica tem . I . (serviços) FIN (finança) e SSP (serviços SOCIale pessoal), e uma corre aara SER serviços), ) MIN (rni _ ) P ão de -O 5 ou menos para AGR (agricultura " floresta e pesca dee i dú mmeraçao , . ç variável canônica, portanto, representa tipos de serviços e m_ ustna,e.m conEsta . dú t ' s tradicionais Não há realmente grandes correlaçoes positivas ou traste a m us na, , /' " , E t t t da variável canônica e as variaveis ongmms. n re an o, nega,~::::;~r:s ::.:~~~s correlações que existem, ela pdece repre~€n(a~ agrict:ltuconSI ._ de transporte comunicações e serVIços financeiros, ra e construçao, com ausencia nh rande correlaFinalmente a terceira variável canomca tambem mostra ne uma g _ - mas re' resenta uma ausência de transporte, comunicaçã~ ,e c~nstru5a,0, _ çao, Repres:ntações dos países contra seus valores para as ~~navels canoru~as s,ao mostradas na Figura 8,1, A representação da segunda variável contra a pn:;::: mostra uma clara distinção entre os países do lest: no lado esquerdo e com Mal- <1 ll1d •.o> A +O,873FAB ' A' ' / grupos à direita, Não há clara separação entre os pa~ses ~~~El;a~~~:~~;r~" ta e Chipre estando no mesmo aglomerado, Turquia e vsiora +O,339FEA+O,222CON Correlações entre as porcentagens originais em diferentes grupos de empregos e as tres variáveis canônicas Tabela 8.5 + 1,576FEA +0,682 CON + 0,658 SER + 0,349 FIN + 0,682 SSP Z3 = O,732AGR+O,889MIN / n • Grupo +0 4;OFEA+O,524 CON + 0,895 SER + 0,714FIN + O,764SSP Diferentes programas computacionais provavelmente têm como saídas estas variáveis canônicas com todos os sinais revertidos para os coeficientes de uma ou mais variáveis.Também, pode ser desejável inverter os sinais de saída. De fato, com este exemplo, a saída do programa computacional tinha coeficientes negativos para todas as variáveis com 21 e 22' Os sinais foram, portanto, todos invertidos para tornar os coeficientes positivos. É importante notar que as porcentagens originais de empregados é que devem ser usadas nestas equações, ao invés destas porcentagens após elas terem sido padronizadas para ter médias zero e variâncias unitárias. ., AGR MIN FAB FEA CON SER FIN SSP TC -0,50 -0,62 -0,02 0,17 0,14 0,82 0,61 0,56 -0,22 0,37 0,03 -0,20 0,18 0,26 -0,01 -0,36 -0,19 -0,47 0,09 0,20 0,12 -0,23 -0,34 0,08 -0,09 -0,28 -0,41 . flaresta e pesca,.. MIN '_.mineraNota: AGR, agncultura, FEA ção e exploração de pedreiras; FAB, fabricação: _: , e agua, / . CON construçao, fornecimento de energIa .' 'ai e esSER, serviços; FIN, finanças; SSP, serviços SOCl p soal; Te, transporte e comunicações. grupo 41~~-----------r--------------LM~ Outros TurOi.·~ l :. 3 Gibraltar • Polônia e 2 C\J CO o ·C c CO Repúblicas ü g? o e • IMalta,G~cia Espanh: Itália • Irlanda e • Islândia e I Ch~re , . e Alemanha Noruega Austna e • B'I' • Luxe~burgo e glca Finl~ndia Fr~ça . • Dinamarca SUlça Tcheca/Eslovápuia Hungna Albâni: oCO ~ UE & AELC Portugal Romênia "a ver como _.·-C"'>' !<"àQ~'0rtidos são significantes. Por exernpl ,:':offi'os d'~~~6'~OScrânios egípcios, os 150 crânios poderiam ser alocados de forma completamente aleatória a cinco grupos de 30, aalocação sendo feita inúmeras vezes, e urna análise de função discriminante funcionar em cada conjunto aleatório de dados. Alguma idéia poderia então surgir da probabilidade de obter resultados significantes através sornente do acaso. Este tipo de análise de aleatorização para verificar uma análise de função discriminante é desnecessário em uma análise passo a passo padrão, desde que não haja razão para suspeitar das suposições por trás da análise. Poderia, entretanto, ser informativa nos casos em que os dados são claramente não normalmente distribuídos dentro dos grupos ou onde a matriz de covariâncias dentro do grupo não é a mesma para cada grupo. Por exemplo, Manly (1997, Exemplo 12.4) mostra uma situação onde os resultados de uma análise de função discriminante padrão são claramente suspeitos pela comparação com os resultados de uma análise de aleatorização. 8.8 Classificação jacknife de indivíduos Um momento de reflexão sugerirá que uma matriz de alocação tal como aquela mostrada na Tabela 8.4 deve tender a ter um vício em favor de alocar indivíduos ao grupo do qual ele realmente veio. Além disso, as médias dos grupos são determinadas das observações naquele grupo. Não é surpreendente que uma observação esteja mais próxima do centro de um grupo em que aquela observação ajudou na determinação daquele centro. Para controlar este vício, alguns programas computacionais executam o que é chamada uma classificação jacknife de observações. Esta envolve alocar cada indivíduo ao seu grupo mais próximo sem usar aqueles indivíduos para ajudar a determinar um centro de grupo. Desta maneira, qualquer vício na alocação é evitado. Na prática, freqüentemente não há uma grande diferença entre a classificação simples e direta e a classificação jacknife, com a classificação jacknife usualmente dando um número levemente menor de alocações corretas. 8.9 Atribuição de indivíduos não grupados a grupos Alguns programas computacionais permitem a entrada dos valores dos dados para ~m número de indivíduos para os quais o verdadeiro grupo não é conhecido. E então possível atribuir estes indivíduos ao grupo do qual eles estão mais p:óximos, no sentido da distância de Mahalanobis, sob a suposição de que eles vieram de um dos m grupos que são amostrados. Obviamente, nestes casos não se saberá se a atribuição é correta. No entanto, os erros na alocação de indivíduos de grupos conhecidos são urna indicação de quão preciso o processo de t>tribUiÇãO provavelmente é. Por exemplo, os resultados mostrados na Tabela 8.4 ~dicarn~ ?s. k'('"r,~tPr":'s ç6írc~os a diferer:tes perí~dos de t":ffi}'7' W"-: -1:;- 1-, 'rnensões de craruos e muito provavel resultara em muitos erros. 8.1 O Regressão logística 'b~a abordabem bem diferente par.a discrimi~ação entr~ do~s g:upos envol~e "fazer uso de regressão logística. A fim de exphcar. como Isto e feito, o uso mais mum de regressão logística será brevemente revisto. c() O contexto geral para regressão logística é que há m grupos a serem compara,dos com grupo i consistindo de 1\ itens, dos quais Ài exibem uma resposta positiva (\~sucesso) e nj -Àj exibem uma resposta negativa (~fracasso). As,:~osição feira então é que a probabilidade de um sucesso para um Item no grupo 1 e dado por exp(l3o + ~lXjl + ~2Xj2 + ... + ~pXjp) n·: , I 1+exp \~o + 131xj1 + 132Xj2 + ... + I3pxjp; (8.3) \ em que Xij é o valor de alguma variável :>S que é a ~esma ~ara todos o~ ~tens no grupo. Desta maneira, as variáveis de Xl a \, podem mfl~enCIar a proba~lhdade de um . sucesso, que é assumida ser a mesma para todos os Itens no grupo, independentemente dos sucessos ou falhas dos outros itens naquele ou em qualquer outro grupo. Similarmente, a probabilidade de uma falha é 1- nj para todos os itens no i-ésimo grupo. É permitido para alguns ou todos os grupos conter soment~ um item. De fato, alguns programas computacionais permitem que somente este seja o caso. Não há nenhum problema em arbitrariamente escolher o que chamar um sucesso e o que chamar um fracasso. É fácil mostrar que revertendo estas ?esi~ações nos dados simplesmente resulta em todos os valores 13 e suas estlmativas trocarem de sinal, e conseqüentemente trocar nj por 1 - nj• A função que é usada para relacionar a probabilidade de um sucesso às riáveis X é chamada uma função logística. Ao contrário da função de regressao múltipla padrão, a função logístic~ força probabilidades estima_das a ~a~ren; der:tro de um domínio de zero a um. E por esta razão que a regressao lopstica e mais sensível do que a regressão linear como um meio de modelar proba~ilidades. Existem inúmeros programas computacionais disponíveis para ajustar a Equação 8.3 aos dados, i.e., para estimar os valores de ~oa I3p' Eles são comument: baseados no princípio de máxima verossimilhança, o que significa que as equaçoes para a estimação dos valores de ~ não têm uma solução explícita. ~om~ u~ ~e~~ltado, os cálculos envolvem um processo iterativo de melhorar aproxlm.açoes m~CIalSpara as estimativas até que nenhuma mudança posterior possa ser f:1Ia. A salda c~n:umente inclui as estimativas dos valores de 13 e seus erros padrão. uma estatística qui-quadrado que indica o quanto o modelo ajusta os dados, e uma e~tatí~tica quiquadrado que indica o quanto o modelo é um melhoram.ento do, que e.?bt~do assumindo que a probabilidade de um sucesso não está relaCIonada as vanaveis X. »: , . 1b tório de Bumpus. De fato, a suposição de amostragem "re a proxlma do a ora OrI , f . '1 e não é claro como exatamente os passaros oram ," leatória é queshOné've porqu 1 ,:a , disso a su osicão será feita para este exemp o. 'coletados._Apesar _ l' 'h.P em"muitos pacotes computacionais padrão, pode A opçao regressao OglS ca ' ser usada para ajustar o modelo ,::.' No contexto de discriminação com duas amostras, há três diferentes tipos de situações que têm que ser consideradas: J,a Os dados consistem de uma única amostra aleatória tomada de uma população de itens a qual é ela mesma dividida em duas partes. A aplicação da regressão logística é então direta, e a Equação 8.3 ajustada pode ser usada para dar uma estimativa da probabilidade de um item estar em uma parte da população (i.e., é um sucesso) como uma função dos valores que o item possui para as variáveis de X, a Xp' Além disso, a distribuição de probabilidades de sucesso para os itens amostrados é uma estimativa da distribuição destas probabilidades para a população inteira. 2. A amostragem separada é usada, onde uma amostra aleatória de tamanho n1 é tomada da população de itens de um tipo (os sucessos), e uma amostra aleatória independente de tamanho n1 é tomada da população de itens do segundo tipo (as falhas). A regressão logística pode ainda ser usada. Entretanto, a probabilidade estimada de um sucesso obtida da função estimada precisa ser interpretada em termos do esquema de amostragem e dos tamanhos das amostras usados. 3. Grupos de itens são escolhidos para terem valores particulares para as variáveis de X, a XP' tal que os valores destas variáveis mudam de grupo para grupo. O número de sucessos em cada grupo é então observado. Neste caso, a equação de regressão logística estimada dá a probabilidade de um sucesso para um item, condicionada nos valores que o item possui para X, a ~. A função estimada é, portanto, a mesma da situação 1, mas a distribuição amostral de probabilidades de um sucesso não é de maneira alguma uma estimativa da distribuição que seria encontrada na população combinada de itens que são sucessos ou fracassos. 1. exp(~o + ~IXil + 132Xi2+ ... + ~5Xi5) i 7t == 1+exp(~o+~lxil+~2xi2 +"'+~5Xi5) ., . - X == comprimento total, X2 == extensão alar, X3 == comprionde as va~laveIs .bec a IX _ com rimento do úmero e X5 == comprimento do es,:mento do bICOe cab) ç, -nota !probabilidade do i-ésimo pássaro se recuperar .;terno (todos em mm , e 7ti e d , da t~::::ed:~i_quadrado para saber se as variáveis explicam significa~temente a diferença entre sobreviventes e não-sobreviventes, dá o v~or 2,85 co~~~~~ g;~:~ , de liberdade, o qual não é significantemente grande ~uan o co~para status _ . uadrado. Não há, portanto, evidência à par~ desta análise ~e que o ,la~;:~ente fosse relacionado às variáveis morfológlca: Val~res estimados p~r~?~ são mostrados na Tabela 8.6, !un~o,com err~s p~ra~Shma~OgmS~:=:~:~:e tica Pui- uadrado para testar se os mdivIduos estlilla o~ e~e~ ~I de z~ro.~ovamente, não há evidência de quaisquer e~eüos ~1.gnifiC~t~. I t ão efeito de adicionar XI2 a X; ao modelo tambem fOIinvestiga o. s o n .:~é~ x. r=: somente 49 pontos de dad,?s.} ísti ão dá indicação de que sobreviventes de Em resumo, a regressao OglSica n . pardocas fossem relacionados às variáveis medIdas. Os seguintes exemplos ilustram as diferenças entre as situações 1 e 2, as quais são as que mais comumente ocorrem. A situação 3 é realmente apenas uma regressão logística padrão e não será considerada posteriormente aqui. d f .entes das variáveisX quando um Tabela 8.6 Estimativas~~ ter:n0 constante~ ~s c~~~~obreviventesde 49 pardocas modelode regressãologlstlcae ajustadoaos a os · ti d A Erro padrão Qui-quadrado Valor-P E snma rva e f' Variável Exemplo 8.3 Pardocas sobreviventes de tempestade (reconsiderado) Os dados na Tabela 1.1consistem de valores para cinco variáveis morfológicas para 49 pardocas levadas em uma condição morimbunda ao laboratório de Hermon Bumpus na Universidade de Brown em Rhode Island após uma forte tempestade em 1898. Os primeiros 21 pássaros se recuperaram, e os 28 remanescentes morreram, e há algum interesse em saber se é possível discriminar entre estes dois grupos com base nas cinco medidas. Já foi mostrado que não há diferenças significantes entre os valores médios das variáveis para sobreviventes e não-sobreviventes (Exemplo 4.1), apesar dos não-sobreviventes poderem ter sido mais variáveis (Exemplo 4.2). Uma análise de componentes principais também confirmou os resultados de testes (Exemplo 6.1). Esta é uma situação do tipo 1se a suposição feita é de que os pássaros amosIrados foram aleatoriamente selecionados da população de pardocas em alguma !~~~~ intr~uziU quaisquer resultados s~gn~~c~~~:~~~~:r ;~~:t~;::~s assim como os term~:a~~~~t u;:do 'falhou no ajuste da função logística, caso o programa campo ti' m então 21 parâmetros para serem estimados usando vavelmente porque eX1S a Constante Comprimento total Extensãoalar Comprimento do bico e cabeça Comprimento do úmero Comprimentoda quilha do esterno I I I .li 13,582 -0,163 -0,028 -D,084 1,062 0,072 15,865 0,140 0,106 0,629 1,023 1,36 0,07 0,02 1,08 0,417 0,03 0,244 0,794 0,894 0,299 0,864 ' 'dade de um va Ior , .' _ 2 O valor-p é a probablh Nota- O valor qui-quadrado e (estimativa/ erro padrao). .. d II·berdade.Um valor-p pequeno . . ibui . dado com um gl au e ' deste tamanho de uma distri uiçao qUl-q~a : r d deiro valor do parâmetro concernen(digamos menor do que 0,05) fornece eVidenCIade que o \ er a te não é igual a zero, Exemplo 8.4 Comparação de duas amostras de crânios egípcios Como um exemplo de amostras separadas, onde o tamanho da ameser, nos d.oi~ grupo sendo comparados não é necessariamente relacionado de nenhuma maneira aos tamanhos populacionais respectivos, considere a comparação entre a primeira e a última amostra de crânios egípcios para as quais os dados são fornecidos na Tabela 1.2. A primeira amostra consiste de 30 crânios masculinos de túmulos na área de Iebas durante o período pré-dinástico primitivo (creca de 4000 a.c.) no Egito, e a última amostra consiste de 30 crânios masculinos de túmulos na mesma área durante o período Romano (cerca de 150 d.C.). Para cada crânio, estão disponíveis meclidas para X, = largura máxima, X, = altura basibregamática, X3 = comprimento do basíalveolar e X4 = altura nasal, todas em mm (Figura 1.1). Para o objetivo deste exemplo, assumiremos que as duas amostras foram efetivamente escolhidas aleatoriamente de suas respectivas populações, apesar de não haver maneira de saber quão realístico isto é. Obviamente, os tamanhos iguais das amostras não indicam de maneira nenhuma que os tamanhos das populações nos dois períodos eram iguais. Os tamanhos são de fato completamente arbitrários porque muito mais crânios foram medidos de ambos os períodos, e um número desconhecido de crânios ou não se mantiveram intactos ou não foram encontrados. Portanto, se as duas amostras são colocadas juntas e tratadas como uma amostra de tamanho 60 para a estimação de uma equação de regressão logística, então está claro que a probabilidade estimada de um crânio com certas dimensões ser do período pré-dinástico primitivo pode não estar realmente estimando a verdadeira probabilidade. De fato, é difícil definir precisamente o que se entende por verdadeira probabilidade neste exemplo porque a população não é clara. Uma definição que funciona é que a probabilidade de um crânio com dimensões especificadas ser do período pré-dinástico é igual à proporção de todos os crânios com as dadas dimensões que são do período pré-dinástico, em uma população hipotética de todos os crânios masculinos, ou do período pré-dinástico ou do período romano, que poderiam ter sido recuperados por arqueologistas na região de Tebas. Podemos mostrar (Seber, 1984, p. 312) que se uma regressão logística é implementada em uma amostra combinada para estimar o valor obtido na Equação 8.3, então a equação modificada = 1t 1 exp(~o -Ioge {(n1Pz)/(nZPI)}+ ~jXij+ ~2Xi2+ 1+ exp(~o -loge {(njPJ/(n2P1)} + ~IXij+ ~2XiZ + + ~pXiP) (8.4) + ~pXiP) é a que realmente dá a probabilidade de que um item com os valores X especificados é um sucesso. Aqui, a Equação 8.4 difere da Equação 8.3 por causa do termo loge{(n1P2)/(nzPI)}no numerador e no denominador, em que PI é a proporção de itens na população completa de sucessos e fracassos que são sucessos, e P2 = 1- PI é a proporção da população que são falhas. Isto então significa que para estimar a probabilidade de um item com os valores X especificados ser um sucesso, os valores "~. '. nh .d podem de alguma maneira ser estimados P P preCIsam ser co eci os ou - 1 ara I e 2 d dados da amostra, a.fim de ajustar a equação d~ re~ressaoo'separada~ente os .,4 tode . ue os·tamannos das amostras nl e n2 nao sao propor$ístic~ e~tuna~~ye~o fa ~ ul~ionais de sucessos e fracassos. No exemplo qu: e~tá ôona1s as frequenC1~sP P timativas das freqüências relativas de cranios d siderado isto requer que es , . d ,:s. en o con , 'de Tebas precisem ser conhecidas a fim e serem , 'd' 'sticos e romanos na area d I 'pre- ma. b bT da de de um crânio ser pré-dinástico basea a nos va 0.:capazes de estimar a pro a 1~, . . li. . 1 sui para as vanavelS de XIa X4· . ~ . ,,r~s qu~ e e l?osduma re ressão logística aos dados combinados de 60 craruos c.'x:: . FOl ~p~1Caa g m um crânio pré-dinástico sendo tratado como um :\."..... 'dinasticos e romanos, co , I U':;<'p,re._ d do resultante para testar o quanto um sucesso e re ar a ~f.;~\.f.,:;(.;,pucesso.? test~, qu~ qxu~2 713 com quatro graus de liberdade. Isto é significante<" .,.%,', ,'. ado as variaveis e , . f d laci o ;,i.,.plÜn , 1 dOlo;, dando uma evidência muito orte e um re aCI ,"" te grande ao ruve e r o, d . ,. X .rnen . ti d termo constante e dos coeficientes as variavets sao 'namento. As estima vas o . t ue a estimativa de ~l é significantemente ínostradas na Tabela Pode ser VISo e que ~ é significantemente diferente dif te de zero ao nível em torno de o 3 ., . . _ .~ ..1 eren íveld ~o/ Dortanto Xe X parecem ser as vanaveis lU1.pOI tantes zero ao rovel e L 10. 1 'I 3 ~ . .a 87· io;. L~ , '. discr~in~ção entre os d:ri~!~~: d:r~:~:iminar entre os dois grupos atriA funçao ajustada pode s 84 Como já observado, é desejável buindo valores para P I e P2~ 1 p!;;~~e~ ~opulacionais de crânios pré-dique estes valores correspon es. _, ível or ue estas proporções não násticos e romanos. E~t~etanto, Isto nao e PO~rbitrfrio; recisam ser atribuídos. são conhecidas. N anhratlcal~r~~~~ :~~~:s iguais a 0,5.~ntão log.l (n,P2) I (n2P1) I Por exemplo, supo a que 1 E2 _ 83 a Equação 8.4 se tornam idênticas. -O porque n = n , e a quaçao . e 'd' , . (1) I = oge -, 1 2. b b T d de de um crânio ser pre- mastlco Afunção logística, portanto, eS:lll~aa .pro .amn a~. ré-dinásticos e romanos. em uma população com fre~ü~nCl~s?,-:aIs de cr~~~ação está indicado na fi- ~:r::l - ~~~:::e: O quanto :le~~:~: :s~::d~:r~e 1ti para os 60 crânios da amostra. ~~~~';is:ta diferença nas distribuições dos valores para as duas amostras, com d eficientes das variáveis X quando Estimativas do t;rmo ~o~tandtee o~c~ sem 30 crânios egípciOSmasculinos um modelo de regressão loglstlcae ajusta o aos a o do período pré-dinástico e 30 do período romano Qui-quadrado Valor-p ., 1 Estimativa de ~ Erro pa drao V anave Tabela 8.7 -6,732 13,081 0,008 Constante 75 7 13 -o0,129 ,202 0,0 103 Largura máxima ,. 0,079 2,66 0, Altura da basibregamatlca 3 5,84 0,016 b . 1 1 0,177 0,07 939 Comprimento do asia veo ar 0008 0,104 0,01 0, Altura nasal 'd - 2 O valor-pé a probabilidadede Nota: O valorqui-quadradoé (errode.esti~ativa.de~~errxp:o;a~~ graude liberdade.Umvalor-p um valordestetamanhode uma dístríbutção qUl-qud~ ra ~ que o verdadeirovalordo parâmetro pequeno(d1'gamosmenordo que 0,05) forneceeVIencia e ~. concernentenão é iguala zero. r 1,0 \i,Si Q) "O Cll ;g a..e p p po p p " '~p rfP p p p P p f3 p P p p 0,0 . p p R R ffi p 0,2 .,I R R R p P 0,4 R f p 0,6 zs Cll .o I R R R R ~ p R R R R Crânios na ordem dos dados ~~gu~a~.2 ~al~r~s ~e uma função de regressão Iogística ajustada, representados para cbra~~spre-dmastrcos (P) e 30 romanos (R).As linhas horizontais indicam a média da pro ablhdades de grupo. s a ~~dia para os crânios pré-dinásticos sendo em tomo de 0,7 e a média para os romanos sendo em torno de O 3 Entretanto há também id ' I .b .. '. r • r uma conSI erave ~o r~~osIçao entre as dIstnbUIções. Como resultado, se os crânios da amostra são da~sIfIcados como sendo pré-dinásticos quando a equação logística dá um valor maior ~o qu.e O,~ "" co~o ~0z.na.n0quando a equação dá um valor menor do ue 0,5, entao seIS craruos pre-dmashcos são mal classificados c d q omo sen o romanos e sete cramos romanos sao mal classificados como sendo pré-dinásticos. ' CréUUOS A 8.11 • sendo comparadas vêm de distribuições normais multivariadas com matrizes de .covariância diferentes: en ãO'.4--rJ método chamado análise de função discriminante -quadrática pode ser aplícauo, Esta opção também está disponível em muitos pacotes computacionais. Ver Seber (1984, p. 297) para mais informação sobre este método e uma discussão de seu desempenho relativo à análise padrão de função discriminante linear. Discriminação usando regressão logística foi descrita na Seção 8.10 em termos da comparação de dois grupos. Mais tratamentos detalhados deste método são fornecidos por Hosmer e Lemeshow (2000) e Collett (1991). O método pode também " ser generalizado para discriminação entre mais do que dois grupos, se necessário, sob diversos nomes, incluindo regressão multinomial. Ver Hosmer e Lemeshow (2000, Capo 8) para mais detalhes. Este tipo de análise está agora se tornando uma opção padrão em pacotes computacionais. 8.13 Resumo do capítulo • • _ • Programas computacionais Os cálculos para os exemplos usados neste capítulo foram executados usando o progr~a NCSS (~tze, 2001). Entretanto, pacotes estatísticos maiores geralmente t:m uma opçao de função discriminante que aplica os métodos descritos nas Seçoes 8.2 a 8.5, baseada na suposição de normalidade da distribuição de dados. Por cau~a dos ~eta~es da ordem dos cálculos, da maneira que a saída é ~ada ~ da termmologIa vanan~o consideravelmente, pode ser necessário estuar cUIdadosamente. os ~~nuaIs para determinar precisamente o que é feito or q~alquer programa índívídual. A regressão logística está também amplam p t ~Ispo~vel. Em alguns programas, há a restrição de assumir que todos os i~~: tem difere~tes valores para as variáveis X. Entretanto, é mais comum permitir-se grupos de Itens com mesmos valores de X. • • • • 8.12 Discussão e leitura adicional ~.SUPOSiÇãO.~e ~ue amostras são de distribuições multivariadas com a mesma ma8 ~z d; ~ovananClas a qual é requerida para o uso dos métodos descritos nas Seções . a ., pode algumas vezes ser relaxada. Se assumimos que as amostras que estão • • É descrito o problema de separar indivíduos em diferentes grupos baseando-se nas medidas que os indivíduos têm para p variáveis. Uma solução deste problema envolve alocar cada indivíduo ao grupo que está mais próximo a ele em termos da distância de Mahalanobis, e então ver qual a proporção de indivíduos que estão mal classificados. Uma abordagem alternativa atribuída a Fisher (1936) é baseada na idéia de encontrar a combinação linear das p variáveis que maximiza as diferenças entre os grupos no sentido da estatística F de uma análise de variância. Esta abordagem leva a s combinações lineares .onde s é o mínimo entre o número de variáveis e o número de grupos menos um. Encontrar estas combinações lineares é um problema de autovalor. As combinações lineares são não correlacionadas dentro dos grupos. São discutidos testes de significância para determinar quantas combinações lineares são necessárias para descrever diferenças de grupo. Alguns testes que são comumente usados podem não fornecer bons resultados. As suposições de análise de função discriminante padrão (normalidade e matrizes de covariâncias iguais dentro de grupo) são discutidas. Dois exemplos são considerados envolvendo a comparação de cinco amostras de crânios egípcios masculinos do período pré-dinástico e do romano, e padrões de emprego em quatro grupos de países europeus. A permissão de grupos de diferentes tamanhos é discutida, onde não é igualmente provável que um indivíduo aleatório esteja em qualquer grupo. Análise de função discriminante passo a passo (com a seleção passo a passo de variáveis a serem usadas na função) é discutida, com um método baseado em aleatorização para testar as propriedades do método. O método jacknife para estimar as probabilidades de alocar corretamente indivíduos a grupos é descrito. •• • proDlema atribuir a grup . diIVIíd uos nao - grupados é discutido. _ ,de ,., . os m A r:?ressao Iogístíca e descnta como uma alternativa ao métod al d análise ".f,. _. ,. " '. o.. usu . .~ _.\-ln.çao.mBICt'tli'lmaf>te baseada na suposição d ',.... e da dl~tnbU1ção dos dados. Três tipos de esquemas de a; n~rn 11· a~e tambem descritos. ., os ragem sao Capítulo 9 v . <. . Análise de agrupamentos A abordagem de regressão logística para discriminação é ilustrad d~ os exemplos de discriminação entre pardocas que sobrevive:a:: na? a .uma forte ~empestade, e a comparação de duas amostras de crânios egipClos masculinos. • Programas co~putacionais para análise padrão de função discrimin t e para regressao logística são discutidos. an e • Exte~sões pa~a os métodos cobertos no capítulo são descritas. Essas exte~soes permlt~:n ~ue os métodos sejam aplicados a grupos que têm matnzes de covar~ancla~ ~ifere~tes, e elas permitem que o tipo de abordagem de regressao logística seja aplicado a mais do que dois grupos, 9.1 Suponha que existe uma amostra de n objetos, cada um dos quais tem um escore em p variáveis. Então a idéia de uma análise de agrupamentos é usar os valores das variáveis para planejar um esquema para agrupar os objetos em classes de modo que objetos similares estejam na mesma classe. O método usado precisa ser completamente numérico, e o número de classes não é usualmente conhecido. Este problema é claramente mais difícil do que o problema para uma análise de função discriminante que foi considerado no capítulo anterior, porque para começar com análise de função discriminante, os grupos são conhecidos. Há muitas razões pelas quais uma análise de agrupamentos pode valer a pena. Pode ser uma questão de encontrar os verdadeiros grupos que presumimos realmente existirem. Por exemplo, em psiquiatria tem havido discordância sobre a classificação de pacientes depressivos, e a análise de agrupamentos tem sido usada para definir grupos objetivos. A análise de agrupamentos pode também ser útil para redução de dados. Por exemplo, um grande número de cidades pode potencialmente ser usado como teste de mercado para um novo produto, mas é somente viável usar algumas, Se colocarmos as cidades em um número pequeno de grupos de cidades similares, então um membro de cada grupo pode ser usado para o teste de mercado. Alternativamente, se a análise de agrupamentos gerar grupos inesperados, então isto poderia em si mesmo sugerir relacionamentos a serem investigados. Exercícios 1. Considere os ~ados ~a Tabela 4.5 para nove medidas de mandíbula em ~:~str~s ~~ C1~c~diferentes grupos caninos. Implemente uma análise usa:::~ ~:~~::.ante para ver quão bem é possível separar os grupos 2. Ainda considerando os dados na Tabela 4.5, investigue cada gru o cani:r:os~aradamente para ver se a regressão logística mostra uma dfIerença si.gn cante entre machos e fêmeas para aquelas medidas Note Vista _, dos tamanh , os pequenos d e amostra disponíveis para. cada que ru em o nao e ra~~av~l esperar ajustar uma função logística envolvendogtoda~ ~ove vanavel~, com boas estimativas de parâmetros. Portanto de 'ueVnator demcon~~de~ação o ajuste de funções usando somente su:c:~~ as variaveis. j uU: Referências C.ollett, D. (1991), Modelling Binary Data, Chapman and Hall, London. Fisher, RA. (1936), The utilization of multi P le measurements in taxonomic problems, genics, 7,179-188. Ann. Eu- . I 9.2 Harris, R.J. (1985), A Primer on Multivariate Statistics 2nd ed A d . P Hintze, J. (2001) NC55 d P 5 ", ca erruc ress, Orlando, FL. www.ncss.com, an A 5, Number Cruncher Statistical Systems, Kaysville. Utah, r Hosmer,B D.W. and Lemeshow A .. Regression, 2nd ed., Wiley, New York. Manly: F J (1997) R d .'.' 5 (2000) ,pp ted Logistic r '~~n and Ha~~ L~~~~:~~n, Bootstrap and Monte Carlo Methods in Biologv, 2nd ed.. ChapSeber, G.A.F. (1984), Multivariate Observations, Wiley, New York. Usos de análise de agrupamentos I ) i I L Tipos de análise de agrupamentos Muitos algoritmos têm sido propostos para análise de agrupamentos, Aqui, a atenção será em grande parte restrita àqueles que seguem duas abordagens particulares. Primeiro, há técnicas hierárquicas que produzem um dendrograma, como mostrado na Figura 9.1, Estes métodos começam com o cálculo das distâncias de cada objeto a todos os outros objetos, Grupos são então formados (a) i~alculados sendo que estes representam as médias dos objetos nos grupos. Um ','objete é então movido a um novo gru?o se ele está mais riróximo àquele centro .de grupo do que do centro de seu presente grupo. QU\ ro 0Cl PJ...-. 1:;"' OQ •••.• '.N Cl ~ ~ o roQn"Cn ~ tê l-r, 8 9 ' oo()_ t.n PJ :2" ~ ~ ~ ~ ?: , ~ [2, [~ ~ ~ ro ::::9 , ." ~ § ~ ê ~:;:,..3.p. ""'"a ......-OQ O -. <:) l' ...•. O O ::l r;' c.. ,::l ~ O :;:::I ::lt.n~ro 5' Q.:.nOQ~ ? >~ ' -;:; ~ ~z c :::::~ ~ &, ~ 893;'-;"'" 00 N .;:J ~ ~ Q . cr';:1 o '[ -< ..• :E 8 $: _.c-" to' 2- n 2 ~ ~ ir j;l ~ ~ ~. PJ 2.::l OQ '"O ~ ;:;. ro ...• PJ ~-,<;o '" õ: PJ ç::r,Joot~ ~ ?' ~ S' S- ro •... -e !i PJ g' 2., o ...• c, ~ ::i" !!' g' PJ g' g..Z~ '" ~ ~ PJ í': ro ~ '" ... ::l ~ ~ n' PJ ~ ~ C/) ' ~ iS ~ ""'" -.Q, & p. ' :;>\ :!; PJ PJ ~ c.. '< ,,';;;- -e cn' '" rtr !3 ,'" g' ro trl P. •.• l !>l C. '1j P> t:.: q'c;p,.aro S S ~~ ê 0 ~ r+ ,d ro [J; o 1-" C CJ '"o ~ ~ ...•..!CJ~ o ro ~) () t1 ro o ;:l :::l o ...•. n» C ;:l c, 8" o. o ,., p.l cr, 0--;:;:''1jC/lo o ,., ..•. t:l [J) [J) p.. ~~ ro >-< . P> p. C/l -' o ::;'õPp.l 01 ro ." rp ~ i:ll ,X >-' 00 . '-' ~ T b. 1 tn>< ro 8 !:.. 2', n Cl c; c õ' 8 r;' ;:l ~ c::: H !>l ~\~ ;:! '[" , ffi' n ::r III "9 j ft S1' III :l;§ ::'..h o.h Ol ~ -[J) oq ro ~ S P(1) ", ) Capítulo 10 ~f t I ~--~- -----_._-- Análise de correlação canõnica 10.1 Generalizando uma análise de regressão múltipla Em alguns conjuntos de dados multivariados, as variáveis se dividem naturalmente em dois grupos. Uma análise de correlação canônica pode então ser usada para investigar os relacionamentos entre os dois grupos. Um caso em questão se refere aos dados que são fornecidos na Tabela 1.3. Lá consideramos 16 colônias de borboletas Euphydryas ediiha na Califórnia e Oregon. Para cada colônia, estão disponíveis valores para quatro variáveis ambientais e seis freqüências gênicas. " Uma questão óbvia a ser considerada é se existem relacionamentos entre as freqüências gênicas e as variáveis ambientais. Uma maneira de investigar isto é através de uma análise de correlação canônica. Outro exemplo foi fornecido por Hotelling (1936)no qual ele descreveu urna análise de correlação canônica pela primeira vez. Este exemplo envolveu os resultados de testes para velocidade de leitura (Xl)' potência de leitura (X2), velocidade aritmética (Y e potência aritmética (Y2) para 140crianças estudantes da sétima série. A questão específica que foi considerada foi se habilidade de leitura (como medida por Xl e X2) está ou não relacionada com habilidade aritmética (como medida por Y, e Y2). A abordagem de uma análise de correlação canônica para responder a esta questão é procurar por uma combinação linear de X, e X2 j) e uma combinação linear de Y, e Y2 I ------------ 1 em que estas são escolhidas para fazer a correlação entre U e V tão grande quanto possível. Isto é um tanto quanto similar à idéia por trás de uma análise de componentes principais, exceto que aqui uma correlação é maxirnizada ao invés de uma variância. V é um máximo, sujeito a estas variáveis serem nao correldLlUltaUU" v] 2e 2 .,. '" 'V . a correlação entre U e V é um máximo sujeito a estas variaveis serem nao " 'e ]' 3 3 .'. d : correlaciOIi -,as c m Ul' ,J;, U" V 2; e assim por diante. Cada _~m, dos p~res _~ .variáveis canônicas (UjI VI)' (V2, Vz), ..., (Ur, ~r) re~resenta enta~ ~m.a dimensão ;'independente no relacionamento entre os dOIS conJw:tos de vanav:Is (Xl' ~2' ... , rimeiro par (U V) tem a mais alta correlaçao possível e : X ) e (Y]' YZ' ••. , Y)q' O P ]I 1 . . )portanto o mais importante, o seg~n~o par (Uz' V2) tem a segunda mais alta 'correlação e é portanto o segundo mais importante. ete. 'o., Com Xu X2, Yjt e Y2 padronizadas para ter variâncias unitárias, Hotellingen~ontmu que as melhores escolhas para U e V com o exemplo de leitura e aritmé!..:. __ -..L .•..•...•..•.•... dIl. " U = -2,78X] + 2,27X2 V = -2,44Y] e '-VHl + l,OOY2 10.2 em que e~tas duas variáveis têm uma correlação de 0,62. Pode ser visto que U mede a diferença entre potência e velocidade de leitura, e V mede a diferença entre potência e velocidade aritmética. Portanto, parece que crianças com uma grande ~iferença entre X] e X2 também tendem a ter uma grande diferença entre Y, e Y2• E este aspecto de leitura e aritmética que mostra a maior correlação. Em uma análise de correlação múltipla, uma única variável Y está relacionada a duas ou mais variáveis Xl' X7/ ••• , X para ver como Y está relacionada às ~ariáveis X. Deste ponto de vista, a análise Pde correlação canônica é uma generalização de regressão múltipla na qual várias variáveis Y estão simultaneamente relacionadas à várias variáveis X. Na prática, mais de um par de variáveis canônicas podem ser calculadas de um conjunto de dados. Se existem p variáveis X] X2I""' XP e q variáveis Yl' Y2"'"'Yq' pode haver até o mínimo de P e q pares de variáveis. Isto quer dizer, relacionamentos lineares Procedimento para uma análise de correlação canônica Assuma que a matriz de correlação (p + q) x (p + q) entre as variáveis Xv X2, ... , Xp toma a seguinte forma quando é calculada da amostra para a qual e Y]' Y2' ... , Yq as variáveis são registradas: 1 matrizp xp Pxq matriz A C matriz q xp matriz q x q I v] = anX] +aI2X2 + V 2 = a2IXI + a22X2 + +a]pXp + a2pXp B C' Yq e Desta matriz, uma matriz q x q B-I C' A-I pode ser calculada, e o problema de VI =bl1Yj +bj2Y2 + +blqYq V2 = b21Yj + b22 Y2 + + b2q Yq autovalor (B-] C' A-i C - "-I) b (10.1) =O . 1 ~ t:> > " são então os pode ser conSIderado. Acontece que os autova ores "'] > 2'" r OS correspondentes auquadrados das correlações entre as vanaveis cano:-;Ica.s, e . ,. tovetores, b., b , •.• , b., dão os coeficientes das vanaveis Y ~ar.a as vanaveis c,an~ 2 . T bé f t s de U a i-ésima variável canoruca para as vanaveis rucas. am em, os coe ICIen e j' ' X, são dados pelos elementos do vetor I .,' A' A ( Vr = brJ Y] + br2 Y2 + ... + brq Yq podem ser estabelecidos, em que r é o menor entre p e q. Estas relações são escolhidos de modo ,que a correlação entre U, e V] é um máximo; a correlação entre _ (10.2) 1 YF'E . ,.---.--~',~ ~~.,UUULlV y,ue as vanaveis originais X e Y estão na fonu ~ ~~dr<:>mza~a ~om ~edIas zero e desvios-padrão unitários. Os coeficientes das v ,~. riavers canorucas sao para estRS variãveís padro!1izadas.it. r X2 = -{n- ~(p + q +3)} ~)oge(1- À;) (10.3) -i-11~, Das Equações 10.1 e 10.2,0 i-esimo par de ~ariáveis canônicas é cale I, d como U a o tnque n é O número de casos para os quais os dados estão disponíveis. A estaística pode ser comparada com a porcentagem de pontos da distribuição qui-~adrado com pq graus de liberdade (gl), e um valor significantemente grande 0rnece evidência de que pelo menos uma das r correlações canônicas é signifi, ante. Um resultado não significante indica que mesmo a maior correlação canô1\i:capode ser explica da somente por variação de amostragem. ;1-' Algumas vezes é sugerido que este teste pode ser estendido para permitir %q-t.e a importância de cada uma das correlações canônicas seja testada. Sugestões ;comuns são: > e em que 1. Compare a i-ésima contribuição, a; =(ail,ai2, b; =(b bi2, i1, ,ajp) ,biq) no lado direito da Equação 10.3 com a porcentagem de pontos da distribuição qui-quadrado tendo p + q -2i + 19l. 2. Compare a soma da (i + Ij-ésima até a r-ésima contribuições da soma no lado direito da Equação 10.3 com a porcentagem de pontos da distribuição qui-quadrado tendo (p - i) (q - i) gl. X'==(Xl!X2""'Xp) Y'==(Yl'Y2""'Yq) CO~AOS ~alores de X e Ypadronizados. Como mostram claramente, U e V terão vanancias que ~ependem da escala adotada para o autovetor b.. Entretanto, é um problema SImples calc~lar o desvio-padrão de U, para os dados e dividir ij os valores a pelo ~:u ~esvl<:>-f~drão. Isto produz uma variável canônica escaIonada .com va IanCIa unitária, Similarmente, se os valores b. são divididos pe~o, ~esvlo padrao de Vi' então isto produz um V escalonado1Jcom variância umtana. - u, Aqui, assumimos que a primeira abordagem é a de testar a i-ésima correlação canônica diretamente, enquanto que a segunda é a de testar pela significância da (i+1)-ésima à r-ésima correlações canônicas como um todo. A razão pela qual estes testes não são confiáveis é essencialmente a mesma que já foi discutida na Seção 8.4 para um teste usado com análise de função discriminante. Esta é que a i-ésima maior correlação canônica pode, de fato, ter surgido de uma correlação canônica populacional que não é a i-ésima maior. Portanto, a associação entre as r contribuições do lado direito da Equação 10.3 e as r correlações populacionais é embaçada. Ver Harris (1985, P: 211) para uma discussão adicional sobre este problema. 2 Existem também algumas modificações da estatística de teste X as quais são algumas vezes propostas para melhorar a aproximação qui-quadrado para a distribuição desta estatística quando a hipótese nula vale e o tamanho da amostra é pequeno, mas elas não serão consideradas aqui. 2 Esta f~rma de padronização das variáveis canônicas não é essencial porque a correlaç,a? entre U, entre Vi não é afetada por escalonamentos. Entretanto, ela P?de ser útil ~ua~~o se deseja examinar os valores numéricos das variáveis canôrucas para os indivíduos para os quais os dados são disponíveis. 10.3 Testes de significãncia u~ :es~e aproximado para uma relação entre as variáveis X como um todo e as vanaveis ~ como um todo foi proposto por Bartlett (1947) para a situação em que ~s dados sao de, uma amostra ,aleatória de uma distribuição normal multivariada. Ele envolve o calculo da estatística I rrJl1j1l11i1l· •••••••• •• ·IIII_iIlI!_mrr _ ••••••••••.•••. -- 1 10.4 tha na CalÚórnia e em Oregon. Elas variam com relação a quatro variáveis ambientais (altitude, precipitação anual, temperatura anual máxima e temperatura .. anual mímma): s is variáveis genéticas (porcentagens d€ ~_.•: ;>-rces fosfoglucose-isomerase [Pgi] determinadas por eletroforesis). Quaisquer relacionamentos , .si'Y11ificantesentre as variáveis ambientais e genéticas são interessantes porque el~s podem indicar a adaptação de E. editha ao ambiente local. Para esta análise de correlação canônica, as variáveis ambientais foram trata.....das como as variáveis X e as freqüências gênicas como as variáveis Y. Entretan\: to, todas as seis freqüências gênicas mostradas na Tabela 1.3 não foram usadas porque elas somam 100%, o que ~ermite diferentes ~om~inações li~ea~es destas variáveis terem a mesma correlaçao com uma combmaçao das vanaveis X. Para ver isto, suponha que o primeiro par de variáveis canônicas são UI e VI' onde Interpretando variáveis canônicas Se e então parece que U, pode ser interpretada em termos das variáveis X com coeficientes grandes aij'~ Vipode ser interpretada em termos das variáveis Y com coeficientes grandes bij' E claro, grande aqui significa grande positivo ou grande negativo. Infelizmente, correlações entre as variáveis X e Y podem atrapalhar este processo de interpretação. Por exemplo, pode acontecer que ail seja positivo, e ainda a simples correlação entre Ui e X, seja negativa. Esta aparente contradição pode surgir quando X, é altamente correlacionada com uma ou mais das outras variáveis X, resultando que parte do efeito de XI é explicada pelos coeficientes destas outras variáveis X. De fato, se uma das variáveis X é quase uma combinação linear das outras variáveis X, então haverá uma variedade infinita de combinações lineares das variáveis X, algumas delas com valores aij muito diferentes, que dão virtualmente os mesmos valores UI. O mesmo pode ser dito sobre combinações lineares das variáveis Y. Os problemas de interpretação que surgem com variáveis X e Y altamente correlacionadas devem ser familiares aos usuários de análise de regressão múltipla. Exatamente os mesmos problemas surgem com a estimação dos coeficientes de regressão. Realmente, um comentário honesto parece ser o de que se as variáveis X e Y são altamente correlacionadas, então pode não haver maneira de desmembrar suas contribuições às variáveis canônicas. Entretanto, as pessoas indubitavelmente continuarão a tentar fazer interpretações sob estas circunstâncias. Alguns autores têm sugerido que é melhor descrever variáveis canônicas olhando para suas correlações com as variáveis X e Y do que para os coeficientes a..e b.,11' Por 1J exemplo, se Vi é altamente positivamente correlacionada com Xl! então U, pode ser considerada como refletindo XI em grande parte. Similarmente, se Vié altamente negativamente correlacionada com YI então Vipode ser considerada como refletindo o oposto de YI em grande parte. Esta abordagem pelo menos tem o mérito de identificar todas as variáveis com as quais as variáveis canônicas parecem estar relacionadas. Exemplo 10.1 Correlações ambientaís e genéticas para colônias de uma borboleta Os dados na Tabela 1.3 podem ser usados para ilustrar o procedimento para uma análise de correlação canônica. Aqui há 16 colônias de borboletas Euphydryas edi- Então VI pode ser reescrita substituindo YI por 100 menos a soma das outras variáveis para dar Isto significa que a correlação entre Ul e VI é a mesma que aquela entre eU, porque a constante 100bn na segunda combinação linear não tem efeito na correlação. Então duas combinações lineares das variáveis Y, possivelmente com coeficientes muito diferentes, podem servir muito bem para a variável canônica. De fato, pode ser mostrado que um número infinito de dif.erentes comb~aç~es lineares das variáveis Y servirão bem, e o mesmo é verdadeiro para combinações lineares de variáveis Y padronizadas. Este problema é superado removendo uma das freqüências gênicas da m:;álise. Neste caso, a freqüência gênica 1,30 foi omitida. Os dados foram tambem posteriormente modificados combinando as freqüências bai~as para o~ genes de mobilidade 0,40 e 0,60. Então as variáveis X sendo conSIderadas sao X, = altitude, X2 = precipitação anual, X3 = temperatura máxima anual ..: X4. = t:~peratura mínima anual, enquanto que as variáveis Y são YI =. ~requencIa gemca de mobilidade 0,40 e 0,60, Y2 = freqüência gênica de mobilidade O,~O:Y3 = freqüência gênica de mobilidade 1,00 e Y4 = freqüência gên~ca de m?bIhdade 1 16. São os valores padronizados das variáveis que têm SIdo analisadas de modo que para o restante deste exemplo, X, e Y, se referem às variáveis X e Y I· padronizadas. A matriz de correlações para as oito variáveis é mostrada na Tabela 10.1, sobre a qual foi feita a partição nas submatrizes A, B, C e C", como descrito na I Seção 10.2. I i 1 --.- _.- ~_.~ " •• ~.:"~ '-vu<:!a.,au ~L J:'drd variaveis ediiha, com partição em submatrizes X, XI X2 X3 X4 1,000 0,568 -0,828 -0,936 A, B, C e C' X2 X3 X4 0,568 1,000 -0,479 0,705 -0,828 -0,479 1,000 0,719 -0,936 -0,705 0,719 1,000 A C' YI Y2 Y3 Y. -0,201 -0,573 0,727 --0,458 -0,468 -0,550 0,699 -0,138 0,224 0,536 -0,717 0,438 mecndas em colônias de Euphydryas ; .~ Y, ,-0,201 -0,468 0,224 0,246 C -0,573. -0,550 0,536 0,593 :'Y3 0,727 0,699 -0,717 -0,759 "'80 e 1,16 tendem a ser freqüentes nas colônias com altas temperaturas ,I .. ,recipitação. " /~~ -c)';'-felaçõés.Plfrp B variáveis ambientais e DI são: Y4 -0,458 -0,138 0,438 0,412 Altitude --0,92 B 0,246 0,593 -0,759 0,412 1,000 0,638 -0,561 -0,584 0,638 1,000 -0,824 -0,127 -0,561 -0,824 1,000 -0,264 -0,584 --0,127 -0,264 1,000 Vj Mobilidade 0,40/0,60 0,38 = -0,09X 0,29X2 + 0,48X3 + 0,29X4 = +0,54Y1 + 0,42Y2 - 0,10Y3 +0,82Y4 j -0,77 Temperatura máxima 0,90 ".. , . Temperatura mínima 0,92 Isto sugere que VI é melhor interpretada como urna medida de altas tempe'aturas e baixas altitude e precipitação. As correlações entre VI e as freqüências :Jde genes são; ?s autovalo~es obtidos da Equação 10.1 são 0,7425, 0,2049, 0,1425 e 0,0069. O calculo das raizes quadradas dá as correspondentes correlações canônicas de 0,8617,0,4527,0,3775 e 0,0833, respectivamente, e as variáveis canônicas são encontradas como sendo; VI Precipitação e baixa Mobilidade Mobilidade Mobilidade 0,80 1,00 1,16 0,74 -0,96 0,49 - Neste caso, VI aparece claramente como indicando uma falta de genes de mobilidade 1,00. As interpretações de V1 e V1 não são as mesmas quando feitas com base nas correlações. Para 01, a diferença não é grande e se refere somente à condição de f, altitude, mas para Vl' a importância de genes de mobilidade 1,00 é muito diferente. No geral, as interpretações baseadas em correlações parecem melhores e correspondem com o que é visto nos dados. Por exemplo, a colônia GL tem a maior altitude, alta precipitação, as temperaturas mais baixas e a mais alta freqüência gênica de mobilidade 1,00. Entretanto, como mencionado na seção prévia, existem problemas reais com a interpretação de variáveis canônicas quando as variáveis a partir das quais ela foram construídas têm altas correlações. A Tabela 10.1 mostra que este é de fato o caso com este exemplo. Figura 10.1 mostra uma representação gráfica dos valores de VI contra os valores de V1. É imediatamente claro que a colônia rotulada DP é um tanto quanto não usual comparada com as outras colônias porque o valor de VI não é similar àquele de outras colônias com valores em torno dos mesmos valores para VI' Das interpretações dadas para V1 e VJt pareceria que a freqüência gênica de mobilidade 1,00 é estranhamente alta para uma colônia neste ambiente, Uma inspeção dos dados na Tabela 1.3 mostra que este é o caso. V2 = +2,31X1 - 0,73X2 + 0,45X3 + 1,27X4 V2 = -1,66Y1 - 2,20Y2 - 3,71Y3 + 2,77Y4 V 3 = +3,02X1 + 1,33X2 + 0,57X3 + 3,58X4 = -3,56Y1-1,35Y2 -3,86Y3 -2,86Y4 V 4 = +1,43X1 + 0,26X2 + 1,72X3 - O,03X4 V3 V4 = +ü,60Y1 -1,44Y2 -0,58Y3 +0,58Y4 Existem quatro correlações canônicas porque este é o mínimo entre o número de variáveis X e o número de variáveis Y (em que ambos são iguais a quatro). . . Apesar das correlações canônicas serem bastante grandes, elas não são significantes, de acordo com o teste de Bartlett, por causa do pequeno tamanho da amostra. Foi encontrado que X2 = 18,34 com 16 gl; a probabilidade de um valor deste tamanho de uma distribuição qui-quadrado é em tomo de 0,30. Deixando de lado a falta de significância, é interessante ver qual interpretação pode ser d.ada para o primeiro par de variáveis canônicas. Da equação para V , p.ode ser VIsto que esta é principalmente um contraste entre X3 (temperatura máxuna).e X4 (tem~e.ratura m~ima) de um lado, e X2 (precipitação) do outro. Para V1, existem coeflC1e~~es positivos de moderados a grandes para Y1 (mobilidade 0,40 e 0,60), Y2 (mobIlIdade 0,80) e Y4 (mobilidade 1,16), e um coeficiente negativo pequeno para Y3 (mobilidade 1,00). Parece que genes de mobilidade 0,40, 0,60, Exemplo 10.2 'I I I I J.... Variáveis solo e vegetação em Belize Para um exemplo com um grande conjunto de dados, considere parte dos dados coletados por Green (1973) para um estudo dos fatores influenciando a locação As variáveis canônicas obtidas são Spo PZ. - U1",-,'-d.·YX I·~ . Jl~~~:1 A( .; .:IRe.,. O - - -- - = +l,71YI + 1,07Y2 u, = +0,41XI +0,90X2 V = +0,64 YI + 1,47Y2 2 U = -0,44X1 -0,51X2 3 VI iFWSBCR "S8'· • • ·········_-_··· __·SS····r············ __..·············· MC . ~ • -1 3 • • • -3 -2 - = -0,44X, V4 = +0,12Y1 U4 GH GL = -0,18Y1 V DP -2 -+-0,34X2 +1,13X3 o o,, Tabela 10.2 +0,59X4 +O,22Y3 +O,52Y4 +O,23X3 + O,89X4 + 0,27Y3 + 0,28Y4 +0,18X3 +0,93X4 O,24Y2 + 0,93Y3 + 0,22Y4 - 0,02X2 + 0,72X3 +0,01Y2 +O,26Y3 Variáveis de solo e de vegetação para 151 + 0,15X4 -0,93Y4 quadrados de, 2,5 x 2,5 km, na regiãode Corozal em Belize Figura 10.1 Representaçãode VI e VI para 16 colônias de Euphydryas editha. de lugares de habitação Maya pré-históricos no distrito de Corozal em Belize na Arrtérica Central. A Tabela 10.2 mostra quatro variáveis do solo e quatro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. A análise de correlação canônica pode ser usada para estudar o relacionamento entre estes dois grupos de variáveis. As variáveis de solo são X, = porcentagem do solo com enriquecimento constante de calcário, X2 = porcentagem de solo mineral formado sobre forrageiras com. cálcio na água subterrânea, X3 = porcentagem de solo com matriz de coral sob condições de enriquecimento contínuo de calcário e X4 = porcentagem de solos orgânico e aluvial adjacentes a rios e solos salinos orgânicos na costa. As variáveis vegetação são YI = porcentagem de floresta decídua estacional com ervas de folhas largas; Y2 = porcentagem de florestas de locais baixos ou altos com árvores cobertas com água parada com crescimento nativo de ervas e gramíneas, e pântanos; Y3 = porcentagem de floresta de palmeiras cohune (palmeira das Honduras); e Y4 = porcentagem de floresta mista. As porcentagens não somam 100 para todos os quadrados, então não há necessidade de remover quaisquer variáveis antes de começar a análise. São os valores padronizados destas variáveis, com médias zero e desvios-padrão um, que serão referidos no restante deste exemplo. Existem quatro correlações canônicas (o mínimo entre o número de variáveis X e o número de variáveis Y), e elas são obtidas corno sendo 0,762, 0,566, 0,243 e 0,122. A estatística X2 da Equação 10.3 é obtida corno sendo 193,63 com 16 gl, a qual é significantemente grande quando comparada com a porcentagem de pontos da distribuição qui-quadrado. Portanto, há uma evidência muito forte de que as variáveis solo 'e vegetação estão relacionadas. Entretanto, os dados originais são claramente não normalmente distribuídos, então este resultado deve ser tratado com alguma reserva. ) ;,'l \: II ,. I I I I i I Quadrado Xl X2 1 2 3 4 5 6 7 8 40 20 5 30 40 60 90 100 30 9 O 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 X3 O O O 20 O O O O O 15 20 O 10 40 10 60 45 100 20 O O O 30 O O O O O O O O O O O O 10 O O 50 5 60 60 94 20 15 40 40 5 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O X4 YI 30 10 50 30 20 5 10 O 10 20 O O O O O 10 20 10 50 30 20 40 O O O O 20 40 25 5 5 30 50 80 100 5 100 20 60 80 50 60 50 30 80 O O O O O O O O O 10 50 90 O Yz Y3 Y4 25 90 50 60 95 100 100 80 60 10 50 60 60 10 20 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O 60 O O 50 75 50 100 50 100 100 90 50 10 O O O O O O O O O O O O O O O O O O O O O O O O O O O (Continua) Tabela 10.2 Variáveisde solo e de vegetação para 151 quadrados de 2,5x 2,5km, na região de Corozal em Belize (continuação) ;-:.-.-. --:--------" --- ------~-_._Quadrado X2 X3 X4 Xl Y2 Yl Y3 Y4 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 80 50 10 12 50 50 O O 70 40 O 25 40 90 100 100 100 10 80 60 40 50 50 30 20 20 O O 50 O 20 90 100 15 100 95 95 60 30 50 60 90 30 33 O 50 40 12 50 40 O O 30 40 O 25 40 O O O O O O O O O O 30 20 80 10 50 50 O 20 10 O 15 O O O 40 60 O 30 8 30 33 O O 50 75 O 10 100 100 O 20 100 50 O O O O O O O O O O O O O O O O O O O O O O O O O O 10 50 O O 30 33 20 O O O O O O O O O O O 20 10 O O O 90 20 30 O 50 O 20 40 O 60 30 O 60 60 O O 30 O 5 5 O 10 50 10 2 40 33 O 25 75 10 15 80 100 100 50 50 100 100 80 100 100 90 90 100 100 80 O 100 40 30 O O O O 30 O O 70 100 O 25 90 90 50 50 100 60 80 60 75 100 75 25 90 85 20 O O 50 50 O O 20 O O 10 10 O O O 30 O O 60 100 100 75 75 70 60 100 30 O 40 75 10 10 50 10 O 40 20 40 25 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O (Continua) Tabela 10.2 Variáveisde solo e de vegetação para 151 quadrados de 2,5x 2,5 km, na região de Coroz~~ ~~_!elize~.(co~!~~~açãn) -.- •..~ ...• .. _ Quadrado 73 74 ' 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 Xl X2 X3 X4 Yl Y2 Y3 Y4 20 50 75 75 30 50 100 50 10 30 20 90 30 20 50 80 80 60 50 70 100 60 80 100 100 O 30 15 40 30 60 40 100 100 80 90 100 30 60 100 60 50 60 40 10 O 12 O O 10 O O O 30 20 O O 30 30 O O 10 O O O 30 20 O O O 20 O O O 10 20 O O 10 O O 50 40 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O 40 50 12 25 50 30 O 50 90 20 20 O O 50 10 O O 25 O O O O O O O 60 30 35 45 45 30 40 O O 10 10 O 20 O O 40 O 10 60 O 40 50 40 O 5 60 20 O O O 50 30 20 50 70 50 80 75 75 85 40 50 100 95 O O 20 70 20 10 O 70 40 40 10 20 10 50 80 60 O 25 30 100 60 50 60 100 95 40 80 100 85 75 25 5 80 50 10 O 15 O O 15 60 50 O 5 50 60 30 20 40 65 25 O 60 60 O 10 90 50 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O 5 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O 40 O O 20 20 75 30 O O 90 70 O O 10 O O O O O 50 30 O ]O 10 100 75 20 O O O 30 O O 50 (Continua) Tabela 10.2 Variáveis de solo e de vegetação região de Corozal em Belize (continuação) , Quadrado X] X2 X3 para 151 quadrados X4 Y, De fato, as combinações lineares dadas aqui por U], Vj/ V2 e V2 não são as da saída do programa usado para fazer os cálculos, porque as combinações lineares da saída tinham, todas, coeft,,:lcr.lf.'S negatix os para as variáveis X e Y. Um" ;., ,.., . do sinal é justificada porque a correlação entre -U, e -Vi é a mesma que entre Vi e Vi' Então -Ui e -Vi servirão, assim como Vi e Vi' como as i-ésimas variáveis canônicas. Note, entretanto, que trocando sinais para U1' V1' U2 «v, mudam os sinais das correlações entre estas variáveis canônicas e as variáveis X e y, como mostrado na Tabela 10.3. Considerando as correlações mostradas na Tabela 10.3 (particularmente aquelas fora do domínio de -0,5 a +0,5), parece que as variáveis canônicas podem ser descritas como medindo principalmente: de 2,5 x 2,5 krn, na Y2 }:3 Y4 50 70 50 O O 30 100 O O O 30 O 20 50 25 75 O O O O 50 50 50 O 50 O O 10 O 90 120 40 O 60 O O O O 100 121 30 O O 70 50 O O 50 122 100 O O O 80 10 O 10 123 70 O O 30 O O 50 50 124 O 20 O 80 25 O 75 O 125 IDO O O O 60 O O 40 126 O O 25 75 10 10 O 90 127 O O 70 30 55 O 45 45 128 O O 90 10 80 O 20 35 129 O O 30 70 20 O 80 O 130 O O O 90 O O O 100 131 O O 50 50 25 O O 75 132 O O 50 50 40 O 5 60 133 O O 40 60 60 O 40 O 134 O O 70 15 40 O O 60 135 O O 25 75 10 10 O 90 136 O O 20 30 O 5 O 50 137 O O 70 30 O 30 70 O 138 O O O 100 O 40 O 139 60 O O O 50 O O O 50 140 O O 40 60 O 50 O 30 141 O 20 O 80 O 95 O 5 142 O 30 O 70 O 90 10 O 143 O O 30 15 O O O 144 50 O O 50 50 O 80 20 O 145 O 10 O 90 100 O O O 146 O O 75 25 100 O O O 147 O 10 30 60 O 10 90 O 148 O 10 10 80 100 O O O 149 O O 40 60 100 O O O 150 O O 50 50 40 O 40 60 151 Nota: XI - % de ':;010com enriquecimento constante de calcário, X, = % de solo de prado com cálcio na águ~ subterrânea, X3 = % de solo com matriz de coral sob condições de enriquecimento constante ~e calcano e X. =,% de solos aluvial e orgânico adjacentes a rios e solo orgânico salino na costa. Y, = 117 118 119 ° ° u a presença de solos tipo 1 (solo com enriquecimento constante de calcário) e 3 (solo com matriz de coral sob condições de enriquecimento constante de calcário) V1: a presença de vegetação tipo 1 (floresta decídua estaciona 1 com ervas de folhas largas) U2: a presença de solos tipo 2 (solo de prado com cálcio na água subterrânea) e 4 (solos aluvial e orgânico adjacentes a rios e solo orgânico salino na costa) V2: a presença de vegetação tipo 2 (floresta de locais altos e baixos coberta com água, plantas herbáceas em lugares úmidos e pântanos) e a ausência de vegetação tipo 1. U3: a presença de solo tipo 4 e a ausência de solo tipo 2 V3: a presença de vegetação tipo 3 (floresta de palmeiras das Honduras) U4: a presença de solo tipo 3 e a ausência de solo tipo 1 V4: a presença de vegetação tipo 4 (floresta mista) : 1 Parece, portanto, que os relacionamentos mais importantes entre as variáveis solo e vegetação, como descritas pelos primeiros dois pares de variáveis canõnicas. são: 1. A presença de solos tipos 1 e 3 e a ausência de solo tipo 4 são associados com a presença de vegetação tipo 1. 2. A presença de solos tipos 2 e 4 é associada com a presença de vegetação tipo 2 e a ausência de vegetação tipo 1. Tabela 10.3 Yo de floresta decídua estacional com ervas de folhas largas; Y = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em lugares úmidos e pântanos: Y3 = % de floresta de palma de cohune e Y. = % de floresta mista. I·" II· ·1 L. i X1 X2 X3 X4 J! !, 'i .~ ft' 0., ~ " ',~;' Correlaçõesentre as variáveis canônicas e as variáveis X e Y V1 V2 V3 V4 0,55 -0,02 0,41 -0,35 -0,23 0,73 -0,24 0,55 0,00 -0,68 -0,18 0,74 -0,80 -0,04 0,86 0,19 Y1 Y2 Y3 Y4 V1 V7. V3 V4 0,77 -0,36 0,03 0,11 -0,58 0,91 0,13 -0,03 -0,08 -0,19 0,95 0,26 0,24 0,03 0,28 -0,96 E instrutivo examinar uma representação de draftsman das variáveis canônj, cas e os números de casos, como mostrado na Figura 10.2. As fortes correlações entre U, e 'I].e entn U, ("> \'2 são aparentes como se pode ·'sp~~· - T lvez 'Yl""" a~0-, rnars mtngante mostrado pelas representações são as distribuições não usu . de V3 e V4· Muitos dos valores são bastante similares, em torno de -0,2 para~: ,_ e em torn~ de +0,2 para V4· Entretanto, há valores extremos para alguns casos (observaçoes) entre 1O~ e 120. A inspeção dos dados na Tabela 10.2 mostra qu~ estes casos extremos sao para os quadrados onde vegetação tipos 3 e 4 estavam presentes, o que faz perfeito sentido da definição de V e V • " • •.. , "- 3 .l.~ .•. ~.t. o mesmo problema também existe potencialmente com o exemplo prévio sobre as colônias de borboletas Euphydryas edítha, porque algumas das colônias pstavam bastante pn'n.;.,.o&, Tiú'~"...Ja"v.Deveras, este é um problema pC':(Sr,;:;.i,;l.: ;empre que são feitas observações em diferentes lugares no espaço. A maneira para evitar o problema é assegurar que sejam feitas observações suficientemente afastadas umas das outras para que sejam independentes ou quase independentes, apesar disto ser freqüentemente mais fácil ser dito do que feito. Há métodos .;. disponíveis que levam em conta correlações espaciais nos dados, mas estes estão além do escopo deste livro. _.!.J'i..,7 4 . Antes. de de~xar :ste ex~mplo, é apropriado mencionar um problema poten. cial que amda nao fOI mencIOnado. Este se refere à correlação espacial nos dados po~ quadrados que estão próximos no espaço, e particularmente aqueles que são adjacentes. Se tal correlação existe de modo que, por exemplo, quadrados vizi-' nhos tendem a ter o mesmo solo e vegetação característica, então os dados não for~ecem 151 observações independentes. Com efeito, o conjunto de dados será equ.ivalente a dados independentes de algum número menor de quadrados. O efeito disto aparecerá principalmente no teste de significância das correlações canô~ic~s c<:>~oum todo, com uma tendência para estas correlações parecerem ser rnais signíficantes do que elas realmente são. 10.5 Programas computacíonais A opção para análise de correlação canônica não é tão disponível nos pacotes estatísticos quanto as opções para análises multivariadas que foram consideradas nos capítulos anteriores. Entretanto, pacotes maiores certamente fornecem-na, como mostrado no Apêndice deste livro. 10.6 Leitura adicional -2,9 2,2 I I V4 -7,0 I•••• •• • • V3 V2 V1 150 • •• •• • • ~ n.f!": ••• -3,3 &b ••• - •• • • • .~ 1,6 -2,4 2,3 •• • 1.• ••r• •• •• Não existem muitos livros disponíveis que se concentrem somente na teoria e nas aplicações de análise de correlação canônica. Além do mais, os livros que estão disponíveis foram escritos há algum tempo. Uma referência útil é o livro de Giffins (1985) sobre aplicações de análise de correlação canônica em Ecologia . Cerca da metade desse texto é devotada à teoria, e o restante focaliza exemplos específicos de plantas. Um texto mais curto com urna ênfase em Ciências Sociais é o de Thompson (1985). 2,5 •••••••• ••••• •• "Ju ••• • • ,• •• • • - 7,4 • •• 10.7 •• •~ ,• • Caso • 3,0 Caso U, U2 U3 U4 Figura 10.2 Representação de draftsman de variáveis canônicas obtidas dos dados em variáveis de ~olo e de vegetação para quadrados de 2,5-km em Beltize. (Note que para mel~orar a leItur~, alg~m~s ?as unidades de escalas para o eixo x e eixo y aparecem, respectIvamente, acima e a direita das representações.) • I ...l J Resumo do capítulo Análise de correlação canônica pode ser pensada como uma generalização de regressão múltipla que permite várias variáveis Y dependentes serem relacionadas a várias variáveis X explanatórias. Alternativamente, ela pode ser vista como um método para entender as relações entre dois grupos quaisquer de variáveis. Ela envolve a procura por combinações lineares das variáveis X (Uj, U2, etc.) que têm as correlações máximas possíveis com combinações lineares das variáveis Y (V1, V2, etc.) O processo de cálculo das variáveis U e V é um problema de autovalor. Estas variáveis são chamadas as variáveis canônicas. s~ .gg.§ O~~H-.~ o..>-t (ti o O'" C'C o CIl C'C •.•.•...... ::l C'C e.;;$(tiC'C~ 1-'-,........00 C/) ~ 8~ p,.o (ti Q. ~ C'C ~ ~ ~ (=)' o • •.... ~ ~ ~] g 1")8 o C'C (ti(fj 8 5';:r 8 ;;. 5' ~ ~ I") CIlo """. ro 1-1 CIl ~"'O C'C (ti C'C H III CIl 1::'P>?p,.E:,. "dO ~.... o ;:J"'~ OC/§ t-t c::::: 01 ~ ..o CIlC'Cp,. c: ro CIl O ro' c: c, c, ro, C'C ro P> c: ;;. P> C'C I") ~;;$§..go c, P> ~, ..., 5' ~ O p,. o... ..., ~ o e, ~ o 1-\ (f) c, C'C Pl (fj Pl 3 '81 ~ "'O o ..., CIl ;;$ I") o ::l oq Pl "'O Pl o ::l (ti (fj o> c: ro 2. io ~ I") '"d a" c: ~ i!. t:J "'O P> Pl ::> ~ N CIl g- 8 -::.>~-a- gl gl g ~',,:ri~- .~--:,~._. ~ O 8 ~ gc, ~. 8. ~ ~ rn ro ~ ..., ~ g rn Pl rn n ro PlIt-'..(jrort;Pl O P>' oq •.•. O O c: O..., ~ C'Ca::l~ c::::: •...... rn '"'d ro I") p> C'C <: O ~>N~ "'O a~ n e; ~, S' § 3 ~ CIl O <:troCll..(j ~ c, C'C ~I "'O • g. ~ ~ n g. 1-1 • g; 8 ~ ~ 8 ~ o • 3 e: I""'t' 9 ::l I=:~ • ::F '81 (j ~ õ ~ Q. (j ~ ~ ~ Q. ::.>] o 8. S o (ti ..., ~ 8. o I") o ~ CIl ..., '" 00' ~ nooroOC/ooroolllool")oa"....,.<:~~ C'C §~::l;p,.~p,.3ro~~~~~8~Coo o~(ti3:;;$ro~~~i!.S",o~~gro~ ::lO"Plro 1")",t:J PllllPl<:>-t ....•••• •....·CIl •..•.•CIl..., ~ o ..•. ::> p,...(j CIl..., C'C 3 n:J"'rn I") 00' ..., o •......o "'O ro 01' Ill...... . . sn •..•.. P> III I") I") P> o> ro •......5' ro '1:1 rn ro !':'. 1ll1! CIl::l~O ...,::l •..• 0 ",op>,....::l;:ro IllI ;:t. ....,. 3 ::l i!. EU' ;:::. rn.... •..• rn '--<.... ro . o oq P.:"'O o P> tr: íil p,.J!l ~ 6i <: ro C'C 5r 8 n' CIl @ o c: Q. ro •••.. C'C"Q •••• ::l III ~ '"'d >.~' III a» •.•. rn o "1' n ..., "1 •.•. ..., '" P> M, •..... ::l csC c.:(fj lll....,.::l~roOr1lroo •..•· "1o,On ro ro O. ::1. P> ..o"" 6i Pl' ~''"'d III , :. ;;$ •.... :;l. <: o.... H 8 c. ;;$ ..(j CIl P> o P> ::;.t: rn Pl c, o ::l o ~ ::l ro> •......IllI <: o ~. c, 3 \:.'h o, '"'d o 6i P> p,.::l p,.::l ~ 9 Pl •..•. CIl o ~: o III CIl c, 00' ro ...,. •..•. O. P>I "1::l ><::> CIlÕq 8 no O "'O O '81 ~ O EU; ~, ro C'C,....... CIl S' §':: >9 " CIl O ro ro CIl <: •..•.• 3~, ~""::l (fj oq IllI ro!!'....( •..• (fj ro C'C o.... P> O ....,. P> ro> O 00' p>' •....."'O Fn O (ti ro N "1t-l "i •••••• (fj"1::lro ..., Il> P> C'C ::> g. O .•••• C'C....,...o..o C'C !"1 o•..•.•O >-t ::l-<: 0"'1ll "'n(fjC'Cc~rn::> ::l...... Pl, C'C P> •..... (fj ro O '"'d..::l C'C tU '"'d ~. (ijlll 1=:t:J...,C'C C'C ::JC'CV::lr:tlC'C;::l rnC'C "'::> •.... ·::lp,.n >- <: P>, C'C O rn rov -l=:roCll" -..(jlllp,. (j) C'C •..... :=-: C'C N' 00' c, S ~ O 01 8 P> 00 u: III ~Q 8C'Cp,.p>p>o 3~C'Crn ~orn O..(j "1::lro..oO'" c:ro::lro "13n ;;$Ill ~o~ ~::l(ti8 roC'C~ ::>~ Ill •.•. ' Pl::J"1 Pl ~t:J •......Plot:J rn;;$t:J(ti::>.... <(tiro •..... ..(jp,. ..(j::>orn_::> ro ro, roo ro~. ~ ~ Pl t:J ~ c, ~ Pl ..., •.•. ..., N rn::> p..r1lOI Pl::l I") t)' c, õ> Pl O ro < •.....~ P> <: ro &~ §Plro2ro~ rn~~ p..p':rn n. I=: o> <: p>' 8..., c: •..... O ro; O ro Õ ~ 2 ro ro ~ c: m., ~ ~''''O rn o.• p> ~ S o 7' ~ f'D Al ," m, O M· 00 íil (ri- ~ p> Q,lPlrn <: ~ O p> ~.~~ ••r:n O 'f' ----o -.-..-.-~~~.~ Tabela 10.4 Fontes de proteína e porcentagens empregadas em diferentes Fontes de proteína' País Albânia Áustria Bélgica Bulgária Dinamarca Finlândia França Grécia Hungria Irlanda Itália Países Baixos Noruega Polônia Portugal Romênia Espanha Suécia Suíça Reino Unido USSR Iugoslávia CV 10 9 14 8 11 10 18 10 5 14 9 10 9 7 6 6 7 10 13 17 9 4 CB OVOS 1 14 9 6 11 5 10 3 12 10 1 4 4 2 4 3 3 3 3 5 5 3 14 4 3 3 1 2 3 4 3 5 2 1 5 10 4 6 3 8 10 6 5 5 LEITE 9 20 18 8 25 34 20 18 10 26 14 23 23 19 5 11 9 25 24 21 17 10 PEIX ° --- CRL 2 ° 42 28 27 57 22 26 28 42 40 24 3 37 3 10 3 14 1 7 8 2 4 3 1 22 23 36 27 50 29 20 26 24 44 56 2 5 1 10 6 6 6 ·CV = carne vermelha; CB = carne branca; OVOS linhaça; F&V = frutas e vegetais. = ovos; grupos ACA GNL 1 4 6 1 5 5 5 2 4 6 2 4 5 6 6 3 6 4 3 5 6 3 6 1 2 4 1 1 2 8 5 2 4 2 2 2 5 5 6 1 2 3 3 6 LEITE = leite; F&V 2 4 4 4 2 1 7 7 4 3 4 3 7 8 3 7 2 5 3 3 3 PEIX MIN 55,5 7,4 19,4 8,5 5,1 22,2 15,3 13,8 8,4 4,2 5,8 23,6 11,5 22,0 9,9 3,2 5,6 2,2 18,5 5,0 = peixe; para países 'europeus Porcentagens empregadas em diferentes grupos de indústrias" AGR 2,6 19,0 5,6 7 de indústrias 0,3 0,2 0,0 0,1 0,2 0,3 0,5 28,9 0,6 1,1 0,1 1,1 3,9 0,5 2,6 0,5 0,3 0,0 0,7 0,0 2,2 FAB FEA CON SER FIN SSP TC 0,0 26,9 20,8 35,0 20,4 19,3 20,2 19,2 0,0 19,8 21,9 19,2 14,6 24,1 23,6 37,9 21,1 19,0 24,7 21,3 28,8 38,7 3,4 3,3 19,1 16,9 9,4 14,5 14,6 16,7 18,2 13,3 17,8 21,6 18,5 17,6 10,3 19,8 6,9 20,1 14,2 20,5 20,2 7,9 13,8 15,3 6,7 8,7 1,5 9,1 8,6 10,2 5,3 0,0 8,4 4,6 11,5 7,6 1,3 6,3 0,6 5,9 9,4 10,7 12,4 0,0 23,3 36,9 20,9 36(~ 33;2 33;1 19,() 27,:1 25,5 28 0 38,'·\ 3,0 6,4 0,0 1,2 0,8 0,0 0,7 1,2 0,9 1,0 0,0 1,2 0,0 0,7 1,1 0,9 0,7 2,0 0,6 0,8 0,0 1,2 0,0 2,2 8,5 6,3 6,7 6,4 6,8 7,1 6,8 6,4 7,1 9,1 0,6 6,5 6,3 8,2 5,8 9,5 6,4 9,2 7,0 10,2 8,1 ACA = alimentos com amido; GNL 0,6 3,1 = grãos, 6,8 7,5 7,0 7,5 6,4 6,9 8,8 5,8 5,3 6,8 37,:' 8,1 2l~:/5 5,2 24,6 4,8 15,3 6,8 26,7 5,8 39,5 7,2 23,1 6,2 28,4 6,5 25,6 8,4 19,1 7,8 1 nozes e óleo ds b AGR = agricultura, florestal e pesca; MIN = mineração e exploração de pedreiras; FAB = fabricação; FEA = fornecimento de energia e água; CON = construção; SER = serviços; FIN = finança; SSP = serviços social e pessoal; TC = transporte e comunicações. Bartlett,M.S. (1947),Thegeneralcanonicalcorrelationdistribution 18,1-17. " Ann Mathemat' I Ct ti . ,. icat s a IstzCS. Capituto 11 Giffins, R. (1985), Canonical Analysis: a Review with Applications in E I S. Berlin. ,co ogy, prmger- Verlag, Green, E.L. (1973), Location analysis of prehistorir Maya sites in British H d . qUI/y, 38, 279-293." on uras, Am. Antz-\ Harris, R.J. (1985), A Primer of Multivariate Statistics, Academic Press Orl Escalonamento multidimensional d Hote1ling, H (1936),Re1atio~s between two sets of variables, Biomet~ika, ;~ ;~1-377. Thompson, B. (1985), Canonical Correlaiion Analysis: Uses and Interpretations S P blí , Thousand Oaks, CA. r age u lcahons, Construindo um mapa de uma matriz de distâncias O escalonamento multidimensional é projetado para construir um diagrama mostrando os relacionamentos entre um certo número de objetos, sendo dada somente uma tabela de distâncias entre objetos. O diagrama é então um tipo de mapa que pode ser em uma dimensão (se os objetos caem em uma reta), em duas dimensões (se os objetos caem em um plano) em três dimensões (se os objetos podem ser representados por pontos no espaço), ou em um número mais alto de dimensões (caso em que uma simples representação geométrica não é possível). O fato de ser possível construir um mapa de uma tabela de distâncias pode ser visto considerando o exemplo de quatro objetos - A, B,C e D - mostrados na Figura 11,1.As distâncias entre os objetos são dadas na Tabela 11.1.Por exemplo, a distância de A a B, a qual é a mesma que a distância de B a A, é 6,0, enquanto que a distância de cada objeto a si mesmo é sempre 0,0, Parece plausível que o mapa possa ser reconstruído de um arranjo de distâncias. Entretanto, é também aparente que uma imagem espelhada do mapa, como mostrado na Figura 11.2, terá o mesmo arranjo de distâncias entre objetos. Conseqüentemente, parece claro que uma reconstituição do mapa original estará sujeita a uma possível reversão deste tipo. É também aparente que se mais de três objetos estão envolvidos, então eles não se encontram sobre um plano. Neste caso, a matriz de distâncias conterá implicitamente esta informação. Por exemplo, o arranjo de distâncias mostrado na Tabela 11.2 requer três dimensões para mostrar os relacionamentos espaciais entre os quatro objetos. Infelizmente, com dados reais, usualmente não é conhecido o número de dimensões necessárias para uma representação. Então, com dados reais, normalmente precisa ser experimentada uma variedade de dimensões. A utilidade do escalonamento multidimensional vem do fato de que muitas vezes surgem situações onde o relacionamento subjacente entre objetos não é conhecido, mas a matriz de distâncias pode ser estimada, Por exemplo, em Psicologia, sujeitos podem ser capazes de verificar quão similares ou diferentes são -- -~._--~-~--------- pares ma.!vlaUaIS de Objetos sem serem capazes de extrair uma percepção global das relaçoes entre os objetos. O escalonamento multidimensional pode entã f necer esta percepção. ..,.,. __... o Or- Uma matriz de distâncias entre quatro objetos em três dimensões Tabela 11.2 D A A ,---------:----:::::::;'T B A B C D O 1 1 ° .../2 '1/2 1 1 .../2 1 ° .../2 .../2 1 .../2 O No presente momento, há uma ampla variedade de técnicas de análise de dados que estão sob o título geral de escalonamento multidimensional. Somente as mais simples serão consideradas aqui, sendo elas os métodos clássicos propostos por Torgerson (1952) e Kruskal (1964a, 1964b). Um método relacionado chamado análise de coordenadas principais é discutido no Capítulo 12. c Figura 11.1 11.2 Procedimento para escalonamento multidimensional Quatro objetos em duas dimensões. Tabela 11.1 Distâncias Euclidianas entre os objetos mostrados na Figura 11.1 A B C D A B C D 0,0 6,0 6,0 2,5 6,0 0,0 9,5 7,8 6,0 9,5 2,5 7,8 3,5 0,0 3,5 0,0 B C F.igura 11.2 U~a im~gem espelhada dos objetos na Figura 11.1para os quais as distânentre os objetos sao as mesmas. eras Um escalonamento multidimensional clássico começa com uma matriz de distâncias entre n objetos que têm bW a distância do objeto i ao objeto j, na i-ésima linha e j-ésima coluna. O número de dimensões para o mapeamento dos objetos é fixado por uma solução particular em t (1 ou mais). Diferentes programas computacionais usam diferentes métodos para implementar análises, mas geralmente algo como os seguintes passos são envolvidos: 1. Uma configuração inicial é estabelecida para os n objetos em t dimensões, i.e., coordenadas (Xl' X2, ... , x.) são assumidas para cada objeto em um espaço t-dimensional. 2. As distâncias Euclidianas entre os objetos são calculadas para a configuração assumida. Seja dij a distância entre o objeto i e o objeto j para esta configuração. 3. Uma regressão de dij em bij é feita onde, como mencionado acima, bij é a distância entre o objeto i e o objeto j, de acordo com os dados de entrada. A regressão pode ser linear, polinomial ou monótona. Por exemplo, uma regressão linear assume que onde êij é um termo de erro, enquanto que IX e ~ são constantes. Uma regressão monótona assume somente que se bij cresce, então dij ou cresce ou pern:anece co~s:an~e, m~s nenhum relacio~amento exat~ entre 8ij e d~ é assumido. As distâncias ajustadas da equaçao de regressao (dij = IX+ Pw assumindo regressão linear) são chamadas disparidades. Isto quer dizer, as dísparidades d,I) são as distâncias de dados 8., escalonadas para emparelhar I) com as distâncias de configuração dij tão proximamente quanto possível. ,,. 4. A qualidade de ajuste entre as distâncias de configuração e as disparidades é medida por uma estatística adecuada. Uma possibilidade é a fórmula stress de Kruskai, a qual é . (11.1) A palavra stress é usada aqui porque a estatística é uma medida do quanto a configuração espacial de pontos tem que ser forçada para obter os dados de distâncias <>w 5. As coordenadas (xv x2' .•• , x.) de cada objeto são alteradas levemente de tal maneira que o stress é reduzido. Os passos de 2 a 5 são repetidos até indicação de que o stress não pode mais ser reduzido. O resultado da análise consiste então das coordenadas dos n objetos em t dimensões. Estas coordenadas podem ser usadas para desenhar um mapa que mostre como os objetos estão relacionados. É melhor quando uma boa solução pode ser encontrada em três ou menos dimensões, pois uma representação gráfica dos n objetos é então direta. Obviamente isto não é sempre possível. Pequenos valores de STRESS 1 (próximos de zero) são desejáveis. Entretanto, definir o que se entende por "pequeno" para uma boa solução não é imediato. Como um guia rústico, Kruskal e Wish (1978, p. 56) indicam que reduzindo o número de dimensões até que STRESS 1 exceda O), ou aumentando o número de dimensões quando STRESS 1 já é menor do que 0,05, é questionável. Entretanto, sua discussão concemente à escolha do número de dimensões envolve mais considerações do que isto. Na prática, a escolha do número de dimensões é muitas vezes feita subjetivamente, baseada no compromisso entre o desejo de manter o número pequeno e o desejo oposto de fazer o stress tão pequeno quanto possível. O que está claro é que, em geral, é pouco importante aumentar o número de dimensões se isto somente leva a um pequeno decréscimo no stress. É importante distinguir entre escalonamento multidimensional métrico e escalonamento multidimensional não-métrico. No caso métrico, as distâncias de configuração dij e as distâncias de dados 0ij são relacionadas por uma equação de regressão linear ou polinomial. Com escalonamento não-métrico, tudo que é exigido é uma regressão monótona, o que significa que somente a ordem das distâncias de dados é importante. Geralmente, a maior flexibilidade de escalonamento não-métrico deveria tornar possível obter uma melhor representação de baixa dimensão dos dados. Se as distâncias rodoviárias fossem proporcionais às distâncias geográficas, seria possível reconstituir verdadeiro mapa exatamente, usando uma análise bídi:tilensional. Entretanto, devido à au~1.-c:n de liga" -v _8diretas de rodovias entre muitas cidades, as distâncias rodoviárias são em alguns casos muito maiores do que as distâncias geográficas. Conseqüentemente, tudo que se pode esperar é uma reconstituição bastante aproximada do verdadeiro mapa mostrado na Figura 11.3 das distâncias rodoviárias que são mostradas na Tabela 11.3. O programa computacional NCSS (Hintze, 2001) foi usado para a análise. No passo 3 do procedimento descrito acima, um relacionamento de regressão monótona foi assumido entre as distâncias do mapa dij e as distâncias 0ij dadas na Tabela 11.3. Isto dá o que é algumas vezes chamado um escalonamento multi- o ". Ji Christchurch Franz Josef :\ Milford ....; ~ f ) Te ~~~~... ..... :. \... • Dunedin ······r·······::. Balclutha o Exemplo 11.1 Distâncias rodoviárias entre cidades da Nova Zelândia Como um exemplo do que pode ser obtido por escalonamento multidimensional, considere um mapa da Ilha Sul da Nova Zelândia que foi construído de uma tabela de distâncias rodoviárias entre as 13 cidades mostradas na Figura 11.3. •....; Blenheim Nelso~ ...~· Invercargill 50 100 Milhas Figura 11.3 A Ilha Sul da Nova Zelândia, com as principais rodovias entre 13 cidades indica das pelas linhas tracejadas. nlBlliU nEuya.l ;ar:: C1l UMolsuaanO o Z n:s "lj PloJHW '"5 (/) n:s ;:5 >-< n:s m21B:llaAUJ: r.:: Ul Q) "lj n:s l{lnoUlÁa18 :slu cr) ~ .•..'"' Q) jaso i ZUE1tl dimensional não-métrico clássico. O programa produziu uma solução bidimensional para os dados usando o algoritmo descrito anteriormente. O valor final do s ressfoi 0,041 calculado usando a Equação '~:.:'. A saída do programa inclui as coordenadas das 13 cidades para as duas dimensões produzidas na análise, como mostrado na Tabela 11.4. Para manter a orientação norte-sul e este-oeste que existe entre as cidades reais, os sinais dos valores para a segunda dimensão foram revertidos para produzir o que é chamado nova dimensão 2. Este sinal reverso não muda as distâncias entre as cidades baseadas em duas dimensões, e a nova dimensão é portanto tão satisfatória quanto a original. Se o sinal é mantido sem mudança, então a representação gráfica das cidades contra as duas dimensões parece uma imagem espelhada do mapa real. Uma representação gráfica das cidades usando estas coordenadas é mostrada na Figura 11.4. Uma comparação desta figura com a Figura 11.3 indica que o escalonamento multidimensional teve bastante sucesso na reconstituição do mapa real. No geral, as cidades são mostradas com os relacionamentos corretos umas com as outras. Uma exceção é Milford. Porque esta cidade pode ser alcançada somente por rodovia através de Te Anau, o mapa produzido por escalonamento multidimensional tornou Milford mais próxima de Te Anau. De fato, Milford é geograficamente mais próxima de Queenstown do que de Te Anau. r.:: Q) o Z •.... Clt(~ÁSlOd: ot'--~;::::~O\~'.D'.D~ oooO\~;::~~~~~~ 1""""'4 t--I~ 1""""'4 i-; }: l 'ê '" QJ ...,J S '.0 .2 ;:3 -;:: c, '" ~' "~ ..t:: 5 ~'"..." '" Q) N Oo\'DNtr)tr)Lfl'.DLD,:: o~ o"'" t""""Ir-(~r-4T"""'fI""""'4'C""""1l""""'ir-lrl~rlt--l lUTIH !~ OOOLflLDOO\t--LD'.D-.jILD\Ot'--,.....,C'0 rlrlr-l '2 :e r-Irlrlr-lT-t r-Iri t ~ t:: '" ~... ~ ;:,: '" D ~ ro o. ,tlo ~ '" o o fi "CJQJ :: ~ QJ ~ "CJ o ç: onde fij é um termo de erro e ~ é uma constante. Os valores do stress obtidos para soluções de duas, três e quatro dimensões foram encontrados com base nesta equação como sendo 0,237,0,130 e 0,081,respectivamente. '" 2 oj UClSÁml~UIlaJtI LD ,....., ,...; ~ fi plBMOH 11') .§ fi Q) .:: (l) 8 ~•.... ro c, .•..ro (l) rn i '".-< o (l) (l) U ;j -c . Para um segundo exemplo do valor do escalonamento multidimensional, considere a matriz de distâncias mostrada na Tabela 11.5. Aqui as distâncias são entre 15 parlamentares de Nova Jersey na Casa de Representantes dos EUA. Eles são responsáveis pelo número de votos de discordância em 19 ante-projetos de lei concementes a problemas arnbientais. Por exemplo, os deputados Hunt e Sandman discordaram em 8 de 19 vezes. Sandman e Howard discordaram 17 de 19 vezes, ete. Considera-se que ocorre uma concordância se dois congressistas votam ambos sim, ambos não ou ambos não votam. A tabela de distâncias foi construída dos dados originais fornecidos por Romesburg (1984, p. 155). Duas análises foram implementadas usando o programa NCSS (Hintze, 2001). A primeira foi um escalonamento multidimensional métrico clássico, o qual assume que as distâncias da Tabela 11.5 são medidas em uma escala de razão. Isto quer dizer, é assumido que dobrando um valor distância é equivalente a assumir que a distância de configuração entre dois objetos é dobrada. Isto significa que a regressão no passo 3 do procedimento já descrito é da forma QJ "CJ ~ o O"CJ '.0 fi •... g '" ro 8P.. ~~ o Q)
  • ,,-,~ '-'6'6'~,-,Q6' ,§O fi ç:; ~ o ..ê Q) '-' :s2 ' " ' -' --O .•.• "'ç: >::<5 ç;,::ro '-' S ~ '" c, bO..c:-~'" +-' õ3 Q o ~ ..c: "'O 'N ãl •...• '" >:: ~ .•... "'O ~ S.S >. ç: '-' tí .:::.~ õ3 ro .~ (l) ? .~ .H ~..o §ç: o_rn"'d(l)-"ds~ •...• ç::t:: "'~ t:: ro 0..c: ~ C5'~ o QJ O· . ~ ro ro o ;J o :ICIl:IF-r~~3:~::cç;,::;;2 Qp..,:2:0.. u, .- ·'/;c.!l.tions Sprm' _ ~d r , Cox, T.E and Cox, M.A.A (1994), Multidimensional Scaling, 2nd ed., Chapman Boca Raton, FL. Hiruze, .' and Hall/CRC r J. (2001), NCSS and PASS, Number Cruncher StatistieaJ Systems Kaysville vel on-Iine em www.ness.cam. r Kruskal, J.B. (1964a), Multidimensíonal sealing by optimizing . 29, 1-27. h ypo thesí eS1S,P syc homeirics, Kruskal, J.B. (1964b), Nonrnetrie 29,115-129. Kruskal, ~~.and Capítulo 12 ~.\ . . B.<:.rg, I. and ~r()~nen.' P. (1997), Modern Multidimensional Smlipg: ger- Ve fag, Berlín, . multidirnensional goodness of fit to a nonrn t . e ne sealing: a numerieal method Psychom t . e ncs, r Wish, M. (1978), Multidimensional Scaling, Sage Publications, Thousand Oaks, Romesburg, H.C. (1984), Cluster Analysis for Researchers, Lifetime Learning Publications, mont,CA. Torgerson, W.S. (1952), Multidimensional 401-419. Ordenação UT di , ,ISponl- scaling, 1: theory and method Bel- Psychometrics r 17 , 12.1 , o problema da ordenação A palavra ordenação para um biólogo significa essencialmente o mesmo que escalonamenio para um cientista social. Ambas as palavras descrevem o processo de produção de um pequeno número de variáveis que podem ser usadas para descrever a relação entre um grupo de objetos, começando ou de uma matriz de distâncias ou similaridades entre objetos, ou dos valores de algumas variáveis medidas em cada objeto. Deste ponto de vista, muitos dos métodos que foram descritos em capítulos anteriores podem ser usados para ordenação, e alguns dos exemplos se relacionam com este processo. Em particular, representação gráfica de pardocas contra as duas primeiras componentes principais das medidas de tamanho (Exemplo 5.1),representação gráfica de países europeus contra as duas primeiras componentes principais para variáveis de emprego (Exemplo 5.2), produção de um mapa da ilha Sul da Nova Zelândia de uma tabela de distâncias entre cidades por escalonamento multidimensional (Exemplo 11.1),e representação gráfica de parlamentares de Nova [ersey contra eixos obtidos por escalonamento multidimensional baseado em comportamento de votação (Exemplo 11.2),são todos exemplos de ordenação. Além disso, a análise de função discriminante pode ser pensada como um tipo de ordenação que é designada para enfatizar as diferenças entre objetos em diferentes grupos, enquanto que a análise de correlação canônica pode ser pensada como um tipo de ordenação que é designada para enfatizar as relações entre dois grupos de variáveis medidas nos mesmos objetos. Apesar da ordenação poder ser considerada como cobrindo uma amplitude de situações, em biologia ela é muitas vezes usada como uma maneira de resumir as relações entre diferentes espécies determinadas de suas abundâncias em um número de diferentes locais ou, alternativamente, como uma maneira de resumir as relações entre diferentes locais com base na abundância de diferentes espécies nestes locais. É este tipo de aplicação que é considerado particularmente no presente capítulo, apesar dos exemplos envolverem arqueologia como também biologia. O propósito do capítulo é dar mais exemplos do uso de análise de compo- j nentes principais e escalonamento multidimensional neste contexto, e descrever ( os métodos de a~álise de coordenadas principais e análise de correspondência· q-12"nã~ foram-cobertos em capítulos anteriores. Tabela 12.1 Autovalores de uma análise de componentes principais dos dados na Tabela 9.7 tratando os lotes como os objetos de interesse e a contagem de Componente 12.2 Análise de componentes principais A análise de componentes principais já foi discutida no Capítulo 6. Pode ser relembrado que este é um método pelo qual os valores para as variáveis Xl' X2, ••. , \, medidas em cada um dos n objetos, são usados para construir componentes principais ZJt Z2' ..., 2p que são combinações lineares das variáveis X e são tais que 2 . u tem a vanância máxima possível, Z2' tem a maior variância possível condicionada a ela ser não correlacionada com Zj' 23 tem a variância máxima possível condicionada a ela ser não correlacionada com ambas Z1 e Z2' e assim por diante. A idéia é que pode ser possível, para alguns propósitos, substituir as variáveis X por um" número menor de componentes principais, com pequena perda de informação. Em termos de ordenação, se pode esperar que as primeiras duas componentes principais sejam suficientes para descrever as diferenças entre os objetos, porque então uma representação de Z2 contra Z1 fornece o que é requerido. É menos satisfatório descobrir a que três componentes principais são importantes, mas uma representação de Z1 contra Z2 com valores de Z3 indicados pode ser aceitável. Se quatro ou mais componentes principais são importantes, então, é claro, uma boa ordenação não é obtida, pelo menos no que se refere à representação gráfica. Exemplo 12.1 Espécies de plantas na Reserva Natural de Steneryd A Tabela 9.7 mostra as abundâncias de 25 espécies de plantas em 17 lotes de um prado de pastagem na Reserva Natural de Steneryd na Suécia, como descrita no Exercício 1 do Capítulo 9, o qual se referia ao uso dos dados para análise de agrupamentos. Agora é uma ordenação dos lotes que será considerada, e neste caso, as variáveis para análise de componentes principais são as abundâncias das espécies de plantas. Em outras palavras, na Tabela 9.7, os objetos de interesse são os lotes (colunas) e as variáveis são as espécies (linhas). Porque existem mais espécies do que lotes, o número de autovalores na matriz de correlação é determinado pelo número de lotes. De fato, há 16 autovalores nãonulos, como mostrado na Tabela 12.1.As primeiras três componentes explicam em torno de 69% da variação nos dados, o que não é uma quantidade particularmente alta. Os coeficientes para as primeiras três componentes principais são mostrados na Tabela 12.2. Eles todos são contrastes entre a abundância de diferentes espécies que bem podem ter significado para um botânico, mas nenhuma interpretação será feita aqui. A Figura 12.1 mostra um diagrama de draftsman do número do lote (1 a 17) e das primeiras três componentes principais (CP). É importante notar que a primeira componente está proximamente relacionada com o número do lote. Isto Autovalor % do total % cumulativa 35,17 35,17 8,79 1 57,51 22,34 5,59 2 69,33 11,82 2,96 3 77,04 7,72 1,93 4 83,37 6,32 1,58 5 1,13 87,89 4,52 6 91,86 3,97 0,99 7 94,04 2,18 0,55 8 95,64 0,40 1,60 9 97,04 1,40 0,35 10 97,82 0,78 0,20 11 98,53 0,70 0,18 12 99,04 0,13 0,51 13 99,50 0,46 0,12 14 n 99 r 8G UI'::>U 0,07 15 100,00 0,20 0,05 16 100,00 25,00 Total Nota: Os valores mostrados são para os coeficientes das abundâncias de espécies padronizadas com médias zero e desvios-padrão um. ""0 reflete o fato de que os lotes estão na ordem de abundância de espécies com uma alta resposta à luz e uma baixa resposta à umidade, reação do solo e nitrogênio. Portanto a análise foi capaz de pelo menos detectar esta tendência. Exemplo 12.2 Túmulos em Bannadi Para um segundo exemplo de ordenação de componentes principais, serão considerados os dados mostrados na Tabela 9.8 concernentes a bens de túmulos de um cemitério em Bannadi, no nordeste da Tailândia. A tabela (gentilmente fornecida pelo Professor c.F.W. Hígham) mostra a presença e a ausência de 38 diferentes tipos de artigos em cada um dos 47 túmulos, com informação adicional s~ ~ corpo era de um adulto masculino, adulto feminino ou uma cnança. No Exercício 2 do Capítulo 9, foi sugerido que a análise de agrupamento fosse usada para estu~ar as relações entre os túmulos. Agora, a ordenação é considerada com o mesmo f~m em mente. Para uma análise de componentes principais, os túmulos são os objetos de interesse, e os 38 tipos de bens de túmulo fornecem as variáveis a ~~re~ analisadas (presença ou ausência, i.e., 1 ou O, respectivamente). Estas vanaveis foram padronizadas antes de usá-Ias de modo que a análise foi baseada em sua matriz de correlação. Em uma situação como esta, onde somente presença e ausência de dados s.ao disponíveis, é comum acontecer que um grande número de componentes prm- . Tabela 12.2 Os primeiros dados na Tabela 9.7 ,'- -.-~_' três componentes principais .----- Espécies Festuca ovina Anemone nemorosa Sallaria holostea Agrostis tenuis Ranunculus ficaria Mercurialis perennis Poa pratenis Rumex acetosa Veronica chamaedrys Dactylis glomerata Fraxinus excelsior (juu) Saxifraga granulata Deschampsia flexuosa Luzula campestris Plantago lanceolata Festuca rubra Hieracium pilosella Geum urbanum Lathyrus montanus Campanula persicifolia Viola riviníana Hepatica nobilis Achillea míllefolium Allium sp. Trifolim repens para os -~..:.._- 21 0,30 -{l,2S -0,20 0,17 -{l,1I -0,08 -0,11 -0,01 -o.is -{l,23 -{l,26 0,13 -0,05 '0,28 0,27 -0,03 0,27 -{l,20 -{l,15 -0,21 -0,24 -0,21 0,29 -{l,18 0,21 I .. ·: ".--=- -'-- ,-- 22 23 0,01 0,02 0,20 0,14 -0,32 -0,31 0,32 0,34 0,36 0,15 -0,11 0,24 0,12 0,09 0,11 0,23 -0,02 -0,18 0,26 0,18 0,17 0,03 0,03 -0,12 0,11 -0,07 -0,19 -0,19 0,01 -{l,07 0,02 -{l,1I 0,23 -0,06 0,18 0,17 0,23 -0,45 0,00 0,26 0,19 0,05 0,29 -0,19 0,07 0,11 0,34 0,10 0,36 0,22 cipais seja necessário a fim de contarem pela maior parte da variação nos dados. Este é certamente o caso aqui, com 11 componentes necessários para explicar 80% da variância e 15 requeridos para explicar 90% da variância. Obviamente, existem excessivos componentes principais importantes para uma ordenação satisfatória. Para este exemplo, somente os primeiros quatro componentes principais serão considerados, com o entendimento de que muito da variação nos dados originais não é explica da. De fato, os quatro componentes correspondem a autovalores de 5,29, 4,43,3,65 e 3,34, enquanto que o total de todos os autovalores é 38 (o número de tipos de artigos). Então estes componentes contam por 13,9%, 11,6%,9,6% e 8,8%, respectivamente, da variância total, e eles explicam 43,9% da variância. Os coeficientes das variáveis presença-ausência padronizadas são mostrados na Tabela 12.3 com os maiores valores (arbitrariamente estabelecidos como valores absolutos maiores do que 0,2) sublinhados. Para ajudar na interpretação, os sinais dos coeficientes foram revertidos, se necessário, do que foi dado pela saída computacional a fim de assegurar que os valores de todos os componentes são .'i X jj nj LX j 1 LX2jXnj 2jX1j S=XX'= das variáveis XI' X2, ..• , Xp que são medidas em cada um dos objetos que estão sendo considerados. Existem p destas componentes, e os coeficientes aij são dados pelo autovetor ai correspondente ao i-ésirno maior autovalor À.i da matriz de covariâncias amostral C das variáveis X. Isto é o mesmo que dizer, a equação (12.3) / . para J. de 1a p podem em que os soma tonos . '1an id a d es entre os n objetos medidas de snru é imediatamente aparente, mas é justi!icado distância Euclidiana do objeto i ao objeto k, (12.1) é satisfeita, em que a( = (ail, ai2, .. , ~p)' Também, a variância de Z, é Var(Z) = À.i, em que ela é zero se Z, corresponde a uma combinação linear das variáveis X que é constante. 2.< Se as variáveis X são codificadas para terem médias zero nos dados originais, então a matriz covariância C, p x p, tem a forma L~ A expansão LXi2XiP /(n -1) LXipXi2 LXiP\I Lx do lado direito desta equação mostra que d;k = Sü LXilXiP 2 Ip + Skk - 2sik (12.4) , ,. linha e k-ésima " coluna de XX', Segue ue s, é o elemento na i-esrma em q / Ik medida da similaridade entre os objetos 1 e k porque cresque s e uma / di . íd AI/m cend: s- significa que a distância dik entre os objetos e lffim: ;. _ ; , , ik. toma o valor máximo de (s., + Skk)/2 quan o ik,--: ' ,o dISSO, e VISto tandoos objetos i e k têm valores idênticos para as vanaveis que ocorre quan de aXp' Se a matriz x, em que há n objetos, Xij é o valor de ~ para o i-ésirno objeto e os somatórios são para i variando de 1 a n. Então C=XX/(n-1) ser pensados . como d contendo I _ sendo considera os.d stod nao d consid~rando o qua ra o a o qual e 4. Z11 z)2 Zlp Z21 Z22 Z2p (12.2) em que z= Xu x12 xlp X2I X22 x2p X= xn1 é uma matriz contendo xn2 xnp os valores dos dados originais. I I 1 J contém os valores das p compo~entes princip~is'par~ OStn obl:t~: tão sendo considerados, então ISto pode ser escrito em erm de dados X como Z=XA: ;:'=t~~ (12.5) Primeiro, da Equação 12.3 pode ser visto que as somas das linhas e colunas XX' são todas zero. Por exemplo, a soma da primeira linha é em que .,. riâ . a i-ésirna I'linha de A"e ai' o i-esrmo autovetor da matriz de cova .lanClas ~mostra C. E uma propriedade de A ue A: A=I' i.e. a nta de A e a -11:", versa de ~~:Erttão' m ultinlicand; à direi ~a'~mb trans cd':'sda Equação 12.5 por A obtemos r , • ,.u os os Ia' os X=ZA L X~j+'2, XljX2j+ ... + L XljXnj= L Xij(Xlj + XZj+ ... + Xnj) em que os sornatórios são para i de 1 a P: Isto é zero porque xlj + XZj+ ... + xnj é n vezes a média de~,~. assume-se que todas as variáveis X têm média zero. Portanto é requerido que a matriz similaridade S deva ter somas zero para linhas e para colunas. Se este não é o caso, então a matriz inicial pode ser duplamente centrada substituindo o elemento Sikna linha i e coluna k por Sik- Si - s, + s onde Si é a média da i-ésima linha de S, e s, é a média da K-ésima coluna de S, e s .. é a média de todos os elementos em S. A matriz de similaridades duplamente centrada terá médias de linhas e de colunas zero e é, portanto, mais adequada para a análise. A segunda complicação é que alguns dos autovalores da matriz de similaridades podem ser negativos. Isto é perturbador porque os correspondentes componentes principais parecem ter variâncias negativas! Entretanto, a verdade é apenas que a matriz de similaridades poderia não ter sido obtida pelo cálculo de S XX' para qualquer matriz de dados. Com ordenação, somente os componentes associados com os maiores autovalores são usualmente usados, de modo que pequenos autovalores negativos podem ser pensados como sendo não-importantes. Grandes autovalores negativos sugerem que a matriz de similaridades que (12.6) O estabelecimento dos resultados tem sido longo ' mas fOI'n ecessano ,. a fim . d li T xp icar a.an.a I~e de coordenadas principais em relação com a análise de c e nentes pnncIpms. Para ver esta relação, note que das Equações 12.1 e 12.2 ompoe X' X aJ(n -1) =À. a. 1 ção ~~~ã~fré-multiplicando 1 ambos os lados desta equação por X e usando Equa- S(Xa) = (n -1) ÀieXaJ = ou SZi = (n - 1) ÀiZi (12.7) ? está sendo usada não é adequada para ordenação. Programas computacionais para análise de coordenadas principais algumas vezes oferecem a opção de começar com uma matriz de distâncias ou uma matriz de similaridades. Se uma matriz de distâncias é usada, então ela pode ser convertida em uma matriz de similaridades transformando a distância dik à medida de 2 similaridade Sik= -dik /2, como sugerido pela Equação 12.4. z, ~: nq~~j:~:~~:d~~;~~~~~: comprimento n, ~~al cont~m os valores de para de similaridades S = X'X é n ~os. Portanto, o i-esimo maior autovalor da matriz ._' . . .( 1)Ài' e o correspondente autovetor dá os valores da I esuna c?~ponente principal para os n objetos. ~:l ;:!.d~~~~~7;?:;~ !:~r.~~: ~:IT;:,~~!e~sc~!;~:::::e::ã~a:;~: ma t~:~al:: ~ ;or~er::d~~ quer dos' muito~ ;~~~: encontrar o principais consiste di em aplicar a Equação 12.7 a uma .ad.~s ~~t~ n o~jeto~ q~e é calculada usando qual~n. a es disponíveis. Desta maneira, é possível S~l para os n objetos. ponen es prmcIpaIs e, em particular, Exemplo 12.3 serão não correlacionados Aplicando a análise d d . . sencialmente a mesma de coo!, enadas principais à matriz XX' resultará esor enaçao que uma '1' d A riica diferenca será ana ise e componentes principais 1 erença sera em term dI' análise de componentes . . o.s ,o esca onamento dado às componentes. Na 1 prmClpars, e usual escalonar a i-ésima componente para ter 'vartancia fi, , mas com uma T d seria usualmente esc 1 ana ise e coordenadas principais, a componente imaterial porque so:e~:~: ~:;a ter u~~ variância ~e (n -1) Ài'Esta diferença é é que são importantes. ores re atrvos dos objetos em eixos de ordenação ú 'A' 1 'I 1 j Há duasquecomplicações que principais P . . . po d em surglI . em uma análise de coordenadas recisam ser menci d EI ridade sendo analisada não tem .lona as. . as}correm quando a matriz sirnilados dados d _ ... todas as propriedades de uma matriz calculada usan o a equaçao S = XX'. i I Espécies de plantas na Reserva Natural de 5teneryd (revísítado) Como um exemplo do uso de análise de coordenadas principais, os dados considerados no Exemplo 12.1 sobre abundâncias de espécies em lotes na Reserva Natural de Steneryd foram reanalisados usando distâncias de Manhattan entre lotes. Isto é, a distância entre os lotes i e k foi medida por dik = LI Xij- XkjI,onde o somatório é para i sobre as 25 espécies e Xijdenota a abundância de espécies j no lote i como dado na Tabela 9.7. Similaridades foram calculadas como Sik:=: -dik2j2 e então duplamente centradas antes dos autovalores e autovetores serem calculados. Os primeiros dois autovalores da matriz de similaridades foram encontrados como sendo 97.638,6 e 55.659,5, os quais explicam 47,3% e 27,0% da soma dos autovalores. respectivamente. Olhando para isto, os primeiros dois componentes, portanto, dão uma boa ordenação, com 74,3% da variação explicada por eles. O terceiro autovalor é muito menor, 12.488,2, e explica 6,1 % do total. A Figura 12.3 mostra um diagrama de draftsman do número do lote e o doi~ primeiros componentes. Ambos componentes mostram uma relação co~ o numero do lote o qual, co •. 0 observado r..v Exemplo 12.1, é ele mesmo relacíonado à resposta das diferentes espécies às variáveis ambientais. De fato, uma comparação deste diagrama de draftsman com os lotes da Figura 12.1 mostr que os primeiros dois eixos da análise de coordenadas principais são realment: muito similares aos dois primeiros componentes principais exceto por uma diferença na escala. Exemplo 12.4 Túmulos em Bannadi (revisitado) Como um exemplo de uma análise de coordenadas principais em dados presençaausência, considere novamente os dados na Tabela 9.8 sobre bens de túmulos no cemitério de Bannadi no nordeste da Tailândia. A análise começou com a matriz de distâncias Euclidianas não padronizadas entre 47 túmulos de modo que a distância do túmulo i ao túmulo k foi tomada como sendo dik = ;/{I.(xjj - xkll , onde o somatório é para j de 1 a 38, e Xij é 1 se o j-ésimo tipo de artigo está presente no i-ésimo 10o •• • ••• •• • • • •••• ••• COP2 -150 150 • • •• • •• • • O Lote •• • • • •• ., 20 -100 , • •• •• •• •• •• • •• •• •• •• •• I •• •• Lote o • #/ .• ••• • •• •••••• -100 20 • •• • • •• • • COP1 •• • •• • • •• •• • • •• • •• . ) • • •• •• \ 150 -150 COP1 # túmulo, ou é zero caso contrário. Uma matriz de similaridades foi então obtida, c('mo descrita no Exemplo 12.3, e duplamente centrada antes dos autovalores e ~ui.vvetores terem sido obtidos. A análise de coordenadas principais executada desta maneira dá o mesmo resultado que uma análise de componentes principais usando valores padronizados para as variáveis X (i.e., executando uma análise de componentes principais usando a matriz de covariâncias amostral a~ invés da matriz de corre~ações amostral). A única diferença nos resultados esta nos escalonamentos que sao usualmente dados para as variáveis de ordenação pela análise de componentes principais e pela análise de coordenadas prin~ipais.. . . Os primeiros quatro autovalores da matnz de similaridade foram 24,9,19,3, 10,0 e 8,8, correspondendo a 21,5%, 16,6%, 8,7% e 7,6%, respectivamente, da soma de todos os autovalores. Estes componentes explicam meramente 54,5% do total da variação nos dados, mas isto é melhor do que 43,9% explicados pelos primeiros quatro componentes principais obtidos dos dados padronizados (Exemplo 12.2). A Figura 12.4 mostra um diagrama de draftsman para o número total de bens nos túmulos, o tipo de restos mortais (adulto masculino, adulto feminino ou criança) e os quatro primeiros componentes. Os sinais do primeiro e do quarto componente foram trocados em relação aos mostrados na saída computacional de modo a torná-los positivos para o túmulo B48, o qual continha o maior número de tipos diferentes de bens. Pode ser visto do diagrama que o primeiro componente representa a abundância total muito próxima, mas os outros componentes não estão relacionados com esta variável. Fora isto, a única coisa óbvia a observar é que um dos túmulos tinha um valor muito baixo para o quarto comp~nente . Este é o túmulo B47, o qual continha oito tipos diferentes de bens, dos quals quatro tipos não foram vistos em qualquer outro túmulo . .,.' . 12.4 Escalonamento multidimensional O escalonamento multidimensional já foi discutido no Capítulo 11, onde ele é definido como sendo um processo iterativo para encontrar coordenadas para objetos sobre eixos, com um número especificado de dimensões, tais que as distâncias entre os objetos combinam tão próximos quanto possível com as distâncias ou similaridades que são fornecidas em uma matriz de dados de entrada (Seção 11.2) . O método não será discutido posteriormente no presente capítulo exceto quando requerido para apresentar resultados de seu uso nos dois exemplos de conjuntos de dados que foram considerados com os outros métodos de ordenação . 100 COP2 Figura 12.3 Diagrama de draftsman para a ordenação de 17lotes na Reserva Natural de Steneryd baseado em uma análise de coordenadas principais em distâncias de Manhattan entre lotes. As três variáveis são o número do lote e os dois primeiros componentes (COPl e COP2). Exemplo 12.5 Espécies de plantas na Reserva Natural de Steneryd (novamente) Um escalonamento multidimensional dos 17 lotes para os dados na Tabela 9.7 f?i implementado usando o programa computacional NMDS fornecido por Ludwig 2 ~. .~.·I i 1 II~.~.·~~:· •. •/ •. •. •. . .: • • • • • •• /. . ~. . ~ . ","" ..... «.~. ,. • I I I ..,.. • • ~. ,) ~ COP4 -2 ~ COP3 -1 2 COP2 -1 2 COP1 -1 3 ti • • • 1 Número de bens o ••• J..• • .t1i.'••. ,/ ~:. • I ::.. • I • ••••• •••• , • .- •• - • • ,.~:..~ . .. ..r-Õl.~ O •• •• 411. • I I • e _t • •• •••• •• •• O • • Número de bens •••••• ••••• MDS2 . ~:., ... I I 2 •• •• 2 -1 3-1 Tipo de restos mortais • I.~ ~ COP1 411••••••• •••• -1 1 ~ •• COP2 -1 17 • ,1· • . '''"". t·· ~ • 2 -1 2 -2 COP3 Lote o . . .1 .' ti . . •• ••••• •• ,••.' MDS1 / • ~ ." ••• • • ) •• ·411 1 o MDS2 • • •• -. • •• . ,..• •• • .1 •• • •• •• •• .-:,. I' ••• :. e~ • t • • •• •• •~• •• •• ••. , • • •• , •• ~ • • •• i' ~ • 1 -1 17 -1 Lote • ••••• ••••• •• "•/ •• . ' • • •• '" .,;-"f;jé-- 1 t. - •• .: '. COP4 .- • • • • • ". • ~~~~ .~. • ••••• ,. I·••• •· •• •• ., • •• •• •• •• 2 '. MDS3 ,.: • • • .- . • •• • ••• t~ t· •• • • ••• • •• •• ,. • •• • 1 O MDS4 Figura 12.5 Diagrama de draftsman para a ordenação de 1710te~d~ Reserva~a~r~l de Stenerydbaseado em escalonamento multidimensional não-métrico sobre distâncias Euclidianasentre lotes. As variáveis são o número do lote e as coordenadas para quatro eixos(MDSla MDS4). Figura 12.4 Diagrama de draftsman para os 47 túmulos de Bannadi.As sei" variáveis são o número total de diferentes tipos de bens em um túmulo, um indicador do tipo de restos mortais (1 = adulto masculino, 2 = adulto feminino,3 = criança) e os primeiros quatro componentes de uma análise de coordenadas principais (COPl a COP4). ( ••• • •~a • • • • • • •• •• • MDS1 I • • II • 12 1 •••• r- ••• • • •••• ". • • .. ... •• 1 •• • • ••• MDS3 .:i: I.~'I /" ..~ •• .t.• ••• :~ .. -- , -- _._. ._. _. .._. ..- . ..-. --.. I I I ~ 1 • .•••,••. ". • • • •••• • ••• O :a. • ~ IL'SL· • ...' •• • • ,_ 12 • • • __ Tipo de .restos mortais • de draftsman dos valores dos números dos lotes e as posições sobre estes eixos após eles terem sido transformados para componentes principais. Uma com?~ração com a Figura 12.1 mostra que o primeiro eix~ de esca~on~mento multidimensional corresponde de forma próxima com o erxo do pnmelro comp~nente principal e da primeira coordenada principal, enquanto qu~ o segundo eIXOde escalonamento multidimensional. após uma mudança no sinal, corresponde de forma próxima com o eixo do segundo componente principal e da segunda coordenada principal. e Reynolds (1988). Ele executa um tipo não-métrico clássico de análise sobre uma matriz de distâncias, de modo que a relação entre as distâncias de dados e as distâncias de ordenação (configuração) é assumida como sendo somente monótona. Uma característica do programa é que após uma solução ser obtida, os eixos são transformados para componentes principais. Isto assegura que o primeiro eixo conta pela variância máxima possível nos escores de ordenação, o segundo eixo conta pela variância restante máxima possível, e assim por diante. Os escores para os diferentes eixos são também feitos não correlacionados por este processo. Para o exernplo que está sendo considerado, distâncias Euclidianas padronizadas entre os lotes foram usadas como entrada para o programa. Os valores de stress correspondendo a soluções em uma das cinco dimensões foram obtidos como sendo 0,436, 0,081, 0,060, 0,023 e 0,021, de modo que uma solução de dimensão quatro parece bastante razoável. A Figura 12.5 mostra um diagrama Exemplo 12.6 Túmulos em Bannadi (novamente) A mesma análise como usada no último exemplo foi també~ ~pl~cada a~s dados sobre túmulos em Bannadi mostrados na Tabela 9.8. Distâncias Euclidianas padronizadas entre os 47 túmulos foram calculadas usando os dados ~! presença-ausência (i.e., 1 ou O respectivamente) na tabela como valores para ~,,38variáveis, e estas distâncias forr:eceram os dc0f'~ para o programa computacional NMDS de Ludwig e Reynoí s UY88). Osruveis de stress obtidos para soluções em uma de cinco dimensões foram 0,405,0,221,0,113,0,084 e 0,060. Portanto, a solução tridimensional parece razoável, apesar do stress de 0,113 ser bastante grande. Um diagrama de draftsman para a solução tridimensional é mostrada na Figura 12.6,com os eixos revertidos necessário para assegurar que um valor positivo seja obtido para o túmulo B48, o qual tem o maior número de tipos diferentes de bens. Uma comparação com Figura 12.2 mostra que o primeiro eixo tem uma forte semelhança com o primeiro componente principal, mas por outro lado, a relação com ordenações de outros métodos não é imediatamente claro. •• • • •• 11. -. MDS3 • I! ... : o t. _. • • •• • 1 •• eJlf.· .. I• MDS2 • • •• • o • 1 ••• -1 3 1 12 I I ·.~ •• •• ,/ • ./ ,• ._:.. . .' • •• • I • e \ I 12 Número de bens 3 -1 Tipo de restos mortais 1 O MDS1 •• • .~ :..- '".' .. .• •• •• ,• I I / I .. - • • • • ••••• .-• . ._ .. _. • _. • • .- ._. • • • • •• •• • I ••• • •• ~.: ..••-; •• I •• II •• __ Tipo de restos mortais .. ••• • • • I eIeIi: :.. MDS1 Número de bens • ~. .. . , •••• • • ..c,," ••• • ,.. . I i I ,..I •• •• • • • ·t • 12.5 Análise de correspondência correspondência, como UTI'. rr'qt0,jo di." oJ.dcna<;ã· J~""i.originado no trabalho de Hirschfeld (1935), Fisher (1940) e uma escola de es atlstlcos franc.eses (Benzecri, 1992). Ele é hoje o mais popular método de ordenaçao par~ ecologistas de plantas e está sendo usado crescentemente em outras ár:as tambe~. O método será explicado aqui no contexto da ordenaça~ de locais com base na abundância de n espécies, apesar dele poder ser usado Igualmente bem em dados que podem ser apresentados como tabela de .dupla entra?~ de_medidas de abundância, com as linhas correspondendo a um tipo de classificação e as colunas a um segundo tipo de classificação. . . Com locais e espécies, a situação é como mostrad~ na Tabela 12:4. Aqui existe um conjunto de valores de espécies a1' az, ..., an assoClad.o com as linhas da tabela, e um conjunto de valores de locais bl' bz' ..., bp as:oc.Ia~os c~m as colunas da entao aquela concert ab eIa. Uma interpretação de análise de correspondenCla edi' nente com a escolha de valores de espécies e locais de mo o que e es sejam tao altamente correlacionados quanto possível para a distribuição bivaria~a que. é representada pela abundância no corP.o ~a tabela. Isto qU:l" dizer, ;)8 ~.ral~;:e~ ':0 local e espécie são escolhidos para maxrrruzar suas correl~ç,oes para ~ dlstr:bUiçao onde o número de vezes que a espécie i ocorre no local J e proporcional a abun- . /_ á-jáj. P€ d':! 2 dância observada xij" .. _, Acontece que a solução para este problema de maxirruzaçao e dada pelo conjunto de equações a, = {(x1l/RI) b. + (xlz/Rl) bz + ~ ·'Ift·· {(X21/Rz)b1 + (x22/Rz)bz + +(xzpjRz)bp}lr b1 ={(xn/C1)a1 +(X21/C1)aZ + +(Xn1/C1)an}/r bz = {(X1Z/C2)al +(xzz/Cz)az + +(xnz/Cz)an}/r az = • • •••• . --..- . • •••• • e • ·")1:' 1 O MDS2 Ir + (x1P jRl )bp } MDS3 Figura 12.6 Diagrama de draftsman para os 47 túmulos. As variáveis representadas são onúmero total de tipos diferentes de bens em um túmulo, um indicador do tipo de restos mortais (1 =: adulto masculino, 2 = adulto feminino, 3 =: criança)e três eixos do escalonamento multidimensional não-métrico usando distâncias Euclidianasnão padronizadas entre os túmulos (MSDl a MSD3). bp ={hpjCp)a1 + (xzpjCp)az + ... +(xnpjCp)an }/r ,. . .:C~·, d t a abundância total em que R denota a abundância total de espeCles I, i eno a 1 de 'd Então o va or a, c no local j e r é a correlação máxima que esta sendo procura a. 1 1 Tabela 12.4 As abundâncias (x) de n espécies em p locais, com os valores das espécies (a) e os valores dos locais (b) ., • \ ~..•..r",-·.""""- ~ Local Somada Valor das linha Espécies 1 2 espécies P ,"" 1 2 Xli x12 X21 X22 xlp x2p RI R2 ai a2 (12.10) é em que RY;; uma matriz diagonal com -11\ na i-ésima Íinha e i-ésima coluna, e c,v, é uma matriz diagonal com na j-ésima linha e j-ésima coluna. Isto mostra que as soluções para o problema de maximizar a correlação são dadas pelos autovalores de urna matriz n x n "C Para qualquer autovalor ~, a correlação entre os escores das espécies e locais serão rk = -I"k' e o autovetor para esta correlação será fi Soma da coluna Valor do local R~ak i-ésim a espécie é um peso médio dos valores dos locais, com o local j tendo um peso proporcional a xi/Ri' e o valor bj do j-ésimo local é um peso médio dos valores das espécies, com a espécie i tendo um peso proporcional a x/ Cj' O nome "média recíproca" é algumas vezes usado para descrever as equações recém-estabelecidas porque os valores das espécies são médias (com pesos) dos valores dos locais, e os valores dos locais são médias (com pesos) dos valores das espécies. Estas equações são muitas vezes usadas como ponto de partida para justificar a análise de correspondência como um meio de produzir valores de espécies como uma função de valores dos locais, e vice-versa. Decorre que as equações podem ser resolvidas iterativamente após elas terem sido modificadas para remover a solução trivial com ai = 1 para todo i, bj = 1 para todo j e r = 1. Entretanto, é mais instrutivo escrever as equações na forma matricial a fim de resolvê-Ias porque isto mostra que pode haver várias soluções possíveis para as equações e que estas podem ser encontradas de uma análise de autovalor. Na forma matricial, as equações mostradas acima se transformam em a = R-I X bl r (12.8) b =C1 X' alr (12.9) e em que a' = (aI' a2, ..•. r a b' = (bl, b2, .... r bpL R é uma matriz diagonal n x n com Ri na i-ésima linha e i-ésima coluna, C é uma matriz diagonal p x P com Cj na j-ésima linha e j-ésima coluna, e X é uma matriz n x P com Xijna i-ésima linha e j-ésima coluna. Se a Equação 12.9 é substituída na Equação 12.8, então após alguma álgebra matricial, é encontrado que n), = ('-'R1a1k,-IR2a2k, ... , "'Rn~)' em que aik são os valores das espécies. Os correspondentes dem ser obtidos da Equação 12.9 como b, valores dos locais po- = C1 X' ak/rk O maior autovalor será sempre r2 = 1,dando a solução trivial ai = 1 para todo i e b = 1para todo j. Os autovalores restantes serão positivos ou zero e refletem dife~entes possíveis dimensões para representar as relações entre ~spécies e ,rocais. Estas dimensões podem ser mostradas como sendo ortogonais, no sentido de que os valores das espécies e locais para uma dimensão ~erã.on~~ correlacionados com os valores e locais em outras dimensões para a distribuição de dados de abundâncias xij' A ordenação por análise de correspondência envolve usar os valores das espécies e locais para os primeiros poucos maiores autovalores que são menores do que 1, porque estes são as soluções para as quais as correlações entre valores de espécies e locais são as mais fortes. . É comum representar ambos, espécies e locais, sobre o mesmo eIXOporque, como observado anteriormente, os valores das espécies são uma média dos valores dos locais e vice-versa. Em outras palavras, a análise de correspondência dá uma ordenação de ambos, espécies e locais, ao mesmo tempo. É aparente da Equação 12.10 que a análise de correspondência n~o pode s~r usada sobre dados que incluem uma linha de soma zero porque entao a matnz diagonal RYz terá um elemento infinito. Por um argumento similar, colunas com somas zero também não são permitidas. Isso significa que o método nã~ POdE ser usado nos dados dos túmulos na Tabela 9.8, já que alguns túmulos nao contém bens. Entretanto, a análise de correspondência pode ser usada com os dados presença-ausência quando este problema não está presente. " Exemplo 12.7 Espécies de plantas na Reserva Natural de Steneryd (mais uma vez) A. análiseR de correspondência foi aplicada aos dados para abunda netas d e espé.. eserva Natural de Steneryd (Tabela 9 .7~ ,. Havia 16 aut ova Iores menores :: que 1 e os valores eram, c.omo segue, com suas raízes quadradas (as correiaçoes entre valores das espécies e valores dos lotes) em parênteses: 0,665 (O82 0,406 (0,64), 0,199 (0,45), O,l36 (0,37),0,094 (0,31), 0,074 (0,27), 0,057 (O24) Ó 018 (0,17), 0,020 (0,14), 0,019 (0,14), 0,010 (0,10),0,008 (0,09),0,007 (0,08), O.ÓOS'(0'07) ~,003 (0,05), 0,001 (O,~3).Os primeiros dois ou três poderiam ser consider~do~ Importantes, mas a'1.,Ulsomente os valores das espécies e lotes para os primeiros dOIS au:ovalores serao usados para ordenação. A FIgura 12.7 mostra um gráfico dos valores das espécies e lotes para autovalor de 0,406 (CORR2) contra os valores das espécies e lotes para o autovalor d 0,.665(CORRI!. Nomes abreviados são mostrados para as espécies, e de SI a S17 in~ dicam os locais. A ordenação de locais é bastante clara com uma seqüê . quase Pe r feit1 a d e 51 a diireita ate, S17 à esquerda, movendo-se ' em torno de umncia arco bem A • dcies na ° distinto. As espécies são esparsadas entre os locais ao longo do mesmo arco dr Mer-p (Mercurialis perennis) à esquerda até Hie-p (HieraciumpiloselIa) à direita. Um, comparação da fig"I3 com a Tabela 12.1 mostra que isto íaz muito b(>'" " ••-, Po: exemplo, M. perennis é abundante somente nos locais de numeração mais baixa. O arco ou a ferradura que aparece na ordenação para este exemplo é um. característica comum nos resultados de análise de correspondência, e é tambén algumas vezes aparente em outros métodos de ordenação. Existe algumas veze: preocupação que este efeito obscurecerá a natureza dos eixos de ordenação e portanto, alguma atenção tem sido dedicada ao desenvolvimento de formas di modificar a análise para remover o efeito, o qual é considerado ser um artefatr do método de ordenação. Com análise de correspondência, um método de des tendenciamento normalmente é usado, e o método de ordenação resultante é en tão chamado de análise de correspondência destendenciada (Hill e Gauch, 1980) Ajustamentos para outros métodos de ordenação também existem, mas parecen receber pequeno uso. à 12.6 Mer-p 2, o 517 816 CORR2 Ran-f Hie-p 81 S3 Ach-m 82 Fes-o 84 Pia-I 1,0 Geu-u 815 AIt-s o Luz-c Tri-r 55 Fra-e 8ax-g Agr-t 814 Ane-n 86 S11 Rum-a Hep-n 813 812 87 8ta-hC Ver am-p P a-p Dac-g S10 8 Fes-r Vlo-r S8 Lat-m Des-f -1,0 2 ,0 1,0 o 1,0 2,0 CORRl F(~gura12.7 Representaçãográfica de espéciese locaiscontra os primeiros dois eixos ORRl e CORR2)encontrados aplicando análisede correspondência aos dados da Re- locais ~atural de Steneryd. Aos nomes das espéciesforam dadas abreviações óbvias e os ocais sao rotulados de SI a S17. ' Comparação de métodos de ordenação Quatro métodos de ordenação foram revistos neste capítulo, e seria bom ser capa de estabelecer quando cada um deveria ser usado. Infelizmente, isto não pode se feito de uma maneira inteiramente satisfatória devido à larga variedade de dife rentes circunstâncias para as quais a ordenação é usada. Portanto, tudo que ser feito aqui é estabelecer alguns comentários finais sobre cada um dos métodos er termos de sua utilidade. A análise de componentes principais pode ser usada somente quando os vale res para as p variáveis são conhecidos para cada um dos objetos que estão send estudados. Portanto, este método de análise não pode ser usado quando soment uma matriz de distâncias ou similaridade está disponível. Quando os valores da variáveis estão disponíveis e as variáveis são aproximadamente normalment distribuídas, este método é uma escolha óbvia. Quando se exige que uma ordenação comece com uma matriz de distância ou similaridades entre os objetos sendo estudados, é possível usar ou anális de coordenadas principais ou escalonamento multidimensional. Escalonamer to multidimensional pode ser métrico ou não-métrico, e análise de coordenada principais e escalonamento multidimensional devem dar resultados similares. A vantagens relativas do escalonamento multidimensional métrico e não-métric dependerão muitos das circunstâncias, mas, em geral, pode ser esperado que escalonamento não-métrico dê um ajuste levemente melhor à matriz de dados. A análise de correspondência foi desenvolvida para situações onde os objete de interesse são descritos por medidas de abundâncias de diferentes caracterú ticas. Quando este é o caso, este método parece dar ordenações que são relatív: mente fáceis de interpretar. Ele tem certamente sido preferido por ecologistas n análise de dados sobre abundância de diferentes espécies em diferentes locais. 12.7 Programas computacionais Progrz tna,S,para análise de componentes principais-têm-sido discutid s nos Capítulos 6 e 7 e não serão considerados posteriormente aqui. O pacote MVSP (Kovach, 2003) foi usado para os cálculos nos Exemplos 12.1 e 12.Z. Este programa foi também usado para as análises de coordenadas principais dos Exemplos 12.3 e 12.4, incluindo a construção de matrizes de distâncias, e para a análise de correspondência do Exemplo 12.7. Ele inclui um número considerável de opções para ordenação, incluindo análise de correspondência destendenciada. O MVSP é um de inúmeros pacotes que são designados principalmente para ordenação e análises relacionadas. Outros incluem o CANOCO (ter Braak e Smilauer, 2003), aqueles no livro de Ludwig e Reynolds (1988), e o PC-ORO (Oigisys, 2003). Além disso, os pacotes estatísticos mencionados no Apêndice deste livro incluem algumas opções de ordenação. 12.8 ': I, Leitura adicional Sugestões para leitura adicional relacionada com análise de componentes principais e escalonamento multidimensional são fornecidas nos Capítulos 6 e 11, e é desnecessário repeti-Ias aqui. Para discussões posteriores e mais exemplos de análise de coordenadas principais e análise de correspondência, particularmente no contexto de ecologia de plantas, ver os livros de Digby e Kempton (1987), Ludwig e Reynolds (1988), e Jongman et al. (1995). Para análise de correspondência, a referência clássica é Greenacre (1984). Além destes, há um livro curto sobre análise de correspondência de Clausen (1998) e um livro bastante detalhado sobre o mesmo tópico de Benzecri (1992). Uma técnica importante não coberta neste capítulo é a ordenação canônica, onde os eixos de ordenação são escolhidos para representar um conjunto de variáveis exploratórias, tanto quanto possível. Por exemplo, poderia ser interessante ver como a distribuição das espécies de plantas sobre um número de locais está relacionada à temperatura e características do solo nestes locais. A análise de função discriminante é um caso especial deste tipo de análise, mas outras análises também são possíveis. Ver Jongman et al. (1995) para mais detalhes. 12.9 • Resumo do capítulo Ordenação é o processo de produzir um pequeno número de variáveis para representar as relações entre uma quantidade de objetos, usualmente através de gráficos. Algumas vezes a palavra escalonamento é usada ao invés de ordenação. • Muitos dos métodos descritos em capítulos anteriores podem ser usados para ordenação. Um exemplo baseado nas abundâncias de espécies de plantas na Reserva Natural de Steneryd é usado para ilustrar ordenação através de uma análise de componentes principais. Um segundo exempl é também fornecido baseado na presença e ausência de diferentes tipe ··~d"'·bd\5·élN1.':ú-n''Cemitério em Bannadi na Tailândia . , • A análise de coordenadas principais é um método para ordenação que c( meça com uma matriz de similaridades entre n objetos, de uma mane ra similar ao escalonamento multidimensional. A análise de coordenada principais é relacionada à análise de componentes principais. A teoria d método é revista, e seu uso é ilustrado usando os dados da Reserva Natur • de Steneryd e do cemitério de Bannadi. . _" O uso de escalonamento multidimenslOnal para ordenaçao e tambéi ilustrado usando os dados da Reserva Natural de Steneryd e do cemif rio de Bannadi. A análise de correspondência é o quarto método de or~enação discuí do. Este método é particularmente preferido por ecologistas de planta A teoria do método é revista, e é ilustrada usando os dados da Resen Natural de Steneryd e do cemitério de Bannadi. , • São feitas recomendações sobre quando usar cada um dos quatro met dos de ordenação que são discutidos. • São discutidos programas computacionais para ordenação. • São feitas sugestões sobre leitura adicional. • Exercício A Tabela 6.6 mostra os valores para seis medidas tomadas em c~da ~a das taças pré-históricas escavadas na Tailândia. A natureza das medidas e mos~ral na Figura 6.3. Use os vários métodos discutidos nest~ capítulo para p~0~~2:1r ( denações das taças e ver qual método parece produzir o resultado mais útil. Referências Benzeeri, P.J. (1992), Correspondence Analysis Handbook, Marcel Dekker, New York. Clausen, S.E. (1998), Applied Correspondence Analysis, Sage Publieations, Thousand Oa~s, CA Digby, P.G.N. and Kempton. R.A. (1987), Mu/tivariate Analysis of Ecological Communztles, Ch: man and Hall, London. Digisys (2003), OC-ORD for Windows, Multivariate Analysis of Eeologieal Data, Ver. 4; dispc vel on-line em www.digisys.net. · h R A (1940) The preeision of diseriminant functions, Ann. Eugenics, 10,422-429. Plser, .. , demíc F 1984) Theory and Application of Correspondence Analysis, Aea erruc re , G reenaer, e M .,J ( London. din t Hill, M.O. and Gauch, H.G. (1980), Detrended eorrespondence analysis, an improve ar a teehnique, Vegetatio, 42,47-58. Hírschíeld. H.O. (1935), Aconnection between correlation 105. Soe., 31, 520-524. brid and contingency, Proc. Cam Y1 1 ge Iorigman, R.H.G., ter Braak, c.J.F., and van Tongeren O F R (1995) Data A I . . C . dL . .' ... , na yS1S m ommunlty I ' r-: ' an T ~:ds~ap~ E~ology, Cambndge Unive~sity Press, Cambridge. Kovach.Wl, \.,.OCL.),.lV! SP-Multl-VanateStahsticalPo-l-a"'." ..,,;,....,.1!E •.. _, .. " -. ""."', b'" vc"::J.~ ",0"d'C11'"~<)tnDutin Servrces: disponível on-Iine em www.kovcomp.co.uk. • .g Capítulo 13 , r Ludwig, J.A. and Reynolds, J.F. (1988), Statistical Ecology, Wiley, New York. ter Braak, CJ·F. and Smilauer P. (2003) CANOCO - a FORTRAN P f C . . .." rogram or anorucal Comm~m~y Ordination by (Partial) (Detrended) (Canonical) Correspondence Anal sis Principal Components Analysis and Redundancy Analysis Ver 45 Plant R' y h' . 1 di ' .., esearc In ternatíonaf: sporuvel on-line em www.plant.dlo.nl. Epílogo 13.1 o próximo passo Ao escrever este livro, meus objetivos foram propositadamente limitados. Estes objetivos terão sido alcançados se alguém que tenha lido os capítulos anteriores cuidadosamente tenha uma idéia honesta do que pode e do que não pode seI obtido pelos métodos estatísticos multivariados que são mais largamente usados. Minha esperança é que o livro venha a ajudar muitas pessoas a dar o primeirc passo em "uma jornada de mil quilômetros". Para aqueles que deram este primeiro passo, a maneira de ir adiante é ganha] experiência em métodos multivariados analisando diferentes conjuntos de dados e vendo quais resultados são obtidos. Como em outras áreas de estatística aplica da, competência em análise multivariada requer prática. Desenvolvimentos recentes em análise multivariada têm sido feitos no campc proximamente relacionado à mineração de dados (data mining), o qual se preo cupa com extração de informação de conjuntos de dados muito grandes. Este tópico não foi considerado neste livro, mas é uma área que deve ser investígads por qualquer um que trate com grandes conjuntos de dados multivariados. Mair detalhes serão encontrados no livro de Hand et aI. (2001). 13.2 Alguns lembretes gerais Ao desenvolver habilidade e familiaridade com análises multivariadas, existen alguns pontos gerais que valem a pena manter em mente. Verdadeiramente, este: pontos são tão relevantes como para análise univariada. Entretanto, ainda vale; pena enfatizá-los no contexto multivariado. Primeiro, deve ser lembrado que existem várias maneiras alternativas d. abordar a análise de um particular conjunto de dados, nenhuma das quais é ne cessariamente a melhor. Na realidade, vários tipos de análise podem muito ben ser implementadas para investigar diferentes aspectos dos mesmos dados. Po ~xemplo, as m~~idas do corpo de pardocas dadas na Tabela 1.1 podem ser anahsadas por análise de componentes principais ou análise fatorial para investi=9="",~~faI"'-'al~H' :n.í ~1 ~Õ s por-trás na variação corpo-tamanho, por análi e (ti· LrilllÍlí.aht~ para contrastar sobrevi~ent~s e não-sobreviventes, por análise de agrupamentos ou es~alonamento multivariado para ver como os pássaros se agrupam e assim por diante. Segundo, ~se o bom senso. Antes de embarcar em uma análise, considere se p~d~ ser possível responder as questões de interesse. Muitas análises estatísticas sao lmplement~d.as porque os dados estão na forma certa, independentemente de <}ue luz a análise pode lançar sobre a questão. Em algum momento ou outro muitos dos usuários de estatística encontram a si próprios sentados em frente a uma grande pilha de saídas computacionais dando-se conta de que elas não dizem nada do que eles realmente querem saber. Terceiro, a ~nálise multivariada não trabalha sempre em termos de produzir uma :esposta lunpa. Há um vício óbvio em livros texto e artigos de estatística em relaçao a exemplos onde os resultados são diretos e as conclusões são claras. Na vida .real: isto não acontece tão freqüentemente. Não fique surpreso se a análise multivariada ~~lhar em dar resultados satisfatórios sobre os dados nos quais você realmente esta mteressad~! Pode acon~ecer que os dados tenham uma mensagem a dar, mas a mens.agem n~~ pode ser lida usando modelos um tanto quanto simple~ s~bre os qUalS a.s análises padrão se baseiam. Por exemplo, pode ser que a vanaç~o em u:n conjunto d~ dados multivariados seja completamente descrita por do~ ?u tres fatores subjacentes. Entretanto, estes podem não aparecer em ~ma analise de componentes principais ou em uma análise fatorial por não ser linear a relação entre as variáveis observadas e os fatores. Finalmente, existe ~empre a possibilidade de urna análise ser dominada por uma ou duas observaçoes bastante extremas. Esses pontos discrepantes podem algumas vezes ser encontrados simplesmente examinando os dados visualmen~e, con~iderando as tabelas de freqüências para as distribuições de variáveis m~r~Tlduals. Em alguns casos, um método multivariado mais sofisticado pode ser eX~gIdo~ P.or exemplo, uma grande distância da Mahalanobis de uma observação ~te a .medla de todas as observações é uma indicação de um ponto extremo mulb:an~do .(ve~ S~ção 5.3), a~esar de que a verdade pode ser apenas que os dados nao sao distribuídos aproximadamente como uma normal multivariada. Pode ser difícil decidir o que fazer com um ponto extremo. Se ele é devido a um erro de registro ou algum outro erro bem-definido, então é suficientemente ~on.esto :xcl~í-!~ da anál~se. Entre~anto, se a observação é um valor genuíno, e.ntao Isto nao e válido, A aç~o apropnada depende então das circunstâncias particulares. Ver Barnett e Lewis (1994) para uma discussão detalhada de possíveis abordagens ao problema. Algumas vezes uma abordagem efetiva é fazer uma análise com e sem os valores extremos. Se as conclusões são as mesmas, então não há um problema real. Som~nte se as conclusões dependem fortemente dos valores extremos é que eles preCIsam ser tratados mais cuidadosamente. <:'~ 13.3 Valores perdidos Valores peI !:h9. oo I"ra ("3.1"SaUTIa{S problemas com dados multivari('-:'~~ rio n'" com dados univariados. O problema é que quando há muitas variáv~~s~se~~(' medidas em cada indivíduo, muitas vezes é o caso de uma ou duas destas variá veis terem dados perdidos. Em tais casos, indivíduos com dados perdidos poden ser excluídos da análise, resultando na exclusão de uma proporção de indivíduo: impraticável. Por exemplo, em estudos de populações humanas antigas, esquele tos estão freqüentemente quebrados e incompletos. Textos em análise multivariada são muitas vezes bastante omissos sobre é questão de valores perdidos. Até certo ponto, isto acontece porque tratar com da dos perdidos não é um problema simples e direto. Na prática, pacotes computa cionais algumas vezes incluem uma facilidade para estimar valores perdidos po vários métodos de complexidade variável. Uma possível abordagem é estima valores perdidos e então analisar os dados, incluindo estas estimativas, como SI eles estivessem completos desde o início. Parece razoável supor que este procedi mento funcionará satisfatoriamente, desde que somente uma pequena proporçã de valores esteja faltando. Para uma discussão detalhada de métodos ver o recente livro de Little e Rubin (2002). para tratar com dados perdidos Referências Barnett. V. and Lewis, T. (1994), Outliers in Statistical Data, 3rd ed., Wiley, New York. Hand, D., Mannila, H., and Smyth, P. (2001), Principies Df Data Mining, MIT Press, Cambridgi MA. Little, RA. and Rubin, D.B. (2002), Statistical Analysis with Missing Data, 2nd ed., Wiley, Nei York. Apêndice Pacotes computacionais para análises multivariadas A consideração mais importante com pacotes computacionais é que eles fome· cem uma correta saída computacional para a análise e opções selecionadas. Usu almente é uma boa suposição de que a saída está correta para várias análise' padrão, mas se opções não usuais são usadas, então é melhor estudar a saíd: cuidadosamente para ficar seguro de que tudo parece correto. Ela pode não ser. Assumindo que a precisão da saída não está em consideração, é claro que a: necessidades em termos de cálculos para alguém recém-começando a usar méto dos multivariados não são as mesmas necessidades de um especialista nesta área O novato necessita de um pacote computacional que seja simples de usar, mes mo se isso significar que o número de opções é limitado para algumas análises O especialista necessita que muitas opções estejam disponíveis, mesmo que istt signifique em considerável trabalho na escolha de quais opções usar. Neste Apêndice, as necessidades do novato são consideradas importantes. C que é fornecido aqui na Tabela AI é uma lista de alguns dos muitos pacotes esta tísticos comerciais disponíveis, com detalhes sobre quais análises multivariada eles desempenham, urna avaliação de quão fácil cada um dos pacotes é para un principiante usar, e também uma avaliação das capacidades gráficas. Vários do pacotes lista dos incluem uma linguagem de programação, o que os torna muin mais flexíveis para o usuário experiente. Entretanto, as avaliações fornecidas fi; tabela são baseadas somente em análises que estão disponíveis usando urna op ção do menu. Existem inúmeros pacotes especializados que não são considerados aqui. Po exemplo, o CANOCO (ter Braak e Smilauer, 2003) ou o PC-ORD (Digisys, 2003 podem ser muito adequados para o usuário que quer somente fazer ordenaçãc Existem também alguns pacotes que são add-ins para o Microsoft Excel tal com o XLSTAT-PRO (Xlstat, 2003) que faz muitas das análises multivariadas descrita neste livro. Um tal pacote pode ser muito adequado para aqueles que estão acos tumados a usar o Excel para fazer seus cálculos. Tabela AI Alguns pacotes estatísticos com informação sobre as análises fáceis são os pacotes de serem usados multivariadas que eles fornecem, uma avaliação de quão por alguém novo na análise multivariada, e uma indicação das capacidades gráficas no pacote Testes e análises disponíveis nas opções u .....'" QJ Pacote GenStat MINITAB 14 MVSP3.1 NCSS2004 SPSS 12 Stata 8.0 Statistica 6.1 a Facilidade de uso" * ** * ** ** * ** (~ -e , M" ~. ~ o '::-' ro ~ ~ ":"""'I ~~ X 8 o. ~ ;n o' r< "'-"O '< '" ::s O ;:j g·e:..og. &.0 >-:::sn zo •..• ""e:..oe:g>ro~ .!oo.S~E.:rot:l ° ",Oro 8: ~. ~ ~ ~ ~. "O ,..,. '" O õ' c ,"O::l::sro., fJJ :s ::; ••••• o •..• """::?; :-o ~ 5' ~.~ >-N 8: c, ::s o::s;;?go.;Jg o9e.~~~~ 'a rp'" ~ g Vi'''::; n~g ~ '"1 PJO... ~ (l r-"' t"tlro~Cj .:7 :3 ;=l te O Q..<,Q..~n 1-'0 ..gj :s ~ <; ~ P'1ro ::l O °~''"2..::lQ..'''J> :::ª"~I li> ~:::,lI>nd < § Q..~ 0'< ~o ~ S":>2.;:l 8.:> ~ ro ro·e:..QZ S ~"::;::.o ::( ~. no""" ?'0o;j 2 ::( X r;. ~ !"1cn~ •..... .,.'"d..... S r+ 8 S • u-,§Sl 'o. n ~ ~ ê ~ ro n o i:! .~ro ?;'",Q' ....•..... ~e:..n M" Il>'< <''" H :;;. 't ;:l e:.. b..gll>~ .,!..... :s ~ 0:::;- o rii:I""?'~. S, ~ ti]0 g., m 8 ~ g' ~ t:I ~ '" ' ~ ~ ,.,.. P.. ~. 9 ("i:» ~ (") ~. ~ t:J) Inaice ele nomes .:--------------------- V. rBarnett, 216-217 t\Bàrtlett, M.s. 160,164,176 _ Benzecri, P]. 205-207,211-213 :V'Bernstein, I.H 116-118 -- Borg, I. 188-190 Bumpus, H. 13, 15, 27-28,39-42,50-52, 55-57, 100, 132 Carter, E.M. 48,50-51, 69 Chatfield, C 115-118 Chernoff, H 41-46 Clausen, S.E. 211-213 Cleveland, ws. 44-46 Hartigan, -------J. 149-150,155 Harvey, H.H 86-87 Harville, D.A 37-38 Healy, M.J.R 37-38 Hígham, CF.w. 22,27-28,67-69,74-75, 86-87,101,151,193 Hill, M.O. 209-211, 214 l{intze,J. 115-116, 118, 136, 138, 145-146, 155,181-182,184-190 Hirschfeld, HO. 205-207, 214 Hosmer, D.W. 137, 138 Hotelling, H. 15,49-51,53-54,56-58, 60-62, 66-67,89,104,157,176 Collett, D. 137-138 Collins, AJ.1l5-118 Cox, M.A.A 188-190 Cox, T.F. 188-190 Darwin, C 13 Dígby, r.G.N. 151, 155,211-213 Dunteman, G.H. 99-100, 104 Digisys 211-213, 219, 221 Ehrlich, P.R 27-28 Everitt, B. 41-43,45-46,149-150,155 Fidell, L.S. 116-118 Físher, R.A. 121,137,138,205-207,214 Francis, RI.C.C. 49-50, 70 1 f :~ 1 1 Calton, F. 15 Garbin, 117-118 Gauch, H.G. 209-211, 214 Giffins, R 173-174, 176 Gower, J.C 80-81, 85-87 Green, E.L. 165-166,176 Greenacre, M.J. 211-212,214 Groenen, P. 188-190 c.r 1 Hand, D. 215,217 Harris, R.J. 123, 138, 161,176 [ackson, D.A. 80-81,85-87 [ackson, J.E. 99-100, 104 Iacoby, W.G. 45-46 [adwiszczak, r. 84-87 [olliffe, LI. 99-100, 104 Jongman, RH.G. 211-212, 214 Kaiser, HF. 108, 118 Kempton, RA. 151, 155, 211-213 Khatri, CG. 69 Kijngam, A 27-28,69,86-87 Kovach, 211-212, 214 Kres, H. 61, 69 Kruskal,J.B.178-181,188-190 wr. Landau, S. 155 Leese,M.155 Legendre, r. 80-81, 86-87 Lemeshow, S. 137,138 Levene, H. 54-58, 65-67, 69,96-97 Lewis, T. 216-217 Little, KA 217 Ludwig, J.A. 203-206, 211-212,214 Mahalanobis, r.c 75-80, 84-87,119, 120, 123,125,129,130-131,137,216-217 Manly, B.F.I. 27-28, 49-50, 54-55, 69,70, 85-87,130-131,138 .mmr;me Manriila, H. 217 Mantel,N.81-87 McKechnie, s.w 19,27-28 Mielke, r-w 83-84, 86-87 Nam.boodirí, K. 37-38 Pearson, K. 89, 104 Penrose, t.w 75-79, 83-87 Peres-Neto, P.R 54-55,70,85-87 Persson, S. 151, 155 Randall-Maciver, R 17,27-28 Rencher, A.C. 116-118 Reynolds.j.P 203-206, 211-212,214 Romesburg, H.C. 149-150, 155, 183-185, 189-190 Rubíri, D.B. 217 Schultz, B. 54-55, 70 Searle, S.R.37-38 Seber; GA.F. 60-62, 70,115-118,134,136, 138 Smilauer, P. 211-212, 214, 219, 221 Smyth, P.217 Somers, K.M. 86-87 Spearman, C 105, 106, 116-118 lndice Srivastava, M.S. 69 'tey ,A. ~.W. 45-46 Stumf, RI;:f. 45-46 Tabachnick, B.C. 116-118 Teng, G.C 117-118 Ter Braak, C.].F. 211-212, 214,219,221 Thornpson, B. 173-174, 176 Thomson, A. 17,27-28 Togerson, W.S. 178-179,189-190 Toit S.H.C 43-46 Tuft, E.R 44-46 Van Tongeren, O.F.R. 214 Van Valen, L. 55-58, 63-64, 66-67, 70 Weber, A. 102, 103-104 Welch, B.L. 48, 66-67, 70 Welsch, RE. 41-43, 45-46 White, R.R. 27-28 Wish,M. 180-181,188-190 Yao, Y.50-51, 70 Xlstat 219,221 I 'j Ajustamento de Bonferroni, ver Teste de significância Análise de agrupamentos 24-25, 84-85, 139-155,193,215 agrupamento de média de grupo 142-143 agrupamento do vizinho mais distante 142-143 agrupamento do vizinho mais próximo 141-143,145-146,148-149 agrupamento hierárquico divisivo 142-143 agrupamentos k-média 145-148 baseada em assumir uma mistura de várias populações 149-150 com uma análise de componentes principais 144-145 dendrograrna 142-143 medidas de distâncias 143-145 métodos de partição 140-142 métodos hierárquicos 139-141, 145-146, 148-149 problemas com análise de agrupamentos 143-144 programas computacionais 148-150 usos para análise de agrupamentos 139 Análise de componentes principais 15, 23-26,89-105,107,109,111-112,157,191, 215-217 análise de fatores via componentes principais 109-115 com análise de agrupamento 144-145 forma de dados 90-91 número de componentes principais usado para a análise 93-94,97-98 para ordenação 191-197, 210-211 procedimento numérico 90-93 programas computacionais 98-100, 211-212 relacionamento com análise de coordenadas principais 197-202 representação de componentes principais 96-100 Análise de coordenadas principais 25-26, 178-179,192,195-204,210-212 com dados presença-ausência 101-204 matriz de similaridade duplamente centrada 200-201 procedimento numérico 200-202 programas computacionais 201-202, 211-212 relacionamento com análise de componentes principais 197-202 Análise de correlação canônica 24-25, 157-191 correlações canônicas 157-160, 164, 166-167 interpretando variáveis canônicas 162, 164-166,171-172 procedimento numérico 159-160 programas computacionais 172-173 testes de significância 160-161, 164, 171-173 variáveis canônicas 157-160,164-167, 170-172 Análise de correspondência 25-26, 205-212 destendenciada 209-211 forma de dados 205-208 média recíproca 207-208 procedimento numérico 207-211 programas computacionais 211-212 representação em arco ou ferradura 209-211 Análise de fatores 23-25,105-118,215-217 exploratória e confirmatória 116-117 cargas de fator 106-107, 112-113 comunalidade 107,111-112 duas teorias fatoriais de testes mentais 106 escores de fator 108, 110-112 especificidade 107 fatores comuns 106-107 forma dedadas 107 máxima verossimilhança 115-116 modelagem de equação estrutural 116-117 normalização de Kaiser 108,112-113 número de fatores 108,111-112,115-116 programas computacionais 115-116 rotação de fator 108-113 rotação varimax 108, 110-113 valor de análise fatoriaI116-117 Análise de função discriminante 24-25, 119-138,191,211-212,215 análise de aleatorização 130-131 atribuindo indivíduos não agrupados a grupos 130-131 classificação jacknife de casos 130-131 discriminação baseada em distâncias de Mahalanobis 119-120,125,129-131 forma de dados 119-120 funções discriminante canônicas 121-122,124-125 funções discriminante quadráticas 136 passo a passo 129-131 pela regressão logística, ver Regressão logística probabilidades a priori de membros de grupos 129 robustez 123 testes de significância 122-123, 126 Análise de Procrustes 85-86 Análise de variância 58-59, 63-64, 66-67, 121-122 Análise multivariada de variância (MANOVA) 66-67 Autovalores e autovetores, ver Matriz Coeficiente de correlação 15, 36-38 Correlação espacial 85-87, 171-172 Dendrograma, ver Análise de agrupamentos D:s!àncias multivariadas com ~álise de agrupamentos 143-145 com escalonamento multidimensional 177-180 de Mahalanobis 75-80, 84-85,119-120, 123,125,129-131,216-217 de Penrose 75-80, 83-85 de proporções 78-80 entre indivíduos 71-75 entre populações e amostras 71, 74-80 Euclidiana 72-75, 144-146, 179-180, 198-200,203-208 índices de similaridade 78-80, 2DO-203 Manhattan 201-202 nicho sobreposto 78-80 para dados de presença-ausência 80-82, 193,201-206 Distribuição normal 25-27, 48-51,54-55, 60-62,65-67,76-77,83-84,123,136, 149-150,166-167,216-217 Escalonamento multidimensionaI24-26, 177-191,195-197,215-217 disparidades 179-180, 186-189 escalonarnento métrico 180-181, 184-186 escalonamento não-métrico 180-182 escolha do número de dimensões 180-181 interpretação de dimensões 184-188 para ordenação 203-208, 210-212 procedimento numérico para um escalonamento multidimensional clássico 179-181 programas computacionais 186-187, 203-206,211-212 qualidade de ajuste (stress) 179-181, 184-186,197-198,203-206 regressão monotônica 179-182 sobre dados de presença-ausência 203-208 Escalonamento, ver Ordenação Exemplos bens de túmulos do cemitério de Banna"di'na Iailândia 151, 15'i-154, 193-198, 203-208 cães pré-históricos da Tailândia 21-23, 41-46,67-69,71,73-75,138,146-149 colônias de uma borboleta 18-21, 71, 86-87,157,162-166,172-173 comportamento de votação de parlamentares de Nova Jersey 183-189, 191 consumo de proteína na Europa 102-103,117-118,173-175 crânios egípcios 15-18, 63-66, 83-85, 119, 124-125,130-131,134-136 distâncias rodoviárias entre cidades na Nova Zelândia 180-184, 191 empregos em países europeus 21-22, 97-98,111-115,126-129,144-148, 173-175,189-191 espécies de plantas na reserva Natural de Steneryd 151-152, 192-193,201-207, 209-211 meninos em uma escola preparatória 105-106 pardais sobreviventes a tempestade 13-15,39-43,49-53,55-57,90,93-97, 132-133,191,215 solo e vegetação em Belize 165-173 taças pré-históricas da Tailândia 101-102,212-213 testes de leitura e aritmética para crianças estudantes 157-158 Faces de Chernoff 41-46 índice índice índice Índice de Dice-Sorensen 80-81 de emparelhamento simples 80-81 de Jaccard 80-81 de Ochiai 80-81 Matriz adição 31 autovalores e autovetores 34-36, 59-62, 65-66,92-94,97-98,108,111-113,122, 12 --125, ?7,~!.I';9,-;'60,164, 192-194, 196-203,207-211 correlação 81-84 deterrninante 33-34,58-60,64 diagonal30 escalar 32 forma quadrática 34-35 identidade 30 igual 31 inversa 33-34, 52-53,75-76 multiplicação 31, 32 nula 30 ortogonal 34-35 quadrada 29 simétrica 30,198-199 singular 34-35 subtração 31 traço 31, 92 transposta 30 vetor coluna 29-30 vetor linha 30 Matriz de correlação 36-38, 93, 97-98, 111-112,163-164,192 Matriz de covariância 26-27, 35-38, 49-53, 62-63,75-79,92-93,123,136,198-199 Matriz de dispersão, ver Matriz de covariância Matriz de soma de quadrados e produtos cruzados58-59,63-64,122,124 Matriz de somas de quadrados e produtos cruzados dentro da amostra 58-59, 64, 122,124 Matriz de somas de quadrados e produtos cruzados entre amostras 59-60, 122, 124 Matriz distância, ver Distâncias multivariadas Média recíproca, ver Análise de correspondência Medidas de similaridade, ver Distâncias multivariadas Métodos gráficos 26-27, 39-46 Mineração de Dados 215 Misturas de distribuições, ver Análise de agrupamentos Nicho sobreposto, ver Distâncias rnultivariadas Ordenação 25-26, 39-40, 84-85,191-214 comparação de métodos 210-212 programas computacionais 211-212 usando análise de componentes principais 191, 192-197 usando análise de coordenadas principais, ver Análise de coordenadas principais usando análise de correspondência, ver Análise de correspondência usando esca1onamento multidimensiona1191, 203-208 Ordenação canônica 211-212 Programas computacionais 26-27, 66-67, 84-85,98-100,115-116,136,148-150,217, 219-221 GenStat 220 Minitab 220 MVSP 211-212,220 NCSS 115-116,136,145-146,181-182, 184-188,220 NMDS 203-206 pacote computacional CANOCO 211-212, 219 PC-ORD 211-212, 219 SPSS220 Stata 220 Statistica 220 XLSTAT-PRO219 Regressão logística amostragem separada 132, 134 esquemas de amostragem 131-132 generalização para regressão multinornial137 ~;-.iix; ia verossimilhança 131-132 !estes de significância 133, 135 uso para discriminação 131-136 Regressão múltipla 158 Representação de Draftsrnan, 41-46, 171-173,192,195-198,202-208 Representação de perfis 44-46 Representação de variáveis índice 39-42, 44-46 Representação por estrelas 41-46 Resíduos e pontos discrepantes 76, 123,216 Tamanho e forma 90, 94-96, 102 Teoria de dois fatores de testes mentais, ver Análise de fatores Teste de aleatorização matriz de Mantel 81-87 Teste de Levene, ver Teste de signifícância Teste de signíficância ajuste de Bonferroni 53-55 com análise de correlação canônica 160-161 com análise de função discriminante 122-123 comparação de valores médios 47-53, 58-62 comparação de variâncias 54-64 robustez 48-51,54-55, 60-67 tabelas de valores críticos para testes multivariados 61 teste da maior raiz de Roy 59-61, 65-66 teste de Bartlett para correlações canônicas significantes 160-161, 164,166-167 teste de Levene 54-58, 65-66, 96-97 teste de Van Valen 55-58, 63-64 teste de We1ch48-50 teste F 50-55, 58-64, 66-67, 96-97 teste lambda de Wilk 58-61, 23-24 teste M de Box 54-55, 60-66 teste qui-quadrado 76-77,122-123,133, 135,161,164 '"eS'''''' 48-58,96-97 teste T2 de Hotelling 49-58 teste traço de Lawley-Hotelling 61-62, 65-66 teste traço de Pillai 61-62, 65-66 testes múltiplos 47, 53-55 Valores perdidos 216-217 Vetor média 26-27, 35-37, 50-52, 75-7E