Preview only show first 10 pages with watermark. For full document please download

Introdução A Algebra Linear

Introdução a algebra linear, com todas as bases e alguns exercicios resolvidos.

   EMBED


Share

Transcript

Ana Paula Santana Jo˜ao Filipe Queir´o ˜ A ` ALGEBRA ´ INTRODUC ¸ AO LINEAR Departamento de Matem´atica - Universidade de Coimbra 2008 Nota Este texto ´e uma vers˜ao provis´oria de um livro que em breve ser´a publicado. Substitui a vers˜ao de 2003 que tem sido disponibilizada online. Trata-se tamb´em de uma vers˜ao parcial, pois n˜ao inclui os cap´ıtulos 8, 9 e 10 que por vezes s˜ao referidos no texto. Esses cap´ıtulos dir˜ao respeito a espa¸cos vectoriais abstractos, transforma¸co˜es lineares entre tais espa¸cos, e espa¸cos abstractos com produto interno. Coimbra, Setembro de 2008 Ana Paula Santana Jo˜ ao Filipe Queir´o 1 Conte´ udo 0 Os n´ umeros complexos 4 1 Matrizes 1.1 Generalidades . . . . . . . . . . 1.2 Opera¸c˜oes com matrizes . . . . 1.3 Inversa de uma matriz quadrada 1.4 Transposi¸ca˜o de matrizes . . . . 1.5 Matrizes elementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 10 16 18 22 2 Sistemas de equa¸c˜ oes lineares 26 2.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 O algoritmo de elimina¸c˜ao de Gauss . . . . . . . . . . . . . . . . . . . 29 2.3 O algoritmo de Gauss-Jordan para invers˜ao de matrizes . . . . . . . . 43 3 Determinantes 3.1 Defini¸c˜ao e primeiras propriedades . . . . . . 3.2 Permuta¸co˜es . . . . . . . . . . . . . . . . . . 3.3 Existˆencia e unicidade do determinante . . . 3.4 Outras propriedades dos determinantes . . . 3.5 O Teorema de Laplace e a Regra de Cramer 4 O espa¸co Rn , subespa¸cos, dimens˜ ao 4.1 Subespa¸cos . . . . . . . . . . . . . . . . 4.2 Dependˆencia e independˆencia linear . . . 4.3 Base e dimens˜ao . . . . . . . . . . . . . . 4.4 Mudan¸ca de base . . . . . . . . . . . . . 4.5 Caracter´ıstica e nulidade de uma matriz 4.6 Soma e soma directa de subespa¸cos . . . 4.7 Transforma¸co˜es lineares em Rn . . . . . 4.8 Nota sobre espa¸cos vectoriais abstractos . . . . . . . . . . . . . . . . ˆ 5 Angulos e distˆ ancias em Rn 5.1 Sistemas imposs´ıveis . . . . . . . . . . . . . 5.2 Produto interno em Rn . . . . . . . . . . . . 5.3 Projec¸ca˜o ortogonal sobre um subespa¸co . . 5.4 M´ınimos quadrados . . . . . . . . . . . . . . 5.5 Complemento ortogonal de um subespa¸co . . 5.6 Determinantes e medidas de paralelip´ıpedos 5.7 Produto externo em R3 . . . . . . . . . . . . 6 Planos em Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 52 55 60 63 . . . . . . . . . . . . . . . . 68 68 75 79 84 86 91 94 99 . . . . . . . 100 . 100 . 104 . 110 . 118 . 124 . 125 . 126 . . . . . 131 7 Valores pr´ oprios e vectores pr´ oprios de matrizes 136 7.1 Conceitos b´asicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2 Matrizes diagonaliz´aveis . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.3 Um exemplo de aplica¸c˜ao da diagonalizabilidade . . . . . . . . . . . . 144 2 7.4 7.5 7.6 7.7 7.8 7.9 O caso das matrizes sim´etricas reais . . Curvas e superf´ıcies do 2o grau . . . . Estudo da semelhan¸ca de matrizes . . . A decomposi¸ca˜o dos valores singulares A norma de uma matriz . . . . . . . . O n´ umero de condi¸ca˜o de uma matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 150 157 166 172 180 11 Apˆ endices 182 11.1 Hist´oria dos n´ umeros complexos . . . . . . . . . . . . . . . . . . . . . 182 11.2 Permuta¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.3 O Teorema de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 189 3 0 Os n´ umeros complexos Esta sec¸ca˜o ´e uma breve introdu¸c˜ao aos conjuntos de n´ umeros que ser˜ao mais utilizados no texto. Destina-se principalmente ao leitor pouco familiarizado com os n´ umeros complexos. Os conjuntos de n´ umeros mais conhecidos e habituais s˜ao os seguintes: o conjunto dos n´ umeros naturais N = {1, 2, 3, . . .}, o conjunto dos n´ umeros inteiros Z = {. . . , −3, −2, −1, 0, 1, 2, 3, . . .}, o conjunto dos n´ umeros racionais nm o Q= : m, n ∈ Z, n 6= 0 n e o conjunto dos n´ umeros reais, para o qual usaremos o s´ımbolo R. Tem-se a seguinte cadeia de inclus˜oes: N ⊂ Z ⊂ Q ⊂ R. √ √ Exemplos de n´ umeros reais que n˜ao s˜ao racionais s˜ao 2 , 3 , e e π . A melhor maneira de “visualizar”o conjunto R ´e pensar nos pontos de uma recta, o “eixo real”. Marcando no eixo dois pontos para representar os n´ umeros 0 e 1, obt´em-se uma correspondˆencia perfeita entre R e o conjunto dos pontos do eixo. R 0 1 α Supor-se-˜ao conhecidas as propriedades b´asicas destes n´ umeros. No s´eculo XVI, a prop´osito da descoberta da f´ormula resolvente das equa¸c˜oes do 3o grau, “descobriu-se”um novo conjunto de n´ umeros contendo R. Essa hist´oria ´e recordada em apˆendice. O novo conjunto de n´ umeros ´e o conjunto dos n´ umeros complexos C = {a + bi : a, b ∈ R} onde i satisfaz i2 = −1. As opera¸c˜oes com n´ umeros complexos realizam-se tratandoos como n´ umeros como os outros e usando as propriedades habituais das opera¸co˜es, bem como a igualdade i2 = −1. Assim, por exemplo, (a + bi) + (c + di) = (a + c) + (b + d)i 4 (a + bi)(c + di) = (ac − bd) + (ad + bc)i . Estas opera¸co˜es gozam das mesmas propriedades alg´ebricas que as correspondentes no conjunto dos n´ umeros reais: comutatividade, associatividade, distributividade da multiplica¸ca˜o relativamente `a adi¸c˜ao.1 Os n´ umeros complexos 0 = 0 + 0i e 1 = 1 + 0i s˜ao elementos neutros para, respectivamente, a adi¸ca˜o e a multiplica¸ca˜o. O inverso do n´ umero complexo a + bi 6= 0 ´e a2 a −b + 2 i. 2 +b a + b2 Note-se que todos os n´ umeros reais s˜ao tamb´em n´ umeros complexos (s˜ao aqueles em que b = 0), pelo que a cadeia de inclus˜oes acima referida pode ser completada: N ⊂ Z ⊂ Q ⊂ R ⊂ C. A melhor maneira de “visualizar”o conjunto C ´e pensar nos pontos de um plano, o “plano complexo”. Tra¸cando no plano um sistema de dois eixos perpendiculares, e identificando o n´ umero complexo a + bi com o ponto de coordenadas (a, b), obt´em-se uma correspondˆencia entre C e o conjunto dos pontos do plano. C bi . a + bi 0 a Se pensarmos na f´ormula resolvente para equa¸c˜oes do 2o grau, vemos que, com a introdu¸ca˜o dos n´ umeros complexos, qualquer equa¸c˜ao do 2o grau com coeficientes reais tem solu¸ca˜o em C: o aparecimento de ra´ızes quadradas de n´ umeros negativos deixa de ser problema. Por exemplo, a equa¸c˜ao x2 − 2x + 5 = 0 tem as solu¸c˜oes 1 + 2i e 1 − 2i. Mas pode dizer-se muito mais: com a introdu¸ca˜o dos n´ umeros complexos, qualquer equa¸ca˜o de qualquer grau, com coeficientes reais ou mesmo complexos, tem ´ solu¸ca˜o em C. Este ´e o conte´ udo do chamado Teorema Fundamental da Algebra, 2 demonstrado pela primeira vez de forma completa por Gauss em 1799. 1 Uma diferen¸ca b´asica entre R e C ´e que no conjunto dos n´ umeros complexos n˜ao existe uma rela¸c˜ao de ordem < compat´ıvel com as opera¸c˜oes, isto ´e, satisfazendo, para quaisquer z1 , z2 , w ∈ C, as implica¸co˜es z1 < z2 ∧ w > 0 ⇒ z1 w < z2 w e z1 < z2 ⇒ z1 + w < z2 + w. 2 Para provar este teorema, s˜ao necess´arios conhecimentos de An´alise que est˜ao para al´em do 1o ano da Universidade. Note-se que o teorema apenas afirma a existˆencia de solu¸c˜oes. A determina¸ca˜o delas para cada equa¸c˜ao ´e um problema diferente. 5 ´ Do Teorema Fundamental da Algebra tira-se uma importante conclus˜ao: um polin´omio com coeficientes reais ou complexos pode sempre escrever-se como produto de factores de grau 1: an xn + an−1 xn−1 + · · · + a1 x + a0 = an (x − α1 )(x − α2 ) . . . (x − αn ) , onde α1 , α2 , . . . , αn s˜ao as ra´ızes do polin´omio. O conjunto C ´e portanto muito rico do ponto de vista alg´ebrico. Encerramos esta sec¸ca˜o introduzindo alguma terminologia sobre n´ umeros complexos. Seja z = a + bi ∈ C. Chamamos a a parte real de z e escrevemos a = Re z. Chamamos a b parte imagin´aria de z e escrevemos b = Im z. Se a = 0 dizemos que z ´e imagin´ario puro. O√conjugado de z ´e z = a − bi. O m´odulo de z ´e o n´ umero 2 2 real n˜ao negativo |z| = a + b . (A fun¸c˜ao m´odulo em C estende a fun¸ca˜o m´odulo conhecida em R.) Geometricamente, |z| ´e a distˆancia do ponto z do plano complexo `a origem (isto ´e, ao ponto 0). Mais geralmente, |z − w| ´e a distˆancia entre os pontos z e w. 6 1 Matrizes Neste cap´ıtulo estudam-se os conceitos e resultados fundamentais sobre matrizes. As matrizes s˜ao objectos b´asicos da Matem´atica: ´e imposs´ıvel estudar Matem´atica a n´ıvel superior sem conhecer a linguagem matricial. Esta linguagem ´e usada naturalmente em todos os contextos “multidimensionais”, isto ´e, em que os objectos considerados podem ser descritos por sequˆencias de v´arios n´ umeros. A introdu¸ca˜o das matrizes e das opera¸co˜es entre elas permite em geral uma descri¸ca˜o muito abreviada dos problemas e rela¸c˜oes que surgem nesses contextos. Uma matriz pode ser definida de forma muito simples, como um quadro de n´ umeros dispostos segundo umas tantas linhas e colunas. Com este tipo de objectos — uma esp´ecie de “n´ umeros generalizados” — podem fazer-se “contas”como com os n´ umeros vulgares (embora algumas propriedades falhem), o que ´e u ´til nas partes ´ mais computacionais da Algebra Linear. Em cap´ıtulos posteriores veremos que as matrizes s˜ao u ´teis tamb´em em contextos mais abstractos. Nos primeiros cap´ıtulos deste texto, trabalharemos, em geral, com matrizes de n´ umeros reais. No entanto, praticamente tudo o que veremos ´e tamb´em v´alido para n´ umeros complexos. 1.1 Generalidades Defini¸c˜ ao 1.1 Chama-se matriz do tipo m × n sobre R (ou C) a todo o quadro que se obt´em dispondo mn n´ umeros segundo m linhas e n colunas. Esses n´ umeros dizem-se os elementos da matriz. Uma matriz diz-se real ou complexa consoante os seus elementos forem n´ umeros reais ou complexos. O conjunto de todas as matrizes do tipo m × n sobre R representa-se por Mm×n (R). Usamos a nota¸c˜ ao Rm para Mm×1 (R). · ¸  0 −2 2 Exemplo 1.1 ,  1 12 5 3 × 3 e 3 × 1 , respectivamente. A primeira a R3 . 1 2 −5 3 7 8    7 2 3  e  4  s˜ao matrizes reais dos tipos 2 × 3 , 8 9 pertence M2×3 (R), a segunda a M3×3 (R) e a terceira Usam-se letras mai´ usculas para designar matrizes. Exceptua-se o caso das matrizescoluna, isto ´e, matrizes s´o com uma coluna, para as quais, frequentemente, se utilizam letras min´ usculas. Numa matriz abstracta ´e comum designar os elementos por uma letra min´ uscula com dois ´ındices, indicando o primeiro a linha da matriz em que o elemento se encontra e o segundo a coluna. 7 Deste modo, se A for uma matriz do tipo m × n, ent˜ao aij ´e o elemento de A situado na linha i e coluna j, para i = 1, . . . , m e j = 1, . . . , n. Tal elemento ´e tamb´em referido como o elemento de A na posi¸c˜ao (i, j), ou apenas por elemento (i, j) de A. Assim, uma matriz abstracta do tipo m × n ´e habitualmente apresentada da seguinte forma:   a11 a12 . . . a1n  a21 a22 . . . a2n    A =  .. .. ..  . . .  . . . .  am1 am2 . . . amn Esta matriz pode tamb´em ser apresentada na forma A = [aij ]m×n , ou simplesmente A = [aij ] se o tipo for conhecido do contexto ou n˜ao for importante na quest˜ao que esteja em estudo. Na defini¸ca˜o seguinte registamos terminologia e nota¸co˜es b´asicas relativas a matrizes. 8 Defini¸c˜ ao 1.2 1. Duas matrizes A = [aij ] e B = [bij ] ∈ Mm×n (R) s˜ao iguais se aij = bij , para i = 1, . . . , m, j = 1, . . . , n. 2. A ∈ Mm×n (R) diz-se quadrada de ordem n se m = n, e rectangular se m 6= n. 3. Os elementos diagonais de A = [aij ] ∈ Mn×n (R) s˜ao a11 , a22 , . . . , ann . A sequˆencia ordenada constitu´ıda por estes elementos diz-se diagonal principal de A. 4. Seja A = [aij ] quadrada. A diz-se triangular superior se aij = 0 quando i > j, triangular inferior se aij = 0 quando i < j, e diagonal se aij = 0 quando i 6= j. 5. A matriz identidade de ordem n, In , ´e a n, com os elementos diagonais iguais a 1.  1 0 ... 0  0 1 ... 0  In =  .. .. . . ..  . . . . 0 0 ... 1 matriz diagonal, de ordem    .  Se a ordem estiver clara do contexto usamos simplesmente I. 6. A matriz nula m×n ´e a matriz m×n cujos elementos s˜ao todos iguais a zero. Representa-se por 0m×n , ou simplesmente por 0 se o tipo estiver claro do contexto. 7. Sendo A = [aij ]m×n , define-se −A = [− aij ]m×n . 8. Sendo A uma matriz, uma submatriz de A ´e uma matriz que se obt´em por supress˜ ao de linhas e/ou colunas de A. · ¸ 2 7 s˜ao iguais se a = 1 e b = 3. Estas duas b 8   10 5 −7 3  ´e quadrada de ordem 3. Os matrizes s˜ao rectangulares, enquanto a matriz A =  8 2 15 6 5 elementos diagonais de A s˜ ao 10, 2, 5 e a sua diagonal principal ´e (10, 2, 5). As matrizes       1 2 −7 1 0 0 2 0 0  0 2 1 ,  7 3 0  e  0 2 0  0 0 −2 5 0 5 0 0 7 Exemplo 1.2 As matrizes 1 2 −5 3 7 8 ¸ · e a −5 s˜ao, respectivamente, triangularsuperior, triangular inferior e diagonal.  · ¸ 5 −7 10 5 10 −7 3  s˜ao exemplos de submatrizes de A =  8 2 As matrizes e 2 15 5 6 5 15 6 9  −7 3 . 5 1.2 Opera¸c˜ oes com matrizes As opera¸co˜es mais simples com matrizes s˜ao a adi¸c˜ao (ou soma) de matrizes e a multiplica¸ca˜o de um n´ umero por uma matriz. Defini¸c˜ ao 1.3 Sendo A = [aij ] ∈ Mm×n (R), B = [bij ] ∈ Mm×n (R) e α ∈ R, define-se: 1. A + B como sendo a matriz do tipo m × n cujo elemento (i, j) ´e aij + bij . Assim A + B = [aij + bij ]m×n . 2. αA como sendo a matriz do tipo m × n cujo elemento (i, j) ´e α aij . Tem-se ent˜ao αA = [α aij ]m×n . · Exemplo 1.3 Sendo A = 1 0 −2 1 · A+B = −6 8 ¸ 11 3 2 −1 7 12 · e B= ¸ e 10 3 1 6 1 A= 2 · 8 4 1 2 −1 ¸ , tem-se 0 1 2 −3 4 ¸ . Teorema 1.1 Sejam A, B e C matrizes arbitr´arias em Mm×n (R). Ent˜ao verificase: 1. (A + B) + C = A + (B + C) (associatividade da adi¸c˜ ao). 2. A + B = B + A (comutatividade da adi¸c˜ao). 3. A + 0m×n = 0m×n + A = A (a matriz nula ´e elemento neutro da adi¸c˜ ao). 4. A + (−A) = (−A) + A = 0m×n (−A ´e o elemento sim´etrico ou oposto de A). Demonstra¸c˜ ao. Apenas demonstramos a primeira destas propriedades, deixando as restantes como exerc´ıcio. Sejam A = [aij ] , B = [bij ] , C = [cij ] ∈ Mm×n (R) . Sejam D = (A + B) + C = [dij ] e E = A + (B + C) = [eij ] . Note-se que D e E s˜ao matrizes m × n. Por outro lado, da defini¸ca˜o de adi¸ca˜o de matrizes, tem-se dij = (aij + bij ) + cij e eij = aij + (bij + cij ). Mas a associatividade da adi¸c˜ao em R diz-nos que estas duas somas s˜ao iguais. Logo, dij = eij para i = 1, . . . , m, j = 1, . . . , n, e portanto D = E. Teorema 1.2 Sejam A e B matrizes arbitr´arias em Mm×n (R) e α, β ∈ R. Ent˜ao verifica-se: 1. α(A + B) = αA + αB. 2. (α + β)A = αA + βA. 10 3. (αβ)A = α(βA). 4. 1A = A. Demonstra¸c˜ ao. Demonstremos a propriedade 3, sendo as restantes deixadas como exerc´ıcio. Seja A = [aij ] ∈ Mm×n (R) e α, β ∈ R. Ent˜ao (αβ)A e α(βA) s˜ao matrizes do mesmo tipo e o elemento (i, j) de (αβ)A ´e (αβ)aij . Como α, β e aij s˜ao elementos de R, da associatividade da multiplica¸c˜ao em R, sabemos que (αβ)aij = α(βaij ). Mas o segundo membro desta igualdade n˜ao ´e mais que o elemento (i, j) de α(βA). Como i e j s˜ao quaisquer, obtemos a igualdade das matrizes consideradas. Vamos agora introduzir a opera¸c˜ao de multiplica¸c˜ao (ou produto) de matrizes. Defini¸c˜ ao 1.4 Sendo A = [aij ] ∈ Mm×n (R) e B = [bij ] ∈ Mn×p (R), define-se AB como sendo a matriz do tipo m × p cujo elemento (i, j) ´e ai1 b1j + ai2 b2j + · · · + ain bnj . Assim # " n X aik bkj . AB = k=1 m×p Como se pode ver pela defini¸ca˜o, o produto AB da matriz A pela matriz B apenas est´a definido se o n´ umero de colunas de A for igual ao n´ umero de linhas de B. Neste caso o n´ umero de linhas da matriz AB ´e igual ao n´ umero de linhas de A e o n´ umero de colunas ´e igual ao de B. O elemento de AB situado na linha i e coluna j obt´em-se a partir da linha i de A e da coluna j de B:    ... ... ... ...   ai1 ai2 . . . ain     ... ... ... ...  . . . b1j . . .   ... ... ... . . . b2j . . .   .. .. ..  =  . . . ai1 b1j + ai2 b2j + . . . + ain bnj . . .  . . . .  ... ... ... . . . bnj . . . Vemos assim que, para cada i = 1, . . . , m, a linha i de AB se obt´em multiplicando a linha i de A pela matriz B, e que, para cada j = 1, . . . , p, a coluna j de AB se obt´em multiplicando a matriz A pela coluna j de B. · Exemplo 1.4 1. Sejam A = 1 9 2 3 7 8 ¸  5 4 e B= 8 0 1 2 · AB  3 6  . Ent˜ao 9 1×5+2×8+7×1 1×4+2×0+7×2 1×3+2×6+7×9 = 9×5+3×8+8×1 9×4+3×0+8×2 9×3+3×6+8×9 · ¸ 28 18 78 = 77 52 117 ¸ Note-se que neste caso o produto BA n˜ao est´a definido, visto o n´ umero de colunas de B ser diferente do n´ umero de linhas de A. 11  2. Sejam A = £ 3 e 5  2 e B =  7  . Ent˜ao 4 ¤ £ ¤ £ AB = 3 × 2 + 1 × 7 + 5 × 4 = 33 ;   3 3. Sejam A =  0 0 · 4. Sendo A = 1 ¤ 1 −1   2×3 2×1 2×5 6 2 BA =  7 × 3 7 × 1 7 × 5  =  21 7 4×3 4×1 4×5 12 4    5 0 0 0 0 5 0  e B =  0 7 0  . Ent˜ao 0 0 9 0 1   15 0 0 AB = BA =  0 35 0  . 0 0 9 2 −2 ¸ · e B= · AB = 0 0 ¸ 4 −6 , tem-se −2 3 ¸ · 10 0 ; BA = −5 0 20 −10  10 35  . 20 ¸ . Como pode ser observado nestes exemplos, a multiplica¸ca˜o de matrizes comportase de modo diferente da multiplica¸ca˜o de n´ umeros. Dadas matrizes A e B, pode acontecer estar o produto AB definido, mas o produto BA n˜ao estar. Estando AB e BA definidos, nada implica que AB seja igual a BA. Verificamos ainda outra anomalia: o produto de duas matrizes pode ser nulo sem que nenhuma delas o seja. Estas e outras propriedades do produto de matrizes est˜ao contidas no teorema que se segue. Teorema 1.3 Sejam A,A0 ∈ Mm×n (R), B,B 0 ∈ Mn×p (R), C ∈ Mp×q (R) matrizes arbitr´arias e α∈R. Ent˜ao tem-se: 1. A0n×p = 0m×p , 0r×m A = 0r×n , AIn = Im A = A. 2. (AB)C = A(BC) (associatividade da multiplica¸c˜ ao). 3. A(B + B 0 ) = AB + AB 0 , (A + A0 )B = AB + A0 B (distributividades do produto em rela¸c˜ ao `a adi¸c˜ ao). 4. α(AB) = (αA)B = A(αB). 5. AB = 0 6⇒ (A = 0 ou B = 0). 6. (AB = AB 0 e A 6= 0) 6⇒ B = B 0 , e tamb´em (AB = A0 B e B 6= 0) 6⇒ A = A0 . 7. A multiplica¸c˜ ao de matrizes n˜ao ´e comutativa. 12 Demonstra¸c˜ ao. As afirma¸co˜es contidas nas al´ıneas 5, 6 e 7 s˜ao do tipo negativo, em que se diz que certa propriedade geral n˜ao ´e verdadeira. Para provar uma afirma¸ca˜o desse tipo basta apresentar um exemplo, um caso concreto, em que a propriedade geral indicada n˜ao se verifica. (A um exemplo apresentado com tal objectivo chama-se um contra-exemplo.) No caso das propriedades 5 e 7, veja-se o Exemplo 1.4. ·Para a ¸primeira· parte ¸da propriedade 6,¸ considere, por exemplo, as · 1 1 1 2 3 1 matrizes A = , B= e B0 = . 2 2 2 0 0 1 Passemos agora `a demonstra¸ca˜o da propriedade 2, ficando as restantes como exerc´ıcio. Sejam A = [aij ] ∈ Mm×n (R), B = [bij ] ∈ Mn×p (R) e C = [cij ] ∈ Mp×q (R). Ent˜ao (AB)C e A(BC) s˜ao ambas matrizes do tipo m×q. Da defini¸ca˜o de produto sabemos n X que o elemento (i, j) de AB ´e aik bkj . Assim, o elemento (i, l) de (AB)C ser´a k=1 à n p X X t=1 ! aik bkt ctl . k=1 De modo an´alogo, o elemento (i, l) de A(BC) ´e à p ! n X X aik bkt ctl . k=1 t=1 Utilizando as propriedades distributiva da multiplica¸c˜ao em rela¸ca˜o `a adi¸ca˜o, associativa da multiplica¸ca˜o e da adi¸c˜ao e comutativa da adi¸ca˜o em R, tem-se ! à n à p ! p p p n n X n X X X X X X X aik bkt ctl . (aik bkt )ctl = aik (bkt ctl ) = aik bkt ctl = k=1 t=1 k=1 t=1 t=1 k=1 t=1 k=1 Da associatividade do produto de matrizes conclu´ımos que n˜ao temos que nos preocupar com parˆenteses quando lidarmos com mais de dois factores. Em particular, fica bem definido o significado da express˜ao Ak , onde A ´e uma matriz quadrada e k ∈ N. Teorema 1.4 Seja A ∈Mm×n (R) e designe-se por cj a coluna j de A, j = 1, . . . , n. Dada a matriz-coluna   x1  x2    x =  ..  ,  .  xn tem-se Ax = x1 c1 + x2 c2 + . . . + xn cn . Dizemos ent˜ao que Ax ´e uma combina¸ c˜ ao linear das colunas de A. 13 Demonstra¸c˜ ao. Pela defini¸c˜ao de   a11 a12 . . . a1n  a21 a22 . . . a2n     Ax =  .. .. ..   . .  . . . .  am1 am2 . . . amn   a11   a21   + x2  = x1    ...  am1  produto de matrizes, tem-se   x1 a11 x1 + a12 x2 + . . . + a1n xn x2  a   21 x1 + a22 x2 + . . . + a2n xn ..  =   ... .  a x + a x m1 1 m2 2 + . . . + amn xn xn   a12  a22   + . . . + xn   ...  am2   =   a1n a2n   = x1 c1 + x2 c2 + . . . + xn cn . ...  amn Note-se que, uma vez que AB se obt´em multiplicando A pelas colunas de B, podemos concluir deste teorema que as colunas de AB s˜ao combina¸c˜oes lineares das colunas de A. Exerc´ıcios · 1. Sendo α e β n´ umeros reais, calcule o produto cos α sin α − sin α cos α ¸· cos β sin β − sin β cos β ¸ . 2. Sejam A = [aij ] e B = [bij ] duas matrizes do tipo n × n. (a) Escreva o elemento da matriz A2 + B situado na linha i e na coluna j. (b) Escreva o elemento da matriz A−BA+2In situado na linha i e na coluna j. ½ (Para designar 1 se i = j o elemento (i, j) de In usa-se δij , o chamado s´ımbolo de Kronecker: δij = ) 0 se i 6= j 3. Calcule: · ¸k 1 1 (k ∈ N); (a) 0 1 · (c) cos θ sin θ    4. Calcule   − sin θ cos θ · (b) 2 −1 3 −2 ¸k (k ∈ N);  ¸k (θ ∈ R, k ∈ N); µ1 0 ... 0 µ2 . . . .. .. . . . . . 0 0 ... 0 0 .. . 0 1 (d)  0 0 0 0 3 0 1  . 0 k    (k ∈ N).  µn 5. Prove que o produto de duas matrizes triangulares superiores (resp. inferiores) da mesma ordem ´e ainda uma matriz triangular superior (resp. inferior). A que s˜ao iguais os elementos diagonais do produto neste caso? 6. Calcule o n´ umero de multiplica¸c˜ oes necess´arias para multiplicar uma matriz do tipo m × n por uma matriz do tipo n × p. 14 7. Sejam A, B, C matrizes dos tipos m × n, n × p e p × q, respectivamente. Calcule o n´ umero de multiplica¸c˜oes necess´arias para obter o produto ABC. (Note que a resposta depende de como considerarmos os parˆenteses no produto ABC.) 8. (a) Dˆe exemplos que mostrem que as identidades alg´ebricas (A + B)2 = A2 + 2AB + B 2 , (A − B)2 = A2 − 2AB + B 2 , (A + B)(A − B) = A2 − B 2 e (AB)2 = A2 B 2 nem sempre s˜ao verdadeiras quando A e B s˜ao matrizes. (b) Transforme os segundos membros daquelas identidades de forma a obter identidades sempre v´alidas para A e B matrizes quadradas quaisquer da mesma ordem. 9. Mostre atrav´es de exemplos que uma matriz real quadrada A pode satisfazer: (a) A2 = −I; (b) A2 = 0, sendo A n˜ao nula. 10. Prove que multiplicar A `a esquerda por uma matriz diagonal de elementos diagonais µ1 , . . . , µm equivale a multiplicar a primeira linha de A por µ1 , a segunda linha por µ2 , etc. Multiplicar A `a direita por uma matriz diagonal de elementos diagonais µ1 , . . . , µn equivale a multiplicar a primeira coluna de A por µ1 , a segunda coluna por µ2 , etc. 11. Prove que uma matriz que comuta com uma matriz diagonal de elementos diagonais todos distintos tem de ser ela pr´opria uma matriz diagonal. 12. Prove que uma matriz quadrada que comuta com todas as matrizes quadradas da mesma ordem tem que ser uma matriz escalar (isto ´e, da forma αI para algum n´ umero α). 13. Se os elementos aij de uma matriz A forem fun¸c˜oes diferenci´aveis de uma vari´avel t, definedaij se dA dt como sendo a matriz de elementos dt . Demonstre que dAB dA dB = B+A . dt dt dt 14. Sejam A e B matrizes m × n. Prove que, se Av = Bv para todo o vector coluna n × 1 v, ent˜ao A = B. (Sugest˜ao: O que conclui se v for uma das colunas da matriz In ?) 15. (Produto por blocos.) Sejam A m × n e B n × p duas matrizes. Suponhamos que as particionamos em submatrizes (ou “blocos”) assim     A11 A12 . . . A1s B11 B12 . . . B1t  A21 A22 . . . A2s   B21 B22 . . . B2t      A= . , B= .  . . .. ..  , . .. .. .. ..   ..  .. . . .  Ar1 Ar2 . . . Ars Bs1 Bs2 . . . Bst de forma que, para todos os poss´ıveis valores de i, j, e k, o n´ umero de colunas de Aik seja igual ao n´ umero de linhas de Bkj . Mostre que, ent˜ao, o produto AB se pode calcular do seguinte modo (note-se que o n´ umero de colunas de blocos de A ´e igual ao n´ umero de linhas de blocos de B):  Ps  Ps Ps A1k Bk1 Pk=1 A1k Bk2 . . . Pk=1 A1k Bkt Pk=1 s s s   k=1 A2k Bk1 k=1 A2k Bk2 . . . k=1 A2k Bkt   AB =  . .. .. .. ..   . . . . Ps Ps Ps ... k=1 Ark Bk1 k=1 Ark Bk2 k=1 Ark Bkt ( Sugest˜ao: Talvez ajude come¸car por considerar o caso s = 2, r = t = 1.) 15 16. Calcule os seguintes produtos matriciais usando a multiplica¸c˜ao parti¸c˜ao indicada):    2 0 0   4 1  1 5 3 2 1 5 2  1 5    ; (b)  2 4 2 −1   −1 3 (a)  1  −2 2   1 3 −1 2 2 4 −1 3 6 −1 5 2 por blocos (fazendo a 0 0 0 0 0 0 3 −1 1 6 2      17. Dˆe uma nova demonstra¸c˜ao do Teorema 1.4 usando o produto por blocos. 18. Seja A ∈Mm×n (R) e designe-se por Li a linha i de A, i = 1, . . . , m. Dada a matriz-linha x = [x1 x2 . . . xn ] , prove que se tem xA = x1 L1 + x2 L2 + . . . + xn Lm . 19. Sendo A uma matriz m × n e B uma matriz n × p cujas colunas s˜ao v1 , v2 , . . . , vp , mostre que as colunas de AB s˜ao Av1 , Av2 , . . . , Avp . 1.3 Inversa de uma matriz quadrada Dado um n´ umero α n˜ao nulo, real ou complexo, podemos falar do seu inverso multiplicativo: α−1 ´e o n´ umero que multiplicado por α d´a 1. O que se passar´a com matrizes? Defini¸c˜ ao 1.5 Seja A uma matriz quadrada de ordem n. Dizemos que A ´e invert´ıvel se existir uma matriz X, quadrada de ordem n, tal que AX = XA = In . Teorema 1.5 Seja A uma matriz quadrada de ordem n. Ent˜ao existe no m´aximo uma matriz X quadrada de ordem n tal que AX = XA = In . Demonstra¸c˜ ao. Sejam X e Y matrizes quadradas de ordem n tais que AX = XA = In e AY = Y A = In . Ent˜ao Y = Y In = Y (AX) = (Y A)X = In X = X. Logo, existe no m´aximo uma matriz X nas condi¸co˜es referidas. Defini¸c˜ ao 1.6 Nas condi¸c˜ oes do Teorema, X diz-se a inversa de A e −1 representa-se por A . · Exemplo 1.5 A matriz De facto tem-se · 1 2 1 1 ¸· 1 2 1 1 −1 1 ¸ · ´e invert´ıvel, sendo a sua inversa a matriz 2 −1 ¸ · = I2 e 16 −1 1 2 −1 ¸· 1 2 1 1 ¸ = I2 . −1 1 2 −1 ¸ . · ¸ 1 0 J´a a matriz n˜ao ´e invert´ıvel, porque, multiplicando-a por qualquer outra matriz 2×2, 0 0 a matriz produto tem necessariamente a segunda linha nula, e portanto nunca poder´a ser a matriz identidade. Adiante estudaremos m´etodos para determinar se uma matriz quadrada ´e ou n˜ao invert´ıvel e, no caso afirmativo, calcular a sua inversa. Teorema 1.6 Sejam A e B matrizes quadradas de ordem n invert´ıveis. Ent˜ao AB ´e invert´ıvel e (AB)−1 = B −1 A−1 . Demonstra¸c˜ ao. (AB)(B −1 A−1 ) = A(BB −1 )A−1 = AIn A−1 = AA−1 = In . De modo an´alogo, (B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In . Podemos assim concluir que AB ´e invert´ıvel e a sua inversa ´e B −1 A−1 . Exerc´ıcios 1. Generalize o resultado do teorema 1.6 para mais do que duas matrizes. 2. Sejam A , B e C matrizes com A invert´ıvel. Mostre que: (a) Se AB = 0, ent˜ao B = 0. (b) Se AB = AC ent˜ao B = C. 3. Seja A uma matriz invert´ıvel. Prove que (a) Sendo k ∈ N, Ak ´e invert´ıvel e (Ak )−1 = (A−1 )k ; (b) Se α for um n´ umero n˜ao nulo, ent˜ao a matriz αA ´e invert´ıvel e (αA)−1 = 1 −1 . αA (c) Se B for uma matriz quadrada que comuta com A, ent˜ao B tamb´em comuta com A−1 . 4. Suponhamos que a matriz quadrada A satisfaz A5 + 2A4 − 5A2 − A + 7I = 0. Mostre que A ´e invert´ıvel. 5. Sejam A e B matrizes n × n invert´ıveis. Prove que A−1 + B −1 = A−1 (A + B)B −1 . Que igualdade ´e esta no caso n = 1? 6. Seja A uma matriz quadrada. Suponhamos que existe um n´ umero natural k tal que Ak = 0. Mostre que, ent˜ao, I − A ´e invert´ıvel, tendo-se (I − A)−1 = I + A + A2 + . . . + Ak−1 .  1 7. Usando o exerc´ıcio anterior, calcule  0 0 −1 1 0 17 −1 0 −1  . 1  A1 0 ... 0  0 A2 . . . 0    8. Seja A uma matriz particionada da seguinte forma:  . . ..  , onde os . . . .  . . . .  0 0 . . . Ar blocos A1 , A2 , . . . , Ar s˜ao quadrados e invert´ıveis e os zeros designam matrizes nulas dos tipos adequados. Mostre que A ´e invert´ıvel e determine A−1 .  9. Seja A uma matriz quadrada cujos elementos s˜ao fun¸c˜oes diferenci´aveis de uma vari´avel t. Suponhamos que A ´e invert´ıvel para todos os valores de t. Demonstre que, ent˜ao, dA −1 d(A−1 ) = −A−1 A . dt dt Que igualdade ´e esta no caso n = 1? Sugest˜ ao: Parta da igualdade AA−1 = I e use o exerc´ıcio 13 da sec¸c˜ao 1.2. 1.4 Transposi¸c˜ ao de matrizes Uma transforma¸ca˜o simples mas importante que se pode fazer a uma matriz ´e a transposi¸ca˜o. Defini¸c˜ ao 1.7 Dada uma matriz do tipo m × n  a11 a12 . . . a1n  a21 a22 . . . a2n  A =  .. .. .. ..  . . . . am1 am2 . . . amn    ,  define-se a transposta de A como sendo a matriz do tipo n × m   a11 a21 . . . am1     a12 a22 . . . am2   T  . A = . .  . . . . . .  . . . .    a1n a2n . . . amn Ou seja: o elemento (i, j) de AT ´e aji , para i = 1, . . . , n, j = 1, . . . , m. A matriz A diz-se sim´ etrica se A = AT . Como se vˆe da defini¸c˜ao, os elementos da coluna j de AT s˜ao precisamente os da linha j de A, para j = 1, . . . , m. Vemos tamb´em que uma matriz ´e sim´etrica se e s´o se for quadrada e forem iguais os elementos situados em posi¸c˜oes sim´etricas relativamente `a diagonal principal. 18 · Exemplo 1.6 A transposta da matriz A = A matriz  3  2 5 ´e sim´etrica, mas a matriz  3  2 5 1 1 2 5 0 3 2 1 7  5 7  9 1 1 7  5 7  9 ¸  1 ´e a matriz AT =  2 0  1 5 . 3 j´a o n˜ao ´e, uma vez que os elementos nas posi¸c˜oes (1, 2) e (2, 1) n˜ao s˜ao iguais. Teorema 1.7 A transposi¸c˜ ao de matrizes goza das seguintes propriedades: 1. (AT )T = A; 2. (A + B)T = AT + B T ; 3. (αA)T = αAT , sendo α um n´ umero; 4. (AB)T = B T AT ; 5. (Ak )T = (AT )k , sendo k um n´ umero natural; 6. Se A for invert´ıvel, AT tamb´em ´e, tendo-se (AT )−1 = (A−1 )T . Demonstra¸c˜ ao. As propriedades 1, 2, 3 e 5 ficam como exerc´ıcio. Provemos 4 e 6. 4. Sejam A = [aij ] e B = [bij ] , dos tipos m × n e n × p , respectivamente. Ent˜ao B T AT e (AB)T s˜ao ambas do tipo p × m. Sendo bki e ajk os elementos (i, k) e (k, j) de B T e AT , respectivamente, tem-se que o elemento (i, j) de B T AT ´e n n X X bki ajk = ajk bki , que ´e o elemento (i, j) de (AB)T , para i = 1, . . . , p, j = k=1 k=1 1, . . . , m. Logo, (AB)T = B T AT . 6. Seja agora A = [aij ] invert´ıvel de ordem n. Ent˜ao, usando a propriedade 4, tem-se AT (A−1 )T = (A−1 A)T = InT = In e (A−1 )T AT = (AA−1 )T = InT = In . Logo (AT )−1 = (A−1 )T . Defini¸c˜ ao 1.8 Uma matriz quadrada diz-se ortogonal se for invert´ıvel e a sua inversa coincidir com a sua transposta. " T Exemplo 1.7 A matriz A = √ 2 √2 2 2 √ − √22 2 2 # ´e ortogonal. 19 Teorema 1.8 1. O produto de duas matrizes ortogonais ´e ainda uma matriz ortogonal. 2. A inversa de uma matriz ortogonal ´e tamb´em uma matriz ortogonal. Demonstra¸c˜ ao. 1. Sejam A e B matrizes ortogonais de ordem n. Ent˜ao A−1 = AT e B −1 = B T . Assim, (AB)−1 = B −1 A−1 = B T AT = (AB)T , isto ´e, AB ´e ortogonal. 2. Como a transposta da inversa da matriz A ´e a inversa da transposta de A, vem (A−1 )T = (AT )−1 = (A−1 )−1 , isto ´e, A−1 ´e ortogonal. Uma classe especial de matrizes ortogonais vai aparecer-nos nos cap´ıtulos seguintes: as matrizes de permuta¸ca˜o. Defini¸c˜ ao 1.9 Uma matriz n × n diz-se uma matriz de permuta¸ c˜ ao se tiver as mesmas linhas que a matriz identidade In mas n˜ao necessariamente pela mesma ordem.  0 1 Exemplo 1.8 As matrizes  0 0 1 0   0 0 1  e  1 0 0 1 0 0  0 0  s˜ao matrizes de permuta¸c˜ao. 1 Teorema 1.9 Toda a matriz de permuta¸c˜ ao ´e ortogonal. Demonstra¸c˜ ao. Exerc´ıcio. Defini¸c˜ ao 1.10 Sendo A = [aij ]m×n uma matriz complexa, define-se a conjugada de A como sendo A = [aij ]m×n . Escrevemos A∗ = A T . A matriz A diz-se herm´ıtica3 se A = A∗ . Da defini¸ca˜o resulta que os elementos da coluna j de A∗ s˜ao precisamente os ´ tamb´em f´acil de ver que uma conjugados dos da linha j de A, para j = 1, . . . , m. E matriz ´e herm´ıtica se e s´o se for quadrada e forem conjugados os elementos situados em posi¸c˜oes sim´etricas relativamente `a diagonal principal. 20 · 1 2+i 5 + 3i 4i ¸ · 1 2−i Exemplo 1.9 A conjugada de A = ´e a matriz A = 5 − 3i −4i · ¸ · ¸ 1 5 − 3i 1 3−i A∗= . Esta matriz n˜ao ´e herm´ıtica, mas a matriz j´a o ´e. 2 − i −4i 3+i 7 ¸ . Tem-se Teorema 1.10 As matrizes complexas gozam das seguintes propriedades: 1. (A∗ )∗ = A; 2. (A + B)∗ = A∗ + B ∗ ; 3. (αA)∗ = αA∗ , sendo α um n´ umero complexo; 4. (AB)∗ = B ∗ A∗ ; 5. (Ak )∗ = (A∗ )k , sendo k um n´ umero natural; 6. Se A for invert´ıvel, A∗ tamb´em ´e, tendo-se (A∗ )−1 = (A−1 )∗ . Demonstra¸c˜ ao. Exerc´ıcio. Defini¸c˜ ao 1.11 Uma matriz complexa quadrada A diz-se unit´ aria se for invert´ıvel e A−1 = A∗ . Teorema 1.11 unit´aria. 1. O produto de duas matrizes unit´arias ´e ainda uma matriz 2. A inversa de uma matriz unit´aria ´e tamb´em uma matriz unit´aria. Demonstra¸c˜ ao. Exerc´ıcio. Exerc´ıcios 1. Seja A uma matriz m×n. Prove que as matrizes ATA e AAT s˜ao sim´etricas. Dˆe um exemplo que mostre que estes dois produtos podem ser diferentes, mesmo que A seja quadrada. 2. Prove o seguinte: (a) A soma de duas matrizes sim´etricas da mesma ordem ´e ainda uma matriz sim´etrica. (b) O produto de duas matrizes sim´etricas da mesma ordem ´e uma matriz sim´etrica se e s´o se as duas matrizes comutarem. 21 (c) A inversa de uma matriz sim´etrica invert´ıvel ´e tamb´em sim´etrica. 3. Sejam A e B matrizes n×n sim´etricas. Prove que a matriz C = ABAB...ABA ´e sim´etrica. 4. Como sabe o produto de duas matrizes pode ser a matriz nula sem que nenhum dos factores o seja. Mas se as duas matrizes (reais) forem a transposta uma da outra, tal n˜ao acontece. Concretamente: Prove que, sendo A uma matriz m×n de elementos reais, se AT A = 0 ent˜ao A = 0. ¸ · ¸ · T A B A CT T 5. Seja M = uma matriz particionada em blocos. Mostre que M = . C D B T DT 6. Mostre que uma matriz real 2 × 2 ´e ortogonal se e s´o se for de uma das duas seguintes formas: · ¸ · ¸ cos θ −sen θ cos θ sen θ , , θ ∈ R. sen θ cos θ sen θ − cos θ · ¸ B C uma matriz particionada em blocos com B e D quadradas. Mostre 0 D que, se A for ortogonal, ent˜ao B e D tamb´em s˜ao ortogonais e C = 0. 7. Seja A = 8. Escreva todas as matrizes de permuta¸c˜ao 3×3, incluindo P = I, e para cada uma identifique a sua inversa (que tamb´em ´e uma matriz de permuta¸c˜ao). 9. Adapte e resolva para matrizes complexas os exerc´ıcios 1, 2, 3, 4, 5, 7 e 8 substituindo AT por A∗ , sim´etrica por herm´ıtica e ortogonal por unit´aria. 1.5 Matrizes elementares Dedicamos agora a nossa aten¸c˜ao a uma classe especial de matrizes, as matrizes elementares, que aparecer˜ao no estudo dos sistemas de equa¸co˜es lineares. Para definirmos esta classe de matrizes ´e u ´til conhecer certo tipo de opera¸c˜oes que se podem efectuar sobre as linhas de uma matriz, ditas opera¸c˜ oes elementares: 1. Substitui¸c˜ao de uma linha da matriz pela sua soma com um m´ ultiplo de outra. 2. Troca entre si de duas linhas da matriz. 3. Multiplica¸c˜ao de uma linha da matriz por um n´ umero diferente de zero. Defini¸c˜ ao 1.12 Chama-se matriz elementar de ordem n a toda a matriz que se obt´em de In por aplica¸c˜ao de uma opera¸c˜ ao elementar `as suas linhas. Obtemos assim trˆes tipos de matrizes elementares de ordem n: 22 1. Para i 6= j e α ∈ R temos a matriz  1 0 ...  0 1 ...   .. .. . . .  . .   0 0 ... Eij (α) =   ... ... . . .   0 0 ...   . . .  .. .. . .  0 ... 0 ... 0 0 ... 0 ... 0   .. . . .. . . ..  . . . .  .  1 ... α ... 0  . .. . . .. . . ..  . . . .  .  0 ... 1 ... 0   .. . . .. . . ..  . . . .  . 0 0 ... 0 ... 0 ... 1 Eij (α) obt´em-se de In adicionando `a linha i a linha j previamente multiplicada por α. Assim Eij (α) difere da matriz identidade apenas pelo elemento (i, j), que ´e α (se α = 0, tem-se Eij (α) = In ). 2. Para i 6= j, temos a matriz        Pij =        1 0 .. . 0 ... 1 ... ... . . . 0 ... ... . . . 0 ... 0 ... .. . . . . 0 ... .. . . . . 0 ... 0 ... .. . . . . 1 ... .. . . . . 0 0 .. . 0 ... ... . . . 0 0 ... 1 ... .. . . . . 0 ... 0 ... .. . . . . 0 ... 0 .. . 0 .. . 0 .. . 0 .. .        .       1 Pij obt´em-se de In trocando a linha i com a linha j. 3. Finalmente, para α ∈ R n˜ao nulo e  1  0  .  .  . Di (α) =   0  .  .. 0 1 ≤ i ≤ n, temos a matriz  0 ... 0 ... 0 1 ... 0 ... 0  .. . . .. . . ..  . . . .  .  . 0 ... α ... 0  .. . . .. . . ..  . . . .  . 0 ... 0 ... 1 Di (α) obt´em-se de In multiplicando a linha i por α. As matrizes Pij s˜ao matrizes de permuta¸ca˜o especiais (obtidas de In pela troca de apenas duas linhas). Exemplo 1.10 As matrizes seguintes s˜ ao exemplos de matrizes elementares de ordem 3:       1 0 0 0 0 1 1 0 0 E21 (5) =  5 1 0  ; P13 =  0 1 0  ; D2 (8) =  0 8 0  . 0 0 1 1 0 0 0 0 1 23 As propriedades mais importantes das matrizes elementares s˜ao enunciadas nos trˆes teoremas seguintes. As suas demonstra¸co˜es s˜ao exerc´ıcios sobre multiplica¸c˜ao de matrizes e s˜ao deixadas ao leitor. Teorema 1.12 Seja A ∈ Mm×n (R), i 6= j e α ∈ R. Ent˜ao tem-se: 1. Eij (α)A ´e a matriz que se obt´em de A adicionando `a linha i a linha j previamente multiplicada por α. 2. Pij (α)A ´e a matriz que se obt´em de A trocando a linha i com a linha j. 3. Di (α)A ´e a matriz que se obt´em de A multiplicando a linha i por α. Em resumo, se E for uma matriz elementar, EA ´e a matriz que se obt´em de A aplicando `as linhas de A as mesmas opera¸c˜oes elementares que foram aplicadas `as linhas de Im para obter E. Um resultado an´alogo ´e v´alido para o produto AE, reflectindo-se agora o efeito da multiplica¸c˜ao nas colunas de A: AE ´e a matriz obtida de A aplicando `as colunas de A as mesmas opera¸co˜es elementares que foram aplicadas `as colunas de In para obter E. Teorema 1.13 Seja 1 ≤ j ≤ n − 1, e defina-se Ej como sendo o seguinte produto de matrizes elementares Ej+1,j (αj+1,j )Ej+2,j (αj+2,j ) · · · En,j (αnj ). Ent˜ao tem-se:   1 0 ... 0 0 0 ... 0  0 1 ... 0 0 0 ... 0    .. .. . . .  .. .. . .  . . ..  . .  . .    0 0 ... 1 0 0 ... 0   Ej =   0 0 . . . αj+1,j 1 0 . . . 0     0 0 . . . αj+2,j 0 1 . . . 0   . . . .. .. .. . . ..   .. .. . . . .  . . .   .. .. 0 0 . . . αnj . . ... 1 e  E1 E2 · · · En−1    =   1 0 0 α21 1 0 α31 α32 1 .. .. .. . . . αn1 αn2 αn3 ... ... ... .. . 0 0 0 .. .     .   ... 1 Como se pode observar, a matriz E1 E2 · · · En−1 obt´em-se imediatamente das matrizes E1 , E2 , · · · , En−1 , sem necessidade de c´alculos. Note que o mesmo n˜ao se passa com En−1 · · · E2 E1 , matriz para cujos elementos n˜ao existe uma express˜ao simples a partir dos elementos das matrizes Ej . (Verifique.) 24 Teorema 1.14 As matrizes elementares Eij (α), Pij e Di (β), onde β 6= 0, s˜ao invert´ıveis e tem-se (Eij (α))−1 = Eij (−α), Pij−1 = Pij e (Di (β))−1 = Di (1/β). Exerc´ıcios 1. Sendo  1 A= 0 0  1 0 0 1 0  0 −2 1 3 0 1 0  0 1 0   −1 0 1 0 1 0  0 0 , 1 calcule A−1 . 2. Seja E a matriz elementar 4×4 cujo efeito, quando multiplicada por uma matriz, ´e adicionar a primeira linha `a terceira. (a) Qual ´e o efeito de E 50 ? (b) Escreva por extenso as matrizes E, E 50 e 50E. 3. Generalize 2. do Teorema 1.12 provando que, se A for uma matriz m × n, multiplicar A `a esquerda por uma matriz de permuta¸c˜ao P equivale a efectuar em A as mesmas trocas de linhas feitas em Im para obter P . Qual ser´a o efeito de multiplicar A `a direita por uma matriz de permuta¸c˜ao? 25 2 Sistemas de equa¸co ˜es lineares Os sistemas de equa¸co˜es lineares constituem hoje um relevante tema de estudo devido `a sua importˆancia em Matem´atica Aplicada. Muitos problemas, por exemplo, nas ´areas de Engenharia conduzem `a necessidade de resolver sistemas de equa¸co˜es lineares. Os sistemas de equa¸co˜es lineares ligados a quest˜oes de Matem´atica Aplicada podem ter um elevado n´ umero de equa¸c˜oes e inc´ognitas. N˜ao se pode portanto pensar em resolvˆe-los “`a m˜ao”. O que se faz ´e usar computadores para esse efeito, n˜ao aplicando “f´ormulas”mas sim utilizando algoritmos, isto ´e, sequˆencias organizadas de passos que conduzem `a solu¸c˜ao ou solu¸c˜oes. Neste cap´ıtulo estudaremos o mais importante algoritmo geral para resolver sistemas de equa¸c˜oes lineares, o algoritmo de elimina¸c˜ao de Gauss, e veremos como a linguagem das matrizes permite descrevˆe-lo de forma muito simples e abreviada. Para sistemas muito grandes e de tipos especiais h´a algoritmos mais adaptados do que o algoritmo de elimina¸c˜ao de Gauss. Esses algoritmos tˆem em geral um n´ umero infinito de passos e s˜ao estudados em disciplinas da ´area da An´alise Num´erica. Como “subproduto”do nosso estudo dos sistemas, veremos um algoritmo que permite averiguar se uma matriz quadrada ´e ou n˜ao invert´ıvel e, no caso de ser, calcular a sua inversa. 26 2.1 Generalidades Defini¸c˜ ao 2.1 Uma equa¸ c˜ ao linear nas inc´ognitas x1 , . . . , xn ´e uma equa¸c˜ao do tipo a1 x1 + . . . + an xn = d, onde a1 , . . . , an e d s˜ao n´ umeros. A d costuma chamar-se segundo membro ou termo independente da equa¸c˜ ao. Um sistema de equa¸c˜ oes lineares ´e uma colec¸c˜ ao finita ordenada de equa¸c˜oes lineares (todas nas mesmas inc´ognitas) consideradas em conjunto. Um sistema gen´erico com m equa¸c˜ oes e n inc´ ognitas  a11 x1 + . . . + a1n xn = b1    a21 x1 + . . . + a2n xn = b2 ...    am1 x1 + . . . + amn xn = bm apresenta-se abreviadamente na forma Ax = b onde  a11  a21 A=  ... am1 a12 a22 .. . am2 ... ... ... ...  a1n a2n  , ..  .  amn   x1  x2   x=  ...  , xn   b1  b2   b=  ...  . bm A ´e a matriz do sistema, x ´e a matriz-coluna das inc´ognitas e b ´e a matrizcoluna dos segundos membros ou, abreviadamente, o segundo membro do sistema. O grande objectivo perante um sistema de equa¸c˜oes lineares ´e resolvˆe-lo, isto ´e, achar as suas solu¸co˜es. Na defini¸ca˜o seguinte precisamos estes conceitos. 27 Defini¸c˜ ao 2.2 Uma solu¸ c˜ ao de um sistema de equa¸c˜ oes lineares nas inc´ognitas x1 , . . . , xn ´e uma sequˆencia ordenada (α1 , . . . , αn ) de n´ umeros tais que as substitui¸c˜ oes xi = αi , i = 1, ..., n, transformam todas as equa¸c˜ oes do sistema em identidades verdadeiras. Uma solu¸c˜ ao tamb´em se pode apresentar na forma de uma matriz-coluna n × 1:   α1  α2   . .  ..  αn Resolver um sistema de equa¸c˜ oes lineares ´e determinar todas as suas solu¸c˜ oes ou provar que n˜ao existe nenhuma. Um sistema de equa¸c˜ oes lineares que tenha pelo menos uma solu¸c˜ ao diz-se poss´ıvel — determinado se s´o tiver uma, indeterminado se tiver mais do que uma. Um sistema de equa¸c˜ oes lineares que n˜ao tenha nenhuma solu¸c˜ ao diz-se imposs´ıvel. Exemplo 2.1 Considere o sistema de equa¸c˜oes lineares ½ 2x1 + 5x2 = 3 . 4x1 + 9x2 = 7 · ¸ · ¸ · ¸ 2 5 x1 3 A matriz do sistema ´e , enquanto que x = e b= s˜ao, respectivamente, 4 9 x2 7 as matrizes-coluna das · inc´o¸gnitas e dos segundos membros. Este sistema ´e poss´ıvel determinado, 4 sendo a sua solu¸c˜ao . −1 O exemplo seguinte ´e de novo de um sistema poss´ıvel determinado. Qual a sua solu¸c˜ao?   x1 + 2x2 = 1 4x1 + 3x2 = 3 .  5x1 + 5x2 = 4 O sistema ½ 2x1 + 4x2 = 12 4x1 + 8x2 = 24 · ¸ 6 − 2α ´e poss´ıvel indeterminado, com solu¸ca˜o , para qualquer α ∈ R ; mas α ½ 2x1 + 4x2 = 5 4x1 + 8x2 = 7 j´a ´e um sistema imposs´ıvel. Recordando que uma condi¸c˜ao do tipo a1 x1 + a2 x2 = d (com a1 6= 0 ou a2 6= 0) ´e a equa¸c˜ao de uma recta num plano em que se fixou um sistema de eixos, dˆe uma interpreta¸c˜ao geom´etrica destes sistemas. Defini¸c˜ ao 2.3 Um sistema em que os segundos membros das equa¸c˜ oes s˜ao todos iguais a 0 diz-se homog´ eneo. 28 Note-se que um sistema homog´eneo ´e sempre poss´ıvel: possui sempre, pelo menos, a chamada solu¸ c˜ ao nula. Defini¸c˜ ao 2.4 Dois sistemas com o mesmo n´ umero de equa¸c˜ oes e de inc´ognitas dizem-se equivalentes se tiverem exactamente as mesmas solu¸c˜ oes. Teorema 2.1 Seja Ax = b um sistema de equa¸c˜ oes lineares, com A m × n. Seja E uma matriz m × m invert´ıvel. Ent˜ao, o sistema EAx = Eb ´e equivalente ao sistema Ax = b. Demonstra¸c˜ ao. Claramente, qualquer solu¸ca˜o do sistema Ax = b ´e tamb´em solu¸ca˜o do sistema EAx = Eb. Reciprocamente, seja u uma solu¸ca˜o do sistema EAx = Eb. Tem-se EAu = Eb. Multiplicando `a esquerda ambos os membros desta igualdade por E −1 , obtemos Au = b, isto ´e, u ´e solu¸ca˜o do sistema Ax = b. 2.2 O algoritmo de elimina¸c˜ ao de Gauss Um m´etodo geral de resolver sistemas de equa¸co˜es lineares ´e o chamado algoritmo de elimina¸c˜ ao de Gauss. Este algoritmo consiste numa sequˆencia de passos “elementares”que transformam o sistema dado num sistema muito f´acil de resolver. Um passo elementar do m´etodo de elimina¸ca˜o de Gauss consiste na adi¸c˜ ao membro a membro a uma equa¸c˜ ao de um m´ ultiplo de outra, de forma que, na equa¸ca˜o obtida, seja nulo o coeficiente de certa inc´ognita. Com isto dizemos que se “eliminou”essa inc´ognita da equa¸c˜ao. Para exemplificar, consideremos o sistema Ax = b com A = [aij ] m × n. Ent˜ao, a21 supondo a11 6= 0, a adi¸c˜ao `a segunda equa¸ca˜o da primeira multiplicada por − a11 elimina a inc´ognita x1 da segunda equa¸c˜ao (verifique). Os passos elementares s˜ao conduzidos de maneira a eliminar a inc´ognita x1 de todas as equa¸co˜es a partir da segunda — para o que ´e necess´ario ter-se a11 n˜ao nulo —, depois eliminar a inc´ognita x2 de todas as equa¸co˜es a partir da terceira — para o que ´e necess´ario ter-se a022 (o novo coeficiente de x2 na segunda equa¸c˜ao) n˜ao nulo —, etc. Este processo repete-se at´e n˜ao ser poss´ıvel continu´a-lo mais. Os n´ umeros a11 , a022 , ... chamam-se os pivots da elimina¸ca˜o. Note-se que os pivots s˜ao necessariamente n˜ao nulos. Teorema 2.2 Cada um destes passos elementares do m´etodo de elimina¸c˜ ao de Gauss transforma um sistema noutro equivalente. Demonstra¸c˜ ao. Basta observar que cada passo elementar do tipo descrito corresponde a multiplicar ambos os membros do sistema (escrito na forma matricial) por uma matriz elementar do tipo Eij (α), e que estas matrizes s˜ao invert´ıveis. 29 Sempre que surja um zero na posi¸ca˜o em que devia estar um pivot, procurase resolver o problema mediante a troca dessa equa¸ca˜o com a que se lhe segue. Se tamb´em essa tiver um zero na posi¸ca˜o em causa tenta-se a seguinte, etc. Se nenhuma troca resolver o problema, o pivot passa a ser procurado entre os coeficientes da inc´ognita seguinte. ´ ´obvio que uma troca na ordem das equa¸c˜oes transforma um sistema noutro E equivalente. Isso tamb´em se pode concluir observando que uma troca de duas equa¸co˜es entre si corresponde a multiplicar ambos os membros do sistema (escrito na forma matricial) por uma matriz elementar do tipo Pij , e que estas matrizes s˜ao invert´ıveis. Deste processo resulta um novo sistema, digamos U x = c, equivalente ao sistema original, e cuja matriz U , que ´e ainda m × n, tem uma forma especial, a que se costuma chamar matriz em escada: Defini¸c˜ ao 2.5 Uma matriz diz-se uma matriz em escada se satisfizer as seguintes condi¸c˜ oes: i) Se o primeiro elemento n˜ao nulo numa linha est´a na coluna j, ent˜ao a linha seguinte come¸ca com pelo menos j elementos nulos. ii) Se houver linhas totalmente constitu´ıdas por zeros, elas aparecem depois das outras. O primeiro elemento n˜ao nulo de cada linha de uma matriz em escada chamase um pivot da matriz. ´ ´obvio que os pivots encontrados durante o algoritmo de elimina¸c˜ao aplicado a E um sistema Ax = b s˜ao os pivots da matriz em escada resultante do algoritmo. Exemplo 2.2 Exemplos do aspecto de uma matriz em escada (os s´ımbolos • representam os pivots):  • • ∗ ∗ 0 0 • ∗ ,  0  0 0 0 • 0   ∗ 0 0 0 0 ∗ • 0 0 0 ∗ ∗ • 0 0  ∗ ∗  • ∗ ∗ ∗  0 • ∗ ∗ ,  0 0  0 • 0 0 0 0 ∗ ∗ ∗ 0 0  As matrizes · A= 2 0 5 0 0 6 ¸    1 5    , B= 0 2 e C=   0 0 s˜ao matrizes em escada. A matriz A tem pivots 6. As matrizes    1 5 0 1 0  0 0 6 ,  0 0 0 0 2 0 0 3 0 0 0 0 7 1 0 0 0  ∗ ∗ . 0 0 0 5 0 0 0 4 2 6 0 0       2 e 6, os pivots de B s˜ao 1 e 2 e os de C s˜ao 3, 1 e 5 6 2 n˜ao s˜ao em escada. Porquˆe? 30   7 2 2  e  0 4 0 3 0 0  0 0  1 Com a obten¸c˜ao de uma matriz em escada U termina a parte “descendente”do m´etodo de elimina¸ca˜o de Gauss. Neste momento verifica-se se o sistema obtido, U x = c, ´e poss´ıvel, isto ´e, se n˜ao h´a equa¸c˜oes com o primeiro membro nulo e o segundo n˜ao nulo. Se o sistema for poss´ıvel, resolve-se “de baixo para cima”(parte “ascendente”do algoritmo), se necess´ario obtendo algumas inc´ognitas — aquelas que est˜ao a multiplicar por pivots — em fun¸ca˜o das outras. ` inc´ognitas que est˜ao a multiplicar por pivots chamamos inc´ As ognitas b´ asicas, e `as outras, que podem tomar qualquer valor em R, chamamos inc´ ognitas livres. Se houver inc´ognitas livres, o sistema ´e indeterminado (e tem um n´ umero infinito de solu¸c˜oes). Se s´o houver inc´ognitas b´asicas, o sistema ´e determinado. Em resumo, o esquema geral da resolu¸c˜ao de um sistema de equa¸c˜oes lineares usando o algoritmo de elimina¸c˜ao de Gauss ´e o seguinte: 1o : Transforma¸ca˜o do sistema Ax = b no sistema U x = c; 2o : Resolu¸c˜ao do sistema U x = c. O que governa o m´etodo de elimina¸ca˜o ´e a matriz A do sistema, e podemos olhar para os sucessivos passos do algoritmo como respeitando apenas `a matriz: o primeiro passo consiste em adicionar `a segunda linha a primeira multiplicada por a21 − , etc. a11 Defini¸c˜ ao 2.6 A caracter´ıstica de A — abreviadamente, car(A) — ´e o n´ umero de pivots que aparecem quando se aplica a A o m´etodo de elimina¸c˜ ao. Equivalentemente, car(A) ´e o n´ umero de linhas n˜ao nulas da matriz em escada U produzida pelo algoritmo de elimina¸c˜ ao aplicado a A. Uma matriz quadrada A n×n diz-se n˜ ao-singular se tiver caracter´ıstica n. Se car(A) < n, a matriz A diz-se singular. Exemplo 2.3 Considere as matrizes A, B e C do exemplo anterior. Tem-se car(A) = 2, car(B) = 2 e car(C) = 3.   1 1 2 Exemplo 2.4 Considere a matriz A =  1 3 3  . Apliquemos a A o m´etodo de elimina¸c˜ao 2 8 12 de Gauss. Come¸camos por adicionar `a segunda e terceira linhas de  A a primeira  linha multiplicada 1 1 2 por −1 e −2, respectivamente. A matriz resultante ser´a A0 =  0 2 1 . Esta matriz n˜ao ´e 0 6 8 31 0 ainda uma matriz em escada. Prosseguimos adicionando `a terceira linha de  A 1 multiplicada por −3. A matriz que obtemos ´e a matriz em escada U =  0 0 car(A) = 3 (pois h´a trˆes pivots : 1, 2 e 5) e A ´e n˜ao-singular.  a 1 2 0 segunda linha  2 1  . Tem-se 5  2 6  . Adicionando `a segunda e terceira linhas de B a primeira 4   1 1 2 linha multiplicada por −2 obtemos a matriz em escada U =  0 4 2  . H´a apenas dois pivots, 0 0 0 1 e 4. Logo car(B) = 2 e B ´e singular. 1 Considere-se agora B =  2 2 1 6 2 O algoritmo de elimina¸c˜ao de Gauss pode ser descrito de forma muito abreviada usando a linguagem das matrizes: Consideremos o sistema Ax = b, e denotemos por U x = c o sistema obtido ap´os a parte descendente do algoritmo. Suponhamos primeiro que n˜ao houve necessidade de trocas de linhas. O efeito das sucessivas opera¸co˜es elementares aplicadas a A pode ser descrito pela multiplica¸ca˜o sucessiva, `a esquerda, de A por matrizes elementares do tipo Eij (α), onde os n´ umeros α s˜ao os “multiplicadores”usados na elimina¸ca˜o. Designemos por M o produto de todas essas matrizes elementares. Ent˜ao M ´e uma matriz triangular inferior com elementos diagonais iguais a 1 (exerc´ıcio 5 da sec¸ca˜o 1.2), e tem-se M A = U . Como as opera¸co˜es levadas a cabo com o segundo membro do sistema foram precisamente as mesmas, tem-se M b = c. Designemos M −1 por L (donde A = LU e b = Lc). Sendo a inversa de M , a matriz L ´e igual ao produto das matrizes Eij (−α) pela ordem inversa `aquela em que as matrizes Eij (α) figuram em M . Ent˜ao, dos Teoremas 1.13 e 1.14 da Sec¸ca˜o 1.5, sabe-se que L ´e uma matriz triangular inferior com elementos diagonais iguais a 1 e os elementos sob a diagonal de L s˜ao precisamente os sim´etricos dos “multiplicadores”usados na elimina¸ca˜o, cada um na posi¸c˜ao em que figura na respectiva matriz elementar. (E, portanto, a matriz L ´e muito f´acil de escrever, o que n˜ao acontece com M .)   1 1 2 Exemplo 2.5 Considere-se o sistema Ax = b, onde A =  1 3 3  ´e a matriz considerada 2 8 12   1 no Exemplo 2.4, e b =  −2  . J´a vimos como obter uma matriz triangular superior U por −12 aplica¸ca˜o do m´etodo de elimina¸c˜ao de Gauss a A. Utilizando matrizes elementares, este processo pode ser descrito do seguinte modo:   1 1 2 E32 (−3)E31 (−2)E21 (−1)A =  0 2 1  = U. 0 0 5 32 Efectuando as mesmas opera¸c˜oes ao segundo membro do sistema, obtemos   1 E32 (−3)E31 (−2)E21 (−1)b =  −3  = c. −5 A matriz L ser´a L = [E32 (−3)E31 (−2)E21 (−1)]−1  1 = E21 (1)E31 (2)E32 (3) =  1 2 0 1 3  0 0 , 1 e tem-se A = LU e b = Lc. Se houver necessidade de trocas de linhas, a u ´nica diferen¸ca ´e que o algoritmo deve ser visto como aplicado, n˜ao a A e ao segundo membro b, mas a P A e P b, onde P ´e uma matriz de permuta¸ca˜o – P ´e o produto das matrizes de permuta¸c˜ao correspondentes `as v´arias trocas de linhas feitas na matriz durante o algoritmo. Exemplo 2.6 Aplique-se o algoritmo de elimina¸c˜ao de Gauss ao sistema Ax = b, onde   2 6 2 12 −2  . A= 4 −6 −12 −10 Ao adicionarmos `a segunda e terceira linhas de A a primeira multiplicada por −2 e 3, respectivamente, obtemos a matriz   2 6 2 E31 (3)E21 (−2)A =  0 0 −6  . 0 6 −4 O passo seguinte seria utilizar o elemento (2, 2) como pivot, mas este elemento ´e zero. Temos que trocar entre si as linhas 2 e 3 desta matriz. Este passo ´e equivalente a trocar estas linhas em A antes de termos iniciado o processo de elimina¸c˜ao, isto ´e, a fazer a elimina¸c˜ao n˜ao em A mas na matriz P2,3 A. Teremos ent˜ ao (aten¸c˜ao `as novas matrizes Eij (α) )   2 6 2 E31 (−2)E21 (3)P2,3 A =  0 6 −4  . 0 0 −6 Esta j´a ´e uma matriz em escada, a matriz U desejada. Tomando L = [E31 (−2)E21 (3)]−1 = E21 (−3)E31 (2), temos P2,3 A = LU. Regressando ao sistema Ax = b, teremos que efectuar no segundo membro as mesmas trocas de linhas que foram efectuadas em A, ou seja, iremos trabalhar n˜ao com Ax = b mas com o sistema equivalente P2,3 Ax = P2,3 b. Note que n˜ao ´e necess´ario iniciar o processo de elimina¸c˜ao de cada vez que precisar de efectuar uma troca de linhas, mas sim registar quais s˜ao as altera¸co˜es que tais trocas implicam na matriz L que est´a a ser constru´ıda. Resumindo, temos: Teorema 2.3 (Factoriza¸c˜ ao LU .) Sendo A m × n arbitr´aria, existe uma matriz de permuta¸c˜ ao P tal que P A se pode factorizar na forma LU , onde L ´e triangular inferior com elementos diagonais iguais a 1 e U ´e uma matriz em escada. Os elementos sob a diagonal de L s˜ao os sim´etricos dos “multiplicadores”usados no m´etodo de elimina¸c˜ ao aplicado a A, e U ´e a matriz produzida pelo algoritmo (e portanto o primeiro elemento n˜ao nulo em cada linha n˜ao nula de U ´e um pivot). 33 No caso quadrado n × n n˜ao-singular, U ´e triangular superior, com os elementos diagonais n˜ao nulos (s˜ao os n pivots).4 Podemos agora apresentar a descri¸c˜ao matricial do algoritmo de elimina¸ca˜o de Gauss. Comecemos pelo caso de sistemas com matrizes quadradas n˜ao-singulares. Algoritmo A. Resolu¸c˜ ao do sistema Ax = b com A n × n n˜ao singular: 1o o passo) Factoriza¸c˜ ao P A = LU . 2o o passo) Resolu¸c˜ ao do sistema Lc = P b (para achar o novo segundo membro c). 3o o passo) Resolu¸c˜ ao do sistema U x = c.  1 Exemplo 2.7 Retomemos o sistema Ax = b considerado no Exemplo 2.5. Temos A =  1 2   1  −2  . J´a conhecemos a decomposi¸c˜ao LU de A: −12    1 0 0 1 1 2 A =  1 1 0  0 2 1 . 2 3 1 0 0 5 1 3 8  2 3  e b= 12 Passemos ent˜ao ao segundo passo do algoritmo: resolu¸c˜ao do sistema triangular inferior Lc = b.  = 1  c1 c1 + c2 = −2  2c1 + 3c2 + c3 = −12 Este ´e um sistema poss´  ıvel determinado, cuja solu¸c˜ao se obt´em imediatamente resolvendo-o de 1 cima para baixo, c =  −3  . −5 Resta-nos agora resolver, por substitui¸c˜ao ascendente, o sistema triangular superior U x = c:   1  x1 + x2 + 2x3 =  x1 = 4 2x2 + x3 = −3 ⇐⇒ x2 = −1   5x3 = −5 x3 = −1   4 A solu¸ca˜o do sistema inicial Ax = b ´e ent˜ao x =  −1  . −1 4 No caso n˜ao-singular, uma variante desta factoriza¸c˜ao LU ´e a chamada factoriza¸c˜ ao LDU , que se obt´em da outra escrevendo U como produto de uma matriz diagonal — onde os elementos diagonais s˜ao os pivots — e uma matriz triangular superior com os elementos diagonais iguais a 1. Exemplo: ¸ · ¸ · ¸· ¸ · ¸· ¸· 2 3 1 0 2 3 1 0 2 0 1 32 . = = 4 11 2 1 0 5 2 1 0 5 0 1 34   2 −2  , a matriz da matriz considerada no Exemplo −10   −10 2.6. Pretendemos resolver o sistema Ax = b, onde b =  22  . 58 2 Exemplo 2.8 Seja agora A =  4 −6 6 12 −12 Sabemos que P2,3 A tem a decomposi¸c˜ao LU   2 1 0 0 P2,3 A =  −3 1 0   0 0 2 0 1 6 6 0  2 −4  . −6 Para calcular o novo segundo membro c temos de resolver o sistema Lc = P2,3 b. Ora P2,3 b =   −10  58  , logo 22    −10 c1 = −10  −3c1 + c2 = 58 ⇐⇒ c =  28  . Lc = P2,3 b ⇐⇒  42 2c1 + c3 = 22 Agora   2x1 U x = c ⇐⇒  + 6x2 6x2 + 2x3 − 4x3 − 6x3 = −10 = 28 = 42   2 ⇐⇒ x =  0  . −7   2 A solu¸ca˜o de Ax = b ´e ent˜ao x =  0  . −7 Passemos agora a sistemas com matrizes quaisquer. Vale a pena estudar separadamente o caso dos sistemas homog´eneos, que, recorde-se, s˜ao sempre poss´ıveis. Defini¸c˜ ao 2.7 Sendo A ∈ Mm×n (R), o conjunto das solu¸c˜ oes do sistema Ax = 0, designado por N (A), diz-se o n´ ucleo ou espa¸co nulo de A. Dada uma matriz A, se U for a matriz em escada obtida de A por aplica¸ca˜o do m´etodo de elimina¸c˜ao de Gauss, ´e ´obvio que N (A) = N (U ), uma vez os sistemas Ax = 0 e U x = 0 s˜ao equivalentes. Se A for quadrada n˜ao-singular, ´e ´obvio que N (A) = 0. Como determinar N (A) para A m × n arbitr´aria? Comecemos com um exemplo. 35   1 1  , queremos resolver o sistema Ax = 0, 3 a matriz em escada obtida de A nofinal do  1 1 2 −1 1 ´ f´acil de ver que U ´e a matriz  0 0 0 −1 −1  . Temprocesso de elimina¸c˜ao de Gauss. E 0 0 0 0 0 se car(A) = 2 e h´a, portanto, duas inc´ognitas b´asicas, x1 e x4 , e trˆes inc´ognitas livres, x2 , x3 e x5 . Passemos as inc´ognitas livres para os segundos membros e resolvamos o sistema assim obtido, determinando as inc´ognitas b´asicas em fun¸c˜ao das livres:   −x2 − 2x3 − 2x5   ½ x2   x1 − x4 = − x2 − 2x3 − x5 . x ⇐⇒ x= 3   − x4 = x5   −x5 x5 1 1 2 Exemplo 2.9 Dada a matriz A =  2 2 4 3 3 6 ou, equivalentemente, o sistema U x = 0, onde −1 −3 −3 U ´e Note-se que esta solu¸c˜ao se pode escrever na forma      −2 −2 −1  0  0   1           x2   0  + x3  1  + x5  0  −1  0   0  1 0 0    ,   ou seja, uma combina¸c˜ao linear das trˆes colunas obtidas da solu¸c˜ao geral dando a cada uma das inc´ognitas livres o valor 1 e `as duas restantes o valor 0. O racioc´ınio seguido neste exemplo ´e v´alido em geral, como vamos ver agora. Pretendemos resolver um sistema homog´eneo Ax = 0, com A m × n. Passando `a matriz em escada U , o sistema U x = 0 ´e equivalente ao original, e ´e com ele que trabalhamos. Supondo que a caracter´ıstica de A ´e r, teremos n − r inc´ognitas livres, digamos xi1 , . . . , xin−r . Cada uma das inc´ognitas b´asicas obter-se-´a em fun¸c˜ao das inc´ognitas livres atrav´es de uma express˜ao do tipo αk,i1 xi1 + · · · + αk,in−r xin−r , onde o ´ındice k ∈ {1, . . . , r} identifica a inc´ognita b´asica e os α s˜ao n´ umeros que v˜ao aparecendo na resolu¸c˜ao “ascendente”do sistema U x = 0. Portanto, a solu¸ca˜o geral do sistema ter´a a forma   ...   xi1 (i1 )     .   ..     α x + · · · +α l,in−r xin−r   l,i1 i1   ..   .   ,  xi2 (i2 )     ..   .    αs,i1 xi1+ · · · +αs,in−r xin−r    ..   .     xin−r (in−r )   .. . 36 onde as inc´ognitas livres xi1 , . . . , xin−r est˜ao cada uma na sua posi¸ca˜o original e as r inc´ognitas b´asicas est˜ao substitu´ıdas pelas suas express˜oes em fun¸ca˜o das inc´ognitas livres. A esta matriz-coluna pode dar-se um aspecto diferente escrevendo-a como soma de n − r colunas, figurando apenas uma inc´ognita livre em cada uma:    .   .  .. .. .. .       0 (i1 )  xi1   0       .   .  .    ..   ..  ..        α α x  α x   l,in−r xin−r   l,i1 i1   l,i2 i2     ..   ..  ..    .   .  .       ,      0 (i2 )  0  +  xi2  + · · · +      ..   ..  ..    .   .  .        αs,in−r xin−r   αs,i1 xi1   αs,i2 xi2     .   .  ..    .   .  . . .             (in−r )  0   0    xin−r .. .. .. . . . onde na posi¸ca˜o i1 da primeira coluna est´a xi1 e nas posi¸c˜oes das restantes inc´ognitas livres est´a 0, e analogamente para as outras colunas. Esta soma pode ainda escrever-se assim:  .   .    .. .. .. .        1   0   0   .      ..  ..  + xi2  ...  + · · · + xin−r  xi 1  .        α   α   α   l,i1   l,i2   l,in−r   .   .    ..  ..   ..    .        0   1   0 .        ..   ..    ..  .   .    .        αs,i1   αs,i2   αs,in−r   .   .    ..  .   .    . . .              0   0   1  .. .. .. . . . Ou seja: a solu¸ca˜o geral do sistema aparece na forma de uma combina¸c˜ao linear de n − r colunas, sendo os coeficientes dessa combina¸ca˜o linear precisamente as n − r inc´ognitas livres. Que colunas s˜ao essas? A primeira ´e, de entre todas as solu¸c˜oes, aquela que se obt´em dando o valor 1 `a inc´ognita livre xi1 e 0 `as restantes inc´ognitas livres. E analogamente para as restantes colunas da combina¸c˜ao linear. Assim, podemos sistematizar os passos da resolu¸ca˜o de um sistema homog´eneo da forma seguinte: Algoritmo B. Resolu¸c˜ ao do sistema Ax = 0 com A m × n: 37 1o o passo) Determina¸c˜ ao da matriz em escada U . Seja car(A) = r. 2o o passo) No sistema U x = 0, que ´e equivalente ao primeiro, separam-se as inc´ognitas em b´asicas (correspondentes `as colunas com pivots, que s˜ao em n´ umero de r) e livres. Se n˜ao houver inc´ognitas livres, o sistema ´e determinado: s´o tem a solu¸c˜ ao nula. 3o o passo) Para cada inc´ognita livre, d´a-se o valor 1 a essa inc´ognita livre e 0 `as restantes inc´ognitas livres, e resolve-se o sistema (com r equa¸c˜ oes) resultante. As n − r colunas n × 1 assim obtidas geram o conjunto N (A) das solu¸c˜ oes (isto ´e, qualquer solu¸c˜ ao ´e combina¸c˜ ao linear dessas n − r). Da an´alise deste algoritmo segue-se imediatamente o seguinte resultado: Teorema 2.4 Um sistema homog´eneo com mais inc´ognitas do que equa¸c˜ oes ´e indeterminado. Demonstra¸c˜ ao. Seja o sistema Ax = 0, onde A ´e m × n e m < n. Seja car(A) = r. Como r ≤ m (porque o n´ umero de pivots n˜ao pode exceder o n´ umero de linhas), tem-se r < n e portanto h´a necessariamente inc´ognitas livres (em n´ umero de n − r), sendo o sistema por isso indeterminado. Exemplo 2.10 Apliquemos o algoritmo visto `a resolu¸c˜ao do sistema homog´eneo     x   2 4 6 8  1  0 x2    0 . A =  −2 −2 −4 −6   =  x3  4 8 12 8 0 x4 Adicionando `a segunda e terceira linhas de A vamente, obtemos a matriz em escada  2  U= 0 0 a primeira linha multiplicada por 1 e −2, respecti4 2 0 6 2 0  8 2 . −8 Tem-se car(A) = 3. As colunas de U com pivot correspondem `as inc´ognitas x1 , x2 e x4 . Ser˜ao portanto estas as inc´ognitas b´asicas, ficando x3 como inc´ognita livre. D´ a-se o valor 1 `a inc´ognita x3 e resolve-se, por substitui¸c˜ao ascendente, o sistema 3 × 3 resultante:    2x1 + 4x2 + 8x4 = −6  x1 = −1 2x2 + 2x4 = −2 ⇐⇒ x2 = −1 .   − 8x4 = 0 x4 = 0   −1  −1   Assim   1  ser´a uma solu¸c˜ao de Ax = 0 . As restantes solu¸c˜oes ser˜ao combina¸c˜oes lineares 0 desta, isto ´e,    −α       −α    N (A) =  : α ∈ R . α        0 38 Para o estudo de sistemas quaisquer, interessa o seguinte resultado, que diz que o conjunto completo das solu¸co˜es de um sistema poss´ıvel Ax = b se pode obter a partir de uma sua solu¸ca˜o particular e do conjunto N (A) das solu¸c˜oes do sistema homog´eneo Ax = 0. Teorema 2.5 Se o sistema Ax = b for poss´ıvel e y for uma solu¸c˜ ao dele, ent˜ao o conjunto das suas solu¸c˜ oes ´e {y + u : u ∈ N (A)}. ´ evidente que qualquer elemento da forma y+u, com u ∈ N (A), ´e Demonstra¸c˜ ao. E solu¸ca˜o do sistema Ax = b, porque A(y+u) = Ay+Au = b+0 = b. Reciprocamente, seja z uma solu¸c˜ao qualquer do sistema Ax = b. Ponhamos u = z − y. Ent˜ao Au = A(z − y) = Az − Ay = b − b = 0, o que significa que u ∈ N (A). E, claro, z = y + u. Para resolver um sistema arbitr´ario Ax = b, como j´a temos um algoritmo para determinar N (A), resta, de acordo com este Teorema, encontrar uma solu¸ca˜o particular y. Qualquer uma serve. Uma maneira simples de encontrar uma solu¸ca˜o particular ´e, quando j´a temos o sistema na forma U x = c, dar o valor 0 a todas as inc´ognitas livres e resolver o sistema resultante. E temos finalmente o algoritmo para sistemas arbitr´arios. Algoritmo C. Resolu¸c˜ ao do sistema Ax = b com A m × n: 1o o passo) Factoriza¸c˜ ao P A = LU . Seja car(A) = r. 2o o passo) Resolu¸c˜ ao do sistema Lc = P b (para achar o novo segundo membro c). Se os u ´ltimos m − r elementos da coluna c n˜ao forem todos 0, o sistema inicial ´e imposs´ıvel. 3o o passo) No sistema U x = c, que ´e equivalente ao primeiro, separam-se as inc´ognitas em b´asicas e livres. 4o o passo) D´ a-se o valor 0 `as inc´ognitas livres, se as houver, e resolve-se o sistema (com r equa¸c˜ oes) resultante. A coluna y n × 1 assim obtida ´e uma solu¸c˜ ao de Ax = b. Se n˜ao houver inc´ognitas livres, y ´e a u ´nica solu¸c˜ ao do sistema, que nesse caso ´e determinado, e o algoritmo p´ara aqui. 5o o passo) Resolve-se o sistema U x = 0, obtendo-se o conjunto N (A). 6o o passo) O conjunto das solu¸c˜oes de Ax = b ´e {y + u : u ∈ N (A)}. Da an´alise deste algoritmo deduzem-se as observa¸co˜es contidas no teorema seguinte. Teorema 2.6 Seja A m × n. 1) Ax = b ´e poss´ıvel para todo o b se e s´o se car(A) = m. 2) Sendo Ax = b poss´ıvel, ´e determinado se e s´o se car(A) = n. 39 Demonstra¸c˜ ao. 1) O sistema Ax = b s´o pode ser poss´ıvel qualquer que seja o segundo membro b se, ap´os a fase descendente do algoritmo de elimina¸ca˜o, conduzindo `a matriz U , n˜ao houver linhas nulas em U , o que quer dizer precisamente que car(A) = m. 2) O sistema Ax = b ´e determinado se n˜ao houver inc´ognitas livres, isto ´e, se todas as n inc´ognitas forem b´asicas, e isto ´e equivalente a dizer que car(A) = n. Exemplo 2.11 Pretendemos resolver o sistema Ax = b, sendo     −4 2 4 6 8 A =  −2 −2 −4 −6  e b =  4  . 4 8 12 8 0 Do Exemplo 2.10, sabemos que car(A) = 3 e A = LU,    1 0 0 L =  −1 1 0  e U =  2 0 1   −4 Resolvendo Lc = b obtemos c =  0  (verifique!). 8 A, o sistema inicial ´e poss´ıvel. onde 2 4 0 2 0 0 6 2 0  8 2 . −8 Como car(A) = 3 = n´ umero de linhas de No sistema U x = c as inc´ognitas b´asicas s˜ao x1 , x2 e x4 (correspondem `as colunas de U com pivot), sendo x3 inc´ognita livre. Fa¸ca-se x3 = 0 e resolva-se o sistema resultante   2x1 +  4x2 2x2 + 8x4 + 2x4 − 8x4 = −4 = 0 = 8   x1 = 0 x2 = 1 . ⇐⇒  x4 = −1   0  1   Obtemos assim   0  uma solu¸c˜ao particular de Ax = b. −1 Do Exemplo 2.10, temos    −α        −α  :α∈R . N (A) =   α        0 Logo, o conjunto das solu¸c˜oes de Ax = b ´e         0 −α −α               −α   1 1 − α  +  :α∈R =   :α∈R .  0   α   α              −1 0 −1 40 Exemplo 2.12 Considere-se o sistema Ax = b, onde     1 2 3 4 0 A =  2 −1 1 2  e b =  −1  . 3 1 4 6 2 Uma decomposi¸c˜ao LU de A ´e  1 0 0 1 A =  2 1 0  0 3 1 1 0  2 −5 0 3 −5 0  4 −6  , 0 e portanto car(A) = 2, inferior ao n´ umero de linhas de A. O sistema pode ser poss´ıvel ou imposs´ıvel, e se for poss´ıvel ser´a indeterminado.   0 Resolvendo Lc = b obtemos c =  −1  . Sendo n˜ao nulo o elemento da terceira linha de c, 3 o segundo passo do algoritmo diz-nos que o sistema Ax = b ´e imposs´ıvel. Exemplo 2.13 Sejam  1  1 A=  2 2 Pretendemos resolver o sistema Ax = b, decomposi¸c˜ao LU :  1  1 A=  2 2    2 2   3   e b =  −1  .  4  4  4 4 caso este seja poss´ıvel. A matriz A tem a seguinte 0 1 0 0 0 0 1 0  0 1 2  0 1 0   0  0 0 1 0 0   .  Logo car(A) = 2. Mais uma vez a caracter´ıstica de A ´e inferior ao n´ umero de linhas. O sistema s´o ser´a poss´ıvel se os dois u ´ltimos elementos de c forem nulos. Note-se que, no caso de o sistema ser poss´ıvel, ser´a determinado, uma vez que a caracter´ıstica de A ´e igual ao n´ umero  decolunas de A 2  −3   e portanto n˜ao h´a inc´ognitas livres. Da resolu¸c˜ao de Lc = b obt´em-se c =   0  . Sendo n˜ao 0 nulos os elementos das terceira e quarta linhas de c, o sistema inicial ´e poss´ıvel. A sua solu¸c˜ao ´e a do sistema U x = c : ½ ½ x1 + 2x2 = 2 x1 = 8 ⇐⇒ . x2 = −3 x2 = −3 · ¸ 8 Logo a solu¸c˜ao u ´nica de Ax = b ´e . −3 Exerc´ıcios 1. Indique um sistema de equa¸c˜oes lineares cuja solu¸c˜ao seja:   5 (a)  1  ; 0 41     1 5 (b)  0  + α  1  ; −1 0       1 5 0 (c)  0  + α  1  + β  0  . 0 0 1 2. Seja A uma matriz qualquer. Mostre que, se b for uma coluna de A, ent˜ao o sistema Ax = b ´e poss´ıvel e indique uma solu¸c˜ao.   1 1 0 3. Considere a matriz A =  2 2−α 2  , com α ∈ R. 0 α α (a) Factorize A na forma LU , onde L ´e uma matriz triangular inferior com elementos diagonais iguais a 1 e U ´e uma matriz em escada. (b) Diga para que valores de α a matriz A ´e invert´ıvel. (c) Fa¸ca α = 3.  0 i. Resolva o sistema Ax =  0  . 1  ii. Usando o resultado da al´ınea (i), indique a terceira coluna de A−1 . 4. Considere a matriz  1 0 A= β 1 −1 β 1 β+1 1  −1 −β  , com β ∈ R. β (a) Factorize A na forma LU , onde L ´e uma matriz triangular inferior com elementos diagonais iguais a 1 e U ´e uma matriz em escada. (b) Determine todos os valores de β para os quais nul(A) = 1. (c) Fa¸ca β = 0. i. Determine o espa¸co nulo de A.   0 ii. Determine a solu¸ca˜o do sistema Ax =  −1  . −1 5. Sendo B q × m e A m × n, mostre que o espa¸co nulo de A est´a contido no espa¸co nulo de BA. 6. Seja A real m × n. Prove que o espa¸co nulo de A coincide com o de AT A. 7. Seja A uma matriz m × n tal que, para qualquer b ∈ Rm , o sistema Ax = b ´e poss´ıvel. Prove que, nestas condi¸c˜oes, o sistema AT y = 0 s´o tem a solu¸c˜ao nula. 8. Seja A uma matriz m×n e seja b uma coluna m×1. Designemos por A0 a matriz m×(n+1) que se obt´em juntando a A a coluna b. Prove que o sistema Ax = b ´e poss´ıvel se e s´o se car(A) = car(A0 ). 9. O objectivo deste exerc´ıcio ´e avaliar o custo computacional do m´etodo de elimina¸c˜ao de Gauss. Seja dada uma matriz A n × n n˜ao-singular. Vai-se aplicar a A o m´etodo de elimina¸c˜ao de Gauss com o objectivo de resolver o sistema Ax = b mediante a sua transforma¸c˜ao num sistema triangular U x = c. 42 (a) Quantas adi¸c˜oes, multiplica¸c˜oes e divis˜oes ´e necess´ario efectuar para passar de A para 2 2 U ? (R.: n(n3−1) , n(n3−1) , n(n−1) .) 2 (b) E para passar de b para c? (R.: (c) E para resolver o sistema U x = n(n−1) n(n−1) , 2 , 0.) 2 , n(n−1) , n.) c? (R.: n(n−1) 2 2 10. Suponha que disp˜oe de um computador cujo processador consegue fazer, num segundo, 1000000 opera¸c˜oes (uma “opera¸c˜ao”= uma adi¸c˜ao + uma multiplica¸c˜ao + uma divis˜ao). Quanto tempo de c´alculo do processador exigiria a resolu¸c˜ao, pelo m´etodo de elimina¸c˜ao de Gauss, de um sistema 100 × 100? E de um 1000 × 1000? 11. Como sabe, dada uma matriz A mxn qualquer, ´e poss´ıvel factorizar A (ou P A, para uma matriz de permuta¸c˜ao P conveniente) na forma LU , onde L ´e triangular inferior com elementos diagonais iguais a 1 e U uma matriz em escada. Ser´a esta decomposi¸c˜ao u ´nica no caso geral? Por outras palavras, se LU = L1 U1 , com L e L1 triangulares inferiores com elementos diagonais iguais a 1 e U e U1 matrizes em escada, ter-se-´a sempre necessariamente L = L1 e U = U1 ? (Comece por experimentar com matrizes pequenas.) Haver´a s´o unicidade das matrizes U ? Se sim, em que casos haver´a unicidade das L? Haver´a s´o unicidade das matrizes L? Se sim, em que casos haver unicidade das U ? 2.3 O algoritmo de Gauss-Jordan para invers˜ ao de matrizes Na sec¸ca˜o 1.3, afirm´amos que vir´ıamos a estudar m´etodos para determinar se uma matriz quadrada ´e ou n˜ao invert´ıvel e, no caso afirmativo, calcular a sua inversa. Estamos agora em condi¸c˜oes de analisar o primeiro desses m´etodos. Teorema 2.7 Uma matriz quadrada A ´e invert´ıvel se e s´o se for n˜ao-singular. Demonstra¸c˜ ao. Seja A n × n. Suponhamos primeiro que A ´e invert´ıvel. Ent˜ao o sistema Ax = 0 ´e determinado (tem a solu¸c˜ao u ´nica A−1 0 = 0) e portanto A tem de certeza n pivots, ou seja ´e n˜ao-singular. Reciprocamente, suponhamos que A ´e n˜ao-singular. Como vimos na sec¸ca˜o anterior, multiplicando A `a esquerda por matrizes elementares da forma Eij (α) e Pij , obt´em-se uma matriz triangular superior U com elementos diagonais n˜ao nulos (que s˜ao os n pivots de A). Continue-se agora o processo de “cria¸c˜ao de zeros”, de baixo para cima: usa-se o u ´ltimo pivot para “anular”o u ´ltimo elemento das linhas 1, 2, . . . , n − 1, depois o pen´ ultimo pivot para anular o pen´ ultimo elemento das linhas 1, 2, . . . , n − 2, etc. Estas opera¸c˜oes elementares correspondem a multiplicar U `a esquerda por matrizes elementares da forma Eij (α), onde agora i < j. No fim disto chega-se a uma matriz diagonal D com elementos diagonais n˜ao nulos. Resumindo, o que se mostrou foi que existe uma sequˆencia de matrizes elementares que, multiplicadas `a esquerda de A, produzem D. Designemos o produto de todas essas matrizes elementares por E. Tem-se portanto EA = D. Mas a matriz E ´e invert´ıvel, porque ´e um produto de matrizes elementares, que s˜ao todas invert´ıveis. Logo, podemos multiplicar a igualdade anterior `a esquerda por E −1 , obtendo A = E −1 D. 43 Ent˜ao A ´e invert´ıvel, porque ´e igual a E −1 D, que ´e invert´ıvel. Exemplo 2.14 Ilustremos o processo seguido na demonstra¸c˜ao deste Teorema com a matriz do exemplo 1.5 da sec¸c˜ao 1.3. Tem-se · ¸ · ¸ 1 2 1 0 E12 (2) E21 (−1) = 1 1 0 −1 donde · 1 1 2 1 ¸ · = E21 (1) E12 (−2) 1 0 0 −1 ¸ . Como sabe, o produto de duas matrizes invert´ıveis ´e tamb´em invert´ıvel. Seguidamente demonstramos a afirma¸ca˜o rec´ıproca. Corol´ ario 2.1 Sejam A e B matrizes quadradas da mesma ordem. Se o produto AB for invert´ıvel, ent˜ao A e B s˜ ao ambas invert´ıveis. Em particular, se AB = I, −1 ent˜ao B = A . Demonstra¸c˜ ao. Vamos provar a primeira afirma¸ca˜o por redu¸c˜ao ao absurdo. Suponhamos AB invert´ıvel, mas B n˜ao-invert´ıvel. Pelo teorema anterior, B ´e singular e, portanto, o sistema Bx = 0 ´e poss´ıvel indeterminado. Mas ent˜ao o sistema ABx = 0 tamb´em ´e indeterminado (uma vez que qualquer solu¸ca˜o do primeiro sistema ´e tamb´em solu¸ca˜o do segundo). Tal n˜ao pode acontecer, pois sendo AB invert´ıvel tem-se AB n˜ao-singular e, consequentemente, ABx = 0 ´e poss´ıvel determinado. Esta contradi¸ca˜o resultou do facto de termos suposto B n˜aoinvert´ıvel. Conclui-se assim que B ´e invert´ıvel. Note que agora podemos escrever A = (AB)B −1 , isto ´e, A ´e o produto de duas matrizes invert´ıveis. Logo A ´e tamb´em invert´ıvel. Passemos `a segunda afirma¸c˜ao. Suponhamos que AB = I. Pela primeira parte do corol´ario, sabemos que A e B s˜ao ambas invert´ıveis. De AB = I tira-se A−1 (AB) = A−1 , ou seja B = A−1 . Observa¸ c˜ ao. Com este resultado torna-se mais f´acil, dada uma matriz A, averiguar se uma matriz X ´e a sua inversa. Segundo a defini¸ca˜o, ter´ıamos de ver se AX = I e XA = I. Como consequˆencia deste Corol´ario, conclu´ımos que basta verificar uma das condi¸c˜oes. O teorema e corol´ario anteriores sugerem um processo para achar a inversa de uma matriz quadrada (se essa inversa existir). O processo baseia-se no facto de que, se A for n˜ao-singular, a sua inversa vai ser a matriz X que satisfaz AX = I. Designando as colunas de X por v1 , v2 , . . . , vn e as colunas da matriz identidade por e1 , e2 , . . . , en , isto ´e,       0 0 1 0 1 0      e1 =   ...  , e2 =  ...  , . . . , en =  ...  1 0 0 44 dever´a ter-se A [v1 v2 . . . vn ] = [e1 e2 . . . en ] , o que (pela maneira como se calcula o produto de matrizes) ´e o mesmo que ter as n igualdades Av1 = e1 , Av2 = e2 , . . . , Avn = en . Temos, portanto, para achar as colunas da inversa de A, de resolver n sistemas, todos com a mesma matriz A. A ideia do chamado algoritmo de Gauss-Jordan ´e levar a cabo a elimina¸ca˜o em todos os n sistemas ao mesmo tempo, e n˜ao parar na matriz triangular U , continuando com a “elimina¸ca˜o ascendente”, usando os pivots para “criar”zeros por cima da diagonal e, finalmente, para achar os valores das inc´ognitas, dividindo cada linha pelo correspondente pivot. Os sucessivos passos s˜ao aplicados ao quadro n × 2n que tem a matriz do(s) sistema(s) `a esquerda e todos os segundos membros `a direita. Algoritmo D. C´ alculo da inversa de uma matriz: Seja dada A n × n. Para calcular a inversa de A (se existir) leva-se a cabo com a matriz n × 2n [A|I] a parte descendente do m´etodo de elimina¸c˜ ao de Gauss aplicado a A. Se houver menos de n pivots, A n˜ao ´e invert´ıvel. Se houver n pivots, usando-os pela ordem contr´ aria, anulam-se com opera¸c˜ oes elementares todos os elementos por cima da diagonal da matriz `a esquerda. Finalmente, divide-se cada linha pelo respectivo pivot. No fim deste processo, a matriz obtida ´e [I|A−1 ].  1 1 Exemplo 2.15 Seja A =  2 5 1 4 afirmativo, calcular a sua inversa.  4 4  . Pretendemos verificar se A ´e invert´ıvel e, em caso −2 Para tal, come¸camos por aplicar a parte descendente matriz  1 1 4 | 1 4 | 0 [A|I] =  2 5 1 4 −2 | 0 do m´etodo de elimina¸c˜ao de Gauss `a  0 0 1 0 . 0 1 O primeiro passo consiste em adicionarmos `a segunda e terceira linhas de [A|I] a primeira linha multiplicada por −2 e −1, respectivamente. Na matriz obtida, adiciona-se `a terceira linha a segunda multiplicada por −1 :     1 1 4 | 1 0 0 1 1 4 | 1 0 0 1 0 . [A|I] −→  0 3 −4 | −2 1 0  −→  0 3 −4 | −2 0 3 −6 | −1 0 1 0 0 −2 | 1 −1 1 Como podemos observar, h´a trˆes pivots, 1, 3 e −2, logo A ´e invert´ıvel. Iniciamos agora a elimina¸c˜ao ascendente. Obtemos uma nova matriz, usando o pivot −2 para anular os restantes elementos da terceira coluna (adiciona-se `a segunda e primeira linhas a terceira multiplicada por −2 e 2, respectivamente). Nesta nova matriz, adicionamos `a primeira linha a segunda multiplicada por − 31 :     8 1 1 0 | 3 −2 2 1 0 0 | 13 −3 3 3  0 3 0 | −4 3 −2  −→  0 3 0 | −4 3 −2  . 0 0 −2 | 1 −1 1 0 0 −2 | 1 −1 1 45 J´a temos do lado esquerdo uma matriz diagonal. Resta-nos dividir a segunda linha por 3 e a terceira por −2:   8 1 0 0 | 13 −3 3 3 1 − 23  . [I|A−1 ] =  0 1 0 | − 43 1 1 0 0 1 | −2 − 12 2  13  8 −3 3 3 1 − 23  . Conclu´ımos assim que A ´e invert´ıvel e a sua inversa ´e A−1 =  − 43 1 1 −2 − 12 2 Teorema 2.8 Se A for uma matriz triangular superior (resp. inferior) de elementos diagonais n˜ao nulos, ent˜ao A ´e invert´ıvel, A−1 tamb´em ´e triangular superior (resp. inferior) e os elementos diagonais de A−1 s˜ao os inversos dos elementos diagonais de A. Demonstra¸c˜ ao. Exerc´ıcio. Poderia pensar-se que, de posse do algoritmo de Gauss-Jordan para calcular a inversa de uma matriz, o caminho mais r´apido para resolver um sistema Ax = b com A n˜ao-singular ´e simplesmente escrever x = A−1 b. N˜ao ´e assim: n˜ao ´e necess´ario conhecer A−1 para resolver o sistema e o algoritmo baseado na factoriza¸ca˜o LU ´e computacionalmente mais econ´omico. De facto, o algoritmo de Gauss-Jordan ´e apenas um processo c´omodo e sugestivo de inverter “`a m˜ao”pequenas matrizes que apare¸cam. Na pr´atica computacional real, se por qualquer raz˜ao for necess´ario conhecer a inversa de uma matriz A, o que se faz ´e tamb´em usar a factoriza¸ca˜o LU : escreve-se P A = LU , calcula-se L−1 e U −1 (inversas f´aceis de encontrar — pelo algoritmo de Gauss-Jordan! — porque se trata de matrizes triangulares) e tira-se A−1 = U −1 L−1 P . Mas geralmente n˜ao ´e A−1 que se procura, e sim um produto da forma A−1 b. Nestes casos n˜ao ´e necess´ario o c´alculo da inversa de A pois o vector A−1 b pode ser obtido atrav´es da resolu¸c˜ao do sistema de equa¸co˜es lineares Ax = b. Uma aplica¸ca˜o interessante do Teorema 2.8 ´e o seguinte resultado: Teorema 2.9 (Unicidade da factoriza¸c˜ ao LU no caso quadrado n˜ao-singular.) Se A ´e n˜ao-singular, ent˜ao a factoriza¸c˜ ao LU de A (ou de P A) ´e u ´nica. Demonstra¸c˜ ao. Suponhamos que P A = LU e tamb´em P A = L1 U1 , com L e L1 triangulares inferiores com elementos diagonais iguais a 1 e U e U1 matrizes triangulares superiores com elementos diagonais n˜ao nulos. Ent˜ao LU = L1 U1 , −1 donde L−1 . Nesta igualdade tem-se, no primeiro membro, uma matriz 1 L = U1 U triangular inferior com elementos diagonais a 1, e no segundo membro uma matriz triangular superior. Como estas duas matrizes s˜ao iguais, tˆem que ser diagonais, e os elementos diagonais tˆem que ser iguais a 1 (porque o s˜ao os do primeiro membro). Logo −1 =I L−1 1 L = I , U1 U ou seja L1 = L , U1 = U . 46 Exerc´ıcios 1. Seja A uma matriz n × n invert´ıvel. Como sabe, o m´etodo de Gauss-Jordan para a determina¸c˜ao da inversa de A consiste em realizar uma sucess˜ao de opera¸c˜oes elementares com linhas come¸cando com a matriz [A | I] at´e se chegar a [I | A−1 ]. Em determinada fase desse processo, tem-se do lado esquerdo uma matriz triangular superior e do lado direito uma matriz triangular inferior. Identifique essas duas matrizes, relacionando-as com os factores da decomposi¸c˜ao LU de A. 2. Seja A uma matriz m×n arbitr´aria. Prove que ´e sempre poss´ıvel arranjar matrizes invert´ıveis S m × m e T n × n de forma que · SAT = Ir 0 0 0 ¸ , onde r = car(A). Sugest˜ao: Aplique o m´etodo de elimina¸c˜ao de Gauss a A, fazendo opera¸c˜oes elementares com linhas at´e simplificar o mais poss´ıvel, como no m´etodo de Gauss-Jordan. Depois continue fazendo opera¸c˜oes elementares com colunas. 47 3 Determinantes Neste cap´ıtulo vamos estudar um processo alternativo de averiguar se uma matriz quadrada ´e ou n˜ao invert´ıvel e, no caso de ser, de calcular a sua inversa. Ao contr´ario do m´etodo visto no final do cap´ıtulo anterior, o processo que vamos ver n˜ao ´e algor´ıtmico, e n˜ao tem interesse computacional salvo para matrizes pequenas. O seu interesse ´e mais te´orico: um n´ umero obtido por uma f´ormula aplicada aos elementos da matriz diz-nos se a matriz ´e ou n˜ao invert´ıvel (o que ´e diferente de um algoritmo). Este estudo ter´a interesse mais adiante neste livro, no cap´ıtulo sobre valores pr´oprios e vectores pr´oprios. O mesmo estudo permitir-nos-´a obter uma express˜ao — tamb´em sobretudo com interesse te´orico — para a inversa de uma matriz quadrada invert´ıvel e, como consequˆencia, uma f´ormula para a (´ unica) solu¸ca˜o de sistemas de equa¸co˜es lineares cujas matrizes s˜ao invert´ıveis. 3.1 Defini¸c˜ ao e primeiras propriedades Um n´ umero ´e invert´ıvel se e s´o se for n˜ao nulo. Portanto uma matriz 1 × 1 ´e invert´ıvel se e s´o se for n˜ao nula. No entanto, para matrizes de ordem superior tal j´a n˜ao se verifica. · ¸ 1 2 Por exemplo, a matriz A = n˜ao ´e invert´ıvel: basta notar que 2 4 ¸· ¸ · ¸ · 2 6 0 0 1 2 = ; −1 −3 0 0 2 4 se A fosse invert´ıvel, poder´ ambos · ıamos multiplicar ¸ · ¸ os membros desta igualdade `a 2 6 0 0 esquerda por A−1 e viria = , o que ´e falso. −1 −3 0 0 Ser´a poss´ıvel associar a cada matriz quadrada um n´ umero que nos permita decidir da sua invertibilidade? A resposta a esta quest˜ao ´e afirmativa. Vale a pena analisar em pormenor o caso ¸2 × 2. · a11 a12 Consideremos a matriz A = . Como vimos atr´as, A ´e invert´ıvel a21 a22 se e s´o se for n˜ao-singular. Vejamos que condi¸c˜oes devem satisfazer os n´ umeros a11 , a12 , a21 , a22 para que isso aconte¸ca. Apliquemos portanto o m´etodo de elimina¸ca˜o de Gauss a A, supondo para j´a que a11 ´e diferente de 0: ¸ · ¸ · ¸ · a11 a12 a11 a12 a11 a12 = −→ . 12 a21 0 a11 a22a−a 0 a22 − aa21 a12 a21 a22 11 11 Conclu´ımos assim que A ´e invert´ıvel se e s´o se o n´ umero a11 a22 −a12 a21 for diferente de 0. Facilmente se vˆe que a mesma conclus˜ao ´e v´alida no caso de a11 ser igual a 0. Existe assim um n´ umero, constru´ıdo a partir dos elementos da matriz, que nos diz se ela ´e ou n˜ao invert´ıvel. A este n´ umero chamamos o determinante de A e escrevemos det(A) = a11 a22 − a12 a21 . 48 Propriedades imediatas desta fun¸c˜ao s˜ao as seguintes: · ¸ · ¸ · 0 ¸ a11 +a011 a12 +a012 a11 a12 a11 a012 • det = det + det a21 a22 a21 a22 a21 a22 (e analogamente para a 2a linha); · ¸ · ¸ αa11 αa12 a11 a12 • Sendo α ∈ R, det = α det a21 a22 a21 a22 (e analogamente para a 2a linha); • Se as duas linhas de A forem iguais, det(A) = 0; • det(I2 ) = 1 . Usamos estas propriedades como motiva¸ca˜o para a defini¸ca˜o no caso geral. N˜ao se trata de uma defini¸c˜ao atrav´es de uma f´ormula, mas sim mediante uma lista de propriedades. Isto pode parecer surpreendente, mas permitir-nos-´a avan¸car de forma r´apida e simples na teoria. Veremos em breve que a lista de propriedades adoptada caracteriza de modo u ´nico o conceito que nos interessa. 49 Defini¸c˜ ao 3.1 Determinante de ordem n ´e uma fun¸c˜ ao det : Mn×n (R) −→ R A 7−→ det(A) que a cada matriz quadrada A de ordem n sobre R faz corresponder um n´ umero real, det(A), de tal modo que as seguintes condi¸c˜ oes sejam satisfeitas (onde uma nota¸c˜ ao do tipo Lk designa a linha k de uma matriz): (d1) Para i = 1, . . . , n tem-se:   L1    ..     .         0 det  Li + Li  = det  Li  + det    .   .    ..   ..  Ln Ln   L1 .. .   L1 ..  .   L0i  ; ..  .  Ln (d2) Para i = 1, . . . , n e α ∈ R tem-se:     L1 L1  ..   ..   .   .      det  α Li  = α det  Li   .   .   ..   ..  Ln Ln (d3) Se A tiver duas linhas iguais, tem-se det(A) = 0. (d4) det(In ) = 1. Outra nota¸c˜ ao para det(A) ´e |A|. Duas quest˜oes surgem imediatamente: Existir´a alguma fun¸ca˜o nestas condi¸co˜es? Caso exista, ser´a u ´nica? Ver-se-´a que a resposta ´e afirmativa em ambos os casos. Antes, por´em, provemos algumas propriedades que s˜ao verificadas por qualquer fun¸ca˜o det que satisfa¸ca as condi¸c˜oes (d1), (d2), (d3) e (d4) da defini¸ca˜o de determinante. Teorema 3.1 Seja A ∈ Mn×n (R). Ent˜ao tem-se: 1. Se uma linha de A for m´ ultipla de outra linha de A ent˜ ao det(A) = 0. Em particular, det(A) = 0 se A tiver uma linha nula. 2. O determinante n˜ao se altera se a uma linha de A adicionarmos um m´ ultiplo de outra linha de A. 50 3. O determinante muda de sinal quando se trocam entre si duas linhas de A. 4. Se P for uma matriz de permuta¸c˜ ao, tem-se det(P ) = 1 ou −1. Demonstra¸c˜ ao. Suponha-se, sem perda de generalidade, 1 ≤ i < j ≤ n. 1. Seja Li = α Lj , para algum α ∈ R. Ent˜ao, por (d2) e (d3), tem-se     L1 L1  ..   ..   .   .       Lj   α Lj   .   .     det(A) = det   ..  = α det  ..  = α0 = 0.  L   L   j   j   .   .   ..   ..  Ln Ln 2. Seja α ∈ R. Ent˜ao, por (d1) e (d2), tem-se       L1 L1 L1 ..    ..   ..     .   .  .        Li + αLj   Li   Lj        ..  = det  ...  + α det  ...  = det(A), det  .             Lj    Lj   Lj     .   .  ..    ..   ..  . Ln Ln Ln uma vez que, por (d3), a segunda parcela desta soma ´e nula. 3. Usando repetidamente (d1) e (d3), obt´em-se      L1 L1 L1 ..  ..   ..    .    .  .       Li  Li + Lj   Li   .     . .  ..     . .. +det = det 0 = det    .    L  L   L +L   j  i   i j   .     ..  ..  ..    . . Ln Ln Ln   L1   ..    .       Li    .    = 0 + det  ..  + det     L    j    .  .   .  Ln  51   L1  ..       .         Lj    .    +det  ..  +det        L     i     .     ..   Ln    L1 ..  .   Lj  ..  .   + 0. Li   ..  .  Ln  L1 ..  .   Lj  ..  .  = Lj   ..  .  Ln Logo, pode concluir-se que   L1  ..     .       Li   .    = − det  . det  .      L   j     .    ..  Ln   L1 ..  .   Lj  ..  .  . Li   ..  .  Ln 4. Seja P uma matriz de permuta¸c˜ao de ordem n. Ent˜ao P obt´em-se de In por troca de linhas. Como, por (d4), det(In ) = 1, da propriedade anterior conclui-se que det(P ) = 1 ou −1, consoante P for obtida de In atrav´es de, respectivamente, um n´ umero par ou ´ımpar de trocas de linhas. Na demonstra¸c˜ao deste u ´ltimo ponto, levanta-se a seguinte quest˜ao: uma matriz de permuta¸ca˜o P ´e obtida da matriz identidade por trocas de linhas, mas, em geral, podem existir v´arias estrat´egias para o fazer. Ser´a que pode acontecer uma dessas estrat´egias ter um n´ umero par de trocas de linhas e outra ter um n´ umero ´ımpar? A sec¸ca˜o seguinte ´e dedicada ao esclarecimento desta quest˜ao. Vamos ver que a resposta ´e negativa. Para cada matriz de permuta¸c˜ao, todas estas maneiras de a obter a partir da matriz identidade tˆem algo em comum, que ´e a paridade do n´ umero de trocas necess´arias: ou esse n´ umero ´e par para todas as estrat´egias, ou ´e ´ımpar para todas. Uma vez isso provado, ficamos a saber que o determinante de uma matriz de permuta¸ca˜o P ´e uma quantidade bem definida, sendo igual a (−1)s , onde s ´e o n´ umero de trocas de linhas feitas (com uma qualquer estrat´egia) para obter P a partir da identidade. 3.2 Permuta¸c˜ oes Em Matem´atica a palavra “permuta¸ca˜o”tem um significado preciso que passamos a definir. Defini¸c˜ ao 3.2 Uma permuta¸ c˜ ao do conjunto {1, . . . , n} ´e uma fun¸c˜ ao bijectiva deste conjunto nele pr´oprio. Designa-se por Sn o conjunto de todas as permuta¸c˜ oes do conjunto {1, . . . , n}. A permuta¸c˜ ao identidade designa-se por id. Dada σ ∈ Sn , ´e usual represent´a-la da seguinte forma: µ ¶ 1 2 3 ... n σ= ou, simplesmente, σ = (σ1 , σ2 , σ3 , . . . , σn ), σ1 σ2 σ3 . . . σn 52 onde σ1 = σ(1), σ2 = σ(2), σ3 = σ(3), . . . , σn = σ(n). Como ´e f´acil de ver, o n´ umero de elementos de Sn ´e n · (n − 1) · ... · 2 · 1, n´ umero que se designa por n!. A composi¸ca˜o de duas permuta¸c˜oes em Sn , bem como a inversa de uma per´ usual chamar-se `a composi¸c˜ao de muta¸ca˜o em Sn , s˜ao ainda permuta¸c˜oes em Sn . E permuta¸co˜es produto de permuta¸c˜oes. Por exemplo, se σ e τ forem as permuta¸c˜oes σ = (3, 1, 4, 2), τ = (2, 3, 1, 4) em S4 , ent˜ao o produto στ (leia-se σ ap´os τ ) e σ −1 (a inversa de σ) s˜ao, respectivamente, στ = (1, 4, 3, 2) e σ −1 = (2, 4, 1, 3). As permuta¸c˜oes mais simples s˜ao aquelas {1, . . . , n} s˜ao trocados entre si, permanecendo µ 1 2 ... i ... j 1 2 ... j ... i em que apenas dois elementos de os restantes fixos: ¶ ... n . ... n Estas permuta¸c˜oes denominam-se transposi¸co ˜es. Note-se que a inversa de uma transposi¸ca˜o ´e ela pr´opria. O pr´oximo resultado revela-nos que podemos pensar numa permuta¸ca˜o como sendo uma sequˆencia de trocas, isto ´e, como uma sequˆencia de transposi¸co˜es. Teorema 3.2 Toda a permuta¸c˜ ao em Sn ´e um produto de transposi¸c˜ oes. Demonstra¸c˜ ao. Ver o Apˆendice 11.2. ´ f´acil de Para ilustrar este resultado, considere-se a permuta¸c˜ao σ = (2, 3, 1, 4). E escrever σ como produto de transposi¸co˜es, e at´e de v´arias maneiras: σ = (3, 2, 1, 4)(2, 1, 3, 4) = (1, 3, 2, 4)(3, 2, 1, 4) = (3, 2, 1, 4)(1, 4, 3, 2)(2, 1, 3, 4)(4, 2, 3, 1) . Com este exemplo, vemos que n˜ao h´a unicidade na factoriza¸c˜ao de uma permuta¸ca˜o como um produto de transposi¸c˜oes. Mais adiante veremos que, se uma permuta¸ca˜o se puder escrever como um produto de um n´ umero par de transposi¸co˜es, ent˜ao qualquer outra factoriza¸ca˜o desse tipo da mesma permuta¸ca˜o tem tamb´em um n´ umero par de transposi¸co˜es. Desse resultado segue-se imediatamente a conclus˜ao an´aloga para factoriza¸co˜es com um n´ umero ´ımpar de transposi¸co˜es. Defini¸c˜ ao 3.3 Seja σ uma permuta¸c˜ ao em Sn . Dizemos que um par (i, j) de elementos de {1, . . . , n} forma uma invers˜ ao de σ se i < j e σ(i) > σ(j). Seja t(σ) o n´ umero total de invers˜oes de σ. A (−1)t(σ) chama-se o sinal de σ (abreviadamente, sgn(σ)). A permuta¸c˜ ao σ diz-se par ou ´ımpar consoante t(σ) for par ou ´ımpar. Por outras palavras, σ ´e par se sgn(σ) = 1 e ´ımpar se sgn(σ) = −1. 53 µ 1 2 3 4 Exemplo 3.1 As invers˜oes da permuta¸c˜ao σ = 3 1 4 2 tem-se t(σ) = 3, sgn(σ) = −1 e σ ´e uma permuta¸c˜ao ´ımpar. ¶ s˜ao (1, 2), (1, 4) e (3, 4). Logo Exemplo 3.2 Qualquer transposi¸c˜ao ´e uma permuta¸c˜ao ´ımpar. De facto, seja µ ¶ 1 ... i − 1 i i + 1 ... j − 1 j j + 1 ... n σ= . 1 ... i − 1 j i + 1 ... j − 1 i j + 1 ... n As invers˜oes de σ s˜ao (i, k) e (k, j), para k = i + 1, . . . , j − 1, e ainda (i, j). Assim t(σ) = 2(j − 1 − i) + 1 ´e um n´ umero ´ımpar e σ ´e uma permuta¸c˜ao ´ımpar. Seguem-se dois importantes resultados sobre permuta¸c˜oes. Teorema 3.3 Dadas σ, τ ∈ Sn tem-se sgn(στ ) = sgn(σ)sgn(τ ). Demonstra¸c˜ ao. Ver o Apˆendice 11.2. Teorema 3.4 Uma permuta¸c˜ ao ´e par se e s´o se for o produto de um n´ umero par de transposi¸c˜ oes. Demonstra¸c˜ ao. Ver o Apˆendice 11.2. Este Teorema e o Exemplo 3.2 permitem-nos caracterizar o sinal de uma permuta¸ca˜o de uma forma diferente: dada uma permuta¸c˜ao σ, se σ for igual a um produto de s transposi¸c˜oes, tem-se sgn(σ) = (−1)s . Estamos agora em condi¸c˜oes de esclarecer a quest˜ao levantada no fim da sec¸ca˜o anterior. Dada uma permuta¸c˜ao σ = (σ1 , . . . , σn ) ∈ Sn , designemos por Pσ a matriz de permuta¸ca˜o obtida colocando na linha i a linha σi de In . Escreva-se σ como um produto de s transposi¸co˜es: σ = τ1 τ2 . . . τs . Vamos ver que Pσ se obt´em de In por s trocas de linhas. Consideremos uma linha arbitr´aria de In , digamos a linha k. Apliquemos a esta linha (mais rigorosamente, dev´ıamos dizer que aplicamos a k) a transposi¸c˜ao τ1 , depois τ2 , e assim sucessivamente at´e τs . A nova posi¸c˜ao da linha ´e indicada pelo ´ındice τs . . . τ2 τ1 (k), isto ´e5 , σ −1 (k). 5 Recorde-se que a inversa de uma transposi¸c˜ao ´e ela pr´opria, pelo que (τ1 τ2 . . . τs )−1 = τs . . . τ2 τ1 . 54 Fazendo k = σi , vemos que, aplicando aquelas s trocas `as linhas de In , a linha σi de In vai para a posi¸c˜ao σ −1 (σi ) = σ −1 (σ(i)) = i. Ou seja: a matriz que se obt´em de In aplicando-lhe as referidas s trocas de linhas ´e precisamente a matriz que design´amos por Pσ . Em resumo, Pσ obt´em-se de In por s trocas de linhas. Logo, det(Pσ ) = (−1)s , o que ´e exactamente o sinal de σ, e ´e portanto independente da estrat´egia de trocas de linhas que se use para obter Pσ a partir de In . Prov´amos assim uma vers˜ao precisa da u ´ltima propriedade da sec¸ca˜o anterior: Teorema 3.5 Tem-se det(Pσ ) = sgn(σ) . Exemplo 3.3 Seja σ = (2, 3, 1) ∈ S3 . A matriz de  0 P(2,3,1) =  0 1 permuta¸c˜ao que lhe corresponde ´e  1 0 0 1 . 0 0 O sinal de σ ´e +1, porque (2, 3, 1 ´e o produto de duas transposi¸c˜oes: (2, 3, 1) = (1, 3, 2)(3, 2, 1). A matriz P(2,3,1) pode assim obter-se de I3 atrav´es de duas trocas de linhas, e tem-se det P(2,3,1) = 1. 3.3 Existˆ encia e unicidade do determinante Regressemos aos determinantes. Usando apenas a defini¸ca˜o e as propriedades imediatas dela resultantes, vamos mostrar que, se a fun¸c˜ao determinante de ordem n existir, ´e u ´nica e dada por X sgn(σ) a1σ1 a2σ2 . . . anσn . det([aij ]) = σ=(σ1 ,...,σn )∈Sn Ilustremos o caso geral com o caso n = 2. Seja f : M2×2 (R) −→ R uma fun¸ca˜·o determinante de ordem 2 (isto ´e, satisfazendo (d1), (d2), (d3) e (d4)). Dada ¸ a11 a12 , tem-se, por (d1), A= a21 a22 ¸ ¸ · ¸ · · a11 0 0 a12 a11 + 0 0 + a12 = =f +f f (A) = f a21 + 0 0 + a22 a21 + 0 0 + a22 a21 + 0 0 + a22 ¸ ¸ · · ¸ · ¸ · 0 a12 a11 0 a11 0 0 a12 . +f f +f +f 0 a22 a21 0 a21 0 0 a22 · ¸ a11 0 Agora, temos f = 0, uma vez que uma linha da matriz ´e m´ ultipla da a21 0 ¸ · 0 a12 . Assim tem-se outra. O mesmo sucede com f 0 a22 ¸ · ¸ · a11 0 0 a12 . f (A) = f +f a21 0 0 a22 55 Mas, por (d2) e (d4), · f a11 0 0 a22 ¸ · = a11 a22 f 1 0 0 1 ¸ = a11 a22 . De modo an´alogo, · f · uma vez que 0 1 1 0 0 a12 a21 0 ¸ · = a12 a21 f 0 1 1 0 ¸ = −a12 a21 , ¸ se obteve de I2 por uma troca de duas linhas. Conclui-se assim que X det(A) = a11 a22 − a12 a21 = sgn(σ) a1σ1 a2σ2 . σ=(σ1 ,σ2 )∈S2 Generalizemos esta demonstra¸ca˜o para o caso do determinante de ordem n. Seja f : Mn×n (R) −→ R uma fun¸ca˜o determinante. Ent˜ao, por (d1), tem-se, para qualquer matriz quadrada A = [aij ]n×n ,    f (A) = f   a11 + 0 + . . . + 0 0 + a12 + . . . + 0 . . . 0 + 0 + . . . + a1n a21 + 0 + . . . + 0 0 + a22 + . . . + 0 . . . 0 + 0 + . . . + a2n .. .. .. .. . . . . an1 + 0 + . . . + 0 0 + an2 + . . . + 0 . . . 0 + 0 + . . . + ann    =    a11 0 ... 0  a21 + 0 + . . . + 0 0 + a22 + . . . + 0 . . . 0 + 0 + . . . + a2n    f + .. .. .. ...   . . . an1 + 0 + . . . + 0 0 + an2 + . . . + 0 . . . 0 + 0 + . . . + ann   0 a12 ... 0  a21 + 0 + . . . + 0 0 + a22 + . . . + 0 . . . 0 + 0 + . . . + a2n    f  + ...+ .. .. .. ..   . . . . an1 + 0 + . . . + 0 0 + an2 + . . . + 0 . . . 0 + 0 + . . . + ann   0 0 ... a1n  a21 + 0 + . . . + 0 0 + a22 + . . . + 0 . . . 0 + 0 + . . . + a2n    f . .. .. .. ..   . . . . an1 + 0 + . . . + 0 0 + an2 + . . . + 0 . . . 0 + 0 + . . . + ann Efectuando o mesmo tipo de manobra para as outras linhas, obtemos ao todo nn parcelas. As matrizes envolvidas tˆem em cada linha no m´aximo um elemento n˜ao 56 nulo. Uma vez que f (X) = 0 todas as parcelas do tipo  ...  ..  .   0  . f  ..  0   .  .. ... se duas linhas de X forem m´ ultiplas uma da outra, ... ... ... ... . .. .. .. . .. . . . . . 0 aij 0 . .. .. .. . .. . . . . . 0 akj 0 .. .. . .. . .. . . ... ... ... ...  ... ... .  .. . ..   ... 0  .  .. . ..   ... 0   ..  .. . .  ... ... v˜ao ser nulas. Restam-nos ent˜ao as n! parcelas correspondentes `as matrizes que em cada linha e em cada coluna tˆem no m´aximo um elemento n˜ao nulo. H´a uma dessas matrizes para cada permuta¸c˜ao σ = (σ1 , . . . , σn ) ∈ Sn . A matriz, de entre as n!, que corresponde a σ ´e a matriz cuja linha i, para i = 1, . . . , n, tem todos os elementos nulos excepto o elemento da coluna σi que ´e igual a aiσi ou seja precisamente a matriz que no final da sec¸ca˜o anterior design´amos por Pσ , com a diferen¸ca de que, na linha i, em vez de 1 est´a aiσi , para i = 1, . . . , n. Por (d2), o valor de f nesta matriz ´e a1σ1 a2σ2 . . . anσn f (Pσ ). Podemos ent˜ao escrever f (A) = X a1σ1 a2σ2 . . . anσn f (Pσ ). σ=(σ1 ,...,σn )∈Sn Mas, pelo Teorema 3.5, f (Pσ ) = sgn(σ). Temos ent˜ao f (A) = X sgn(σ) a1σ1 a2σ2 . . . anσn . σ=(σ1 ,...,σn )∈Sn Este resultado permite-nos concluir que, caso exista, a fun¸c˜ao determinante ´e u ´nica, pois qualquer outra fun¸ca˜o nas condi¸c˜oes da defini¸ca˜o de determinante teria o mesmo valor na matriz A. Teorema 3.6 A fun¸c˜ao determinante de ordem n existe, ´e u ´nica e ´e dada por det : Mn×n (R) −→ R A = [aij ] −→ det(A) = X sgn(σ) a1σ1 a2σ2 . . . anσn . σ=(σ1 ,...,σn )∈Sn Demonstra¸c˜ ao. Como j´a prov´amos a unicidade, resta mostrar que esta fun¸ca˜o, que designamos por det, satisfaz (d1), (d2), (d3) e (d4). A demonstra¸ca˜o deste facto ´e simples, embora (d3) necessite de algum cuidado. 57 Comecemos com (d1), (d2) e (d4). Seja  a11 ... a1n .. .. ...  . .   0 A =  ai1 + ai1 . . . ain + a0in  .. .. ...  . . an1 ... ann     .   Ent˜ao X det (A) = sgn(σ) a1σ1 . . . (aiσi + a0iσi ) . . . anσn = σ=(σ1 ,...,σn )∈Sn = X sgn(σ) a1σ1 . . . aiσi . . . anσn + σ=(σ1 ,...,σn )∈Sn X sgn(σ) a1σ1 . . . a0iσi . . . anσn = σ=(σ1 ,...,σn )∈Sn    a11 . . . a1n  .. . . . ..   .   .     = det  ai1 . . . ain  + det   . .   . . ...   ..  an1 . . . ann  a11 . . . a1n .. . . . . ..  .   a0i1 . . . a0in . .. . . .  . ..  . an1 . . . ann De modo an´alogo se demonstra (d2). Para mostrarmos que (d4) se verifica, considere-se In = [δij ], onde δij , recorde-se, ´e o s´ımbolo de Kronecker: δij toma o valor 1 se i = j, e 0 se i 6= j. Ent˜ao, para i = 1, . . . , n e para qualquer permuta¸c˜ao σ=(σ1 , . . . , σn )∈Sn , tem-se δiσi = 0, a n˜ao ser que σi = i. Logo, a parcela sgn(σ) δ1σ1 δ2σ2 . . . δnσn ser´a nula se σ n˜ao for a permuta¸ca˜o identidade. Assim det(In ) = sgn(id) δ11 δ22 . . . δnn = 1. Para terminar, provemos (d3). Suponhamos que A = [aij ] tem as linhas k e ` iguais, isto ´e, akj = a`j , j = ´ nosso objectivo mostrar que, dada uma qualquer parcela de 1, . . . , n. E X det(A) = sgn(σ) a1σ1 . . . akσk . . . a`σ` . . . anσn , σ=(σ1 ,...,σn )∈Sn podemos associar-lhe uma outra parcela, bem determinada pela primeira, que somada com ela d´a zero. Seja τ a transposi¸c˜ao em Sn que troca entre si k e `, e fixa os restantes inteiros. Dada uma qualquer permuta¸c˜ao ϕ = (ϕ1 , ϕ2 , . . . , ϕk , . . . , ϕ` , . . . , ϕn ) ∈ Sn , podemos considerar a permuta¸ca˜o composi¸c˜ao ψ = ϕ ◦ τ = (ϕ1 , ϕ2 , . . . , ϕ` , . . . , ϕk , . . . , ϕn ). Tem-se sgn(ψ) = sgn(ϕ)sgn(τ ) = −sgn(ϕ). A parcela do somat´orio correspondente a ψ ´e sgn(ψ) a1ψ1 . . . akψk . . . a`ψ` . . . anψn = −sgn(ϕ) a1ϕ1 . . . akϕ` . . . a`ϕk . . . anϕn = 58 (uma vez que akϕ` = a`ϕ` e akϕk = a`ϕk ) = −sgn(ϕ) a1ϕ1 . . . a`ϕ` . . . akϕk . . . anϕn = (pela comutatividade da multiplica¸ca˜o em R) = −sgn(ϕ) a1ϕ1 . . . akϕk . . . a`ϕ` . . . anϕn , que ´e o sim´etrico da parcela do somat´orio correspondente a ϕ. Como a cada parcela de det(A) podemos associar uma e uma s´o que ´e sim´etrica dela, conclui-se que det(A) = 0. Atendendo a que h´a n! permuta¸c˜oes em Sn , ´e ´obvio que para n ≥ 4 n˜ao ´e f´acil calcular o determinante de uma matriz usando a defini¸ca˜o. Teremos ent˜ao que encontrar processos alternativos. Antes, por´em, analisemos os casos n = 2 e n = 3. Se n = 2, j´a vimos que · ¸ a11 a12 det = a11 a22 − a12 a21 . a21 a22 No caso n = 3, a f´ormula do determinante envolve seis parcelas, trˆes das quais afectadas do sinal 1 e as outras trˆes do sinal −1. Assim, se A = [aij ] for uma matriz de ordem 3, tem-se det(A) = a11 a22 a33 + a13 a21 a32 + a12 a23 a31 − a13 a22 a31 − a12 a21 a33 − a11 a23 a32 . Existe uma regra pr´atica, conhecida por Regra de Sarrus, que nos ajuda a recordar esta f´ormula. As parcelas do determinante afectadas do sinal 1 s˜ao constitu´ıdas: uma pelo produto dos elementos diagonais de A, e as duas outras pelos produtos dos elementos que constituem os triˆangulos de bases paralelas `a diagonal principal. As parcelas afectadas do sinal −1 s˜ao obtidas de modo semelhante, desempenhando agora a outra diagonal um papel semelhante ao desempenhado pela diagonal principal no outro caso:       a11 · a13 · a12    a21 ·   a22 · a23  ; +: a33 a32 · a31 ·  −: a13  a22     a21 · a31 Exemplo 3.4 Tem-se · det  2 5 det  6 15 7 8 1 9 3 7 a12 · ·     a33 a11 · · a32  · a23  . ¸ = 1 × 7 − 9 × 3 = −20 ;  3 4  = 2 × 15 × 1 + 3 × 6 × 8 + 5 × 4 × 7 − (3 × 15 × 7 + 2 × 4 × 8 + 5 × 6 × 1) = −95. 1 59 3.4 Outras propriedades dos determinantes Como j´a foi referido, para n ≥ 4 n˜ao ´e, em geral, f´acil o c´alculo de um determinante usando a f´ormula. Uma excep¸c˜ao ´e o caso das matrizes triangulares. Teorema 3.7 Seja A uma matriz triangular, superior ou inferior. Ent˜ao o determinante de A ´e igual ao produto dos seus elementos diagonais. Demonstra¸c˜ ao. Consideremos caso ´e em tudo semelhante).  a11  0   A =  ...   0 0 o caso de uma matriz triangular superior (o outro a12 . . . a1,n−1 a1n a22 . . . a2,n−1 a2n .. . . .. .. . . . . 0 . . . an−1,n−1 an−1,n 0 ... 0 ann     .   Vejamos quais dos produtos a1σ1 a2σ2 . . . an−1σn−1 anσn , com σ ∈ Sn , que aparecem na express˜ao de det(A) podem ser n˜ao nulos. Como em A se tem ain = 0 se i 6= n, aquele produto ser´a nulo a n˜ao ser que σn = n. Obviamente, agora tem-se σn−1 ≤ n − 1, uma vez que σn−1 que j´a n˜ao pode tomar o valor n, pelo facto de σ ser uma permuta¸ca˜o. Por outro lado, qualquer valor de σn−1 inferior a n − 1 tornaria o produto nulo. Assim σn−1 = n − 1. Prosseguindo deste modo, conclu´ımos que o u ´nico produto eventualmente n˜ao nulo ´e a11 a22 . . . ann . Assim, temos det(A) = sgn(id) a11 a22 . . . ann = a11 a22 . . . ann , como quer´ıamos demonstrar. Vamos em seguida, finalmente, alcan¸car o objectivo de mostrar que o n˜ao anulamento do determinante de uma matriz ´e equivalente `a invertibilidade dessa matriz. Teorema 3.8 Seja A uma matriz quadrada. Seja U a matriz que se obt´em de A aplicando-lhe o algoritmo de elimina¸c˜ ao de Gauss. Ent˜ao tem-se det(A) = ± det(U ). Demonstra¸c˜ ao. Viu-se atr´as que o determinante de uma matriz n˜ao se altera se a uma linha adicionarmos um m´ ultiplo de outra linha. Mas isso significa que o determinante de uma matriz n˜ao se altera com a “parte descendente”do algoritmo de elimina¸c˜ao de Gauss (suponhamos por um momento que n˜ao h´a troca de linhas). Ent˜ao, se o algoritmo transforma A na matriz triangular superior U , tem-se det(A) = det(U ). Se houver necessidade de troca de linhas no algoritmo de elimina¸c˜ao aplicado a A, tem-se det(A) = det(U ) se o n´ umero de trocas for par e det(A) = − det(U ) se o n´ umero de trocas for ´ımpar. Este teorema fornece um processo de c´alculo de determinantes que ´e computacionalmente muito mais econ´omico do que a f´ormula que d´a o determinante. 60 Exemplo 3.5 Usemos o algoritmo de nante.  1 1 2  2 2 3 det   0 1 2 0 0 1  1 1 2  0 1 2 = − det   0 0 −1 0 0 1 elimina¸c˜ao de Gauss para o c´alculo do seguinte determi  2 1  0 5   = det   0 3  2 0   2  3   = − det    1 2 = −(1 × 1 × (−1) × 3) 1 0 1 0 1 0 0 0  2 2 −1 1  = 2 3  1 2  1 2 2 1 2 3  = 0 −1 1  0 0 3 = 3. Corol´ ario 3.1 Seja A quadrada. Ent˜ao A ´e invert´ıvel se e s´o se det(A) 6= 0. Demonstra¸c˜ ao. Pelo teorema anterior, tem-se det(A) = ± det(U ). Como U ´e triangular, det(U ) ´e igual ao produto dos seus elementos diagonais. Se A for n˜aosingular (o que ´e equivalente a ser invert´ıvel), esses elementos diagonais de U s˜ao os n pivots que se encontram quando se aplica o m´etodo de elimina¸c˜ao a A, e portanto det(U ) 6= 0. Se A for singular, U tem pelo menos um elemento diagonal nulo e portanto det(U ) = 0. O teorema seguinte cont´em uma importante propriedade do determinante. Teorema 3.9 Sejam A e B matrizes n×n quaisquer. Ent˜ao det(AB) = det(A) det(B). Demonstra¸c˜ ao. Distinguimos dois casos, conforme a matriz B. 1o caso: det(B) = 0. Ent˜ao B ´e singular e, pelo Corol´ario 2.1 da sec¸c˜ao 2.3, a matriz AB ´e singular. Logo det(AB) = 0. Neste caso, portanto, tem-se det(AB) = det(A) det(B). 2o caso: det(B) 6= 0. Definamos a seguinte fun¸ca˜o: g : Mn×n (R) −→ A R det(AB) 7 → − det(B) Esta fun¸ca˜o g satisfaz as quatro propriedades da defini¸ca˜o de determinante. (Exerc´ıcio: Comprove esta afirma¸ca˜o.) Mas, como vimos atr´as, s´o existe uma fun¸ca˜o que satisfaz essas propriedades, que ´e a fun¸c˜ao determinante. Ent˜ao, tem que se ter g = det, isto ´e, det(AB) = det(A) , para qualquer A det(B) o que ´e o mesmo que det(AB) = det(A) det(B). 61 Corol´ ario 3.2 Seja A quadrada invert´ıvel. Ent˜ao det(A−1 ) = 1 . det(A) Demonstra¸c˜ ao. De AA−1 = I tira-se, pelo teorema anterior, det(A) det(A−1 ) = 1 de onde se segue a conclus˜ao do corol´ario. Vemos portanto que o determinante se relaciona bem com o produto de matrizes. O mesmo n˜ao se passa com a soma de matrizes: para n ≥ 2 e matrizes quaisquer A e B, n˜ao existe nenhuma rela¸c˜ao simples entre det(A + B), por um lado, e det(A) e det(B), por outro. Para o teorema seguinte, precisamos de um pequeno resultado preparat´orio: Lema 3.1 Seja P uma matriz de permuta¸c˜ ao. Ent˜ao det(P T ) = det(P ) . Demonstra¸c˜ ao. Como P e P T s˜ao matrizes de permuta¸ca˜o, o determinante de cada uma delas ´e 1 ou −1. Mas como a inversa de uma matriz de permuta¸c˜ao ´e a sua transposta, tem-se P P T = I, donde, pelo Teorema anterior, det(P ) det(P T ) = 1. Logo det(P ) e det(P T ) ou s˜ao ambos iguais a 1 ou s˜ao ambos iguais a −1. Teorema 3.10 Seja A uma matriz quadrada. Ent˜ao det(AT ) = det(A) . Demonstra¸c˜ ao. Apliquemos a A o algoritmo de elimina¸c˜ao de Gauss. Suponhamos para j´a que n˜ao h´a necessidade de trocar linhas. Ent˜ao tem-se A = LU e portanto det(A) = det(L) det(U ) = det(U ), j´a que det(L) = 1 (porque L ´e triangular com elementos diagonais iguais a 1). Quanto `a transposta, vem AT = U T LT , donde, analogamente, det(AT ) = det(LT ) det(U T ) = det(U T ). Mas U e U T tˆem os mesmos elementos diagonais, e portanto det(U T ) = det(U ). Se houver necessidade de trocar linhas, temos P A = LU . Aplicando determinantes a ambos os membros desta igualdade e tamb´em da igualdade AT P T = U T LT , e usando o lema anterior, chegamos de novo `a conclus˜ao pretendida. Deste teorema tiramos a conclus˜ao de que todas as propriedades dos determinantes que s˜ao v´alidas para linhas s˜ao tamb´em v´alidas para colunas. Por exemplo: se uma coluna de uma matriz quadrada A for m´ ultipla de outra, ent˜ao det(A) = 0; se se trocarem entre si duas colunas de A, ent˜ao det(A) muda de sinal; etc. 62 Exerc´ıcios  1.  (a) Sendo A =  a c 0 0 b ∗ d ∗ 0 e 0 g  ∗ · ¸ · ∗ , mostre que det(A) = det a b det e f  c d g h ¸ f . h (b) Generalize o resultado da al´ınea anterior para matrizes quadradas da forma · B 0 C D ¸ , onde B e D s˜ao quadradas. 2. Prove que o determinante de uma matriz ortogonal real ou ´e 1 ou ´e −1. 3. Duas matrizes A e B dizem-se semelhantes se existir V invert´ıvel tal que A = V BV −1 . Prove que se A e B forem semelhantes ent˜ao det(A) = det(B). 4. Sem calcular os determinantes indicados, mostre que    ax a2 + x2 1 ax det  ay a2 + y 2 1  = det  ax2 az a2 + z 2 1 a 3.5 y y2 1  z z2  . 1 O Teorema de Laplace e a Regra de Cramer Vamos agora estudar uma f´ormula que nos permite reduzir o c´alculo de um determinante de ordem n ao c´alculo de n determinantes de ordem n − 1. Esta f´ormula pode ser particularmente u ´til se uma das linhas ou das colunas da matriz tiver muitos zeros. Comecemos com o caso n = 3, que ´e o primeiro caso para o qual a f´ormula tem interesse. Dada A = [aij ]3×3 , tem-se, pela f´ormula vista no Teorema 3.6, det(A) = a11 a22 a33 + a13 a21 a32 + a12 a23 a31 − a13 a22 a31 − a12 a21 a33 − a11 a23 a32 . Agrupemos as parcelas que contˆem a11 , as que contˆem a12 e as que contˆem a13 : det(A) = a11 (a22 a33 − a23 a32 ) − a12 (a21 a33 − a23 a31 ) + a13 (a21 a32 − a22 a31 ), ou seja · det(A) = a11 det a22 a23 a32 a33 ¸ · − a12 det a21 a23 a31 a33 ¸ · + a13 det a21 a22 a31 a32 ¸ . Defini¸c˜ ao 3.4 Seja A = [aij ]n×n . Chama-se complemento alg´ ebrico de i+j um elemento aij de A a (−1) det(Aij ), onde Aij designa a submatriz de A obtida por supress˜ ao da linha i e da coluna j. No caso 3×3, prov´amos h´a pouco que det(A) se obt´em multiplicando os elementos da primeira linha de A pelos respectivos complementos alg´ebricos e somando as trˆes 63 ´ f´acil de ver que uma express˜ao an´aloga seria obtida se parcelas assim obtidas. E em vez da primeira linha tivessemos utilizado uma das outras duas, ou mesmo uma qualquer coluna de A. Este tipo de resultado pode ser generalizado para matrizes n × n, obtendo-se o seguinte teorema. Teorema 3.11 (Teorema de Laplace) O determinante de uma matriz quadrada ´e igual `a soma dos produtos dos elementos de uma linha pelos respectivos complementos alg´ebricos, isto ´e, sendo A = [aij ] n × n, tem-se det(A) = n X aij (−1)i+j det(Aij ), j=1 para qualquer i ∈ {1, . . . , n}. O mesmo vale para colunas, ou seja, det(A) = n X aij (−1)i+j det(Aij ), i=1 para qualquer j ∈ {j, . . . , n}. Demonstra¸c˜ ao. Ver o Apˆendice 11.3. O Teorema de Laplace admite uma generaliza¸c˜ao que abordaremos no Apˆendice 11.3. Exemplo 3.6 Calculemos o seguinte determinante, usando o Teorema de Laplace. Utilizaremos a primeira linha da matriz, visto conter dois zeros.   5 0 0 2  2 1 −3 0  = det   0 −1 2 1  2 0 −1 −1     1 −3 0 2 −3 0 2 1  + 0(−1)1+2 det  0 2 1 + = 5(−1)1+1 det  −1 0 −1 −1 2 −1 −1     2 1 0 2 1 −3 1  + 2(−1)1+4 det  0 −1 2 = + 0(−1)1+3 det  0 −1 2 0 −1 2 0 −1 (aplicando o Teorema de Laplace ao primeiro e ao quarto destes determinantes usando a primeira linha e a primeira coluna, respectivamente) µ · ¸ · ¸¶ 2 1 −1 1 1+1 1+2 = 5 1(−1) det − 3(−1) det + −1 −1 0 −1 µ · ¸ · ¸¶ −1 2 1 −3 +(−2) 2(−1)1+1 det + 2(−1)3+1 det = 10. 0 −1 −1 2 64 Como aplica¸ca˜o do Teorema de Laplace, vamos agora ver f´ormulas para a inversa de uma matriz e para a solu¸ca˜o de um sistema Ax = b com A invert´ıvel. Defini¸c˜ ao 3.5 Dada A = [aij ]n×n , a matriz dos complementos alg´ ebricos de A ´e a matriz n × n cujo elemento (i, j) ´e (−1)i+j det(Aij ). ˜ Designamos esta matriz por A. ` transposta desta matriz, A˜T , chama-se adjunta de A. A · Exemplo 3.7 1. A adjunta de a11 a21 a12 a22 ¸ · ´e a22 −a21 −a12 a11 ¸ .   a11 a12 a13 2. A adjunta de  a21 a22 a23  ´e a31 a32 a33   a22 a33 −a23 a32 −(a12 a33 −a13 a32 ) a12 a23 −a13 a22 −(a21 a33 −a23 a31 ) a11 a33 −a13 a31 −(a11 a23 −a13 a21 ). a21 a32 −a22 a31 −(a11 a32 −a12 a31 ) a11 a22 −a12 a21 A propriedade essencial da matriz adjunta ´e apresentada no teorema seguinte. Teorema 3.12 Seja A quadrada de ordem n. O matriz diagonal  det(A) 0  0 det(A)  det(A) In =  .. ..  . . 0 0 produto de A pela sua adjunta ´e a ... ... .. . 0 0 .. .    .  . . . det(A) Demonstra¸c˜ ao. Calcule-se o produto AA˜T . Para qualquer i, o elemento (i, i) deste produto ´e n X aik (−1)i+k det(Aik ) k=1 o que, pelo Teorema de Laplace, ´e igual a det(A). Para i 6= j, o elemento (i, j) ´e n X aik (−1)j+k det(Ajk ) . k=1 Pelo Teorema de Laplace, isto ´e igual ao determinante da matriz que se obt´em de A substituindo a linha j pela linha i. Como tal matriz tem duas linhas iguais, o seu determinante ´e igual a 0. 65 Corol´ ario 3.3 Seja A quadrada invert´ıvel. Ent˜ao A−1 = 1 A˜T . det(A) Demonstra¸c˜ ao. Pelo teorema, tem-se AA˜T = det(A)I. Se A for invert´ıvel, tem-se 1 det(A) 6= 0 e podemos escrever A A˜T = I . det(A) Este corol´ario apresenta uma f´ ormula para a inversa de uma matriz quadrada. Salvo em casos especiais, esta f´ormula n˜ao tem muito interesse na pr´atica como processo de c´alculo da inversa de uma matriz (sendo prefer´ıvel o algoritmo de GaussJordan). Mas tem importˆancia te´orica, para al´em de ser interessante em si. De posse de uma f´ormula para a inversa de uma matriz, ´e agora natural que consigamos obter uma f´ormula para a solu¸ca˜o de um sistema Ax = b com A quadrada ´ esse o conte´ invert´ıvel. E udo do teorema seguinte. Teorema 3.13 (Regra de Cramer.) Seja A invert´ıvel n×n. Dado o sistema Ax = b, det(A(i)) a sua solu¸c˜ ao (´ unica) ´e a matriz-coluna cujos elementos s˜ao os quocientes , det(A) i = 1, . . . , n, onde A(i) ´e a matriz que se obt´em de A substituindo a coluna i por b. Demonstra¸c˜ ao. A solu¸ca˜o u ´nica do sistema Ax = b ´e A−1 b. Usemos a f´ormula para A−1 obtida no corol´ario anterior. Vem ent˜ao que a solu¸c˜ao do sistema ´e 1 A˜T b . det(A) O elemento da linha i da coluna A˜T b ´e n X bj (−1)i+j det(Aji ) j=1 o que, pelo Teorema de Laplace, ´e precisamente o determinante da matriz que no enunciado do teorema denot´amos por A(i). · ¸ · ¸ a11 a12 b1 Exemplo 3.8 Sendo A = invert´ıvel e b = , a solu¸c˜ao do sistema Ax = b ´e a a21 a22 b2 coluna 2 × 1 cujos elementos s˜ao · ¸ · ¸ a11 b1 b1 a12 det det a21 b2 b2 a22 b a − a12 b2 a b − b1 a21 · · ¸ = 1 22 ¸ = 11 2 e . a11 a22 − a12 a21 a11 a22 − a12 a21 a11 a12 a11 a12 det det a21 a22 a21 a22 Assim, por exemplo, a solu¸c˜ao u ´nica do sistema de equa¸c˜oes lineares ½ 2x1 + 5x2 = 3 4x1 + 9x2 = 7 66 ´e a coluna 2 × 1 cujos elementos s˜ao · ¸ 3 5 det 7 9 −8 · ¸= −2 2 5 det 4 9 · ¸ 4 ou seja ´e a coluna . −1 · 2 4 · 2 det 4 det e ¸ 3 7 2 ¸= −2 5 9 A regra de Cramer, embora dˆe uma f´ormula para a solu¸c˜ao de sistemas Ax = b com A invert´ıvel, n˜ao tem interesse computacional (salvo para valores pequenos de n), devido `a necessidade de calcular os determinantes que nela figuram. 67 O espa¸co Rn, subespa¸cos, dimens˜ ao 4 ´ Este ´e um cap´ıtulo de transi¸ca˜o entre a abordagem mais computacional `a Algebra Linear, de que estud´amos as partes introdut´orias nos trˆes cap´ıtulos anteriores (matrizes, sistemas, determinantes), e uma vis˜ao mais “geom´etrica”. A palavra “geometria”´e aqui usada num sentido diferente do habitual na Matem´atica elementar. Trata-se da “geometria linear”dos espa¸cos multidimensionais, em que se usa a ´algebra para generalizar conhecimentos de geometria vectorial que o leitor j´a tem sobre o caso plano. Neste cap´ıtulo trabalhamos apenas no ambiente muito concreto de Rn , o conjunto das matrizes-coluna n×1 com elementos reais, onde n ´e um n´ umero natural qualquer. Nos cap´ıtulos 8 e 9 voltaremos a esta quest˜ao num contexto mais geral e abstracto. O nosso estudo vai permitir-nos precisar o conceito de “dimens˜ao”usado na linguagem corrente, quando dizemos que um plano tem “dimens˜ao 2”, ou que o espa¸co em que nos movemos tem “dimens˜ao 3”. Teremos tamb´em oportunidade de compreender melhor a an´alise dos sistemas de equa¸co˜es lineares feita no Cap´ıtulo 2. Para isso, reinterpretaremos alguns dos conceitos ent˜ao vistos mediante a introdu¸c˜ao de subespa¸cos naturalmente associados a qualquer sistema — mais precisamente, a qualquer matriz. Essa reinterpreta¸ca˜o ser´a essencial em cap´ıtulos posteriores. Finalmente, definiremos o conceito de transforma¸ca˜o linear entre Rn e Rm , e classificaremos todas as transforma¸c˜oes lineares entre esses espa¸cos. 4.1 Subespa¸cos Sendo n um n´ umero natural, o nosso estudo vai ser feito dentro de Rn , que ser´a o nosso “espa¸co”.6 Definiremos com rigor o que se entende por dimens˜ao de certo tipo de subconjuntos de Rn . No estudo que vamos fazer, usaremos apenas as opera¸co˜es de adi¸ca˜o de elementos de Rn e multiplica¸ca˜o de n´ umeros por elementos de Rn . Recorde-se que Rn ´e o conjunto das matrizes n × 1 com elementos reais. Aos elementos de Rn chamaremos vectores. Se isso n˜ao trouxer inconvenientes, poderemos ocasionalmente identificar o vector   a1  a2     ..   .  an com a sequˆencia ordenada (a1 , a2 , . . . , an ) . 6 Tudo o que se vai dizer — excepto a interpreta¸c˜ao geom´etrica nos casos n = 2 e n = 3 — vale da mesma forma para Cn , usando n´ umeros complexos em vez de n´ umeros reais. 68    Ao vector   0 0 .. .     chamamos zero, origem ou vector nulo de Rn , e denotamo-lo  0 por simplesmente pelo mesmo s´ımbolo 0. R2 ´e identificado, da forma habitual, com o conjunto dos pontos de um plano em que se fixou um sistema de eixos: · R2 a2 a1 . a = a2 0 a1 ¸ Como se sabe, a adi¸ca˜o de vectores de R2 corresponde geometricamente `a chamada “regra do paralelogramo”: a+ . b © © © © b. © © @ @ @ @. a © © © © © © @ @ @ © @ © © © 0 Tamb´em a multiplica¸ca˜o de n´ umeros reais por vectores de R2 tem uma tradu¸c˜ao 69 geom´etrica conhecida: © © © .a © © © 3 . 2a © © © © © © 0 O elemento a ∈ R2 ´e por vezes identificado com o segmento orientado que vai da origem para a: * © © © © ©© 0 a ©© ©© ´ devido a esta identifica¸c˜ao que se usa a palavra “vector”no presente contexto. E Identificamos segmentos orientados com a mesma direc¸ca˜o, sentido e grandeza. Assim, por exemplo, os dois segmentos orientados da figura seguinte s˜ao considerados o mesmo. * © © ©© © ©© © ©© * © © ©© ©© 0 ©© © © Algebricamente, isto corresponde a dizer que, se os pontos inicial e final de um segmento orientado forem, respectivamente, a e b, ent˜ao esse segmento orientado ´e 70 igual a b − a. De modo inteiramente an´alogo ao de R2 , R3 ´e identificado, da forma habitual, com o conjunto dos pontos do espa¸co usual em que se fixou um sistema de trˆes eixos perpendiculares. A adi¸ca˜o de vectores de R3 e a multiplica¸c˜ao de n´ umeros reais por 3 2 vectores de R tˆem interpreta¸co˜es geom´etricas an´alogas `as de R . R2 e R3 s˜ao a nossa inspira¸ca˜o para o estudo de Rn . Claro que, para n ≥ 4, n˜ao h´a figuras, e o estudo ´e exclusivamente alg´ebrico. Defini¸c˜ ao 4.1 Um subespa¸co de Rn ´e um subconjunto F de Rn que satisfaz as seguintes condi¸c˜ oes: 1. F 6= ∅; 2. u, v ∈ F ⇒ u + v ∈ F ; 3. v ∈ F, α ∈ R ⇒ αv ∈ F . A condi¸ca˜o 2 costuma descrever-se dizendo que F ´e “fechado para a adi¸ca˜o de vectores”. A condi¸ca˜o 3 costuma descrever-se dizendo que F ´e “fechado para o produto de n´ umeros reais por vectores”. ´ imediato ver que se v1 , . . . , vk forem vectores de um subespa¸co F de Rn e se E α1 , . . . , αk forem n´ umeros reais quaisquer, ent˜ao o vector α1 v1 + . . . + αk vk pertence a F. Se F for um subespa¸co de Rn , a origem de Rn pertence necessariamente a F , porque, sendo v um vector qualquer de F (existe pelo menos um porque F 6= ∅), a terceira condi¸c˜ao da defini¸c˜ao de subespa¸co obriga a que 0v = 0 ∈ F . Esta ´e uma condi¸ca˜o necess´ aria para um conjunto ser um subespa¸co, e pode ser usada para ver que certos conjuntos n˜ ao s˜ ao subespa¸cos: se um subconjunto de n R n˜ao contiver a origem, n˜ao ´e de certeza um subespa¸co. Exemplo 4.1 1. {0} e Rn s˜ao subespa¸cos de Rn (os chamados subespa¸ cos triviais). 2. Em R2 (identificado da forma atr´as referida com o conjunto dos pontos de um plano em que se fixou um sistema de eixos) as rectas passando pela origem s˜ao subespa¸cos. As rectas que n˜ao passam pela origem n˜ao s˜ao subespa¸cos. 3. Os quadrantes de R2 n˜ao s˜ao subespa¸cos. 71 4. Em R3 (identificado com o conjunto dos pontos do espa¸co usual em que se fixou um sistema de eixos) as rectas e os planos passando pela origem s˜ao subespa¸cos. As rectas e os planos que n˜ao passam pela origem n˜ao s˜ao subespa¸cos.    x1       x2  4   ∈ R : x + x = x − x ´e um subespa¸co de R4 : 5. O conjunto F =  1 2 3 4 x3        x4      x1 0 y1  x2   y2  0      Como 0 + 0 = 0 − 0, tem-se   0  ∈ F . Logo, F 6= ∅. Sejam  x3  e  y3 0 x4 y4 arbitr´arios de F e α ∈ R. Temos x1 + x2 = x3 − x4 e y1 + y2 = y3 − y4 . Ent˜ao    vectores  (x1 + y1 ) + (x2 + y2 ) = (x1 + x2 ) + (y1 + y2 ) = (x3 − x4 ) + (y3 − y4 ) = (x3 + y3 ) − (x4 + y4 ) . Logo,    x1 y1  x2   y2     x3  +  y3 x4 y4    x1 + y1     =  x2 + y2  ∈ F   x3 + y3  x4 + y4 e F ´e fechado para a adi¸c˜ao. Finalmente, temos αx1 + αx2 = α(x1 + x2 ) = α(x3 − x4 ) = αx3 − αx4 . Assim,     x1 αx1  x2   αx2     α  x3  =  αx3  ∈ F x4 αx4 e F ´e fechado para a adi¸c˜ao. Conclui-se assim que F ´e um subespa¸co de R4 .    x1        x 2  ∈ R4 : x1 + x2 = 1, x3 − x4 = 0 n˜ao ´e um subespa¸co de R4 . Basta 6. O conjunto    x3       x4 notar que o vector nulo n˜ao pertence a F . 7. Sendo A ∈ Mm×n (R), o n´ ucleo ou espa¸ co nulo de A (isto ´e, o conjunto N (A) das solu¸c˜oes do sistema Ax = 0) ´e um subespa¸co de Rn . Se b ∈ Rm n˜ao for o vector nulo, o conjunto das solu¸c˜oes do sistema Ax = b n˜ao ´e um subespa¸co. Teorema 4.1 A intersec¸c˜ ao de dois (ou mais) subespa¸cos de Rn ´e ainda um subespa¸co de Rn . Demonstra¸c˜ ao. Provamos o teorema apenas no caso de dois subespa¸cos (a situa¸c˜ao geral, incluindo o caso de um n´ umero infinito de subespa¸cos, fica como exerc´ıcio). Sejam F e G subespa¸cos de Rn . Como a origem de Rn pertence a F e a G, tamb´em pertence a F ∩ G. Logo, F ∩ G 6= ∅ . Sejam agora u, v ∈ F ∩ G e α ∈ R. Como F e G s˜ao subespa¸cos, u + v e αu pertencem a F e tamb´em pertencem a G . Logo, u + v ∈ F ∩ G e αu ∈ F ∩ G . Conclu´ımos assim que F ∩ G ´e um subespa¸co de Rn . 72 Vamos agora ver como, dados uns tantos vectores, se pode a partir deles construir um subespa¸co. Defini¸c˜ ao 4.2 Sejam v1 , . . . , vk vectores de Rn . Uma combina¸ c˜ ao linear de v1 , . . . , vk ´e um vector da forma α1 v1 + . . . + αk vk , com α1 , . . . , αk n´ umeros reais (os coeficientes da combina¸c˜ ao linear). Denotamos por L{v1 , . . . , vk } o conjunto de todas as poss´ıveis combina¸c˜ oes lineares dos vectores v1 , . . . , vk . Teorema 4.2 Sendo v1 , . . . , vk ∈ Rn , o conjunto L{v1 , . . . , vk } ´e um subespa¸co de Rn . Demonstra¸c˜ ao. Por defini¸c˜ao, L{v1 , . . . , vk } = {α1 v1 + . . . + αk vk : α1 , . . . , αk ∈ R}. Como o vector nulo se pode escrever na forma 0 = 0v1 +. . .+0vk , conclu´ımos que 0 ∈ L{v1 , . . . , vk }. Considerem-se agora dois vectores arbitr´arios u, v ∈ L{v1 , . . . , vk } e α ∈ R. Existem ent˜ao n´ umeros reais β1 , . . . , βk , γ1 , . . . , γk tais que u = β1 v1 + . . . + βk vk , v = γ1 v1 + . . . + γk vk . Logo u + v = (β1 + γ1 )v1 + . . . + (βk + γk )vk , αu = (αβ1 )v1 + . . . + (αβk )vk s˜ao ainda elementos de L{v1 , . . . , vk }. Este conjunto ´e portanto n˜ao vazio, fechado para a adi¸ca˜o de vectores e para o produto de n´ umeros reais por vectores, ou seja, n ´e um subespa¸co de R . Defini¸c˜ ao 4.3 A L{v1 , . . . , vk } chama-se subespa¸co gerado pelos vectores v1 , . . . , vk . Se F = L{v1 , . . . , vk }, diz-se que {v1 , . . . , vk } ´e um conjunto gerador de F . Obviamente, se v1 , . . . , vk gerarem F , cada um desses vectores pertence necessariamente a F . · 1 Exemplo 4.2 1. Considere o vector v = 3 {αv : α ∈ R}, ´e a recta de equa¸c˜ ao y = 3x. · ¸ de R2 . O subespa¸co gerado por v, L{v} = ¸ · ¸ 1 0 2. Seja de novo v = e tome-se w = . Ent˜ao L{v, w} = R2 . De facto, qualquer 3 1 vector de R2 ´e combina¸c˜ao linear de v e w: · ¸ · ¸ · ¸ x1 1 0 = x1 + (x2 − 3x1 ) . x2 3 1 73 · ¸ · ¸ 1 2 3. Considerem-se agora os vectores v = ew= de R2 . Como se tem w = 2v , vem 3 6 αv + βw = (α + 2β)v para quaisquer α, β ∈ R. Assim L{v, w} = {αv + βw : α, β ∈ R} = {γv : γ ∈ R} = L{v}.    x1       x2  4   ∈ R : x + x = x − x o subespa¸co de R4 referido no exemplo 4.1, 4. Seja F =  1 2 3 4 x3        x4   x1   x2 . al´ınea 5. Notemos que os elementos de F s˜ao os vectores de R4 da forma    x3 −x1 − x2 + x3 Assim, qualquer vector de F pode escrever-se na forma       1 0 0  0   1   0       x1   0  + x2  0  + x3  1  . −1 −1 1 Conclui-se que os vectores   1 0  0   1     0  ,  0 −1 −1    0   0   ,     1  1  geram o subespa¸co F . Note-se que um subespa¸co F pode ter (e em geral tem) v´arios conjuntos geradores. Defini¸c˜ ao 4.4 Sendo A ∈ Mm×n (R), o espa¸ co das colunas de A ´e o subem spa¸co de R gerado pelas n colunas de A. Nota¸c˜ ao: C(A). T O espa¸co das linhas de A ´e R(A) = C(A ), isto ´e, o espa¸co gerado pelas linhas de A consideradas como vectores de Rn .   1 0 Exemplo 4.3 Seja A =  2 1 . Ent˜ao −1 3     1 0   e C(A) = L  2  ,  1    −1 3 ½· R(A) = L 1 0 ¸ · ¸ · ¸¾ 2 −1 , , = R2 . 1 3 O subespa¸co C(A) desempenha um papel importante no estudo dos sistemas de equa¸co˜es lineares, como se pode ver no Teorema seguinte. Teorema 4.3 O sistema Ax = b ´e poss´ıvel se e s´o se b ∈ C(A). 74 Demonstra¸c˜ ao. Basta observar que, sendo v1 , . . . , vn as colunas de A e x = T [x1 . . . xn ] , se tem, pelo Teorema 1.4, Ax = x1 v1 + . . . + xn vn . Isto quer dizer que a existˆencia de x tal que Ax = b ´e equivalente `a possibilidade de escrever b como combina¸c˜ao linear de v1 , . . . , vn , isto ´e, ´e equivalente a b ∈ C(A). Exerc´ıcios 1. (a) Dˆe exemplos que mostrem que, em geral, a reuni˜ao de dois subespa¸cos de Rn n˜ao ´e um subespa¸co. (b) Mostre que, de facto, a reuni˜ao de dois subespa¸cos de Rn s´o ´e um subespa¸co se um deles contiver o outro. 2. Mostre que L{v1 , . . . , vk } ´e o “menor”subespa¸co de Rn que cont´em os vectores v1 , . . . , vk , isto ´e, se G for um subespa¸co de Rn que cont´em v1 , . . . , vk , ent˜ao necessariamente L{v1 , . . . , vk } ⊆ G. 3. Neste exerc´ıcio apresenta-se o conceito de subespa¸co gerado por um conjunto, n˜ao necessariamente finito, de vectores. Seja S um subconjunto qualquer de Rn . Designe-se por L(S) o conjunto de todas as poss´ıveis combina¸c˜oes lineares de vectores de S. (a) Mostre que L(S) ´e um subespa¸co de Rn . ( L(S) denomina-se o subespa¸ co gerado por S.) (b) Prove que L(S) ´e o “menor”subespa¸co de Rn que cont´em S. Isto ´e, se F for um subespa¸co de Rn que cont´em S, ent˜ao necessariamente L(S) ⊆ F . 4. Sejam Am×n e Bn×p duas matrizes quaisquer. Prove que o espa¸co das colunas de AB est´a contido no de A. 4.2 Dependˆ encia e independˆ encia linear No exemplo 4.2, al´ınea 3, vimos uma situa¸ca˜o em que se podia retirar um vector a um conjunto gerador de um subespa¸co e ainda obter um conjunto gerador do mesmo subespa¸co. Em que condi¸c˜oes ´e que isto pode acontecer? O nosso objectivo seguinte, com vista a definir o conceito de dimens˜ao, ´e esclarecer esta quest˜ao: dado um subespa¸co F de Rn , pretendemos encontrar um conjunto gerador de F com t˜ao poucos elementos quanto poss´ıvel. Neste contexto, tem interesse o resultado seguinte. Lema 4.1 Se os vectores v1 , . . . , vk gerarem F e se um deles for uma combina¸c˜ ao linear dos restantes k − 1, ent˜ao esses k − 1 vectores ainda geram F . 75 Demonstra¸c˜ ao. Suponhamos que ´e o vector vj que ´e uma combina¸ca˜o linear dos restantes k − 1. Tomemos um vector qualquer de F , digamos v. Como v1 , . . . , vk geram F , v ´e combina¸ca˜o linear deles. Nessa combina¸c˜ao linear, substitua-se vj pela ´ ´obvio que ent˜ao ficamos sua express˜ao como combina¸c˜ao linear dos outros k − 1. E com uma combina¸ca˜o linear s´o desses k − 1 vectores, e portanto v ´e igual a uma combina¸ca˜o linear s´o desses k − 1 vectores. Como v ´e um vector arbitr´ario em F , fica provado que esses k − 1 vectores geram F . Em complemento a este Lema, note-se que, se v1 , . . . , vk gerarem F e nenhum desses vectores for uma combina¸c˜ao linear dos restantes k − 1, ent˜ao se retirarmos algum dos vectores os restantes j´a n˜ao geram F . (Porquˆe?) Este Lema mostra que nos interessam conjuntos de vectores em que nenhum seja combina¸ca˜o linear dos restantes, o que conduz `a seguinte defini¸c˜ao. Defini¸c˜ ao 4.5 Sejam v1 , . . . , vk ∈ Rn (k ≥ 2). Os vectores v1 , . . . , vk dizemse linearmente independentes se nenhum deles for igual a uma combina¸c˜ ao linear dos outros k − 1. No caso de termos um s´o vector, v1 , diz-se que v1 ´e linearmente independente se for n˜ao nulo. Se v1 , . . . , vk n˜ ao forem linearmente independentes dizem-se linearmente dependentes. Observa¸ c˜ ao. A propriedade de uns tantos vectores serem linearmente independentes ´e uma propriedade do conjunto e n˜ao de cada vector individualmente. Por isso se diz `as vezes que ´e o conjunto que ´e linearmente independente. · ¸ · ¸ 1 0 1. Os vectores e s˜ao linearmente independentes, enquanto que os 3 1 · ¸ · ¸ 1 2 vectores e s˜ao linearmente dependentes. 3 6 Exemplo 4.4 2. Qualquer conjunto de vectores que contenha o vector nulo ´e linearmente dependente. 3. Qualquer conjunto de vectores em que um ´e m´ ultiplo de outro ´e linearmente dependente 4. Subconjuntos de conjuntos linearmente independentes s˜ao linearmente independentes, e portanto um conjunto que contenha um subconjunto linearmente dependente ´e tamb´em linearmente dependente. Usando a defini¸c˜ao, ´e em geral moroso verificar na pr´atica se um conjunto de vectores ´e ou n˜ao linearmente independente. O crit´erio que se segue facilita-nos essa tarefa. 76 Teorema 4.4 (Crit´erio de independˆencia linear.) Os vectores v1 , . . . , vk s˜ ao linearmente independentes se e s´o se for imposs´ıvel escrever o vector nulo como combina¸c˜ ao linear de v1 , . . . , vk , excepto da forma trivial (isto ´e, com todos os coeficientes iguais a 0). Demonstra¸c˜ ao. Vamos provar ambas as implica¸co˜es por redu¸c˜ao ao absurdo. Condi¸c˜ao necess´aria: suponhamos que v1 , . . . , vk s˜ao linearmente independentes e que ´e poss´ıvel escrever o vector nulo como combina¸ca˜o linear de v1 , . . . , vk de forma n˜ao trivial, digamos α1 v1 + · · · + αk vk = 0 com os n´ umeros α1 , . . . , αk n˜ao todos nulos. Seja por exemplo αj 6= 0. Ent˜ao vem vj = − α1 αj−1 αj+1 αk v1 − · · · − vj−1 − vj+1 − · · · − vk αj αj αj αj e v1 , . . . , vk seriam linearmente dependentes, contra o que supusemos. Condi¸c˜ao suficiente: suponhamos que ´e imposs´ıvel escrever o vector nulo como combina¸ca˜o linear de v1 , . . . , vk , excepto da forma trivial, e que esses vectores s˜ao linearmente dependentes. Ent˜ao pelo menos um deles, digamos vj , ´e igual a uma combina¸ca˜o linear dos outros k − 1: vj = β1 v1 + · · · + βj−1 vj−1 + βj+1 vj+1 + · · · + βk vk . Mas ent˜ao tem-se β1 v1 + · · · + βj−1 vj−1 − 1.vj + βj+1 vj+1 + · · · + βk vk = 0 e conseguimos escrever o vector nulo como combina¸c˜ao linear de v1 , . . . , vk com pelo menos um coeficiente n˜ao nulo, contra o que supusemos.       1 0 −3 Exemplo 4.5 Considerem-se os vectores  2 ,  1  e  −5  de R3 , onde β ´e um parˆametro 1 1 β real. Para estudar a dependˆencia ou independˆencia linear destes vectores, determinam-se os n´ umeros α1 , α2 , α3 que verificam a igualdade vectorial         1 0 −3 0 (∗) α1  2  + α2  1  + α3  −5  =  0  . 1 1 β 0 Para tal, basta-nos resolver o sistema  1 A= 2 1 homog´eneo Ax = 0, onde    0 −3 α1 1 −5  e x =  α2  . 1 β α3   1 0 −3 1 . Segue-se Usando a elimina¸c˜ao de Gauss, obtemos de A a matriz em escada U =  0 1 0 0 β+2 que, se β + 2 6= 0, o sistema Ax = 0 ´e poss´ıvel e determinado. Assim, neste caso, α1 , α2 e α3 satisfazem a igualdade (∗) se e s´o se α1 = 0, α2 = 0 e α3 = 0. Conclu´ımos que, se β 6= −2, os vectores s˜ao linearmente independentes. No caso de β + 2 = 0, o sistema Ax = 0 ser´a poss´ıvel indeterminado. Existem portanto muitos valores de α1 , α2 , α3 para os quais (∗) se verifica. Assim, se β = −2, os trˆes vectores s˜ao linearmente dependentes. 77 Corol´ ario 4.1 Designemos por A a matriz cujas colunas s˜ao v1 , . . . , vk . Ent˜ao os vectores v1 , . . . , vk s˜ao linearmente independentes se e s´o se o sistema Ax = 0 for determinado. Demonstra¸c˜ ao. De novo basta observar que, pelo Teorema 1.4, se tem Ax = x1 v1 + . . . + xn vn . Corol´ ario 4.2 Em Rn n˜ ao pode existir um conjunto linearmente independente com mais de n vectores. Demonstra¸c˜ ao. Esta afirma¸ca˜o segue imediatamente do Corol´ario anterior, porque, conforme vimos no Teorema 2.4, um sistema homog´eneo cuja matriz tem mais colunas do que linhas ´e indeterminado. Exerc´ıcios £ ¤T £ ¤T a1 a2 a3 a4 a5 b1 b2 b3 b4 b5 1. Dados os vectores u = , v = , w = £ ¤T £ ¤T 0 5 0 c1 c2 c3 c4 c5 de R , considerem-se os vectores u = a1 a2 a3 , v = £ ¤T £ ¤T 0 3 b1 b2 b3 , w = c1 c2 c3 de R . Mostre que: (a) Se u0 , v 0 , w0 s˜ao linearmente independentes, ent˜ao u, v, w tamb´em o s˜ao. (b) Se u, v, w s˜ao linearmente dependentes, ent˜ao u0 , v 0 , w0 tamb´em o s˜ao. £ ¤T (c) Generalize os resultados das duas al´ıneas anteriores para s vectores u1 = a11 a21 . . . an1 , £ ¤T £ ¤T n 0 u2 = a12 a22 . . . an2 , . . . , us = a1s a2s . . . ans ∈ R e u1 = £ £ ¤T ¤T £ ¤T 0 0 a11 a21 . . . ar1 , u2 = a12 a22 . . . ar2 , . . . , us = a1s a2s . . . ars ∈ Rr , onde r < n. 2. Mostre que a dependˆencia ou independˆencia de um conjunto de vectores n˜ao se altera se: (a) somarmos a um dos vectores do conjunto um m´ ultiplo de outro vector do conjunto; (b) multiplicarmos um dos vectores do conjunto por um n´ umero diferente de zero. Mostre ainda que, ap´os cada uma destas opera¸c˜oes, o subespa¸co gerado pelo conjunto continua a ser o mesmo. 78 4.3 Base e dimens˜ ao Como se viu na sec¸ca˜o anterior, dado um subespa¸co F de Rn , os conjuntos geradores de F com menor n´ umero de elementos s˜ao for¸cosamente constitu´ıdos por vectores linearmente independentes. Defini¸c˜ ao 4.6 Seja F um subespa¸co de Rn . Um conjunto de vectores de F que: • gerem F • sejam linearmente independentes diz-se uma base de F . Observa¸ c˜ ao. Ao indicar os vectores de uma base de um subespa¸co, interessa tamb´em a ordem pela qual eles aparecem. Dever´ıamos para esse efeito usar uma nota¸ca˜o do tipo (v1 , . . . , vk ). Para n˜ao sobrecarregar a exposi¸c˜ao, falaremos de uma base simplesmente como um conjunto, e usaremos a nota¸ca˜o {v1 , . . . , vk }. Mas o leitor deve ter em considera¸c˜ao que uma base ´e sempre um conjunto ordenado. Exemplo 4.6 simples de uma base do pr´oprio Rn ´e o conjunto      0 0   1   0             ,  0  , ... ,  0  .   ..   ..    .   .  0 0 1 1. O exemplo mais  1  0   0   ..  . A esta base chama-se base can´ onica de Rn . 2. Em R2 e em R3 uma recta passando pela origem tem como base um qualquer vector n˜ao nulo que lhe perten¸ca. Em R3 um plano passando pela origem tem como base quaisquer dois vectores seus linearmente independentes. · 1 3 ¸ · ¸ · ¸ 0 2 2 e formam uma base de R . O mesmo sucede com os vectores 1 5 3. Os vectores · ¸ 7 e . Consegue indicar outras bases de R2 ? 9 4. Uma base do subespa¸co de R4 referido no exemplo 4.1, al´ınea 5 ´e constitu´ıda pelos vectores       1 0 0  0   1   0    ,   ,  .  0   0   1  −1 −1 1 79 Em R2 (e analogamente em R3 ) a base can´onica subjaz ao sistema de eixos vulgar. O conceito de base pretende generalizar a no¸c˜ao de “sistema de eixos”, ou referencial, para um subespa¸co qualquer. Teorema 4.5 Seja {v1 , . . . , vk } uma base de um subespa¸co F . Ent˜ao, qualquer vector v ∈ F se escreve de modo u ´nico como combina¸c˜ ao linear de v1 , . . . , vk . (Aos coeficientes desta combina¸c˜ ao linear chama-se componentes ou coordenadas de v relativamente `a base {v1 , . . . , vk }.) Demonstra¸c˜ ao. Seja v = α1 v1 + · · · + αk vk e tamb´em v = β1 v1 + · · · + βk vk . Ent˜ao (α1 − β1 )v1 + · · · + (αk − βk )vk = 0 . Assim, se n˜ao se tivesse αi = βi , i = 1, . . . , k, os vectores v1 , . . . , vk n˜ao seriam linearmente independentes. Dado um subespa¸co F de Rn , se conhecermos uma base de F , qualquer vector de F fica determinado pela indica¸c˜ao das suas coordenadas relativamente a essa base.    Exemplo 4.7 1. As coordenadas do vector   a1 , a2 , . . . , an . a1 a2 .. .     relativamente `a base can´onica de Rn s˜ao  an · ¸ ½· ¸ · ¸¾ x1 1 0 2. As coordenadas do vector relativamente `a base , de R2 s˜ao x1 e x2 −3x1 , x2 3 1 uma vez que · ¸ · ¸ · ¸ x1 1 0 = x1 + (x2 − 3x1 ) . x2 3 1 Estamos agora em condi¸c˜oes de definir o conceito de dimens˜ao de um subespa¸co. Come¸camos com um importante resultado preparat´orio. Teorema 4.6 Seja F um subespa¸co de Rn . Sejam v1 , . . . , vp vectores de F que geram F e sejam w1 , . . . , wq vectores de F linearmente independentes. Ent˜ao tem-se, necessariamente, p ≥ q. Por outras palavras, num subespa¸co, um conjunto gerador nunca pode ter menos elementos do que um conjunto linearmente independente. 80 Demonstra¸c˜ ao. Como v1 , . . . , vp geram F , cada um dos wj , por pertencer a F , escreve-se como combina¸c˜ao linear de v1 , . . . , vp : wj = α1j v1 + · · · + αpj vp , j = 1, . . . , q . Designemos por A a matriz cujos elementos s˜ao os coeficientes de todas estas combina¸co˜es lineares: A = [αij ]p×q . Suponhamos que p < q. Ent˜ao a matriz A tem mais colunas do que linhas e, portanto, o sistema homog´eneo Ax = 0 ´e indeterminado. Seja [β1 . . . βq ]T uma solu¸ca˜o n˜ao nula desse sistema, isto ´e, tem-se A[β1 . . . βq ]T = 0, ou seja αi1 β1 + · · · + αiq βq = 0 , i = 1, . . . , p. Vamos ver a que ´e igual a combina¸ca˜o linear β1 w1 + · · · + βq wq , substituindo cada wj pela sua express˜ao como combina¸c˜ao linear de v1 , . . . , vp : ! à p ! à p X X αi1 vi + · · · + βq αiq vi β1 w1 + · · · + βq wq = β1 à q i=1 ! à q i=1 ! X X = α1j βj v1 + · · · + αpj βj vp j=1 j=1 = 0v1 + · · · + 0vp = 0 . Mas os n´ umeros β1 , . . . , βq n˜ao s˜ao todos iguais a zero, e portanto cheg´amos a uma contradi¸ca˜o com a hip´otese de os vectores w1 , . . . , wq serem linearmente independentes. Logo, n˜ao pode ter-se p < q. Corol´ ario 4.3 Se uma base de um subespa¸co F for constitu´ıda por k vectores, todas s˜ao. Demonstra¸c˜ ao. O resultado ´e consequˆencia imediata do Teorema 4.6. Defini¸c˜ ao 4.7 Seja F um subespa¸co de Rn . Se uma base de F (e portanto todas) tiver k elementos, dizemos que F tem dimens˜ ao k, e escrevemos dim F = k. Se F = {0}, pomos por defini¸c˜ ao dim F = 0. Exemplo 4.8 1. Tem-se dim Rn = n. 2. Em R2 as rectas passando pela origem tˆem dimens˜ao 1. 3. Em R3 as rectas passando pela origem tˆem dimens˜ao 1. 4. Em R3 os planos passando pela origem tˆem dimens˜ao 2. 81 5. O subespa¸co de R4 referido no exemplo 4.1, al´ınea 5 tem dimens˜ao 3. Suponhamos que dim F = k, com k > 0. Ent˜ao ´e ´obvio (pelo teorema do in´ıcio desta sec¸c˜ao) que: • k ´e o n´ umero m´aximo de elementos que pode ter um conjunto linearmente independente de vectores de F ; • k ´e o n´ umero m´ınimo de elementos que pode ter um conjunto gerador de F . O nosso pr´oximo objectivo ´e obter processos de constru¸ca˜o de bases de subespa¸cos dados. Teorema 4.7 Sejam v1 , . . . , vq vectores linearmente independentes. Se um vector w n˜ao pertencer a L{v1 , . . . , vq } ent˜ ao os vectores v1 , . . . , vq , w s˜ ao tamb´em linearmente independentes. Demonstra¸c˜ ao. Olhemos para uma combina¸ca˜o linear dos vectores v1 , . . . , vq , w que seja igual ao vector nulo: α1 v1 + · · · + αq vq + αq+1 w = 0 . Se αq+1 fosse diferente de 0, ter-se-ia w=− α1 αq v1 − · · · − vq αq+1 αq+1 e ent˜ao w ∈ L{v1 , . . . , vq }, contra a hip´otese. Logo, αq+1 = 0. Mas ent˜ao ficamos com α1 v1 + · · · + αq vq = 0 . Como v1 , . . . , vq s˜ao linearmente independentes, isto implica que tamb´em α1 = 0, . . . , αq = 0, e fica provado que ´e imposs´ıvel escrever o vector nulo como combina¸ca˜o linear dos vectores v1 , . . . , vq , w a n˜ao ser com todos os coeficientes iguais a zero. Teorema 4.8 Suponhamos que dim F = k, com k > 0. Ent˜ao: 1. Dado um conjunto de vectores linearmente independentes de F , se esse conjunto n˜ao for uma base de F ´e poss´ıvel acrescentar-lhe vectores de F de forma a obter uma base de F . 2. Qualquer conjunto de k vectores de F linearmente independentes ´e uma base de F . 3. Dado um conjunto finito de vectores que gerem F , se esse conjunto n˜ao for uma base de F ´e poss´ıvel retirar-lhe vectores de forma a obter uma base de F . 4. Qualquer conjunto de k vectores de F que gerem F ´e uma base de F . Demonstra¸c˜ ao. 82 1. Sejam v1 , . . . , vq vectores de F linearmente independentes. Se eles n˜ao constitu´ırem uma base de F ´e porque n˜ao geram F , ou seja existe em F pelo menos um vector, chamemos-lhe w, que n˜ao ´e combina¸ca˜o linear de v1 , . . . , vq , isto ´e, que n˜ao pertence a L{v1 , . . . , vq }. Pelo Teorema 4.7, os vectores v1 , . . . , vq , w s˜ao linearmente independentes. Agora repetimos o racioc´ınio para estes q + 1 vectores. Este processo n˜ao pode continuar indefinidamente, porque em F n˜ao pode haver conjuntos de vectores linearmente independentes com mais de k elementos. Isto ´e, em determinada altura o conjunto de vectores que obtemos gera necessariamente F , ou seja ´e uma base de F . 2. Exerc´ıcio. 3. Sejam v1 , . . . , vp esses vectores que geram F . Se eles n˜ao constituem uma base de F ´e porque n˜ao s˜ao linearmente independentes, ou seja pelo menos um deles ´e combina¸ca˜o linear dos restantes p − 1. Pelo Lema 4.1, esses outros p − 1 ainda geram F . Agora repetimos o racioc´ınio para estes p − 1 vectores. Este processo n˜ao pode continuar indefinidamente, porque em F n˜ao pode haver conjuntos geradores com menos de k elementos. Isto ´e, em determinada altura os vectores que obtemos s˜ao necessariamente linearmente independentes, ou seja constituem uma base de F . 4. Exerc´ıcio. Note-se que, como se deduz da demonstra¸c˜ao do ponto 3 deste teorema, a dimens˜ao de F ´e o n´ umero m´aximo de vectores linearmente independentes existentes num conjunto gerador de F .     1 0 Exemplo 4.9 1. Os vectores de R3 v1 =  2  e v2 =  −1  s˜ao linearmente independentes. 0 1 3 Pretende-se determinar uma base de R que os contenha. Para tal, basta determinar v3 ∈ R3 tal que v3 ∈ / L{v1 , v2 }. Tem-se    α1   L{v1 , v2 } =  2α1 −α2  : α1 , α2 ∈ R .   α2   1 Tome-se, por exemplo, v3 =  0 . Obviamente v3 ∈ / L{v1 , v2 } e, portanto, v1 , v2 e v3 s˜ao 1 linearmente independentes. A condi¸c˜ao 2 do u ´ltimo Teorema garante-nos que, ent˜ao, {v1 , v2 , v3 } ´e uma base de R3 , uma vez que j´a sabemos que dim R3 = 3. 2. Considerem-se os vectores de R2 · ¸ · ¸ · ¸ · ¸ 1 5 2 0 v1 = , v2 = , v3 = , v4 = . 2 7 4 3 Eles geram R2 (verifique), mas n˜ao s˜ao linearmente independentes. Como obter a partir deles uma base de R2 ? Observe-se que v3 = 2v1 + 0v2 + 0v4 . Pelo Lema 4.1, tem-se L{v1 , v2 , v3 , v4 } = 83 L{v1 , v2 , v4 }. Por outro lado, v1 , v2 , v4 , sendo trˆes vectores de um subespa¸co de dimens˜ao 2, n˜ao podem ser linearmente independentes. De facto, tem-se v2 = 5v1 − v4 . Pelo Lema 4.1, tem-se L{v1 , v2 , v4 } = L{v1 , v4 }. Assim, os vectores v1 , v4 geram R2 . Como dim R2 = 2, dois vectores geradores formam uma base. Logo, {v1 , v4 } ´e uma base de R2 contida no conjunto gerador inicialmente dado. Corol´ ario 4.4 Seja F um subespa¸co de Rn . Ent˜ao: 1. F tem dimens˜ao. 2. dim F ≤ n. 3. A dimens˜ao de F ´e n se e s´o se F = Rn . Demonstra¸c˜ ao. 1. Se F = {0}, tem-se dim F = 0. Se em F existir pelo menos um vector n˜ao nulo, ent˜ao ele ´e linearmente independente e podemos, de modo semelhante `a demonstra¸ca˜o do ponto 1 do teorema anterior, acrescentar-lhe vectores at´e obter uma base de F (notando que em F , por estar contido em Rn , n˜ao pode haver mais de n vectores linearmente independentes). O n´ umero de elementos desta base ´e a dimens˜ao de F . 2. Se existisse um subespa¸co de Rn com dimens˜ao superior a n, seria poss´ıvel encontrar em Rn um conjunto de vectores linearmente independentes com mais de n elementos, o que ´e imposs´ıvel. 3. Se F = Rn ent˜ao dim F = n, claro. Reciprocamente, suponhamos que dim F = n. Se F n˜ao fosse igual a Rn , existiria em Rn pelo menos um vector n˜ao pertencente a F . Juntando esse vector a uma base de F obter-se-ia (pelo Teorema 4.7) um conjunto de n + 1 vectores linearmente independentes, o que n˜ao pode ser, porque eles pertencem a Rn . 4.4 Mudan¸ca de base Uma quest˜ao que surge naturalmente ´e a seguinte: dado um subespa¸co de Rn , e duas bases desse subespa¸co, como se relacionam as coordenadas de um mesmo vector do subespa¸co relativamente `as duas bases? Nesta sec¸ca˜o vamos analisar o assunto. 84 Defini¸c˜ ao 4.8 Seja F um subespa¸co de Rn e sejam {u1 , . . . , uk } e {v1 , . . . , vk } duas bases de F . Chama-se matriz de mudan¸ ca da base {u1 , . . . , uk } para a base {v1 , . . . , vk } a matriz k × k cuja coluna j cont´em as coordenadas de vj relativamente `a base {u1 , . . . , uk }, para j = 1, . . . , k. Isto ´e, se tivermos v1 = s11 u1 + s21 u2 + . . . + sk1 uk v2 = s12 u1 + s22 u2 + . . . + sk2 uk ··· vk = s1k u1 + s2k u2 + . . . + skk uk ent˜ao a matriz de mudan¸ca da base {u1 , . . . , uk } para a base {v1 , . . . , vk } ´e a matriz   s11 s12 . . . s1k  s21 s22 . . . s2k     .. .. . . ..  .  . . .  . sk1 sk2 . . . skk Com este conceito estamos em condi¸c˜oes de responder `a pergunta colocada no in´ıcio da sec¸ca˜o. Teorema 4.9 Seja F um subespa¸co de Rn . Sejam {u1 , . . . , uk } e {v1 , . . . , vk } duas bases de F e seja S a matriz de mudan¸ca da primeira para a segunda. Se x for a coluna das coordenadas de um vector v ∈ F relativamente `a base {u1 , . . . , uk } e y a coluna das coordenadas de v relativamente `a base {v1 , . . . , vk }, ent˜ao x = Sy. Demonstra¸c˜ ao. Por defini¸c˜ao da matriz S = [sij ] tem-se k X vj = sij ui , j = 1, . . . , k . Suponhamos ent˜ao que v = k X i=1 αi ui = i=1 k X i=1 α i ui = k X j=1 βj à k X k X j=1 sij ui βj vj . Tem-se que ! = à k k X X i=1 i=1 ! sij βj ui . j=1 Como as coordenadas de v relativamente `a base {u1 , . . . , uk } s˜ao u ´nicas, segue-se que k X αi = sij βj , i = 1, . . . , k j=1 isto ´e, x = Sy. Exemplo 4.10 Considerem-se as bases de R2 ½ · ¸ · ¸¾ 1 0 u1 = , u2 = e 3 1 85 ½ · ¸ · ¸¾ 2 7 v1 = , v2 = . 5 9 Temos · 2 5 ¸ · =2 1 3 ¸ · − 0 1 ¸ · e 7 9 ¸ · =7 1 3 ¸ · − 12 0 1 ¸ . · ¸ 2 7 A matriz de mudan¸ca da base {u1 , u2 } para a base {v1 , v2 } ´e ent˜ao S = . −1 −12 · ¸ 1 Dado o vector v = , tem-se v = u1 + 8u2 . Pelo Teorema 4.9, as coordenadas de v relati11 · ¸ 1 vamente `a base {v1 , v2 } s˜ao os elementos da coluna y que satisfaz Sy = . Resolvendo este 8 · ¸ 4 sistema, obt´em-se y = . Logo, tem-se v = 4v1 − v2 . −1 Teorema 4.10 Seja F um subespa¸co de Rn . Sejam {u1 , . . . , uk }, {v1 , . . . , vk } e {w1 , . . . , wk } trˆes bases de F . Sejam S a matriz de mudan¸ca da primeira para a segunda e R a matriz de mudan¸ca da segunda para a terceira. Ent˜ao a matriz de mudan¸ca da primeira base para a terceira ´e SR. Demonstra¸c˜ ao. Designemos por M a matriz de mudan¸ca da base {u1 , . . . , uk } para a base {w1 , . . . , wk }. Seja v um vector arbitr´ario de F . Sejam x a coluna das coordenadas de v relativamente `a base {u1 , . . . , uk }, y a coluna das coordenadas de v relativamente `a base {v1 , . . . , vk } e z a coluna das coordenadas de v relativamente `a base {w1 , . . . , wk }. Ent˜ao, pelo Teorema anterior, tem-se x = Sy e y = Rz, de onde x = SRz. Por outro lado, tamb´em pelo Teorema anterior, tem-se x = M z. Segue-se que M z = SRz. Como z ´e a coluna das coordenadas de um vector arbitr´ario de F , z ´e um vector arbitr´ario de Rk . Se M z = SRz para qualquer vector z ∈ Rk , tem de ser M = SR (recorde o exerc´ıcio 14 da sec¸c˜ao 1.2). Corol´ ario 4.5 Uma matriz de mudan¸ca de base ´e invert´ıvel. Al´em disso, a inversa da matriz de mudan¸ca de uma base para outra ´e a matriz de mudan¸ca da segunda base para a primeira. Demonstra¸c˜ ao. Isto ´e consequˆencia imediata do Teorema e do facto ´obvio de que a matriz de mudan¸ca de uma base para si pr´opria ´e a matriz identidade. 4.5 Caracter´ıstica e nulidade de uma matriz Nesta sec¸ca˜o vamos determinar a dimens˜ao de trˆes subespa¸cos, anteriormente definidos, que est˜ao associados a qualquer matriz A: o espa¸co nulo N (A), o espa¸co das colunas C(A) e o espa¸co das linhas R(A). Veremos que estas trˆes dimens˜oes est˜ao relacionadas, e o estudo que faremos permitir-nos-´a sistematizar os conhecimentos sobre sistemas de equa¸co˜es adquiridos no cap´ıtulo 2. Seja A uma matriz m × n. O espa¸co nulo de A — que, recordemos, ´e o conjunto das solu¸c˜oes do sistema homog´eneo Ax = 0 — ´e um subespa¸co de Rn . 86 Defini¸c˜ ao 4.9 Seja A uma matriz. A dimens˜ao de N (A) chama-se nulidade de A, e denota-se por nul(A). O resultado seguinte relaciona a nulidade com a caracter´ıstica de uma matriz. Teorema 4.11 Seja A m × n. Ent˜ao, tem-se nul(A) = n − car(A), sendo uma base de N (A) obtida pelo algoritmo B descrito na sec¸c˜ ao 2.2. Demonstra¸c˜ ao. Ponhamos car(A) = r. O algoritmo B produz n − r colunas n × 1 que geram N (A). Resta mostrar que essas n − r colunas s˜ao linearmente independentes. Recorde-se que cada uma delas ´e obtida dando o valor 1 a uma das inc´ognitas livres e 0 `as restantes e resolvendo o sistema (com r equa¸c˜oes) resultante. Ent˜ao, em cada uma das posi¸co˜es correspondentes `as inc´ognitas livres, uma dessas colunas tem o respectivo elemento igual a 1 e as outras tˆem esse elemento igual a ´ ´obvio ent˜ao que nenhuma destas n − r colunas pode ser combina¸c˜ao linear das 0. E restantes n − r − 1, o que significa que elas s˜ao linearmente independentes.   1 2 0 −1 0 . Para determinar uma base de Exemplo 4.11 Considere-se a matriz A =  −1 −2 1 3 6 0 −3 N (A), come¸ca-se por se determinara matriz em escada  U , aplicando o m´etodo de elimina¸c˜ao de 1 2 0 −1 Gauss a A. A matriz U obtida ´e  0 0 1 −1 . Tem-se car(A) = 2, e portanto podemos 0 0 0 0 j´a afirmar que nul(A) = 2. Vamos agora determinar uma base de N (A). No sistema U x = 0 temos duas inc´ognitas livres, x2 e x4 .Dando a x2 o valor 1 e a x4 o valor 0, resolve-se o sistema −2  1  resultante. A solu¸c˜ao ´e o vector   0 . Agora atribui-se a x2 o valor 0 e a x4 o valor 1. O sistema 0       1 −2 1       0    0  1       resultante tem solu¸c˜ao  . O teorema anterior diz-nos que  , ´e uma base de 1 0   1       1 0 1 N (A). Teorema 4.12 Seja A uma matriz m × n. Designando por U a matriz em escada obtida de A no final da parte descendente do processo de elimina¸c˜ ao de Gauss, temse dim C(A) = dim C(U ) = car(A), e uma base de C(A) ´e constitu´ıda pelas colunas de A correspondentes `as colunas de U que contˆem os pivots. Demonstra¸c˜ ao. Como C(A) ´e, por defini¸ca˜o, o subespa¸co (de Rm ) gerado pelas colunas de A, j´a temos um conjunto gerador de C(A). Se as n colunas de A forem linearmente independentes, constituem uma base de C(A). Se n˜ao forem, para encontrar uma base de C(A) ser´a preciso excluir colunas que sejam combina¸co˜es lineares das outras. 87 Temos portanto de estudar a dependˆencia ou independˆencia das colunas de A. Denotemos por v1 , . . . , vn as colunas de A e por u1 , . . . , un as de U . Recorde-se que, sendo x = [x1 . . . xn ]T , se tem, pelo Teorema 1.4, Ax = x1 v1 + . . . + xn vn e analogamente U x = x 1 u1 + . . . + x n un . Ora os sistemas Ax = 0 e U x = 0 s˜ao equivalentes, isto ´e, tˆem as mesmas solu¸c˜oes. Logo, as dependˆencias que existem entre as colunas de A s˜ao exactamente as mesmas que as que existem entre as colunas de U . Portanto, o n´ umero m´aximo de colunas de A linearmente independentes ´e igual ao n´ umero m´aximo de colunas de U linearmente independentes. Segue-se que dim C(A) = dim C(U ). Ponhamos car(A) = r. Note-se que as r colunas de U onde aparecem os pivots s˜ao linearmente independentes, porque o sistema homog´eneo com a matriz m × r constitu´ıda por essas r colunas ´e determinado (uma vez que o n´ umero de pivots ´e igual ao n´ umero de colunas). Observemos em seguida que n˜ao pode haver em U mais do que r colunas independentes, porque o sistema homog´eneo correspondente a um conjunto de colunas de U com mais de r colunas ´e necessariamente indeterminado (tem mais colunas do que pivots). Ent˜ao dim C(U ) = r, e uma base de C(U ) ´e constitu´ıda pelas colunas de U em que aparecem os pivots. Logo, tamb´em dim C(A) = r, e uma base de C(A) ´e constitu´ıda pelas r colunas de A correspondentes `as colunas de U em que aparecem os pivots (porque essas colunas de A s˜ao linearmente independentes e n˜ao pode haver em A mais do que r colunas independentes — se houvesse, o mesmo aconteceria em U ). A defini¸ca˜o de caracter´ıstica de uma matriz vista no Cap´ıtulo 2 ´e “computacional”, uma vez que a determina¸c˜ao da caracter´ıstica exige a aplica¸c˜ao `a matriz do m´etodo de elimina¸ca˜o de Gauss. Este u ´ltimo teorema fornece uma descri¸ca˜o “geom´etrica”da caracter´ıstica, como dimens˜ao de um subespa¸co associado `a matriz. Outra observa¸c˜ao a respeito deste Teorema ´e que ele fornece um algoritmo para a determina¸c˜ao de uma base de qualquer subespa¸co de que se conhe¸ca um conjunto gerador: considera-se a matriz A cujas colunas s˜ao os vectores geradores do subespa¸co e determina-se uma base de C(A). A dimens˜ao do subespa¸co ´e igual `a caracter´ıstica de A.   2 0 −1 −2 1 0  a matriz considerada no exemplo anterior. Sabe6 0 −3   1 2 0 −1 mos que a matriz em escada U obtida de A ´e U =  0 0 1 −1 . Como as colunas de U que 0 0 0 0 contˆem pivots s˜ao a primeira e a terceira, conclui-se que uma base de C(A) ´e constitu´ıda pelas     1 0   primeira e terceira colunas de A, isto ´e,  −1  ,  1  ´e uma base de C(A).   3 0 1 Exemplo 4.12 Seja A =  −1 3 88 Este exemplo ilustra o facto de que, em geral, C(A) 6= C(U ). Basta notar que, para as matrizes U e A consideradas, qualquer vector de C(U ) tem a u ´ltima componente nula, enquanto que tal n˜ao se verifica para muitos dos vectores de C(A). Vamos agora determinar a dimens˜ao e uma base de R(A), o espa¸co das linhas de A. Pelo exerc´ıcio 2, a aplica¸ca˜o `as linhas de A de opera¸co˜es elementares n˜ao altera o subespa¸co gerado pelas linhas. Portanto temos R(A) = R(U ). Determinemos agora uma base de R(U ). A u ´ltima linha n˜ao nula de U ´e linearmente independente. A linha que a antecede n˜ao ´e combina¸ca˜o linear dela, uma vez que tem um elemento n˜ao nulo (na posi¸c˜ao do pivot) onde ela tem um zero. Ent˜ao estas duas linhas s˜ao linearmente independentes. Por um racioc´ınio an´alogo vemos que a antepen´ ultima linha n˜ao nula n˜ao pertence ao subespa¸co gerado pelas outras duas (onde esta tem um pivot as outras duas tˆem zeros). Logo as trˆes u ´ltimas linhas n˜ao nulas de U s˜ao linearmente independentes. Prosseguindo deste modo, conclu´ımos que as linhas n˜ao nulas de U formam uma base de R(U ). Podemos ent˜ao resumir as nossas conclus˜oes da seguinte forma: Teorema 4.13 Uma base de R(A) ´e constituida pelas linhas n˜ao nulas de U . Em consequˆencia, dim R(A) = car(A).   −1 0  usada nos dois exemplos −3   1 2 0 −1 anteriores. J´a foi visto que a matriz em escada U obtida de A ´e U =  0 0 1 −1 . As suas 0 0 0 0     1 0       2   0  ,  . linhas n˜ao nulas s˜ao a primeira e a segunda. Logo, uma base de R(A) ´e   0   1       −1 −1 1 Exemplo 4.13 Considere-se de novo a matriz A =  −1 3 2 0 −2 1 6 0 Dos dois u ´ltimos teoremas retira-se uma consequˆencia surpreendente: Corol´ ario 4.6 Sendo A uma matriz arbitr´aria, tem-se car(A) = car(AT ) . Uma consequˆencia interessante dos resultados anteriores ´e uma descri¸ca˜o da caracter´ıstica de uma matriz em termos de determinantes de submatrizes. Defini¸c˜ ao 4.10 O determinante de uma submatriz quadrada de ordem k de uma matriz A diz-se um menor de ordem k de A. Teorema 4.14 Sendo A uma matriz, tem-se que car(A) ´e igual `a ordem do maior menor de A que ´e 6= 0. 89 Demonstra¸c˜ ao. Designemos a caracter´ıstica de A por r. O que pretendemos mostrar ´e que todos os menores de A de ordem > r s˜ao nulos, e que existe pelo menos um menor r × r de A que ´e 6= 0. A primeira observa¸c˜ao ´e a seguinte. Suponhamos que A tem um menor k×k que ´e 6= 0. Ent˜ao a submatriz correspondente ´e n˜ao-singular (isto ´e, tem caracter´ıstica k), e portanto as suas colunas s˜ao linearmente independentes. Segue-se que as colunas de A que contˆem essa submatriz s˜ao tamb´em linearmente independentes (porque se houvesse uma dependˆencia entre elas, essa dependˆencia existiria tamb´em entre as colunas da submatriz) e, portanto, car(A) ≥ k. Desta observa¸c˜ao conclu´ımos que qualquer menor de A de ordem > r ´e nulo. Mostremos agora que existe pelo menos um menor r ×r de A que ´e 6= 0. Como A tem caracter´ıstica r, ´e poss´ıvel encontrar em A r colunas linearmente independentes. Designemos por B a submatriz de A constitu´ıda por essas r colunas. Claramente tem-se car(B) = r. Ent˜ao ´e poss´ıvel encontrar em B r linhas linearmente independentes. Designemos por C a submatriz de B constitu´ıda por essas r linhas. C ´e uma matriz r × r que tem caracter´ıstica r, logo ´e n˜ao-singular, e portanto tem determinante 6= 0. Encontr´amos assim um menor r × r de A que ´e 6= 0. Exerc´ıcios 1. Sendo A m × n e B p × m, prove que: (a) car(BA) ≤ car(B); (b) nul(A) ≤ nul(BA); (c) car(BA) ≤ car(A) (por dois processos: (i) usando 2.; (ii) usando 1). 2. Sendo A ∈ Mm×n (R), prove que: (a) nul(AT A) = nul(A); (b) car(AT A) = car(AAT ) = car(A). 3. Seja A m × n qualquer. Sejam B m × m e C n × n invert´ıveis. Prove que: (a) car(BA) = car(A); (b) car(AC) = car(A); (c) car(BAC) = car(A). · 4. Seja A uma matriz particionada em blocos da seguinte forma: A = B 0 0 C ¸ . Prove que car(A) = car(B) + car(C). 5. Sendo A n × n, diga se ´e verdadeira ou falsa a seguinte afirma¸c˜ao: “Se as colunas de A s˜ao linearmente independentes, o mesmo acontece `as colunas de A2 ”. 6. (a) Sendo u m × 1 e v n × 1, prove que a matriz uv T tem caracter´ıstica 0 ou 1 (excepto se u = 0 ou v = 0, casos em que uv T = 0). 90 (b) Reciprocamente, prove que, se uma matriz A m×n tem caracter´ıstica 1, ent˜ao existem vectores u m × 1 e v n × 1 tais que A = uv T . 4.6 Soma e soma directa de subespa¸cos J´a vimos que a intersec¸ca˜o de dois subespa¸cos de Rn ´e ainda um subespa¸co de R . Vamos agora ver mais um processo de construir um subespa¸co a partir de outros dois. n Defini¸c˜ ao 4.11 Sejam F e G subespa¸cos de Rn . Chama-se soma dos subespa¸cos F e G ao conjunto F + G = {v + w : v ∈ F e w ∈ G}. Teorema 4.15 F + G ´e ainda um subespa¸co de Rn . Demonstra¸c˜ ao. Como 0 ∈ F e 0 ∈ G , 0 = 0 + 0 ∈ F + G e, portanto, F + G ´e n˜ao vazio. Sejam u e v vectores arbitr´arios de F + G. Ent˜ao, por defini¸ca˜o de F + G, existem vectores u1 , v1 ∈ F e u2 , v2 ∈ G tais que u = u1 + u2 e v = v1 + v2 . Logo u + v = (u1 + u2 ) + (v1 + v2 ) = (u1 + v1 ) + (u2 + v2 ) ∈ F + G , uma vez que, pelo facto de F e G serem subespa¸cos, se tem u1 + v1 ∈ F e u2 + v2 ∈ G. De modo an´alogo se vˆe que αu ∈ F + G , para qualquer u ∈ F + G e qualquer α ∈ R. Exemplo 4.14 Sejam F e G dois subespa¸cos de R2 representados geometricamente por duas rectas diferentes passando pela origem. Verifique geometricamente que qualquer vector de R2 ´e soma de um vector de F com um vector de G. Logo, tem-se F + G = R2 . O resultado seguinte cont´em uma f´ormula para a dimens˜ao do subespa¸co soma de dois subespa¸cos. Teorema 4.16 Sejam F e G subespa¸cos de Rn . Ent˜ao, tem-se dim(F + G) = dim F + dim G − dim(F ∩ G). Demonstra¸c˜ ao. Ponhamos dim F = k, dim G = m e dim(F ∩G) = s. Pretendemos ent˜ao mostrar que dim(F + G) = k + m − s. Seja {u1 , . . . , us } uma base de F ∩ G (se F ∩ G = {0}, o subespa¸co F ∩ G n˜ao tem bases, e tomamos aqui, simplesmente, o conjunto vazio). Consideremos uma base de F que contenha este conjunto, digamos B1 = {u1 , . . . , us , vs+1 , . . . , vk }. Consideramos tamb´em uma base de G que contenha o mesmo conjunto, digamos B2 = {u1 , . . . , us , ws+1 , . . . , wm }. Mostremos que o conjunto B = {u1 , . . . , us , vs+1 , . . . , vk , ws+1 , . . . , wm } 91 ´e uma base de F + G. Comecemos por provar que B gera F + G. Dado um vector arbitr´ario v ∈ F +G, existem vectores u ∈ F, w ∈ G tais que v = u+w. Como B1 e B2 geram F e G, respectivamente, u ´e combina¸ca˜o linear dos vectores de B1 e w ´e combina¸ca˜o linear dos vectores de B2 : v = α1 u1 + . . . + αs us + αs+1 vs+1 + . . . + αk vk , e w = β1 u1 + . . . + βs us + βs+1 ws+1 + . . . + βm wm . Logo v = u + w = (α1 + β1 )u1 + . . . + (αs + βs )us + αs+1 vs+1 + . . . + αk vk + βs+1 ws+1 + . . . + βm wm , ´e combina¸ca˜o linear dos vectores de B. Como v ´e um vector arbitr´ario de F + G, conclui-se que B ´e um conjunto gerador de F + G. Provemos agora que os vectores de B s˜ao linearmente independentes. Escreva-se o vector nulo como combina¸ca˜o linear destes vectores: γ1 u1 + . . . + γs us + γs+1 vs+1 + . . . + γk vk + δs+1 ws+1 + . . . + δm wm = 0. Ent˜ao tem-se γ1 u1 + . . . + γs us + γs+1 vs+1 + . . . + γk vk = −δs+1 ws+1 − . . . − δm wm . Como B1 ´e base de F , vem γ1 u1 + . . . + γs us + γs+1 vs+1 + . . . + γk vk ∈ F, e, por B2 ser base de G, tem-se −δs+1 ws+1 − . . . − δm wm ∈ G. Da igualdade anterior, conclui-se ent˜ao que −δs+1 ws+1 − . . . − δm wm ∈ F ∩ G. Assim este vector escreve-se como combina¸ca˜o linear dos vectores da base de F ∩ G : −δs+1 ws+1 − . . . − δm wm = η1 u1 + ηs us ou seja, η1 u1 + ηs us + δs+1 ws+1 + . . . + δm wm = 0. Mas os vectores envolvidos nesta combina¸c˜ao linear s˜ao linearmente independentes (pois s˜ao os vectores de B2 ). Logo os escalares η1 , . . . , ηs , δs+1 , . . . , δm tˆem que ser todos nulos. (Se F ∩ G = {0}, o segundo membro da pen´ ultima igualdade ´e nulo e conclui-se imediatamente que os escalares δs+1 , . . . , δm s˜ao todos nulos.) Voltando atr´as vemos que temos ent˜ao γ1 u1 + . . . + γs us + γs+1 vs+1 + . . . + γk vk = 0 , o que implica γ1 = . . . = γs = γs+1 = . . . = γk = 0, pelo facto de u1 , . . . , us , vs+1 , . . . , vk serem linearmente independentes. Conclu´ımos assim que B ´e base de F + G. Um caso interessante de soma de dois subespa¸cos F e G ´e aquele em que F ∩G = {0}. Defini¸c˜ ao 4.12 Sejam F e G subespa¸cos de Rn . Se se tiver F ∩ G = {0}, diz-se que a soma de F com G ´e directa e escreve-se F ⊕G em vez de F +G. 92 Exemplo 4.15 R2 ´e soma directa de dois subespa¸cos F e G representados geometricamente por duas rectas diferentes passando pela origem. duas rectas F e G como as indicadas no exemplo anterior. Exemplo 4.16 Em R4 considere os subespa¸cos    x1       x1    F =  : x , x ∈ R e 1 2 x2        x2    x1       −x1    G=  : x , x ∈ R . 1 2 x2        −x2 Tem-se F ∩ G = {0}. Logo, a soma de F com G ´e directa. Mostremos que F ⊕ G = R4 . Claro que  F ⊕ G⊆ R4 . Provemos agora que R4 ⊆ F ⊕ G. Para tal, consideremos   arbitr´ario   um 0vector y1 x1 x1  y2   x1   −x01  4 0 0      y=  y3  de R . Existir˜ao valores x1 , x2 , x1 , x2 ∈ R tais que y =  x2 + x02 ? Resolvendo y4 −x02 x2 o sistema de equa¸c˜oes lineares resultante desta igualdade, conclui-se que os valores x1 = 12 y1 + 12 y2 , x2 = 21 y3 + 12 y4 , x01 = 12 y1 − 12 y2 e x02 = 12 y3 − 12 y4 satisfazem a condi¸c˜ao requerida. Logo, y ∈ F ⊕ G e R4 ⊆ F ⊕ G. Corol´ ario 4.7 Sejam F e G subespa¸cos de Rn satisfazendo F ∩ G = {0}. Ent˜ao dim(F ⊕ G) = dim F + dim G, e uma base de F ⊕ G obt´em-se reunindo uma base de F com uma base de G. Demonstra¸c˜ ao. Estas afirma¸c˜oes s˜ao consequˆencias imediatas do Teorema 4.17 e da sua demonstra¸ca˜o. Defini¸c˜ ao 4.13 Sejam F e G subespa¸cos de Rn . Se F ⊕G = Rn , dizemos que F e G s˜ao subespa¸cos complementares ou que F ´e um complemento de G (e vice-versa). Teorema 4.17 Seja F um subespa¸co arbitr´ario de Rn . Ent˜ao, existe pelo menos um subespa¸co complementar de F em Rn . Demonstra¸c˜ ao. Seja {u1 , . . . , us } uma base de F. Estenda-se esta base a uma base {u1 , . . . , us , vs+1 , . . . , vn } de Rn . Seja G o subespa¸co gerado por {vs+1 , . . . , vn }. Deixa-se como exerc´ıcio ao leitor mostrar que G ´e um subespa¸co complementar de F em Rn . Exerc´ıcios 93 1. Sendo F e G subespa¸cos de Rn , prove que F + G = L(F ∪ G). 2. Sejam F, G e H subespa¸cos de Rn . (a) Prove que, se F = G ⊕ H, ent˜ao todo o vector de F se escreve de modo u ´nico como soma de um vector de G com um vector de H. (b) Reciprocamente, prove que, se todo o vector de F se escreve de modo u ´nico como soma de um vector de G com um vector de H, ent˜ao F = G ⊕ H. Transforma¸c˜ oes lineares em Rn 4.7 Entre Rn e Rm podem evidentemente definir-se muitas fun¸co˜es. Nesta sec¸ca˜o vamos referir um tipo especial, mas importante, dessas fun¸c˜oes. Trata-se das aplica¸co˜es que “respeitam”as opera¸c˜oes essenciais para o estudo que temos vindo a fazer da estrutura de Rn : a adi¸c˜ao de elementos de Rn e a multiplica¸c˜ao de n´ umeros por n elementos de R . Defini¸c˜ ao 4.14 Sejam n e m n´ umeros naturais. Uma aplica¸c˜ ao T : Rn −→ m R satisfazendo as condi¸c˜ oes 1. T (u + v) = T (u) + T (v), 2. T (αv) = αT (v), para quaisquer u, v ∈ Rn e α ∈ R, diz-se uma transforma¸ c˜ ao linear. ¸ ¸¶ · µ· x1 x2 ´e linear. 1. A aplica¸c˜ao T : R2 → R2 definida por T = x2 x1 ¸ ¸ · · y1 x1 , ∈ R2 e α ∈ R, tem-se De facto, quaisquer que sejam y2 x2 µ· ¸ · ¸¶ µ· ¸¶ · ¸ x1 y1 x1 + y1 x2 + y2 T + =T = = x2 y2 x2 + y2 x1 + y1 · ¸ · ¸ µ· ¸¶ µ· ¸¶ x2 y2 x1 y1 + =T +T , x1 y1 x2 y2 Exemplo 4.17 e µ · ¸¶ µ· ¸¶ · ¸ · ¸ µ· ¸¶ x1 αx1 αx2 x2 x1 T α =T = =α = αT . x2 αx2 αx1 x1 x2 2. A aplica¸c˜ao T : R → R definida por T (x) = x2 n˜ao ´e linear. Basta notar que, dados x, y ∈ R n˜ao nulos, n˜ao se verifica (x + y)2 = x2 + y 2 , isto ´e, T (x + y) 6= T (x) + T (y). Por exemplo, T (2 + 3) = 25, enquanto que T (2) + T (3) = 22 + 32 = 13. 3. A aplica¸c˜ao T : Rn −→ Rm definida por T (v) = 0, para todo o v ∈ Rn , ´e uma transforma¸c˜ao linear, chamada transforma¸ c˜ ao nula. 4. A aplica¸c˜ao T : Rn −→ Rn definida por T (v) = v, para todo o v ∈ Rn , ´e uma transforma¸c˜ao linear, chamada transforma¸ c˜ ao identidade. 94 5. Sendo ρ um n´ umero real fixo, a aplica¸c˜ao T : Rn −→ Rn definida por T (v) = ρv, para todo n o v ∈ R , ´e uma transforma¸c˜ao linear, chamada homotetia de raz˜ ao ρ. 6. A aplica¸c˜ao de R2 em R2 definida geometricamente como a rota¸c˜ao de um ˆangulo θ em torno da origem ´e uma transforma¸c˜ao linear. 7. Seja A uma matriz real m × n. A aplica¸c˜ao T : Rn −→ Rm definida por T (x) = Ax ´e uma transforma¸c˜ao linear. No exemplo 4.17, al´ınea 7, vimos que toda a matriz A ∈ Mm×n (R) permite definir uma transforma¸c˜ao linear de Rn em Rm por x 7→ Ax. Vamos agora ver que entre Rn e Rm n˜ao h´a outras transforma¸co˜es lineares sen˜ao estas. Teorema 4.18 Dada uma transforma¸c˜ ao linear T : Rn −→ Rm , existe uma e uma s´o matriz A ∈ Mm×n (R) tal que T (x) = Ax, para todo o x ∈ Rn . Demonstra¸c˜ ao. Considere-se a base can´onica de Rn , {e1 , . . . , en }, e defina-se A como sendo a matriz m × n cuja coluna j ´e T (ej ), j = 1, . . . , n. Dado um vector £ ¤T arbitr´ario x = α1 . . . αn em Rn , como x = α1 e1 + . . . αn en , pela linearidade de T podemos concluir que T (x) = α1 T (e1 ) + . . . + αn T (en ). Mas, sendo as colunas de A os vectores T (e1 ), . . . , T (en ), esta ´e tamb´em a express˜ao que se obt´em para Ax. Logo T (x) = Ax. Para provarmos a unicidade de A, note-se que Aej ´e a coluna j de A. Assim, se B for uma outra matriz satisfazendo T (x) = Bx para qualquer x em Rn , ter-se-´a que a coluna j de A ´e Aej = T (ej ) = Bej , que ´e a coluna j de B, para j = 1, . . . , n. Logo A = B. Note-se que classific´amos assim todas as poss´ıveis transforma¸c˜oes lineares de Rn em Rm . Exemplo 4.18 Para achar a matriz correspondente `a rota¸c˜ao T de um ˆangulo θ em torno da origem em R2 basta, conforme visto na demonstra¸c˜ao do teorema, achar as imagens dos vectores da base can´onica. Geometricamente, ´e f´acil ver que · ¸ · ¸ cos θ −sen θ T (e1 ) = e T (e2 ) = , sen θ cos θ · ¸ cos θ −sen θ pelo que a matriz correspondente a esta transforma¸c˜ao linear ´e A = . Segue-se sen θ cos θ que µ· ¸¶ · ¸· ¸ · ¸ x1 cos θ −sen θ x1 cos θ. x1 − sen θ. x2 T = = . x2 sen θ cos θ x2 sen θ. x1 + cos θ. x2 95 Defini¸c˜ ao 4.15 Seja T : Rn −→ Rm uma transforma¸c˜ ao linear. O conjunto {x ∈ Rn : T (x) = 0} chama-se n´ ucleo de T e denota-se por Ker(T ). O conjunto {T (x) : x ∈ Rn }, isto ´e, o contradom´ınio de T , chama-se imagem de T e denota-se por Im(T ). Teorema 4.19 Seja T : Rn −→ Rm uma transforma¸c˜ ao linear, e seja A a matriz n m × n tal que T (x) = Ax para todo o x ∈ R . Ent˜ao tem-se Ker(T ) = N (A) e Im(T ) = C(A). Demonstra¸c˜ ao. A primeira afirma¸c˜ao ´e ´obvia, por defini¸c˜ao de espa¸co nulo de uma matriz: Ker(T ) = {x ∈ Rn : T (x) = 0} = {x ∈ Rn : Ax = 0} = N (A). Quanto `a segunda, recordamos que C(A), o espa¸co das colunas de A, ´e o subespa¸co de Rm gerado pelas colunas de A, isto ´e, o conjunto de todas as poss´ıveis combina¸co˜es lineares dessas colunas. Designemos tais colunas por c1 , . . . , cn . Recorde-se £ ¤T que, sendo x = α1 . . . αn , se tem α1 c1 + . . . + αn cn = Ax. Vem ent˜ao Im(T ) = = = = {T (x) : x ∈ Rn } {Ax : x ∈ Rn } {α1 c1 + . . . + αn cn : α1 , ..., αn ∈ R} C(A). Voltemos ao Teorema 4.18. O resultado ´e interessante em si, mas a matriz associada a uma transforma¸ca˜o linear pode n˜ao tornar imediatamente aparente toda a informa¸c˜ao sobre o efeito da transforma¸c˜ao. Vejamos um exemplo. Considere-se a transforma¸c˜ao linear T : · R2 ¸ −→ · R2 ¸ x1 3x1 +x2 7−→ x2 x1 +3x2 A matriz que · ¸ lhe est´a associada — conforme a demonstra¸c˜ao do Teorema 4.18 — 3 1 ´e A = . Nem esta matriz nem a express˜ao de T nos d˜ao muita informa¸c˜ao 1 3 sobre um poss´ıvel “significado · ¸geom´etrico”de · ¸ T . Consideremos, no entanto, as im1 1 ´ agens dos vectores v1 = e v2 = . Tem-se T (v1 ) = 2v1 e T (v2 ) = 4v2 . E −1 1 agora muito simples de descrever o efeito de T em qualquer vector u desde que se conhe¸cam as suas coordenadas na base {v1 , v2 }: se u = αv1 + βv2 tem-se T (u) = 2αv1 + 4βv2 . Isto sugere uma extens˜ao da observa¸ca˜o feita no Teorema 4.18 sobre a representa¸ca˜o de transforma¸co˜es lineares por matrizes. 96 Defini¸c˜ ao 4.16 Seja T : Rn → Rm uma transforma¸c˜ ao linear. Fixemos uma base (v1 , . . . , vn ) em Rn e uma base (w1 , . . . , wm ) em Rm . (Usamos parˆenteses em vez de chavetas para sublinhar a ordem dos vectores nas bases.) Seja A = [aij ] a matriz m × n cuja coluna j cont´em as coordenadas de T (vj ) relativamente `a base (w1 , . . . , wm ), isto ´e, tem-se T (vj ) = a1j w1 + · · · + amj wm , j = 1, . . . , n . Dizemos que A representa a transforma¸c˜ ao linear T relativamente ` as bases (v1 , . . . , vn ) e (w1 , . . . , wm ). De acordo com esta defini¸ca˜o, a matriz que figura no Teorema 4.18 ´e a matriz que representa T relativamente `as bases can´onicas em Rn e Rm . Exemplo 4.19 A matriz que representa a transforma¸c˜ao linear 2 R2 · R ¸ −→ · ¸ x1 3x1 +x2 7−→ x2 x1 +3x2 · ¸ · ¸ 1 1 2 relativamente `a base de R constitu´ıda pelos vectores v1 = e v2 = (tanto no dom´ınio −1 1 · ¸ 2 0 como no conjunto de chegada) ´e A = . 0 4 T : Note-se que, se conhecermos a matriz que representa uma transforma¸ca˜o linear relativamente a duas bases, conhecemos a transforma¸c˜ao linear. Porquˆe? No quadro referido na Defini¸ca˜o 4.16, dado um vector x ∈ Rn , ele escreve-se na forma n n X X x= αj vj . Daqui, usando a linearidade de T , tira-se T (x) = αj T (vj ), e os j=1 j=1 vectores T (vj ) obtˆem-se como combina¸c˜oes lineares de w1 , . . . , wm usando a matriz A. Logo, conhecemos a imagem por T de qualquer vector de Rn . Duas quest˜oes se colocam relativamente a este conceito de representa¸ca˜o de uma transforma¸ca˜o linear por matrizes: 1) Dada uma transforma¸c˜ao linear, como encontrar bases relativamente `as quais ela seja representada por uma matriz simples, que torne razoavelmente claro o seu efeito “geom´etrico”? 2) Como se relacionam entre si duas matrizes que representam a mesma transforma¸ca˜o linear relativamente a dois pares de bases diferentes? Quanto `a primeira pergunta, voltaremos a ela no cap´ıtulo sobre vectores pr´oprios e valores pr´oprios. Relativamente `a segunda pergunta, vamos, para simplificar — e porque adiante voltaremos a este assunto com toda a generalidade —, considerar apenas uma im97 portante situa¸c˜ao especial: o caso em que m = n e em que tomamos a mesma base tanto no dom´ınio como no conjunto de chegada. Teorema 4.20 Seja T : Rn −→ Rn uma transforma¸c˜ ao linear. Sejam (u1 , . . . , un ) n e (v1 , . . . , vn ) duas bases de R . Seja B a matriz que representa T relativamente `a base (u1 , . . . , un ) tanto no dom´ınio como no conjunto de chegada. Seja C a matriz que representa a mesma transforma¸c˜ ao T , mas relativamente `a base (v1 , . . . , vn ), tamb´em tanto no dom´ınio como no conjunto de chegada. Ent˜ao tem-se C = S −1 BS, onde S ´e a matriz de mudan¸ca da base (u1 , . . . , un ) para a base (v1 , . . . , vn ). Demonstra¸c˜ ao. Seja M a matriz de mudan¸ca da base can´onica para a base (u1 , . . . , un ), ou seja, simplesmente, a matriz cujas colunas s˜ao u1 , . . . , un . Analogamente, seja N a matriz de mudan¸ca da base can´onica para a base (v1 , . . . , vn ), ou seja, a matriz cujas colunas s˜ao v1 , . . . , vn . n X n αj uj , e ponhamos Consideremos um vector x ∈ R arbitr´ario. Seja x = j=1 T y = [α1 . . . αn ] , isto ´e, y ´e a coluna das coordenadas de x relativamente `a base (u1 , . . . , un ). Ent˜ao tem-se x = M y. Como vimos no Teorema 4.16, tem-se T (x) = Ax, onde A ´e a matriz que representa T relativamente `a base can´onica. Assim, tem-se, por um lado, T (x) = Ax = AM y. Por outro lado, por T ser linear e por B representar T em rela¸c˜ao `a base (u1 , . . . , un ), tem-se à n ! n n n X X X X T (x) = αj T (uj ) = bij ui αj = (coluna j de M B) αj = M By . j=1 j=1 i=1 j=1 Logo, temos AM y = M By. Como y ´e uma coluna arbitr´aria, conclu´ımos que AM = M B, ou seja B = M −1 AM . Repetindo o racioc´ınio com a base (v1 , . . . , vn ), chegamos a C = N −1 AN . Tem-se ent˜ao C = N −1 AN = N −1 M BM −1 N = S −1 BS onde S = M −1 N . Mas se M ´e a matriz de mudan¸ca da base can´onica para a base (u1 , . . . , un ) e N ´e a matriz de mudan¸ca da base can´onica para a base (v1 , . . . , vn ), temos que M −1 N ´e a matriz de mudan¸ca da base (u1 , . . . , un ) para a base (v1 , . . . , vn ), pelos resultados finais da sec¸ca˜o 4.4 (sobre matrizes de mudan¸ca de base). Exerc´ıcios 1. Identifique as matrizes correspondentes `as transforma¸c˜oes lineares vistas no exemplo 4.17, al´ıneas 1, 3, 4 e 5. 98 2. Determine o n´ ucleo e a imagem das transforma¸c˜oes lineares vistas no exemplo 4.17. 3. Seja T : Rn −→ Rm uma transforma¸c˜ao linear. Prove que o n´ ucleo e a imagem de T s˜ao subespa¸cos, respectivamente, de Rn e Rm . 4. Seja T : Rn −→ Rm uma transforma¸c˜ao linear. Prove que T ´e injectiva se e s´o se o n´ ucleo de T s´o contiver a origem. 4.8 Nota sobre espa¸cos vectoriais abstractos Neste cap´ıtulo estud´amos, no contexto muito concreto de Rn , no¸c˜oes como as de subespa¸co, conjunto gerador de um subespa¸co, conjunto linearmente independente, etc. O leitor notar´a que, na apresenta¸c˜ao destes conceitos e dos teoremas sobre eles, s´o utiliz´amos a adi¸ca˜o de vectores e a multiplica¸ca˜o de n´ umeros por vectores. Esta observa¸c˜ao sugere que se podiam ter definido e estudado conceitos completamente an´alogos em qualquer conjunto cujos elementos se possam somar e multiplicar por n´ umeros, exigindo-se apenas que essas duas opera¸c˜oes satisfa¸cam algumas propriedades naturais. Um exemplo natural ´e o conjunto F[a, b] de todas as fun¸co˜es definidas num intervalo [a, b] e com valores reais. Tais fun¸co˜es podem somar-se e multiplicar-se por n´ umeros da forma habitual: (f + g)(t) := f (t) + g(t) , (αf )(t) := α.f (t) , t ∈ [a, b] , obtendo-se ainda fun¸co˜es em F[a, b]. Podemos ent˜ao agora definir subespa¸cos deste conjunto, conjuntos de fun¸c˜oes gerando um subespa¸co, fun¸c˜oes linearmente independentes, etc., exactamente da mesma maneira como o fizemos em Rn . Por exemplo: o conjunto de todas as fun¸co˜es cont´ınuas em [a, b], que se designa por C[a, b], ´e um subespa¸co de F[a, b]; as fun¸co˜es 1, t, t2 , . . . , tn geram o subespa¸co das fun¸co˜es polinomiais de grau ≤ n; as fun¸co˜es cos e sin s˜ao linearmente independentes, etc. Conjuntos com este tipo de estrutura (possibilidade de somar os seus elementos e de os multiplicar por n´ umeros) chamam-se espa¸ cos vectoriais, e ser˜ao estudados ´ um estudo muito u mais adiante, no cap´ıtulo 8. E ´til: a simplicidade e naturalidade da estrutura torna-a muito frequente na Matem´atica e nas suas aplica¸co˜es. A seguir, no cap´ıtulo 9, estudaremos transforma¸ c˜ oes lineares entre espa¸cos vectoriais, definidas de forma an´aloga `a da defini¸c˜ao 4.14. Estas transforma¸co˜es ocorrem tamb´em com naturalidade. Um exemplo simples ´e o seguinte: se designarmos por C 1 [a, b] o espa¸co das fun¸co˜es com derivada cont´ınua em [a, b], a aplica¸ca˜o T : C 1 [a, b] −→ C[a, b] f 7−→ f0 isto ´e, a aplica¸ca˜o que transforma cada fun¸ca˜o na sua derivada, ´e uma transforma¸c˜ao linear, porque T (f + g) = T (f ) + T (g) e T (αf ) = αT (f ) , para quaisquer f, g ∈ C 1 [a, b], α ∈ R. 99 5 ˆ Angulos e distˆ ancias em Rn O presente cap´ıtulo pode ser considerado como uma extens˜ao do anterior, em que estud´amos a estrutura linear de Rn . O que vamos estudar agora ´e a “geometria m´etrica”de Rn . Tamb´em neste contexto estaremos a generalizar conhecimentos sobre o caso plano. Veremos como em Rn , usando a no¸c˜ao alg´ebrica de produto interno, se podem medir “distˆancias”e “ˆangulos”. Em seguida veremos como isso se pode utilizar para resolver o problema da melhor aproxima¸c˜ao de um elemento de Rn por elementos de um subespa¸co dado. Este estudo tem importantes aplica¸co˜es pr´aticas, nomeadamente na quest˜ao do melhor ajuste de rectas (ou outras linhas, ou superf´ıcies) a conjuntos de dados dispersos. No cap´ıtulo 10 voltaremos a este tipo de quest˜oes num contexto mais geral e abstracto. 5.1 Sistemas imposs´ıveis No cap´ıtulo 2, estud´amos com pormenor um algoritmo para resolver qualquer sistema de equa¸c˜oes lineares. No caso de um dado sistema ser imposs´ıvel, o algoritmo, obviamente, p´ara com a resposta de que n˜ao h´a solu¸c˜oes. Mas nas aplica¸c˜oes da Matem´atica ´e frequente ser-se conduzido a sistemas imposs´ıveis, e a resposta de que “n˜ao h´a solu¸c˜ao”´e muitas vezes insuficiente. Que se poder´a fazer com um sistema que n˜ao tem nenhuma solu¸c˜ao? Curiosamente, podem obter-se vectores que, n˜ao sendo solu¸co˜es do sistema — porque este n˜ao as tem —, s˜ao solu¸co˜es de um sistema “pr´oximo”, e portanto u ´teis no contexto do problema original. A ideia come¸ca na reinterpreta¸ca˜o “geom´etrica”da impossibilidade do sistema. Como vimos no cap´ıtulo anterior, um sistema Ax = b ´e poss´ıvel se e s´o se b ∈ C(A), onde, recorde-se, C(A) designa o espa¸ co das colunas de A (isto ´e, o subespa¸co gerado pelas colunas de A). Segue-se que a impossibilidade de Ax = b ´e equivalente `a afirma¸ca˜o de que b∈ / C(A). Vejamos um exemplo. Consideremos o sistema ½ x1 + 2x2 = 2 , 5x1 + 10x2 = 3 · ¸ 1 2 que ´e imposs´ıvel. A matriz do sistema ´e A = e o segundo membro ´e 5 10 · ¸ 2 b= . O espa¸co das colunas de A ´e 3 ½· ¸ · ¸¾ ½· ¸¾ 1 2 1 L , =L . 5 10 5 100 ´ ´obvio que b ∈ E / C(A), o que est´a bem vis´ıvel na figura seguinte: ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ C(A) ¥¥ .b O que se faz neste tipo de situa¸ca˜o ´e procurar o elemento de C(A) mais pr´ oximo 0 0 de b, chamemos-lhe b , e depois resolver o sistema Ax = b , que ´e necessariamente poss´ıvel, pois b0 ∈ C(A). Olhando para a figura, ´e claro que b0 se obt´em projectando b perpendicularmente sobre a recta C(A): C(A) ¥¥ ¥ ¥ b ¥``. b ¥ ¥ ¥ ¥ ¥ ¥ ¥ 0 ¥ ¥ ¥ Resolvendo o sistema Ax = b0 obtemos, n˜ao solu¸c˜oes do sistema original (que n˜ao tem solu¸co˜es), mas solu¸co˜es de um sistema “pr´oximo”, e ´e com estas que “respondemos”`a quest˜ao original. O que vamos fazer ´e generalizar esta abordagem a sistemas imposs´ıveis quaisquer. Para isso, precisamos de dar um sentido, em Rn , a no¸c˜oes como “distˆancia”, “ˆangulo”, “perpendicularidade”. Como proceder? A chave est´a em olhar para R2 e ver que essas no¸c˜oes geom´etricas tˆem uma tradu¸ca˜o alg´ebrica simples. Em R2 , identificado da forma habitual com o conjunto dos pontos· de¸um plano x em que se fixou um sistema de eixos, a distˆancia de um elemento x = 1 `a origem x2 101 tem uma express˜ao simples em termos de x1 e x2 : · x1 x . = x2 0 ¸ ­ ­ p ­ ­ x21 + x22 ­ ­ ­ p A x21 + x22 chama-se norma ou comprimento de x, e a nota¸ca˜o usada ´e kxk. A no¸ca˜o de norma pode por sua vez ser usada para obter uma express˜ao simples para a distˆ ancia entre dois quaisquer elementos de R2 . Observemos a figura seguinte: x. H ­ H H H .y ­ © ­ ©© © ­ x−y . © ­ ©© HH ­ © HH ­© H© 0 Recordando a regra do paralelogramo, conclu´ımos que a distˆancia entre x e y ´e dada pela distˆancia de x − y `a origem, ou seja por kx − yk . · x1 x2 ¸ A seguir olhamos para o ˆangulo θ entre dois elementos n˜ao nulos x = · ¸ y e y = 1 , entendido como o ˆangulo entre os segmentos que os unem `a origem. y2 N˜ao distinguimos aqui entre o ˆangulo e a sua medida, e n˜ao consideramos ˆangulos 102 orientados, j´a que na verdade s´o nos interessa o coseno do ˆangulo. x. 0 ­ y ­ ©. ­ © ­ ©© ­ θ ©© ­ ©© ­© © O “Teorema dos cosenos”aplicado ao triˆangulo de v´ertices 0, x e y afirma que kx − yk2 = kxk2 + kyk2 − 2kxk · kyk · cos θ (esta identidade ´e simples de obter projectando perpendicularmente x sobre o segmento de 0 para y e considerando os dois triˆangulos rectˆangulos resultantes). Notando que kx − yk2 = (x1 − y1 )2 + (x2 − y2 )2 , a igualdade anterior permite concluir que x1 y 1 + x2 y 2 cos θ = , kxk · kyk de onde se pode obter o valor de θ. ` quantidade que figura no numerador desta u A ´ltima frac¸ca˜o, x1 y1 +x2 y2 , chama-se produto interno (ou produto escalar) de x por y, e designa-se por hx, yi. Note-se que a norma se pode exprimir `a custa do produto interno: p kxk = hx, xi . Se x ∈ R2 for n˜ao nulo, e y for qualquer, ´e simples obter uma express˜ao para o elemento p que se obt´em projectando perpendicularmente y sobre a recta gerada por x. Observe-se a figura seguinte (outras posi¸co˜es de x e y conduziriam ao mesmo): .x ¢ ¢ ¢ ¢ p.¢ H ¢ H H H. ¢ ³y ³ ³ ¢ ³³ ¢ ³ ³ 0 Por um lado, p ´e da forma αx para certo α ∈ R. Por outro lado, designando por θ o ˆangulo entre x e y, tem-se kpk = kyk cos θ = 103 hx, yi kxk e este valor tem que ser igual a kαxk, que ´e igual a αkxk (porque no caso da figura α ´e positivo). Segue-se que hx, yi p= x. kxk2 0 7 Por · ¸exemplo, no caso do sistema de·h´a¸pouco, b ´e a projec¸c˜ao perpendicular de 2 1 b= sobre a recta gerada por u = . Usando a f´ormula obtida acima temos 3 5 · ¸ hu, bi 17 1 0 b = . u= kuk2 26 5 Racioc´ınios an´alogos podem fazer-se em R3 , identificado com o conjunto dos pontos do espa¸co usual em que se fixou umsistema  de trˆes eixos perpendiculares. x1 y1    Definindo o produto interno dos elementos x2 e y2  como o n´ umero x3 y3 hx, yi = x1 y1 + x2 y2 + x3 y3 , a distˆancia de x `a origem ´e dada pela sua norma q p kxk = x21 + x22 + x23 = hx, xi , a distˆancia entre x e y ´e kx − yk e o coseno do ˆangulo entre x e y (supondo-os n˜ao nulos) ´e hx, yi . kxk · kyk Obviamente, tanto em R2 como em R3 , a afirma¸c˜ao de que x e y (ou os segmentos que os unem `a origem) s˜ao perpendiculares ´e expressa por hx, yi = 0. 5.2 Produto interno em Rn Como vimos na sec¸ca˜o anterior, em R2 e R3 as no¸co˜es habituais de ˆangulo e distˆancia podem ser apresentadas `a custa do ¸ · ¸produto interno (ou produto · chamado y x umero escalar). O produto interno dos elementos 1 e 1 de R2 ´e o n´ y2 x2 x1 y1 + x2 y2 . 7 Tamb´em se diz “projec¸c˜ao ortogonal”. 104     x1 y1 3    Em R o produto interno dos elementos x2 e y2  ´e o n´ umero x3 y3 x1 y1 + x2 y2 + x3 y3 . O objectivo deste cap´ıtulo ´e definir um conceito an´alogo em Rn , para qualquer n ∈ N, e utiliz´a-lo para generalizar aquelas e outras no¸co˜es geom´etricas. Defini¸c˜ ao 5.1 (ou produto escalar) de dois vectores   produto  interno  O x1 y1     umero real de Rn , x =  ...  e y =  ... , ´e o n´ yn xn hx, yi = x1 y1 + · · · + xn yn . Uma outra forma de exprimir o produto interno dos vectores x e y de Rn ´e hx, yi = xT y (o que ´e o mesmo que y T x). Esta express˜ao concisa ´e u ´til em v´arios racioc´ınios 8 e ser´a frequentemente usada.    1 0  2   −2   Exemplo 5.1 Sendo x =   3 , y =  4 5 1 hx, yi = 13   3     e z =  7 , tem-se   3  2 e  hx, zi = 36 . A demonstra¸ca˜o das propriedades contidas no teorema seguinte ´e deixada como exerc´ıcio. Teorema 5.1 Para quaisquer x, x0 , y ∈ Rn , tem-se: 1. hx, yi = hy, xi ; 2. hx + x0 , yi = hx, yi + hx0 , yi (e analogamente para mais de duas parcelas) ; 3. Se α ∈ R, hαx, yi = αhx, yi ; 4. hx, xi ≥ 0 e, al´em disso, hx, xi = 0 ⇔ x = 0 ; 5. h0, yi = 0 ; 6. Se hx, yi = 0 para todo o y, ent˜ao x = 0 ; 7. Se hx, yi = hx0 , yi para todo o y, ent˜ao x = x0 . 8 Tamb´em ´e poss´ıvel definir produto interno em Cn . Nesse caso o produto interno ´e um n´ umero complexo cuja express˜ao ´e hx, yi = x1 y1 + · · · + xn yn = y ∗ x. O desenvolvimento da teoria nessa situa¸c˜ao ´e an´alogo ao de Rn . 105 Note-se que, conjugando a primeira destas propriedades com a segunda e a terceira, podemos concluir que hx, y + y 0 i = hx, yi + hx, y 0 i e hx, αyi = αhx, yi. ´ este conjunto de propriedades do produto interno que vamos usar no nosso E trabalho.9 ` custa do produto interno definem-se v´arios conceitos “geom´etricos”em Rn . A Defini¸c˜ ao 5.2 Sejam x e y vectores de Rn . 1. A norma ou comprimento de x ´e kxk = p hx, xi . 2. A distˆ ancia entre x e y ´e kx − yk . 3. x e y s˜ ao ortogonais (ou perpendiculares) se hx, yi = 0. Exemplo √ 5.2 Sendo x, y e z os vectores√do exemplo anterior, tem-se kxk = kyk = 21. A distˆancia entre x e y ´e mas y e z j´ a o s˜ao, pois hy, zi = 0. √ 39 e 34. Os vectores x e y n˜ao s˜ao ortogonais, Teorema 5.2 Para quaisquer x, y ∈ Rn , α ∈ R, tem-se: 1. Se x 6= 0, kxk > 0 ; 2. kx − yk = 0 =⇒ x = y ; 3. kαxk = |α| · kxk . Demonstra¸c˜ ao. Exerc´ıcio. O resultado seguinte vai permitir-nos definir ˆ angulo entre dois vectores n˜ao nulos quaisquer de Rn , generalizando a no¸c˜ao de R2 e R3 . Teorema 5.3 (Desigualdade de Cauchy-Schwarz.) Sejam x e y vectores quaisquer de Rn . Ent˜ao tem-se |hx, yi| ≤ kxkkyk havendo igualdade se e s´o se x e y forem linearmente dependentes. Demonstra¸c˜ ao. Se y for o vector nulo, o resultado ´e verdadeiro. Suponhamos ent˜ao que se tem y 6= 0. Como ambos os membros da desigualdade s˜ao n˜ao-negativos, basta provar a desigualdade entre os respectivos quadrados. Seja t um n´ umero real arbitr´ario. Para o vector x − ty tem-se hx − ty, x − tyi ≥ 0 9 No caso do produto interno em Cn , definido por hx, yi = y ∗ x, todas as propriedades referidas no Teorema 5.1 permanecem v´alidas sem altera¸c˜ao excepto a primeira, que ´e substitu´ıda por hx, yi = hy, xi. (Consequentemente, se α ∈ C, tem-se hx, αyi = αhx, yi.) 106 donde hx, xi − 2thx, yi + t2 hy, yi ≥ 0 . Como hy, yi 6= 0, no primeiro membro tem-se um polin´omio do 2o grau em t. Uma vez que ele ´e n˜ao-negativo qualquer que seja o valor de t, este polin´omio n˜ao pode ter duas ra´ızes reais distintas, e portanto o seu discriminante n˜ao pode ser positivo. Isto ´e, tem-se hx, yi2 − kxk2 kyk2 ≤ 0 o que prova a desigualdade. Vejamos agora o caso de igualdade. Analisando a demonstra¸ca˜o, vemos que h´a igualdade se e s´o se o discriminante do referido polin´omio do 2o grau for nulo. Isto significa que esse polin´omio tem uma raiz real, isto ´e, existe um valor de t ∈ R tal que hx − ty, x − tyi = 0 ou seja x = ty, o que ´e o mesmo que dizer que x e y s˜ao linearmente dependentes. Escrevendo o produto interno e as normas por extenso, o que a desigualdade de Cauchy-Schwarz diz ´e que, para x1 , . . . , xn , y1 , . . . , yn n´ umeros reais quaisquer, se tem (x1 y1 + · · · + xn yn )2 ≤ (x21 + · · · + x2n )(y12 + · · · + yn2 ) . Sendo x, y ∈ Rn n˜ao nulos, a desigualdade de Cauchy-Schwarz garante que o quociente hx, yi kxkkyk est´a entre −1 e 1, o que permite apresentar a defini¸ca˜o seguinte. Defini¸c˜ ao 5.3 Sendo x, y ∈ Rn n˜ ao nulos, o ˆ angulo entre x e y ´e o n´ umero (entre 0 e π) hx, yi . arccos kxkkyk Note-se que desta defini¸c˜ao decorre que, sendo θ o ˆangulo entre x e y, se tem hx, yi = kxkkyk cos θ . Em particular, se x e y tiverem norma 1, o produto interno de x por y ´e simplesmente o coseno do ˆangulo entre eles. Esta u ´ltima express˜ao para o produto interno tem uma caracter´ıstica interessante 2 em R e R3 . Atribuindo `as normas e ao coseno o seu significado geom´etrico habitual, vemos que o produto interno pode ser descrito sem recorrer `as coordenadas dos vectores x e y. E, de facto, ele ´e por vezes definido em R2 e R3 precisamente por esta express˜ao. 107   1 1  −1   0   Exemplo 5.3 Dados x =   1 ey= 0 −1 0  arccos   , o ˆangulo entre x e y ´e  1 π = , 2 3 uma vez que hx, yi = 1, kxk = 2 e kyk = 1. O Teorema seguinte generaliza um facto conhecido para triˆangulos em R2 e R3 : o comprimento de qualquer lado n˜ao excede a soma dos comprimentos dos outros dois. x .H kyk ­ HH HH ­ ©. x + y ­ kxk ©© © ­ ­ ©© ­ ©© kx + yk ­© © 0 H H H H .y Teorema 5.4 (Desigualdade triangular.) Quaisquer que sejam x, y ∈ Rn , tem-se kx + yk ≤ kxk + kyk havendo igualdade se e s´o se x = ty ou y = tx, com t ≥ 0. Demonstra¸c˜ ao. Tem-se kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi ≤ kxk2 + 2kxkkyk + kyk2 = (kxk + kyk)2 onde utiliz´amos a desigualdade de Cauchy-Schwarz. Como ambos os membros da desigualdade s˜ao n˜ao-negativos, segue-se o resultado desejado. O caso de igualdade ´e consequˆencia do caso de igualdade na desigualdade de Cauchy-Schwarz: a condi¸ca˜o suficiente ´e ´obvia, e quanto `a condi¸c˜ao necess´aria observamos que aqui temos hx, yi = kxkkyk, e portanto x e y s˜ao dependentes, ou seja x = ty ou y = tx, e o escalar t n˜ao pode ser negativo. Tamb´em o Teorema seguinte generaliza um facto bem conhecido da geometria elementar sobre triˆangulos rectˆangulos. 108 0. HHkyk HH kxk ¢ ³. y ³ ³ ¢ ³³ ¢ ³ kx − yk .³ ¢ x Teorema 5.5 (Teorema de Pit´ agoras) Se x e y, vectores de Rn , forem ortogonais tem-se kx − yk2 = kxk2 + kyk2 . Demonstra¸c˜ ao. Tem-se kx − yk2 = hx − y, x − yi = hx, xi − 2hx, yi + hy, yi = kxk2 + kyk2 uma vez que hx, yi = 0. Exerc´ıcios 1. O conceito de norma em Rn foi definido a partir do produto interno. Curiosamente, tamb´em ´e poss´ıvel obter o produto interno a partir da norma, utilizando a igualdade hx, yi = 12 (kx + yk2 − kxk2 − kyk2 ). Demonstre esta igualdade. 2. Mostre que uma matriz real n × n Q ´e ortogonal se e s´o se as suas colunas forem vectores de Rn ortonormados. 3. Mostre que uma matriz complexa n×n U ´e unit´aria se e s´o se as suas colunas forem vectores de Cn ortonormados (relativamente ao produto interno hx, yi = y ∗ x). 4. (a) Mostre que, se a matriz Q n×n for ortogonal, ent˜ao kQxk = kxk para todo o vector x n×1. (b) Mostre que, reciprocamente, se kQxk = kxk para todo o x, ent˜ao Q ´e ortogonal. Note-se que deste exerc´ıcio conclu´ımos que uma matriz n×n ´e ortogonal se e s´o se, quando multiplicada por vectores de Rn , n˜ao lhes altera a norma. 5. (a) Mostre que, se Q n×n for ortogonal, ent˜ao hQx, Qyi = hx, yi para quaisquer vectores n × 1 x e y. (Conclua que uma matriz n × n ortogonal n˜ao altera os ˆangulos entre vectores de Rn .) (b) Mostre que, reciprocamente, se hQx, Qyi = hx, yi para quaisquer x, y ∈ Rn , ent˜ao Q ´e ortogonal. 6. Enuncie e resolva os exerc´ıcios correspondentes aos dois anteriores para o caso do produto interno Cn . Para esse efeito, as matrizes ortogonais devem ser substitu´ıdas por matrizes unit´arias. 109 5.3 Projec¸c˜ ao ortogonal sobre um subespa¸co Nesta sec¸ca˜o vamos estudar o principal conceito deste cap´ıtulo, que ´e a projec¸c˜ao ortogonal sobre um subespa¸co. Come¸camos com uma no¸c˜ao simples, motivada pelo que atr´as vimos em R2 e R3 . Defini¸c˜ ao 5.4 Sejam x e y vectores de Rn , com x 6= 0. A projec¸c˜ ao ortogonal de y sobre x ´e o vector projx y = hx, yi x. kxk2    1 1  −1   0   Exemplo 5.4 Dados x =   1 ey= 0 −1 0   , tem-se   projx y =  1 x=  4 1 4 − 14 1 4 − 14   .  Para definir o conceito de projec¸ca˜o ortogonal sobre um subespa¸co, vamos estar interessados em bases cujos vectores sejam dois a dois ortogonais. O resultado seguinte diz-nos que essa propriedade ´e mais forte do que a independˆencia linear (o que em R2 e R3 ´e ´obvio). Teorema 5.6 Se v1 , . . . , vk ∈ Rn s˜ ao n˜ao nulos e dois a dois ortogonais, ent˜ao s˜ao linearmente independentes. Demonstra¸c˜ ao. Tomemos uma combina¸ca˜o linear de v1 , . . . , vk que ´e igual ao vector nulo: α1 v1 + α2 v2 · · · + αk vk = 0 . Calculemos o produto interno de ambos os membros por v1 : hα1 v1 + α2 v2 · · · + αk vk , v1 i = h0, v1 i o que ´e o mesmo que α1 hv1 , v1 i + α2 hv2 , v1 i · · · + αk hvk , v1 i = 0 . Como v1 , . . . , vk s˜ao dois a dois ortogonais, todos os produtos internos que figuram no primeiro membro s˜ao iguais a zero excepto o primeiro, vindo α1 kv1 k2 = 0 o que, por v1 ser n˜ao nulo, implica que α1 = 0. 110 Agora repetimos o mesmo racioc´ınio com v2 , v3 , ..., vk , concluindo sucessivamente que α2 = 0, α3 = 0, ..., αk = 0, o que significa que os vectores v1 , . . . , vk s˜ao linearmente independentes. Bases com a propriedade de os seus elementos serem dois a dois ortogonais constituem portanto um tipo especial de bases. Defini¸c˜ ao 5.5 Seja F um subespa¸co de Rn . Uma base de F constitu´ıda por vectores dois a dois ortogonais diz-se uma base ortogonal de F . Uma base ortogonal cujos vectores tˆem todos norma 1 diz-se uma base ortonormada de F . Exemplo 5.5 1. A base can´ onica de Rn ´e uma base ortonormada. ½· 2. 2 0 ¸ · ¸¾ ½· ¸ · ¸¾ 0 2 3 , e , s˜ ao bases ortogonais, mas n˜ao ortonormadas, 3 1 −6 de R2 . Note-se que, a partir de uma base ortogonal {u1 , . . . , uk } de F , ´e imediato obter uma base ortonormada para o mesmo subespa¸co. Basta dividir cada vector pela sua norma para se obter um vector com norma 1: ½ ¾ u1 uk ,..., . ku1 k kuk k E ´e ´obvio que os novos vectores ainda constituem uma base de F . Por serem dois a dois ortogonais e terem norma 1, dizemos que estes vectores s˜ao ortonormados. Vamos agora ver o conceito central desta sec¸ca˜o. Defini¸c˜ ao 5.6 Seja F um subespa¸co de Rn . Seja v ∈ Rn . Um vector p ∈ F diz-se projec¸c˜ ao ortogonal de v sobre F se v − p for ortogonal a todos os vectores de F . 111 v » »» ·A £ »» » » £ A · »» » £ v−p »»» A · £ A »AK»» · * © © £ · ©© p £ A £ £ A ·©© £ £ A© · £ £ » » 0 » F £ »»» » £ » »» £ »»»» » » £ • Teorema 5.7 Seja F um subespa¸co de Rn e seja v ∈ Rn . Ent˜ao: 1. Se existir um vector p projec¸c˜ ao ortogonal de v sobre F , ele ´e u ´nico e satisfaz a propriedade de minimizar a distˆancia a v de entre os elementos de F , isto ´e, kv − pk = min {kv − uk : u ∈ F } . 2. Sendo {v1 , . . . , vk } uma base ortogonal de F , a soma das projec¸c˜ oes ortogonais de v sobre os vi , isto ´e, hv, v1 i hv, vk i v + · · · + vk 1 kv1 k2 kvk k2 ´e a projec¸c˜ ao ortogonal de v sobre F . Demonstra¸c˜ ao. 1. Suponhamos que existe um vector p projec¸c˜ao ortogonal de v sobre F . Seja u ∈ F arbitr´ario. Como v − p ´e ortogonal a todos os vectores de F , ´e ortogonal a u − p. Pelo Teorema de Pit´agoras tem-se ent˜ao que kv − pk2 + ku − pk2 = kv − uk2 . Segue-se que, qualquer que seja u ∈ F , se tem kv − pk ≤ kv − uk , com igualdade se e s´o se u = p (o que prova a unicidade). 2. Ponhamos w = hv, vk i hv, v1 i v1 + · · · + vk . 2 kv1 k kvk k2 ´ evidente que w ∈ F . Vejamos agora que v − w ´e ortogonal a todos os vectores de E F . Seja u ∈ F arbitr´ario, digamos u = α1 v1 + · · · + αk vk . Tem-se hv − w, ui = hv, + * k + * uik− hw, ui k X X hv, vi i X = v, α j vj − vi , αj vj kvi k2 j=1 i=1 j=1 = k X j=1 αj hv, vj i − k X k X hv, vi i i=1 j=1 112 kvi k2 αj hvi , vj i . Como v1 , . . . , vk s˜ao dois a dois ortogonais, tem-se hvi , vj i = 0 se i 6= j, pelo que s˜ao nulas todas as parcelas em que i 6= j no somat´orio duplo. Vem ent˜ao hv − w, ui = k X αj hv, vj i − j=1 k X hv, vj i j=1 kvj k2 αj hvj , vj i = k X αj hv, vj i − j=1 k X αj hv, vj i = 0 . j=1 Dados v e F , garantida a unicidade da projec¸ca˜o ortogonal de v sobre F , usaremos para ela a nota¸c˜ao projF v. Se v ∈ F , ´e evidente que projF v = v. Se F tiver dimens˜ao 1, qualquer vector n˜ao nulo w de F constitui uma base ortogonal de F . A express˜ao para a projec¸c˜ao ortogonal de um vector qualquer v sobre F ´e ent˜ao hv, wi w kwk2 o que coincide com a projec¸ca˜o ortogonal de v sobre w. Isto ´e, a projec¸c˜ao ortogonal de um vector v sobre um subespa¸co unidimensional F ´e igual `a projec¸ca˜o ortogonal de v sobre qualquer vector n˜ao nulo de F .  1 Exemplo 5.6 Seja F o subespa¸ co de R3 gerado pelos vectores v1 =  −1  e v2 = 0     1 2  1 . Pretendemos calcular a projec¸c˜ ao ortogonal de v =  0  sobre F . 1 3 Como v1 e v2 geram F e s˜ao ortogonais e n˜ao-nulos, constituem uma base ortogonal de F . Pelo teorema anterior, temos ent˜ao   8/3 hv, v1 i hv, v2 i 2 5 projF v = v + v = v + v2 =  2/3  . 1 2 1 kv1 k2 kv2 k2 2 3 5/3  O resultado seguinte mostra como, a partir de uma base qualquer de um subespa¸co, se pode obter uma base ortogonal do mesmo subespa¸co. Teorema 5.8 (Processo de ortogonaliza¸c˜ ao de Gram-Schmidt.) Seja F um subespa¸co de Rn . Seja {v1 , . . . , vk } uma base de F . Ponhamos u1 = v1 e depois, sucessivamente, u2 = v2 − proju1 v2 u3 = v3 − proju1 v3 − proju2 v3 .. . uk = vk − proju1 vk − proju2 vk − · · · − projuk−1 vk . Ent˜ao {u1 , . . . , uk } ´e uma base ortogonal de F . 113 Demonstra¸c˜ ao. Note-se que cada uj se obt´em de vj subtraindo-lhe uma combina¸ca˜o linear de v1 , . . . , vj−1 . Como v1 , . . . , vk s˜ao linearmente independentes, os vectores u1 , . . . , uk s˜ao todos n˜ao nulos. Vamos agora mostrar que u1 , . . . , uk s˜ao dois a dois ortogonais. Vamos provar isso por indu¸ca˜o, come¸cando por u1 e u2 : ¿ À hv2 , u1 i hv2 , u1 i hu2 , u1 i = v2 − u1 , u1 = hv2 , u1 i − hu1 , u1 i = 0 . 2 ku1 k ku1 k2 Seja agora j > 2 e suponhamos que u1 , . . . , uj−1 s˜ao dois a dois ortogonais. Vamos ver que uj ´e ortogonal a cada um desses vectores. Seja p < j. Calculando o produto interno huj , up i vem * vj − j−1 X hvj , ui i i=1 kui k2 + ui , u p j−1 X hvj , up i hvj , ui i = hvj , up i− hui , up i = hvj , up i− hup , up i = 0 . 2 kui k kup k2 i=1 Como u1 , . . . , uk s˜ao n˜ao nulos e dois a dois ortogonais, s˜ao linearmente independentes. Como s˜ao k e pertencem a F (que tem dimens˜ao k), constituem uma base de F . Corol´ ario 5.1 Todo o subespa¸co de Rn possui pelo menos uma base ortogonal. Corol´ ario 5.2 Sendo F um subespa¸co qualquer de Rn e v um vector qualquer de n R , a projec¸c˜ ao ortogonal de v sobre F existe.   1 Exemplo 5.7 Consideremos o subespa¸ co F = L{v1 , v2 } de R3 , onde v1 =  −1 , 0   2  v2 = 0 . Pretendemos determinar uma base ortonormada deste subespa¸co, us1 ando o processo de ortogonaliza¸c˜ ao de Gram-Schmidt. Como v1 e v2 s˜ ao linearmente independentes (verifique) e geram F , constituem uma base de F . Fa¸ca-se ent˜ao   1 u1 = v1 =  −1  , 0       2 1 1 2 hv2 , u1     0 − −1 1 . = = u2 = v2 −proju1 v2 = v2 − ku1 k2 2 1 0 1 114 O teorema anterior garante-nos que u1 e u2 constituem uma base ortogonal de F . Dividindo cada um destes vectores pela sua norma obtemos  √   √  3/3 2/2   √ √  − 2/2  ,  3/3  , √   0 3/3 que ´e uma base ortonormada de F . O processo de ortogonaliza¸c˜ao de Gram-Schmidt ´e descrito de forma concisa atrav´es de uma factoriza¸c˜ao matricial. Corol´ ario 5.3 (Factoriza¸c˜ ao QR.) Se A ∈ Mn×k (R) tem as colunas linearmente independentes (isto ´e, car(A) = k), ent˜ao A pode decompor-se na forma A = QR onde Q ´e n × k e tem colunas ortonormadas e R ´e k × k triangular superior n˜aosingular. Demonstra¸c˜ ao. Designemos as colunas de A por v1 , . . . , vk , e designemos por u1 , . . . , uk as colunas duas a duas ortogonais que se obtˆem das de A aplicando-lhes o processo de ortogonaliza¸ca˜o de Gram-Schmidt. As rela¸co˜es entre os dois conjuntos de colunas s˜ao do tipo u1 = v1 u2 = v2 − α12 u1 u3 = v3 − α13 u1 − α23 u2 .. . uk = vk − α1k u1 − α2k u2 − · · · − αk−1,k uk−1 onde os αij s˜ao certos n´ umeros. Estas rela¸c˜oes podem escrever-se assim: v 1 = u1 v2 = α12 u1 + u2 v3 = α13 u1 + α23 u2 + u3 .. . vk = α1k u1 + α2k u2 + · · · + αk−1,k uk−1 + uk Designando por U a matriz cujas colunas s˜ao u1 , . . . , uk , estas igualdades podem resumir-se pela igualdade matricial A = U T , onde   1 α12 α13 . . . α1k  0 1 α23 . . . α2k      0 0 1 . . . α 3k  . T =  .. .. .. . . .   . . . ..  . 0 0 0 ... 1 115 Temos aqui A factorizada como o produto de uma matriz n × k com colunas ortogonais por uma matriz k×k triangular superior com elementos diagonais iguais a 1. Para chegar `a factoriza¸ca˜o do teorema resta uma pequena modifica¸ca˜o. Designemos por D a matriz diagonal k × k cujos elementos diagonais s˜ao ku1 k, ku2 k, . . . , kuk k. Ent˜ao D ´e invert´ıvel, porque os vectores uj s˜ao n˜ao nulos. Pelo exerc´ıcio 10 da sec¸ca˜o 1.2, as colunas da matriz U D−1 s˜ao kuu11 k , . . . , kuukk k , e s˜ao portanto ortonormados. Escrevendo Q = U D−1 e R = DT , estas matrizes satisfazem as condi¸c˜oes enunciadas no teorema e tem-se A = QR.   1 2 Exemplo 5.8 Consideremos a matriz A =  −1 0 . Pretendemos factorizar A na 0 1 forma QR como descrito no corol´ ario anterior. Sabemos do exemplo 5.7 que, aplicando o processo de ortogonaliza¸c˜ao de Gram-Schmidt `as colunas de A,  designadas  1 nesse exemplo por v1 e v2 , obtemos os vectores u1 = v1 e u2 = v2 −u1 =  1 . Como 1   · ¸ 1 1 1 1 v1 = u1 e v2 = u1 + u2 , tem-se A = U T , onde U =  −1 1  e T = . 0 1 0 1 Fa¸ca-se agora  √ √  2 3 · ¸ ·√ ·√ √ ¸ ¸ 2 3 √ √ ku1 k 0 2 √0 2 √2   −1 2 3 D= = , Q = U D =  − 2 √3  e R = DT = . 0 ku2 k 0 3 0 3 3 0 3 Verifique que as colunas de Q s˜ ao ortonormadas e que A = QR. Os resultados que vimos mostram como, dado um subespa¸co F de Rn e um vector v ∈ Rn , se pode determinar a projec¸c˜ao ortogonal de v sobre F . Come¸camos por encontrar uma base {v1 , . . . , vk } de F . Depois, usando o processo de ortogonaliza¸ca˜o de Gram-Schmidt, obtemos a partir dessa uma base ortogonal {u1 , . . . , uk } de F . E temos finalmente a express˜ao para a projec¸ca˜o ortogonal de v sobre F : projF v = hv, u1 i hv, uk i u1 + · · · + uk . 2 ku1 k kuk k2 Se a base {u1 , . . . , uk } for ortonormada, a express˜ao de projF v fica mais simples: projF v = hv, u1 i u1 + · · · + hv, uk i uk . Esta u ´ltima express˜ao pode ser apresentada de forma concisa usando matrizes. Designemos por Q a matriz n × k cujas colunas (ortonormadas) s˜ao u1 , .. . , uk. Ent˜ao, uT1 v   como se vˆe pelo Teorema 1.4, projF v ´e o produto de Q pela coluna  ... , e esta uTk v coluna, por sua vez, ´e o produto de QT por v. Segue-se que projF v = QQT v . 116 Em termos da base original {v1 , . . . , vk } de F obt´em-se outra forma para projF v. Seja A a matriz n×k cujas colunas s˜ao os vectores dessa base. Ent˜ao, como j´a vimos, temos A = QR, donde Q = AR−1 . Note-se que QT Q = Ik , donde AT A = RT R. Vem ent˜ao −1 QQT = AR−1 RT AT = A(RT R)−1 AT = A(AT A)−1 AT donde projF v = A(AT A)−1 AT v . Exerc´ıcios 1. Mostre que um vector v ´e ortogonal a todos os vectores de um subespa¸co F se e s´o se for ortogonal aos vectores de um conjunto gerador de F . 2. Ache uma base ortonormada para L{(1, 2, 3), (4, 5, 6)} e acrescente-lhe um vector de forma a obter uma base ortonormada de R3 . 3. Seja F um subespa¸co de Rn . Mostre que, dado um conjunto de vectores ortonormados de F , se esse conjunto n˜ao for uma base de F ´e poss´ıvel acrescentar-lhe vectores de F de forma a obter uma base ortonormada de F . 4. Seja F um subespa¸co de Rn e seja {v1 , . . . , vk } uma base ortogonal de F . Mostre que, para qualquer vector v de F , se tem v = k X projvi v = i=1 k X hv, vi i vi . kvi k2 i=1 Em particular, se a base for ortonormada, tem-se v = θ1 , . . . , θk s˜ao os ˆangulos de v com v1 , . . . , vk . k X i=1 hv, vi i vi = k X kvk cos θi vi , onde i=1 Portanto, as coordenadas de um vector relativamente a uma base ortogonal ou ortonormada tˆem uma express˜ao simples 5. Seja F um subespa¸co de Rn e seja {v1 , . . . , vk } uma base ortonormada de F . Mostre que, para qualquer vector v de F , se tem 2 kvk = k X hv, vi i2 . i=1 (Esta ´e a chamada “f´ormula de Parseval”.) 6. Dˆe um exemplo que mostre que a f´ormula de Parseval falha se a base n˜ao for ortonormada. 7. Neste exerc´ıcio pretende-se mostrar que as matrizes ortogonais s˜ao as matrizes de mudan¸ca entre bases ortonormadas. Concretamente, sendo F um subespa¸co de Rn , mostre o seguinte: (a) Se {u1 , . . . , uk } e {v1 , . . . , vk } forem duas bases ortonormadas de F , ent˜ao a matriz de mudan¸ca da base {u1 , . . . , uk } para a base {v1 , . . . , vk } ´e uma matriz ortogonal. (b) Reciprocamente, dadas duas bases {u1 , . . . , uk } e {v1 , . . . , vk } de F , se a primeira base for ortonormada e a matriz de mudan¸ca da primeira base para a segunda for ortogonal, ent˜ao a segunda base tamb´em ´e ortonormada. 117 5.4 M´ınimos quadrados Nesta sec¸c˜ao vamos, finalmente, ver como, usando a no¸ca˜o de projec¸ca˜o ortogonal sobre um subespa¸co, se pode aprofundar o estudo de sistemas imposs´ıveis e encontrar vectores que, sem serem solu¸c˜oes de tal sistema, s˜ao, num sentido preciso, o mais pr´oximo poss´ıvel de uma solu¸c˜ao que se pode encontrar. Seja ent˜ao A m × n e b m × 1. Recorde-se que o sistema Ax = b ´e poss´ıvel se e s´o se b ∈ C(A), onde C(A) designa o espa¸co das colunas de A: C(A) = {Ax : x ∈ Rn } . Se o sistema for imposs´ıvel, tem-se que b ∈ / C(A), isto ´e, n˜ao existe nenhum vector x ∈ Rn tal que Ax = b, ou, equivalentemente, tal que Ax − b = 0. A ideia ent˜ao ´e procurar vectores x ∈ Rn que tornem m´ınima a distˆancia entre Ax e b, isto ´e, a norma kAx − bk. Defini¸c˜ ao 5.7 Seja A ∈ Mm×n (R) e b ∈ Rm . Uma coluna x ∈ Rn tal que kAx − bk = min{kAx − bk : x ∈ Rn } diz-se uma solu¸c˜ ao no sentido dos m´ınimos quadrados do sistema Ax = b. A express˜ao “m´ınimos quadrados”tem que ver com o facto de que queremos minimizar uma norma, e a norma ´e a raiz de uma soma de quadrados. Teorema 5.9 As solu¸c˜ oes no sentido dos m´ınimos quadrados do sistema Ax = b s˜ao as solu¸c˜ oes do sistema Ax = projC(A) b. Demonstra¸c˜ ao. Basta recordar que projC(A) b ´e, de entre os vectores de C(A), o que est´a mais pr´oximo de b. Portanto, os vectores x que minimizam kAx − bk s˜ao aqueles para os quais se tem Ax = projC(A) b. Se o sistema Ax = b for poss´ıvel tem-se b ∈ C(A). Logo, projC(A) b = b e as solu¸co˜es no sentido dos m´ınimos quadrados do sistema Ax = b s˜ao as suas solu¸c˜oes no sentido usual. Corol´ ario 5.4 Seja A ∈ Mm×n (R) e b ∈ Rm . Existe uma u ´nica solu¸c˜ ao no sentido dos m´ınimos quadrados do sistema Ax = b se e s´o se car(A) = n. Podemos organizar os passos para achar as solu¸c˜oes no sentido dos m´ınimos quadrados de um sistema imposs´ıvel Ax = b no seguinte algoritmo. 118 Algoritmo H. Resolu¸c˜ ao do sistema Ax = b no sentido dos m´ınimos quadrados: 1o passo) Determinar uma base de C(A) (ver o Teorema 4.12). 2o passo) A partir da base anterior, determinar uma base ortogonal de C(A). 3o passo) Calcular a projec¸c˜ ao ortogonal projC(A) b de b sobre C(A). 4o passo) Resolver o sistema Ax = projC(A) b, que ´e de certeza poss´ıvel. Exemplo 5.9 Pretendemos resolver no sentido dosm´ınimos quadrados o sistema im   1 1 2 3    poss´ıvel Ax = b, onde A = −1 0 −1 e b = −1 . 1 0 1 1 1o passo) Comecemos por determinar uma base de C(A). Para 1 2  elimina¸c˜ ao de Gauss `a matriz A, obtendo a matriz U = 0 2 0 0 nas de U com pivot s˜ a o a primeira e a segunda e, portanto, uma     1 2    −1  ,  0  .   0 1 tal aplicamos a 3 2 . As colu0 base de C(A) ´e 2o passo) Para determinar uma base ortogonal de C(A), aplica-se o processo de ortogonaliza¸ c˜ ao de Gram-Schmidt, obtendo-se (ver o exemplo 5.7) os vectores u1 =    1 1  −1  e u2 =  1 . 1 0 3o passo) A projec¸c˜ ao ortogonal projC(A) b de b sobre C(A) ´e dada por   4/3 hb, u1 i hb, u2 i 1 projC(A) b = u + u = u + u2 =  −2/3  . 1 2 1 ku1 k2 ku2 k2 3 1/3 4o passo) Para resolver o sistema Ax = projC(A) b podemos usar o trabalho j´a feito no 1o o passo. O sistema ´e indeterminado, sendo a solu¸c˜ ao geral     2/3 − x3   1/3 − x3  : x3 ∈ R .   x3 Um processo alternativo para achar as solu¸co˜es no sentido dos m´ınimos quadrados de um sistema imposs´ıvel Ax = b baseia-se no resultado seguinte. 119 Teorema 5.10 Seja A ∈ Mm×n (R) e b ∈ Rm . Um vector x ∈ Rn ´e uma solu¸c˜ ao no T sentido dos m´ınimos quadrados do sistema Ax = b se e s´o se satisfizer A Ax = AT b. Demonstra¸c˜ ao. Um vector x ∈ Rn ´e uma solu¸c˜ao no sentido dos m´ınimos quadrados de Ax = b se e s´o se Ax for igual `a projec¸ca˜o ortogonal de b sobre C(A), o que ´e equivalente a b − Ax ser ortogonal a todos os vectores de C(A) = {Ay : y ∈ Rn }, isto ´e, hAy, b − Axi = 0 qualquer que seja y ∈ Rn ou, em nota¸ca˜o matricial, (Ay)T (b − Ax) = 0 qualquer que seja y ∈ Rn . Mas (Ay)T = y T AT , e portanto a condi¸c˜ao que temos ´e equivalente a y T AT (b − Ax) = 0 qualquer que seja y ∈ Rn o que significa que hy, AT (b − Ax)i = 0 qualquer que seja y ∈ Rn isto ´e, que o vector AT (b − Ax) ´e ortogonal a todos os vectores de Rn , ou seja ´e o vector nulo, donde finalmente AT Ax = AT b . Ent˜ao, para encontrar as solu¸co˜es no sentido dos m´ınimos quadrados do sistema Ax = b resolve-se o sistema AT Ax = AT b (`as equa¸c˜oes deste sistema chama-se por vezes equa¸ c˜ oes normais). Se AT A for invert´ıvel, a solu¸ca˜o ´e u ´nica, o que ´e coerente com a condi¸ca˜o de unicidade apresentada no corol´ario 5.4, j´a que, conforme o exerc´ıcio 2b da sec¸c˜ao 4.5, car(AT A) = car(A) (note-se que AT A ´e n × n). Se AT A for invert´ıvel, tem-se x = (AT A)−1 AT b . Quanto a projC(A) b, ´e igual a Ax, ou seja tem-se projC(A) b = A(AT A)−1 AT b e obtemos por um processo diferente a f´ormula vista no fim da sec¸ca˜o anterior. Exemplo 5.10 Vamos resolver no sentido dos m´ınimos quadrados o sistema Ax = b do exemplo anterior. 120     1 2 3 1    Sendo A = −1 0 −1 e b = −1 , tem-se 0 1 1 1     1 −1 0 2 2 4 0 1  , AT A =  2 5 7  AT =  2 3 −1 1 4 7 11   2 e AT b =  3  . 5 Vamos resolver o sistema AT Ax = AT b. A matriz AT A tem a seguinte factoriza¸c˜ ao LU :    1 0 0 2 2 4  1 1 0  0 3 3 . 2 1 1 0 0 0 Da resolu¸c˜ ao de Ly = AT b e U x = y obt´em-se, respectivamente,     2 2/3 − x3 y =  1  e x =  1/3 − x3  (verifique). 0 x3 Assim, o conjunto das solu¸c˜ oes no sentido dos m´ınimos quadrados do sistema Ax = b ´e     2/3 − x3   1/3 − x3  : x3 ∈ R .   x3 Uma aplica¸c˜ao da resolu¸c˜ao de sistemas no sentido dos· m´ınimos ¸ · quadrados ¸ · ´e a ¸ α1 α2 αn seguinte. Suponhamos que temos n pontos em R2 , digamos , ,..., , β1 β2 βn e que procuramos uma recta y = dx + h que passe por eles. Em geral uma tal recta n˜ao existe, o que ´e o mesmo que dizer que o sistema  dα1 + h = β1    dα2 + h = β2 ...    dαn + h = βn (em que as inc´ognitas s˜ao d e h) n˜ao tem solu¸ca˜o. · ¸ d A recta y = dx + h obtida a partir da solu¸ca˜o no sentido dos m´ınimos h quadrados deste sistema ´e a recta que melhor se ajusta, no sentido dos m´ınimos quadrados, aos n pontos dados. 121 Note-se que a solu¸c˜ao do sistema ´e u ´nica, porque a matriz do sistema   α1 1  α2 1     .. ..   . .  αn 1 tem caracter´ıstica 2 (excepto se os αi forem todos iguais, caso em que os pontos estariam alinhados verticalmente). Efectuando os c´alculos (usando as equa¸co˜es normais), vemos que se tem n d= n X αi βi − i=1 n n X i=1 n X αi i=1 αi2 − à n X n X i=1 n X βi !2 h= , αi2 n n X i=1 i=1 βi − i=1 i=1 αi n X αi2 − n X αi i=1 à n X n X αi βi i=1 !2 αi i=1 Uma utiliza¸c˜ao corrente deste tipo de an´alise ´e nos casos em que os pontos dados correspondem a observa¸c˜oes de uma quantidade vari´avel em momentos sucessivos. A recta que melhor se ajusta, no sentido dos m´ınimos quadrados, aos pontos dados pode ent˜ao ser usada para prever ou estimar a evolu¸ca˜o dessa quantidade em momentos posteriores. Exemplo. Na tabela seguinte apresenta-se, para os recenseamentos efectuados em Portugal no s´eculo XX, a percentagem da popula¸ca˜o residente em aglomerados com mais de 10000 habitantes. 1911 1920 1930 1940 1950 1960 1970 1981 1991 13% 15% 18% 19% 21% 24% 28% 30% 33% Na figura est˜ao representados os pontos correspondentes a estas observa¸c˜oes, bem como a recta que melhor se lhes ajusta no sentido dos m´ınimos quadrados. 122 •»» » »» » » »» • • »»» » •» »»» •» »»» » » »» • »»•» »» »»»• »»• Exactamente da mesma forma, poder´ıamos procurar, por exemplo, a par´abola y = cx2 + dx + h que melhor se ajusta aos pontos dados, no sentido dos m´ınimos quadrados. E analogamente para outras fun¸c˜oes. Se os pontos dados estivessem em R3 , poder´ıamos procurar o plano z = cx+dy+h que melhor se ajusta a eles no sentido dos m´ınimos quadrados. E assim por diante: as aplica¸co˜es da resolu¸ca˜o no sentido dos m´ınimos quadrados de sistemas imposs´ıveis s˜ao variadas. Exerc´ıcios 1. Dado um sistema imposs´ıvel Ax = b, com A n×k e car(A) = k, se se conhecer a factoriza¸c˜ao A = QR, considerada no corol´ario 5.3, fica simplificado o c´alculo da solu¸c˜ao no sentido dos m´ınimos quadrados. Verifique que, de facto, o sistema AT Ax = AT b se pode substituir pelo sistema Rx = QT b, que, sendo triangular, ´e muito simples. Obt´em-se assim o algoritmo que seguidamente se descreve para o c´alculo da referida solu¸c˜ao. Algoritmo. 1o passo) Factoriza¸c˜ ao A = QR. 2o passo) Resolu¸c˜ ao do sistema Rx = QT b. 123 5.5 Complemento ortogonal de um subespa¸co Defini¸c˜ ao 5.8 Seja F um subespa¸co de Rn . Ao conjunto dos vectores de Rn que s˜ao ortogonais a todos os vectores de F chama-se complemento ortogonal de F . A nota¸c˜ ao habitual ´e F ⊥ . Simbolicamente F ⊥ = {v ∈ Rn : hv, ui = 0 para todo o u ∈ F }. Teorema 5.11 Sendo F um subespa¸co de Rn , F ⊥ ´e tamb´em um subespa¸co e tem-se F = (F ⊥ )⊥ . Demonstra¸c˜ ao. Fica como exerc´ıcio provar que F ⊥ ´e um subespa¸co. A inclus˜ao F ⊂ (F ⊥ )⊥ ´e um exerc´ıcio no fim desta sec¸c˜ao. Vamos agora ver que (F ⊥ )⊥ ⊂ F . Seja v ∈ (F ⊥ )⊥ arbitr´ario (portanto v ´e ortogonal a todos os vectores de F ⊥ ). Seja projF v a projec¸c˜ao ortogonal de v sobre F . Por defini¸ca˜o de projec¸c˜ao ortogonal, sabemos que v − projF v ´e ortogonal a todos os vectores de F , isto ´e, tem-se v − projF v ∈ F ⊥ . Logo, 0 = hv, v − projF vi = hprojF v + v − projF v, v − projF vi = = hprojF v, v − projF vi + hv − projF v, v − projF vi = kv − projF vk2 . Conclu´ımos assim que v = projF v, o que significa que v ∈ F , como pretendido. Exerc´ıcios 1. Seja F um subespa¸co de Rn . (a) Prove que F ⊥ ´e tamb´em um subespa¸co de Rn . (b) F ∩ F ⊥ = {0}. (c) F ⊂ (F ⊥ )⊥ . (d) F1 ⊂ F2 ⇒ F2⊥ ⊂ F1⊥ . (e) Se {v1 , . . . , vk } for uma base de F , ent˜ao F ⊥ = {v ∈ Rn : hv, vi i = 0, i = 1, . . . , k}. 2. Seja A uma matriz real. Prove que N (AT ) = C(A)⊥ . 3. Sendo F um subespa¸co de Rn , mostre que Rn = F ⊕ F ⊥ . (Logo, se dimF = k, tem-se dimF ⊥ = n − k.) 124 5.6 Determinantes e medidas de paralelip´ıpedos Defini¸c˜ ao 5.9 Sendo v1 , . . . , vn ∈ Rn , o paralelip´ıpedo definido por v1 , . . . , vn ´e o conjunto P [v1 , . . . , vn ] = {α1 v1 + · · · + αn vn : 0 ≤ α1 ≤ 1, . . . , 0 ≤ αn ≤ 1} . Teorema 5.12 Sejam v1 , v2 ∈ R2 , e A a matriz 2 × 2 cujas colunas s˜ao v1 , v2 . Ent˜ao, a ´area de P [v1 , v2 ] ´e igual a | det(A)|. Demonstra¸c˜ ao. Primeiro caso: v1 e v2 s˜ao ortogonais, isto ´e, hv1 , v2 i = 0. Ent˜ao P [v1 , v2 ] ´e um rectˆangulo, e a sua ´area ´e igual a kv1 kkv2 k. Por outro lado, na mesma hip´otese, tem-se que AT A ´e a matriz diagonal 2 × 2 cujos elementos diagonais s˜ao kv1 k2 e kv2 k2 , donde det(AT A) = kv1 k2 kv2 k2 . Mas det(AT A) = det(A)2 , donde | det(A)| = kv1 k.kv2 k. Sejam agora v1 e v2 quaisquer, com v1 6= 0 (se v1 = 0, o resultado a provar ´e trivial). Seja w a projec¸ca˜o ortogonal de v2 sobre v1 . v2 v2 − w KA A £ £ £± £ © * v1 © © © © ©w * ©© A £ £ © A© 0 Ent˜ao tem-se: 1) v1 e v2 − w s˜ao ortogonais; 2) a ´area de P [v1 , v2 ] ´e igual `a ´area do rectˆangulo definido por v1 e v2 −w; 3) esta u ´ltima ´area, pelo primeiro caso, ´e igual a | det(B)| onde B ´e a matriz cujas colunas s˜ao v1 e v2 − w; 4) finalmente, det(B) = det(A), porque B se obt´em de A adicionando `a segunda coluna um m´ ultiplo da primeira, o que n˜ao altera o determinante. Teorema 5.13 Sejam v1 , v2 , v3 ∈ R3 , e A a matriz 3×3 cujas colunas s˜ao v1 , v2 , v3 . Ent˜ao, o volume de P [v1 , v2 , v3 ] ´e igual a | det(A)|. Demonstra¸c˜ ao. Exerc´ıcio. (Sugest˜ao: Proceder como em R2 .) Defini¸c˜ ao 5.10 Sejam v1 , . . . , vn ∈ Rn (onde n ≥ 4), e A a matriz n × n cujas colunas s˜ao v1 , . . . , vn . Ent˜ao, define-se a medida de P [v1 , . . . , vn ] como sendo | det(A)|. 125 5.7 Produto externo em R3 Em muitas aplica¸c˜oes dos vectores de R3 a quest˜oes de geometria, f´ısica e engenharia, tem interesse construir um vector que ´e perpendicular a dois vectores dados. Nesta sec¸ca˜o vamos ver uma “opera¸c˜ao”entre vectores que facilita essa constru¸ca˜o. £ ¤T £ ¤T Suponhamos dados dois vectores u = a b c e v = a0 b0 c0 em R3 . Pretendemos encontrar vectores perpendiculares a u e a v. Suponhamos que u e v s˜ao linearmente independentes. Ent˜ao tem-se dim L{u, v} = 2, donde dim L{u, v}⊥ = 1, pelo que a direc¸ca˜o dos vectores procurados ´e univocamente determinada por u e v. £ ¤T Os vectores x1 x2 x3 perpendiculares a u e a v s˜ao os que satisfazem as condi¸co˜es ½ ax1 + bx2 + cx3 = 0 a0 x1 + b0 x2 + c0 x3 = 0 £ ¤T £ ¤T Como estamos a supor u = a b c e v = a0 b0 c0 linearmente independentes, a matriz do sistema tem caracter´ıstica 2, pelo que pelo menos um dos trˆes determinantes ¯ ¯ ¯ ¯ ¯ ¯ ¯ a b ¯ ¯ a c ¯ ¯ b c ¯ ¯ 0 0 ¯ , ¯ 0 0 ¯ , ¯ 0 0 ¯ ¯ a b ¯ ¯ a c ¯ ¯ b c ¯ ´e diferente de zero. Suponhamos que o primeiro destes trˆes determinantes ´e n˜ao nulo (se for outro o caso, o racioc´ınio ser´a an´alogo). Escrevemos o sistema acima de outra forma ½ ax1 + bx2 = −cx3 a0 x1 + b0 x2 = −c0 x3 e obtemos o valor das inc´ognitas x1 e x2 usando a regra de Cramer: ¯ ¯ ¯ ¯ ¯ −cx3 b ¯ ¯ a −cx3 ¯ ¯ ¯ ¯ ¯ ¯ −c0 x3 b0 ¯ ¯ a0 −c0 x3 ¯ ¯ , x2 = ¯ ¯ x1 = ¯¯ ¯ ¯ a b ¯ ¯ a0 b0 ¯ ¯ 0 0 ¯ ¯ a b ¯ ¯ a b ¯ ou ¯ ¯ −c b x3 ¯¯ −c0 b0 ¯ x1 = ¯¯ ¯ ¯ a0 b0 ¯ ¯ a b ¯ ¯ ¯ ¯ ¯ ¯ ¯ a x3 ¯¯ 0 a , x2 = ¯¯ ¯ a0 ¯ a ¯ −c ¯¯ −c0 ¯ ¯ . b ¯¯ b0 ¯ ¯ ¯ a b Aqui x3 pode tomar qualquer valor. Escolhendo, por exemplo, x3 = ¯¯ 0 0 a b para x1 e x2 os valores ¯ ¯ ¯ ¯ ¯ a −c ¯ ¯ −c b ¯ ¯ ¯ ¯ ¯ ¯ −c0 b0 ¯ , ¯ a0 −c0 ¯ , respectivamente. Isto motiva a seguinte defini¸c˜ao: 126 ¯ ¯ ¯, vˆem ¯ £ ¤T £ ¤T Defini¸c˜ ao 5.11 Sendo u = a b c e v = a0 b0 c0 , define-se produto externo (ou produto vectorial) de u por v como sendo o vector ¯ ¯ ¯ ¯ ¯¸ ·¯ ¯ b c ¯ ¯ a c ¯ ¯ a b ¯ T ¯ ¯ ¯ ¯ ¯ u ∧ v = ¯ 0 0 ¯ − ¯ 0 0 ¯ ¯ 0 0 ¯¯ b c a c a b ou seja   bc0 − b0 c u ∧ v =  a0 c − ac0  . ab0 − a0 b Outra nota¸c˜ ao habitual ´e u × v. Como mnem´onica para a express˜ao de u ∧ v, usa-se o seguinte “determinante simb´olico”, onde e1 , e2 e e3 s˜ao os vectores da base can´onica de R3 : ¯ ¯ ¯ e1 e2 e3 ¯ ¯ ¯ ¯ a b c ¯ ¯ 0 0 0 ¯ ¯ a b c ¯ calculado pelo Teorema de Laplace aplicado `a primeira linha. N˜ao se trata de um verdadeiro determinante, j´a que na primeira linha temos vectores e n˜ao n´ umeros. Note-se que o produto externo de dois vectores de R3 ´e um vector (enquanto que o produto interno ´e um n´ umero).       1 3 −2 Exemplo. Sendo u =  2  e v =  0 , tem-se u ∧ v =  7 . 2 −1 −6 A demonstra¸ca˜o das propriedades seguintes ´e deixada como exerc´ıcio. Teorema 5.14 Sejam u, v, u1 , u2 , v1 , v2 vectores de R3 . Ent˜ao tem-se: 1. u ∧ u = 0 ; 2. u ∧ 0 = 0 ; 3. Mais geralmente, se u e v forem linearmente dependentes, tem-se u ∧ v = 0 ; 4. Reciprocamente, se u ∧ v = 0 ent˜ ao u e v s˜ao linearmente dependentes ; 5. v ∧ u = −u ∧ v ; 6. hu, u ∧ vi = 0 ; 7. (u1 + u2 ) ∧ v = u1 ∧ v + u2 ∧ v , u ∧ (v1 + v2 ) = u ∧ v1 + u ∧ v2 ; 127 8. (αu) ∧ v = u ∧ (αv) = α(u ∧ v) , α ∈ R. Sendo e1 , e2 e e3 os vectores da base can´onica de R3 , tem-se e1 ∧ e2 = e3 , e2 ∧ e3 = e1 , e3 ∧ e1 = e2 . Estas igualdades podem servir para “reconstituir”a express˜ao de u ∧ v. Como u= £ a b c ¤T = ae1 + be2 + ce3 , v = £ a 0 b0 c0 ¤T = a0 e1 + b0 e2 + c0 e3 , tem-se, usando as propriedades do produto externo, u ∧ v = (ae1 + be2 + ce3 ) ∧ (a0 e1 + b0 e2 + c0 e3 ) = ab0 e3 − ac0 e2 − ba0 e3 + bc0 e1 + ca0 e2 − cb0 e1 = (bc0 − b0 c)e1 − (ac0 − a0 c)e2 + (ab0 − a0 b)e3 = £ bc0 − b0 c −(ac0 − a0 c) ab0 − a0 b ¤T . Vamos agora ver uma f´ormula simples para o comprimento de u ∧ v. Teorema 5.15 Tem-se ku ∧ vk = p kuk2 kvk2 − hu, vi2 = kukkvksen θ , onde θ ´e o ˆangulo entre u e v. Demonstra¸c˜ ao. Pondo u = £ a b c ¤T ev= £ a0 b0 c0 ¤T , tem-se ku ∧ vk2 = (bc0 − b0 c)2 + (ac0 − a0 c)2 + (ab0 − a0 b)2 e kuk2 kvk2 − hu, vi2 = (a2 + b2 + c2 )(a02 + b02 + c02 ) − (aa0 + bb0 + cc0 )2 . Desenvolvendo estes quadrados e simplificando, vemos que as duas quantidades s˜ao iguais. Quanto `a segunda parte: como hu, vi = kukkvk cos θ, tem-se kuk2 kvk2 −hu, vi2 = kuk2 kvk2 −kuk2 kvk2 cos2 θ = kuk2 kvk2 (1−cos2 θ) = kuk2 kvk2 sen2 θ . 128 Da igualdade ku ∧ vk = kukkvksen θ conclu´ımos que o comprimento de u ∧ v ´e igual `a ´area do paralelogramo definido por u e v. Dados u, v ∈ R3 , j´a conhecemos a direc¸ca˜o e o comprimento do vector u ∧ v. Vamos agora ver uma descri¸c˜ao “f´ısica”do sentido desse vector. Evidentemente, s´o interessa o caso em que u e v s˜ao linearmente independentes. Lema. Dados u, v ∈ R3 linearmente independentes, o determinante da matriz 3 × 3 cujas colunas s˜ao u, v e u ∧ v ´e positivo. £ ¤T £ ¤T Demonstra¸c˜ ao. Ponhamos u = a b c e v = a0 b0 c0 . Pela defini¸ca˜o de produto externo, o determinante em causa ´e ¯ ¯ 0 0 ¯ a a0 ¯ bc − b c ¯ ¯ 0 0 0 ¯ b b −(ac − a c) ¯ . ¯ ¯ ¯ c c0 ab0 − a0 b ¯ Calculando-o pelo teorema de Laplace aplicado `a terceira coluna, vemos que ´e igual a (bc0 − b0 c)2 + (ac0 − a0 c)2 + (ab0 − a0 b)2 , sendo portanto positivo. (Note-se que esta quantidade n˜ao ´e nula porque u e v s˜ao linearmente independentes.) Defini¸c˜ ao 5.12 Sejam u, v, w ∈ R3 vectores linearmente independentes, representados por segmentos orientados a partir da origem. Dizemos que estes trˆes vectores (por esta ordem) formam um triedro directo se a rota¸c˜ ao mais curta do vector u que o leva a sobrepor-se ao vector v ´e feita, para um observador com os p´es na origem e a cabe¸ca na extremidade de w, no sentido contr´ario ao dos ponteiros do rel´ ogio (ver a figura). w 6 u ´H ´ 0 HH j ´ µ H + ´ v Exemplo 5.11 Os vectores e1 , e2 , e3 da base can´ onica de R3 formam um triedro di- recto. 129 Teorema 5.16 Sendo u, v ∈ R3 linearmente independentes, os vectores u, v, u ∧ v formam um triedro directo. Demonstra¸c˜ ao. Das propriedades 7 e 8 do Teorema 5.15 conclu´ımos que substituir u por um vector obtido de u subtraindo-lhe um m´ ultiplo de v n˜ao altera u ∧ v. Substituindo ent˜ao u pelo vector que se obt´em subtraindo a u a sua projec¸ca˜o ortogonal sobre v, vemos que podemos supor que u e v s˜ao ortogonais, sem alterar a propriedade de o triedro que nos interessa ser directo ou n˜ao. Da propriedade 8 do Teorema 5.15 conclu´ımos que a multiplica¸ca˜o de u e v por constantes positivas n˜ao altera o sentido de u ∧ v. Consequentemente, n˜ao h´a perda de generalidade em supor que kuk = kvk = 1. Com u e v ortogonais e de norma 1, u, v, u ∧ v constituem uma base ortonormada. Pretendemos mostrar que os vectores desta base ortonormada formam um triedro directo. Consideremos agora a base can´onica e1 , e2 , e3 de R3 e desloquemos esse sistema de vectores num movimento cont´ınuo, at´e o par dos dois primeiros vectores coincidir com o par u, v, o que ´e evidentemente poss´ıvel. No fim do movimento o terceiro vector ou ´e u ∧ v ou ´e −u ∧ v. Designemos por u(t), v(t), w(t) a base ortonormada que temos no instante t do movimento, e designemos por d(t) o determinante da matriz 3 × 3 cujas colunas s˜ao u(t), v(t), w(t). Ent˜ao d(t) ´e positivo no in´ıcio do movimento, porque e1 ∧ e2 = e3 (de facto, no in´ıcio do movimento d(t) ´e igual a 1). Ora d(t) ´e uma fun¸ca˜o cont´ınua de t, porque as coordenadas de u(t), v(t), w(t) s˜ao fun¸co˜es cont´ınuas de t e o determinante d(t) ´e calculado por produtos de somas dessas coordenadas. Logo, por continuidade, o determinante d(t) tamb´em tem que ser positivo no fim do movimento (porque nunca se anulou durante o movimento). Mas no fim do movimento ou temos w(t) = u ∧ v ou temos w(t) = −u ∧ v. Se ocorresse este segundo caso, no fim do movimento ter-se-ia d(t) < 0 (pelo Lema), o que, como j´a vimos, n˜ao acontece. Logo, no fim do movimento tem-se w(t) = u ∧ v. Como a base can´onica ´e um triedro directo, e como o movimento foi cont´ınuo, tamb´em u, v, u ∧ v ´e um triedro directo. 130 6 Planos em Rn Nesta sec¸ca˜o vamos ver v´arias formas de descrever certos objectos “geom´etricos”em Rn por analogia com as rectas em R2 e as rectas e os planos em R3 . Em R2 — identificado com um plano em que se fixou um sistema de eixos da forma habitual — uma recta passando pela origem ´e simplesmente um subespa¸co de dimens˜ao 1. Para descrever algebricamente uma recta S qualquer (n˜ao necessariamente passando pela origem), podemos olhar para ela como tendo sido obtida por transla¸ca˜o da recta paralela a S que passa pela origem. Chamemos F a esta outra recta. A opera¸ca˜o de transla¸c˜ao consiste em adicionar a todos os elementos de F um elemento p arbitrariamente escolhido em S. Em s´ımbolos, S = {p + v : v ∈ F } . Exactamente da mesma forma podemos descrever uma recta qualquer em R3 (sendo ent˜ao F um subespa¸co de dimens˜ao 1 de R3 ) e um plano qualquer em R3 (sendo F um subespa¸co de dimens˜ao 2 de R3 ). Com esta motiva¸ca˜o apresentamos a seguinte defini¸c˜ao para Rn . Defini¸c˜ ao 6.1 Um plano (ou variedade linear) de dimens˜ ao k em Rn ´e um conjunto do tipo S = {p + v : v ∈ F } onde p ∈ Rn e F ´e um subespa¸co de Rn com dimens˜ao k. (Uma nota¸c˜ ao habitual ´e S = {p} + F .) Diz-se que S foi obtido de F por uma transla¸ c˜ ao segundo o vector p. A F chama-se subespa¸co director de S e a p chamase vector de transla¸c˜ ao. (Note-se que o vector de transla¸c˜ ao pertence ao plano.) Um plano de dimens˜ao 1 diz-se uma recta. Um plano de dimens˜ao n − 1 em Rn diz-se um hiperplano. Observa¸ c˜ ao. Os hiperplanos em R2 s˜ao as rectas. Os hiperplanos em R3 s˜ao os planos vulgares. Defini¸c˜ ao 6.2 Dois planos da mesma dimens˜ao S1 = {p1 } + F1 e S2 = {p2 } + F2 dizem-se paralelos se F1 = F2 . Se S1 e S2 n˜ ao tiverem a mesma dimens˜ao a condi¸c˜ ao de paralelismo ´e F1 ⊂ F2 ou F2 ⊂ F1 . Seja S = {p} + F um plano de dimens˜ao k em Rn , e seja {v1 , . . . , vk } uma base de F . Ent˜ao a express˜ao geral dos elementos x de S ´e x = p + α1 v1 + · · · + αk vk , 131 α1 , . . . , αk ∈ R . A uma express˜ao deste tipo chama-se equa¸ c˜ ao vectorial de S. Esta igualdade entre vectores pode separar-se em n igualdades entre n´ umeros, que se chamam equa¸ c˜ oes param´ etricas do plano S. Diz-se que S passa por p e ´e paralelo a F , ou tamb´em paralelo aos vectores v1 , . . . , vk . Sejam p = (p1 , p2 , . . . , pn ), w = (w1 , w2 , . . . , wn ) ∈ Rn . Suponhamos que wi 6= 0, i = 1, . . . , n. Se x pertencer `a recta em Rn que passa por p e tem a direc¸c˜ao de w, ent˜ao x − p e w s˜ao linearmente dependentes, donde x2 − p2 xn − pn x1 − p1 = = ··· = . w1 w2 wn A estas igualdades chama-se equa¸ c˜ oes normais ou can´ onicas da recta que passa por p e tem a direc¸c˜ao de w. Um processo alternativo de descrever planos em Rn usa o produto interno. A ideia ´e generalizar o que se faz em R2 com a chamada equa¸c˜ ao cartesiana de uma 2 recta. Por exemplo, dado u ∈ R n˜ao nulo, a condi¸ca˜o hu, xi = 0 define uma recta passando pela origem, a recta constitu´ıda pelos vectores x perpendiculares a u. Mais geralmente, a condi¸ca˜o hu, x − pi = 0 define a recta passando por p e paralela `a anterior. Come¸camos por ver que, em Rn , este tipo de condi¸ca˜o define um hiperplano. Teorema 6.1 Sendo u, p ∈ Rn , com u n˜ ao nulo, o conjunto {x : hu, x − pi = 0} ´e um hiperplano. Reciprocamente, sendo S um hiperplano, existem u, p ∈ Rn , com u n˜ao nulo, tais que S = {x : hu, x − pi = 0}. Demonstra¸c˜ ao. Suponhamos primeiro que p = 0. O conjunto {x : hu, xi = 0} ´e igual a (L{u})⊥ e portanto ´e um subespa¸co de dimens˜ao n − 1, ou seja ´e um hiperplano passando pela origem. Seja agora p ∈ Rn qualquer. Observemos que um vector y pertence ao conjunto S = {x : hu, x−pi = 0} se e s´o se y −p pertencer ao subespa¸co F = {x : hu, xi = 0}. Ent˜ao S = {p} + F e, como F tem dimens˜ao n − 1, S ´e um hiperplano. Reciprocamente, seja S um hiperplano. Ent˜ao S = {p}+F , com F um subespa¸co de dimens˜ao n − 1. Como Rn = F ⊕ F ⊥ , tem-se dim F ⊥ = 1. Seja u ∈ F ⊥ n˜ao nulo. Ent˜ao F ⊥ = L{u} e vem F = (F ⊥ )⊥ = {x : hu, xi = 0}. Como S = {p} + F , segue-se que S = {x : hu, x − pi = 0} . ` condi¸c˜ Defini¸c˜ ao 6.3 A ao hu, x − pi = 0 chama-se uma equa¸ c˜ ao cartesiana do hiperplano. O vector u diz-se um “vector ortogonal ao hiperplano” (na realidade ´e ortogonal aos vectores do subespa¸co director). Em R2 a equa¸ca˜o cartesiana de um hiperplano, que nesse caso ´e uma recta, ´e da forma a1 (x1 − p1 ) + a2 (x2 − p2 ) = 0 , 132 onde u = (a1 , a2 ), x = (x1 , x2 ) e p = (p1 , p2 ). Pondo hu, pi = b, a equa¸ca˜o fica a1 x1 + a2 x2 = b . Em R3 a equa¸ca˜o cartesiana de um hiperplano, que nesse caso ´e um plano, ´e da forma a1 (x1 − p1 ) + a2 (x2 − p2 ) + a3 (x3 − p3 ) = 0 , onde u = (a1 , a2 , a3 ), x = (x1 , x2 , x3 ) e p = (p1 , p2 , p3 ). Pondo hu, pi = b, a equa¸ca˜o fica a1 x1 + a2 x2 + a3 x3 = b . O vector ortogonal a um hiperplano ´e essencialmente u ´nico, no sentido de que dois vectores ortogonais a um mesmo hiperplano s˜ao m´ ultiplos um do outro. Porquˆe? Seja F o subespa¸co de Rn director do hiperplano. Como vimos na demonstra¸c˜ao do Teorema 6.1, tem-se dim F ⊥ = 1, pelo que n˜ao pode haver dois vectores linearmente independentes em F ⊥ , isto ´e, ortogonais a todos os vectores de F . A apresenta¸ca˜o de um hiperplano por uma equa¸ca˜o cartesiana ´e conveniente para o c´alculo da distˆancia de um ponto a esse hiperplano: Teorema 6.2 Sendo v ∈ Rn , a distˆancia de v ao hiperplano de equa¸c˜ ao cartesiana hu, x − pi = 0 ´e igual `a norma da projec¸c˜ ao ortogonal de v − p sobre u, isto ´e, ´e igual a |hv − p, ui| . kuk Demonstra¸c˜ ao. Suponhamos primeiro que p = 0 e ponhamos F = {x : hu, xi = 0}. A distˆancia de v a F ´e (por defini¸ca˜o) a distˆancia de v ao vector de F que lhe est´a mais pr´oximo. Como sabemos, esse vector ´e vF , a projec¸ca˜o ortogonal de v sobre F . Pretendemos portanto mostrar que kv − vF k = |hv, ui| . kuk Note-se que v − vF , por defini¸ca˜o de projec¸c˜ao ortogonal sobre um subespa¸co, ´e ortogonal a todos os vectores de F . Ent˜ao v − vF tem que ser m´ ultiplo de u, digamos v − vF = βu. 133 v• u• » »» A £ »» » » £ A » » » £ A A »»» £ A• »A»» £ vF £ A £ £ A £ £ A• £ £ » » 0 » F £ »»» » £ » »» £ »»»» » » £ AA Para determinar o valor de β, calculemos o produto interno de ambos os membros por u. Vem hv, ui = βkuk2 uma vez que hvF , ui = 0. Ent˜ao β= hv, ui kuk2 donde v − vF = hv, ui u kuk2 e conclu´ımos que kv − vF k = |hv, ui| kuk como pretendido. Seja agora p qualquer e ponhamos S = {p} + F = {x : hu, x − pi = 0}. Para provar que a distˆancia de v a S ´e igual a |hv − p, ui| kuk basta mostrar (pelo primeiro caso) que essa distˆancia ´e igual `a distˆancia de v − p a F . Mas isso segue-se imediatamente do facto de que a distˆancia de v a um elemento qualquer y de S ´e igual `a distˆancia de v − p a y − p (que pertence a F ). No caso particular de R2 , este teorema d´a uma f´ormula para a distˆancia de um ponto a uma recta. Se o ponto for (q1 , q2 ) e a recta tiver equa¸ca˜o cartesiana a1 x1 + a2 x2 = b, a f´ormula para a distˆancia ´e |a1 q1 + a2 q2 − b| p . a21 + a22 No caso de R3 , a distˆancia do ponto (q1 , q2 , q3 ) ao plano de equa¸ca˜o cartesiana a1 x1 + a2 x2 + a3 x3 = b ´e |a1 q1 + a2 q2 + a3 q3 − b| p . a21 + a22 + a23 134 Exerc´ıcio 6.1 Em Rn , a distˆancia de um ponto v a uma recta x = p + αu, α ∈ R, ´e a distˆancia de v − p `a sua projec¸c˜ao ortogonal sobre u. Mostre que uma f´ormula para essa distˆancia ´e p kv − pk2 kuk2 − hv − p, ui2 . kuk Um plano em Rn de dimens˜ao qualquer, n˜ao necessariamente n − 1, pode ser descrito como uma intersec¸ca˜o de hiperplanos. Concretamente, se a dimens˜ao do plano S for k, ele ´e igual `a intersec¸ca˜o de n − k hiperplanos com vectores ortogonais independentes, pois, sendo S = {p} + F , com F subespa¸co de dimens˜ao k, tem-se F = (F ⊥ )⊥ = {x : hu, xi = 0 para todo o u ∈ F ⊥ } e portanto, se {u1 , . . . , un−k } for uma base de F ⊥ , tem-se F = {x : hui , xi = 0, i = 1, . . . , n − k} donde S = {x : hui , x − pi = 0, i = 1, . . . , n − k} . S ´e, assim, descrito por um sistema de equa¸co˜es lineares cuja matriz ´e (n − k) × n e tem caracter´ıstica n − k. 135 7 Valores pr´ oprios e vectores pr´ oprios de matrizes Neste cap´ıtulo estudam-se os importantes conceitos de vector pr´oprio e valor pr´oprio de uma matriz quadrada. Estes conceitos podem ser motivados de diversas formas e tˆem muitas aplica¸co˜es pr´aticas. Do ponto de vista matricial, talvez o principal interesse dos valores pr´oprios e vectores pr´oprios esteja no papel que desempenham na possibilidade de escrever matrizes quadradas na forma SDS −1 , onde D ´e diagonal (e S ´e invert´ıvel, claro). Veremos que uma tal factoriza¸ca˜o, muito u ´til, nem sempre ´e poss´ıvel, e estudaremos com cuidado os casos em que ela existe. Um caso importante em que tal factoriza¸c˜ao ´e poss´ıvel ´e o das matrizes reais sim´etricas (e analogamente o das matrizes complexas herm´ıticas). Este conhecimento ser´a aplicado `a classifica¸c˜ao das curvas no plano e das superf´ıcies no espa¸co definidas por equa¸co˜es do 2o grau. Ser´a ainda estudada uma factoriza¸ca˜o matricial relacionada, a singular value decomposition, com grande importˆancia em Matem´atica Aplicada. Um ponto de vista diferente, mais “geom´etrico”, em que os valores pr´oprios e vectores pr´oprios surgem com naturalidade, ser´a estudado no cap´ıtulo 9, no contexto das transforma¸c˜oes lineares. 7.1 Conceitos b´ asicos Na sec¸ca˜o 4.7, a prop´osito da representa¸c˜ao matricial de transforma¸co˜es lineares, referimos o interesse de, dada uma matriz quadrada A, encontrar vectores v tais que Av seja um m´ ultiplo de v. Defini¸c˜ ao 7.1 Seja A uma matriz n × n real ou complexa. Um n´ umero λ diz-se um valor pr´ oprio de A se existir um vector n˜ao nulo v satisfazendo Av = λv. Nestas condi¸c˜ oes v diz-se um vector pr´ oprio de A associado a λ. · 3 1 · 1 3 ¸ ¸ Exemplo 7.1 1. Os n´ umeros 4 e 2 s˜ao valores pr´oprios da matriz A = . O vector · ¸ 1 1 ´e um vector pr´oprio de A associado ao valor pr´oprio 4 e o vector ´e um vector 1 −1 pr´oprio de A associado ao valor pr´oprio 2. · ¸ cos θ −sen θ 2. Se θ n˜ao for m´ ultiplo de π, a matriz A = n˜ao tem vectores pr´oprios em sen θ cos θ R2 , porque o efeito geom´etrico de A quando multiplicada por um vector ´e rod´a-lo de um ˆangulo θ em torno da origem, e portanto n˜ao pode transformar nenhum vector de R2 num m´ ultiplo de si pr´oprio. Dada uma matriz A n × n, como saber que n´ umeros s˜ao valores pr´oprios de A? Por defini¸c˜ao, λ ´e valor pr´oprio de A se existir um vector n × 1 v n˜ao nulo tal que 136 Av = λv, ou seja (A−λI)v = 0. Estamos ent˜ao interessados nos valores de λ para os quais o sistema homog´eneo com matriz A − λI tem solu¸co˜es n˜ao nulas. Tal acontece se e s´o se a matriz A − λI for singular ou, equivalentemente, se esta matriz tiver determinante nulo. Conclu´ımos assim que: Teorema 7.1 Os valores pr´oprios de A s˜ao os valores de λ que satisfazem det(A − λI) = 0 . No desenvolvimento de det(A − λI), surge-nos um mon´omio de grau n em λ (proveniente do produto dos elementos da diagonal principal) e todas os outros mon´omios s˜ao de grau inferior a n. Tem-se ent˜ao que det(A − λI) ´e um polin´omio de grau n em λ. Este polin´omio tem coeficientes em R, se a matriz A for real, ou em C, se a matriz A for complexa. Defini¸c˜ ao 7.2 Sendo A uma matriz quadrada, chamamos polin´ omio caracter´ıstico de A a det(A − λI). · Exemplo 7.2 O polin´omio caracter´ıstico de 3 1 1 3 ¸ ´e λ2 − 6λ + 8. Sendo de grau n, o polin´omio caracter´ıstico de uma matriz n × n tem no m´aximo n ra´ızes. Logo, tem-se o seguinte: Teorema 7.2 Uma matriz A n × n tem no m´aximo n valores pr´oprios, n˜ao necessariamente distintos. Podemos ser mais precisos quanto ao n´ umero de valores pr´oprios de uma ma´ triz. O Teorema Fundamental da Algebra afirma que qualquer polin´omio n˜ao constante com coeficientes complexos tem pelo menos uma ra´ız em C.10 Daqui tira-se uma importante conclus˜ao: um polin´omio com coeficientes complexos pode sempre escrever-se como produto de factores de grau 1: an λn + an−1 λn−1 + · · · + a1 λ + a0 = an (λ − λ1 )(λ − λ2 ) . . . (λ − λn ) e portanto tem n ra´ızes em C, que s˜ao λ1 , λ2 , . . . , λn . Logo, tem-se: 10 O teorema apenas afirma a existˆencia de solu¸c˜oes. O c´alculo efectivo delas para cada equa¸c˜ao ´e um problema diferente. A demonstra¸c˜ao do teorema est´a fora do ˆambito desta disciplina. 137 Teorema 7.3 Uma matriz n × n com elementos complexos (em particular reais) tem exactamente n valores pr´oprios em C, podendo haver repeti¸c˜ oes entre eles. · Exemplo 7.3 Os valores pr´oprios de 0 1 −1 0 ¸ s˜ao i e −i. Defini¸c˜ ao 7.3 A multiplicidade de um valor pr´oprio de uma matriz como ra´ız do polin´ omio caracter´ıstico chama-se multiplicidade alg´ ebrica desse valor pr´oprio. Um valor pr´oprio com multiplicidade alg´ebrica 1 diz-se simples, com multiplicidade alg´ebrica 2 diz-se duplo, etc. · Exemplo 7.4 O n´ umero real 7 ´e valor pr´oprio duplo da matriz ¸ 7 1 . 0 7 ´ importante observar que o c´alculo, na pr´atica, dos valores pr´oprios de uma E matriz s´o em casos especiais (por exemplo, quando n ´e pequeno) se faz usando o polin´omio caracter´ıstico, porque a sua determina¸ca˜o ´e trabalhosa, exigindo o c´alculo de um determinante de ordem n. Mesmo conhecendo-se o polin´omio caracter´ıstico, o c´alculo dos valores pr´oprios exige a determina¸ca˜o das ra´ızes desse polin´omio. Na pr´atica, o c´alculo dos valores pr´oprios de uma matriz ´e feito com o uso de algoritmos computacionais, que s˜ao estudados noutras disciplinas. Como proceder para determinar os vectores pr´oprios de uma matriz A? Suponhamos que determin´amos j´a as ra´ızes do polin´omio caracter´ıstico, isto ´e, os valores pr´oprios de A. Ent˜ao, para cada valor pr´oprio λj , os vectores pr´oprios que lhe est˜ao associados s˜ao as solu¸co˜es n˜ao nulas do sistema homog´eneo (A − λj I)x = 0. Os vectores pr´oprios de A associados a um valor pr´oprio λj constituem portanto (juntando-lhes a origem) precisamente N (A − λj I), o espa¸co nulo da matriz A − λj I. Defini¸c˜ ao 7.4 A N (A − λj I) chama-se subespa¸co pr´ oprio de A associado ao valor pr´oprio λj . H´a aqui um pormenor importante. Se A for uma matriz real e o valor pr´oprio λj for real, ent˜ao ao procurar os vectores pr´oprios de A associados a λj ´e natural restringirmo-nos a vectores de Rn , e tomar N (A − λj I) como subespa¸co de Rn . Mas se λj for um n´ umero complexo n˜ao real — ou se A for uma matriz complexa n˜ao real — ent˜ao os vectores pr´oprios de A associados a λj ser˜ao procurados em Cn , e N (A − λj I) ser´a nesse caso um subespa¸co de Cn . 138 · ¸ 4 −2 Exemplo 7.5 O polin´omio caracter´ıstico da matriz A = ´e λ2 −5λ+6 = (λ−3)(λ−2). 1 1 µ· ¸¶ 2 O subespa¸co pr´oprio de A associado ao valor pr´oprio 3 ´e L . O subespa¸co pr´oprio de A 1 µ· ¸¶ 1 associado ao valor pr´oprio 2 ´e L . 1 Exemplo 7.6 Consideremos a matriz · A= cos θ sen θ −sen θ cos θ ¸ . O seu polin´omio caracter´ıstico ´e · det(A − λI) = det cos θ − λ sen θ −sen θ cos θ − λ ¸ = λ2 − 2 cos θ + 1 cujas ra´ızes s˜ao os n´ umeros complexos cos θ ± i sen θ. Confirma-se assim que, tal como observado h´a pouco (a prop´osito do efeito geom´etrico de A nos vectores de R2 ), se θ n˜ao for m´ ultiplo de π a matriz A n˜ao tem valores pr´oprios reais, e portanto n˜ao tem vectores pr´oprios em R2 . Os seus vectores pr´oprios v˜ao ser as solu¸c˜oes de sistemas homog´eneos com matrizes 2 × 2 de elementos complexos e portanto v˜ao pertencer a C2 . Exerc´ıcios 1. (a) Mostre que uma matriz ´e singular se e s´o se 0 for valor pr´oprio dela. (b) Prove que matrizes semelhantes tˆem os mesmos valores pr´oprios. (c) Mostre que os valores pr´oprios de uma matriz triangular s˜ao os seus elementos diagonais. (d) Comparando os respectivos polin´omios caracter´ısticos, prove que A e AT tˆem os mesmos valores pr´oprios. 2. Seja A uma matriz n × n com valores pr´oprios λ1 , λ2 , . . . , λn . Sendo α um n´ umero qualquer, mostre que: (a) Os valores pr´oprios da matriz A + αI s˜ao λ1 + α, λ2 + α, . . . , λn + α. (b) Os valores pr´oprios da matriz αA s˜ao αλ1 , αλ2 , . . . , αλn . 3. Uma matriz A diz-se nilpotente se existir um natural k tal que Ak = 0. (a) Dˆe um exemplo de uma matriz nilpotente n˜ao nula. (b) Prove que os valores pr´oprios de uma matriz nilpotente s˜ao todos iguais a zero. · ¸ B C 4. Seja A = , uma matriz n × n, onde B e D s˜ao quadradas. Mostre que os valores 0 D pr´oprios de A s˜ao os de B reunidos com os de D. 5. Dˆe exemplos que mostrem que os valores pr´oprios de uma matriz podem mudar quando: (a) Se subtrai de uma linha um m´ ultiplo de outra linha; 139 (b) Se trocam entre si duas linhas da matriz. Deste exerc´ıcio conclui-se que para calcular os valores pr´oprios de uma matriz n˜ao se pode aplicar o m´etodo de elimina¸c˜ao de Gauss `a matriz. 6. Sendo A uma matriz n × n, prove que o determinante de A ´e igual ao produto dos valores pr´oprios de A. (Sugest˜ao: O polin´omio caracter´ıstico de A ´e igual a det(A−λI) e, por outro lado, ´e tamb´em igual a (−1)n (λ − λ1 ) · · · (λ − λn ), onde λ1 , . . . , λn s˜ao os valores pr´oprios de A. Calcule os termos independentes destes dois polin´omios.) 7. O tra¸ co de uma matriz quadrada define-se como a soma dos seus elementos diagonais. Prove que o tra¸co de uma matriz quadrada ´e igual `a soma dos seus valores pr´oprios. 7.2 Matrizes diagonaliz´ aveis Sendo A n×n, suponhamos que A tem n vectores pr´oprios v1 , . . . , vn linearmente independentes associados aos valores pr´oprios λ1 , λ2 , . . . , λn , respectivamente. Ent˜ao podemos descobrir uma “estrutura escondida”na matriz A: sendo V a matriz cujas colunas s˜ao v1 , v2 , . . . , vn e D a matriz diagonal cujos elementos diagonais s˜ao λ1 , λ2 , . . . , λn , as n igualdades Av1 = λ1 v1 , Av2 = λ2 v2 , . . . , Avn = λn vn podem resumir-se na igualdade matricial AV = V D, ou seja A = V DV −1 . (V ´e invert´ıvel porque as suas colunas s˜ao linearmente independentes.) Defini¸c˜ ao 7.5 Uma matriz quadrada A diz-se diagonaliz´ avel se existir uma matriz invert´ıvel V e uma matriz diagonal D tais que A = V DV −1 . Quando tal acontece, V diz-se uma matriz diagonalizante de A. Conforme definimos antes, duas matrizes A e B dizem-se semelhantes se existir V invert´ıvel tal que A = V BV −1 . Usando essa terminologia, A ´e diagonaliz´avel se for semelhante a uma matriz diagonal. Note-se que, se tivermos uma factoriza¸c˜ao do tipo A = V DV −1 , com D diagonal, os elementos diagonais de D s˜ao necessariamente os valores pr´oprios de A, e as colunas de V s˜ao necessariamente vectores pr´oprios de A. A matriz D ´e portanto univocamente determinada por A (`a parte `a ordem dos elementos diagonais, que podemos alterar como quisermos alterando a ordem das colunas de V ). O mesmo n˜ao acontece com V , j´a que com os vectores pr´oprios h´a maior liberdade de escolha. De acordo com o que foi visto, podemos enunciar o resultado seguinte: Teorema 7.4 Uma matriz n × n A ´e diagonaliz´avel se se s´o se tiver n vectores pr´oprios linearmente independentes. 140 ´ importante observar que uma matriz real pode n˜ao ser diagonaliz´avel se nos E restringirmos a trabalhar com os n´ umeros reais, mas j´a o ser se admitirmos n´ umeros complexos. · Exemplo 7.7 1. A matriz real A = 4 1 ¸ · · 4 1 −2 1 = ¸ −2 1 ´e diagonaliz´avel. De facto, tem-se ¸· 2 1 1 1 3 0 0 2 ¸· 2 1 1 1 ¸−1 . (Exerc´ıcio: Encontre outras matrizes diagonalizantes para A.) · ¸ 7 1 2. A matriz real n˜ao ´e diagonaliz´avel, porque o subespa¸co pr´oprio associado ao valor 0 7 pr´oprio (duplo) 7 tem dimens˜ao 1 (verifique), e portanto ´e imposs´ıvel encontrar dois vectores pr´oprios da matriz que sejam linearmente independentes. Outra maneira de ver que esta matriz n˜ao ´e diagonaliz´avel ´e observar que, se fosse, ter-se-ia A = V 7IV −1 = 7IV V −1 = 7I, absurdo. · ¸ 0 −1 3. A matriz n˜ao ´e diagonaliz´avel sobre R porque, como vimos, n˜ao tem valores 1 0 pr´oprios reais. Sobre C a matriz ´e diagonaliz´avel, tendo-se · 0 1 −1 0 ¸ · = i 1 1 i ¸· i 0 0 −i ¸· i 1 1 i ¸−1 . Com os resultados seguintes vamos tentar compreender melhor em que condi¸c˜oes uma matriz A ´e ou n˜ao diagonaliz´avel e, caso o seja, como determinar uma matriz diagonalizante. Teorema 7.5 Sejam λ1 , . . . , λr valores pr´oprios de A distintos dois a dois e, para cada j = 1, . . . , r, seja Xj um conjunto de vectores pr´oprios de A linearmente independentes associados a λj . Ent˜ao X1 ∪. . .∪Xr ´e um conjunto de vectores linearmente independentes. Demonstra¸c˜ ao. Apresenta-se apenas a demonstra¸ca˜o para r = 2. O caso geral pode provar-se recorrendo a indu¸ca˜o sobre r, adaptando a t´ecnica usada neste caso particular. Sejam ent˜ao λ1 , λ2 dois valores pr´oprios de A distintos e {v1 , . . . , vs }, {u1 , . . . , ut } dois conjuntos de vectores pr´oprios de A linearmente independentes associados a λ1 e λ2 , respectivamente. Para provarmos que v1 , . . . , vs , u1 , . . . , ut s˜ao linearmente independentes, multiplique-se por A e por λ2 a seguinte equa¸c˜ao vectorial: α1 v1 + . . . + αs vs + β1 u1 + . . . + βt ut = 0. Como Avi = λ1 vi e Auj = λ2 uj , da multiplica¸ca˜o por A obt´em-se α1 λ1 v1 + . . . + αs λ1 vs + β1 λ2 u1 + . . . + βt λ2 ut = 0 . A multiplica¸ca˜o por λ2 d´a α1 λ2 v1 + . . . + αs λ2 vs + β1 λ2 u1 + . . . + βt λ2 ut = 0 . 141 Subtraindo a segunda destas equa¸c˜oes `a primeira, vem α1 (λ1 − λ2 )v1 + . . . + αs (λ1 − λ2 )vs = 0, o que implica α1 = 0, . . . , αs = 0, uma vez que v1 , . . . , vs s˜ao linearmente independentes e λ1 6= λ2 . Mas agora a equa¸c˜ao inicial reduz-se a β1 u1 +. . .+βt ut = 0, o que , pelo facto de u1 , . . . , ut serem linearmente independentes, implica β1 = 0, . . . , βt = 0. Conclui-se assim que v1 , . . . , vs , u1 , . . . , ut s˜ao linearmente independentes. Os dois corol´arios seguintes s˜ao consequˆencias imediatas deste teorema. Corol´ ario 7.1 Vectores pr´oprios de A associados a valores pr´oprios distintos s˜ao linearmente independentes, isto ´e, se λ1 , . . . , λr s˜ao valores pr´oprios de A distintos dois a dois e v1 , . . . , vr s˜ ao vectores pr´oprios de A associados a λ1 , . . . , λr , respectivamente, ent˜ao v1 , . . . , vr s˜ao linearmente independentes. Corol´ ario 7.2 Seja A n × n. Se A tiver n valores pr´oprios distintos ent˜ao ´e diagonaliz´avel. Podemos agora precisar a anterior condi¸c˜ao necess´aria e suficiente para a diagonalizabilidade de uma matriz. Teorema 7.6 Seja A n × n e suponhamos que λ1 , . . . , λr s˜ ao todos os seus valores pr´oprios, considerados sem repeti¸c˜ oes. Ent˜ao A ´e diagonaliz´avel se e s´o se dim N (A − λ1 I) + · · · + dim N (A − λr I) = n . Demonstra¸c˜ ao. Para i = 1, . . . , r, seja Bi uma base de N (A − λi I). Pelo teorema anterior, os vectores do conjunto B1 ∪ . . . ∪ Br s˜ao linearmente independentes. Se dimN (A − λ1 I) + · · · + dimN (A − λr I) = n, ent˜ao B1 ∪ · · · ∪ Br tem n elementos que s˜ao vectores pr´oprios de A linearmente independentes. Logo A ´e diagonaliz´avel. Reciprocamente, suponhamos que A ´e diagonaliz´avel. Seja q = dimN (A − λ1 I) + · · · + dimN (A − λr I). Sejam v1 , · · · , vn vectores pr´oprios de A linearmente independentes. Para i = 1, . . . , r, suponhamos que mi destes vectores s˜ao associados a λi . Ent˜ao tem-se dimN (A − λi I) ≥ mi donde q ≥ m1 + . . . + mr = n. Mas n´os sabemos que B1 ∪ . . . ∪ Br ´e um conjunto de vectores n × 1 linearmente independentes. Logo q ≤ n. Destas duas desigualdades obt´em-se q = n, como pretendido. Se A n × n for diagonaliz´avel e λ1 , . . . , λr forem todos os seus valores pr´oprios considerados sem repeti¸co˜es, acab´amos de ver nesta demonstra¸ca˜o que um processo para obter n vectores pr´oprios de A linearmente independentes (isto ´e, as colunas de uma matriz diagonalizante de A) consiste em reunir bases dos subespa¸cos N (A − λ1 I), . . ., N (A − λr I). 142   0 1 3 Exemplo 7.8 1. Considere-se a matriz A =  0 1 0  . Sendo triangular superior, os 0 0 1 seus valores pr´oprios s˜ao os elementos da sua diagonal principal: 0, 1, 1. Calculando os subespa¸cos pr´oprios associados, N (A − I) = N (A − 1I) e N (A) = N (A − 0I), obt´em-se:        a + 3b   c   : a, b ∈ R a N (A − I) =  e N (A) =  0  : c ∈ R .     b 0 Ent˜ao    3 1  1  ,  0  1 0  1  0  0   e s˜ao bases de N (A − I) e N (A), respectivamente. Assim dimN (A − I) + dimN (A) = 3 e A ´e diagonaliz´avel. Ter-se-´a A = V DV −1 , onde     1 3 1 1 0 0 V =  1 0 0  e D =  0 1 0 . 0 0 0 0 1 0   5 0 3 2. Seja agora A =  12 2 16  . O seu polin´omio caracter´ıstico tem a factoriza¸c˜ao (−λ + −6 0 −4 2 2)(λ − λ − 2) e, portanto, os valores pr´oprios de A s˜ao −1, 2, 2. O c´alculo dos subespa¸cos pr´oprios associados d´a:       − 21 a   0   : a∈R  b : b∈R . a e N (A − 2I) = N (A + I) =  − 10 3     0 a Estes dois subespa¸cos tˆem dimens˜ao 1. Logo dimN (A + I) + dimN (A − 2I) < 3 e A n˜ao ´e diagonaliz´avel. Defini¸c˜ ao 7.6 A dimens˜ao do subespa¸co pr´oprio associado a um valor pr´oprio de uma matriz chama-se multiplicidade geom´ etrica do valor pr´oprio. Portanto, um valor pr´oprio de uma matriz quadrada tem dois tipos de multiplicidade: a alg´ebrica (isto ´e, a multiplicidade desse valor pr´oprio como ra´ız do polin´omio caracter´ıstico da matriz) e a geom´etrica. O resultado seguinte mostra como essas duas multiplicidades est˜ao relacionadas. Teorema 7.7 A multiplicidade geom´etrica de um valor pr´oprio nunca excede a sua multiplicidade alg´ebrica. Demonstra¸c˜ ao. Seja A n × n a matriz. Seja λj um valor pr´oprio qualquer de A e designemos por k a multiplicidade geom´etrica de λj como valor pr´oprio de A. Sejam v1 , . . . , vk vectores pr´oprios de A linearmente independentes associados 143 a λj . Juntemos-lhes n − k vectores de modo a obter n vectores n × 1 linearmente independentes. Designemos por V a matriz cujas colunas s˜ao esses n vectores. Ent˜ao V ´e da forma V = [W Z], onde W ´e a matriz n × k cujas colunas · ¸ s˜ao v1 , . . . , vk . A I matriz V ´e invert´ıvel, e de V −1 V = I tiramos que V −1 W = k . 0 Como Av1 = λj v1 , . . . , Avk = λj vk , tem-se AV = [Av1 · · · Avk AZ] = [λj v1 · · · λj vk AZ] = [λj W AZ] donde · V −1 AV = V −1 ¸ λj Ik ∗ [λj W AZ] = [λj V W V AZ] = . 0 ∗ −1 −1 Calculando o polin´omio caracter´ıstico desta u ´ltima matriz, vemos que (λ − λj )k ´e factor desse polin´omio, e portanto V −1 AV tem λj como valor pr´oprio com multiplicidade alg´ebrica pelo menos k. Como A e V −1 AV tˆem os mesmos valores pr´oprios, conclu´ımos que a multiplicidade alg´ebrica de λj como valor pr´oprio de A ´e pelo menos k, que era o que pretend´ıamos provar. Exerc´ıcios 1. (a) Prove que a caracter´ıstica de uma matriz A diagonaliz´avel ´e igual ao n´ umero de valores pr´oprios n˜ao nulos de A (contados cada um com a sua multiplicidade alg´ebrica). (b) Dˆe um exemplo que mostre que a afirma¸c˜ao anterior n˜ao ´e v´alida em geral para matrizes n˜ao diagonaliz´aveis. 2. Se A = V DV −1 , prove que Ak = V Dk V −1 para qualquer k ∈ N. · ¸ 1 2 3. Sendo A = , calcule A1000 . 3 4 4. Prove que uma matriz quadrada A ´e diagonaliz´avel se e s´o se, para todo o valor pr´oprio λj de A, a multiplicidade geom´etrica de λj for igual `a sua multiplicidade alg´ebrica. 5. Seja T : Rn → Rn uma transforma¸c˜ao linear. Prove que existe uma base relativamente `a qual T ´e representada por uma matriz diagonal se e s´o se a matriz que representa T relativamente `a base can´onica for diagonaliz´avel. 6. Diga se existe uma base de R2 relativamente `a qual a transforma¸c˜ao linear T : R2 → R2 definida por T (x, y) = (x + 2y, 3x + 4y) seja representada por uma matriz diagonal. 7.3 Um exemplo de aplica¸c˜ ao da diagonalizabilidade Uma equa¸c˜ ao diferencial ´e uma igualdade (que pode ser de v´arios tipos) em que aparece uma fun¸ca˜o desconhecida e as suas derivadas, procurando-se determinar 144 as fun¸co˜es que satisfazem essa igualdade. Talvez a equa¸ca˜o diferencial mais simples seja f 0 (t) = a.f (t) , onde a ´e um n´ umero e a vari´avel t pertence a um intervalo em R. Trivialmente, ´ simples qualquer fun¸c˜ao da forma Keat ´e uma solu¸ca˜o desta equa¸c˜ao diferencial. E ver que n˜ao h´a outras: se g(t) for uma solu¸ca˜o qualquer, tem-se £ ¤0 g(t)e−at = g 0 (t)e−at + g(t)(−ae−at ) = a.g(t)e−at − a.g(t)e−at = 0 e portanto g(t)e−at ´e uma constante K, ou seja tem-se g(t) = Keat . Suponhamos agora que temos, n˜ao uma, mas duas fun¸co˜es desconhecidas, f1 (t) e f2 (t), satisfazendo as duas igualdades seguintes: f10 (t) = a11 f1 (t) + a12 f2 (t) f20 (t) = a21 f1 (t) + a22 f2 (t) onde a11 , a12 , a21 , a22 s˜ao n´ umeros. A isto chama-se um sistema linear de equa¸c˜ oes diferenciais, que, introduzindo as nota¸c˜oes · ¸ · ¸ f1 (t) a11 a12 x(t) = , A= , f2 (t) a21 a22 se pode escrever abreviadamente assim: x0 (t) = Ax(t) . Dado um tal sistema, n˜ao ´e evidente como se pode tentar resolvˆe-lo, isto ´e, encontrar as fun¸c˜oes f1 (t) e f2 (t). Mas se a matriz A for diagonaliz´avel as coisas ficam muito simples. Porquˆe? Escreva-se A = V DV −1 e ponha-se y(t) = V −1 x(t) . Ent˜ao vˆe-se facilmente que o sistema dado ´e equivalente a y 0 (t) = Dy(t) o que, escrevendo · g (t) y(t) = 1 g2 (t) ¸ · d D= 1 0 , 0 d2 ¸ , ´e o mesmo que ter as duas equa¸co˜es separadas g10 (t) = d1 .g1 (t) e g20 (t) = d2 .g2 (t) . Mas estas equa¸co˜es j´a n´os sabemos resolver, tendo-se g1 (t) = K1 ed1 t e 145 g2 (t) = K2 ed2 t para certas constantes K1 e K2 . Ent˜ao tem-se · ¸ K1 ed1 t y(t) = K2 ed2 t e como x(t) = V y(t) obtemos as fun¸co˜es f1 (t) e f2 (t) pretendidas. Com um racioc´ınio exactamente an´alogo conseguimos resolver qualquer sistema linear de equa¸co˜es diferenciais da forma x0 (t) = Ax(t) com A n × n desde que a matriz A seja diagonaliz´avel. Exerc´ıcios 1. Mostre que a solu¸c˜ao geral do sistema linear de equa¸c˜oes diferenciais  0  f1 (t) = 5f1 (t) + 3f2 (t)  f20 (t) = −6f1 (t) − 4f2 (t) ´e dada por f1 (t) = K1 e2t + K2 e−t f2 (t) = −K1 e2t − 2K2 e−t onde K1 e K2 representam constantes. 7.4 O caso das matrizes sim´ etricas reais Nesta sec¸ca˜o dedicamos a nossa aten¸c˜ao `a importante classe das matrizes sim´etricas reais (e tamb´em das matrizes herm´ıticas). Veremos que s˜ao diagonaliz´aveis, com matrizes diagonalizantes de um tipo especial. Come¸camos com um importante facto sobre os valores pr´oprios de matrizes sim´etricas reais. Teorema 7.8 Se A ∈ Mn×n (R) for sim´etrica, A tem n valores pr´oprios reais. 146 Demonstra¸c˜ ao. Seja λ ∈ C um valor pr´oprio de A, e v ∈ Cn um vector pr´oprio associado a λ, digamos v = [α1 . . . αn ]T . Ent˜ao tem-se Av = λv. Multiplicando ambos os membros desta igualdade `a esquerda por v ∗ obt´em-se v ∗ Av = λ v ∗ v donde v ∗ Av . v∗v Ou sejaPλ ´e igual ao quociente entre dois n´ umeros reais: o denominador ´e simples2 mente |αj | ; quanto ao numerador, tem-se λ= v ∗ Av = (v ∗ Av)∗ = v ∗ A∗ v = v ∗ AT v = v ∗ Av . Apresentamos a seguir um resultado preparat´orio (mas que tem interesse por si). Teorema 7.9 (Teorema de Schur) Seja A uma matriz real quadrada qualquer. Se os valores pr´oprios de A forem todos reais, ent˜ao existe Q ortogonal tal que QT AQ ´e triangular superior (real, claro). Observa¸ c˜ ao. Recorde-se que Q ser ortogonal significa que a sua inversa ´e a sua transposta, isto ´e, QT Q = I, o que ´e equivalente a dizer que as colunas de Q constituem uma base ortonormada de Rn . Demonstra¸c˜ ao do teorema. Procedemos por indu¸c˜ao sobre n. Para n = 1, nada h´a a mostrar. Suponhamos a afirma¸c˜ao verdadeira para matrizes reais (n − 1) × (n − 1) e seja A n × n. Seja v1 ∈ Rn um vector pr´oprio de A, com norma 1, associado a um valor pr´oprio λ1 . Acrescentemos a v1 vectores v2 , . . . , vn de modo a obter uma base ortonormada de Rn e seja W a matriz n×n ortogonal cujas colunas s˜ao v1 , v2 , . . . , vn . Tem-se AW = [Av1 Av2 · · · Avn ] = [λ1 v1 Av2 · · · Avn ] vindo   v1T   v2T    [λ v Av · · · Av ] = W T AW =   2 n  ...  1 1   vnT  λ1 ∗ · · · ∗  0   ..  . A1 0 onde A1 ´e (n−1)×(n−1). Pela hip´otese de indu¸c˜ao, existe uma matriz (n−1)×(n−1) Q1 ortogonal tal que QT1 A1 Q1 ´e triangular superior. Pomos agora · ¸ 1 0 Q=W . 0 Q1 147 Ent˜ao Q ´e ortogonal, por ser o produto de duas matrizes ortogonais, e tem-se · ¸ · ¸ 1 0 1 0 T T Q AQ = W AW 0 QT1 0 Q1 · = · = 1 0 0 QT1 ¸· λ1 ∗ 0 A1 λ1 ∗ T 0 Q1 A1 Q1 ¸· 1 0 0 Q1 ¸ ¸ que ´e uma matriz triangular superior. Note-se que os elementos diagonais da matriz triangular obtida s˜ao exactamente os valores pr´oprios de A. Se A for complexa (ou real mas sem todos os valores pr´oprios reais), ent˜ao a triangulariza¸ca˜o permanece v´alida — e a demonstra¸c˜ao ´e an´aloga — mas agora sobre os complexos, devendo usar-se matrizes unit´arias em vez de ortogonais. Temse assim: Teorema 7.10 (Teorema de Schur para matrizes complexas) Se A for uma matriz complexa quadrada qualquer, existe U unit´ aria tal que U ∗ AU ´e triangular superior. Vejamos ent˜ao o resultado principal desta sec¸c˜ao. Teorema 7.11 Se A ∈ Mn×n (R) for sim´etrica, ´e diagonaliz´avel com uma matriz diagonalizante ortogonal, isto ´e, existe Q ortogonal tal que QT AQ ´e diagonal (real). Demonstra¸c˜ ao. Pelo Teorema de Schur, existe Q ortogonal tal que QTAQ = M , onde M ´e triangular superior. Transpondo ambos os membros obtemos QTAQ = M T , uma vez que AT = A. Ent˜ao M T = M . Como M ´e triangular, isto s´o pode acontecer se M for diagonal. Dada uma matriz sim´etrica real A, um processo de obter uma base ortonormada de Rn constitu´ıda por vectores pr´oprios de A (isto ´e, uma matriz ortogonal diagonalizante de A) baseia-se no resultado seguinte. Teorema 7.12 Vectores pr´oprios de uma matriz sim´etrica real A associados a valores pr´oprios distintos s˜ao dois a dois ortogonais, isto ´e, se λ1 , . . . , λr s˜ao valores pr´oprios de A distintos dois a dois e v1 , . . . , vr s˜ ao vectores pr´oprios de A associados a λ1 , . . . , λr , respectivamente, ent˜ao v1 , . . . , vr s˜ao dois a dois ortogonais. 148 Demonstra¸c˜ ao. Tomemos i 6= j. Tem-se Avi = λi vi e Avj = λj vj . Multiplicando ambos os membros da primeira destas igualdades `a esquerda por vjT obtemos vjT Avi = λi vjT vi . Mas, como A ´e sim´etrica, tem-se vjT Avi = vjT AT vi = (Avj )T vi = (λj vj )T vi = λj vjT vi . Logo, tem-se λi vjT vi = λj vjT vi , ou seja λi hvi , vj i = λj hvi , vj i . Como λi 6= λj , tem que ser hvi , vj i = 0. Ent˜ao se A n × n for sim´etrica real e λ1 , . . . , λr forem todos os seus valores pr´oprios considerados sem repeti¸c˜oes, um processo de obter uma base ortonormada de Rn constitu´ıda por vectores pr´oprios de A (isto ´e, as colunas de uma matriz ortogonal diagonalizante de A), consiste em construir bases ortonormadas dos subespa¸cos N (A − λ1 I), . . . , N (A − λr I) e depois reunir todas essas bases. Resultados inteiramente an´alogos a estes s˜ao v´alidos, com a mesma demonstra¸ca˜o, para matrizes herm´ıticas, isto ´e, matrizes complexas A que satisfazem A = A∗ (onde A∗ = A T ). As matrizes ortogonais, nesse contexto, s˜ao substitu´ıdas pelas matrizes unit´arias. Tem-se portanto: Teorema 7.13 Seja A ∈ Mn×n (C) herm´ıtica. Ent˜ao: 1. A tem n valores pr´oprios reais. 2. A ´e diagonaliz´avel com uma matriz diagonalizante unit´aria, isto ´e, existe U unit´aria tal que U ∗ AU ´e diagonal. 3. Vectores pr´oprios de A associados a valores pr´oprios distintos s˜ao dois a dois ortogonais (relativamente ao produto interno hx, yi = y ∗ x). Exerc´ıcios 1. Na demonstra¸c˜ao do Teorema 7.8, vimos que, se A for uma matriz sim´etrica real e λ for um T valor pr´oprio de A com um vector pr´oprio associado v, se tem λ = vvTAv . Se v tiver norma v 1, ent˜ao λ = v T Av . Mostre que: (a) o maior dos valores pr´oprios de A ´e igual a max{xT Ax : kxk = 1}; (b) o menor dos valores pr´oprios de A ´e igual a min{xT Ax : kxk = 1}. 2. Uma matriz sim´etrica real diz-se definida positiva se os seus valores pr´oprios forem todos positivos. Mostre que uma matriz sim´etrica real A ´e definida positiva se e s´o se, para todos os vectores n˜ao-nulos x ∈ Rn , se tiver xTAx > 0. 149 3. Prove que, se A for uma matriz real m × n com caracter´ıstica n, a matriz ATA ´e definida positiva. 4. Dˆe um exemplo que mostre que uma matriz sim´etrica complexa n˜ao ´e necessariamente diagonaliz´avel. (Sugest˜ao: Procure uma matriz 2 × 2 com os dois valores pr´oprios iguais.) 5. Use o Teorema de Schur para dar uma nova demonstra¸c˜ao de que o tra¸co de uma matriz quadrada ´e igual `a soma dos seus valores pr´oprios. (Sugest˜ao: Comece por provar que, para quaisquer matrizes A e B, o tra¸co de AB ´e igual ao tra¸co de BA.) 7.5 Curvas e superf´ıcies do 2o grau Nesta sec¸ca˜o vamos aplicar o estudo feito sobre diagonaliza¸ca˜o de matrizes sim´etricas reais `a identifica¸ca˜o de curvas no plano e superf´ıcies no espa¸co definidas por equa¸c˜oes do 2o grau. Comecemos com as equa¸co˜es das c´onicas. Defini¸c˜ ao 7.7 Uma c´ onica ´e o lugar geom´etrico dos pontos do plano cujas coordenadas cartesianas satisfazem uma equa¸c˜ ao do segundo grau em duas vari´aveis a11 x2 + a22 y 2 + 2a12 xy + b1 x + b2 y + c = 0. Esta equa¸ca˜o da c´onica pode escrever-se na forma matricial X T AX + BX + c = 0, sendo · A= a11 a12 a12 a22 ¸ · , B = [ b1 b2 ] e X= ¸ x . y Escolhendo uma base ortonormada (um “referencial”) adequada ´e poss´ıvel dar `a ´ este o caso equa¸ca˜o da c´onica uma forma mais simples — a equa¸c˜ ao reduzida. E das equa¸c˜oes seguintes: x2 y 2 x2 y 2 + = 1, − 2 = 1 e y 2 = 2px, a2 b2 a2 b que representam, respectivamente, uma elipse, uma hip´erbole e uma par´abola. (Exerc´ıcio: Recorde o significado geom´etrico dos n´ umeros a, b e p.) Dada a equa¸ca˜o geral de uma c´onica, X T AX + BX + c = 0, como poderemos, atrav´es de mudan¸cas de referenciais ortonormados, obter uma sua equa¸ca˜o reduzida? A estrat´egia ser´a suprimir, em primeiro lugar, o termo 2a12 xy, e seguidamente fazer desaparecer tantos termos do 1o grau quanto poss´ıvel. Para a primeira destas tarefas, note-se que, como a matriz A ´e sim´etrica, existe Q ∈ M2×2 (R) ortogonal, tal que QT AQ = D, com D diagonal. As colunas de Q s˜ao vectores pr´oprios ortonormados de A e os elementos diagonais λ1 , λ2 ∈ R de D s˜ao os valores pr´oprios de A. 150 Tem-se ent˜ao A = QDQT e a equa¸ca˜o da c´onica vem X T QDQT X + BX + c = 0. Fa¸ca-se X 0 = QT X. Ent˜ao X 0T = X T Q (o que ´e o mesmo que X = QX 0 ) e, substituindo na equa¸ca˜o, obtemos X 0T DX 0 + BQX 0 + c = 0 · 0 ou seja, pondo X = x0 y0 ¸ e BQ = [d1 d2 ], 2 2 λ1 x0 + λ2 y 0 + d1 x0 + d2 y 0 + c = 0. J´a n˜ao tendo nenhum termo em xy nesta equa¸c˜ao passemos agora `a segunda fase do nosso plano. 1. Suponhamos λ1 6= 0, λ2 6= 0. “Completando quadrados”, chegamos a uma equa¸c˜ao do tipo λ1 (x0 +a0 )2 +λ2 (y 0 +b0 )2 +c0 = 0. Fazendo agora as substitui¸c˜oes x00 = x0 + a0 e y 00 = y 0 + b0 , obtemos a equa¸ca˜o 2 2 λ1 x00 + λ2 y 00 + c0 = 0 que ´e j´a uma equa¸ca˜o reduzida. 2. Suponhamos agora que λ1 = 0 (o caso λ2 = 0 ´e semelhante). A equa¸ca˜o X 0T DX 0 + BQX 0 + c = 0 fica λ2 y 0 2 + d1 x0 + d2 y 0 + c = 0. “Completando quadrados”com os termos em y 0 , vem λ2 (y 0 + b0 )2 + d1 x0 + c0 = 0. Fazendo a substitui¸c˜ao y 00 = y 0 + b0 , obtemos λ2 y 00 2 + d1 x0 + c0 = 0. Se d1 = 0, temos j´a uma equa¸c˜ao conhecida. Se d1 6= 0, 0 fazemos x00 = x0 + dc1 , para eliminarmos o termo independente, e ficamos com a equa¸ca˜o, tamb´em conhecida, 2 λ2 y 00 + d1 x00 = 0. Acab´amos de ver que por mudan¸cas de coordenadas do tipo X 0 = QT X e X 00 = X + K, com K ∈ R2 , chegamos da equa¸c˜ao geral de uma c´onica a uma equa¸ca˜o reduzida. 0 Que tipo de novos eixos obtemos? Note-se que a mudan¸ca X 00 = X 0 + K corresponde a uma transla¸ca˜o. Vejamos agora quais s˜ao os novos eixos obtidos atrav´es da mudan¸ca de coordenadas dada por X 0 = QT X. Como X = QX 0 , vemos, pelo Teorema 4.9, que fizemos uma mudan¸ca da base can´onica {e1 , e2 } para outra base. A matriz da mudan¸ca ´e precisamente Q. O primeiro dos novos eixos ´e gerado pelo vector cujas novas coordenadas s˜ao 1 e 0, isto ´e, pelo vector X que satisfaz e1 = QT X. Esse vector ´e Qe1 , isto ´e, trata-se da primeira coluna de Q. Analogamente, o segundo dos novos eixos ´e gerado pela 151 segunda coluna de Q. Ou seja: a mudan¸ca X 0 = QT X faz-nos mudar para um referencial ortonormado cujos eixos s˜ao gerados por vectores pr´oprios ortonormados de A. A esse referencial subjaz a base {Qe1 , Qe2 }. Apresentamos seguidamente as poss´ıveis equa¸co˜es reduzidas das c´onicas. N˜ao 2 2 indicamos as equa¸co˜es que conduzem a conjuntos vazios (por exemplo xa2 + yb2 = −1) , nem as equa¸co˜es que podem ser obtidas das indicadas trocando os pap´eis de x e de y. x2 y 2 + 2 =1 a2 b Elipse x2 y 2 − 2 =1 a2 b Hip´erbole x2 = 2py Par´ abola x2 y 2 + 2 =0 a2 b Um ponto x2 y 2 − 2 =0 a2 b Duas rectas concorrentes x2 = c 2 Duas rectas paralelas x2 = 0 Duas rectas coincidentes * Passemos agora ao estudo das superf´ıcies no espa¸co definidas por equa¸c˜oes do 2o grau. Defini¸c˜ ao 7.8 Uma qu´ adrica ´e o lugar geom´etrico dos pontos do espa¸co cujas coordenadas cartesianas satisfazem uma equa¸c˜ ao do segundo grau em trˆes vari´aveis a11 x2 + a22 y 2 + a33 z 2 + 2a12 xy + 2a13 xz + 2a23 yz + b1 x + b2 y + b3 z + c = 0. Esta equa¸ca˜o tem a express˜ao matricial X T AX + BX + c = 0, sendo 152     a11 a12 a13 x    A = a12 a22 a23 , B = [ b1 b2 b3 ] e X = y  . a13 a23 a33 z Tal como no caso das c´onicas, podemos da equa¸ca˜o geral chegar a uma equa¸c˜ao reduzida da qu´adrica. Para tal suprimimos primeiro os termos mistos da “parte quadr´atica”, isto ´e, os mon´omios de grau 2 envolvendo duas vari´aveis. Seguidamente anulamos todos os termos de grau 1 que nos for poss´ıvel. Estas opera¸co˜es s˜ao feitas recorrendo a mudan¸cas de vari´aveis dos tipos 1. X 0 = QT X, onde Q ´e uma matriz ortogonal que diagonaliza A. 2. X 00 = X 0 + K, com K ∈ R3 . No primeiro destes casos fazemos uma mudan¸ca de eixos, sendo os novos eixos gerados por vectores pr´oprios de A ortonormados — as colunas de Q. No segundo caso efectuamos uma transla¸ca˜o do sistema de eixos. Apresentamos seguidamente uma lista das equa¸co˜es reduzidas das principais qu´adricas. Tal como no caso das c´onicas, a classifica¸c˜ao das qu´adricas ´e baseada nas v´arias possibilidades para os sinais dos valores pr´oprios da matriz A. x2 y 2 z 2 + 2 + 2 =1 a2 b c Elips´ oide x2 y 2 z 2 + 2 − 2 =1 a2 b c Hiperbol´ oide de uma folha x2 y 2 z 2 − 2 − 2 =1 a2 b c Hiperbol´ oide de duas folhas x2 y 2 z 2 + 2 − 2 =0 a2 b c Superf´ıcie c´onica x2 y 2 + 2 = 2pz (p 6= 0) a2 b Parabol´ oide el´ıptico x2 y 2 − 2 = 2pz (p 6= 0) a2 b Parabol´ oide hiperb´ olico A seguir encontram-se ilustra¸co˜es destas superf´ıcies, reproduzidas do livro In´ trodu¸c˜ ao `a Algebra Linear e Geometria Anal´ıtica, de F. R. Dias Agudo (Lisboa, 1972). 153 Elips´oide Hiperbol´oide de uma folha 154 Hiperbol´oide de duas folhas Superf´ıcie c´onica 155 Parabol´oide el´ıptico Parabol´oide hiperb´olico 156 Observa¸ c˜ oes. 1. No espa¸co, uma equa¸ca˜o reduzida em que uma das vari´aveis n˜ao apare¸ca representa uma superf´ıcie de tipo cil´ındrico. Por exemplo, uma equa¸ca˜o do tipo x2 y 2 + 2 =1 a2 b representa uma superf´ıcie cil´ındrica, com geratrizes paralelas ao eixo z, e cuja intersec¸ca˜o com o plano z = 0 ´e a elipse com aquela equa¸ca˜o. J´a uma equa¸ca˜o do tipo x2 y 2 − 2 =1 a2 b representa uma superf´ıcie cil´ındrica hiperb´olica. E analogamente para outras equa¸co˜es reduzidas do tipo ϕ(x, y) = 0 (ou ϕ(x, z) = 0, ou ϕ(y, z) = 0). 2. Uma superf´ıcie definida por uma equa¸ca˜o do segundo grau que n˜ao tenha parte linear (isto ´e, de grau 1) diz-se centrada, j´a que a origem ´e um centro de simetria (um ponto (x, y, z) pertence `a superf´ıcie se e s´o se (−x, −y, −z) tamb´em lhe pertence). 3. Se na equa¸c˜ao reduzida do elips´oide dois dos n´ umeros a, b, c forem iguais, o elips´oide diz-se de revolu¸ c˜ ao, pois pode ser obtido pela rota¸ca˜o de uma elipse em torno de um eixo (sendo circulares as sec¸co˜es da superf´ıcie por planos perpendiculares a esse eixo). Tamb´em os dois tipos de hiperbol´oide, a superf´ıcie c´onica e o parabol´oide el´ıptico podem ser de revolu¸ca˜o. Exerc´ıcios   x 1. Sendo X =  y , ache uma matriz sim´etrica real A tal que z −2x2 + 7y 2 + 4z 2 + 4xy + 16xz + 20yz = X TAX . 7.6 Estudo da semelhan¸ca de matrizes ´ simples ver que a rela¸ca˜o de semelhan¸ca entre matrizes ´e uma rela¸ca˜o de E equivalˆencia (isto ´e, satisfaz as propriedades reflexiva, sim´etrica e transitiva). Duas quest˜oes surgem com naturalidade: • Dadas duas matrizes, como saber se elas s˜ao semelhantes? • Dada uma matriz, existir´a alguma matriz simples semelhante a ela? 157 Relativamente `a primeira pergunta, existem testes simples que podem ser usados para concluir que duas dadas matrizes n˜ao s˜ao semelhantes: Teorema 7.14 Se A e B forem semelhantes, ent˜ao 1. A e B tˆem o mesmo determinante; 2. A e B tˆem o mesmo polin´ omio caracter´ıstico; 3. A e B tˆem os mesmos valores pr´oprios (incluindo as multiplicidades). Demonstra¸c˜ ao. 1. Se A = SBS −1 , ent˜ao det(A) = det(SBS −1 ) = det(S) det(B) det(S −1 ) = det(S) det(B) det(S)−1 = det(B). 2. Se A = SBS −1 , tem-se A − λI = SBS −1 − λI = SBS −1 − λSS −1 = S(B − λI)S −1 , ou seja A − λI e B − λI s˜ao semelhantes, pelo que tˆem o mesmo determinante. 3. Este facto segue imediatamente da al´ınea anterior. Se procurarmos relacionar os vectores pr´oprios de duas matrizes semelhantes, vemos que n˜ao s˜ao s´o as multiplicidades alg´ebricas dos valores pr´oprios que coincidem: Teorema 7.15 Se A = SBS −1 , ent˜ao: 1. N (A) = {Sy : y ∈ N (B)}; 2. Para todo o λ, tem-se N (A − λI) = {Sy : y ∈ N (B − λI)}; 3. Qualquer que seja o valor pr´oprio λj de A e B, tem-se dim N (A − λj I) = dim N (B − λj I). Demonstra¸c˜ ao. 1. Tem-se N (A) = = = = = {x : Ax = 0} {x : SBS −1 x = 0} {x : BS −1 x = 0} {Sy : By = 0} {Sy : y ∈ N (B)}. 2. Segue-se da al´ınea anterior, porque A − λI = S(B − λI)S −1 . 158 3. Isto ´e consequˆencia da al´ınea anterior, porque quando se multiplicam todos os vectores de um subespa¸co por uma mesma matriz invert´ıvel obt´em-se um subespa¸co de igual dimens˜ao. Vemos assim que, se A e B forem semelhantes, a multiplicidade geom´etrica (isto ´e, a dimens˜ao do subespa¸co pr´oprio) ´e a mesma para cada valor pr´oprio de A e B. Mas este conjunto de condi¸co˜es n˜ao ´e suficiente para duas matrizes serem semelhantes. De facto, podemos identificar mais quantidades que s˜ao invariantes por semelhan¸ca. Defini¸c˜ ao 7.9 Seja A uma matriz n × n e seja λj um valor pr´oprio de A. Chamamos subespa¸co pr´ oprio generalizado de A associado a λj a qualquer subespa¸co da forma N [(A − λj I)k ], com k ∈ N. Aos elementos n˜ao nulos de um subespa¸co pr´oprio generalizado chamamos vectores pr´ oprios generalizados. ´ ´obvio que se tem E N (A − λj I) ⊆ N [(A − λj I)2 ] ⊆ N [(A − λj I)3 ] ⊆ · · · Teorema 7.16 Se A e B forem semelhantes, ent˜ao, qualquer que seja o valor pr´oprio λj de A e B, tem-se dim N [(A − λj I)k ] = dim N [(B − λj I)k ] , k = 1, 2, 3, . . . . Demonstra¸c˜ ao. Sendo A = SBS −1 , tem-se A − λj I = S(B − λj I)S −1 . Daqui tira-se que (A − λj I)k = S(B − λj I)k S −1 , donde N [(A − λj I)k ] = {Sy : y ∈ N [(B − λj I)k ]}. Agora repetimos o racioc´ınio do ponto 3 do Teorema anterior.  α 0 Exemplo 7.9 Sejam A =  0 0 Ent˜ao: 0 α 0 0 0 1 α 0   0 α 0 0  e B= 0 1 α 0 1 α 0 0 0 0 α 0  0 0 . 1 α 1. A e B tˆem os mesmos valores pr´oprios (α, com multiplicidade 4). 2. Os subespa¸cos pr´oprios de A e B tˆem a mesma dimens˜ao (dois); 3. A e B n˜ao s˜ao semelhantes, porque dim N [(A − αI)2 ] = 3 e dim N [(B − αI)2 ] = 4. Passemos `a segunda das perguntas apresentadas: dada uma matriz, existir´a alguma matriz simples semelhante a ela? Um caso que j´a estud´amos o das matrizes diagonaliz´aveis, isto ´e, das matrizes semelhantes a matrizes diagonais. 159 · Exemplo 7.10 A matriz A = 4 1 −2 1 ¸ tem valores pr´oprios 3 e 2. Como estes s˜ao distintos, A · ¸ 3 0 ´e diagonaliz´avel, e ´e portanto semelhante `a matriz D = . 0 2 · ¸ 11 −6 A matriz B = tem os mesmos valores pr´oprios 3 e 2, e ´e portanto semelhante `a 12 −6 mesma matriz diagonal D. Podemos assim concluir que as duas matrizes A e B s˜ao semelhantes, por serem ambas semelhantes a uma mesma terceira matriz. Este exemplo mostra que o estudo da segunda pergunta lan¸car´a tamb´em luz sobre a primeira: se n´os soubermos que duas matrizes s˜ao ambas semelhantes a uma mesma matriz de forma simples, elas ser˜ao semelhantes uma `a outra. ´ interessante observar melhor o que se passa na situa¸ca˜o das matrizes diagoE naliz´aveis. Como vimos na sec¸c˜ao 7.2, se A for diagonaliz´avel e λ1 , λ2 , . . . , λr forem todos os seus valores pr´oprios distintos, com multiplicidades m1 , m2 , . . . , mr , respectivamente, ent˜ao um processo para obter uma base de Rn (ou Cn , conforme o caso) constitu´ıda por vectores pr´oprios de A consiste em reunir bases dos subespa¸cos N (A − λ1 I), N (A − λ2 I), . . . , N (A − λr I), que tˆem exactamente dimens˜oes m1 , m 2 , . . . , m r . Nesse caso os subespa¸cos pr´oprios generalizados coincidem com os subespa¸cos pr´oprios: Teorema 7.17 Seja A diagonaliz´ avel. Se λj for um valor pr´oprio de A com multiplicidade mj , ent˜ao tem-se N [(A − λj I)k ] = N (A − λj I) , k = 1, 2, 3, . . . . Demonstra¸c˜ ao. Basta mostrar que dim N [(A−λj I)k ] = mj para todo o k, porque essa ´e a dimens˜ao de N (A − λj I) se A for diagonaliz´avel. Como A ´e diagonaliz´avel, A ´e semelhante a uma matriz diagonal que tem na diagonal o n´ umero λj exactamente mj vezes. Ent˜ao A − λj I ´e semelhante a uma matriz diagonal que tem exactamente mj zeros na diagonal, e portanto o mesmo acontece a (A − λj I)k para todo o k. Ou seja (A − λj I)k tem nulidade mj para todo o k. O que acontecer´a para matrizes quaisquer, n˜ao necessariamente diagonaliz´aveis? Na sec¸c˜ao 7.4 prov´amos que toda a matriz quadrada ´e semelhante a uma matriz triangular. O Teorema seguinte melhora esse resultado: Teorema 7.18 Seja A n × n, e sejam λ1 , . . . , λr os seus valores pr´oprios, considerados sem repeti¸c˜ oes. Para j = 1, 2, . . . , r, seja mj a multiplicidade alg´ebrica de λj , de forma que m1 + m2 + · · · + mr = n. Ent˜ao A ´e semelhante a uma matriz da 160 forma      A1 0 0 A2 .. .. . . 0 0 onde, para j = 1, 2, . . . , r, Aj ´e do tipo elementos diagonais iguais a λj :  λj  0  Aj =  ..  . 0 ... ... .. . 0 0 .. .      . . . Ar mj × mj , triangular superior e com todos os ∗ ... ∗ λj . . . ∗ .. . . . . .. . 0 . . . λj    .  Demonstra¸c˜ ao. Pelo Teorema de Schur, sabemos que A ´e semelhante a uma matriz triangular, que obviamente tem os valores pr´oprios na diagonal (essa semelhan¸ca pode ser feita com uma matriz ortogonal — ou unit´aria, no caso complexo — mas isso na situa¸ca˜o actual n˜ao nos interessa). Como vimos na demonstra¸ca˜o do Teorema de Schur, podemos obter na diagonal os valores pr´oprios por qualquer ordem previamente escolhida. Coloquemos ent˜ao na diagonal os valores pr´oprios pela seguinte ordem: λ1 , . . . , λ1 (m1 vezes), λ2 , . . . , λ2 (m2 vezes), e assim sucessivamente. Ent˜ao, A ´e semelhante a uma matriz da forma   A1 A12 . . . A1r  0 A2 . . . A2r    B =  .. .. . . ..   . . .  . 0 0 . . . Ar onde, para j = 1, 2, . . . , r, Aj ´e do tipo elementos diagonais iguais a λj :  λj  0  Aj =  ..  . 0 mj × mj , triangular superior e com todos os ∗ ... ∗ λj . . . ∗ .. . . . . .. . 0 . . . λj    .  O que pretendemos agora ´e mostrar que B ´e semelhante `a matriz diagonal por blocos   A1 0 . . . 0  0 A2 . . . 0     .. .. . . ..   . . .  . 0 0 . . . Ar referida no enunciado. Usaremos as matrizes elementares Eij (α). Recorde-se que (Eij (α))−1 = Eij (−α). Vamos ver que, com uma sequˆencia de semelhan¸cas usando matrizes deste tipo, conseguimos substituir todos os blocos Aij (por cima da diagonal de blocos) por blocos nulos. 161 Sendo i < j, vejamos que efeito tem a semelhan¸ca com a matriz Eij (α) numa matriz triangular superior T = [tij ]. Como sabemos, multiplicar uma matriz `a esquerda por Eij (−α) tem por efeito adicionar `a linha i a linha j multiplicada por −α. Por sua vez, multiplicar uma matriz `a direita por Eij (α) tem por efeito adicionar `a coluna j a coluna i multiplicada por α. Se i < j e T for triangular superior, multiplicar T `a esquerda por Eij (−α) apenas altera o elemento que est´a na posi¸ca˜o (i, j) e os elementos que est˜ao `a sua direita na linha i, e multiplicar T `a direita por Eij (α) apenas altera o elemento que est´a na posi¸ca˜o (i, j) e os elementos que est˜ao por cima dele na coluna j. Assim, se i < j e T for triangular superior, a semelhan¸ca usando Eij (α) apenas altera o elemento que est´a na posi¸ca˜o (i, j) e os elementos que est˜ao `a direita e por cima dele:  Eij (−α) · T · Eij (α) =           j ↓ ∗ .. .     ∗ · · · ∗ ← i      (os elementos assinalados com ∗ s˜ao os u ´nicos elementos de T modificados pela semelhan¸ca). Como na posi¸c˜ao (i, j) fica tij +α(tii −tjj ), podemos, desde que tii 6= tjj , escolher α de modo que na posi¸ca˜o (i, j) fique um zero: basta tomar α= −tij . tii − tjj Vamos efectuar uma sequˆencia de semelhan¸cas deste tipo come¸cando com a matriz   A1 A12 . . . A1r  0 A2 . . . A2r     .. .. . . ..   . . . .  0 0 . . . Ar onde, para j = 1, 2, . . . , r, Aj ´e do tipo mj × mj , triangular superior e com todos os elementos diagonais iguais a λj . O objectivo final ´e substituir todos os blocos n˜ao-diagonais por blocos nulos. Come¸camos por tornar nulos todos os elementos da u ´ltima linha do bloco Ar−1,r , do mais `a esquerda at´e ao mais `a direita. Depois os da pen´ ultima linha desse bloco, tamb´em da esquerda para a direita. E assim sucessivamente, at´e todo esse bloco ser substitu´ıdo por um bloco nulo. Para fazer isto, us´amos evidentemente o facto de que, para cada elemento do bloco Ar−1,r , os elementos diagonais que est˜ao na linha e na coluna desse elemento s˜ao, respectivamente, λr−1 e λr , que s˜ao distintos. 162 A seguir, sempre trabalhando de baixo para cima e da esquerda para a direita (para n˜ao “estragar”os zeros j´a criados), substitu´ımos os blocos Ar−2,r−1 e Ar−2,r por blocos nulos. Us´amos aqui o facto de que λr−2 6= λr−1 e λr−2 6= λr . E assim sucessivamente, at´e chegarmos `a forma diagonal por blocos pretendida. Observa¸ c˜ oes. Da demonstra¸ca˜o do Teorema conclui-se que: 1. Se A for real e tiver valores pr´oprios reais, a semelhan¸ca faz-se com uma matriz real. 2. A matriz de semelhan¸ca n˜ao ´e necessariamente ortogonal. Deste Teorema podem tirar-se v´arias consequˆencias. A primeira ´e que as colunas da matriz S tal que S −1 AS tem a forma diagonal por blocos indicada no Teorema s˜ao vectores pr´oprios generalizados de A: Corol´ ario 7.3 Seja A n × n, e sejam λ1 , . . . , λr os seus valores pr´oprios distintos, com multiplicidades m1 , m2 , . . . , mr , respectivamente. Seja S invert´ıvel tal que   A1 0 . . . 0  0 A2 . . . 0    S −1 AS =  .. .. . . ..  ,  . . . .  0 0 . . . Ar onde, para cada j, Aj ´e do tipo mj ×mj , triangular superior e com todos os elementos diagonais iguais a λj . Ent˜ao as primeiras m1 colunas de S s˜ ao vectores pr´oprios generalizados de A associados a λ1 , as m2 colunas seguintes s˜ao vectores pr´oprios generalizados de A associados a λ2 , etc. Demonstra¸c˜ ao. Vamos provar a afirma¸c˜ao relativa `as primeiras m1 colunas de S, que designamos por v1 , v2 , . . . , vm1 . (O racioc´ınio para as outras ´e an´alogo.) Seja W a matriz n×m1 cujas colunas s˜ao v1 , v2 , . . . , vm1 . Da igualdade matricial indicada no enunciado tiramos que AW = W A1 . Identificando as colunas destas duas matrizes (e designando os elementos de A1 por bij ), conclu´ımos que Av1 = λ1 v1 Av2 = b12 v1 + λ1 v2 Av3 = b13 v1 + b23 v2 + λ1 v3 ··· Avm1 = b1m1 v1 + b2m1 v2 + · · · + bm1 −1,m1 vm1 −1 + λ1 vm1 Daqui tiramos, sucessivamente, (A − λ1 I)v1 = 0 (A − λ1 I)v2 = b12 v1 , e portanto (A − λ1 I)2 v2 = 0 (A − λ1 I)v3 = b13 v1 + b23 v2 , e portanto (A − λ1 I)3 v3 = 0 ··· (A−λ1 I)vm1 = b1m1 v1 +b2m1 v2 +· · ·+bm1 −1,m1 vm1 −1 , e portanto (A−λ1 I)m1 vm1 = 0 . 163 Conforme mostra a demonstra¸ca˜o, podemos ser mais precisos: das mj colunas de S que s˜ao vectores pr´oprios generalizados de A associados a λj , a primeira ´e um vector pr´oprio, a segunda pertence a N [(A − λj I)2 ], a terceira pertence a N [(A − λj I)3 ], etc. Do Corol´ario deduzimos que, para cada j, se tem dim N [(A − λj I)mj ] ≥ mj porque identific´amos mj vectores linearmente independentes pertencentes a N [(A − λj I)mj ]. Esta desigualdade ´e de facto uma igualdade: Teorema 7.19 Seja A n × n, e sejam λ1 , . . . , λr os seus valores pr´oprios distintos, com multiplicidades m1 , m2 , . . . , mr , respectivamente. Ent˜ao tem-se, para j = 1, 2, . . . , r, dim N [(A − λj I)mj ] = mj . Demonstra¸c˜ ao. A ´e semelhante a uma matriz diagonal por blocos, sendo estes blocos triangulares superiores. Um destes blocos, que ´e do tipo mj × mj , tem na diagonal o n´ umero λj (e os outros blocos tˆem na diagonal n´ umeros diferentes de λj ). Ent˜ao A − λj I ´e semelhante a uma matriz diagonal por blocos — triangulares superiores — e um destes, que ´e do tipo mj × mj , tem zeros na diagonal, enquanto que os outros tˆem na diagonal elementos n˜ao nulos. Como uma matriz triangular superior com diagonal nula, quando elevada `a potˆencia de expoente igual ao seu tamanho, d´a a matriz nula (verifique), conclu´ımos que (A−λj I)mj tem nulidade mj , dado que ´e semelhante a uma matriz diagonal por blocos em que um bloco diagonal mj × mj ´e nulo e as potˆencias dos outros blocos diagonais s˜ao n˜ao-singulares (por serem triangulares com diagonal n˜ao nula). Da demonstra¸ca˜o conclu´ımos que dim N [(A − λj I)k ] = mj para k > mj e portanto N [(A − λj I)k ] = N [(A − λj I)mj ] para k > mj . O Teorema 7.18 sugere que, na busca de uma matriz simples semelhante a uma matriz dada, nos concentremos no estudo de matrizes da forma   γ ∗ ... ∗  0 γ ... ∗     .. .. . . ..  ,  . . . .  0 0 ... γ ou seja da forma γI + N , onde N ´e triangular superior com elementos diagonais iguais a zero. Mas uma semelhan¸ca aplicada a uma matriz desta forma ´e de facto aplicada apenas a N : S −1 (γI + N )S = γI + S −1 N S . 164 Assim, no estudo do problema da semelhan¸ca podemos concentrar-nos nas matrizes triangulares superiores com elementos diagonais nulos (que s˜ao matrizes nilpotentes). Apresentamos, sem demonstra¸c˜ao, o resultado final desse estudo. Come¸camos por introduzir uma designa¸c˜ao: Defini¸c˜ ao 7.10 Um bloco elementar de Jordan ´e uma matriz da forma   0 1 0 ... 0  0 0 1 ... 0     .. .. .. . . ..   . . . . . .    0 0 0 ... 1  0 0 0 ... 0 Denotamos por Jk um bloco elementar de Jordan do tipo k × k. O resultado a que nos referimos ´e o seguinte: Teorema 7.20 Uma matriz nilpotente ´e semelhante a uma matriz diagonal por blocos em que os blocos diagonais s˜ao blocos elementares de Jordan. Exemplo 7.11 Um exemplo de uma matriz com a forma descrita no u ´ltimo Teorema ´e a seguinte (os elementos n˜ao indicados s˜ao nulos):   0 1 0  0 0 1     0 0 0      0 1     0 0  .   0 1     0 0     0     0 0 A matriz ´e 10 × 10 e os blocos diagonais s˜ao J3 , J2 , J2 , J1 , J1 , J1 . Juntando todas as observa¸co˜es feitas, nomeadamente os Teoremas 7.18 e 7.20, podemos enunciar o seguinte resultado: Teorema 7.21 Qualquer matriz quadrada A ´e semelhante a uma matriz diagonal 165 por blocos em que os blocos diagonais tˆem  λj 1 0  0 λj 1   .. .. ..  . . .   0 0 0 0 0 0 a forma ... ... ... 0 0 .. .     .  ... 1  . . . λj A matriz diagonal por blocos referida no Teorema chama-se forma normal de Jordan de A. 7.7 A decomposi¸c˜ ao dos valores singulares Como se viu na sec¸c˜ao 7.4, uma matriz sim´etrica real A pode factorizar-se na forma QDQT , com Q ortogonal e D diagonal. Analogamente, uma matriz herm´ıtica A pode factorizar-se na forma U DU ∗ , com U unit´aria e D diagonal (real). Nesta sec¸ca˜o vamos obter uma importante factoriza¸ca˜o do mesmo tipo mas para qualquer matriz, real ou complexa, quadrada ou rectangular. Trataremos apenas o caso real, ficando o caso complexo como exerc´ıcio. Lema 7.1 Seja A uma matriz real m × n. Ent˜ao os valores pr´oprios da matriz ATA s˜ao reais e n˜ao-negativos. (Se A for complexa, a afirma¸c˜ ao vale para os valores ∗ pr´oprios da matriz A A.) Demonstra¸c˜ ao. Como ATA ´e sim´etrica, j´a sabemos que os seus valores pr´oprios s˜ao reais. Vamos agora ver que s˜ao n˜ao-negativos. Seja λ um valor pr´oprio qualquer de ATA. Ent˜ao sabemos que existe um vector n˜ao nulo x ∈ Rn tal que ATAx = λ x. Multiplicando `a esquerda ambos os membros desta igualdade por xT obtemos xT ATAx = λ xTx o que ´e o mesmo que λ= xT ATAx kAxk2 = . xTx kxk2 λ ´e portanto o quociente de um n´ umero real n˜ao-negativo por um n´ umero positivo. A demonstra¸ca˜o para o caso complexo ´e an´aloga. O resultado seguinte cont´em a factoriza¸ca˜o que referimos. Enunciamo-lo e provamo-lo apenas para matrizes reais, mas o resultado e a demonstra¸c˜ao valem, sem altera¸co˜es, para matrizes complexas, devendo nesse caso usar-se matrizes unit´arias, em vez de matrizes ortogonais, e conjuga¸c˜ao e transposi¸ca˜o, em vez de apenas transposi¸ca˜o. A mesma observa¸ca˜o vale para o resto desta sec¸ca˜o e para as duas sec¸c˜oes seguintes. 166 Teorema 7.22 Seja A uma matriz real m × n n˜ ao ortogonais U m × m e V n × n tais que A = U ΣV T  σ1 0 · · · 0 · · ·  0 σ2 · · · 0 · · ·  . .  . . . . . .. .  . . Σ=  0 0 · · · σr · · ·  . . ..  .. .. . 0 0 ··· 0 ··· nula. Ent˜ao existem matrizes onde  0 0  ..   .   0  ..  .  0 ´e uma matriz m × n cujos u ´nicos elementos n˜ao nulos s˜ao os n´ umeros reais positivos σ1 ≥ σ2 ≥ · · · ≥ σr > 0. Demonstra¸c˜ ao. Vale a pena tratar `a parte o caso em que A ´e quadrada e n˜aosingular, para se ver como o racioc´ınio ´e simples. Seja ent˜ao A real n × n invert´ıvel. Como ATA ´e real e sim´etrica, sabemos, pelo Teorema 7.11, que ´e diagonaliz´avel por uma matriz ortogonal, isto ´e, que existe V ortogonal n × n tal que V T ATAV ´e diagonal. Pelo Lema anterior, sabemos que os elementos diagonais desta matriz diagonal — que s˜ao os valores pr´oprios de ATA — s˜ao n˜ao-negativos, e como A ´e invert´ıvel, tem-se car(A) = n, pelo que tamb´em, pelo exerc´ıcio ?? do cap´ıtulo 4, car(ATA) = n, e portanto os valores pr´oprios de ATA s˜ao n˜ao-nulos, ou seja positivos. Designemos por σ1 , σ2 , . . . , σn as ra´ızes quadradas (positivas) dos valores pr´oprios de ATA. Reordenando as colunas de V , se necess´ario, podemos supor que σ1 ≥ σ2 ≥ · · · ≥ σn . Tem-se ent˜ao V T ATAV = Σ2 onde    Σ=  σ1 0 0 σ2 .. .. . . 0 0 ··· ··· .. . 0 0 .. .    .  · · · σn Ponha-se agora U = AV Σ−1 . Tem-se obviamente A = U ΣV T , e U ´e ortogonal, porque U T U = Σ−1 V T ATAV Σ−1 = Σ−1 Σ2 Σ−1 = I. A demonstra¸ca˜o no caso geral ´e uma adapta¸c˜ao deste argumento. Seja A m × n qualquer. Ent˜ao, pelas mesmas raz˜oes que atr´as, sabemos que existe V ortogonal n × n tal que · 2 ¸ D 0 T T V A AV = 0 0 onde    D=  σ1 0 0 σ2 .. .. . . 0 0 167 ··· ··· .. . 0 0 .. . · · · σr      e σ1 ≥ σ2 ≥ · · · ≥ σr > 0. Note-se que µ · 2 ¸ ¶ µ· 2 ¸¶ D 0 T D 0 car(A) = car(A A) = car V V = car = r. 0 0 0 0 · −1 ¸ D . A matriz W ´e m × r. Como Ponha-se agora W = AV 0 · ¸ £ −1 ¤ T T £ −1 ¤ D2 0 T W AV = D 0 V A AV = D 0 = [D 0] , 0 0 T tem-se · ¸ · −1 ¸ D−1 D W W = W AV = [D 0] = Ir 0 0 T T pelo que as r colunas de W s˜ao vectores de Rm ortonormados. Como, pela defini¸ca˜o de W , as colunas de W pertencem a C(A), o espa¸co das colunas de A, e este tem dimens˜ao r (porque A tem caracter´ıstica r), as colunas de W constituem uma base ortonormada de C(A). Vamos acrescentar a estas colunas m − r vectores de forma a obter uma base ortonormada de Rm , da seguinte forma. O complemento ortogonal de C(A) tem dimens˜ao m − r. Designemos por Z uma matriz m × (m − r) cujas m−r colunas constituam uma base ortonormada de C(A)⊥ . Segue-se que as colunas de Z s˜ao ortogonais `as colunas de W . Ent˜ao a matriz m × m U = [W Z] ´e ortogonal e, por outro lado, tem-se Z TAV = 0, pela maneira como constru´ımos Z. Vem ent˜ao · T¸ · T ¸ · ¸ W W AV D 0 T U AV = AV = = = Σ ZT Z TAV 0 0 como pretendido. Defini¸c˜ ao 7.11 Os n´ umeros σ1 , σ2 , . . . , σr s˜ao determinados por A, porque s˜ao as ra´ızes quadradas dos valores pr´oprios n˜ao nulos da matriz sim´etrica ATA. Chama-se-lhes valores singulares de A. Observe-se de novo que o n´ umero r que figura no enunciado do Teorema 7.22 ´e necessariamente a caracter´ıstica de A, porque, como U e V T s˜ao invert´ıveis, tem-se car(A) = car(U ΣV T ) = car(Σ) = r. Uma factoriza¸ca˜o de A na forma A = U ΣV T , com Σ uma matriz do tipo descrito, ´e habitualmente designada por decomposi¸c˜ ao dos valores singulares, abreviadamente SVD,11 de A, e ´e u ´til em muitos contextos. 11 Do inglˆes “singular value decomposition”. 168 Note-se que, se tivermos A factorizada na forma U ΣV T , com U e V ortogonais e Σ uma matriz do tipo diagonal referido, os elementos positivos nas posi¸c˜oes diagonais de Σ s˜ao de certeza os valores singulares de A, porque ATA = V ΣTΣV T e portanto a matriz Σ ´e univocamente determinada por A. Daqui segue-se tamb´em que as colunas de V s˜ao n vectores pr´oprios ortonormados de ATA. Quanto a U : de A = U ΣV T segue-se que AAT = U ΣΣT U T , pelo que as colunas de U s˜ao m vectores pr´oprios ortonormados de AAT (e esta tem os mesmos valores pr´oprios n˜ao-nulos que ATA). Uma outra forma de apresentar a SVD ´e a seguinte. Seja A m × n com valores singulares σ1 , σ2 , . . . , σr (e, portanto, caracter´ıstica r). Suponhamos que A = U ΣV T ´e uma SVD de A. Particionemos U na forma U = [U1 U2 ], com U1 m × r, e V na forma V = [V1 V2 ], com V1 n × r. Designemos por u1 , . . . , ur as colunas de U1 , e por v1 , . . . , vr as colunas de V1 . Ponhamos, finalmente,   σ1 0 · · · 0  0 σ2 · · · 0    D =  .. .. . . ..  .  . . .  . 0 0 · · · σr Tem-se ent˜ao · D 0 A = [U1 U2 ] 0 0 · V1T = [U1D 0] V2T ¸· V1T V2T ¸ ¸ = U1 DV1T    = [u1 · · · ur ]   σ1 0 0 σ2 .. .. . . 0 0 ··· ··· .. . 0 0 .. . · · · σr    T  v1   ..   .   vrT  v1T   = [σ1 u1 · · · σr ur ]  ...  vrT  = σ1 u1 v1T + · · · + σr ur vrT . Portanto, a SVD equivale a escrever A como soma de r matrizes da forma uj vjT , com coeficientes iguais aos valores singulares de A. Note-se que as matrizes uj vjT tˆem caracter´ıstica 1. A SVD permite-nos generalizar o conceito de inversa de uma matriz, inclusivamente ao caso n˜ao-quadrado. Se A for quadrada e invert´ıvel, e A = U ΣV T for uma 169 SVD de A, ´e ´obvio que se tem A−1 = V Σ−1 U T . A defini¸ca˜o seguinte generaliza isto. Defini¸c˜ ao 7.12 Seja A uma matriz σ1 , σ2 , . . . , σr , e seja A = U ΣV T uma  1 0 ··· σ  01 1 · · ·   . σ.2 . ..  .. .. V  0 0 ···   .. ..  . . 0 0 ··· real m × n com valores singulares ` matriz n × m SVD de A. A  0 ··· 0 0 ··· 0   .. ..  . .   UT 1  · · · 0  σr ..  .. . .  0 ··· 0 chama-se uma inversa generalizada de A. Curiosamente, apesar de a SVD de uma matriz n˜ao ser u ´nica, a inversa generalizada ´e u ´nica. Lema 7.2 Se X for uma inversa generalizada de A, ent˜ao X satisfaz as seguintes quatro condi¸c˜ oes: AXA = A , XAX = X , (AX)T = AX , (XA)T = XA . Demonstra¸c˜ ao. Exerc´ıcio. Teorema 7.23 Seja A uma matriz real m × n. Ent˜ao A tem uma u ´nica inversa generalizada. Demonstra¸c˜ ao. Sejam X e Y duas inversas generalizadas de A. Ent˜ao X e Y satisfazem as condi¸co˜es do Lema 7.2. E tem-se X = XAX = X(AX)T = XX T AT = XX T (AY A)T = XX T AT Y T AT = XX T AT AY = XAXAY = XAY . De modo an´alogo, prova-se que Y = XAY , pelo que X = Y . A nota¸ca˜o para a inversa generalizada de uma matriz A ´e A† . A inversa generalizada pode usar-se para obter a solu¸ca˜o no sentido dos m´ınimos quadrados de um sistema imposs´ıvel no caso em que essa solu¸c˜ao ´e u ´nica (recorde-se o Corol´ario 5.4). 170 Teorema 7.24 Seja A uma matriz real m × n com caracter´ıstica n, e seja b m × 1. Ent˜ao, a solu¸c˜ ao (´ unica) no sentido dos m´ınimos quadrados do sistema Ax = b ´e † x = A b. Demonstra¸c˜ ao. Como A tem caracter´ıstica n, o sistema Ax = b tem uma u ´nica solu¸ca˜o no sentido dos m´ınimos quadrados, que, pelo Teorema 5.10, ´e a solu¸c˜ao do sistema ATAx = AT b. Como a matriz ATA tamb´em tem caracter´ıstica n, ´e invert´ıvel, e portanto a solu¸ca˜o deste segundo sistema ´e (ATA)−1 AT b. · ¸ D T Seja A = U ΣV uma SVD de A, com Σ = , onde D ´e n × n, diagonal e 0 invert´ıvel. Tem-se ent˜ao (ATA)−1 AT = (V ΣTU T U ΣV T )−1 V ΣTU T = (V ΣTΣV T )−1 V ΣTU T = V (ΣTΣ)−1 V T V ΣTU T = V (D2 )−1 ΣTU T · −1¸ D = V UT 0 = A† , o que prova o Teorema. No caso em que A ´e quadrada (e invert´ıvel), o Teorema diz simplesmente que a solu¸ca˜o — no sentido usual — do sistema Ax = b ´e x = A−1 b. Se a caracter´ıstica de A for inferior a n, o sistema Ax = b tem uma infinidade de solu¸co˜es no sentido dos m´ınimos quadrados, e pode provar-se (o que n˜ao faremos) que A† b ´e uma delas.12 Para matrizes complexas a SVD toma a forma A = U ΣV ∗ , com U e V unit´arias. Os valores singulares s˜ao de novo reais e positivos (s˜ao as ra´ızes quadradas dos valores pr´oprios n˜ao nulos da matriz herm´ıtica A∗A). Exerc´ıcios 1. Seja A uma matriz real m × n com valores singulares σ1 , σ2 , . . . , σr , e seja A = U ΣV T uma SVD de A. Designemos por u1 , . . . , um e v1 , . . . , vn as colunas de U e V , respectivamente. 12 De facto, ´e de entre todas a que tem norma m´ınima. 171 (a) Da igualdade AV = U Σ deduza que Avj = σj uj , j = 1, . . . , r. (b) Mostre que tamb´em se tem ATuj = σj vj , j = 1, . . . , r. 2. Seja de novo A uma matriz real m × n com valores singulares σ1 , σ2 , . . . , σr , e A = U ΣV T uma SVD de A. Designemos por u1 , . . . , um e v1 , . . . , vn as colunas de U e V , respectivamente. Mostre que: (a) u1 , . . . , ur constituem uma base ortonormada de C(A); (b) ur+1 , . . . , um constituem uma base ortonormada de N (AT ); (c) v1 , . . . , vr constituem uma base ortonormada de C(AT ); (d) vr+1 , . . . , vn constituem uma base ortonormada de N (A). 3. Prove que, quando A ´e quadrada e invert´ıvel, se tem A† = A−1 . 4. Se A ∈ Mn×n (R) for sim´etrica definida positiva, mostre que os valores singulares de A coincidem com os seus valores pr´oprios. 5. Se Q ∈ Mn×n (R) for ortogonal, mostre que os valores singulares de Q s˜ao todos iguais a 1. 7.8 A norma de uma matriz A norma de um vector de Rn d´a uma ideia do “tamanho”desse vector. Haver´a algum conceito an´alogo para matrizes quaisquer? Vamos ver que sim. A ideia consiste em pensar numa matriz real m × n como definindo uma transforma¸c˜ao de Rn em Rm , e em avaliar o efeito dessa transforma¸ca˜o na “superf´ıcie esf´erica”{x ∈ Rn : kxk = 1}. Defini¸c˜ ao 7.13 Seja A uma matriz real m × n. Chamamos norma de A ao n´ umero kAk = max{kAxk : x ∈ Rn , kxk = 1}. Observa¸ c˜ oes. 1. Note-se que, `a partida, n˜ao ´e evidente que o conjunto {kAxk : kxk = 1} (que ´e um conjunto de n´ umeros reais n˜ao-negativos) tenha um m´aximo. Veremos daqui a pouco que isso acontece de facto. 2. Como um vector ´e ele pr´oprio uma matriz, temos de verificar se a defini¸c˜ao de norma de uma matriz que acabamos de dar ´e coerente, no caso de a matriz ser uma matriz-coluna, com a defini¸c˜ao de norma que demos para vectores. Seja ent˜ao y = [y1 . . . yn ]T ∈ Rn . A norma de y como matriz n × 1 ´e, de acordo com a defini¸c˜ao anterior, igual a max{kyxk : kxk = 1}. Mas x aqui ´e um n´ umero, logo de facto aquela quantidade ´e max{kyxk : |x| = 1} = max{|x|.kyk : |x| = 1} = kyk. max{|x| : |x| = 1} = kyk. 172 3. A defini¸ca˜o de norma de uma matriz ´e an´aloga no caso de se tratar de matrizes complexas. ´ simples ver que uma express˜ao alternativa para kAk ´e 4. E ½ ¾ kAxk n : x ∈ R , x 6= 0 . kAk = max kxk x De facto, sendo x 6= 0 arbitr´ario, tem-se k kxk k = 1, pelo que ° ° ° ° ° x ° ° Ax ° kAxk ° ° ° kAk ≥ ° °A kxk ° = ° kxk ° = kxk donde ½ kAk ≥ max ¾ kAxk n : x ∈ R , x 6= 0 . kxk Reciprocamente, tem-se ½ max kAxk : x 6= 0 kxk ¾ ≥ kAxk kxk para todos os vectores x 6= 0, em particular para todos os vectores x com norma 1, pelo que ½ ¾ kAxk max : x 6= 0 ≥ max {kAxk : kxk = 1} = kAk . kxk O Teorema seguinte mostra que a norma de uma matriz tem propriedades an´alogas `as da norma de um vector. Teorema 7.25 Sendo A e B matrizes m × n quaisquer e α ∈ R, tem-se: 1. A 6= 0 =⇒ kAk > 0 ; 2. kαAk = |α|.kAk ; 3. kA + Bk ≤ kAk + kBk . Demonstra¸c˜ ao. 1. Se A 6= 0, existe de certeza v ∈ Rn tal que Av 6= 0, e podemos escolher v com norma 1. Segue-se que kAk ≥ kAvk > 0. 2. Tem-se kαAk = max{kαAxk : kxk = 1} = max{|α|.kAxk : kxk = 1} = |α|. max{kAxk : kxk = 1} = |α|.kAk . 3. Tem-se kA + Bk = max{k(A + B)xk : kxk = 1} = max{kAx + Bxk : kxk = 1}. 173 Mas kAx + Bxk ≤ kAxk + kBxk. Logo, kA + Bk ≤ max{kAxk + kBxk : kxk = 1} ≤ max{kAxk : kxk = 1} + max{kBxk : kxk = 1} = kAk + kBk . Outra propriedade importante da norma de uma matriz est´a contida no resultado seguinte. Teorema 7.26 Sendo A m × n e B n × p, tem-se kABk ≤ kAk · kBk . Demonstra¸c˜ ao. Usaremos a express˜ao alternativa ½ ¾ kAxk kAk = max : x 6= 0 . kxk Tem-se ½ kABk = max ½ = max ¾ ½ = max kABxk kBxk · :x∈ / N (B) kBxk kxk ¾ kABxk :x∈ / N (B) kxk ¾ ½ ¾ ½ ¾ kBxk kABxk :x∈ / N (B) · max :x∈ / N (B) kBxk kxk ½ ¾ ½ ¾ kAyk kBxk : y 6= 0 · max : x 6= 0 kyk kxk ≤ max ≤ max kABxk : x 6= 0 kxk = kAk · kBk . Como calcular a norma de uma matriz? A defini¸c˜ao, como se percebe imediatamente, n˜ao ajuda muito. Come¸camos com alguns casos particulares. Teorema 7.27 1. kIk = 1 ; 174 2. Mais geralmente, se      Σ=    σ1 0 0 σ2 .. .. . . 0 0 .. .. . . ··· ··· ... 0 ··· 0 0 0 .. . · · · σr .. . 0  ··· 0 ··· 0  ..   .   ··· 0  ..  .  ··· 0 for uma matriz m×n cujos u ´nicos elementos n˜ao nulos s˜ao os n´ umeros reais positivos σ1 ≥ σ2 ≥ · · · ≥ σr > 0, ent˜ao kΣk = σ1 . Demonstra¸c˜ ao. A primeira afirma¸ca˜o ´e ´obvia. Provemos a segunda. Sendo Σ a matriz indicada, e sendo x = [x1 x2 · · · xn ]T ∈ Rn um vector arbitr´ario de norma 1, tem-se   σ1 x1  σ2 x2   .   .   .    Σx =  σr xr  .    0   .   ..  0 Segue-se que kΣxk = = ≤ = p (σ1 x1 )2 + (σ2 x2 )2 + · · · + (σr xr )2 p σ12 x21 + σ22 x22 + · · · + σr2 x2r p σ12 x21 + σ12 x22 + · · · + σ12 x2r p σ12 (x21 + x22 + · · · + x2r ) ≤ σ1 .kxk = σ1 . Logo, tem-se max{kΣxk : kxk = 1} ≤ σ1 . Mas, de facto, h´a igualdade, porque, sendo e1 = [1 0 · · · 0]T , se tem kΣe1 k = σ1 . Teorema 7.28 1. Se U for ortogonal, tem-se kU k = 1 ; 2. Se V for ortogonal, tem-se kAV k = kAk ; 3. Se U for ortogonal, tem-se kU Ak = kAk . Demonstra¸c˜ ao. 1. Tem-se kU k = max {kU xk : kxk = 1}. Mas, como U ´e ortogonal, tem-se kU xk = kxk, pelo exerc´ıcio 4a do cap´ıtulo 5. Logo, kU k = max {kxk : kxk = 1} = 1. 175 2. Pelo Teorema 7.26, tem-se kAV k ≤ kAk.kV k = kAk. Como V T tamb´em ´e ortogonal, tem-se kAk = kAV V T k ≤ kAV k.kV T k = kAV k. 3. An´alogo a 2. Observa¸ c˜ ao. No caso de matrizes complexas, devemos usar no teorema matrizes unit´arias em vez de ortogonais. Teorema 7.29 Seja A uma matriz qualquer, e seja σ1 o maior valor singular de A. Ent˜ao tem-se kAk = σ1 . Demonstra¸c˜ ao. Tem-se A = U ΣV T ,  σ1 0  0 σ2  . ..  . .  . Σ=  0 0  . ..  .. . 0 0 com U e V ortogonais e  ··· 0 ··· 0 ··· 0 ··· 0  . ..  ..  . .. .  . · · · σr · · · 0  .. ..  . .  ··· 0 ··· 0 Vem ent˜ao, usando os dois teoremas anteriores, kAk = kU ΣV T k = kΣk = σ1 . Corol´ ario 7.4 Sendo A invert´ıvel n × n, tem-se σn = 1 . kA−1 k Demonstra¸c˜ ao. Seja A = U ΣV T , com U  σ1 0  0 σ2  Σ =  .. ..  . . 0 e V ortogonais n × n,  ··· 0 ··· 0   ..  .. . .  0 · · · σn e σ1 ≥ σ2 ≥ · · · ≥ σn > 0. Ent˜ao A−1 = V Σ−1 U T e os valores singulares de A−1 s˜ao os elementos diagonais de Σ−1 , que s˜ao σ11 , σ12 , . . . , σ1n . O maior destes ´e σ1n , pelo que kA−1 k = σ1n . Deste Corol´ario pode tirar-se uma conclus˜ao adicional. Se A for invert´ıvel n × n, 176 tem-se σn = 1 1 n −1 o = −1 kA xk kA k max : x 6= 0 kxk ½ = min kA−1 xk kxk n = min n = min ¾ 1 kxk kA−1 xk kAyk kyk : x 6= 0 o : x 6= 0 o : y 6= 0 = min{kAxk : kxk = 1} . O teorema 7.29 pode ser generalizado por um resultado muito interessante, que diz que os valores singulares de uma matriz m × n A s˜ao precisamente as distˆancias de A — no sentido da norma que definimos no conjunto das matrizes m × n — a certos subconjuntos de matrizes. Defini¸c˜ ao 7.14 Sejam A e B matrizes m × n. Chamamos distˆ ancia entre A e B ao n´ umero kA − Bk. Teorema 7.30 Seja A m × n, com valores singulares σ1 ≥ σ2 ≥ · · · ≥ σr > 0. Ent˜ao, para cada k ∈ {1, . . . , r}, tem-se que σk ´e a distˆancia de A ao conjunto das matrizes m × n com caracter´ıstica inferior a k. Em s´ımbolos: σk = min{kA − Xk : X m × n, car(X) < k} para k = 1, . . . , r. Demonstra¸c˜ ao. Seja k ∈ {1, . . . , r}. Come¸camos por provar que σk ≤ min{kA − Xk : X m × n, car(X) < k} . Seja X arbitr´aria com car(X) < k. Vamos mostrar que σk ≤ kA − Xk. Seja A = U ΣV T uma SVD de A. Ent˜ao tem-se Σ = U TAV . Ponhamos Y = U TXV . Vem assim kA − Xk = kU ΣV T − U Y V T k = kU (Σ − Y )V T k = kΣ − Y k porque U e V T s˜ao ortogonais. Como car(Y ) = car(X) < k, tem-se dimN (Y ) ≥ n − k + 1. 177 Designemos por F o subespa¸co de Rn constitu´ıdo pelos vectores da forma [x1 x2 . . . xk 0 . . . 0]T . Claramente dimF = k e tem-se, pelo Teorema 4.17, dim F ∩ N (Y ) = dimF + dimN (Y ) − dim(F + N (Y )) ≥ dimF + dimN (Y ) − n ≥ k + n − k + 1 − n = 1. Existem portanto vectores n˜ao nulos em F ∩ N (Y ). Seja u = [u1 u2 . . . uk 0 . . . 0]T um tal vector, e suponhamos que kuk = 1. Como u ∈ N (Y ) tem-se Y u = 0 e vem k(Σ − Y )uk = kΣu − Y uk = kΣuk = k[σ1 u1 σ2 u2 . . . σk uk 0 . . . 0]T k = ≥ p p σ12 u21 + σ22 u22 + · · · + σk2 u2k σk2 u21 + σk2 u22 + · · · + σk2 u2k = σk .kuk = σk . Logo, σk ≤ k(Σ − Y )uk ≤ max{k(Σ − Y )xk : kxk = 1} = kΣ − Y k = kA − Xk . Como X era arbitr´aria, prov´amos que σk ≤ min{kA − Xk : car(X) < k} . Para mostrar que h´a igualdade, basta exibir uma ´ evidente que a matriz tal que σk = kA − X0 k. E  σ1 0 · · · 0  0 σ2 · · · 0  . . ..  . .. . . . .  . X0 = U   0 0 · · · σk−1  . .. ..  .. . . 0 0 ··· 0 matriz X0 com caracter´ıstica < k  ··· 0 ··· 0  ..   .  T V ··· 0  ..  .  ··· 0 serve para esse efeito. A demonstra¸ca˜o do teorema d´a-nos, para cada k, uma matriz com caracter´ıstica k − 1 que est´a `a distˆancia σk de A, isto ´e, que ´e a melhor aproxima¸c˜ao poss´ıvel de A por matrizes com caracter´ıstica inferior a k. 178 Uma forma de apresentar o Teorema anterior consiste em usar a decomposi¸ca˜o A= r X σj uj vjT j=1 vista a seguir ao Teorema 7.22. Conjugando o racioc´ınio feito para obter essa decomposi¸ca˜o com a parte final da demonstra¸c˜ao do Teorema anterior, conclu´ımos que a melhor aproxima¸c˜ao poss´ıvel de A por matrizes com caracter´ıstica inferior a k ´e simplesmente k−1 X σj uj vjT , j=1 ou seja a soma que se obt´em truncando a express˜ao de A de forma a conservar apenas as primeiras k − 1 parcelas. A aproxima¸ca˜o de uma matriz dada por matrizes de caracter´ıstica limitada tem uma interessante aplica¸c˜ao `a compress˜ao de imagens. Podemos pensar numa imagem como uma matriz A m×n em que cada elemento (um pixel) indica o n´ıvel de cinzento — ou a cor — do respectivo ponto da imagem. Se alguns dos valores singulares de A mais pequenos forem muito pr´oximos de zero, ent˜ao a matriz pode ser aproximada sem grande erro por uma matriz de caracter´ıstica mais baixa. Qual ´e o interesse disto? A descri¸ca˜o completa de uma matriz A m × n exige a indica¸ca˜o de mn n´ umeros. Se conhecermos a SVD de A podemos, como j´a se viu, representar A como soma de matrizes de caracter´ıstica 1, sendo Ak = k X σj uj vjT j=1 a melhor aproxima¸ca˜o poss´ıvel de A por matrizes com caracter´ıstica k. Esta soma exige a indica¸ca˜o de k(m + n) n´ umeros: h´a km coordenadas de σ1 u1 , . . . , σk uk e kn coordenadas de v1 , . . . , vk . Se k for pequeno, k(m + n) ´e muito menor que mn, e portanto a descri¸ca˜o de Ak ´e mais econ´omica — por exemplo para efeitos de transmiss˜ao por algum tipo de canal digital — do que a descri¸ca˜o expl´ıcita de A. Tomamos ent˜ao Ak como a imagem aproximada, ou “comprimida”. A qualidade da aproxima¸ca˜o melhora quando k aumenta, claro. Informalmente, podemos ver que h´a alguma plausibilidade neste m´etodo se pensarmos que a uma imagem n˜ao corresponde normalmente uma matriz aleat´oria: em princ´ıpio haver´a semelhan¸cas entre zonas cont´ıguas, e poucas diferen¸cas entre alguns conjuntos de linhas ou de colunas; isto sugere que a matriz tem caracter´ıstica n˜ao muito alta, ou pelo menos um certo n´ umero de valores singulares pr´oximos de zero. Ou seja, pelo Teorema 7.30 a matriz pode ser aproximada com precis˜ao razo´avel por matrizes de caracter´ıstica baixa. A “taxa de compress˜ao”da imagem — isto ´e, a “poupan¸ca”na descri¸ca˜o da matriz . — ser´a dada pelo quociente k(m+n) mn 179 7.9 O n´ umero de condi¸c˜ ao de uma matriz ´ A no¸ca˜o de norma de uma matriz pode ser utilizada, em Algebra Linear aplicada, no estudo dos efeitos provocados na solu¸ca˜o de sistemas de equa¸c˜oes lineares quando os dados do sistema est˜ao afectados por erros (ou “perturba¸co˜es”). Suponhamos que A ´e uma matriz quadrada invert´ıvel e que estamos interessados na resolu¸ca˜o do sistema Ax = b. Como A ´e invert´ıvel, o sistema tem uma solu¸ca˜o u ´nica, digamos u. Se o segundo membro b for perturbado, sendo substitu´ıdo por b0 , o que podemos dizer, em fun¸ca˜o dessa perturba¸c˜ao do segundo membro, sobre o erro provocado na solu¸ca˜o do sistema? Designemos por u0 a solu¸ca˜o do sistema perturbado Ax = b0 . O erro na solu¸ca˜o ser´a ent˜ao, por defini¸ca˜o, ku − u0 k. E temos a seguinte desigualdade: ku − u0 k = kA−1 b − A−1 b0 k = kA−1 (b − b0 )k ≤ kA−1 k · kb − b0 k . Ou seja: o erro cometido na solu¸ca˜o do sistema ´e majorado pelo “tamanho”da perturba¸ca˜o multiplicado por kA−1 k. Com um racioc´ınio an´alogo podemos obter uma estimativa por defeito do mesmo erro: kb − b0 k = kAu − Au0 k = kA(u − u0 )k ≤ kAk · ku − u0 k donde ku − u0 k ≥ 1 · kb − b0 k . kAk Resumindo, temos 1 · kb − b0 k ≤ ku − u0 k ≤ kA−1 k · kb − b0 k . kAk Mas o que de facto interessa ´e estimar o erro relativo cometido na solu¸ca˜o, isto ku−u0 k ´e, (ou ku0 k ). Repetindo o racioc´ınio anterior, obtemos ku−u0 k kuk 1 · kbk ≤ kuk ≤ kA−1 k · kbk . kAk Conjugando as duas duplas desigualdades chegamos a kb − b0 k ku − u0 k kb − b0 k 1 −1 · ≤ ≤ kAk · kA k · kAk · kA−1 k kbk kuk kbk O erro relativo cometido na solu¸ca˜o do sistema pode portanto ser estimado, tanto por defeito como por excesso, em fun¸ca˜o da perturba¸ca˜o relativa, e as estimativas dependem ambas do n´ umero kAk · kA−1 k. Defini¸c˜ ao 7.15 Sendo A uma matriz quadrada invert´ıvel, ao n´ umero kAk · −1 kA k chama-se n´ umero de condi¸c˜ ao de A. Nota¸c˜ ao: κ(A). 180 Com esta nota¸ca˜o, a dupla desigualdade vista fica assim: kb − b0 k ku − u0 k kb − b0 k 1 · ≤ ≤ κ(A) · . κ(A) kbk kuk kbk Note-se que κ(A) ´e sempre maior ou igual a 1, porque κ(A) = kAk · kA−1 k ≥ kAA−1 k = kIk = 1 . Se A for tal que κ(A) = 1, ent˜ao o erro relativo na solu¸c˜ao ´e exactamente igual `a perturba¸ca˜o relativa no segundo membro do sistema. Matrizes para as quais isto acontece s˜ao as mais “bem comportadas”no que se refere `a sensibilidade da resolu¸ca˜o de sistemas relativamente a perturba¸co˜es nos dados. Exemplo 7.12 Se Q for ortogonal, ent˜ao κ(Q) = 1. Se os valores singulares de A forem σ1 ≥ σ2 ≥ · · · ≥ σn tem-se, pelo Teorema 7.29 e o seu Corol´ario, σ1 κ(A) = . σn Por outro lado, o Teorema 7.30 diz-nos que σn ´e a distˆancia de A ao conjunto das matrizes com caracter´ıstica inferior a n, isto ´e, ao conjunto das matrizes singulares. Juntando estes dois factos, conclu´ımos que matrizes que estejam perto de ser singulares s˜ao “mal-condicionadas”, isto ´e, ter˜ao um n´ umero de condi¸ca˜o alto. · ¸ 1 0, 999 Exemplo 7.13 Seja A = . Ent˜ao tem-se kAk = 1, 9995 e kA−1 k = 0, 0005, 1 1 pelo que κ(A) = 3999. Note-se que A ´e n˜ao-singular mas est´a muito perto de ser singular. · ¸ · ¸ 0 0 Tome-se b = . Ent˜ao, obviamente, a u ´nica solu¸c˜ao do sistema Ax = b ´e x = . 0 0 · ¸ 0, 1 ´ simples ver que a u Mas tome-se agora b0 = , uma pequena perturba¸c˜ao de b. E ´nica solu¸c˜ao ·0 ¸ −100 do sistema Ax = b0 ´e x = , muito diferente da anterior, apesar de o segundo membro do 100 sistema ser quase igual. Isto ilustra o facto de que as solu¸c˜oes dos sistemas cuja matriz ´e esta matriz mal-condicionada A s˜ao muito sens´ıveis a perturba¸c˜oes dos segundos membros. 181 11 11.1 Apˆ endices Hist´ oria dos n´ umeros complexos Como se disse, foi no s´eculo XVI, a prop´osito da descoberta da f´ormula resolvente das equa¸co˜es do 3o grau, que se “descobriram”os n´ umeros complexos. Recorda-se aqui essa hist´oria. A equa¸ca˜o a resolver ´e a seguinte:13 x3 + bx + c = 0. Os matem´aticos italianos do s´eculo XVI que trataram deste assunto tiveram a ideia de escrever a inc´ognita x na forma x = u + v, com u e v n´ umeros a determinar. Ora, como (u + v)3 = u3 + 3u2 v + 3uv 2 + v 3 , tem-se, passando tudo para o primeiro membro, (u + v)3 − 3uv(u + v) − (u3 + v 3 ) = 0. Comparando com a equa¸ca˜o proposta, vˆe-se que, se se encontrarem n´ umeros u e v satisfazendo as condi¸co˜es −3uv = b e − (u3 + v 3 ) = c , ent˜ao x = u + v ser´a uma solu¸ca˜o da equa¸ca˜o. b Da primeira condi¸c˜ao tira-se v = − . Substituindo v por este valor na segunda 3u condi¸ca˜o obt´em-se b3 −u3 + = c, 27u3 o que ´e o mesmo que b3 u6 + cu3 − = 0. 27 Ora isto, que ´e uma equa¸c˜ao do 6o grau em u, ´e de facto uma equa¸c˜ao do 2o grau em u3 , que se sabe resolver: r b3 r −c ± c2 + 4 c b3 c2 27 = − ± + . u3 = 2 2 4 27 Escolhendo para u3 por exemplo o valor r c c2 b3 u3 = − + + , 2 4 27 13 Se se conseguir resolver uma equa¸c˜ao desta forma consegue-se resolver qualquer equa¸c˜ao do 3o grau: primeiro, se o coeficiente de x3 n˜ao for 1, podemos dividir ambos os membros por esse coeficiente o que n˜ao altera as solu¸c˜oes da equa¸c˜ao; segundo, se o coeficiente de x2 , chamemos-lhe a, n˜ao for 0, procede-se a uma mudan¸ca de inc´ognita substituindo x por y − a3 . N˜ao ´e dif´ıcil ver que na nova equa¸c˜ao assim obtida, em que a inc´ognita ´e y, e que continua a ser de grau 3, o coeficiente de y 3 ´e 1 e o coeficiente de y 2 ´e 0. As solu¸c˜oes da primeira equa¸c˜ao podem obter-se das da segunda simplesmente subtraindo-lhes a3 . 182 de −(u3 + v 3 ) = c tira-se r c v = − − 2 3 E vem, finalmente, s x = 3 c − + 2 r c2 b3 + . 4 27 s 2 3 c b + + 4 27 o que ´e o mesmo que v s u u ³ c ´2 µ b ¶3 c 3 t − + + + x = 2 2 3 3 c − − 2 r c2 b3 + 4 27 v s u u ³ c ´2 µ b ¶3 c 3 t − − + . 2 2 3 Esta ´e a f´ormula resolvente encontrada no s´eculo XVI por del Ferro, Cardano e Tartaglia. Algum tempo depois da descoberta da f´ormula, outro italiano, Bombelli, aplicoua `a equa¸ca˜o x3 − 15x − 4 = 0. Note-se que esta equa¸c˜ao tem a solu¸c˜ao x = 4, como se vˆe imediatamente. Mas a f´ormula resolvente d´a q q √ √ 3 3 x = 2 + −121 + 2 − −121 . Aparece aqui a raiz quadrada de um n´ umero negativo, o que torna a express˜ao sem sentido. Mas Bombelli teve um “pensamento louco”(nas suas pr´oprias palavras) e fez contas com essas ra´ızes como se elas existissem, e usando as propriedades habituais das opera¸co˜es com n´ umeros. √ √ Como 121 = 112 , dever´a ser −121 = 11 −1, pelo que q q q q √ √ √ √ 3 3 3 3 2 + −121 = 2 + 11 −1 e 2 − −121 = 2 − 11 −1 . p p √ √ Como entre os radicandos das ra´ızes c´ ubicas 3 2 + 11 −1 e 3 2 − 11 −1 s´o h´a uma diferen¸ca de sinal, ocorreu a Bombelli que essas ra´ızes c´ ubicas se possam tamb´em escrever na forma q q √ √ √ √ 3 3 2 + 11 −1 = a + b −1 e 2 − 11 −1 = a − b −1 com a e b n´ umeros reais. E, de facto, das condi¸c˜oes √ ¢3 √ ¡ a + b −1 = 2 + 11 −1 e ¡ √ ¢3 √ a − b −1 = 2 − 11 −1 tira-se, fazendo os c´a√ lculos usando as propriedades habituais das opera¸co˜es com n´ umeros (e tamb´em ( −1)2 = −1), que a = 2 e b = 1 s˜ao solu¸co˜es poss´ıveis, isto ´e, ¡ 2+ √ √ ¢3 −1 = 2 + 11 −1 e 183 ¡ 2− √ √ ¢3 −1 = 2 − 11 −1 . (Exerc´ıcio: fa¸ca os c´alculos que comprovam isto.) Ent˜ao q q √ √ √ √ 3 3 2 + 11 −1 = 2 + −1 e 2 − 11 −1 = 2 − −1 e vem, para a solu¸c˜ao da equa¸c˜ao, √ √ x = 2 + −1 + 2 − −1 = 4 . Portanto, trabalhando com estas quantidades imagin´arias — as ra´ızes quadradas de n´ umeros negativos — Bombelli chegou a um resultado√real correcto. A partir deste epis´odio, os n´ umeros da forma a + b −1, com a e b reais — designados por n´ umeros imagin´arios, nome que continuou at´e hoje, embora seja mais vulgar chamar--lhes n´ umeros complexos — passaram a ser usados nas mais variadas quest˜oes e aplica¸co˜es da Matem´atica, e foram-se impondo pela sua utilidade. Durante mais de dois s´eculos, a quest˜ao da natureza dos n´ umeros complexos — que n´ umeros s˜ao estes ao certo? — permaneceu um pouco misteriosa. (A√partir do s´eculo XVIII, com Euler, tornou-se habitual usar a letra i para designar −1.) S´o durante o s´eculo XIX foram apresentadas respostas satisfat´orias para essa quest˜ao e foram justificadas as propriedades destes n´ umeros. Como? Definindo os n´ umeros complexos `a custa de entidades conhecidas — por exemplo, como pontos num plano ou, o que ´e quase a mesma coisa, como pares ordenados de n´ umeros reais — sendo as opera¸c˜oes definidas da maneira conveniente. Depois mostra-se que as opera¸c˜oes gozam das propriedades desejadas e que no conjunto h´a um subconjunto que ´e uma “c´opia”dos n´ umeros reais. 184 11.2 Permuta¸c˜ oes Neste apˆendice reunem-se as demonstra¸co˜es dos resultados sobre permuta¸co˜es apresentados na sec¸c˜ao 3.2. Para simplificar a escrita, representaremos a transposi¸c˜ao µ ¶ 1 2 ... i ... j ... n 1 2 ... j ... i ... n pela nota¸c˜ao (ij), desde que n seja conhecido do contexto. Por exemplo, em S4 , (13) = (3, 2, 1, 4). Teorema 11.1 Toda a permuta¸c˜ao em Sn ´e um produto de transposi¸c˜ oes. Demonstra¸c˜ ao. A demonstra¸c˜ao faz-se por indu¸c˜ao sobre n. S2 tem apenas dois elementos: id e (12). Como (12) ´e uma transposi¸ca˜o e id= (12)(12), o resultado ´e v´alido para n = 2. Suponhamos, como hip´otese de indu¸ca˜o, que qualquer permuta¸c˜ao em Sn−1 ´e um produto de transposi¸c˜oes em Sn−1 . Seja σ uma permuta¸ca˜o em Sn . Se σ(n) = n, a permuta¸ca˜o µ ¶ 1 2 ... n − 1 σ ˆ= σ1 σ2 . . . σn−1 pertence a Sn−1 . Pela hip´otese de indu¸ca˜o, existem transposi¸c˜oes (ab), (cd), . . . , (st) em Sn−1 tais que σ ˆ = (ab)(cd) . . . (st). Mas, ent˜ao, em Sn tem-se σ = (ab)(cd) . . . (st), uma vez que σ(i) = σ ˆ (i) = (ab)(cd) . . . (st)(i), para i = 1, . . . , n − 1, e n = σ(n) = (ab)(cd) . . . (st)(n) (pelo facto de entre os n´ umeros a, b, c, d, . . . , s, t n˜ao constar n). Suponhamos agora que σ(n) = k 6= n e consideremos a permuta¸ca˜o (kn)σ. Temse (kn)σ(n) = n. Logo, pelo caso anterior, existem transposi¸co˜es (a0 b0 ), (c0 d0 ), . . . , (u0 v 0 ) ∈ Sn tais que (kn)σ = (a0 b0 )(c0 d0 ) . . . (u0 v 0 ). Mas, como (kn)(kn) = id, multiplicando ambos os membros da igualdade anterior por (kn), obtemos σ = (kn)(a0 b0 )(c0 d0 ) . . . (u0 v 0 ). Antes do resultado seguinte, recorde-se que, dada uma permuta¸c˜ao σ, a nota¸c˜ao t(σ) designa o n´ umero total de invers˜oes de σ. Lema 11.1 Seja σ uma permuta¸c˜ ao em Sn e consideremos a sua inversa σ −1 . −1 Ent˜ao, tem-se sgn(σ) = sgn(σ ). Demonstra¸c˜ ao. O par (i, j) forma uma invers˜ao em σ se e s´o se i < j e σ(i) > σ(j), ou seja, se e s´o se na permuta¸ca˜o µ ¶ 1 . . . σ(j) . . . σ(i) . . . n −1 σ = σ −1 (1) . . . j ... i . . . σ −1 (n) 185 o par (σ(j), σ(i)) formar uma invers˜ao. Conclui-se assim que a aplica¸c˜ao (i, j) 7→ (σ(j), σ(i)) ´e uma bijec¸c˜ao entre o conjunto dos pares que formam uma invers˜ao em σ e o conjunto dos pares que formam uma invers˜ao em σ −1 . Logo t(σ) = t(σ −1 ) e, portanto, sgn(σ) = sgn(σ −1 ). Teorema 11.2 Dadas σ, τ ∈ Sn tem-se sgn(στ ) = sgn(σ)sgn(τ ). Demonstra¸c˜ ao. Nesta demonstra¸ca˜o designaremos por n×n o conjunto {1, . . . , n}× {1, . . . , n}. Defina-se, para cada par (i, j) ∈ n × n, ½ 1, se i < j ∆(i, j) = . 0, se i ≥ j Para qualquer µ ∈ Sn , tem-se, por defini¸c˜ao de invers˜ao, X ∆(i, j)∆(µ(j), µ(i)), t(µ) = (i,j)∈n×n j´a que, quando i < j e µ(i) > µ(j), a correspondente parcela no somat´orio ´e 1, sendo 0 nos restantes casos. Assim X ∆(i, j)∆(στ (j), στ (i)). t(στ ) = (i,j)∈n×n Note-se que (i, j) 7→ (τ (i), τ (j)) estabelece uma bijec¸ca˜o em n × n. Logo, fazendo τ (i) = k e τ (j) = l, a soma anterior toma a forma X ∆(τ −1 (k), τ −1 (l))∆(σ(l), σ(k)). t(στ ) = (k,l)∈n×n Como s˜ao nulas as parcelas desta soma em que k = l, podemos dividi-la em duas parcelas – a primeira relativa aos pares (k, l) tais que k < l e a segunda `aqueles em que k > l. Isso pode ser apresentado da seguinte forma: X t(στ ) = ∆(k, l)∆(τ −1 (k), τ −1 (l))∆(σ(l), σ(k)) + (k,l)∈n×n + X ∆(l, k)∆(τ −1 (k), τ −1 (l))∆(σ(l), σ(k)). (k,l)∈n×n Somando e subtraindo a esta express˜ao a quantidade 186 P (k,l)∈n×n ∆(k, l)∆(σ(l), σ(k))+ P (k,l)∈n×n ∆(l, k)∆(τ −1 (k), τ −1 (l)), obtemos X t(στ ) = ∆(k, l)∆(σ(l), σ(k))+ (k,l)∈n×n X ∆(l, k)∆(τ −1 (k), τ −1 (l))− (k,l)∈n×n X [1 − ∆(τ −1 (k), τ −1 (l))]∆(k, l)∆(σ(l), σ(k))− (k,l)∈n×n X [1 − ∆(σ(l), σ(k))]∆(l, k)∆(τ −1 (k), τ −1 (l)). (k,l)∈n×n Mas se k 6= l, que ´e a situa¸ca˜o em que as parcelas podem ser n˜ao nulas, temse 1 − ∆(σ(l), σ(k)) = ∆(σ(k), σ(l)) e 1 − ∆(τ −1 (k), τ −1 (l)) = ∆(τ −1 (l), τ −1 (k)) . Logo, podemos observar que os dois u ´ltimos somat´orios em cima s˜ao de facto iguais: X [1 − ∆(τ −1 (k), τ −1 (l))]∆(k, l)∆(σ(l), σ(k)) = (k,l)∈n×n X ∆(τ −1 (l), τ −1 (k))∆(k, l)∆(σ(l), σ(k)) = (k,l)∈n×n X [1 − ∆(σ(l), σ(k))]∆(l, k)∆(τ −1 (k), τ −1 (l)) (k,l)∈n×n (troque o papel de l e k para obter a u ´ltima igualdade). Assim, se designarmos esta quantidade por r, temos X X t(στ ) = ∆(k, l)∆(σ(l), σ(k)) + ∆(l, k)∆(τ −1 (k), τ −1 (l)) + 2r = (k,l)∈n×n (k,l)∈n×n = t(σ) + t(τ −1 ) + 2r = t(σ) + t(τ ) + 2r, uma vez que, pelo Lema 11.1, t(τ ) = t(τ −1 ). Logo sgn(στ ) = (−1)t(στ ) = (−1)t(σ) (−1)t(τ ) (−1)2r = (−1)t(σ) (−1)t(τ ) = sgn(σ)sgn(τ ). Segue-se imediatamente que um resultado an´alogo ´e v´alido para a composi¸ca˜o de mais do que duas permuta¸co˜es. Corol´ ario 11.1 Em Sn h´a tantas permuta¸c˜ oes pares como ´ımpares. Demonstra¸c˜ ao. A aplica¸ca˜o σ 7→ (12)σ estabelece uma bijec¸c˜ao entre o conjunto das permuta¸c˜oes pares e o conjunto das permuta¸c˜oes ´ımpares em Sn . 187 Teorema 11.3 Uma permuta¸c˜ ao ´e par se e s´o se for o produto de um n´ umero par de transposi¸c˜ oes. Demonstra¸c˜ ao. No teorema 11.1 vimos que qualquer permuta¸ca˜o ´e um produto de transposi¸co˜es. Vimos tamb´em j´a que esta factoriza¸c˜ao n˜ao ´e em geral u ´nica. Suponhamos que σ = τ1 τ2 . . . τp = µ1 µ2 . . . µq com τ1 , τ2 , . . . , τp , µ1 , µ2 , . . . , µq transposi¸co˜es. Ent˜ao sgn(σ) = sgn(τ1 )sgn(τ2 ) . . . sgn(τp ) = sgn(µ1 )sgn(µ2 ) . . . sgn(µq ). No Exemplo 3.2 vimos que qualquer transposi¸ca˜o tem sinal −1 . Logo sgn(σ) = (−1)p = (−1)q , isto ´e, p e q tˆem a mesma paridade. 188 11.3 O Teorema de Laplace Neste apˆendice demonstra-se o Teorema de Laplace e apresenta-se uma generaliza¸c˜ao do mesmo Teorema. Teorema 11.4 (Teorema de Laplace) O determinante de uma matriz quadrada ´e igual `a soma dos produtos dos elementos de uma linha pelos respectivos complementos alg´ebricos, isto ´e, sendo A = [aij ] n × n, tem-se det(A) = n X aij (−1)i+j det(Aij ), j=1 para qualquer i ∈ {1, . . . , n}. O mesmo vale para colunas, ou seja, det(A) = n X aij (−1)i+j det(Aij ), i=1 para qualquer j ∈ {j, . . . , n}. Demonstra¸c˜ ao. Temos X det(A) = sgn(σ)a1σ1 a2σ2 . . . anσn . σ=(σ1 ,...,σn )∈Sn Dado um inteiro i ∈ {1, . . . , n}, cada parcela desta soma tem um e s´o um elemento da linha i da matriz. Associando todas as parcelas que contˆem ai1 , ai2 , . . . , ain , respectivamente, obtemos uma soma da forma det(A) = ai1 ∆i1 + ai2 ∆i2 + . . . + ain ∆in . O que vamos mostrar ´e que, para i ∈ {1, . . . , n}, se tem ∆ij = (−1)i+j det(Aij ) , j = 1, . . . , n. Comecemos com o caso i = j = 1. As parcelas que contˆem a11 em det(A) correspondem `as permuta¸co˜es σ ∈ Sn tais que σ1 = 1. Assim X ∆11 = sgn(σ)a2σ2 . . . anσn . σ=(1,σ2 ,...,σn )∈Sn  a22 . . . a2n  ..  de A e calcule-se o seu determi=  ... . . . . an2 . . . ann  Considere-se a submatriz A11 nante. Tem-se det(A11 ) = X sgn(µ)a2,µ1 +1 . . . an,µn−1 +1 µ=(µ1 ,...,µn−1 )∈Sn−1 = X sgn(µ)a2,ˆµ2 . . . an,ˆµn µ=(µ1 ,...,µn−1 )∈Sn−1 189 onde µ ˆ ´e a permuta¸ca˜o em Sn dada por µ ¶ 1 2 ... n µ ˆ= . 1 µ1 + 1 . . . µn−1 + 1 Note-se que µ 7→ µ ˆ ´e uma aplica¸ca˜o bijectiva entre Sn−1 e o subconjunto de Sn constitu´ıdo pelas permuta¸c˜oes que fixam 1. Al´em disso, como se vˆe imediatamente, o n´ umero total de invers˜oes de µ e µ ˆ ´e o mesmo, ou seja, sgn(µ) = sgn(ˆ µ). Assim X det(A11 ) = sgn(ˆ µ)a2,ˆµ2 . . . an,ˆµn µ ˆ=(1,ˆ µ2 ,...,ˆ µn )∈Sn = X sgn(σ)a2σ2 . . . anσn . σ=(1,σ2 ,...,σn )∈Sn Logo ∆11 = det(A11 ) = (−1)1+1 det(A11 ) . Isto encerra o caso i = j = 1. Sejam agora i, j arbitr´arios e considere-se a matriz  ai1 ai2 . . . aij . . . ain  a11 a . . . a1j . . . a1n 12   a21 a22 . . . a2j . . . a2n  . .. .. .. .. ..  . . . . . .  . B1 =  a a . . . a . . . a  i−1,1 i−1,2 i−1,j i−1,n   ai+1,1 ai+1,2 . . . ai+1,j . . . ai+1,n  . .. .. .. .. ..  .. . . . . . an1 an2 . . . anj . . . ann        .      B1 obteve-se de A por i − 1 trocas sucessivas de linhas , que levaram a linha i de A a tornar-se na linha 1 de B1 . Logo det(B1 ) = (−1)i−1 det(A). Agora em B1 fa¸cam-se j − 1 trocas sucessivas de colunas, de modo a trazer a coluna j para o lugar da primeira coluna. Obtemos   aij ai1 ai2 . . . ai,j−1 ai,j+1 . . . ain   a1j     B2 =  a2j .   ..   . Aij anj Na matriz B2 o elemento situado na primeira linha e primeira coluna ´e aij e, pelo caso j´a provado, temos que det(B2 ) = aij det(Aij ) + (parcelas n˜ao envolvendo aij ). Mas det(B2 ) = (−1)j−1 det(B1 ) = (−1)i+j−2 det(A) = (−1)i+j det(A), ou seja, det(A) = (−1)i+j det(B2 ). O coeficiente de aij em det(A) ´e ent˜ao (−1)i+j det(Aij ) . Conclu´ ımos assim que ∆ij = (−1)i+j det(Aij ) e, portanto, finalmente, que det(A) = Pn i+j det(Aij ). j=1 aij (−1) 190 O resultado an´alogo para colunas ´e consequˆencia deste, usando o facto de que det(A) = det(AT ). Vamos agora ver uma generaliza¸c˜ao do Teorema de Laplace. Necessitamos de algumas defini¸c˜oes e nota¸c˜ao. Recorde-se que o determinante de uma submatriz quadrada de ordem m de uma matriz A se diz menor de ordem m de A. Dada a matriz A quadrada de ordem n e inteiros 1 ≤ i1 < . . . < im ≤ n, 1 ≤ j1 < . . . < jm ≤ n, usaremos a nota¸ca˜o A[i1 , . . . , im |j1 , . . . , jm ] para designar a submatriz de A obtida com a intersec¸c˜ao das linhas i1 , . . . , im e colunas j1 , . . . , jm de A. A submatriz de A obtida por supress˜ao das linhas i1 , . . . , im e colunas j1 , . . . , jm ser´a designada por A[i1 , . . . , im |j1 , . . . , jm ]c . Defini¸c˜ ao 11.1 Dada a matriz A quadrada de ordem n e inteiros 1 ≤ i1 < . . . < im ≤ n, 1 ≤ j1 < . . . < jm ≤ n, chamase complemento alg´ ebrico do menor det(A[i1 , . . . , im |j1 , . . . , jm ]) a i1 +...+im +j1 +...+jm (−1) det(A[i1 , . . . , im |j1 , . . . , jm ]c ). Note-se que esta defini¸ca˜o generaliza a no¸ca˜o de complemento alg´ebrico de um elemento de A (Defini¸c˜ao 3.4).   0 0 2 1 −3 0   . Ent˜ao −1 2 1  0 −1 −1 · ¸ · ¸ 0 0 2 0 A[1, 3|2, 3] = , A[1, 3|2, 3]c = −1 2 2 −1 · ¸ 2 0 e o complemento alg´ebrico de det(A[1, 3|2, 3]) ´e (−1)1+3+2+3 det = 2. 2 −1 5  2 Exemplo 11.1 Seja A =   0 2 Teorema 11.5 (Teorema de Laplace Generalizado) Seja A uma matriz quadrada de ordem n e seja m um inteiro menor que n. Ent˜ao, o determinante de A ´e igual `a soma dos produtos dos menores de ordem m contidos em m linhas de A pelos respectivos complementos alg´ebricos. O mesmo vale para colunas. ` semelhan¸ca do que foi feito para o Teorema de Laplace, come¸camos Demonstra¸c˜ ao. A com um caso particular. Seja A = [aij ] e considere-se a submatriz A[1, . . . , m|1, . . . , m] obtida com os elementos das primeiras m linhas e m colunas de A. Mostremos que o produto sgn(σ)sgn(τ )a1σ1 . . . amσm am+1,m+τ1 . . . an,m+τn−m 191 de qualquer parcela sgn(σ)a1σ1 . . . amσm (σ ∈ Sm ) de det(A[1, . . . , m|1, . . . , m]) por qualquer parcela sgn(τ )am+1,m+τ1 . . . an,m+τn−m (τ ∈ Sn−m ) do seu complemento alg´ebrico ´e necessariamente uma parcela de det(A). Para tal considerem-se as seguintes permuta¸c˜oes em Sn : µ ¶ µ ¶ 1 ... m m + 1 ... n 1 ... m m + 1 ... n σ ˆ= , τˆ = . σ1 . . . σm m + 1 . . . n 1 . . . m m + τ1 . . . m + τn−m Da sua composi¸ca˜o obt´em-se outra permuta¸ca˜o em Sn : µ ¶ 1 ... m m + 1 ... n σ ˆ τˆ = . σ1 . . . σm m + τ1 . . . m + τn−m Como sgn(ˆ σ ) = sgn(σ) e sgn(ˆ τ ) = sgn(τ ), vem sgn(ˆ σ τˆ) = sgn(σ)sgn(τ ). Logo sgn(σ)sgn(τ )a1σ1 . . . amσm am+1,m+τ1 . . . an,m+τn−m ´e uma parcela do det(A), como quer´ıamos mostrar. Quantas parcelas de det(A) obtemos desta forma? Temos m! parcelas provenientes de det(A[1, . . . , m|1, . . . , m]) e (n−m)! parcelas provenientes do seu complemento alg´ebrico. Obtemos portanto m!(n − m)! parcelas de det(A). Como todas estas parcelas resultam de escolhas diferentes de colunas da matriz, n˜ao h´a duplica¸ca˜o. Considerem-se agora m quaisquer linhas i1 , . . . , im , e m quaisquer colunas j1 , . . . , jm de A ( i1 < . . . < im , j1 < . . . < jm ) e a submatriz A[i1 , . . . , im |j1 , . . . , jm ]. Efectuando i1 − 1 trocas sucessivas de linhas, levamos a linha i1 de A para o lugar da primeira linha. Seguidamente, efectuando i2 − 1 trocas sucessivas de linhas, levamos a linha i2 de A para o lugar da segunda linha. Continuando a proceder deste modo, efectuamos ent˜ao (i1 − 1) + (i2 − 2) + . . . + (im − m) trocas de linhas, levando as linhas i1 , . . . , im , para o lugar das m primeiras linhas, por esta ordem, e mantendo a posi¸ca˜o relativa de todas as outras linhas de A. Nesta nova matriz, efectuamos agora (j1 − 1) + (j2 − 2) + . . . + (jm − m) trocas de colunas, de modo a levar as colunas j1 , . . . , jm para o lugar das primeiras m colunas, por esta ordem, e mantendo a posi¸c˜ao relativa das restantes. Designe-se a matriz assim obtida por B. Por constru¸ca˜o de B, tem-se B[1, . . . , m|1, . . . , m] = A[i1 , . . . , im |j1 , . . . , jm ] , B[1, . . . , m|1, . . . , m]c = A[i1 , . . . , im |j1 , . . . , jm ]c . Logo, pelo caso considerado no in´ıcio, sabemos que do produto das m! parcelas de det(A[i1 , . . . , im |j1 , . . . , jm ]) pelas (n − m)! parcelas de det(A[i1 , . . . , im |j1 , . . . , jm ]c ) obtemos m!(n − m)! parcelas de det(B). Mas det(B) = (−1)(i1 −1)+(i2 −2)+...+(im −m)+(j1 −1)+(j2 −2)+...+(jm −m) det(A) = (−1)i1 +...+im +j1 +j2 +...+jm det(A). Assim, multiplicando estas m!(n − m)! parcelas por (−1)i1 +...+im +j1 +j2 +...+jm obtemos m!(n − m)! parcelas de det(A). Note-se que o produto (−1)i1 +...+im +j1 +j2 +...+jm det(A[i1 , . . . , im |j1 , . . . , jm ]c ) n˜ao ´e mais do que o complemento alg´ebrico de det(A[i1 , . . . , im |j1 , . . . , jm ]). Mostr´amos assim que o produto de qualquer menor de ordem m de A pelo seu complemento alg´ebrico nos fornece m!(n − m)! parcelas de det(A). 192 n! Dadas m quaisquer linhas de A, existem m!(n−m)! menores de ordem m nelas contidos. Pelo que acab´amos de provar, do produto de cada um destes menores pelo seu complemento alg´ebrico obtemos m!(n − m)! parcelas de det(A). Do total n! n! produtos obtemos ent˜ao m!(n − m)! m!(n−m)! = n! parcelas distintas destes m!(n−m)! de det(A) (pois provˆem de escolhas diferentes de colunas de A). Mas det(A) tem precisamente n! parcelas. Logo obtivemos det(A). O resultado para colunas segue deste, usando a propriedade det(A) = det(AT ).   1 3 0 2  5 1 2 0   Exemplo 11.2 Seja A =   0 2 3 1  . Calcule-se o seu determinante usando 3 0 1 1 mento segundo os menores de ordem 2 contidos nas duas primeiras linhas. · ¸ · ¸ 1 3 3 1 (1+2+1+2) det(A) = det (−1) det + 1 1 · ¸ ·5 1 ¸ · ¸ · 1 0 2 1 1 2 2 (1+2+1+3) (1+2+1+4) det (−1) det + det (−1) det 5 2 0 1 5 0 ¸ · 0 ¸ · ¸ · · 0 3 2 0 1 3 0 (−1)(1+2+2+4) det + det (−1)(1+2+2+3) det det 3 1 0 3 1 1 2 · ¸ · ¸ 0 2 0 2 det (−1)(1+2+3+4) det = −64 2 0 3 0 193 o desenvolvi- ¸ 3 + 1 ¸ 3 + 1