147 28 672KB
Finnish Pages 106 Year 2012
Matriisilaskenta Markku Koppinen
7. joulukuuta 2012
Alkusanat Matriisilaskennan kurssilla perehdytään tavallisimpiin matriiseja koskeviin perusasioihin ja -menetelmiin, joita tarvitaan sekä käytännön sovelluksissa että muualla matematiikassa. Monisteessa on yritetty löytää tasapaino matriisien teorian ja käytännön laskuvalmiuksien välillä. Lineaarialgebran kurssilla oli jo esillä determinantti, matriisin aste, ominaisarvot, diagonalisointi ja porrasmatriisit. Tämän kurssin sisällöstä mainittakoon Jordanin normaalimuoto, spektraalihajotelma, komponenttimatriisit, deniitit matriisit, matriisien jonot, sarjat ja funktiot, MoorenPenrosen (yleistetty) käänteismatriisi ja PerroninFrobeniuksen lause kaikki asioita, jotka sovellusten yhteydessä yleensä oletetaan tunnetuiksi. Moniste on pääosin sama kuin vuosien 2008 tai 2006 versiot. Tekstin joukossa on runsaasti esimerkkejä. Kaikista ei ole annettu ratkaisua. Osa käsiteltäneen luennoilla ja demonstraatioissa, ja loput jäävät lukijan itse mietittäviksi. Kurssin seuraamiseksi lineaarialgebran kurssin hallinta on välttämätöntä. Ensimmäisessä luvussa on hiukan kertausta.
Kirjallisuutta Tärkeimmät käytetyistä lähteistä ovat seuraavat: 1. C. Cullen: Matrices and linear transformations (1966) 2. P. Lancaster: Theory of matrices (1969) Muita hyviä lähteitä: 3. K. M. Abadir & J. R. Magnus: Matrix algebra (2005) 4. S. Axler: Linear algebra done right (1997) 5. A. Berman & R. J. Plemmons: Nonnegative matrices in the mathematical sciences (1994) 6. D. S. Bernstein: Matrix mathematics (2005) 7. M. Fiedler: Special matrices and their applications in numerical mathematics (1986) 8. F. R. Gantmacher: The theory of matrices, III (1960) 9. K. Homan & R. Kunze: Linear algebra (1961) 10. R. A. Horn & C. A. Johnson: Matrix analysis (1985) 11. L. Mirsky: An introduction to linear algebra (1955) 12. M. Newman: Integral matrices (1972) 13. B. Noble & J. W. Daniel: Applied linear algebra (1977) 14. S. Perlis: Theory of matrices (1952) 15. C. R. Rao & S. K. Mitra: Generalized inverse of matrices and its applications (1971) i
Sisältö 1 Perusasioita 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11
1
Hiukan kunnista ja kuntalaajennuksista Polynomien suurin yhteinen tekijä . . . Vektoriavaruus . . . . . . . . . . . . . . Kanta ja dimensio. Suora summa . . . . Matriisialgebraa . . . . . . . . . . . . . Kannanvaihdot ja lineaarikuvaukset . . Determinantti ja jälki . . . . . . . . . . Matriisin aste . . . . . . . . . . . . . . . Ominaisarvot ja diagonalisoituvuus . . . Similaarisuus kolmiomatriisin kanssa . . Sisätulo . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
2 Ominaisarvot ja -vektorit 2.1 2.2 2.3 2.4
21
Matriisin karakteristinen yhtälö . . . . . . . . . . Ominaisarvon kertaluvut . . . . . . . . . . . . . . Idempotentti matriisi. Projektio . . . . . . . . . . 2.3.1 Ortogonaalinen projektio . . . . . . . . . Matriisin spektraaliesitys ja spektraalihajotelma
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Kompleksiset matriisit 3.1 3.2 3.3 3.4 3.5 3.6
21 21 24 25 26
30
Unitaarimatriisi ja ortogonaalimatriisi . . . Itseadjungoitu matriisi . . . . . . . . . . . . Unitaarinen similaarisuus. Normaali matriisi Rayleighin osamäärä . . . . . . . . . . . . . Deniitti matriisi . . . . . . . . . . . . . . . Neliömuoto ja Hermiten muoto . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4 Minimaalipolynomi ja normaalimuodot 4.1 4.2 4.3
1 2 3 4 5 8 10 12 14 16 18
Polynomimatriisit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matriisit rationaalifunktioiden kunnan yli . . . . . . . . . . . . . . . . . . . . Jakoalgoritmit. CayleynHamiltonin lause . . . . . . . . . . . . . . . . . . . . ii
30 30 32 33 34 38
40 40 42 44
SISÄLTÖ 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11
iii
Minimaalipolynomi . . . . . . . . . . . . . . . . . . Alkeismuunnokset ja riviekvivalenssi . . . . . . . . Invariantit polynomit ja Smithin kanoninen muoto Riviekvivalenssi ja similaarisuus . . . . . . . . . . . Ensimmäinen luonnollinen normaalimuoto . . . . . Matriisin alkeistekijät . . . . . . . . . . . . . . . . Toinen luonnollinen normaalimuoto . . . . . . . . . Jordanin normaalimuoto . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
5 Matriisien normit 5.1 5.2 5.3 5.4
Vektorinormi . . . . . . . . . . . . . . Matriisinormi . . . . . . . . . . . . . . Indusoitu matriisinormi . . . . . . . . Vektorien ja matriisien jonot ja sarjat
66 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Komponenttimatriisit: alialgebran hAi kanta Komponenttimatriisit ja matriisipolynomit . Matriisin funktio f (A) . . . . . . . . . . . . Matriisien funktiot sarjaesityksinä . . . . . Matriisifunktioiden välisistä relaatioista . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
6 Komponenttimatriisit 6.1 6.2 6.3 6.4 6.5
8.2
PerroninFrobeniuksen lause . . . . . . . . . . 8.1.1 Epänegatiivinen matriisi . . . . . . . . . 8.1.2 PerroninFrobeniuksen lauseen todistus 8.1.3 Positiiviset ja primitiiviset matriisit . . Sovellus: Markovin ketjut . . . . . . . . . . . .
76 79 82 84 86
87
Määritelmä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sovellus: yhtälöryhmän likimääräinen ratkaiseminen . . . . . . . . . . . . . . Singulaariarvohajotelma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8 Epänegatiiviset matriisit 8.1
66 68 69 72
76
7 Yleistetty käänteismatriisi 7.1 7.2 7.3
46 49 51 55 56 59 61 62
87 91 92
96 . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. 96 . 97 . 100 . 100 . 101
Luku 1
Perusasioita Tämä luku on paljolti lineaarialgebran kurssin kertausta.
1.1 Hiukan kunnista ja kuntalaajennuksista Pyrimme käsittelemään asiat, missä vain mahdollista, käyttäen skalaarikuntana mielivaltaista kuntaa K (Algebran peruskurssi II). Reaali- ja kompleksilukukunnat R ja C ovat mukana erikoistapauksina. Jos ei tunne yleisen kunnan käsitettä, tai jos on kiinnostunut vain reaalisista ja kompleksisista matriiseista, K :n tilalle voi joka kohdassa ajatella R:n tai C:n . Yleinen kunta on joukko K varustettuna yhteen- ja kertolaskuoperaatioilla (+ ja · ), joiden oletetaan toteuttavan eräät hyvin samantapaiset laskulait kuin on voimassa R:ssä tai C:ssä. Kunnan aksioomat voidaan lausua seuraavasti:
• (K, +) on Abelin ryhmä
(kunnan additiivinen ryhmä, nolla-alkiona 0),
• (K \ {0}, · ) on Abelin ryhmä
(kunnan multiplikatiivinen ryhmä, ykkösalkiona 1),
• a(b + c) = ab + ac ja (a + b)c = ac + bc aina kun a, b, c ∈ K
(distributiivilait).
Kunnan K alkioilla laskeminen käy aivan samoin kuin reaali- tai kompleksiluvuilla. On kuitenkin seuraavat oleelliset erot: Yleisessä kunnassa K ei ole suuruusjärjestystä ( ≤ ) eikä itseisarvon ottoa ( |·| ), K :n alkioilla ei ole minkäänlaista esitystä reaalilukujen avulla (vrt. C:ssä: z = x + yi), ja K :ssa saattaa olla n1 = 1 + · · · + 1 = 0 joillakin luonnollisilla luvuilla n. (Tässä n1 = n1K = 1K + · · · + 1K , ykkösiä n kappaletta.) Kunnan karakteristika char K on 0, jos n1K 6= 0 aina kun n ≥ 1; jos taas n1K = 0 jollain luonnollisella luvulla n ≥ 1, määritellään, että karakteristika char K on pienin tällainen luku n (ks. Algebran peruskurssi II). Esimerkiksi char R = 0 ja char C = 0. Kun p on alkuluku, niin Zp = Z/pZ on kunta, jonka karakteristika on p. Se reaalisten vektoriavaruuksien teoria, joka kehiteltiin lineaarialgebran kurssissa, voidaan melkein sellaisenaan siirtää koskemaan vektoriavaruuksia yli mielivaltaisen kunnan K ; skalaarit vain otetaan R:n (tai C:n) sijasta kunnasta K . Yksi tärkeä poikkeuskin on: sisätulo 1
LUKU 1. PERUSASIOITA
2
ja normi eivät yleisty mielivaltaisen kunnan tapaukseen. Joskus rajoitummekin kuntaan R tai C; näin on ainakin silloin, kun tarvitsemme sisätuloa tai normia. Lisäksi toisinaan joudumme olettamaan, että K on kyllin laaja siinä mielessä, että jokin tarkasteltavana oleva K -kertoiminen polynomi
p(x) = ar xr + ar−1 xr−1 + · · · + a2 x2 + a1 x + a0
(ai ∈ K ∀ i, ar 6= 0),
voidaan hajottaa tuloksi
p(x) = ar (x − c1 ) · · · (x − cr )
(ci ∈ K ∀ i);
tällöin sanotaan, että p(x) hajoaa täydellisesti yli K :n . Tämä on ekvivalentti sen kanssa, että p(x):n nollakohdat c1 , . . . , cr löytyvät K :sta (eikä jostain laajennuskunnasta). Kunta K on algebrallisesti suljettu , jos jokainen K -kertoiminen polynomi hajoaa täydellisesti yli K :n. Esimerkiksi polynomi x2 + x + 1 ei hajoa tekijöihin yli R:n, mutta koska sillä on C:ssä √ nollakohdat α, β = 12 (−1 ± i 3 ), niin yli C:n se hajoaa: x2 + x + 1 = (x − α)(x − β). Reaalilukukunta R ei ole algebrallisesti suljettu, mikä nähdään vaikka polynomista x2 + 1 tai x2 +x+1. Sen sijaan C:tä koskee Algebran peruslause: C on algebrallisesti suljettu. Siksi lineaarialgebran kurssissa, käsiteltäessä matriisien ominaisarvoja, skalaarikunnaksi otettiin C; tällä taattiin, että ominaisarvopolynomit cA (x) = det(A − xI) hajoavat täydellisesti. Tarvittaessa voidaan aina siirtyä käyttämään sopivaa K :n laajennuskuntaa, esimerkiksi ns. algebrallista sulkeumaa K . Tämä on eräs algebrallisesti suljettu kunta, joka sisältää K :n alikuntanaan. Esimerkiksi C on R:n algebrallinen sulkeuma. Jatkossa K on kiinnitetty kunta. Kunnille R ja C käytämme yhteistä merkintää K.
1.2 Polynomien suurin yhteinen tekijä Oletamme tunnetuiksi jotkin polynomien jaollisuutta ja suurinta yhteistä tekijää (syt) koskevat asiat, jotka esitellään tässä lyhyesti. Ne ovat täysin analogisia kokonaislukuja koskevien vastaavien seikkojen kanssa. Kun a(x), b(x) ∈ K[x], niin b(x) jakaa a(x):n (K[x]:ssä), merkitään b(x) | a(x), jos on sellainen c(x) ∈ K[x], että a(x) = c(x)b(x). Polynomeilla on voimassa ns. jakoalgoritmi : jos b(x) 6= 0, on yksikäsitteiset sellaiset q(x), r(x) ∈ K[x], että
a(x) = q(x)b(x) + r(x),
deg r(x) < deg b(x);
(1.1)
tässä deg tarkoittaa polynomin astetta (degree) (nollapolynomin asteeksi sovitaan −∞). Siis b(x) | a(x) jos ja vain jos jakojäännös r(x) = 0 (nollapolynomi). Polynomi on pääpolynomi , jos korkeimman asteen termin kerroin (johtava kerroin) on 1. Polynomien f1 (x), . . . , fk (x) ∈ K[x], joista ainakin yksi fi (x) 6= 0, suurin yhteinen tekijä syt(f1 (x), . . . , fk (x)) on yksikäsitteinen sellainen pääpolynomi g(x), että se jakaa jokaisen fi (x):n ja että jokainen h(x), joka jakaa jokaisen fi (x):n, jakaa myös g(x):n. Ekvivalentisti, g(x) on se yksikäsitteinen alimmanasteinen pääpolynomi, joka voidaan esittää muodossa
g(x) =
k X i=1
pi (x)fi (x),
(pi (x) ∈ K[x] ∀ i).
(1.2)
LUKU 1. PERUSASIOITA
3
(Vielä ekvivalentisti: g(x) on se yksikäsitteinen pääpolynomi, joka yksinään generoi renkaassa K[x] saman ihanteen kuin f1 (x), . . . , fk (x) yhdessä. Renkaan ihanne määritellään Algebran peruskurssissa II, emmekä me tule sitä tarvitsemaan.) Polynomien syt voidaan laskea ns. Eukleideen algoritmilla, mutta meillä riittää seuraava keino: Kirjoitetaan fi (x):t jaottomien tekijöiden tuloiksi (jaottomat tekijät ovat aina 1. astetta jos K on algebrallisesti suljettu) ja luetaan syt näistä hajotelmista (aivan kuten kokonaislukujen syt voidaan lukea alkutekijähajotelmista).
Esimerkki 1.2.1 syt((x − 1)2 (x − 2), (x − 1)(x − 3), (x − 1)3 ) = x − 1, syt(x − 1, 0, 1) = 1, syt((x − 1)2 , x − 2) = 1. Viimeksi mainitun nojalla 1 pitäisi voida lausua muodossa 1 = p(x)(x − 1)2 + q(x)(x − 2), ja todellakin: 1 = 1 · (x − 1)2 + (−x) · (x − 2). Entä miten x − 1 voidaan lausua muodossa (1.2) polynomien (x − 1)2 (x − 2), (x − 1)(x − 3) ja (x − 1)3 = x − 1 avulla?
1.3 Vektoriavaruus Tyypillinen esimerkki vektoriavaruudesta on
Rn = {x = (x1 , . . . , xn ) | xj ∈ R ∀ j}
(n ≥ 1),
varustettuna laskutoimituksilla
x + y = (x1 + y1 , . . . , xn + yn ), ax = (ax1 , . . . , axn ), missä x = (x1 , . . . , xn ) ja y = (y1 , . . . , yn ) ∈ Rn ja a ∈ R. Tarkemmin sanottuna Rn on eräs reaalinen vektoriavaruus eli vektoriavaruus yli skalaarikunnan R. Käsittelemme jatkossa vektoreita aina pystyvektoreina, ellei toisin sanota. Niinpä Rn :n alkioina ovat vektorit x1 . x = (x1 , . . . , xn )T = .. , xn missä (· · ·)T tarkoittaa transponointia. Korvattaessa R C:llä saadaan kompleksinen vektoriavaruus Cn , joka siis on vektoriavaruus yli kunnan C. Vektoriavaruus yli kunnan K on (V, +, · ), missä K on skalaarikunta, V on joukko, + on binäärioperaatio V ×V → V (V :n alkioiden yhteenlasku) ja · on binäärioperaatio K×V → V (skalaarilla kertominen; merkitään a · x = ax), ja missä on voimassa seuraavat ehdot:
(V, + )
on Abelin ryhmä,
a(x + y) = ax + ay
∀ a ∈ K, x, y ∈ V,
(a + b)x = ax + bx
∀ a, b ∈ K, x ∈ V,
(ab)x = a(bx) 1x = x
∀ a, b ∈ K, x ∈ V, ∀ x ∈ V.
LUKU 1. PERUSASIOITA
4
Eräs vektoriavaruus yli kunnan K on K n : sen muodostavat vektorit x = (x1 , . . . , xn )T , missä x1 , . . . , xn ∈ K , ja operaatiot määritellään vastaavasti kuin Rn :ssä.
Esimerkki 1.3.1 Kaikkien K -kertoimisten polynomien joukko K[x] = { p(x) = a0 + a1 x + · · · + ar xr | r ≥ 0, ai ∈ K ∀ i } on vektoriavaruus yli K :n (tavalliset laskutoimitukset).
Jatkossa vektoriavaruudet ovat yli kiinnitetyn kunnan K , ellei toisin sanota . Vektoriavaruuden V aliavaruus U on osajoukko, joka itsekin on vektoriavaruus V :n operaatioiden ja saman skalaarikunnan K suhteen. Tätä koskee aliavaruuskriteeri : Kun U ⊆ V , niin U on aliavaruus jos ja vain jos U 6= ∅ ja ax + by ∈ U
∀ a, b ∈ K, x, y ∈ U.
Jokainen V :n osajoukko S virittää (tai generoi ) aliavaruuden
L(S) = { a1 x1 + · · · + ak xk | k ≥ 0, aj ∈ K, xj ∈ S ∀ j }. Siis L(S) on kaikkien S :n alkioista muodostettujen lineaarikombinaatioiden joukko.
Esimerkki 1.3.2 Avaruudella K 3 on esimerkiksi aliavaruudet {(x, y, 0)T | x, y ∈ K} ja {(x, y, z)T ∈ K 3 | x + y + z = 0}.
Esimerkki 1.3.3 Avaruudella K[x] on mm. aliavaruudet Pn = { p(x) ∈ K[x] | deg p(x) ≤ n − 1 } = { a0 + a1 x + · · · + an−1 xn−1 | ai ∈ K ∀ i }. ³ ´ Esimerkki 1.3.4 Matriisit ac db (a, b, c, d ∈ C) muodostavat kompleksisen vektoriavaruu-
den M2 (C) tavallisten suhteen. Sillä on aliavaruutena esimerkiksi kaikkien ³ operaatioiden ´ ³ ´ a b 1 0 yläkolmiomatriisien 0 d joukko (a, b, d ∈ C). Tämän virittävät vaikkapa matriisit 0 0 , ³ ´ ³ ´ 01 00 , 00 01 .
1.4 Kanta ja dimensio. Suora summa Vektoriavaruuden V äärellinen osajoukko S = {x1 , . . . , xk } on lineaarisesti riippuva , jos on sellaiset a1 , . . . , ak ∈ K , että jokin aj 6= 0 ja a1 x1 + · · · + ak xk = 0. Ekvivalentti ehto, kun k ≥ 2, on että jokin vektoreista xj voidaan esittää muiden xi :den lineaarikombinaationa. Jos S ei ole lineaarisesti riippuva, se on lineaarisesti riippumaton . Joukko S = {x1 , . . . , xk } on V :n kanta , jos se on lineaarisesti riippumaton ja virittää V :n (ts. V = L(S)). Jos V :llä on tällainen kanta, sanotaan, että V on äärellisulotteinen ja että sen dimensio on dim V = dimK V = #S = k . Dimensio ei riipu kannan valinnasta. Kanta ei ole yksikäsitteinen. Kannan {x1 , . . . , xk } avulla jokainen vektori x ∈ V voidaan esittää yksikäsitteisessä muodossa x = c1 x1 + · · · + ck xk , cj ∈ K . Tämä on x:n kantaesitys . Sen kertoimista muodostuvaa vektoria (c1 , . . . , ck )T ∈ K n sanotaan vektorin x koordinaattivektoriksi . Näiden avulla avaruutta V voidaan käsitellä kuin se olisi K n . (Kanta määritellään kyllä ääretönulotteisessakin tapauksessa.)
LUKU 1. PERUSASIOITA
5
Esimerkki 1.4.1 Avaruuden K n luonnollinen kanta on {e1 , . . . , en }, missä vektorit ej = (0, . . . , 1, . . . , 0)T (j :s koordinaatti = 1, muut = 0) ovat luonnolliset kantavektorit. Siis dim K n = n. Vektorin a = (a1 , . . . , an )T kantaesitys tässä kannassa on a = a1 e1 + · · · + an en .
Esimerkki 1.4.2 Polynomiavaruudella Pn on kanta {1, x, . . . , xn−1 }, joten dim Pn = n (esimerkki 1.3.3).
Esimerkki 1.4.3 Joukko Rn on Cn :n osajoukko muttei C-aliavaruus. Huomaa kuitenkin, että Cn on vektoriavaruus myös yli R:n, ja Rn on tämän aliavaruus. Kun Cn :ää katsotaan vektoriavaruutena yli C:n, sen dimensio on n, merkitään dimC (Cn ) = n, mutta vektoriavaruutena yli R:n sen dimensio onkin 2n, merkitään dimR (Cn ) = 2n.
Esimerkki 1.4.4 Olkoon Mm×n (K) m×n-matriisien joukko yli K :n; siis sen alkioina ovat a11 . . . a1n = ............ am1 . . . amn
(aij )m×n
(aij ∈ K).
Tavallisten matriisioperaatioiden suhteen (yhteenlasku, skalaarilla kertominen) Mm×n (K) on vektoriavaruus yli K :n. Nollavektorina toimii nollamatriisi O = (0)m×n . Tällä avaruudella on luonnollinen kanta {Ers | r = 1, . . . , m, s = 1, . . . , n}, missä Ers on matriisi, jonka kohdassa (r, s) on 1 ja muut alkiot ovat nollia. Nimittäin matriisilla A = (aij ) on yksikäsitteinen esitys Pm Pn niiden lineaarikombinaationa: A = r=1 s=1 ars Ers . Siis dim Mm×n (K) = mn. Voidaan kirjoittaa Ers = (δir δjs )m×n , missä δij on Kroneckerin symboli, joka määritellään: δij = 1, kun i = j , ja δij = 0, kun i 6= j . Vektoriavaruus V on aliavaruuksiensa U ja W summa , merkitään V = U +W , jos jokainen v ∈ V voidaan esittää muodossa v = u + w, missä u ∈ U ja w ∈ W . Jos jokaisen v:n esitys tässä muodossa on yksikäsitteinen, summa on suora ja merkitään V = U ⊕ W . Kun V on äärellisulotteinen ja U ja W ovat sen aliavaruuksia, niin V = U ⊕ W tarkalleen silloin kun seuraavista kolmesta ehdosta kaksi on voimassa (jolloin kolmaskin on):
V = U + W,
U ∩ W = {0},
dim V = dim U + dim W.
Kun nämä ovat voimassa, V :lle saadaan kanta yhdistämällä U :n ja W :n kannat.
1.5 Matriisialgebraa Matriisien A = (aij ) ∈ Mm×n (K) ja B = (bij ) ∈ Mn×r (K) tulo määritellään: AB = (cij ) ∈ Pn Mm×r (K), missä cij = k=1 aik bkj . Tapauksessa m = n merkitään myös Mm×n (K) = Mn (K). Em. yhteen- ja kertolaskuoperaatioiden suhteen Mn (K) on rengas, jonka ykkösalkiona on identiteettimatriisi I = In = (δij )n×n . Nyt Mn (K):llä on sekä vektoriavaruus- että rengasrakenne, ja kun ne otetaan samanaikaisesti huomioon, siitä saadaan esimerkki ns. K -algebrasta:
LUKU 1. PERUSASIOITA
6
Määritelmä 1.5.1 (Assosiatiivinen) K -algebra on nelikkö (R, + , • , · ), missä (R, + , • ) on rengas, (R, + , · ) on vektoriavaruus yli K :n ja on voimassa α · (x • y) = (α · x) • y = x • (α · y) kaikilla alkioilla α ∈ K, x, y ∈ R. Osajoukko S ⊆ R on alialgebra jos se on sekä aliavaruus että alirengas. Tulo- ja skalaarillakertomisperaatiot • ja · merkitään tavallisesti ilman pistettä. Toinen tuttu K -algebra on polynomialgebra K[x]. Se on kommutatiivinen, kun taas Mn (K) on epäkommutatiivinen kun n > 1. Kunta K itse on K -algebra, siis R on R-algebra ja C on C-algebra; lisäksi C on R-algebra.
Esimerkki 1.5.2 Algebralla Mn (K) on alialgebra, jonka muodostavat yläkolmiomatriisit, siis matriisit, joiden päälävistäjän alapuoleiset alkiot ovat nollia. Sen osoittamiseksi, että kyseessä on alialgebra, on todettava, että identiteettimatriisi on yläkolmiomatriisi, kahden yläkolmiomatriisin summa ja tulo ovat yläkolmiomatriiseja ja että yläkolmiomatriisin skalaarimonikerta on yläkolmiomatriisi. (Se, että nämä ovat juuri tarvittavat ehdot, tulee aliavaruusja alirengaskriteereistä.) Muistetaan, että jos p(x) = c0 xk + c1 xk−1 + · · · + ck−1 x + ck ∈ K[x] ja A ∈ Mn (K), niin matriisipolynomi p(A) tarkoittaa matriisia
p(A) = c0 Ak + c1 Ak−1 + · · · + ck−1 A + ck I ∈ Mn (K). Kun A ∈ Mn (K) on kiinnitetty, merkitään (1.3)
hAialialg = hAi = { p(A) | p(x) ∈ K[x] },
ja sanotaan, että tämä on A:n generoima alialgebra . On helppo osoittaa, että se on yksikäsitteinen suppein Mn (K):n alialgebra, johon A kuuluu.
Esimerkki 1.5.3 Osoitetaan, että jokainen A ∈ Mn (K) toteuttaa jonkin polynomiyhtälön ³ ´ p(A) = O, missä p(x) ∈ K[x], p(x) 6= 0. Tarkastellaan esimerkkinä matriisia A =
11 01 .
Neliömatriisi A ∈ Mn (K) on säännöllinen , jos sillä on käänteismatriisi, ts. sellainen matriisi A−1 , että AA−1 = A−1 A = I . Jos B ∈ Mn (K) toteuttaa toisen ehdoista AB = I ja BA = I , niin toinenkin on voimassa ja B = A−1 .
Esimerkki 1.5.4 Osoitetaan, että jos A ∈ Mn (K) on säännöllinen, niin A−1 ∈ hAi. Esimerkki 1.5.5 Olkoon A idempotentti neliömatriisi, toisin sanoen A2 = A. Silloin hAi = {c0 I + c1 A | c0 , c1 ∈ K}. Jos A 6= O, I , niin {I, A} on alialgebran hAi kanta. Ratkaistaan tällöin B −1 , kun B = cI + A, missä c 6= 0, −1 on kiinnitetty. Matriisit A, B ∈ Mn (K) ovat similaariset , jos A = P −1 BP jollain säännöllisellä matriisilla P ; matriisia P sanotaan similaarisuuden välittäväksi muunnosmatriisiksi. Similaarisuus on ekvivalenssirelaatio. Lisäksi on voimassa:
P −1 (A1 + A2 )P = P −1 A1 P + P −1 A2 P, P −1 (A1 A2 )P = (P −1 A1 P )(P −1 A2 P ), P −1 (cA1 )P = cP −1 A1 P,
LUKU 1. PERUSASIOITA
7
kun Ai ∈ Mn (K) ja c ∈ K . Nämä ehdot merkitsevät, että kuvaus A 7→ P −1 AP on K algebrahomomorsmi Mn (K) → Mn (K) (kun P on kiinnitetty). Erityisesti seuraa, että
P −1 p(A)P = p(P −1 AP )
(1.4)
(p(x) ∈ K[x]).
Matriisin A transponoitu matriisi AT saadaan vaihtamalla pystyrivit vaakariveiksi järjestys säilyttäen; siis jos A = (aij )m×n , niin AT = (aji )n×m . Kun matriisitulo AB on määritelty, niin (AB)T = B TAT . Matriiseja voidaan kertoa lohkomuodossa, esimerkiksi µ ¶µ 0 0 ¶ µ ¶ A B A B AA0 + BC 0 AB 0 + BD0 = , C D C 0 D0 CA0 + DC 0 CB 0 + DD0 edellyttäen että lohkojen riviluvut sopivat kertolaskun puolesta yhteen. Olkoon esimerkiksi A ∈ Mm×n (K) ja B ∈ Mn×k (K), ja merkitään A:n vaakarivejä a1 , . . . , am ja B :n pystyrivejä b1 , . . . , bn . Silloin
¡ ¢ ¡ ¢ AB = A b1 | b2 | . . . | bn = Ab1 | Ab2 | . . . | Abn ja
1 a1 a B a2 a2 B . . AB = .. B = .. . an an B
Esimerkki 1.5.6 Olkoon A ∈ Mn (K), B ∈ Mn×m (K), C ∈ Mm×n (K) ja D ∈ Mm (K). Oletetaan, että A on säännöllinen. Silloin µ ¶ µ ¶µ A B I O A = −1 C D CA I O
O D−CA−1 B
¶µ
I O
A−1 B I
¶ ,
(1.5)
mikä nähdään kertomalla oikea puoli lohkomuodossa. (On tietenkin tarkistettava myös, et−1 tä esiintyvät matriisitulot ovat määriteltyjä.) µ ¶ Matriisia D − CA B sanotaan joskus A:n A B Schurin komplementiksi matriisissa . Kaavan voi ymmärtää vaikka niin, että matC D riisi muunnetaan tietyllä muunnoksella kvasidiagonaaliseksi (määritellään myöhemmin). Tapaus n = m = 1 antaa ¶ ¶µ ¶µ ¶ µ µ a 0 1 ab 1 0 a b (a, b, c, d ∈ K, a 6= 0). (1.6) = c 0 d− bc 0 1 1 c d a a
µ
Esimerkki 1.5.7 µ
Esimerkki 1.5.8
I A O I A O B C
¶µ
A O −I B
¶
µ =
¶
A O O I
µ =
¶µ
¶ O AB . −I B
I O B I
¶µ
¶ I O . O C
LUKU 1. PERUSASIOITA
8
1.6 Kannanvaihdot ja lineaarikuvaukset Olkoot B = {b1 , . . . , bm } ja B 0 = {b01 , . . . , b0m } kaksi V :n kantaa. Kannanvaihdon B → B 0 matriisi P = PB→B0 saadaan lausumalla kantavektorit b0i kannassa B ja kirjoittamalla näin saadut koordinaattivektorit P :n pystyriveiksi. Toisin sanoen P = (pij )m×m , missä pij :t määPm räytyvät yhtälöistä b0j = i=1 pij bi (j = 1, . . . , m). Vektorin x ∈ V koordinaattivektoreilla XB = (x1 , . . . , xn )T ja XB0 = (x01 , . . . , x0n )T ko. kantojen suhteen on yhteys XB = P XB0 . Kuvaus τ : V → W kahden vektoriavaruuden välillä on lineaarikuvaus , jos
τ (ax + by) = aτ (x) + bτ (y)
∀ a, b ∈ K, x, y ∈ V.
Lineaarikuvaus τ : V → W voidaan esittää matriisilla kiinnittämällä V :lle ja W :lle kannat: Kun V :lle valitaan kanta B = {b1 , . . . , bn } ja W :lle kanta C = {c1 , . . . , cm }, niin τ :ta esittävä matriisi M (τ ) = MB,C (τ ) muodostetaan lausumalla kantavektoreiden bj kuvat τ (bj ) Pm kannassa C , siis τ (bj ) = i=1 aij ci (j = 1, . . . , n), ja asettamalla M (τ ) = (aij ); saadut koordinaattivektorit laitetaan siis taaskin pystyriveiksi. Jos nyt x ∈ V ja y ∈ W ovat mielivaltaisia, niin τ (x) = y ⇔ M (τ )XB = YC , missä XB = (x1 , . . . , xn )T ja YC = (y1 , . . . , ym )T ovat x:n ja y:n koordinaattivektorit ko. kantojen suhteen. Jos tässä tilanteessa V :ssä suoritetaan kannanvaihto B → B 0 ja W :ssä kannanvaihto C → C 0 , ja jos kannanvaihtojen matriisit ovat P = PB→B0 ja Q = PC→C 0 , niin τ :ta esittävä matriisi muuntuu seuraavalla säännöllä:
MB0 ,C 0 (τ ) = Q−1 MB,C (τ )P .
(1.7)
Tarkastellaan erityisesti lineaarikuvausta µ : V → V . Sen matriisiksi kannan B suhteen sanotaan matriisia MB (µ) = MB,B (µ); huomaa, että nyt sekä määrittely- että maalipuolella käytetään samaa kantaa. Nähdään, että tämä matriisi muuntuu kannanvaihdossa säännöllä
MB0 (τ ) = P −1 MB (τ )P,
(1.8)
missä P = PB→B0 . Näin ollen kyseessä on similaarimuunnos . Jokainen matriisi A = (aij ) ∈ Mm×n (K) määrää lineaarikuvauksen τA : K n → K m , Ãx ! Ãx ! 1 1 .. .. 7−→ A (xi ∈ K). . . xn xn Koska τA (x) = Ax ∀ x ∈ K n , niin A on itse tämän lineaarikuvauksen matriisi luonnollisten kantojen suhteen. Olkoon A ∈ Mm×n (K) matriisi ja olkoon τ : K n → K m sitä vastaava lineaarikuvaus, siis τ (x) = Ax (x ∈ K n ). Sen ydin on Ker(τ ) = {x ∈ K n | τ (x) = 0} ja kuva-avaruus Im(τ ) = {τ (x) | x ∈ K n }. Niitä sanotaan myös matriisin A ytimeksi ja kuva-avaruudeksi ja merkitään Ker(A) ja Im(A); siis
Ker(A) = {x ∈ K n | Ax = 0} Im(A) = {Ax | x ∈ K n }
⊆ K n,
⊆ K m.
LUKU 1. PERUSASIOITA
9
Ne ovat ko. avaruuksien aliavaruuksia. Lineaarikuvauksen dimensioyhtälön mukaan n = dim Ker(τ ) + dim Im(τ ). Siitä saadaan nyt n = dim Ker(A) + dim Im(A). Todistamme ensimmäisen matriiseja koskevan rakennetuloksemme. Neliömatriisi A on nilpotentti , jos Ai = O jollain i:llä. Sovitaan, että A0 = I , kun A 6= O. ³ ´ R O Lause 1.6.1 Jokainen matriisi A ∈ Mn (K) on similaarinen muotoa O N olevan matrii-
sin kanssa, missä R ∈ Mp (K) on säännöllinen ja N ∈ Mn−p (K) on nilpotentti (0 ≤ p ≤ n). Lisäksi p = dim Im(Ak ), missä k ≥ 0 on pienin sellainen luku, että Im(Ak ) = Im(Ak+1 ).
Todistus. Koska Im(Ai+1 ) ⊆ Im(Ai ) (nimittäin Ai+1 x = Ai (Ax) ∀ x), niin Im(Ai ):t muodostavat laskevan ketjun K n :n aliavaruuksia: K n = Im(A0 ) ⊇ Im(A) ⊇ Im(A2 ) ⊇ · · · ⊇ Im(Ai ) ⊇ Im(Ai+1 ) ⊇ · · · . Dimensio dim(K n ) = n on äärellinen, joten Im(Ai ) = Im(Ai+1 ) jollain i:llä, i ≤ n. Silloin lisäksi Im(Ai ) = Im(Ai+2 ). Nimittäin ensinnäkin Im(Ai ) ⊇ Im(Ai+2 ). Jos kääntäen x ∈ Im(Ai ) niin x = Ai+1 y = A(Ai y) = A(Ai+1 z) = Ai+2 z joillain vektoreilla y ja z; siis x ∈ Im(Ai+2 ). Tästä seuraa induktiolla, että Im(Ai+j ) = Im(Ai ) kun j ≥ 0. Näin ollen
K n ⊃ Im(A) ⊃ Im(A2 ) ⊃ · · · ⊃ Im(Ak ) = Im(Ak+1 ) = Im(Ak+2 ) = · · · ,
(1.9)
kun k on kuten lauseessa. Osoitetaan seuraavaksi, että K n = Im(Ak ) ⊕ Ker(Ak ). Koska dimensioyhtälön nojalla n = dim Im(Ak ) + dim Ker(Ak ), niin riittää osoittaa, että K n = Im(Ak ) + Ker(Ak ). Olkoon sitä varten x ∈ K n mielivaltainen. Silloin Ak x ∈ Im(Ak ) = Im(A2k ), joten Ak x = A2k y jollain vektorilla y. Siis Ak (x − Ak y) = 0, toisin sanoen x − Ak y ∈ Ker(Ak ). Nyt
x = Ak y + (x − Ak y), missä Ak y ∈ Im(Ak ) ja x − Ak y ∈ Ker(Ak ). Siis x ∈ Im(Ak ) + Ker(Ak ). Suoralla summalla K n = Im(Ak )⊕Ker(Ak ) on kanta B = {x1 , . . . , xn }, missä {x1 , . . . , xp } on Im(Ak ):n ja {xp+1 , . . . , xn } on Ker(Ak ):n kanta. Kun x ∈ Im(Ak ), niin Ax ∈ Im(Ak ), ja kun x ∈ Ker(Ak ), niin Ax ∈ Ker(Ak ). Käyttämällä tätä kantavektoreihin xi nähdään, että kun i ≤ p niin Axi on vektoreiden x1 , . . . , xp lineaarikombinaatio, ja kun i ≥ p + 1 niin Axi n n on vektoreiden xp+1 , . . . , xn lineaarikombinaatio. ³ ´ Siis lineaarikuvauksen K → K , x 7→ Ax, R O matriisi kannan B suhteen on muotoa O N , missä R ja N ovat p×p- ja (n − p)×(n − p)matriisit. Nyt R on kuvauksen x 7→ Ax restriktion Im(Ak ) → Im(Ak ) matriisi kannan {x1 , . . . , xp } suhteen. Tämä kuvaus on surjektio, sillä Im(Ak ) = Im(Ak+1 ); siis se on bijektio, joten R on säännöllinen. Matriisi N on kuvauksen x 7→ Ax restriktion Ker(Ak ) → Ker(Ak ) matriisi kannan {xp+1 , . . . , xn } suhteen. Koska Ak vie Ker(Ak ):n nollaksi, niin N k = O. A on kuvauksen K n → K n , x 7→ Ax, matriisi luonnollisen kannan suhteen, ja ³ Lopuksi ´ R O O N on saman kuvauksen matriisi kannan B suhteen. Siis matriisit ovat similaariset. 2
LUKU 1. PERUSASIOITA
10
Ã
! Ã ! Ã ! 100 x x Esimerkki 1.6.2 Kun A = 1 1 1 ∈ M3 (R), niin A y = x + y + z . Seuraa, että 111 z x+y+z T 2 Im(A) = {(a, b, b) | a, b ∈ R} = Im(A ), joten lauseen k = 1. Lisäksi Ker(A) = {(0, b, −b)T | b ∈ R}. Valitaan Im(A):lle kanta {x1 , x2 } ja Ker(A):lle kanta {x3 }, missä x1 = (1, 0, 0)T , x2 = (0, 1, 1)T ja x3 = (0, 1, −1)T . Silloin Ax1 = (1, 1, 1)T = x1 + x2 ,
Ax2 = (0, 2, 2)T = 2x2 ,
Ax3 = 0, ! Ã 10 0 joten kuvauksen x 7→ Ax matriisi kannan B = {x1 , x2 , x3 } suhteen on B = 1 2 0 . Siis A 00 0 ³ ´ ¡ ¢ 1 0 on similaarinen B :n kanssa, ja saadaan R = 1 2 ja N = 0 . Similaarisuuden välittävä Ã ! 1 0 0 matriisi löydetään esimerkiksi käyttämällä kannanvaihtomatrisia P = PE→B = 0 1 1 . 0 1 −1 Kun τ on kuvaus x 7→ Ax, niin A = ME (τ ) ja B = MB (τ ), ja säännöstä (1.7) saadaan B = MB,B (τ ) = PB→E ME,E (τ )PE→B = P −1 AP .
1.7 Determinantti ja jälki Neliömatriisin A = (aij )n×n determinantti on
¯ ¯ ¯ a11 a12 . . . a1n ¯ ¯ ¯ ¯ a a ... a ¯ X ¯ 21 22 2n ¯ det(A) = ¯ sign(j1 , j2 , . . . , jn )a1j1 a2j2 · · · anjn . ¯= ¯ ............... ¯ α ¯ ¯ ¯ an1 an2 . . . ann ¯
(1.10)
Summassa käydään kaikki joukon {1, 2, . . . , n} permutaatiot α = (j1 , j2 , . . . , jn ) ja kerroin sign(j1 , j2 , . . . , jn ) = ±1 on permutaation merkki. Determinantin perusominaisuuksia: 1) det(AT ) = det(A). 2) det(A) vaihtaa vain merkkinsä, jos A:n kaksi vaakariviä vaihdetaan tai kaksi pystyriviä vaihdetaan. 3) det(A) = 0, jos A:ssa on kaksi samaa vaakariviä tai kaksi samaa pystyriviä. 4) jonkin vaaka- tai pystyrivin yhteinen tekijä voidaan siirtää det(A):n tekijäksi; erityisesti siis det(cA) = cn det(A) (c ∈ K ). 5) Kun 1 ≤ k ≤ n, niin ¯ ¯ ¯ ¯ ¯ ¯ ¯ a ¯ ¯ a ... a ¯ ¯ a ... a ¯ ... a1n 11 1n ¯ 1n ¯ ¯ ¯ ¯ 11 ¯ 11 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ...................... ¯ ¯ ........... ¯ ¯ ........... ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ak1 + bk1 . . . akn + bkn ¯ = ¯ ak1 . . . akn ¯ + ¯ bk1 . . . bkn ¯ . ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ...................... ¯ ¯ ........... ¯ ¯ ........... ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ an1 ¯ ¯ an1 . . . ann ¯ ¯ an1 . . . ann ¯ ... ann
LUKU 1. PERUSASIOITA
11
Huomaa, että ominaisuuksien 4) ja 5) nojalla determinantti on lineaarikuvaus kunkin vaakarivinsä funktiona (tai yhtä hyvin kunkin pystyrivin). Lineaarialgebran kurssissa todistettiin (1.11)
det(AB) = det(A) det(B).
Alkion aij alimatriisiksi Aij sanotaan (n−1)×(n−1)-matriisia, joka saadaan pyyhkimällä A:sta pois i:s vaakarivi ja j :s pystyrivi. Alkion aij alideterminantti on det(Aij ) ja komplementti Cij = (−1)i+j det(Aij ). Muistetaan seuraavat kaavat, jotka sisältävät determinantin vaaka- ja pystyrivikehitelmät: ( ( n n X X det(A), jos i = k, det(A), jos j = k, aij Ckj = aij Cik = (1.12) 0, jos i = 6 k; 0, jos j 6= k. j=1 i=1
Esimerkki 1.7.1 Suoraan determinantin määritelmästä on helppo todistaa µ
det
A O C D
¶
µ
= det(A) det(D),
det
A B O D
¶
= det(A) det(D),
(1.13)
kun A ja D ovat neliömatriiseja. Nämä voidaan perustella toisinkin: ensimmäinen seuraa helposti esimerkin 1.5.8 hajotelmasta, kun kaava (1.11) ja determinantin rivikehitelmät oletetaan tunnetuiksi; vastaavasti saadaan toinen.
Esimerkki 1.7.2 Kääntäen, kaavalle (1.11) saataisiin uusi todistus esimerkin 1.5.7 hajotelmasta seuraavasti: 1) Todistetaan kaavat (1.13) ³suoraan ´ determinantin määritelmästä. I A 2) Todistetaan, ettei matriisin kertominen muotoa O I olevalla matriisilla muuta de³ ´ O C terminantin arvoa ja että det −I B = det(C); kumpikin tulee helposti determinantin em. ominaisuuksista. Matriisin A ∈ Mn (K) liittomatriisi (adjugate) on adj(A) = (Cij )T , missä Cij :t ovat A:n alkioiden komplementit. Yhtälöt (1.12) merkitsevät, että
A · adj(A) = adj(A) · A = det(A) · I.
(1.14)
Nähdään myös, että
A on säännöllinen jos ja vain jos det(A) 6= 0, ja tällöin A−1 = det(A)−1 adj(A).
(1.15)
Esimerkki 1.7.3 Olkoon c1 , . . . , cn ∈ K . Lasketaan Vandermonden determinantti ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯
1 c1 c21 · · · cn−1 1 1 c2 c22 · · · cn−1 2 ...................... 1 cn c2n · · · cn−1 n
¯ ¯ ¯ ¯ Y ¯ (ci − cj ). ¯= ¯ ¯ i>j ¯
(1.16)
Esimerkki 1.7.4 Olkoon A, B, C, D ∈ Mn (K), missä A on säännöllinen. Tarkastellaan esimerkin 1.5.6 yhtälöä (1.5). Oikealla puolella on ensimmäisenä alakolmiomatriisi, jonka päälävistäjällä on vain ykkösiä, joten sen determinantti on 1. Samoin kolmannen matriisin determinantti on 1. Esimerkkien 1.7.2 ja 1.7.1 nojalla ¶ ¶ µ µ A O A B = det(A) det(D − CA−1 B). = det det O D−CA−1 B C D
LUKU 1. PERUSASIOITA
12
Koska A ja D − CA−1 B ovat neliömatriiseja, saadaan Schurin kaava µ ¶ A B det = det(A(D − CA−1 B)) = det((D − CA−1 B)A). C D Tapauksissa AC = CA tai AB = BA seuraa µ ¶ ( det(AD − CB) A B det = C D det(DA − CB)
jos AC = CA, jos AB = BA.
(1.17)
Tämä tuli johdettua oletuksella, että A on säännöllinen, mutta lopputuloksessahan A−1 ei enää esiinny. Myöhemmin näemme, miten tulos laajennetaan singulaarisillekin matriiseille A. Determinantin lisäksi toinen tärkeä neliömatriisiin A = (aij )n×n liittyvä suure on sen jälki tr(A) (trace), joka määritellään:
tr(A) = a11 + · · · + ann .
(1.18)
Suoraan laskemalla todetaan, että tr(AB) = tr(BA), kun A ja B ovat samaa kokoa olevia neliömatriiseja, ja että tästä seuraa, että similaareilla matriiseilla on sama jälki.
Huomautus 1.7.5 Determinanttia koskevat asiat johdettiin lineaarialgebran kurssissa kunnalle K = R, mutta samat todistukset käyvät yleisestikin. Tulokset ovat voimassa jopa, kun K :n tilalla on mielivaltainen kommutatiivinen rengas R ! Kuitenkin toteamuksessa (1.15) ehdon det(A) 6= 0 tilalle on otettava ehto, että alkiolla det(A) ∈ R on käänteisalkio renkaassa R, ja A−1 :n lausekkeeseen tulee ko. käänteisalkio. Tulemme tarvitsemaan tätä laajennusta, erityisesti yhtälöä (1.14), tapauksessa R = K[x].
1.8 Matriisin aste Merkitään matriisin A ∈ Mm×n (K) pystyrivejä a1 , . . . , an ja vaakarivejä a1 , . . . , am . Huomaa, että aj ∈ K m ja ai ∈ K n , missä ajattelemme nyt K n :n alkioita vaakavektoreina. Matriisin pystyriviavaruus on L(a1 , . . . , an ) ⊆ K m ja vaakariviavaruus on L(a1 , . . . , am ) ⊆ K n . Nämä ovat dimensioiltaan yhtä suuret (todistus kuten lineaarialgebran kurssissa); määritellään, että tämä yhteinen dimensio on A:n aste r(A). Siitä, että Aej = aj , seuraa, että Im(A) = L(a1 , . . . , an ). Siis
r(A) = dim Im(A).
(1.19)
Lemma 1.8.1 Jos A ∈ Mm×n (K) ja B ∈ Mn×k (K), niin r(AB) ≤ min(r(A), r(B)).
Jos C1 ∈ Mn (K) on säännöllinen, niin r(AC1 ) = r(A). Jos C2 ∈ Mm (K) on säännöllinen, niin r(C2 A) = r(A).
LUKU 1. PERUSASIOITA
13
Todistus. Kun x ∈ K n , niin (AB)x = A(Bx), joten Im(AB) ⊆ Im(A) (aliavaruus). Seuraa dim(AB) ≤ dim(A), eli r(AB) ≤ r(A). Koska matriisin aste ei muutu transponoinnissa, niin r(AB) = r((AB)T ) = r(B T AT ) ≤ r(B T ) = r(B). Kun C1 on kuten lauseessa, saadaan r(A) = r(AC1 C1−1 ) ≤ r(AC1 ) ≤ r(A), joten r(AC1 ) = r(A). Samoin todistetaan viimeinen väite. 2
Lause 1.8.2 Olkoon A ∈ Mm×n (K) ja r(A) = r. On sellaiset matriisit B ∈ Mm×r (K) ja C ∈ Mr×n (K), että A = BC ja r(B) = r(C) = r. Todistus. Merkitään A:n pystyrivejä a1 , . . . , an ∈ K m ; siis aj = (a1j , . . . , anj )T kun A = (aij ). Valitaan A:n pystyriviavaruudelle kanta b1 , . . . , br . On sellaiset kertoimet cij että aj =
r X
ckj bk
(j = 1, . . . , n),
k=1
toisin sanoen, jos merkitään bk = (b1k , . . . , bmk )T , niin
aij =
r X k=1
ckj bik =
r X
bik ckj
(i = 1, . . . , m, j = 1, . . . , n).
k=1
Siis A = BC , missä B = (bij )m×r ja C = (cij )r×n . Koska B :ssä on r pystyriviä ja C :ssä r vaakariviä, r(B) ≤ r ja r(C) ≤ r. Jos jompikumpi epäyhtälö olisi aito, lemmasta seuraisi r(A) < r. Näin ollen r(B) = r(C) = r. 2
Esimerkki 1.8.3 Kun A ∈ Mn (K), niin r(A) = 1 jos vain jos A = xyT , missä x, y ∈ K n , x, y 6= 0. Mitkä ovat Im(A) ja Ker(A)? Lauseen todistus antaa menetelmän hajotelman A = BC löytämiseksi. Tarvitsemme sitä myöhemmin MoorenPenrosen yleistetyn käänteismatriisin yhteydessä. Lauseelle 1.8.2 saataisiin helposti toinen todistus seuraavasta lauseesta, joka on mukana mielenkiinnon vuoksi mutta jota emme tule tarvitsemaan.
Lause 1.8.4 Olkoon A ∈ Mm×n (K) ja r(A) = r. Silloin A = P GQ, missä P ∈ Mm (K) ja Q ∈ Mn (K) ovat säännöllisiä ja G = (gij )m×n , missä g11 = · · · = grr = 1 ja muut gij :t ovat nollia. Todistus. Olkoon τ : K n → K m A:n määräämä kuvaus, τ (x) = Ax. Riittää löytää sellaiset K n :n kanta {x1 , . . . , xn } ja K m :n kanta {y1 , . . . , ym }, että τ (x1 ) = y1 , . . . , τ (xr ) = yr ja τ (xr+1 ) = · · · = τ (xr+1 ) = 0. Nimittäin silloin τ :n matriisi näiden kantojen suhteen on G, ja väite seuraa, missä P ja Q ovat sopivat kannanvaihtomatriisit. Koska dim Im(τ ) = r(A) = r, niin dim Ker(τ ) = n−r. Valitaan K n :lle kanta {x1 , . . . , xn }, missä {xr+1 , . . . , xn } on Ker(τ ):n kanta. Helposti nähdään, että vektorit y1 = τ (x1 ), . . . , yr = τ (xr ) ovat lineaarisesti riippumattomia. Täydennetään niiden joukko K m :n kannaksi. 2
LUKU 1. PERUSASIOITA
14
1.9 Ominaisarvot ja diagonalisoituvuus Olkoon A ∈ Mn (K). Sanotaan, että λ ∈ K on A:n ominaisarvo ja että x ∈ K n on siihen kuuluva ominaisvektori , jos Ax = λx, x = 6 0. (1.20) Ominaisvektori x voi kuulua vain yhteen ominaisarvoon, sillä jos Ax = λ1 x = λ2 x, niin (λ1 − λ2 )x = 0, josta λ1 − λ2 = 0. Skalaari λ on A:n ominaisarvo jos ja vain jos se on A:n karakteristisen yhtälön eli ominaisarvoyhtälön det(A − λI) = 0 (1.21) juuri. Nimittäin λ on ominaisarvo tarkalleen silloin kun Ker(A − λI) 6= {0}, mikä on ekvivalentti sen kanssa, että A − λI ei ole säännöllinen. Ominaisarvoon λ kuuluva ominaisavaruus on Vλ = Ker(A − λI), ja se koostuu λ:aan kuuluvista ominaisvektoreista ja vektorista 0. Merkitään A = (aij ). Karakteristisen yhtälön vasen puoli on astetta n oleva λ:n polynomi, ns. A:n karakteristinen polynomi eli ominaisarvopolynomi ¯ ¯ ¯ a11 − λ a12 ... a1n ¯¯ ¯ ¯ ¯ a22 − λ . . . a2n ¯ ¯ a21 ¯ ¯. cA (λ) = det(A − λI) = ¯ (1.22) .. .. .. .. ¯ . ¯ ¯ . . . ¯ ¯ ¯ an1 an2 . . . ann − λ ¯ Koska deg cA (λ) = n, niin cA :lla on korkeintaan n nollakohtaa K :ssa. Jos sillä on tarkalleen n nollakohtaa λ1 , . . . , λn ∈ K (osa ehkä samoja), se hajoaa täydellisesti yli K :n ja
cA (λ) = (−1)n (λ − λ1 )(λ − λ2 ) · · · (λ − λn ).
(1.23)
Jos skalaarikunta K on algebrallisesti suljettu (esimerkiksi jos K = C), niin cA (λ) hajoaa aina täydellisesti yli K :n. Siis tällöin A:lla on n ominaisarvoa ∈ K ; osa niistä voi olla samoja. ³ ´ Esimerkki 1.9.1 Tarkastellaan matriisin A = ab −ba ∈ M2 (R) ominaisarvoja ja karakteristisen polynomin cA (λ) hajoamista R:n yli ja C:n yli.
Matriisi A on diagonalisoituva (yli K :n), jos se on similaarinen diagonaalimatriisin kanssa (yli K :n), ts. jos on sellainen säännöllinen P ∈ Mn (K) ja sellaiset λ1 , . . . , λn ∈ K , että λ1 0 λ2 merk. λ3 P −1 AP = (1.24) = diag(λ1 , λ2 , . . . , λn ). .. . 0 λn Samoin kuin skalaarikunnan R tapauksessa todistetaan, että A on diagonalisoituva jos ja vain jos sen ominaisvektoreista voidaan valita K n :n kanta. Jos ominaisvektoreista koostuva kanta on olemassa, niin ehdon (1.24) toteuttava matriisi P voidaan muodostaa kirjoittamalla ko. kantavektorit P :n pystyriveiksi. Kääntäen, jos P toteuttaa ehdon (1.24), niin sen pystyrivit ovat eräs A:n ominaisvektoreista koostuva K n :n kanta.
LUKU 1. PERUSASIOITA
15
Jos A on diagonalisoituva, yhtälön (1.24) λi :t ovat A:n ominaisarvot. Tämä voidaan nähdä seuraavasti: Jos A ja B ovat similaariset matriisit, A = Q−1 BQ, niin niillä on sama ominaisarvopolynomi, sillä cA (λ) = det(A − λI) = det(Q−1 BQ − λI) = det(Q−1 ) det(B − λI) det(Q) = det(B − λI) = cB (λ). Siis, jos P −1 AP = D = diag(λ1 , . . . , λn ), niin
cA (λ) = cD (λ) = det(diag(λ1 − λ, . . . , λn − λ)) = (λ1 − λ) · · · (λn − λ).
Esimerkki 1.9.2 Onko esimerkin 1.9.1 A diagonalisoituva M2 (R):ssä? Entä M2 (C):ssä? Esimerkki 1.9.3 Tarkastellaan R2 :n kiertoa origon ympäri vastapäivään kulman θ verran. µ ¶
cos θ − sin θ . Matriisi on samaa muotoa sin θ cos θ kuin esimerkeissä 1.9.1 ja 1.9.2, ja sieltä saadaan, ettei A:lla ole reaalisia ominaisarvoja eikä siis ominaisvektoreita R2 :ssa, paitsi jos sin θ = 0 eli θ = n180◦ . Juuri näinhän pitää geometrisen havainnon mukaan ollakin. Mutta sama matriisi antaa myös kuvauksen C2 → C2 , ja C2 :ssa sillä on ominaisvektoreita! Tämä on lineaarikuvaus, jonka matriisi on A =
Esimerkki 1.9.4 Tarkastellaan origon kautta kulkevaa R3 :n tasoa T . Olkoon τ : R3 → R3 kohtisuora peilaus T :n suhteen ja olkoon A sen matriisi luonnollisen kannan suhteen. Mitä A:sta osataan tällä perusteella sanoa? Ajatellaan T :lle valituksi kanta {x1 , x2 } ja täydennetään se R3 :n kannaksi {x1 , x2 , x3 } valitsemalla x3 ⊥ T . Silloin Ax1 = x1 , Ax2 = x2 ja Ax3 = −x3 , joten xi :t ovat A:n ominaisvektoreita ja kuuluvat ominaisarvoihin 1, 1, −1. Siis τ :n matriisi tämän kannan suhteen on D = diag(1, 1, −1), ja D = P −1 AP , missä P :n pystyrivit ovat x1 , x2 , x3 . Nähdään, että A on diagonalisoituva ja cA (λ) = −(λ − 1)2 (λ + 1). Kanta {x1 , x2 , x3 } voidaan valita ortonormaaliksi. Silloin P on ortogonaalimatriisi, eli T P P = I . Saamme tuloksena, että origon kautta kulkevan tason suhteen otetun kohtisuoran peilauksen matriisi on aina muotoa P −1 diag(1, 1, −1)P , missä P on ortogonaalimatriisi. Jos τ onkin vino peilaus T :n suhteen, diagonalisoivasta matriisista P ei saada ortogonaalista; ominaisarvot ovat silti nytkin 1, 1, −1.
Esimerkki 1.9.5 Tarkastellaan matriisia
c 1 0 c 1 .. .. J = . . . c 1 0 c n×n
(1.25)
(Tällaiset ns. Jordanin lohkot tulevat käyttöön myöhemmin.) Matriisin J ainoa ominaisarvo on c, ja siihen kuuluvat ominaisvektorit ovat (1, 0, . . . , 0)T = e1 ja tämän skalaarimonikerrat 6= 0. Matriisin J T ainoa ominaisarvo on c, ja siihen kuuluvat ominaisvektorit ovat (0, . . . , 0, 1)T = en ja tämän skalaarimonikerrat 6= 0. Seikat Je1 = ce1 ja eTn J = ceTn ilmaistaan toisinaan sanomalla, että e1 on J :n oikea ominaisvektori ja en on J :n vasen ominaisvektori; kumpikin kuuluu ominaisarvoon c.
Esimerkki 1.9.6 Osoitetaan, että jos A ja B voidaan diagonalisoida samalla similaarimuunnoksella, niin ne kommutoivat.
LUKU 1. PERUSASIOITA
16
1.10 Similaarisuus kolmiomatriisin kanssa Kaikki matriisit eivät ole diagonalisoituvia, eivät edes algebrallisesti suljetun skalaarikunnan tapauksessa. Sen sijaan, kuten kohta todistamme, jokainen matriisi on similaarinen kolmiomatriisin kanssa, jos skalaarikunta on algebrallisesti suljettu (siis esimerkiksi jos K = C). Matriisi T = (tij )n×n on yläkolmiomatriisi jos tij = 0 kun i > j . Vastaavasti määritellään alakolmiomatriisit .
Lause 1.10.1 Olkoon A ∈ Mn (K). Oletetaan, että cA (λ) hajoaa täydellisesti K :n yli. Silloin A on similaarinen yläkolmiomatriisin kanssa, toisin sanoen on sellaiset Q, T ∈ Mn (K), että Q on säännöllinen ja T on yläkolmiomatriisi ja että A = QT Q−1 .
Todistus. Käytetään induktiota n:n suhteen. Tapaus n = 1 on triviaali. Olkoon n > 1 ja oletetaan, että väite on tosi (n − 1)×(n − 1)-matriiseille. Koska cA (λ) hajoaa täydellisesti K :n yli, toisin sanoen cA (λ) = ±(λ − λ1 ) · · · (λ − λn ), sillä on nollakohta λ = λ1 ∈ K . Siis A:lla on ominaisarvo λ1 ja siihen kuuluva ominaisvektori x1 ∈ K n . Täydennetään {x1 } K n :n kannaksi {x1 , r2 , . . . , rn }. Olkoon R ∈ Mn (K) matriisi, jonka pystyriveinä ovat x1 , r2 , . . . , rn . Jos merkitään x1 = (x1 , . . . , xn )T ja rj = (r1j , . . . , rnj )T , niin x1 r12 . . . r1n ¡ ¢ .. .. . R = x1 | r2 | . . . | rn = ... . . xn rn2 . . . rnn Koska R:n pystyrivit ovat lineaarisesti riippumattomia, R on säännöllinen ja sillä on käänteismatriisi R−1 . Kertomalla lohkomuodossa saadaan ¡ ¢ R−1 AR = R−1 A x1 | r2 | . . . | rn ¡ ¢ = R−1 Ax1 | Ar2 | . . . | Arn ¡ ¢ = R−1 λ1 x1 | Ar2 | . . . | Arn ¡ ¢ = λ1 R−1 x1 | R−1 Ar2 | . . . | R−1 Arn . Mutta R−1 R = I , toisin sanoen
R−1 R = R−1 ( x1 | r2 | . . . | rn ) = ( R−1 x1 | R−1 r2 | . . . | R−1 rn ) = I, jonka ensimmäinen pystyrivi antaa R−1 x1 = (1, 0, . . . , 0)T . Siis R−1 AR on muotoa λ1 ∗ . . . ∗ 0 R−1 AR = .. , B . 0 missä B ∈ Mn−1 (K). Todetaan, että myös cB (λ) hajoaa täydellisesti K :n yli: ¯ ¯ ¯ λ1 − λ ∗ . . . ∗ ¯ ¯ ¯ ¯ 0 ¯ cA (λ) = cR−1 AR (λ) = det(R−1 AR − λI) = ¯ .. ¯ B − λI ¯ ¯ . ¯ 0 ¯ = (λ1 − λ) det(B − λI) = (λ1 − λ)cB (λ).
LUKU 1. PERUSASIOITA
17
Koska cA (λ) = ±(λ − λ1 ) · · · (λ − λn ), niin cB (λ) = ±(λ − λ2 ) · · · (λ − λn ), λi ∈ K . Induktio-oletuksen nojalla B = V SV −1 , missä V, S ∈ Mn−1 (K), V on säännöllinen ja S yläkolmiomatriisi. Näin ollen
1 0 ... 0 λ1 ∗ . . . ∗ λ1 ∗ . . . ∗ 1 0 ... 0 0. 0. 0. 0 R−1 AR = .. . V −1 . . =. −1 S V V SV . . . . 0 0 0 0
Kirjoitetaan tämä yhtälö muodossa R−1 AR = R1 T R1−1 , missä R1 on oikean puolen ensimmäinen ja T toinen matriisi; kertomalla lohkomuodossa nähdään, että kolmas matriisi todella on R1−1 . Lisäksi T on yläkolmiomatriisi. Yhtälöstä seuraa A = RR1 T R1−1 R−1 = (RR1 )T (RR1 )−1 . Voidaan valita Q = RR1 . 2
Seuraus 1.10.2 Jos K on algebrallisesti suljettu, jokainen Mn (K):n matriisi on similaarinen yläkolmiomatriisin kanssa Mn (K):ssa. Transponoinnilla saadaan vastaava tulos, missä T on alakolmiomatriisi. Jos A = QT Q−1 , missä T = (tij ) on yläkolmiomatriisi, niin päälävistäjäalkiot t11 , . . . , tnn ovat A:n ominaisarvot. Nimittäin cA (λ) = cT (λ) = det(T − λI) = (t11 − λ) · · · (tnn − λ). Toisaalta similaareilla matriiseilla on sama determinantti ja sama jälki, joten det(A) = det(T ) ja tr(A) = tr(T ). Yläkolmiomatriisille T = (tij ) determinantti ja jälki on helppo laskea: det(T ) = t11 · · · tnn ja tr(T ) = t11 + · · · + tnn . Saamme siis:
Seuraus 1.10.3 Olkoon A ∈ Mn (K). Oletetaan, että cA (λ) hajoaa täydellisesti K :n yli. Olkoot A:n ominaisarvot λ1 , . . . , λn . Silloin det(A) = λ1 · · · λn ,
tr(A) = λ1 + · · · + λn .
Huomautus 1.10.4 Sama tulos pätee vaikkei cA (λ) hajoaisi täydellisesti K :n yli. Silloin vain ominaisarvot eivät kaikki kuulu K :hon, vaan ne ovat jossain laajennuskunnassa, vaikkapa K :n algebrallisessa sulkeumassa. Esimerkiksi, jos A ∈ Mn (R), niin A:n ominaisarvot λi saattavat olla kompleksisia, mutta det(A) ja tr(A) (jotka ovat tietenkin reaalisia) saadaan silti niiden tulona ja summana.
Lause 1.10.5 Olkoot matriisin A ∈ Mn (K) ominaisarvot λ1 , . . . , λn ∈ K , ja olkoon p(x) ∈ K[x]. Matriisin p(A) ominaisarvot ovat p(λ1 ), . . . , p(λn ).
Todistus. Lauseen mukaan A = QT Q−1 , missä T = (tij ) on yläkolmiomatriisi. Silloin myös p(A) = Qp(T )Q−1 (ks. (1.4)). Koska similaareilla matriiseilla on samat ominaisarvot, niin riittää todistaa väite A:n sijasta T :lle. Laskemalla huomataan, että potenssi T k on yläkolmiomatriisi, jonka päälävistäjäalkiot ovat tk11 , . . . , tknn . Siis p(T ) on yläkolmiomatriisi, jonka päälävistäjäalkiot ovat p(t11 ), . . . , p(tnn ), joten nämä ovat samalla sen ominaisarvot. 2
LUKU 1. PERUSASIOITA
18
1.11 Sisätulo Tässä pykälässä skalaarikunta on K, siis R tai C. Kompleksiluvun z liittolukua merkitään z . Vektoriavaruuden Kn (tavallinen) sisätulo määritellään
hx, yi =
n X
xi y i ,
(1.26)
i=1
kun x = (x1 , . . . , xn )T , y = (y1 , . . . , yn )T . Sisätulo on kuvaus Kn × Kn → K ja täyttää ehdot
∀ x ∈ Kn ;
(i)
hx, xi ≥ 0
(ii)
hax + by, zi = ahx, zi + bhy, zi ∀ a, b ∈ K, x, y, z ∈ Kn ;
(iii)
hx, yi = hy, xi ∀ x, y ∈ Kn .
hx, xi = 0 ⇔ x = 0;
(Yleinen sisätulo reaalisessa tai kompleksisessa vektoriavaruudessa määritellään ottamalla nämä ehdot aksioomiksi.) Ehdosta (iii) seuraa, että hx, xi ∈ R, vaikka olisi K = C, joten ehdon (i) epäyhtälö on mielekäs. Ehdon (ii) mukaan hx + y, zi = hx, zi + hy, zi ja hax, zi = ahx, zi, ja kun otetaan ehto (iii) huomioon, niin saadaan hz, x + yi = hz, xi + hz, yi mutta hz, axi = ahz, xi! Vektorin x ∈ Kn pituus (eli normi) on v u n p uX |x| = hx, xi = t |xi |2 . (1.27) i=1
(Huomaa, ettei |xi |2 ole sama kuin x2i jos K = C.) CauchynSchwarzin epäyhtälö
|hx, yi| ≤ |x| · |y|
(1.28)
oli jo lineaarialgebran kurssissa kun K = R. Kun c ∈ C, niin
hcx + y, cx + yi = |c|2 hx, xi + 2 Re(chx, yi) + hy, yi ≤ |c|2 hx, xi + 2|c| · |hx, yi| + hy, yi on c:n 2. asteen polynomi ja identtisesti ≥ 0. Siis diskriminantti on ≤ 0, mistä (1.28) seuraa. CauchynSchwarzin epäyhtälön avulla todistetaan helposti kolmioepäyhtälö
|x + y| ≤ |x| + |y|.
(1.29)
Matriisin A = (aij )m×n ∈ Mm×n (C) adjungoitu matriisi (adjoint) määritellään
A∗ = (aji )n×m .
(1.30)
Siis A∗ = A T , missä A = (aij )m×n . Huomaa, että (AB)∗ = B ∗A∗ ja A∗∗ = A. Samaistamalla skalaarit ja 1×1-matriisit sisätulo voidaan kirjoittaa kätevästi matriisitulona: hx, yi = y∗ x kun x, y ∈ Cn . Reaalisille vektoreille hx, yi = yT x.
Lause 1.11.1 Kun A ∈ Mm×n (K) ja x ∈ Kn , y ∈ Km , niin hAx, yi = hx, A∗ yi.
LUKU 1. PERUSASIOITA
19
Todistus. hAx, yi = y∗ (Ax) = (y∗ A)x = (A∗ y)∗ x = hx, A∗ yi.
2
Esimerkki 1.11.2 Neliömatriisille A on voimassa det(A∗ ) = det( A T ) = det( A ) = det(A). Jos A = A∗ (tällaista matriisia sanotaan itseadjungoiduksi ), saadaan det(A) ∈ R. Vektorit x ja y ovat kohtisuoria eli ortogonaalisia , merkitään x ⊥ y, jos hx, yi = 0. Vektorijoukko {x1 , . . . , xk } on ortogonaalinen , jos hxi , xj i = 0 kun i 6= j , ja se on ortonormaalinen , jos lisäksi jokaisen xi :n pituus on 1. Vektorien x1 , . . . , xk ortonormaalisuusehto voidaan kirjoittaa: hxi , xj i = δij , kun i, j = 1, . . . , k (δij on Kroneckerin symboli). Ortogonaalinen joukko vektoreita 6= 0 on lineaarisesti riippumaton.
Esimerkki 1.11.3 Kun {x1 , . . . , xn } on Cn :n ortonormaalikanta, niin matriisin A ∈ Mn (C) jälki saadaan kaavasta tr A =
Pn
i=1 hAxi , xi i.
Kun A, B ∈ Mm×n (C), niin tulon A∗ B alkioina ovat matriisien A ja B pystyrivien a1 , . . . , an ∈ Cm ja b1 , . . . , bn ∈ Cm sisätulot: kohdassa (i, j) on alkio a∗i bj = hbj , ai i. Matriisia A ∈ Mn (C) sanotaan unitaariseksi , jos sen pystyrivit muodostavat ortonormaalisen joukon. Ekvivalentisti A on unitaarinen jos A∗A = I , toisin sanoen A∗ = A−1 . Koska ehdot A∗A = I ja AA∗ = I ovat yhtäpitävät, niin A on unitaarinen myös tarkalleen sillloin, kun se vaakarivit ovat ortonormaaliset. Reaalisen matriisin A tapauksessa unitaarisuus tarkoittaa että ATA = I ; tällaista matriisia sanotaan ortogonaaliseksi. Osoitamme, että unitaarimatriisit ovat tarkalleen ne matriisit, jotka säilyttävät sisätulon. Käsittelemme vain kompleksisen tapauksen. Reaalinen tapaus todistetaan lähes samoin.
Lause 1.11.4 Olkoon A ∈ Mn (C). Seuraavat ehdot ovat ekvivalentit: (i)
hAx, Ayi = hx, yi
(ii)
|Ax| = |x|
(iii)
A on unitaarinen.
∀ x, y ∈ Cn ;
∀ x ∈ Cn ;
Todistus. Ehdosta (i) seuraa (ii), sillä |Ax| = hAx, Axi1/2 ja |x| = hx, xi1/2 . Ehdot (i) ja (iii) ovat ekvivalentit, koska hAx, Ayi = hx, yi ∀ x, y ∈ Cn ⇐⇒ hx, A∗Ayi = hx, yi ∀ x, y ∈ Cn ⇐⇒ A∗A = I. Oletetaan lopuksi, että (ii) on voimassa, ja todistetaan (i). Kun x, y ∈ Cn , niin
|x + y|2 − |x|2 − |y|2 = hx + y, x + yi − hx, xi − hy, yi = hx, yi + hy, xi, Tämä on (ii):n nojalla sama kuin |Ax + Ay|2 − |Ax|2 − |Ay|2 = hAx, Ayi + hAy, Axi, joten
hAx, Ayi + hAy, Axi = hx, yi + hy, xi. Sijoitetaan tähän y:n paikalle iy ja otetaan skalaari i sisätulosta ulos:
−ihAx, Ayi + ihAy, Axi = −ihx, yi + ihy, xi. Kertomalla tämä i:llä ja lisäämällä edelliseen yhtälöön saadaan 2hAx, Ayi = 2hx, yi.
2
LUKU 1. PERUSASIOITA
20
Lineaarialgebran kurssissa Rn :n tapauksessa esitetty GraminSchmidtin ortogonalisointimenetelmä pätee kompleksiselle avaruudelle Cn (ja jopa, todistusta myöten, yleisellekin kompleksiselle sisätuloavaruudelle). Menetelmä on seuraava: Olkoon {x1 , . . . , xk } joukko vektoreita. Konstruoidaan vektorit y1 , . . . , yk rekursiivisesti: y1 = x1 , ja kun j = 2, . . . , k , niin Pj−1 yj = xj − i=1 aji yi , missä ( 0, jos yi = 0, aji = hxj ,yi i , jos yi 6= 0. |yi |2 Saadut vektorit y1 , . . . , yk ovat keskenään ortogonaaliset ja virittävät saman aliavaruuden kuin x1 , . . . , xk . Jos xi :t ovat lineaarisesti riippumattomat, niin samoin ovat yi :t, ja tällöin tapauksia yi = 0 ei esiinny. Joukon S ⊆ Kn ortogonaalikomplementti S ⊥ = {x ∈ Kn | hx, yi = 0 ∀ ∈S} on aliavaruus, vaikkei S olisi (aliavaruuskriteeri). Helposti todistetaan myös, että S ⊥ = L(S)⊥ . Jos S on aliavaruus, niin Kn = S ⊕ S ⊥ . (1.31) Tästä saadaan n = dim(S) + dim(S ⊥ ) ja helposti myös, että (S ⊥ )⊥ = S . Suorasummahajotelman (1.31) voi perustella seuraavalla idealla: Valitaan S :lle kanta {x1 , . . . , xk }, täydennetään se Kn :n kannaksi {x1 , . . . , xk , . . . , xn } ja ortogonalisoidaan tämä GraminSchmidtin menetelmällä kannaksi {y1 , . . . , yn }. Silloin {y1 , . . . , yk } on S :n kanta, ja helposti todetaan, että L(yk+1 , . . . , yn ) = S ⊥ . Myöhemmin tarvitaan seuraavaa tulosta:
Lemma 1.11.5 Jos vektorit z1 , . . . , zr ∈ Kn ovat lineaarisesti riippumattomia, on sellaiset y1 , . . . , yr ∈ Kn , että hzi , yj i = δij .
Todistus. Voidaan olettaa, että r ≥ 2. Koska zi :t ovat lineaarisesti riippumattomia, niin dim L(z1 , . . . , zr ) = r. Siis dim L(z1 , . . . , zr )⊥ = n−r. Samoin dim L(z2 , . . . , zr )⊥ = n−r +1. / L(z1 , . . . , zr )⊥ . Silloin c = hz1 , y10 i 6= 0 On siis sellainen y10 , että y10 ∈ L(z2 , . . . , zr )⊥ ja y10 ∈ 0 ja hzi , y1 i = 0 kun i = 2, . . . , r. Valitaan y1 = (1/c)y10 . Muut yj :t löydetään samoin. 2
Luku 2
Ominaisarvot ja -vektorit 2.1 Matriisin karakteristinen yhtälö Matriisin A = (aij ) ∈ Mn (K) karakteristinen polynomi on ¯ ¯ a11 − λ a12 ¯ ¯ a22 − λ ¯ a21 cA (λ) = det(A − λI) = ¯¯ .. .. ¯ . . ¯ ¯ an1 an2
¯ a1n ¯¯ ¯ a2n ¯ ¯. .. ¯ ¯ . ¯ . . . ann − λ ¯
... ... .. .
(2.1)
Determinantin määritelmästä (1.10) saadaan, että deg cA (λ) = n ja että
cA (λ) = (a11 − λ) · · · (ann − λ) + f (λ),
(2.2)
missä f (λ) on sellaisten muotoa (ai1 i1 − λ) · · · (aik ik − λ) olevien termien lineaarikombinaatio, että kussakin on korkeintaan n−2 tekijää (aii −λ). Siis, kun n ≥ 2, cA (λ):n kaksi korkeimman asteen tekijää ovat (−1)n λn ja (−1)n−1 (a11 + · · · + ann )λn−1 = (−1)n−1 tr(A)λn−1 . Lisäksi cA (λ):n vakiotermi on cA (0) = det(A). Saamme (kun n ≥ 2), että
cA (λ) = (−1)n λn + c1 λn−1 + · · · + cn ,
(2.3)
missä c1 = (−1)(n−1) tr(A) ja cn = det(A).
Esimerkki 2.1.1 Seurauksen 1.10.3 mukaan A:lla on ominaisarvona 0 jos ja vain jos A ei ole säännöllinen. Miten sama seuraa jo ominaisarvon ja -vektorin määritelmästä?
Esimerkki 2.1.2 Osoitetaan, että matriisi A on nilpotentti (ts. Ak = O jollain k:lla) jos ja vain jos cA (λ) = ±λn , eli jos ja vain jos 0 on sen ainoa ominaisarvo K :ssa.
2.2 Ominaisarvon kertaluvut Olkoot matriisin A ∈ Mn (K) ominaisarvot λ1 , . . . , λn jossain riittävän suuressa K :n laajennuskunnassa, esimerkiksi λ1 , . . . , λn ∈ K . Tarkastellaan yhtä ominaisarvoa λj . Jos λj ∈ K , 21
LUKU 2. OMINAISARVOT JA -VEKTORIT
22
niin siitä, että cA (λj ) = 0, seuraa tunnetusti, että cA (λ) = (λ − λj )kj p(λ), missä kj ≥ 1, p(λ) ∈ K[λ] ja p(λj ) 6= 0; tällöin sanotaan, että λj on cA (λ):n kj -kertainen juuri.
Määritelmä 2.2.1 Matriisin A ∈ Mn (K) ominaisarvon λj ∈ K (i) (algebrallinen) kertaluku on kj , kun λj on karakteristisen polynomin kj -kertainen juuri, (ii) geometrinen kertaluku on λj :hin kuuluvan ominaisavaruuden Ker(A − λj I) dimensio. Oletetaan numerointi sellaiseksi, että λ1 , . . . , λs ovat A:n erisuuret ominaisarvot. Jos cA (λ) hajoaa täydellisesti yli K :n, eli jos λ1 , . . . , λs ∈ K , niin
cA (λ) = (−1)n (λ − λ1 )k1 · · · (λ − λs )ks , missä luvut ki ≥ 1 ovat ominaisarvojen algebralliset kertaluvut ja k1 + · · · + ks = n. Tämä hajotelma saadaan tulosta (1.23)
cA (λ) = (−1)n (λ − λ1 ) · · · (λ − λn ) yhdistämällä yhtäsuuret tekijät.
Esimerkki 2.2.2 Esimerkissä 1.9.5 matriisin J (tai J T ) ominaisarvon c algebrallinen kertaluku on n ja geometrinen kertaluku on 1.
Lause 2.2.3 Matriisin A ∈ Mn (K) ominaisarvon λj ∈ K algebrallinen kertaluku on yhtäsuuri kuin dim Ker((A − λj I)k ), missä k on (pienin) sellainen luku, että Ker((A − λj I)k ) = Ker((A − λj I)k+1 ). Todistus. Merkitään B = A − λj I . Saadaan nouseva ketju K n :n aliavaruuksia {0} ⊆ Ker(B) ⊆ Ker(B 2 ) ⊆ · · · ⊆ Ker(B i ) ⊆ · · · . Sovelletaan lausetta 1.6.1 matriisiin B . Lauseen todistuksen kaava (1.9) antaa
K n ⊃ Im(B) ⊃ Im(B 2 ) ⊃ · · · ⊃ Im(B k ) = Im(B k+1 ) = Im(B k+2 ) = · · · , ja koska n = dim Im(B i ) + dim Ker(B i ), saadaan
{0} ⊂ Ker(B) ⊂ Ker(B 2 ) ⊂ · · · ⊂ Ker(B k ) = Ker(B k+1 ) = Ker(B k+2 ) = · · · . (2.4) ³ ´ R O Lauseen 1.6.1 mukaan B on similaarinen matriisin O N kanssa, missä R ∈ Mp (K) on säännöllinen ja N ∈ Mn−p (K) on nilpotentti, sekä p = dim Im(B k ) = n − dim Ker(B k ). Similaareilla matriiseilla on samat karakteristiset polynomit, siispä ¶ ¶ ¶ µ µµ R − λI O R O − λI = det cB (λ) = det O N − λI O N
= det(R − λI) det(N − λI) = cR (λ)cN (λ).
LUKU 2. OMINAISARVOT JA -VEKTORIT
23
Koska R on säännöllinen, 0 ei ole sen ominaisarvo (esimerkki 2.1.1), ja koska N on nilpotentti, cN (λ) = ±λn−p (esimerkki 2.1.2). Siis
cB (λ) = ±λn−p cR (λ),
cR (0) 6= 0.
Nyt A:n karakteristinen polynomi saadaan muodossa
cA (λ) = det(A − λI) = det(B + λj I − λI) = det(B − (λ − λj )I) = cB (λ − λj ) = ±(λ − λj )n−p cR (λ − λj ). Näin ollen nollakohdan λj kertaluku on n − p = dim Ker(B k ) = dim Ker((A − λj I)k ).
2
Seuraus 2.2.4 Matriisin A ∈ Mn (K) ominaisarvon λj ∈ K algebrallinen kertaluku on sama kuin dim Ker((A − λj I)n ). Todistus. Ketjussa (2.4) aliavaruuksien dimensiot ovat ≤ dim K n = n, joten k ≤ n.
2
Seuraus 2.2.5 Ominaisarvon algebrallinen kertaluku on suurempi tai yhtä suuri kuin sen geometrinen kertaluku. Olkoot λ1 , . . . , λs matriisin A erisuuret K :hon kuuluvat ominaisarvot ja k1 , . . . , ks niiden algebralliset kertaluvut. Silloin k1 + · · · + ks ≤ n, ja yhtäsuuruus on voimassa tarkalleen silloin kun cA (λ) hajoaa täydellisesti yli K :n. Yo. seurauksen mukaan kj ≥ dim Vλj , missä Vλj = Ker(A − λj I) on λj :hin kuuluva A:n ominaisavaruus. Näin ollen
n ≥ k1 + · · · + ks ≥ dim Vλ1 + · · · + dim Vλs ,
kj ≥ dim Vλj
∀ j.
(2.5)
Eri ominaisarvoihin kuuluvat ominaisvektorit ovat lineaarisesti riippumattomat (lineaarialgebran kurssi), joten Vλj :den summa on suora; siis K n ⊇ Vλ1 ⊕ · · · ⊕ Vλs . Matriisi A on diagonalisoituva jos ja vain jos sen ominaisvektoreista saadaan K n :n kanta, eli jos ja vain jos K n = Vλ1 ⊕ · · · ⊕ Vλs ; epäyhtälöiden (2.5) mukaan tämä on ekvivalentti sen kanssa, että k1 + · · · + ks = n, ja sen kanssa, että kj = dim Vλj ∀ j . Saadaan siis:
Lause 2.2.6 Kun A ∈ Mn (K), seuraavat ehdot ovat ekvivalentit: (i) A on diagonalisoituva yli K :n; (ii) A:lla on n lineaarisesti riippumatonta ominaisvektoria K n :ssä; (iii) cA (λ) hajoaa täydellisesti yli K :n ja A:n jokaisen ominaisarvon algebrallinen ja geometrinen kertaluku ovat samat; (iv) cA (λ) hajoaa täydellisesti yli K :n ja Ker(A − λj I) = Ker((A − λj I)2 ) jokaisella ominaisarvolla λj . Jos matriisilla A ∈ Mn (K) on n erisuurta ominaisarvoa λ1 , . . . , λn , niin A on diagonalisoituva. Tällöinhän epäyhtälöissä (2.5) on voimassa yhtäsuuruudet ja kj = dim Vλj = 1 ∀ j .
LUKU 2. OMINAISARVOT JA -VEKTORIT
24
Esimerkki 2.2.7 Osoitetaan, että jos A on yläkolmiomatriisi, jonka päälävistäjäalkiot ovat kaikki = a, niin A on diagonalisoituva tarkalleen silloin kun A = aI . ³ ´ Esimerkki 2.2.8 Tutkitaan matriisin A = 01 10 diagonalisoituvuutta char(K):n eri arvoilla. ! Ã 0 10 Esimerkki 2.2.9 Selvitetään matriisin P = 0 0 1 ominaisarvot ja -avaruudet. 1 00
Huomautus 2.2.10 Oletetaan, että cA (λ) hajoaa täydellisesti yli K :n. Olkoot λ1 , . . . , λs A:n erisuuret ominaisarvot. Merkitään V λj = {x ∈ K n | (A − λj I)k x = 0 jollakin k :lla}. Voidaan osoittaa, että K n = V λ1 ⊕· · ·⊕V λs . Diagonalisoituvassa tapauksessa V λj = Vλj ∀ j . Vektoreita x ∈ V λj , x 6= 0, sanotaan yleistetyiksi ominaisvektoreiksi.
2.3 Idempotentti matriisi. Projektio Määritelmä 2.3.1 Neliömatriisi A on idempotentti , jos A2 = A. µ
µ ¶ ¶ 11 11 ja 21 ovat idempotentteja. Jos 00 11 A on idempotentti ja P on säännöllinen, niin P AP −1 ja AT ovat idempotentteja.
Esimerkki 2.3.2 Esimerkiksi matriisit O, I ,
Lause 2.3.3 Jos P ∈ Mn (K) on idempotentti, niin (i)
I − P on idempotentti,
(ii)
Im(I − P ) = Ker(P ),
(iii)
Ker(I − P ) = Im(P ),
(iv)
K n = Im(P ) ⊕ Ker(P ).
Todistus. (i) (I − P )2 = I 2 − 2P + P 2 = I − 2P + P = I − P . (ii) Jos x ∈ Im(I − P ), niin x = (I − P )y jollain vektorilla y; siis P x = P (I − P )y = (P −P 2 )y = (P −P )y = 0, joten x ∈ Ker(P ). Kääntäen, jos x ∈ Ker(P ), niin x = (I −P )x ∈ Im(I − P ). (iii) Sovelletaan kohtaa (ii) idempotenttiin I − P . (iv) Ensinnäkin Im(P ) ja Ker(P ) ovat K n :n aliavaruuksia. Toiseksi jokainen x ∈ K n voidaan esittää summana x = P x + (I − P )x, ja P x ∈ Im(P ) ja (I − P )x ∈ Im(I − P ) = Ker(P ). Kolmanneksi Im(P ) ∩ Ker(P ) = {0}, sillä jos x ∈ Im(P ) ∩ Ker(P ), niin x = P y ja P x = 0, josta x = P y = P 2 y = P x = 0. 2 Olkoon K n = U1 ⊕ U2 . Kuvausta τ1 : K n → K n , joka määritellään
τ1 (x) = x1 ,
x = x1 + x2
(x1 ∈ U1 , x2 ∈ U2 ),
LUKU 2. OMINAISARVOT JA -VEKTORIT
25
sanotaan projektioksi U1 :lle suuntaan U2 . Vastaavasti määritellään projektio τ2 U2 :lle suuntaan U1 (τ2 (x) = x2 ). Nämä ovat lineaarikuvauksia, Im(τ1 ) = U1 , Ker(τ1 ) = U2 , Im(τ2 ) = U2 ja Ker(τ2 ) = U1 . Kun P1 ja P2 ovat τ1 :n ja τ2 :n matriisit luonnollisen kannan suhteen, sanotaan myös, että P1 on projektio U1 :lle suuntaan U2 , ja vastaavasti P2 :lle. Tietenkin P1 + P2 = I . Lisäksi τi2 = τi , joten Pi2 = Pi (i = 1, 2), toisin sanoen P1 ja P2 ovat idempotentteja. Osoitetaan, että K n :n suorasummahajotelmat K n = U1 ⊕U2 vastaavat kääntäen yksikäsitteisesti identiteettimatriisin I esittämistä kahden idempotentin matriisin summana I = P +Q: Jos ensinnäkin I = P + Q, missä P ja Q ovat idempotentteja, niin Q = I − P ja lause 2.3.3 antaa K n = Im(P ) ⊕ Ker(P ). Kääntäen, jos K n = U1 ⊕ U2 , merkitään P1 :llä projektiota U1 :lle U2 :n suuntaan ja P2 :llä projektiota U2 :lle U1 :n suuntaan; silloin edellä todetun mukaan P1 ja P2 ovat idempotentteja ja P1 + P2 = I . Lopuksi on helppo todeta, että nämä konstruktiot antavat kääntäen yksikäsitteisen vastaavuuden.
Esimerkki 2.3.4 Lasketaan esimerkin 2.3.2 matriiseja vastaavat R2 :n hajotelmat. Esimerkki 2.3.5 Lasketaan suorasummahajotelmaan R2 = U1 ⊕ U2 liittyvät idempotentit, kun a) U1 on x-akseli ja U2 on y -akseli; b) U1 on x-akseli ja U2 on suora y = x.
Lause 2.3.6 Idempotentti matriisi P ∈ Mn (K) on diagonalisoituva, ja sen ainoat mahdolliset ominaisarvot ovat 0 ja 1. Ominaisarvon 1 kertaluku on = r(P ). Todistus. Jos λ on P :n ominaisarvo ja x siihen kuuluva ominaisvektori, niin P x = λx. Silloin λ2 x = P (P x) = P 2 x = P x = λx, joten λ2 = λ. Siis λ on 0 tai 1. Ominaisarvoihin 0 ja 1 kuuluvat ominaisavaruudet ovat Ker(P ) ja Ker(P − I) = Ker(I − P ) = Im(P ), joten K n :llä on lauseen 2.3.3 kohdan (iv) nojalla P :n ominaisvektoreista koostuva kanta. Siis P on diagonalisoituva. Lopuksi r(P ) = dim Im(P ) on ominaisarvon 1 kertaluku; ks. (1.19). 2
Seuraus 2.3.7 Jos P ∈ Mn (K) on idempotentti, cP (λ) = (−1)n λn−r (λ − 1)r , missä r = r(P ).
Seuraus 2.3.8 Neliömatriisi on idempotentti jos ja vain jos se on muotoa M DM −1 , missä M on säännöllinen ja D = diag(1, . . . , 1, 0, . . . , 0).
Esimerkki 2.3.9 Tarkastellaan matriisia A = uvT , missä u, v ∈ K n . Esimerkki 2.3.10 Olkoot P, Q ∈ Mn (K) idempotentteja. Selvästi P Q = O jos ja vain jos Im(Q) ⊆ Ker(P ). Onko mahdollista, että P Q = O mutta QP 6= O? Entä voiko samanaikaisesti olla P Q = P ja QP = Q, kun P 6= Q?
2.3.1 Ortogonaalinen projektio Tarkastellaan lopuksi tapausta K = K (= R tai C). Olkoon U ⊆ Kn aliavaruus. Matriisi P on ortogonaalinen projektio aliavaruudelle U , jos P on projektio U :lle suuntaan U ⊥ . Neliömatriisi A on itseadjungoitu , jos A∗ = A.
LUKU 2. OMINAISARVOT JA -VEKTORIT
26
Lause 2.3.11 Matriisi P ∈ Mn (K) on ortogonaalinen projektio jos ja vain jos P 2 = P = P ∗ , toisin sanoen jos ja vain jos P on idempotentti ja itseadjungoitu.
Todistus. Oletetaan ensin, että P 2 = P = P ∗ . Idempotenttina P on projektio Im(P ):lle suuntaan Ker(P ). On siis vain näytettävä, että Ker(P ) = Im(P )⊥ . Koska P = P ∗ , niin lauseen 1.11.1 mukaan hP x, yi = hx, P ∗ yi = hx, P yi ∀ x, y ∈ Kn . Jos x ∈ Ker(P ), tästä seuraa hx, P yi = 0 ∀ y, joten x ∈ Im(P )⊥ . Jos taas x ∈ Im(P )⊥ , niin hP x, yi = 0 ∀ y, josta P x = 0 ja siis x ∈ Ker(P ). Olkoon nyt P ortogonaalinen projektio Kn → Kn ja olkoon U = Im(P ). Silloin U ⊥ = Ker(P ). Edellä todetun mukaan P on idempotentti. Olkoot x, y ∈ Kn mielivaltaisia. Kirjoitetaan ne suoran summan Kn = U ⊕ U ⊥ mukaisesti: x = x1 + x2 ja y = y1 + y2 , missä x1 , y1 ∈ U ja x2 , y2 ∈ U ⊥ . Silloin hP x, yi = hx1 , yi = hx1 , y1 + y2 i = hx1 , y1 i + hx1 , y2 i = hx1 , y1 i + 0 = hx1 , y1 i + hx2 , y1 i = hx1 + x2 , y1 i = hx, P yi = hP ∗ x, yi. Koska x ja y ovat mielivaltaisia, niin P = P ∗ .
2
2.4 Matriisin spektraaliesitys ja spektraalihajotelma Määritelmä 2.4.1 Idempotentteja matriiseja E1 , . . . , Em sanotaan ortogonaalisiksi idempotenteiksi , jos Ei Ej = O kun i 6= j (i, j = 1, . . . , m). Jos lisäksi E1 + · · · + Em = I , sanotaan, että {E1 , . . . , Em } on täysi joukko ortogonaalisia idempotentteja .
Esimerkki 2.4.2 Olkoot E1 , . . . , Em ∈ Mn (K) ortogonaalisia idempotentteja. 1) Myös I − E1 on idempotentti, ja {E1 , I − E1 } on täysi joukko ortogonaalisia idempotentteja. 2) Merkitsemällä Em+1 = I − (E1 + · · · + Em ) saadaan täysi joukko ortogonaalisia idempotentteja {E1 , . . . , Em , Em+1 }. 3) Eri Ei :den summat ovat idempotentteja. Esimerkiksi E1 + E2 , E3 , . . . , Em ovat keskenään ortogonaalisia idempotentteja. 4) Jos {E1 , . . . , Em } on täysi joukko ortogonaalisia idempotentteja, niin samoin on joukko {P E1 P −1 , . . . , P Em P −1 }, kun P on säännöllinen matriisi. 5) Eräs täysi joukko ortogonaalisia idempotentteja Mn (K):ssa on E11 , . . . , Enn , missä Ekk on se matriisi, jonka kohdassa (k, k) on 1 ja muut alkiot ovat nollia.
Esimerkki 2.4.3 Osoitetaan, että jos E1 , . . . , Em ∈ Mn (K) on täysi joukko ortogonaalisia idempotentteja, niin K n = Im(E1 ) ⊕ · · · ⊕ Im(Em ). Matriisin A ominaisarvojen joukkoa {λ1 , . . . , λn } sanotaan A:n spektriksi .
Määritelmä 2.4.4 Olkoon A ∈ Mn (K). Oletetaan, että cA (λ) hajoaa täydellisesti yli K :n.
LUKU 2. OMINAISARVOT JA -VEKTORIT (i) Matriisin A spektraalihajotelma on A =
27 s P i=1
λi Ei , missä λ1 , . . . , λs ovat A:n erisuuret
ominaisarvot ja {E1 , . . . , Es } on täysi joukko ortogonaalisia idempotentteja. (ii) Matriisin A spektraaliesitys on A =
n P i=1
λi Ei , missä λ1 , . . . , λn ovat A:n ominaisarvot
ja {E1 , . . . , En } on täysi joukko ortogonaalisia idempotentteja.
Pn Jos A = i=1 λi Ei on jokin A:n spektraaliesitys, siinä voidaan yhtäsuuret λi :t yhdistää. Pn Jos esimerkiksi λ1 = λ2 , niin A = λ1 (E1 + E2 ) + i=3 λi Ei . Näin jatkamalla päästään spektraaliesityksestä spektraalihajotelmaan. Sopivat spektraaliesitykset voivat tehdä matriiseilla laskemisen helpoksi. Jos esimerkiksi Pm Pm A = i=1 ai Ei ja B = i=1 bi Ei , missä E1 , . . . , Em ovat ortogonaalisia idempotentteja, niin Pm Pm Pm A + B = i=1 (ai + bi )Ei ja AB = i=1 (ai bi )Ei . Erityisesti Ak = i=1 aki Ei , joten kun Pm p(x) ∈ K[x], niin p(A) = i=1 p(ai )Ei .
Esimerkki 2.4.5 Olkoon A ∈ Mn (K) ja A3 = A. Oletetaan, että char K 6= 2 ja että I, A, A2 ovat lineaarisesti riippumattomia. Myöhemmin näytetään, että A:n ominaisarvot ovat λ1 = 0, λ2 = 1, λ3 = −1. Osoitetaan nyt, että A:lla on spektraalihajotelma A = 0 · E1 + 1 · E2 − 1 · E3 , missä E1 = I − A2 , E2 = 21 (A2 + A), E3 = 12 (A2 − A).
Lause 2.4.6 Olkoon A ∈ Mn (K). Seuraavat ehdot ovat ekvivalentit: (i)
A on diagonalisoituva;
(ii)
A:lla on spektraaliesitys;
(iii)
A:lla on spektraalihajotelma; Pm A = i=1 ci Ei , missä Ei :t muodostavat täyden joukon ortogonaalisia idempotentteja.
(iv)
Lisäksi, jos nämä ovat voimassa ja jos (iv):ssä Ei 6= O ∀ i, niin ci :t ovat A:n ominaisarvoja ja Im(Ei ) ⊆ Vci (= ci :hin kuuluva ominaisavaruus). Todistus. Oletetaan ensin (i). Silloin A = P DP −1 , missä D = diag(λ1 , . . . , λn ). Olkoot E11 , . . . , Enn esimerkin 2.4.2 ortogonaaliset idempotentit. Silloin D = diag(λ1 , . . . , λn ) = λ1 E11 + λ2 E22 + · · · + λn Enn , joten A = P DP −1 = λ1 E1 + · · · + λn En , missä Ei = P Eii P −1 . Koska Eii :t muodostavat täyden joukon ortogonaalisia idempotentteja, niin samoin muodostavat Ei :t. Saatiin (ii). Triviaalisti (ii) ⇒ (iii) ⇒ (iv). Oletetaan lopuksi (iv). Voidaan olettaa, että Ei 6= O ∀ i. Nyt AEj = cj Ej , joten cj on A:n ominaisarvo (sillä Ej :n pystyrivit 6= 0 ovat cj :hin kuuluvia ominaisvektoreita) ja Im(Ej ) ⊆ Vcj (sillä Im(Ej ) on Ej :n pystyriviavaruus). Esimerkin 2.4.3 mukaan K n on aliavaruuksien Im(Ei ) summa; siis K n on myös aliavaruuksien Vci summa, joten (i) seuraa. 2
Seuraus 2.4.7 Jos A =
Ps i=1
λi Ei on A:n spektraalihajotelma, niin Im(Ei ) = Vλi ∀ i.
LUKU 2. OMINAISARVOT JA -VEKTORIT
28
Todistus. Tämä seuraa lauseesta 2.4.6, esimerkistä 2.4.3 ja siitä, että eri ominaisarvoihin kuuluvien ominaisavaruuksien summa on suora. 2 ³ ´ Esimerkki 2.4.8 Olkoon A = −13 26 . Lasketaan A:n spektraaliesitys ja sen avulla A100 .
Esimerkki 2.4.9 Olkoon K n = U ⊕ V , missä U ja V ovat aliavaruuksia 6= {0}. Peilaus τ : K n → K n aliavaruuden U suhteen aliavaruuden V suunnassa määritellään: τ (u+v) = u−v kun u ∈ U , v ∈ V . Selvitetään τ :n ominaisarvot ja -vektorit sekä spektraalihajotelma.
Esimerkki 2.4.10 Tarkastellaan rekursiivisesti määriteltyä lukujonoa u0 = a, u = b, 1 un = un−1 + 2un−2
kun n ≥ 2,
³ ´ u missä a ja b ovat vakioita. Johdetaan un :lle suljettu lauseke toteamalla ensin, että u n = n−1 ³ ´ ³ ´ 12 An−1 ab , missä A = 1 0 , ja laskemalla sitten Ak :lle suljettu lauseke. Tarkastellaan myös lukujonoa, jonka rekursiokaava on un = un−1 − 14 un−2 (n ≥ 2). Muistetaan neliömatriisin generoima alialgebra hAi = {p(A) | p(x) ∈ K[x]}.
Lause 2.4.11 Olkoon A ∈ Mn (K) diagonalisoituva. Spektraalihajotelmassa A =
Ps i=1
λi E i
esiintyvät idempotentit Ei muodostavat alialgebran hAi kannan. Todistus. Koska Ei :t ovat ortogonaalisia idempotentteja, niin k
A =
µX s
¶k λi Ei
i=1
=
s X
λki Ei .
i=1
Seuraa hAi ⊆ L(E1 , . . . , Es ) (= matriisien E1 , . . . , Es virittämä aliavaruus Mn (K):ssa). Yhtälöryhmästä s P I = Ei , i=1 s P A = λi E i , i=1 s P 2 A2 = λi Ei , i=1 ··· s P s−1 = λs−1 Ei A i i=1
voidaan Ei :t ratkaista, koska kerroinmatriisin determinantti on Vandermonden determinantti, joka esimerkin 1.7.3 mukaan ei ole 0 (λi :t erisuuria!). Seuraa, että Ei :t voidaan lausua matriisien I, A, . . . , As−1 lineaarikombinaatioina, siis A:n polynomeina. Näin ollen Ei ∈ hAi, joten hAi = L(E1 , . . . , Es ). Lopuksi Ei :den keskinäisestä ortogonaalisuudesta seuraa helposti niiden lineaarinen riippumattomuus. 2
LUKU 2. OMINAISARVOT JA -VEKTORIT
29
Seuraus 2.4.12 Diagonalisoituvan matriisin spektraalihajotelman idempotentit ovat yksikäsitteiset. Todistus. Edellisen todistuksen yhtälöryhmän ratkaisu on yksikäsitteinen.
2
Seuraava lause on käänteinen esimerkin 1.9.6 tulokselle.
Lause 2.4.13 Olkoot A, B ∈ Mn (K) diagonalisoituvia ja AB = BA. Silloin A ja B voidaan diagonalisoida samalla similaarimuunnoksella. Ekvivalentisti: K n :llä on kanta, jonka alkiot ovat A:n ja B :n yhteisiä ominaisvektoreita. P P Todistus. Spektraalihajotelmissa A = si=1 λi Ei ja B = ri=1 µi Fi on Ei ∈ hAi ja Fi ∈ hBi; siis Ei :t ovat A:n ja Fi :t B :n polynomeja. Koska AB = BA, kaikki Ei :t ja Fj :t kommutoivat keskenään. Seuraa helposti, että {Ei Fj | i = 1, . . . , s, j = 1, . . . , r} on täysi joukko ortogonaalisia idempotentteja (yleensä mukana on nollamatriisejakin). Lisäksi AEi Fj = λi Ei Fj L ja BEi Fj = Ei BFj = µj Ei Fj . Valitaan K n :lle kanta suoran summan K n = i,j Im(Ei Fj ) mukaisesti. 2
Huomautus 2.4.14 Diagonalisoituvan matriisin A ∈ Mn (K) spektraaliesitys voidaan löytää seuraavallakin tavalla. Olkoot λ1 , . . . , λn A:n ominaisarvot ja olkoon x1 , . . . , xn ominais¡ ¢ vektoreista koostuva K n :n kanta, Axi = λi xi ∀ i. Merkitään X = x1 | . . . |xn ja (X −1 )T = ¡ ¢ y1 | . . . | yn . Koska AX = XD, missä D = diag(λ1 , . . . , λn ), niin AT (X −1 )T = (X −1 )T D. Siis y1 , . . . , yn on AT :n ominaisvektoreista koostuva K n :n kanta, AT yi = λi yi ∀ i. (Sanotaan myös, että xi :t ovat A:n oikeita ja yi :t ovat A:n vasempia ominaisvektoreita: Axi = λi xi ja yiTA = λi yiT .) Koska X −1 X = I , niin yiT xj = δij . Saadaan
A = XDX −1 =
n X i=1
=
n X
λi XEii X −1 =
n X i=1
λi Xei eTi X −1 =
n X
λi (Xei )((X −1 )T ei )T
i=1
λi xi yiT .
i=1
Tämä on A:n spektraaliesitys, sillä (xi yiT )(xj yjT ) = δij xi yiT ja samantapaisella laskelmalla Pn Pn kuin yllä saadaan I = XX −1 = XIX −1 = i=1 XEii X −1 = i=1 xi yiT .
Luku 3
Kompleksiset matriisit Koko tässä luvussa skalaarikuntana on C. Tarkastelemme Mn (C):n matriiseja. Reaaliset matriisit ovat mukana erikoistapauksena.
3.1 Unitaarimatriisi ja ortogonaalimatriisi Muistetaan, että neliömatriisin A = (aij ) ∈ Mn (C) adjungoitu matriisi on A∗ = (aji ), että A on unitaarinen , jos A∗A = I , ja että A on ortogonaalinen , jos ATA = I . Reaalisille matriiseille unitaarisuus ja ortogonaalisuus ovat ekvivalentit. ³ ´ ³ ´ Esimerkki 3.1.1 Matriiseista √12 1i 1i ja √12 1i −i1 toinen on unitaarinen. Kumpi? Lasketaan sen ominaisarvot.
Esimerkki 3.1.2 Unitaarimatriisin U ominaisarvot ovat itseisarvoltaan 1: Olkoon U x = λx, x 6= 0. Lauseesta 1.11.1 saamme hU x, U xi = hx, U ∗ U xi = hx, Ixi = hx, xi, ja toisaalta
hU x, U xi = hλx, λxi = λλhx, xi = |λ|2 hx, xi. Koska hx, xi = 6 0, niin |λ|2 = 1, eli |λ| = 1.
3.2 Itseadjungoitu matriisi Määritelmä 3.2.1 Matriisi A ∈ Mn (C) on symmetrinen , jos AT = A, ja itseadjungoitu , jos A∗ = A. (Itseadjungoitua matriisia sanotaan myös Hermiten matriisiksi .) Siis matriisi A = (aij )n×n on symmetrinen jos ja vain jos aij = aji ∀ i, j , ja A on itseadjungoitu jos ja vain jos aij = aji ∀ i, j .
30
LUKU 3. KOMPLEKSISET MATRIISIT
31
Lause 3.2.2 Matriisi A ∈ Mn (C) on itseadjungoitu jos ja vain jos hAx, yi = hx, Ayi aina kun x, y ∈ Cn . Todistus. Lauseen 1.11.1 mukaan hAx, yi = hx, A∗ yi; jos siis A∗ = A, niin hAx, yi = hx, Ayi. Oletetaan kääntäen, että hAx, yi = hx, Ayi kaikilla vektoreilla x, y. Vähentämällä yhtälöt hAx, yi = hx, Ayi ja hAx, yi = hx, A∗ yi toisistaan saadaan hx, (A − A∗ )yi = 0 ∀ x, y ∈ Cn . Seuraa A − A∗ = O, eli A = A∗ . 2
Lause 3.2.3 Itseadjungoidun matriisin ominaisarvot ovat reaaliset. Todistus. Olkoon A itseadjungoitu ja olkoon Ax = λx, x 6= 0. Silloin λhx, xi = hλx, xi = hAx, xi = hx, Axi = hx, λxi = λhx, xi. Koska hx, xi = 6 0, niin λ = λ, toisin sanoen λ ∈ R.
2
Seuraus 3.2.4 Reaalisen symmetrisen matriisin ominaisarvot ovat reaaliset. Reaalisen symmetrisen matriisin karakteristinen polynomi hajoaa siis täydellisesti yli R:n. Tunnetusti matriisin erisuuriin ominaisarvoihin kuuluvat ominaisarvot ovat lineaarisesti riippumattomat. Itseadjungoidulle matriisille saadaan vahvempikin tulos:
Lause 3.2.5 Itseadjungoidun matriisin erisuuriin ominaisarvoihin kuuluvat ominaisvektorit ovat ortogonaaliset. Todistus. Olkoon A itseadjungoitu ja olkoon Ax = λx, x 6= 0, sekä Ay = µy, y 6= 0, missä λ 6= µ. Koska A∗ = A, niin λhx, yi = hλx, yi = hAx, yi = hx, Ayi = hx, µyi = µhx, yi, sillä lauseen 3.2.3 mukaan µ = µ. Koska λ 6= µ, seuraa hx, yi = 0.
2
Similaarisia matriiseja A ja B sanotaan unitaarisesti similaareiksi , jos similaarimuunnoksen välittävä matriisi P voidaan valita unitaariseksi, siis jos A = P BP ∗ ja P P ∗ = I . Matriisi A on unitaarisesti diagonalisoituva , jos se on unitaarisesti similaarinen diagonaalimatriisin kanssa, toisin sanoen jos on sellainen U ∈ Mn (C), että U ∗AU = diag(λ1 , . . . , λn ) ja U ∗ U = I ; silloin λi :t ovat välttämättä A:n ominaisarvot. Reaaliset matriisit A ja B ovat ortogonaalisesti similaariset yli R:n (tai Mn (R):ssä), jos ne ovat similaariset ja jos ko. similaarimuunnoksen välittävä matriisi voidaan valita reaaliseksi ja ortogonaaliseksi, toisin sanoen jos A = P BP T ja P P T = I , P ∈ Mn (R). Matriisi A ∈ Mn (R) on ortogonaalisesti diagonalisoituva yli R:n , jos se on ortogonaalisesti similaarinen diagonaalimatriisin kanssa yli R:n. Seuraavat kaksi lausetta todistetaan seuraavassa pykälässä.
Lause 3.2.6 Itseadjungoitu matriisi on unitaarisesti diagonalisoituva. Lause 3.2.7 Reaalinen symmetrinen matriisi on ortogonaalisesti diagonalisoituva yli R:n.
LUKU 3. KOMPLEKSISET MATRIISIT
32
Lauseista 3.2.6 ja 3.2.7 saadaan:
Seuraus 3.2.8 Itseadjungoidun matriisin ominaisvektoreista voidaan valita Cn :n ortonormaalikanta. Reaalisen symmetrisen matriisin ominaisvektoreista voidaan valita Rn :n ortonormaalikanta. Todistus. Olkoon U ∗AU = D = diag(λ1 , . . . , λn ), missä U ∗ U = I . Silloin AU = U D. Tarkemmin tutkittuna tämä yhtälö sanoo, että U :n pystyrivit ovat A:n ominaisvektoreita. Toisaalta ne muodostavat Cn :n ortonormaalisen kannan, koska U on unitaarinen. Reaalista tapausta koskeva väite todistetaan vastaavasti. 2
3.3 Unitaarinen similaarisuus. Normaali matriisi Lause 3.3.1 Jokainen kompleksinen matriisi on unitaarisesti similaarinen yläkolmiomatriisin kanssa. Todistus. Todistamme lauseen muuntamalla lauseen 1.10.1 todistusta sopivasti. Olkoon A ∈ Mn (C). Koska C on algebrallisesti suljettu, cA (λ) hajoaa täydellisesti yli C:n. Lauseen 1.10.1 todistuksessa valittiin ensin ominaisarvo λ1 ja siihen kuuluva ominaisvektori x1 . Nyt vaadimme, että lisäksi |x1 | = 1. Seuraavaksi {x1 } täydennettiin koko avaruuden kannaksi {x1 , r2 , . . . , rn }. Nyt vaadimme, että tämä kanta on ortonormaali. Tähän päästään täydentämällä ensin joksikin kannaksi {x1 , r02 , . . . , r0n }, ortogonalisoimalla tämä Gramin Schmidtin menetelmällä (jolloin x1 säilyy) ja lopuksi normalisoimalla (jolloin x1 säilyy). ¡ ¢ Matriisi R = x1 | r2 | . . . | rn on unitaarinen. Samoin kuin lauseen 1.10.1 todistuksessa saadaan λ1 ∗ . . . ∗ 0 R∗ AR = .. , B . 0 missä B ∈ Mn (C); huomaa että R−1 = R∗ unitaarisuuden vuoksi. Induktio-oletuksen mukaan B = V SV ∗ , missä V ∈ Mn−1 (C) on unitaarinen, toµ ¶ja samoin kuin lauseen 1.10.1 µ ¶ T λ ∗ 1 0 1 ∗ ∗ on unitaarinen ja T = distuksessa seuraa R AR = R1 T R1 , missä R1 = 0 S 0V ∗ ∗ on yläkolmiomatriisi. Saadaan A = RR1 T R1 R = (RR1 )T (RR1 )∗ , ja koska R ja R1 ovat unitaarisia, samoin on RR1 . 2
Lause 3.3.2 Olkoon A ∈ Mn (R) sellainen matriisi, että cA (λ) hajoaa täydellisesti yli R:n. Silloin A on ortogonaalisesti similaarinen yläkolmiomatriisin kanssa yli R:n. Toisin sanoen A = W TSW , missä W, S ∈ Mn (R), W on ortogonaalinen ja S on yläkolmiomatriisi. Tämä todistetaan samoin kuin edellinen lause, mutta kaikki tehdään skalaarikuntana R. Nyt todistamme lauseet 3.2.6 ja 3.2.7. (Vaihtoehtoisesti ne saataisiin lauseesta 3.3.4.)
Lauseen 3.2.6 todistus. Olkoon A ∈ Mn (C) itseadjungoitu. Lauseen 3.3.1 mukaan U ∗AU = T , missä U on unitaarinen ja T on yläkolmiomatriisi. Koska T ∗ = (U ∗AU )∗ = U ∗A∗ (U ∗ )∗ = U ∗AU = T , niin T on sekä yläkolmiomatriisi että itseadjungoitu, siis diagonaalinen. 2
LUKU 3. KOMPLEKSISET MATRIISIT
33
Lauseen 3.2.7 todistus. Tämä seuraa lauseesta 3.3.2 yo. tapaan, koska seurauksen 3.2.4 mukaan karakteristinen polynomi hajoaa täydellisesti yli R:n. 2
Määritelmä 3.3.3 Matriisia A ∈ Mn (C) sanotaan normaaliksi , jos AA∗ = A∗A. Unitaariset ja itseadjungoidut matriisit ovat normaaleja. Jos nimittäin U on unitaarinen, niin U U ∗ = I = U ∗ U , ja jos A on itseadjungoitu, niin AA∗ = A2 = A∗A.
Lause 3.3.4 Matriisi on unitaarisesti diagonalisoituva jos ja vain jos se on normaali. Todistus. Olkoon ensiksi A ∈ Mn (C) unitaarisesti diagonalisoituva. Silloin A = U DU ∗ , missä U on unitaarinen ja D diagonaalinen. Siis AA∗ = U DD∗ U ∗ ja A∗A = U D∗ DU ∗ . Diagonaalimatriiseina D ja D∗ kommutoivat, joten AA∗ = A∗A. Oletetaan nyt, että A on normaali. Kirjoitetaan lauseen 3.3.1 mukaisesti A = U T U ∗ , missä U on unitaarinen ja T on yläkolmiomatriisi. Koska AA∗ = A∗A, niin T T ∗ = T ∗ T . Merkitään T = (tij ). Yhtälöstä T T ∗ = T ∗ T seuraa, katsomalla kohdassa (i, i) olevaa alkiota, |ti1 |2 + |ti2 |2 + · · · + |tin |2 = |t1i |2 + |t2i |2 + · · · + |tni |2 , ja koska thk = 0 kun h > k , niin
|tii |2 + · · · + |tin |2 = |t1i |2 + · · · + |tii |2
(i = 1, . . . , n).
Osoitetaan, että tällöin T on diagonaalimatriisi. Tehdään vastaoletus, että jokin tij 6= 0, i < j , ja oletetaan, että i on pienin jolla tällainen esiintyy. Yo. yhtälö antaa tällä i:n arvolla
|tii |2 + · · · + |tin |2 = 0 + · · · + 0 + |tii |2 . Siispä |ti,i+1 | = · · · = |tin | = 0, joten myös kyseinen tij = 0, ristiriita.
2
Seuraus 3.3.5 Matriisi A ∈ Mn (C) on normaali jos ja vain jos sen ominaisvektoreista voidaan valita Cn :lle ortonormaali kanta. Lauseesta 3.3.4 ja seurauksesta 3.3.5 saadaan myös versiot, joissa skalaarikuntana on R.
Esimerkki 3.3.6 Osoitetaan, että jos A on normaali, niin A = V M = M V , missä V on unitaarinen ja M on itseadjungoitu.
3.4 Rayleighin osamäärä Määritelmä 3.4.1 Olkoon A ∈ Mn (C) itseadjungoitu. Lukua R(x) = RA (x) =
x∗Ax hAx, xi = ∈ R, hx, xi |x|2
missä x ∈ Cn , x 6= 0, sanotaan A:han liittyväksi Rayleighin osamääräksi .
(3.1)
LUKU 3. KOMPLEKSISET MATRIISIT
34
1 Koska RA (x) = RA (x0 ), missä x0 = |x| x , niin RA (x) saa kaikki arvonsa jo yksikköpallon n pinnalla S = {x ∈ C | |x| = 1}. Kun x ∈ S , niin RA (x) = hAx, xi. Seuraavasta lauseesta on tietenkin myös versio, jossa A on reaalinen symmetrinen matriisi ja S :n tilalla on yksikköpallon pinta {x ∈ Rn | |x| = 1} Rn :ssä.
Lause 3.4.2 Olkoon A ∈ Mn (C) itseadjungoitu ja olkoot λ1 , . . . , λn sen ominaisarvot (reaalisia lauseen 3.2.3 nojalla), ja olkoon λ1 ≥ λ2 ≥ · · · ≥ λn . Silloin Rayleighin osamäärällä RA (x) on suurin arvo λ1 ja pienin arvo λn . Ne saavutetaan ko. ominaisarvoihin kuuluvissa A:n ominaisvektoreissa ja vain niissä. Todistus. Koska A on itseadjungoitu, niin A = U DU ∗ , missä D = diag(λ1 , . . . , λn ) ja U on unitaarinen. Kun x ∈ Cn ja y = U ∗ x, niin x = U y, ja saadaan hAx, xi = hU DU ∗ x, xi = hDU ∗ x, U ∗ xi = hDy, yi, hx, xi = hU y, U yi = hy, U ∗ U yi = hy, yi. Näin ollen RA (x) = RD (y). Siksi voidaan tarkastella RA (x):n sijasta RD (y):tä. Lisäksi riittää että y käy S :n. Kun y = (y1 , . . . , yn )T ∈ S , niin λ1 0 y1 n X .. ... = RD (y) = hDy, yi = y∗ Dy = (y 1 , . . . , y n ) λi |yi |2 . . i=1 0 λn yn
Pn Pn Pn 2 2 2 2 Koska λi ≤ λ1 , niin i=1 λ1 |yi | = λ1 i=1 |yi | = λ1 |y| = λ1 . Tämä i=1 λi |yi | ≤ T yläraja λ1 saavutetaan ainakin pisteessä y = (1, 0 . . . , 0) , joten se on funktion RD (y) suurin Pn arvo. Samoin nähdään, että i=1 λi |yi |2 ≥ λn ja että arvo λn saavutetaan pisteessä y = (0, . . . , 0, 1)T , joten λn on RD :n pienin arvo. Jos toisaalta RD (y) = λ1 jossain pisteessä y = (y1 , . . . , yn )T , niin yi = 0 kun λi < λ1 , ja tällöin siis Dy = λ1 y; seuraa Ax = U DU ∗ x = U Dy = λ1 U y = λ1 x, joten x on λ1 :een kuuluva ominaisvektori. Samoin käsitellään tapaus RD (y) = λn . 2 2 −1 2 P P Esimerkki 3.4.3 Kun A = −1 5 −1 , niin 31 i,j aij = 3. Toisaalta 31 i,j aij = 2 −1 2 T RA ((1, 1, 1) ), joten suurin ominaisarvo on ≥ 3 ja pienin ≤ 3. (Ominaisarvot ovat 6, 3 ja 0.)
3.5 Deniitti matriisi Määritelmä 3.5.1 Olkoon matriisi A ∈ Mn (C) itseadjungoitu. Sanotaan, että A on positiivisesti deniitti , jos hAx, xi > 0
∀ x ∈ Cn , x 6= 0,
(3.2)
∀ x ∈ Cn .
(3.3)
ja että A on positiivisesti semideniitti , jos
hAx, xi ≥ 0
LUKU 3. KOMPLEKSISET MATRIISIT
35
Vastaavasti määritellään negatiivisesti deniitti ja negatiivisesti semideniitti . Jos A on positiivisesti tai negatiivisesti deniitti, sanotaan, että se on deniitti . Lisäksi A on epädeniitti (eli indeniitti ), jos hAx, xi saa sekä positiivisia että negatiivisia arvoja.
Huomautus 3.5.2 Näille termeille esiintyy kirjallisuudessa erilaisia, keskenään ristiriitaisiakin määritelmiä.
Huomautus 3.5.3 Kun Λ ∈ Mn (C), voidaan määritellä hx, yiΛ = hΛx, yi = y∗ Λx (x, y ∈ Cn ). Tämä antaa kuvauksen h−, −iΛ : Cn × Cn → C. Voidaan kysyä, millä matriiseilla Λ tästä tulee Cn :n sisätulo, toisin sanoen milloin tämä toteuttaa pykälän 1.11 alussa esitetyt kolme aksioomaa. Vastaus on: tarkalleen positiivisesti deniiteillä matriiseilla Λ. Kääntäen jokainen Cn :n sisätulo on muotoa h−, −iΛ jollain Λ:lla. Usein tavallinen sisätulo voidaan korvata tällaisella yleisemmällä sisätulolla. Niinpä esimerkiksi vektorijoukko {x1 , . . . , xk } voidaan ortogonalisoida Gramin-Schmidtin menetelmällä sisätulon h−, −iΛ suhteen; tuloksena on sellaiset vektorit yi , että hΛyi , yj i = 0, kun i 6= j , ja että L(y1 , . . . , yr ) = L(x1 , . . . , xr ), kun r = 1, . . . , k . Muistakin tuloksista saataisiin tällä tavalla toisenlaisia versioita. (Huomaa, että jos tuloksessa esiintyy A∗ , tämä pitää yleensä korvata matriisilla A# , joka määräytyy ehdosta hAx, yiΛ = hx, A# yiΛ ∀ x, y.)
Lause 3.5.4 Itseadjungoitu matriisi on (i) positiivisesti deniitti jos ja vain jos sen ominaisarvot ovat > 0; (ii) positiivisesti semideniitti jos ja vain jos sen ominaisarvot ovat ≥ 0.
Todistus. Olkoon A itseadjungoitu. Sen ominaisarvot λ1 , . . . , λn ovat reaalisia. Kuten lauseen 3.4.2 todistuksessa hAx, xi = hDy, yi = λ1 |y1 |2 + · · · + λn |yn |2 ,
(3.4)
missä A = U DU ∗ , D = diag(λ1 , . . . , λn ), U on unitaarimatriisi ja x = U y. Väitteet nähdään tästä. 2
Seuraus 3.5.5 Symmetrinen matriisi A ∈ Mn (R) on positiivisesti deniitti jos ja vain jos hAx, xi > 0
∀ x ∈ Rn , x 6= 0,
(3.5)
ja A on positiivisesti semideniitti jos ja vain jos hAx, xi ≥ 0
∀ x ∈ Rn .
(3.6)
Todistus. Väitteet tulevat yhtälöstä (3.4). Nyt tarvitaan lisäksi se tieto, että kun x käy joukon Rn \ {0}, niin y = U ∗ x käy joukon Rn \ {0}. Tähän päästään valitsemalla lauseen 3.2.7 mukaisesti U ∈ Mn (R). 2 Matriisi on säännöllinen tarkalleen silloin kun 0 ei ole sen ominaisarvo (esimerkki 2.1.1). Siis positiivisesti semideniitti matriisi on deniitti jos ja vain jos se on säännöllinen.
LUKU 3. KOMPLEKSISET MATRIISIT
Ã
Esimerkki 3.5.6 Millä u:n arvoilla A =
36
1 uu u 1 u uu 1
! on positiivisesti deniitti?
Lause 3.5.7 Matriisi A ∈ Mn (C) on positiivisesti semideniitti jos ja vain jos A = B 2 , missä B ∈ Mn (C) on positiivisesti semideniitti. Jos A on positiivisesti deniitti, niin samoin on B , ja kääntäen. Vastaavat väitteet ovat voimassa, missä A, B ∈ Mn (R). Todistus. Käsitellään vain kompleksinen tapaus. Olkoon ensin A positiivisesti semideniitti. Silloin A on itseadjungoitu, joten A = U DU ∗ , missä U on unitaarinen, D = diag(λ1 , . . . , λn ) √ √ ja ominaisarvot λ1 , . . . , λn ovat ≥ 0. Merkitään C = diag( λ1 , . . . , λn ) ja B = U CU ∗ . Silloin A = U DU ∗ = U C 2 U ∗ = (U CU ∗ )(U CU ∗ ) = B 2 . Koska C = C ∗ , B on itseadjun√ goitu, ja koska B :n ominaisarvot λi ovat ≥ 0, B on positiivisesti semideniitti. Jos A on positiivisesti deniitti, niin λi > 0 ∀ i, joten myös B on positiivisesti deniitti. Oletetaan nyt, että A = B 2 , missä B on positiivisesti semideniitti. Silloin B on itseadjungoitu, joten samoin on A. Kun B :n ominaisarvot ovat µ1 , . . . , µn ∈ R, niin A:n ominaisarvot ovat µ21 , . . . , µ2n (lause 1.10.5). Nämä ovat ≥ 0, joten A on positiivisesti semideniitti. Jos B on positiivisesti deniitti, niin µi > 0 ∀ i, joten A on positiivisesti deniitti. 2
Huomautus 3.5.8 Kun Λ on positiivisesti deniitti ja Λ = ∆2 , missä ∆ on positiivisesti deniitti, niin huomautuksen 3.5.3 sisätulo voidaan kirjoittaa hx, yiΛ = hΛx, yi = h∆x, ∆yi.
Määritelmä 3.5.9 Matriisin A ∈ Mn (K) alimatriisi saadaan pyyhkimällä A:sta pois jotkin pysty- ja vaakarivit. Neliömäisten alimatriisien determinantit ovat A:n alideterminantit . Matriisin A pääalideterminantit ovat ne alideterminantit, joissa pois pyyhityt pysty- ja vaakarivien järjestysnumerot vastaavat toisiaan; toisin sanoen pääalideterminantit ovat muotoa ¯ ¯ ¯ ai i . . . ai i ¯ 1 k ¯ ¯ 11 ¯ ¯ (1 ≤ i1 < · · · < ik ≤ n). ¯ ............. ¯ ¯ ¯ ¯ aik i1 . . . aik ik ¯ Jos tässä i1 = 1, . . . , ik = k , kyseessä on johtava pääalideterminantti .
Lemma 3.5.10 Itseadjungoidun matriisin pääalideterminantit ovat reaalisia. Todistus. Jos matriisista A = (aij ) muodostetaan alimatriisi ai1 i1 . . . ai1 ik A1 = . . . . . . . . . . . . . , aik i1 . . . aik ik missä 1 ≤ i1 < · · · < ik ≤ n, niin matriisista A∗ = (aji ) samoilla indekseillä muodostettu alimatriisi on ai1 i1 . . . aik i1 ∗ . . . . . . . . . . . . . = A1 . ai1 ik . . . aik ik Jos A on itseadjungoitu, siis aij = aji ∀ i, j , niin A1 = A∗1 , eli A1 on itseadjungoitu. Seuraa det(A1 ) ∈ R (esimerkki 1.11.2). 2
LUKU 3. KOMPLEKSISET MATRIISIT
37
Lause 3.5.11 Kun A ∈ Mn (C) on itseadjungoitu, niin seuraavat ehdot ovat ekvivalentit: (i) A on positiivisesti deniitti; (ii) A:n pääalideterminantit ovat > 0; (iii) A:n johtavat pääalideterminantit ovat > 0. ¶ µ B c , missä B ∈ Mn−1 (C) on itseadjungoitu ja Todistus. Kun n ≥ 2, merkitään A = c∗ ann c ∈ Cn−1 . Jos B on säännöllinen, niin esimerkin 1.5.6 mukaan à !à !à ! I 0 B 0 I B −1 c A= , c∗ B −1 1 0T (ann )−c∗ B −1 c 0T 1 ja tämä voidaan kirjoittaa A = P ∗ A1 P , missä à ! B 0 A1 = , 0T ann −hB −1 c, ci
à P =
I 0T
B −1 c 1
! .
Todistamme lauseen induktiolla n:n suhteen. Tapaus n = 1 on triviaali. Oletetaan, että n ≥ 2 ja että (i), (ii) ja (iii) ovat ekvivalentit (n − 1)-rivisille matriiseille. Implikaatio (ii) ⇒ (iii) on triviaali. Oletetaan nyt (iii) ja todistetaan (i). Siis A:n johtavat pääalideterminantit ovat > 0. Silloin det(B) > 0, joten B on säännöllinen ja eo. hajotelma A = P ∗ A1 P on voimassa. Myös B :n johtavat pääalideterminantit ovat > 0, joten induktio-oletuksen mukaan B on positiivisesti deniitti. Ottamalla yhtälöstä A = P ∗ A1 P determinantit saadaan
det(A) = det(A1 ) = det(B)(ann − hB −1 c, ci), ja koska det(A) > 0 ja det(B) > 0, niin ann − hB −1 c, ci > 0. Tarkastellaan mielivaltaista vektoria x = (x1 , . . . , xn )T ∈ Cn . Merkitään y = (x1 , . . . , xn−1 )T ∈ Cn−1 . Nyt à !à ! ¡ ∗ ¢ B 0 y ∗ hA1 x, xi = x A1 x = y | xn 0T ann −hB −1 c, ci xn
= y∗ By + |xn |2 (ann −hB −1 c, ci) ≥ 0. Oletetaan, että x 6= 0; silloin y 6= 0 tai xn 6= 0. Jos y 6= 0, niin y∗ By = hBy, yi > 0, ja jos xn 6= 0, niin |xn |2 (ann − hB −1 c, ci) > 0. Siis hA1 x, xi > 0 kun x 6= 0. Seuraa hAx, xi = hP ∗ A1 P x , xi = hA1 P x , P xi > 0 kun x 6= 0. Näin ollen A on positiivisesti deniitti. Oletetaan lopuksi (i) ja todistetaan (ii). Siis A on positiivisesti deniitti. Todetaan ensin, että myös B on positiivisesti deniitti: Kun y ∈ Cn−1 , y = (y1 , . . . , yn−1 )T 6= 0, niin
y1 Ã ! y1 . .. B c . , hBy, yi = y∗ By = (y 1 , . . . , y n−1 )B .. = (y 1 , . . . , y n−1 , 0) ∗ c ann yn−1 yn−1 0
LUKU 3. KOMPLEKSISET MATRIISIT
38
ja tämä on > 0, koska A on positiivisesti deniitti. Induktio-oletuksen mukaan B :n pääalideterminantit ovat > 0. Siis A:n ne pääalideterminantit ovat > 0, joissa A:sta on poistettu ainakin viimeinen pysty- ja vaakarivi. Vastaavalla tavalla osoitetaan, että myös ne A:n pääalideterminantit ovat > 0, joissa on poistettu ainakin yksi pysty- ja vaakarivi, ei ehkä viimeinen; merkinnät ovat vain hankalampia. Vielä pitää osoittaa, että det(A) > 0. Mutta lauseen 3.5.4 mukaan A:n ominaisarvot λi ovat positiivisia; siis det(A) = λ1 · · · λn > 0. 2
3.6 Neliömuoto ja Hermiten muoto Olkoon matriisi A = (aij ) ∈ Mn (C) itseadjungoitu, toisin sanoen aij = aji ∀ i, j . Lauseketta
q(x) = x∗Ax =
n X
aij xi xj
(x = (x1 , . . . , xn )T ∈ Cn )
(3.7)
i,j=1
sanotaan muuttujien x1 , . . . , xn neliömuodoksi ja A:ta tämän neliömuodon matriisiksi. Kun rajoitutaan reaalimuuttujiin ja oletetaan että A on reaalimatriisi (ja siis symmetrinen), saadaan reaalinen neliömuoto
q(x) = xTAx =
n X
aij xi xj
(x = (x1 , . . . , xn )T ∈ Rn ).
(3.8)
i,j=1
Kompleksista tapausta sanotaan myös Hermiten muodoksi . Koska A on itseadjungoitu, niin q(x) ∈ R ∀ x ∈ Cn . Siis neliömuoto on kuvaus Cn → R (tai Rn → R). Jos A on positiivisesti deniitti, niin huomautuksen 3.5.3 merkinnöin q(x) = p hAx, xi = hx, xiA , joten q( − ) on sisätulon h−, −iA määräämä normi. Siirrytään q :ssa muuttujista x1 , . . . , xn uusiin muuttujiin y1 , . . . , yn lineaarisella muunnoksella x = P y, missä y = (y1 , . . . , yn )T ja P on säännöllinen matriisi. Silloin
q(x) = (P y)∗ A(P y) = y∗ (P ∗ AP )y. Siis neliömuodon matriisi muuntuu säännöllä A 7→ P ∗ AP . Neliömuotoja q(x) = x∗ Ax ja u(x) = x∗ Bx sanotaan ekvivalenteiksi , jos on sellainen säännöllinen P , että B = P ∗AP . Tämä vastaa siis neliömuodossa suoritettavaa lineaarista muuttujien vaihtoa: q(x) = u(y), kun x = P y. Jos tässä P on unitaarinen, neliömuodot ovat unitaarisesti ekvivalentit, ja jos P on ortogonaalinen, ne ovat ortogonaalisesti ekvivalentit. Neliömuodon q(x) = x∗ Ax diagonalisoinnilla tarkoitetaan sellaisen muunnoksen x = P y löytämistä, että B = P ∗AP on diagonaalinen. Neliömuodon diagonalisointi on aina mahdollinen: Itseadjungoituna matriisi A on unitaarisesti diagonalisoituva (lause 3.2.6), joten neliömuoto q(x) = x∗ Ax on unitaarisesti ekvivalentti diagonaalisen neliömuodon
d(y) = y∗ Dy = λ1 |y1 |2 + · · · + λn |yn |2 kanssa, missä λ1 , . . . , λn ovat A:n ominaisarvot.
Esimerkki 3.6.1 Kartioleikkauksen pääakseliprobleemassa on kyse neliömuodon diagonalisoinnista.
LUKU 3. KOMPLEKSISET MATRIISIT
39
Esimerkki 3.6.2 Olkoon f (x, y) kaikkialla dierentioituva kahden muuttujan reaalifunktio ja fx (a, b) = fy (a, b) = 0. Analyysin kursseissa esitetään seuraava sääntö ¯ ¯ sen ratkaisemiseksi, ¯ fxx fxy ¯ onko piste (a, b) lokaalinen ääriarvokohta: Merkitään D = ¯¯ f f ¯¯. Jos D(a, b) > 0, niin yx yy (a, b) on lokaalinen ääriarvokohta. Jos D(a, b) < 0, niin (a, b) ei ole lokaalinen ääriarvokohta vaan satulapiste. Jos D(a, b) = 0, sääntö ei sano mitään. Sääntö voidaan perustella approksimoimalla pintaa y = f (x, y) pisteen (a, b) lähellä 2. asteen pinnalla z = ax2 + by 2 + cxy + · · · ja tutkimalla, milloin tämä on elliptinen paraboloidi ja milloin satulapinta. Toisinaan tarvitaan kahden eri neliömuodon diagonalisoimista samalla muunnoksella. Yleisesti se ei onnistu, mutta seuraava tulos on voimassa:
Lause 3.6.3 Olkoot A, G ∈ Mn (C) itseadjungoituja, ja oletetaan, että G on positiivisesti deniitti. Silloin on sellainen P ∈ Mn (C), että P ∗ AP on diagonaalinen ja P ∗ GP = I . Todistus. Lauseen 3.5.7 mukaan G = H 2 = H ∗ H , missä H on positiivisesti deniitti (ja erityisesti H ∗ = H ). Itseadjungoitu matriisi (H −1 )∗ AH −1 on unitaarisesti diagonalisoituva; olkoon M ∗ (H −1 )∗ AH −1 M = D = diag(d1 , . . . , dn ), missä M ∗ M = I . Valitaan P = H −1 M . Silloin P ∗ AP = D ja P ∗ GP = M ∗ (H −1 )∗ H ∗ HH −1 M = M ∗ M = I . 2
Huomautus 3.6.4 Jos U on unitaarinen, neliömuodon matriisin muunnos A 7→ U ∗ AU on samalla similaarimuunnos, joten matriisin ominaisarvot säilyvät. Jos P ei ole unitaarinen, matriiseilla A ja P ∗ AP ei välttämättä ole samat ominaisarvot; voidaan kuitenkin todistaa, että niillä on sama määrä p positiivisia ominaisarvoja ja sama määrä v negatiivisia ominaisarvoja (missä ominaisarvo lasketaan kertalukunsa ilmoittaman määrän kertoja), ja siis sama ominaisarvon 0 kertaluku n − p − v . Luku r = r(A) = p + v on neliömuodon aste , luku p sen indeksi ja luku s = p − v sen merkkiluku (signature).
Huomautus 3.6.5 Neliömuodon diagonalisointi voidaan tehdä ns. Lagrangen redusointimenetelmällä , jota emme käsittele tarkemmin. Se voitaisiin johtaa vaikka esimerkin 1.5.6 laskelmasta lähtien seuraavasti. Esimerkistä 1.5.6 saadaan neliömuodon matriisille A (huomaa, että A on itseadjungoitu ja a11 ∈ R) tapauksessa a11 6= 0 Ã ! Ã !Ã !Ã ! ∗ a11 c∗ 1 0T a11 0T 1 a−1 11 c = A= , (3.9) ∗ c D a−1 I 0 D−a−1 0 I 11 c 11 cc missä D on (n − 1)×(n − 1)-alimatriisi ja c ∈ Cn ; oikean puolen keskimmäisestä matriisista huomataan, että on otettu ensimmäinen askel kohti diagonaalista matriisia. Jos kuitenkin a11 = 0 mutta jokin aii 6= 0, vaihtamalla ensin muuttujien xi indeksointia (tämäkin on eräs muuttujien vaihto) saadaan aii siirretyksi a11 :n paikalle. Jos taas a11 = · · · = ann = 0 mutta jokin aij 6= 0, siirrytään muuttujiin u1 , . . . , un , missä uk = xk kun k 6= j ja uj = xj − xi ; tämän jälkeen neliömuodon matriisissa on kohdassa (i, i) alkio 2aij 6= 0, joka sitten saadaan kohtaan (1, 1) em. tavalla. Näin päästään tilanteeseen, jossa a11 6= 0 ja voidaan käyttää yhtälöä (3.9). Sen jälkeen oikeaan alakulmaan syntynyttä (n−1)×(n−1)-alimatriisia käsitellään samalla menetelmällä. Näin jatketaan, kunnes on saatu A = P ∗ diag(d1 , . . . , dn )P .
Luku 4
Minimaalipolynomi ja normaalimuodot 4.1 Polynomimatriisit Tarkastellaan neliömatriisia, jonka alkiot ovat K -kertoimisia polynomeja. Seuraavassa näiden polynomien määräämätöntä merkitään λ:lla; siis matriisi on
¡ ¢ A(λ) = aij (λ) n×n ,
aij (λ) ∈ K[λ].
Matriisia A(λ) sanotaan polynomimatriisiksi tai λ-matriisiksi . Kaikkien n-rivisten λ-matriisien joukosta käytetään merkintää Mn (K[λ]). Matriisien A(λ) ∈ Mn (K[λ]) yhteen- ja kertolasku sekä polynomilla c(λ) ∈ K[λ] kertominen määritellään samoin kuin tavallisilla matriiseilla ja skalaareilla. µ ¶ µ ¶ 1 λ 0 λ+1 Esimerkki 4.1.1 Kun A(λ) = λ + ja B(λ) = , niin 2 3 1 λ − 2λ 1 λ +λ Ã ! Ã ! 1 2λ + 1 1 · 0 + λ · 1 ··· A(λ) + B(λ) = , A(λ)B(λ) = , λ + 2 λ3 + λ2 − λ ··· ··· Ã ! λ2 + 1 · · · 2 (λ + 1)A(λ) = . ··· ··· Koska K[λ] on kommutatiivinen rengas, Mn (K[λ]):n laskutoimitukset noudattavat tuttuja sääntöjä, esimerkiksi distributiivilakia. Tarkemmin tutkimalla todetaan, että Mn (K[λ]) on rengas. (Sivuutamme yksityiskohdat. Ottamalla mukaan skalaareilla c ∈ K kertominenkin Mn (K[λ]):sta tulee määritelmän 1.5.1 mukainen K -algebra.) Determinantti det(A(λ)) ∈ K[λ] määritellään tavalliseen tapaan (ks. (1.10)), samoin liittomatriisi adj(A(λ)). Myös adj(A(λ)) on λ-matriisi, ja on voimassa
A(λ) · adj(A(λ)) = adj(A(λ)) · A(λ) = det(A(λ))I. 40
(4.1)
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
41
Esimerkki 4.1.2 Edellisen esimerkin matriiseille det(A(λ)) = 1 · (λ2 − 2λ) − λ · (λ + 1) = −3λ, Ã !T Ã ! λ2 − 2λ −(λ + 1) λ2 − 2λ −λ adj(A(λ)) = = . −λ 1 −(λ + 1) 1 Polynomimatriiseihin on toinenkin näkökulma; niitä voidaan käsitellä matriisipolynomeina, millä tässä tarkoitetaan polynomeja, joissa kertoimien tilalla on matriiseja: µ ¶ λ 1 Esimerkki 4.1.3 Kun A(λ) = λ2 + 1 λ5 − 2λ , niin µ ¶ µ ¶ µ ¶ µ ¶ 10 01 00 00 A(λ) = λ +1 + (λ2 + 1) + (λ5 − 2λ) 00 00 10 01 µ ¶ µ ¶ µ ¶ µ ¶ 00 0 0 1 0 01 = λ5 + λ2 +λ + , 01 1 0 0 −2 10 missä on kyse yhtäsuuruuksista Mn (K[λ]):ssa. Seuraavan määritelmän käsitteet liittyvät polynomimatriisien näkökulmaan; ne ovat tärkeitä, kun λ-matriiseilla suoritetaan matriisioperaatioita:
Määritelmä 4.1.4 Matriisin A(λ) ∈ Mn (K[λ]) aste (rank), merkitään r(A(λ)), on A(λ):n suurimman nollasta eroava alideterminantin riviluku. Matriisia A(λ) sanotaan säännölliseksi (Mn (K[λ]):ssa), jos det(A(λ)) on nollasta eroava vakiopolynomi, toisin sanoen jos det(A(λ)) = c ∈ K \ {0}. Seuraavat käsitteet taas liittyvät matriisipolynomien näkökulmaan; niitä tarvitaan, kun λmatriiseja käsitellään polynomeina ja suoritetaan esimerkiksi jakolaskua kuten polynomeilla:
Määritelmä 4.1.5 Matriisin A(λ) = (aij (λ)) ∈ Mn (K[λ]) asteluku (degree) on deg A(λ) = maxi,j deg aij (λ); nollamatriisin asteluku on −∞. Jos A(λ) 6= O ja deg A(λ) = k , niin A(λ) = A0 λk + A1 λk−1 + · · · + Ak−1 λ + Ak , missä Ai ∈ Mn (K) ja A0 6= O. Sanotaan, että A(λ) on λ-säännöllinen , jos A0 on säännöllinen matriisi, siis jos det(A0 ) 6= 0.
Esimerkki 4.1.6 Esimerkin 4.1.3 matriisilla on aste r(A(λ)) = 2, sillä det(A(λ)) = λ6 − 3λ2 − 1 6= 0, ja asteluku on deg A(λ) = 5. Koska det(A(λ)) ei ole vakio (6= ³ 0), niin ´ A(λ) 0 0 ei ole säännöllinen Mn (K[λ]):ssa. Se ei ole myöskään λ-säännöllinen, koska 0 1 ei ole säännöllinen.
Esimerkki 4.1.7 Näytetään, että jos λ-matriisi A(λ) on sekä säännöllinen että λ-säännöllinen, niin se on vakiomatriisi! Jos A(λ) on säännöllinen, niin yhtälön (4.1) nojalla sillä on käänteismatriisi: A(λ)−1 = 1 c adj(A), kun det(A(λ)) = c ∈ K \ {0}.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
42
Huomautus 4.1.8 Voidaan yleisemmin määritellä Mn (R) jokaiselle kommutatiiviselle renkaalle R; sen alkioina ovat n×n-matriisit A = (aij ), aij ∈ R. Tavalliset matriisioperaatiot tekevät Mn (R):stä renkaan, ja lisäksi saadaan determinanttifunktio det : Mn (R) → R. Matriisin A liittomatriisi adj(A) määritellään tuttuun tapaan, ja yhtälö A · adj(A) = adj(A) · A = det(A)I on nytkin voimassa. Matriisilla A on käänteismatriisi A−1 , ts. käänteisalkio renkaassa Mn (R), jos ja vain jos sen determinantilla on käänteisalkio renkaassa R; kun näin on, niin A−1 = (det(A))−1 adj(A). Määritelmän 4.1.4 ehto det(A(λ)) = c ∈ K \ {0} tarkoittaakin, että det(A):lla on käänteisalkio renkaassa R = K[λ]: ainoat K[λ]:n polynomit, joilla on käänteisalkio K[λ]:ssa, ovat nollasta eroavat vakiopolynomit. µ ¶ Esimerkki 4.1.9 A(λ) = λ2 λ+ 1 λ1 on säännöllinen, koska det(A(λ)) = −1. Käänteisµ ¶ −λ 1 matriisi on A(λ)−1 = . λ2 + 1 −λ
Lause 4.1.10 Kun deg A(λ) = a ja deg B(λ) = b, niin deg(A(λ) + B(λ)) ≤ max(a, b) ja deg(A(λ)B(λ)) ≤ a + b. Jos A(λ) tai B(λ) on λ-säännöllinen, niin deg(A(λ)B(λ)) = a + b.
Todistus. Merkitään A(λ) = A0 λa + A1 λa−1 + · · · + Aa−1 λ + Aa , B(λ) = B0 λb + B1 λb−1 + · · · + Bb−1 λ + Bb , missä A0 6= O ja B0 6= O. Kun nämä lasketaan yhteen, niin korkein λ:n potenssi summassa on ≤ a + b, mistä seuraa ensimmäinen väite. Edelleen,
A(λ)B(λ) = A0 B0 λa+b + (A0 B1 + A1 B0 )λa+b−1 + · · · + Aa Bb , ja tämän asteluku on ≤ a + b. Jos esimerkiksi A(λ) on λ-säännöllinen, siis A0 on säännöllinen matriisi, niin A0 B0 6= O. Tämä antaa viimeisen väitteen. 2
Huomautus 4.1.11 Olkoon A(λ) ∈ Mn (K[λ]). Koska λ-matriisin determinantit voidaan laskea rivikehitelmillä (ks. (1.12)), niin jos A(λ):n kaikki s-riviset alideterminantit ovat = 0, niin myös kaikki (s + 1)-riviset alideterminantit ovat = 0. Tästä seuraa, että (i) 1 ≤ s ≤ r(A(λ)) ⇒ on ainakin yksi s-rivinen alideterminantti 6= 0, (ii) s > r(A(λ)) ⇒ kaikki s-riviset alideterminantit ovat = 0.
4.2 Matriisit rationaalifunktioiden kunnan yli Polynomimatriiseja A(λ) ∈ Mn (K[λ]) tarkasteltaessa on usein selventävää ajatella niitä myös laajemmassa avaruudessa A(λ) ∈ Mn (K(λ)), missä K(λ) on ns. rationaalifunktioiden kunta. Koska nimittäin K(λ) on kunta, avaruuteen Mn (K(λ)) voidaan soveltaa tuttua vektoriavaruusteoriaa, skalaarikuntana K(λ).
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
43
Tässä pykälässä tehdään joitakin tätä koskevia toteamuksia. Varsinaisesti tätä näkökulmaa ei myöhemmin tarvita. Polynomialgebra
K[λ] = { p(λ) = c0 λk + c1 λk−1 + · · · + ck−1 λ + ck | k ≥ 0, ci ∈ K ∀ i } voidaan katsoa rationaalifunktioiden kunnan ¯ ¾ ½ p(λ) ¯¯ p(λ), q(λ) ∈ K[λ], q(λ) = 6 0 K(λ) = q(λ) ¯ alirenkaaksi. Itse asiassa K(λ) on K[λ]:n ns. osamääräkunta (Algebran peruskurssi II). On erotettava matriisin A(λ) ∈ Mn (K[λ]) säännöllisyys Mn (K(λ)):ssa ja säännöllisyys Mn (K[λ]):ssa (määritelmä 4.1.4). Edellinen tarkoittaa, että A(λ):lla on käänteismatriisi Mn (K(λ)):ssa, ja jälkimmäinen vaatii lisäksi, että käänteismatriisi kuuluu Mn (K[λ]):aan. ³ ´ Esimerkki 4.2.1 Kun A(λ) = λ1 12 , niin det(A(λ)) = λ − 2. Koska λ − 2 ei ole vakio, niin A(λ) ei ole säännöllinen M2 (R[λ]):ssa määritelmän 4.1.4 mielessä. Kuitenkin siitä, että λ − 2 6= 0, seuraa, että M2 (R(λ)) on säännöllinen. Renkaassa M2 (R(λ)) sillä on ³ :ssa A(λ) ´ 1 −2 1 −1 käänteismatriisi A(λ) = λ−2 −1 λ , joka ei kuulu M2 (R[λ]):aan. Sen osoittamiseksi, että asioiden tarkastelemisesta yli K(λ):n on joskus todellista hyötyä, todistetaan seuraava tulos, joka ei varsinaisesti koske λ-matriiseja.
Lause 4.2.2 Kun A, B ∈ Mn (K), niin cAB (x) = cBA (x). Todistus. Todistetaan ensin väite, kun B on säännöllinen: cAB (x) = det(AB − xI) = det(B −1 (BA − xI)B) = det(B −1 ) det(BA − xI) det(B) = det(B)−1 cBA (x) det(B) = cBA (x). Olkoot nyt A, B ∈ Mn (K) mielivaltaisia, mahdollisesti singulaarisia. Matriisi B − λI ∈ Mn (K(λ)) on kuitenkin aina säännöllinen Mn (K(λ)):ssa! Sen determinanttihan ei ole nollapolynomi (eli K(λ):n nolla-alkio):
det(B − λI) = cB (λ) = (−1)n λn + − · · · + cn 6= 0. Siis voidaan soveltaa juuri todistettua seikkaa Mn (K(λ)):n matriiseihin A ja B −λI ; saadaan cA(B−λI) (x) = c(B−λI)A (x), eli
det(A(B − λI) − xI) = det((B − λI)A − xI). Kumpikin puoli on muuttujien λ ja x polynomi, joten voidaan sijoittaa λ = 0. Seuraa det(AB − xI) = det(BA − xI), toisin sanoen cAB (x) = cBA (x). 2 Huomaa, että todistuksessa B − λI ∈ Mn (K(λ)) on säännöllinen Mn (K(λ)):ssa; se ei kuitenkaan ole säännöllinen Mn (K[λ]):ssa. Huomaa myös, että kun todistuksen alkuosan päätelmä tehdään matriiseilla A ja B − λI , niin laskun aikana λ esiintyy nimittäjissä, nimittäin matriisin (B − λI)−1 alkioissa. Nimittäjät kuitenkin häviävät, niin että lopputuloksena saadun yhtälön kumpikin puoli on enää polynomi. Juuri tämä mahdollistaa alkuosan tuloksen laajentamisen singulaarisiinkin matriiseihin: sijoitus λ = 0 on luvallinen.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
44
4.3 Jakoalgoritmit. CayleynHamiltonin lause Lause 4.3.1 (Jakoalgoritmit) Olkoot A(λ) ja B(λ) λ-matriiseja, ja oletetaan, että B(λ) on λ-säännöllinen. Silloin on yksikäsitteiset sellaiset λ-matriisit Q(λ) ja R(λ), että A(λ) = Q(λ)B(λ) + R(λ),
deg R(λ) < deg B(λ),
(4.2)
ˆ ˆ , että ja yksikäsitteiset sellaiset λ-matriisit Q(λ) ja R(λ) ˆ ˆ A(λ) = B(λ)Q(λ) + R(λ),
ˆ deg R(λ) < deg B(λ).
(4.3)
Todistus. Todistus tapahtuu kuten tavallisilla polynomeilla. Merkitään A(λ) = A0 λk + A1 λk−1 + · · · + Ak−1 λ + Ak , B(λ) = B0 λl + B1 λl−1 + · · · + Bl−1 λ + Bl , missä A0 6= O ja B0 on säännöllinen. Kehitetään A(λ):aa seuraavasti: Jos k ≥ l, niin
A(λ) = A0 λk + A1 λk−1 + · · · + Ak−1 λ + Ak = (A0 B0−1 λk−l )(B0 λl ) + A1 λk−1 + · · · + Ak−1 λ + Ak = (A0 B0−1 λk−l )(B0 λl + B1 λl−1 + · · · + Bl ) + C1 λk−1 + · · · + Ck−1 λ + Ck = (A0 B0−1 λk−l )B(λ) + C(λ), missä C(λ) ∈ Mn (K[λ]) ja deg C(λ) ≤ k − 1. Jos deg C(λ) = s ≥ l, niin C(λ) saadaan samoin muotoon (Dλs−l )B(λ) + E(λ), missä deg E(λ) ≤ s − 1. Näin jatkamalla päästään ensimmäiseen väitetyistä yhtälöistä. Toinen johdetaan vastaavasti. Todistetaan yksikäsitteisyys. Tarkastellaan vain yhtälöä (4.2). Jos on myös
A(λ) = Q1 (λ)B(λ) + R1 (λ),
deg R1 (λ) < deg B(λ),
niin
(Q(λ) − Q1 (λ))B(λ) = R1 (λ) − R(λ). Jos olisi Q(λ) 6= Q1 (λ), niin yhtälön vasemman puolen asteluku olisi ≥ deg B(λ) (koska B(λ) on λ-säännöllinen), ja oikean puolen asteluku on < deg B(λ). Tämä on mahdotonta, joten Q(λ) = Q1 (λ). Silloin myös R(λ) = R1 (λ). 2 Todistus antaa myös menetelmän jakoalgoritmien suorittamiseksi. ˆ Jakoalgoritmien matriiseja R(λ) ja R(λ) sanotaan vastaavasti oikean- ja vasemmanpuolisiksi (jako)jäännöksiksi . Jos R(λ) = O, niin A(λ) on oikealta jaollinen B(λ):lla, ja jos taas ˆ R(λ) = O, niin A(λ) on vasemmalta jaollinen B(λ):lla.
Lause 4.3.2 Olkoon A(λ) n-rivinen λ-matriisi ja B n-rivinen vakiomatriisi. Jaettaessa A(λ) jakoalgoritmin mukaisesti oikealta ja vasemmalta λ-matriisilla Iλ − B , siis A(λ) = Q(λ)(Iλ − B) + R(λ),
ˆ ˆ A(λ) = (Iλ − B)Q(λ) + R(λ),
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
45
ˆ jakojäännökset ovat vakiomatriiseja, sillä deg R(λ) < 1 ja deg R(λ) < 1; merkitään R(λ) = R ˆ ˆ ja R(λ) = R. On voimassa R = A0 B k + A1 B k−1 + · · · + Ak−1 B + Ak , ˆ = B k A0 + B k−1 A1 + · · · + BAk−1 + Ak , R
kun A(λ) = A0 λk + A1 λk−1 + · · · + Ak−1 λ + Ak . Todistus. Tarkastellaan vain ensimmäistä väitettä. Lausekkeessa A(λ) = A0 λk + · · · + Ak voidaan jokaisen λ:n tilalle kirjoittaa Iλ = (Iλ − B) + B , jolloin saadaan A(λ) = A0 [(Iλ − B) + B]k + A1 [(Iλ − B) + B]k−1 + · · · + Ak−1 [(Iλ − B) + B] + Ak . Kehitetään jokainen [(Iλ − B) + B]i binomikaavalla. Nimittäin, jos X ja Y ovat kommutoivia Pi ¡ ¢ matriiseja, niin (X + Y )i = j=0 ji X j Y i−j (missä sovitaan että X 0 = Y 0 = I ); todistus käy kuten esimerkiksi reaaliluvuilla. Siis i µ ¶ X i [(Iλ − B) + B] = B j (Iλ − B)i−j = B i + Ci (λ) · (Iλ − B), j j=0 i
missä Ci (λ) ∈ Mn (K[λ]). Näin ollen
A(λ) = A0 [B k + Ck (λ)(Iλ − B)] + A1 [B k−1 + Ck−1 (λ)(Iλ − B)] + · · · + Ak−1 [B + C1 (λ)(Iλ − B)] + Ak = Q(λ)(Iλ − B) + R, missä Q(λ) = A0 Ck (λ) + · · · + Ak−1 C1 (λ) ja R on kuten lauseessa. Tämä on jakoalgoritmin mukainen hajotelma, koska deg R < 1 (ja Iλ − B on λ-säännöllinen). 2 Tulemme tarvitsemaan seuraavaa erikoistapausta.
Seuraus 4.3.3 Olkoon p(λ) ∈ K[λ] ja B ∈ Mn (K). Matriisi p(λ)I on jaollinen matriisilla Iλ − B (oikealta tai vasemmalta) jos ja vain p(B) = O.
Todistus. Merkitään A(λ) = p(λ)I . Kun p(λ) = p0 λk +p1 λk−1 +· · ·+pk , niin A(λ) = p0 Iλk + p1 Iλk−1 + · · · + pk I , joten lauseen 4.3.2 matriisit A0 , . . . , Ak ovat p0 I, . . . , pk I . Jaettaessa (Iλ − B):llä esimerkiksi oikealta jakojäännös on lauseen mukaan R = A0 B k + · · · + Ak = p0 B k + · · · + pk I = p(B). Väite seuraa tästä.
2
Huomautus 4.3.4 Tavallisilla polynomeilla vastaava lause voidaan todistaa näin: Jakoalgoritmi sanoo, että jos a(t), c(t) ∈ K[t] ja c(t) 6= 0, niin a(t) = q(t)c(t) + r(t), deg r < deg c. Tapauksessa c(t) = t − b (b ∈ K vakio) tästä tulee a(t) = q(t)(t − b) + r, missä r ∈ K on vakio. Nyt sijoittamalla t:n paikalle b saadaan r = a(b).
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
46
Tämä keino onnistuu siksi, että sijoittaminen t 7→ b on rengashomomorsmi K[t] → K . Jos K[t]:ssä on voimassa jokin yhtälö, esimerkiksi a(t) = q(t)c(t)+r(t), niin homomorsuuden johdosta a(b) = q(b)c(b) + r(b). ˆ olisi saatu sijoittamalla A(λ):aan λ:n tilalle B . Lauseen 4.3.2 tulos näyttää kuin R ja R Lauseen todistus ei kuitenkaan onnistu tällä keinolla! Nimittäin nyt sijoittaminen ei antaisi rengashomomorsmia Mn (K[λ]) → Mn (K), koska matriisialgebra ei ole kommutatiivinen (kun n > 1). Siksi todistus tehtiin hankalammalla tavalla.
Lause 4.3.5 (CayleyHamilton) Neliömatriisi B on karakteristisen polynominsa nollakohta, toisin sanoen cB (B) = O. Todistus. Koska (adj(Iλ − B)) · (Iλ − B) = det(Iλ − B) · I = cB (λ)I , niin cB (λ)I on oikealta jaollinen (Iλ − B):llä. Seurauksen 4.3.3 mukaan cB (B) = O. 2 ³ ´ Esimerkki 4.3.6 Lasketaan A5 ja A−1 CayleynHamiltonin lauseella, kun A = −23 10 .
4.4 Minimaalipolynomi Määritelmä 4.4.1 Olkoon A ∈ Mn (K). Polynomia f (λ) ∈ K[λ] sanotaan matriisin A annihiloivaksi polynomiksi , jos f ei ole nollapolynomi ja jos f (A) = O. Alimmanasteinen matriisin A annihiloiva pääpolynomi on A:n minimaalipolynomi ; sitä merkitään ψA (λ):lla. Pääpolynomi tarkoittaa polynomia, jonka korkeimman asteen termin kerroin on 1. CayleynHamiltonin lauseen nojalla on ainakin yksi A:n annihiloiva polynomi, nimittäin cA (λ). Näin ollen ψA (λ) on aina olemassa, ja 1 ≤ deg ψA (λ) ≤ deg cA (λ) = n.
Lause 4.4.2 Jokainen A:n annihiloiva polynomi f (λ) ∈ K[λ] on jaollinen A:n minimaalipolynomilla, toisin sanoen f (λ) = q(λ)ψA (λ), missä q(λ) ∈ K[λ]. Todistus. Olkoon f (A) = O. Polynomien jakoalgoritmi antaa f (λ) = q(λ)ψA (λ)+r(λ), missä deg r < deg ψA . Silloin r(λ) = f (λ) − q(λ)ψA (λ), ja tästä saadaan r(A) = f (A) − q(A)ψA (A) = O − O = O. Jos r(λ) ei olisi nollapolynomi, se olisi A:n annihiloiva polynomi ja alempaa astetta kuin ψA (λ). Tämä on mahdotonta, joten r(λ) = 0 ja siis ψA (λ) | f (λ). 2 1 1 0 1 1 0 ³ ´ Esimerkki 4.4.3 Lasketaan matriisien 10 11 , 0 1 1 1 ja 0 1 2 1 minimaalipo0 0 2 0 0 1 lynomit.
Esimerkki 4.4.4 a) Kun A on nilpotentti matriisi, niin ψA (λ) = λm , missä m on pienin luku ≥ 1, jolla Am = O. b) Kun A on idempotentti matriisi 6= O, I , niin ψA (λ) = λ2 − λ. c) Kun A = aI (skalaarimatriisi ), niin ψA (λ) = λ − a.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
47
Lause 4.4.5 Matriisin minimaalipolynomi on yksikäsitteinen. Todistus. Jos A:lla olisi kaksi minimaalipolynomia ψ1 (λ) ja ψ2 (λ), niin edellisen mukaan ψ1 (λ) | ψ2 (λ) ja ψ2 (λ) | ψ1 (λ). Koska kumpikin on pääpolynomi, niin ψ1 (λ) = ψ2 (λ). 2
Lause 4.4.6 Similaareilla matriiseilla on sama minimaalipolynomi. Todistus. Olkoon A = P BP −1 . Kun k ≥ 1, niin Ak = (P BP −1 )k = P B k P −1 , joten f (A) = P f (B)P −1 aina kun f (λ) ∈ K[λ]. Siis f (A) = O tarkalleen silloin kun f (B) = O. Väite seuraa tästä. 2 Muistetaan, että matriisin A generoima alialgebra Mn (K[λ]):ssa on
hAialialg = hAi = { p(A) | p(x) ∈ K[x] }.
(4.4)
Lause 4.4.7 Kun A ∈ Mn (K), A 6= O, niin A:n generoimalla Mn (K):n alialgebralla hAialialg on kanta {I, A, A2 , . . . , Am−1 }, missä m = deg ψA . Siis dimK (hAialialg ) = deg ψA . Todistus. Kun p(λ) ∈ K[λ], niin polynomien jakoalgoritmin mukaan p(λ) = q(λ)ψA (λ)+r(λ), missä deg r < deg ψA = m, ja p(A) = q(A)ψA (A) + r(A) = O + r(A) = r(A). Siis I, A, . . . , Am−1 virittävät ko. alialgebran. Ne ovat lineaarisesti riippumattomia, sillä lineaarinen riippuvuusyhtälö niiden välillä antaisi A:n annihiloivan polynomin, jonka aste olisi < m. Siis ne muodostavat kannan. 2
Lause 4.4.8 Olkoon L jokin K :n laajennuskunta. Matriisin A ∈ Mn (K) minimaalipolynomi on sama, katsotaanpa A:ta Mn (K):ssa tai Mn (L):ssä. Esimerkiksi matriisilla A ∈ Mn (R) on minimaalipolynomi ψA (λ) ∈ R[λ]. Toisaalta voidaan katsoa, että A ∈ Mn (C), ja muodostaa minimaalipolynomi tämän mukaan; merkitään sitä tässä vaikka φA (λ):lla. Lause sanoo, että ψA = φA . Erityisesti siis φA (λ) ∈ R[λ].
Todistus. Merkitään ψ(λ):lla A:n minimaalipolynomia K[λ]:ssa ja φ(λ):lla A:n minimaalipolynomia L[λ]:ssa. (Siis φ(λ) on alimmanasteinen sellainen pääpolynomi L[λ]:ssa, että φ(A) = O.) Koska ψ(A) = O ja ψ(λ) ∈ K[λ] ⊆ L[λ], niin φ(λ) jakaa ψ(λ):n L[λ]:ssa. Osoitetaan, että φ ∈ K[λ]; silloin seuraa, että ψ(λ) | φ(λ), ja koska kumpikin on pääpolynomi, niin ne ovat samat. Olkoon φ(λ) = λm + c1 λm−1 + · · · + cm , missä ci ∈ L. Matriisiyhtälö φ(A) = O, eli c1 Am−1 + · · · + cm−1 A + cm I = −Am , (k)
käsittää n2 yhtälöä L:ssä; jos merkitään Ak = (aij ), niin (m−1)
c1 aij
(1)
(m)
+ · · · + cm−1 aij + cm δij = −aij
(i, j = 1, . . . , n). (k)
Katsotaan tätä lineaarisena yhtälöryhmänä, jossa c1 , . . . , cm ovat tuntemattomia ja aij :t kertoimia. Lauseen 4.4.5 mukaan sillä on yksikäsitteinen ratkaisu, nimittäin φ(λ):n kertoimet. Siis ryhmässä on jotkin m yhtälöä, jotka ovat keskenään riippumattomat ja joista ci :t voidaan ratkaista esimerkiksi Cramerin säännöllä, ja muut n2 − m yhtälöä seuraavat näistä. Mutta (k) kertoimet aij kuuluvat K :hon, joten Cramerin sääntö antaa ci ∈ K . Siis φ ∈ K[λ]. 2
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
48
Lause 4.4.9 Oletetaan, että matriisin A ∈ Mn (K) karakteristinen polynomi cA (λ) hajoaa täydellisesti yli K :n, ja olkoot λ1 , . . . , λs ∈ K A:n erisuuret ominaisarvot; siis cA (λ) = (−1)n (λ − λ1 )α1 · · · (λ − λs )αs
(αi ≥ 1 ∀ i).
(4.5)
(1 ≤ βi ≤ αi ∀ i).
(4.6)
Silloin A:n minimaalipolynomi on muotoa ψA (λ) = (λ − λ1 )β1 · · · (λ − λs )βs
Todistus. Koska ψA (λ) | cA (λ), niin ψA (λ) on muotoa (4.6), missä 0 ≤ βi ≤ αi ∀ i. Oletetaan, että olisi β1 = 0. Kun x1 on ominaisarvoon λ1 kuuluva A:n ominaisvektori, niin ψA (A)x1 = (A − λ2 I)β2 · · · (A − λs I)βs x1 = (λ1 − λ2 )β2 · · · (λ1 − λs )βs x1 6= 0. Toisaalta ψA (A) = O, ristiriita. Siis β1 6= 0. Samoin saadaan, että βi 6= 0 ∀ i.
2
Seuraus 4.4.10 Jos matriisilla A ∈ Mn (K) on n erisuurta ominaisarvoa (K :ssa tai jossain laajemmassa kunnassa), niin cA (λ) = (−1)n ψA (λ). Todistus. Nyt αj = 1, siis βj = 1 ∀ j . Huomaa, etteivät cA (λ) ja ψA (λ) muutu, vaikka A:ta tarkasteltaisiin matriisina jonkin laajennuskunnan yli, jossa cA (λ) hajoaa täydellisesti. 2 Ã ! 21 0 Esimerkki 4.4.11 Lasketaan cA (λ) ja ψA (λ), kun A = −1 0 0 . 12 2
Esimerkki 4.4.12 Olkoon A ∈ Mn (K) idempotentti matriisi, siis A2 = A. a) Jos A = O, niin ψA (λ) = λ. b) Jos A = I , niin ψA (λ) = λ − 1. c) Olkoon A 6= O, I . Seurauksen 2.3.7 mukaan cA (λ) = (−1)n λn−r (λ−1)r , missä r = r(A). Koska A 6= O, I , niin n − r ≥ 1 ja r ≥ 1. Lauseen 4.4.9 mukaan ψA (λ) = λi (λ − 1)j , missä 1 ≤ i ≤ n − r ja 1 ≤ j ≤ r. Mutta A(A − I) = O, joten i = j = 1 ja ψA (λ) = λ(λ − 1).
Esimerkki 4.4.13 Olkoon A ∈ Mn (K) ja A3 = A, ja oletetaan, että I, A, A2 ovat lineaarisesti riippumattomia. Osoitetaan, että A:n ominaisarvot ovat 0, 1, −1, kuten esimerkissä 2.4.5 mainittiin. (Huomaa, että 1 = −1, jos char K = 2.)
Esimerkki 4.4.14 Selvitetään esimerkin 1.9.4 (kohtisuoran tai vinon) peilauksen τ matriisin karakteristinen polynomi ja minimaalipolynomi.
Huomautus 4.4.15 Lauseen 4.4.9 tulos pätee tietenkin, vaikkei cA (λ) hajoaisi täydellisesti yli K :n; silloin vain λi :t eivät kaikki kuuluisi K :hon vaan johonkin sopivaan laajennuskuntaan L, ja polynomien tekijöihinjaot muodostettaisiin L[λ]:ssa.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
49
4.5 Alkeismuunnokset ja riviekvivalenssi Polynomimatriisien alkeismuunnokset ja niitä vastaavat alkeismatriisit määritellään analogisesti tavallisten matriisien kanssa. Lineaarialgebran kurssissa tarkasteltiin vain vaakarivimuunnoksia; nyt otamme mukaan myös pystyrivimuunnokset.
Esimerkki 4.5.1 Kerrataan hiukan tavallisten matriisien rivimuunnoksia. Tarkastellaan esimerkin 1.5.6 matriiseja. Olkoon a, b, c, d ∈ K , a 6= 0. Rivimuunnoksilla saadaan ¶ µ ¶ µ ¶ µ a 0 a b a b ∼ , ∼ c d 0 d− cb 0 d− cb a a missä ensimmäisessä vaiheessa ensimmäinen vaakarivi lisättiin toiseen vaakariviin luvulla − ac kerrottuna, ja toisessa vaiheessa ensimmäinen pystyrivi lisättiin toiseen pystyriviin luvulla − ab kerrottuna. Nämä ovat eräitä sallittuja rivimuunnoksia (tarkemmin jäljempänä), ja ko. matriiseja sanotaan riviekvivalenteiksi. Jokainen vaaka rivimuunnos saadaan aikaan myös kertomalla vasemmalta ns. alkeismatriisilla, joka muodostetaan suorittamalla sama muunnos identiteettimatriisiin; samoin jokainen pysty rivimuunnos saadaan aikaan kertomalla oikealta vastaavalla tavalla Esimerkiksi eo. muunnoksia vastaavat µ muodostetulla ¶ µ alkeismatriisilla. ¶ 1 0 1 − ab alkeismatriisit ovat ja . Todellakin, − ac 1 0 1 ¶ ¶µ ¶ µ µ ¶µ a b a 0 1 0 1 − ab . = 0 1 c d 0 d− bc − ac 1 a Kertomalla käänteismatriiseilla saadaan uudestaan kaava (1.6).
Määritelmä 4.5.2 λ-matriisien alkeismuunnoksiksi sanotaan seuraavanlaisia muunnoksia. 1. Vaaka- tai pystyrivin kertominen skalaarilla c ∈ K , c 6= 0. 2. Vaaka- tai pystyrivin lisääminen polynomilla b(λ) ∈ K[λ] kerrottuna johonkin muuhun samansuuntaiseen riviin. 3. Kahden vaakarivin vaihto tai kahden pystyrivin vaihto. ¡ ¢ Matriisi E(λ) = fij (λ) n×n ∈ Mn (K[λ]) on alkeismatriisi , jos se saadaan identiteettimatriisista I jollakin em. alkeismuunnoksista.
Esimerkki 4.5.3 Alkeismatriiseja: Ã
1 00 0 c 0 0 01
!
à (c 6= 0),
1 0 λ2 01 0 00 1
!
à ,
1 00 0 01 0 10
! .
Alkeismuunnoksia on siis kuutta eri tyyppiä, kolme tyyppiä vaakarivi- ja kolme tyyppiä pystyrivimuunnoksia. Olkoot ²v ja ²p jotkin alkeismuunnokset, joista ²v kohdistuu vaakariveihin ja ²p pystyriveihin. Suoralla tarkastelulla (vrt. lineaarialgebran kurssi) todetaan, että kun A(λ), B(λ) ∈ Mn (K[λ]), niin
²v (A(λ)B(λ)) = ²v (A(λ))B(λ),
²p (A(λ)B(λ)) = A(λ)²p (B(λ)).
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
50
Erityisesti ²v (A(λ)) = ²v (I)A(λ) ja ²p (A(λ)) = A(λ)²p (I). Siis vaaka rivimuunnos ²v saadaan aikaan kertomalla vasemmalta vastaavalla alkeismatriisilla ²v (I), ja pysty rivimuunnos ²p saadaan aikaan kertomalla oikealta vastaavalla alkeismatriisilla ²p (I). Vaaka- ja pystyrivimuunnoksista saadaan sama joukko alkeismatriiseja. Alkeismatriisin determinantti det(E(λ)) on aina skalaari 6= 0 (tyypeissä 1, 2 ja 3 se on c, 1 ja −1 vastaavasti), joten E(λ) on säännöllinen λ-matriisi, toisin sanoen sillä on käänteismatriisi E(λ)−1 ∈ Mn (K[λ]). Tämäkin on alkeismatriisi; se suorittaa E(λ):aa vastaavan alkeismuunnoksen käänteismuunnoksen.
Määritelmä 4.5.4 Sanotaan, että matriisi B(λ) on riviekvivalentti matriisin A(λ) kanssa, jos B(λ) saadaan A(λ):sta jonolla alkeismuunnoksia, toisin sanoen jos on sellaiset alkeismatriisit E1 (λ), . . . , Er (λ) ja F1 (λ), . . . , Fs (λ), että
B(λ) = Fs (λ) · · · F1 (λ)A(λ)E1 (λ) · · · Er (λ). (Huomaa, että myös I on alkeismatriisi.) Merkitsemme tätä ekvivalenssirelaatiota ∼ . µ ¶ µ ¶ µ ¶ µ ¶ µ ¶ λ λ+1 λ λ+1 λ1 01 10 Esimerkki 4.5.5 ∼ ∼ ∼ ∼ . λ2 − λ λ 2 − 1 0 0 0 0 00 00
Lause 4.5.6 Jokainen n-rivinen λ-matriisi A(λ) on riviekvivalentti muotoa ¡ ¢ diag a1 (λ), . . . , as (λ), 0, . . . , 0
(4.7)
olevan matriisin kanssa, missä a1 (λ), . . . , as (λ) ovat pääpolynomeja ja aj (λ) | aj+1 (λ) kun j = 1, . . . , s − 1. ¡ ¢ Todistus. Jos A(λ) = O, väite on triviaali. Olkoon A(λ) = aij (λ) 6= O. Voidaan olettaa, että a11 (λ) 6= 0; tarvittaessa vaihdetaan rivejä. (∗) Jaetaan ensimmäisen vaaka- ja pystyrivin alkiot a11 (λ):lla (polynomien jakoalgoritmilla) ja muunnetaan sitten A(λ) (tyypin 2 muunnoksilla) riviekvivalenttiin muotoon, jossa em. alkiot on korvattu ko. jakojäännöksillä. Näiden asteet ovat < deg a11 (λ). Siirretään alinta astetta oleva nollasta eroava jakojäännös a11 (λ):n paikalle rivejä vaihtamalla. Palataan kohtaan (∗) ja toistetaan tätä menettelyä. Prosessi päättyy, koska deg a11 (λ) pienenee joka vaiheessa, ja kun se päättyy, matriisin on pakko olla muotoa a11 (λ) 0 ... 0 0 a22 (λ) . . . a2n (λ) , ............................ 0 an2 (λ) . . . ann (λ) missä matriisin alkiot on merkitty uudelleen aij (λ):lla. Jos jokin nollasta eroava aij (λ) on alempaa astetta kuin a11 (λ), siirretään se a11 (λ):n paikalle vaihtamalla rivejä ja aletaan taas toistaa prosessia kohdasta (∗). Lopulta päädytään yo. muotoa olevaan matriisiin, jossa deg a11 (λ) ≤ aij (λ) ∀ i, j .
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
51
Jos nyt jokin aij (λ) ei ole jaollinen a11 (λ):llä, lisätään kyseinen j :s pystyrivi ensimmäiseen pystyriviin (jolloin a11 (λ) säilyy matriisissa olevien nollien takia), palataan kohtaan (∗) ja aloitetaan prosessi alusta. Tuloksena on uusi yo. muotoa oleva matriisi, jossa deg a11 (λ) on edelleen pienentynyt. Näin päästään vihdoin yo. muotoa olevaan matriisiin, jossa a11 (λ) jakaa kaikki muut aij (λ):t. Lisäksi voidaan olettaa, että a11 (λ) on pääpolynomi. ¡ ¢ Toistetaan nyt sama menettely matriisin lohkolle aij (λ) i,j≥2 . Tässä tarvittavat rivimuunnokset voidaan ajatella koko matriisin rivimuunnoksiksi, ja prosessin aikana syntyvät uudet matriisialkiot säilyvät a11 (λ):lla jaollisina. Jatkamalla samoin saadaan väitetty muoto. 2 Seuraavassa pykälässä näemme, että lauseen ehdot täyttävä matriisi (4.7) on yksikäsitteinen, vaikka todistuksen antama prosessi sen löytämiseksi voikin kulkea monia eri teitä. Tutkimalla todistusta tarkemmin voidaan todeta, että a11 (λ) on alkuperäisten matriisialkioiden aij (λ) syt (kun A 6= O). Myöhemmin johdamme tämän seikan toisin. Ã ! Ã ! λ2 + λ λ + 1 1 0 Esimerkki 4.5.7 A(λ) = ∼ , ja tässä 1 | (λ2 + λ). λ2 − λ λ 0 λ2 + λ
4.6 Invariantit polynomit ja Smithin kanoninen muoto Lemma 4.6.1 Olkoot A(λ), B(λ) ∈ Mn (K[λ]) riviekvivalentit. Silloin r(A(λ)) = r(B(λ)), ja kun 1 ≤ s ≤ r(A(λ)), niin A(λ):n s-rivisten alideterminanttien syt on sama kuin B(λ):n s-rivisten alideterminanttien syt. Todistus. Oletuksen mukaan B(λ) = P (λ)A(λ)Q(λ), missä P (λ) ja Q(λ) ovat alkeismatriisien tuloja ja siis säännöllisiä λ-matriiseja. Todistamme väitteen, kun B(λ):n tilalla on C(λ) = A(λ)Q(λ). Silloin näemme, ettei kertominen oikealta Q(λ):lla muuta lemmassa mainittuja suureita, ja vastaava seikka kerrottaessa P (λ):lla vasemmalta todistettaisiin samoin. ¡ ¢ ¡ ¢ ¡ ¢ Olkoon A(λ) = aij (λ) , Q(λ) = qij (λ) ja C(λ) = A(λ)Q(λ) = cij (λ) . Silloin Pn cij (λ) = k=1 aik (λ)qkj (λ). Lasketaan C(λ):n jokin s-rivinen alideterminantti (1 ≤ s ≤ n). Merkintöjen yksinkertaistamiseksi esitetään vain johtavan pääalideterminantin tapaus, toisin sanoen lasketaan ¯ ¯ ¯ c11 (λ) . . . c1s (λ) ¯ ¯ ¯ ¡¡ ¢s ¢ ¯ ¯ det cij (λ) i,j=1 = ¯ . . . . . . . . . . . . . . . . ¯ . ¯ ¯ ¯ cs1 (λ) . . . css (λ) ¯ Merkitään
aj (λ) = (a1j (λ), . . . , asj (λ))T
(j = 1, . . . , n).
Silloin C(λ):n ko. alimatriisin j :s pystyrivi on
à T
(c1j (λ), . . . , csj (λ)) =
n X k=1
a1k (λ)qkj (λ) , . . . ,
n X k=1
!T ask (λ)qkj (λ)
=
n X k=1
qkj (λ)ak (λ).
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
52
Determinantti on lineaarikuvaus funktiona jokaisen pystyrivin suhteen. Saadaan ¯ ¯ n à n ! ¯ ¯ X X ¡¡ ¢s ¢ ¯ ¯ qk1 (λ)ak (λ) ¯ . . . ¯ qks (λ)ak (λ) det cij (λ) i,j=1 = det ¯ ¯
=
n X k1 =1
k=1 n X
···
k=1
¡ ¢ qk1 1 (λ) · · · qks s (λ) det ak1 (λ) | . . . | aks (λ) .
ks =1
Summasta voidaan jättää pois termit, joissa jotkin ki :t ovat samoja, koska ko. determinantit ovat nollia. Jäljelle jäävissä termeissä determinantit ovat merkkiä vaille A(λ):n s-rivisiä ali¡¡ ¢s ¢ P determinantteja. Näin ollen det cij (λ) i,j=1 on muotoa i pi (λ)fi (λ), missä pi (λ) ∈ K[λ] ja fi (λ):t ovat A(λ):n s-rivisiä alideterminantteja. Tästä seuraa: ¢ ¡¡ ¢s (i) Jos s ≤ r(A(λ)), niin det cij (λ) i,j=1 on jaollinen A(λ):n s-rivisten alideterminanttien syt:llä. Sama tulos saadaan kaikille C(λ):n s-rivisille alideterminanteille. ¡¡ ¢s ¢ (ii) Jos s > r(A(λ)), niin kaikki em. fi (λ):t ovat = 0, joten det cij (λ) i,j=1 = 0. Samoin saadaan, että kaikki C(λ):n s-riviset alideterminantit ovat = 0. Kohdan (ii) nojalla r(C(λ)) ≤ r(A(λ)) (huomautus 4.1.11). Mutta A(λ) = C(λ)Q(λ)−1 , missä Q(λ)−1 ∈ Mn (K[λ]), joten on myös r(A(λ)) ≤ r(C(λ)). Siis r(A(λ)) = r(C(λ)). Olkoon s ≤ r(A(λ)). Kohdan (ii) mukaan C(λ):n s-rivisten alideterminanttien syt on jaollinen A(λ):n s-rivisten alideterminanttien syt:llä. Tämä jaollisuustulos saadaan toisinkin päin, sillä A(λ) = C(λ)Q(λ)−1 . Koska syt:t ovat pääpolynomeja, ne ovat samat. 2 Tarkastellaan lauseen 4.5.6 tulosta tarkemmin. Olkoon A(λ) ∈ Mn (K[λ]), A(λ) 6= O. Silloin A(λ) on riviekvivalentti matriisin ¡ ¢ S(λ) = diag a1 (λ), . . . , ar (λ), 0, . . . , 0 kanssa, missä a1 (λ), . . . , ar (λ) ovat pääpolynomeja ja aj (λ) | aj+1 (λ) kun j = 1, . . . , r − 1. Selvästi r = r(S(λ)), joten lemman 4.6.1 mukaan r = r(A(λ)). Olkoon t ≤ r. Ainoat nollasta eroavat S(λ):n t-riviset alideterminantit ovat sen t-rivisiä pääalideterminantteja (kaikissa muissa on nollarivi), joten ne ovat = ai1 (λ) · · · ait (λ), missä 1 ≤ i1 < · · · < it ≤ r. Näiden syt on a1 (λ) · · · at (λ), koska tämä jakaa muut. Näin ollen lemmasta 4.6.1 saadaan
a1 (λ) · · · at (λ) = dt (λ)
(t = 1, . . . , r),
missä on merkitty
dt (λ) = A(λ):n t-rivisten alideterminanttien syt. Tästä ratkaistaan a1 (λ) = d1 (λ) ja at (λ) = osamäärät ovat siis polynomeja.
dt (λ) dt−1 (λ) ,
kun t = 2, . . . , r. Huomaa, että nämä
Määritelmä 4.6.2 Olkoon A(λ) ∈ Mn (K[λ]) ja r = r(A(λ)). Merkitään d0 (λ) = 1 ja dt (λ) = A(λ):n t-rivisten alideterminanttien syt, kun t = 1, . . . , r. Polynomeja it (λ) =
dt (λ) dt−1 (λ)
(t = 1, . . . , r)
(4.8)
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
53
sanotaan A(λ):n invarianteiksi polynomeiksi . Matriisin A(λ) Smithin kanoninen muoto (tai matriisi ) on n×n-matriisi ¡ ¢ diag i1 (λ), . . . , ir (λ), 0, . . . , 0 . (4.9) Lauseessa 4.5.6 johdettu matriisi (4.7) on juuri A(λ):n Smithin kanoninen muoto. Kyseisen lauseen mukaan jokainen λ-matriisi on riviekvivalentti Smithin kanonisen muotonsa kanssa. Samalla on tullut todistettua matriisin (4.7) yksikäsitteisyys : Suureet r = r(A(λ)) ja at (λ) = it (λ) = dt (λ)/dt−1 (λ) ovat tiettyjä A(λ):n alkioiden lausekkeita ja siis yksikäsitteisiä. Nähdään myös, että kaksi λ-matriisia ovat riviekvivalentit tarkalleen silloin kun niillä on sama Smithin kanoninen muoto. Lauseesta 4.5.6 ja määritelmästä saadaan 4.6.2 saadaan kaksi keinoa Smithin kanonisen muodon laskemiseksi. Ã ! λ2 + λ λ + 1 Esimerkki 4.6.3 Esimerkissä 4.5.7 laskettiin matriisin A(λ) = Smithin λ2 − λ λ Ã ! 1 0 kanoninen muoto alkeismuunnoksilla. Siis aste on 2 ja invariantit polynomit 0 λ2 + λ ovat i1 (λ) = 1 ja i2 (λ) = λ2 + λ. Samat saataisiin laskemalla alideterminantteja: d0 (λ) = 1,
d1 (λ) = syt(λ2 + λ, λ + 1, λ2 − λ, λ) = 1 d2 (λ) = syt((λ2 + λ)λ − (λ + 1)(λ2 − λ)) = λ2 + λ, josta i1 (λ) =
1 1
= 1 ja i2 (λ) =
λ2 +λ 1
= λ2 + λ. Ã
! 0 1 λ λ λ λ Esimerkki 4.6.4 Matriisin A(λ) = determinantti on 0 ja eräs 2λ2 − 1 λ2 − 1 λ2 − 1 rivinen alideterminantti on 6= 0, joten aste on 2. Nyt d1 (λ) = 1 ja d2 (λ) = 1 (2-rivisiä alideterminantteja on esimerkiksi −λ ja 1 − λ2 ). Siis i1 (λ) = i2 (λ) = 1, toisin sanoen Smithin kanoninen muoto on A(λ) ∼ diag(1, 1, 0). Johda sama alkeismuunnoksia käyttäen! Ã
Esimerkki 4.6.5 Matriisin A(λ) =
λ λ2 0 λ3 λ5 0 0 0 2λ
Ã
λ
! Smithin kanoninen muoto on
! λ
λ5 − λ4
,
sillä d1 (λ) = λ, d2 (λ) = λ2 , d3 (λ) = λ(λ6 − λ5 ) = λ7 − λ6 ,
Esimerkki 4.6.6 Osoitetaan, että säännöllinen λ-matriisi on alkeismatriisien tulo ja sen Smithin kanoninen muoto on I . Esimerkki 4.6.7 Muotoa A − λI (A ∈ Mn (K)) olevan λ-matriisin 1. invariantti polynomi on melkein aina 1. Tarkalleen milloin?
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
54
Lause 4.6.8 Olkoon A ∈ Mn (K). Silloin r(A − λI) = n. Kun matriisin A − λI invariantit polynomit ovat i1 (λ), . . . , in (λ), niin cA (λ) = (−1)n i1 (λ) · · · in (λ),
(4.10)
ψA (λ) = in (λ).
Todistus. Matriisin A − λI determinantti on cA (λ) 6= 0 (ts. tämä ei ole nollapolynomi), joten r(A − λI) = n. Olkoon S(λ) = diag(i1 (λ), . . . , in (λ)) matriisin A − λI Smithin kanoninen muoto. Silloin A − λI = P (λ)S(λ)Q(λ), missä P (λ) ja Q(λ) ovat alkeismatriisien tuloja. Siis det(P (λ)) ja det(Q(λ)) ovat vakiopolynomeja 6= 0, ja ottamalla determinantit saadaan että cA (λ) = det(A − λI) on vakiokerrointa vaille sama kuin det(S(λ)) = i1 (λ) · · · in (λ). Johtavista kertoimista nähdään, että ko. kerroin on (−1)n . Näin ollen cA (λ) = (−1)n i1 (λ) · · · in (λ). Määritelmän 4.6.2 mukaan cA (λ) = (−1)n dn−1 (λ) · in (λ), missä dn−1 (λ) on matriisin A − λI (n − 1)-rivisten alideterminanttien syt. Liittomatriisin adj(A−λI) alkiot ovat (A−λI):n (n−1)-riviset alideterminantit (merkkiä vaille), joten niiden syt on dn−1 (λ). Siis adj(A − λI) = dn−1 (λ)B(λ), missä matriisin B(λ) ∈ Mn (K[λ]) alkioiden syt on 1. Yhtälöstä adj(A − λI) · (A − λI) = cA (λ)I = (−1)n dn−1 (λ)in (λ)I saadaan siis
B(λ) · (A − λI) = (−1)n in (λ)I. Tämä osoittaa, että matriisi in (λ)I on oikealta jaollinen (A − λI):llä, joten seurauksen 4.3.3 mukaan in (A) = 0. Siis ψA (λ) | in (λ). Toisaalta ψA (A) = 0, joten seurauksen 4.3.3 nojalla ψA (λ)I on oikealta jaollinen matriisilla A − λI , toisin sanoen on sellainen C(λ) ∈ Mn (K[λ]), että
C(λ) · (A − λI) = ψA (λ)I. Kerrotaan tämä oikealta matriisilla adj(A − λI):
C(λ)cA (λ) = ψA (λ) adj(A − λI) = ψA (λ)dn−1 (λ)B(λ). Koska B(λ):n alkioiden syt on 1, niin cA (λ) | ψA (λ)dn−1 (λ), ja koska cA (λ) = ±dn−1 (λ)in (λ), niin in (λ) | ψA (λ). Sekä ψA (λ) että in (λ) ovat pääpolynomeja, joten ψA (λ) = in (λ). 2
Huomautus 4.6.9 Kokonaislukumatriiseja A ∈ Mn (Z) koskee samanlainen teoria kuin λmatriiseja. Niinpä matriisilla A on Smithin kanoninen muoto
diag(a1 , . . . , ar , 0, . . . , 0),
aj | aj+1
(j = 1, . . . , r − 1),
ar 6= 0.
Tulos yleistyy jopa matriiseihin yli ns. pääihannealueiden; ks. Newman: Integral matrices.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
55
4.7 Riviekvivalenssi ja similaarisuus Lause 4.7.1 Matriiseille A, B ∈ Mn (K) seuraavat ehdot ovat ekvivalentit: (i) A ja B ovat similaariset; (ii) λ-matriisit A − λI ja B − λI ovat riviekvivalentit.
Todistus. Oletetaan ensin (i), siis A = P BP −1 , missä P on säännöllinen matriisi. Silloin A − λI = P (B − λI)P −1 . Seuraa, että A − λI ja B − λI ovat riviekvivalentit, sillä P voidaan esittää alkeismatriisien ∈ Mn (K) tulona. Nimittäin lineaarialgebran kurssin mukaan P = E1 · · · Ek R, missä matriisit Ei ∈ Mn (K) ovat alkeismatriiseja ja R on P :tä vastaava redusoitu porrasmatriisi, ja P :n säännöllisyyden johdosta R = I . Oletetaan kääntäen, että A − λI ja B − λI ovat riviekvivalentit. Silloin B − λI = P (λ) · (A − λI) · Q(λ), missä P (λ) ja Q(λ) ovat alkeismatriisien tuloja. Erityisesti P (λ) ja Q(λ) ovat säännöllisiä ja niiden käänteismatriisitkin ovat λ-matriiseja. Jakoalgoritmi antaa
P (λ) = (B − λI) · P1 (λ) + P0 , Q(λ) = Q1 (λ) · (B − λI) + Q0 , missä P1 (λ), Q1 (λ) ∈ Mn (K[λ]) ja P0 , Q0 ∈ Mn (K). Sijoitetaan nämä edelliseen:
B − λI = P0 · (A − λI) · Q0 + (B − λI) · P1 (λ) · (A − λI) · Q1 (λ) · (B − λI) + (B − λI) · P1 (λ) · (A − λI) · Q0 + P0 · (A − λI) · Q1 (λ) · (B − λI). Kun yhtälöön
(A − λI) · Q(λ) = P (λ)−1 · (B − λI) sijoitetaan Q(λ):n lauseke, saadaan merk.
(A − λI) · Q0 = P (λ)−1 · (B − λI) − (A − λI) · Q1 (λ) · (B − λI) = X(λ) · (B − λI), missä X(λ) ∈ Mn (K[λ]). Vastaavasti nähdään, että
P0 · (A − λI) = (B − λI) · Y (λ), missä Y (λ) ∈ Mn (K[λ]). Kun nämä sijoitetaan edellä saatuun (B −λI):n lausekkeeseen, niin
B − λI = P0 · (A − λI) · Q0 + (B − λI) · Z(λ) · (B − λI), ¡ ¢ missä Z(λ) ∈ Mn (K[λ]). Jos Z(λ) 6= O ja deg Z(λ) = k , niin deg (B −λI)·Z(λ)·(B −λI) = k + 2 (lause 4.1.10; B − λI on λ-säännöllinen). Mutta yhtälön muiden termien asteluvut ovat ≤ 1. Täytyy siis olla Z(λ) = O. Seuraa B − λI = P0 · (A − λI) · Q0 = P0 AQ0 − λP0 Q0 . Näin ollen B = P0 AQ0 ja I = P0 Q0 , ja vihdoin saadaan Q0 = P0−1 ja B = P0 AP0−1 .
2
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
56
Seuraus 4.7.2 Matriisit A, B ∈ Mn (K) ovat similaariset silloin ja vain silloin kun λmatriiseilla A − λI ja B − λI on samat invariantit polynomit. Todistus. Ko. λ-matriisit ovat riviekvivalentit tarkalleen silloin kun niillä on sama Smithin kanoninen muoto eli samat invariantit polynomit. Väite seuraa nyt lauseesta 4.7.1. 2
Esimerkki 4.7.3 Näytetään, että A ja AT ovat aina similaariset, kun A ∈ Mn (K): Merkitään matriisin A − λI Smithin kanonista muotoa S(λ):lla. Koska
AT − λI = (A − λI)T ∼ S(λ)T = S(λ) ∼ A − λI, niin similaarisuus seuraa lauseesta 4.7.1.
Esimerkki 4.7.4 Olkoot A, B ∈ Mn (R) similaariset yli C:n, toisin sanoen A = P −1 BP , missä P ∈ Mn (C). Osoitetaan, että silloin A ja B ovat similaariset myös yli R:n.
4.8 Ensimmäinen luonnollinen normaalimuoto Määritelmä 4.8.1 Olkoon f (λ) ∈ K[λ] pääpolynomi, f (λ) = λm + α1 λm−1 + · · · + αm . Matriisia
0 1 0 ··· 0 0 0 0 1 ··· 0 0 L(f ) = .................................... 0 0 ··· 0 1 0 −αm −αm−1 −αm−2 · · · −α2 −α1
(4.11)
sanotaan polynomin f seuralaismatriisiksi (companion matrix).
Huomautus 4.8.2 1) Usein seuralaismatriisiksi määritellään yo. matriisin transpoosi. 2) Olkoon A ∈ Mn (K) ja olkoon ψA (λ) = λm + c1 λm−1 + · · · + cm . Avaruuden hAi = hAialialg = {p(A) | p(x) ∈ K[x]} eräs kanta on B = {I, A, A2 , . . . , Am−1 } (lause 4.4.7). Määritellään kuvaus hAi → hAi, p(A) 7→ Ap(A). Sen matriisi MA kannan B suhteen saadaan lausumalla kanta-alkioiden kuvat samassa kannassa ja kirjoittamalla syntyvät koordinaattivektorit pystyriveiksi. Osoittautuu, että MA = L(ψA )T .
Lemma 4.8.3 Olkoon f (λ) ∈ K[λ] pääpolynomi, deg f (λ) = m. Silloin (i) L(f ):n karakteristinen polynomi on (−1)m f (λ) ; (ii) L(f ):n minimaalipolynomi on f (λ) ; (iii) matriisin L(f ) − λI invariantit polynomit ovat 1, 1, . . . , 1, f (λ) , joten L(f ) − λI ∼ ¡ ¢ diag 1, . . . , 1, f (λ) .
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
57
Todistus. Olkoon f (λ) = λm + α1 λm−1 + · · · + αm . Kun determinantissa ¯ ¯ ¯ −λ ¯ 1 0 ··· 0 0 ¯ ¯ ¯ ¯ ¯ 0 ¯ −λ 1 ··· 0 0 ¯ ¯ det(L(f ) − λI) = ¯¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¯¯ ¯ ¯ 0 0 · · · −λ 1 ¯ 0 ¯ ¯ ¯ ¯ −αm −αm−1 −αm−2 · · · −α2 −λ−α1 ¯ lisätään ensimmäiseen pystyriviin j :s pystyrivi kerrottuna λj−1 :llä (j = 2, . . . , m), ja sitten kehitetään ensimmäisen pystyrivin suhteen, saadaan ¯ ¯ ¯ ¯ 0 1 0 ··· 0 0 ¯ ¯ ¯ ¯ ¯ ¯ 0 −λ 1 ··· 0 0 ¯ ¯ ¯ det(L(f ) − λI) = ¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¯¯ = (−1)m f (λ). ¯ ¯ 0 0 · · · −λ 1 ¯ ¯ 0 ¯ ¯ ¯ −f (λ) −αm−1 −αm−2 · · · −α2 −λ−α1 ¯ Kun 1 ≤ j ≤ m − 1, matriisissa L(f ) − λI on aina j -rivinen alimatriisi, joka on alakolmiomatriisi ja jonka päälävistäjäalkiot = 1, ja jonka determinantti siis on 1. Näin ollen dj (λ) = 1, dj (λ) kun 1 ≤ j ≤ m − 1. Invariantit polynomit ovat ij (λ) = dj−1 (λ) = 1, kun 1 ≤ j ≤ m − 1. Viidn (λ) meisen invariantin polynomin lausekkeessa in (λ) = dn−1 (λ) nimittäjä on 1, ja osoittaja dn (λ) on pääpolynomi, joka on vakiokerrointa vaille sama kuin det(L(f ) − λI); siis dn (λ) = f (λ). Näin ollen in (λ) = f (λ). Selvästi eTi L(f ) = eTi+1 , kun i = 1, . . . , m − 1, joten I, L(f ), L(f )2 , . . . , L(f )m−1 ovat lineaarisesti riippumattomia. Siis deg ψL(f ) = dimhL(f )i ≥ m. Koska kyseessä on m×mmatriisi, niin ψL(f ) (λ) = (−1)m cL(f ) (λ) = f (λ). 2
Matriisia A sanotaan kvasidiagonaaliseksi , kun se on kirjoitettu lohkomuodossa A11 0 A22 merk = diag(A11 , A22 , . . . , Akk ), .. .
0
Akk
missä lohkot Aii ovat neliömatriiseja, ehkä erikokoisia. Jos B = diag(B11 , B22 , . . . , Bkk ) on toinen kvasidiagonaalimatriisi ja jos kullakin lohkolla Bii on sama riviluku kuin Aii :llä, niin myös A + B ja AB ovat kvasidiagonaalisia, diagonaalilohkoina vastaavasti Aii + Bii ja Aii Bii (i = 1, . . . , k ). Jos Aii ja Bii ovat riviekvivalentteja (i = 1, . . . , k ), samoin ovat A ja B . Tarkastellaan matriisia A ∈ Mn (K). Polynomimatriisin A − λI aste on n, sillä det(A − λI) = cA (λ) 6= 0 (ei siis ole nollapolynomi), joten sen invariantteja polynomeja ij (λ) on n ¡ ¢ kappaletta ja Smithin kanoninen muoto on siis diag i1 (λ), . . . , in (λ) . Olkoon i1 (λ) = · · · = it−1 (λ) = 1 ja it (λ) 6= 1. Silloin
deg(it (λ)) + · · · + deg(in (λ)) = n, sillä lauseen 4.6.8 nojalla deg(i1 (λ) · · · in (λ)) = deg(cA (λ)) = n.
(4.12)
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
58
Lause 4.8.4 (1. luonnollinen normaalimuoto) Olkoon A ∈ Mn (K), ja olkoot it (λ), it+1 (λ), . . . , in (λ) λ-matriisin A − λI invariantit polynomit 6= 1. Silloin A on similaarinen kvasidiagonaalimatriisin ¡ ¢ L = diag L(it ), L(it+1 ), . . . , L(in )
kanssa, missä L(ij ) on polynomin ij (λ) seuralaismatriisi (j = t, . . . , n). Todistus. Matriisin L(ij ) riviluku on deg(ij (λ)), joten L:n riviluku on yhtälön (4.12) mukaan n. Siis L ∈ Mn (K). Lemman 4.8.3 nojalla ¡ ¢ L(ij ) − λI ∼ diag 1, . . . , 1, ij (λ) (j = t, . . . , n). Saadaan
¡ ¢ L − λI = diag L(it ), . . . , L(in ) − λI ¡ ¢ = diag L(it ) − λI , . . . , L(in ) − λI ¡ ¢ ∼ diag 1, . . . , 1, it (λ), 1, . . . , 1, it+1 (λ), . . . , 1, . . . , 1, in (λ) ¡ ¢ ∼ diag 1, . . . , 1, it (λ), it+1 (λ), . . . , in (λ) ∼ A − λI, missä viimeinen vaihe tulee (A − λI):n Smithin kanonisesta muodosta. Väite seuraa nyt lauseesta 4.7.1. 2 3 −1 0 3 0 1. luonnollinen normaalimuoto? Esimerkki 4.8.5 Mikä on matriisin A = −1 1 −1 2 Laskemalla matriisin A − λI alideterminantteja saadaan invariantit polynomit i1 (λ) = 1, i2 (λ) = λ − 2 ja i3 (λ) = λ2 − 6λ + 8. Kahden jälkimmäisen seuralaismatriisit ovat µ ¶ 0 1 L(i2 ) = (2), L(i3 ) = , −8 6 joten A:n 1. normaalimuoto on
2 L = 0 0
0 0 0 1. −8 6
Huomautus 4.8.6 Olkoon A = diag(A11 , A22 , . . . , Akk ) kvasidiagonaalinen, missä Aii ∈ Mni (K). Ryhmittelemällä avaruuden K n luonnolliset kantavektorit ni :den mukaisesti saadaan sellainen suorasummahajotelma K n = V1 ⊕ V2 ⊕ · · · ⊕ Vk = L(e1 , . . . , en1 ) ⊕ L(en1 +1 , . . . , en1 +n2 ) ⊕ · · · ⊕ L(en1 +···+nk−1 +1 , . . . , en ), että Ax ∈ Vi aina kun x ∈ Vi . Kääntäen, jos on annettu tämä suorasummahajotelma, niin jokainen matriisi B , joka toteuttaa ehdon Bx ∈ Vi ∀ x ∈ Vi , on kvasidiagonaalinen muotoa B = diag(B11 , B22 , . . . , Bkk ), missä Bii :n riviluku on ni . Kannanvaihdot vastaavat lineaarikuvausten matriisien similaarimuunnoksia. Helposti todetaankin, että kun on annettu A ∈ Mn (K), niin seuraavat ovat ekvivalentit:
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
59
• A on similaarinen kvasidiagonaalimatriisin diag(A11 , A22 , . . . , Akk ) kanssa, missä Aii ∈ Mni (K). • K n :llä on sellainen suorasummahajotelma K n = V1 ⊕ V2 ⊕ · · · ⊕ Vk , että dim Vi = ni ja Ax ∈ Vi ∀ x ∈ Vi (i = 1, . . . , k ). (Esitysteorian kielellä: Algebran hAi vasemmalla modulilla K n on hajotelma alimodulien Vi suorana summana.)
Huomautus 4.8.7 Kun A = diag(A11 , A22 , . . . , Akk ) on kvasidiagonaalinen, niin ψA = pyj(ψA11 , . . . , ψAkk ) (pyj = pienin yhteinen jaettava). Soveltamalla tätä 1. luonnolliseen normaalimuotoon saadaan ψA = pyj(it , . . . , in ) = in . Tästä saa uuden todistuksen (tai esitysteoreettisen selityksen) sille, että ψA = in .
4.9 Matriisin alkeistekijät Tarkastellaan yleistä λ-matriisia A(λ) ∈ Mn (K[λ]). Oletetaan, että det(A(λ)) hajoaa täydellisesti yli K :n, toisin sanoen
det(A(λ)) = k1
s Y
(λ − λj )mj ,
j=1
missä k1 6= 0 ja λ1 , . . . , λs ovat det(A(λ)):n erisuuret nollakohdat; siis mj ≥ 1 ∀ j . Luvuista λj käytetään nimitystä A(λ):n latentit juuret . (Meitä kiinnostaa jatkossa vain tapaus A(λ) = B − λI , ja tällöin λj :t ovat B :n erisuuret ominaisarvot.) Oletetaan lisäksi, että A(λ) on täysiasteinen; siis sen aste on r(A(λ)) = n. (Tapauksessa A(λ) = B − λI näin on aina.) Olkoot i1 (λ), . . . , in (λ) matriisin A(λ) invariantit polynomit. Smithin kanonisesta muodosta saadaan
det(A(λ)) = k2
n Y
ij (λ),
j=1
missä k2 6= 0. Yhdessä edellisen kaavan kanssa tämä antaa k1 = k2 ja s Y
(λ − λj )mj =
j=1
n Y
(4.13)
ij (λ).
j=1
Koska lisäksi ij (λ) | ij+1 (λ) (j = 1, . . . , n − 1), nähdään, että invariantit polynomit hajoavat tekijöihin i1 (λ) = (λ − λ1 )α11 (λ − λ2 )α12 · · · (λ − λs )α1s i (λ) = (λ − λ )α21 (λ − λ )α22 · · · (λ − λ )α2s 2 1 2 s (4.14) ... in (λ) = (λ − λ1 )αn1 (λ − λ2 )αn2 · · · (λ − λs )αns siten, että
(
0 ≤ α1k ≤ α2k ≤ · · · ≤ αnk ≤ mk , α1k + α2k + · · · + αnk = mk
(k = 1, . . . , s).
(4.15)
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
60
Määritelmä 4.9.1 Yhtälöissä (4.14) esiintyviä niitä tekijöitä (λ−λk )αjk (toistoineen), joissa αjk > 0, sanotaan λ-matriisin A(λ) alkeistekijöiksi (elementary divisors). Alkeistekijöitä (λ − λk )αjk , joissa αjk = 1, sanotaan lineaarisiksi . λ λ2 0 Esimerkki 4.9.2 Matriisin A(λ) = λ3 λ5 0 invariantit polynomit ovat λ, λ, λ5 − 0 0 2λ 4 4 λ = λ (λ − 1) (esimerkki 4.6.5). Alkeistekijät ovat λ, λ, λ − 1, λ4 ; kolme ensimmäistä ovat lineaarisia. Kääntäen, jos täysiasteisen λ-matriisin A(λ) alkeistekijät ja riviluku tunnetaan, niin invariantit polynomit määräytyvät näistä yksikäsitteisesti. Nimittäin kaavoja (4.14) lähdetään täyttämään alhaalta päin, ikään kuin taulukkoa, niin pitkälle kuin alkeistekijöitä riittää, ja loppu täydennetään ykkösillä. (Tapauksessa A(λ) = B − λI riviluku n saadaan alkeistekijöistä, koska n = deg(cB (λ)) = alkeistekijöiden asteiden summa; ks. (4.12) ja (4.13).)
Esimerkki 4.9.3 Oletetaan, että tunnetaan täysiasteisen λ-matriisin A(λ) alkeistekijät λ − 1, λ − 1, λ − 2, (λ − 1)9 , (λ − 2)5 sekä riviluku 5. Mitkä ovat invariantit polynomit? Koska riviluku on n = 5, niin invariantteja polynomeja on 5 kappaletta (matriisi täysiasteinen). Alkeistekijöistä nähdään latentit juuret λ1 = 1, λ2 = 2. Täytetään alhaalta lähtien: i1 (λ) i2 (λ) i3 (λ) i4 (λ) i5 (λ)
= = = = =
(λ − 1)0 · (λ − 2)0 (λ − 1)0 · (λ − 2)0 (λ − 1)1 · (λ − 2)0 (λ − 1)1 · (λ − 2)1 (λ − 1)9 · (λ − 2)5
= = = = =
1 1 λ−1 (λ − 1)(λ − 2) (λ − 1)9 (λ − 2)5
Lause 4.9.4 Olkoot A(λ) ja B(λ) täysiasteisia λ-matriiseja, ja oletetaan, että µ det(A(λ)) ja ¶ det(B(λ)) hajoavat täydellisesti yli K :n. Kvasidiagonaalimatriisin D(λ) =
A(λ) O O B(λ)
alkeistekijät ovat A(λ):n ja B(λ):n alkeistekijät yhdessä. Todistus. Koska det(D(λ)) = det(A(λ)) det(B(λ)), niin D(λ):n latentit juuret λi ovat A(λ):n ja B(λ):n latentit juuret yhdessä. Olkoot i1 (λ), . . . , ip (λ) matriisin A(λ) ja j1 (λ), . . . , jq (λ) matriisin B(λ) invariantit poQ lynomit. Silloin iµ (λ) = cµ i (λ − λi )ti , missä cµ ∈ K ja ti ≥ 0, ja vastaavasti jν (λ):lle. Tarkastellaan D(λ):n mielivaltaista latenttia juurta λ1 . Kirjoitetaan ( iµ (λ) = (λ − λ1 )αµ kµ (λ) (µ = 1, . . . , p), (4.16) βν jν (λ) = (λ − λ1 ) lν (λ) (ν = 1, . . . , q), missä polynomeissa kµ (λ) ja lν (λ) ei ole tekijää λ − λ1 . Koska iµ (λ) | iµ+1 (λ), niin 0 ≤ α1 ≤ · · · ≤ αp , ja samoin 0 ≤ β1 ≤ · · · ≤ βq . Olkoot γ1 ≤ γ2 ≤ · · · ≤ γr luvut αµ ja βν suuruusjärjestyksessä, r = p + q . Nyt à ! ¡ ¢ merk A(λ) O D(λ) = ∼ diag i1 (λ), . . . , ip (λ), j1 (λ), . . . , jq (λ) = C(λ). O B(λ)
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
61
Koska D(λ) ∼ C(λ), niin D(λ):lla ja C(λ):lla on samat invariantit polynomit. Niiden j :s dj (λ) invariantti polynomi on dj−1 (λ) , missä dj (λ) = C(λ):n j -rivisten alideterminanttien syt (ja d0 (λ) = 1). Koska C(λ) on diagonaalinen, sen ainoat nollasta eroavat alideterminantit ovat pääalideterminantit (muissa on nollarivi), joten ¯ n ¯ dj (λ) = syt in1 (λ) · · · ins (λ)jm1 (λ) · · · jmt (λ) ¯ s + t = j, o 1 ≤ n1 < · · · < ns ≤ p, 1 ≤ m1 < · · · < mt ≤ q . Tässä i1 (λ) · · · is (λ) jakaa muut in1 (λ) · · · ins (λ):t, ja vastaavasti j1 (λ) · · · jt (λ) jakaa muut jm1 (λ) · · · jmt (λ):t; siis ¯ n o ¯ dj (λ) = syt i1 (λ) · · · is (λ)j1 (λ) · · · jt (λ) ¯ s + t = j, 0 ≤ s ≤ p, 0 ≤ t ≤ q . Sijoittamalla tähän (4.16) saadaan ¯ n ¯ dj (λ) = syt (λ − λ1 )α1 +···+αs +β1 +···+βt k1 (λ) · · · lt (λ) ¯ s + t = j,
0 ≤ s ≤ p,
o 0≤t≤q ,
missä k1 (λ) · · · lt (λ) ei sisällä tekijää λ−λ1 . Näin ollen dj (λ) = (λ−λ1 )hj bj (λ), missä bj (λ):ssa ei ole tekijää λ − λ1 ja
¯ © hj = min α1 + · · · + αs + β1 + · · · + βt ¯ s + t = j,
0 ≤ s ≤ p,
0≤t≤q
ª
= γ1 + · · · + γj . d (λ)
b (λ)
j γj j Siis D(λ):n j :s invariantti polynomi on dj−1 (λ) = (λ − λ1 ) bj−1 (λ) . Tämä on siis polynomi, ja koska bj (λ):ssa ja bj−1 (λ):ssa ei ole tekijää λ − λ1 , niin tästä invariantista polynomista aiheutuu λ1 :een kuuluvaksi D(λ):n alkeistekijäksi (λ − λ1 )γj (jos γj 6= 0). Kaikkiaan D(λ):n λ1 :een kuuluvat alkeistekijät ovat ne (λ − λ1 )γ1 , . . . , (λ − λ1 )γi , . . . , joissa γi 6= 0. Toisaalta nämä ovat ne (λ − λ1 )αi :t ja (λ − λ1 )βi :t yhdessä, joissa eksponentit 6= 0, toisin sanoen A(λ):n ja B(λ):n λ1 :een kuuluvat alkeistekijät yhdessä. 2
Esimerkki 4.9.5 Olkoon D = diag(d1 , . . . , dn ), siis D − λI = diag(d1 − λ, . . . , dn − λ).
¡ ¢ Koska 1×1-matriisin di − λ ainoa alkeistekijä on λ − di , matriisin D − λI alkeistekijät ovat λ − d1 , . . . , λ − dn .
Esimerkki 4.9.6 Edellisen esimerkin tilanteessa invariantit polynomit riippuvat siitä, mitkä d = 2, matriisin D − λI Ãi :stä ovat samoja. ! Esimerkiksi kun n à ! Smithin kanoninen muoto on λ − d1 0 1 0 , jos d1 = d2 , mutta , jos d1 6= d2 . 0 λ − d1 0 (λ − d1 )(λ − d2 )
4.10 Toinen luonnollinen normaalimuoto Lemma 4.10.1 Oletetaan, että matriisien A, B ∈ Mn (K) karakteristiset polynomit hajoavat täydellisesti yli K :n. Silloin A ja B ovat similaariset jos ja vain jos λ-matriiseilla A − λI ja B − λI on samat alkeistekijät.
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
62
Todistus. Yhdistetään seuraus 4.7.2 sekä seikka, että invariantit polynomit määräytyvät alkeistekijöistä ja kääntäen. 2
Lause 4.10.2 (2. luonnollinen normaalimuoto) Olkoon A ∈ Mn (K), ja oletetaan, että cA (λ) hajoaa täydellisesti yli K :n. Olkoot e1 (λ), . . . , ep (λ) λ-matriisin A − λI alkeistekijät. Silloin A on similaarinen kvasidiagonaalimatriisin ¡ ¢ L = diag L(e1 ), . . . , L(ep )
kanssa, missä L(ej ) on polynomin ej (λ) seuralaismatriisi (j = 1, . . . , p). Huomaa, että kun ek (λ) = (λ − λj )αij , niin L(ek ) on αij -rivinen neliömatriisi.
Todistus. Koska L(ek ):n riviluku on deg(ek (λ)), niin L:n riviluku on deg(e1 (λ)) + · · · + deg(ep (λ)) = deg(cA (λ)) = n; ks. (4.13) ja (4.10). Lemman 4.8.3 mukaan matriisin L(ek )−λI ainoa invariantti polynomi 6= 1 on ek (λ), joten tämä on siis sen ainoa alkeistekijä. Soveltamalla lausetta 4.9.4 toistuvasti nähdään, että matriisin L − λI alkeistekijät ovat e1 (λ), . . . , ep (λ). Väite seuraa edellisestä lemmasta. 2 3 −1 0 6 2 2 3 0 ja B = −2 2 0 . Näytetään, että Esimerkki 4.10.3 Olkoon A = −1 1 −1 2 0 0 2 2 0 0 0 1 . 2. luonnolliset normaalimuodot ovat vastaavasti diag(2, 2, 4) ja 0 0 −16 8
4.11 Jordanin normaalimuoto Matriisin 2. normaalimuodosta saadaan lopullisena tavoitteena oleva Jordanin normaalimuoto korvaamalla kukin lohko L(ek ) sopivalla samankokoisella kanonisella lohkolla, johon liittyy sama alkeistekijä kuin L(ek ):hon. Tämä lohko on muotoa
c 1 0 c 1 merk .. .. Jn (c) = , . . c 1 0 c n×n
(4.17)
¡ ¢ missä c ∈ K . Siis Jn (c) = In c + Hn , missä Hn = δi+1,j n×n . Nähdään, että det(Jn (c) − λI) = (−1)n (λ − c)n , ja lisäksi että (Jn (c) −λI):n m-rivisten alideterminanttien joukossa on aina 1, kun m ≤ n − 1. Siis Jn (c):n ainoa alkeistekijä on (λ − c)n . Matriisia Jn (c) sanotaan alkeistekijään (λ − c)n liittyväksi Jordanin lohkoksi .
Lause 4.11.1 (Jordanin normaalimuoto) Olkoon A ∈ Mn (K), ja oletetaan, että A:n karakteristinen polynomi hajoaa täydellisesti yli K :n. Olkoot J1 , . . . , Jp λ-matriisin A − λI
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
63
alkeistekijöihin e1 (λ), . . . , ep (λ) liittyvät Jordanin lohkot. Silloin A on similaarinen kvasidiagonaalimatriisin J = diag(J1 , . . . , Jp ) kanssa. Kun ek (λ) = (λ − λj )αij , niin Jk = Jαij (λj ) on αij -rivinen neliömatriisi. Sanotaan, että Jk on ominaisarvoon λj liittyvä Jordanin lohko . Jordanin normaalimuodossa saattaa samaan ominaisarvoon liittyä useampi Jordanin lohko.
Todistus. Matriisilla J on oikea riviluku n. Edellä todetun nojalla L(ek ):n ainoa alkeistekijä on sama kuin ek (λ):aan liittyvän Jk :n ainoa alkeistekijä. Lauseiden 4.10.2 ja 4.9.4 nojalla matriiseilla J − λI ja A − λI on samat alkeistekijät. Väite seuraa lemmasta 4.10.1. 2
Esimerkki 4.11.2 Oletetaan, että (A − λI):n alkeistekijät ovat λ − 5, (λ − 5)3 , (λ + 4)2 . Silloin A:n ominaisarvot 5 J = 0
ovat 5 ja −4, ja A:n Jordanin normaalimuoto on 0 5 1 0 ¡ ¢ 0 5 1 = diag J1 (5), J3 (5), J2 (−4) . 0 0 5 −4 1 0 −4
Esimerkki 4.11.3 Matriiseilla
6 2 −2 A1 = −2 2 2, 2 2 2
6 2 A2 = −2 2 0 0
2 0 2
on sama karakteristinen polynomi cA1 (λ) = cA2 (λ) = −(λ − 2)(λ − 4)2 . Matriiseille A1 − λI ja A2 − λI saadaan Smithin kanoniset muodot 1 1 , , A2 − λI ∼ A1 − λI ∼ λ−4 1 (λ − 2)(λ − 4) (λ − 2)(λ − 4)2 ja Jordanin normaalimuodot ovat vastaavasti 2 0 2 , 0 4 4 0 0 4
0 1. 4
Huomautus 4.11.4 Matriisin Jordanin normaalimuodosta voidaan lukea joitakin matriisin
¡ ¢ ominaisuuksia. Olkoon A:n Jordanin normaalimuoto J = diag J1 (5), J3 (5), J2 (−4) kuten esimerkissä 4.11.2, ja A = P JP −1 . Silloin on voimassa seuraavat tosiseikat, joista osa on selviä tai todistetaan jäljempänä ja joitakin perusteltaneen demonstraatioissa:
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
64
• A:n ominaisarvot ovat 5 ja −4. Ominaisarvon 5 algebrallinen kertaluku on 4 ja ominaisarvon −4 algebrallinen kertaluku on 1 (= ominaisarvon lukumäärä päälävistäjällä.) Ominaisarvon 5 geometrinen kertaluku on 2 ja ominaisarvon −4 geometrinen kertaluku on 1 (= ominaisarvoon liittyvien Jordanin lohkojen lukumäärä.) (Katso esimerkit 1.9.5 ja 2.2.2 sekä lause 4.11.9.) • cA (λ) = (λ − 5)4 (λ + 4)2 . • ψA (λ) = (λ − 5)3 (λ + 4)2 . (Esimerkiksi eksponentti 3 on ominaisarvoon 5 liittyvien Jordanin lohkojen suurin riviluku.) • A ei ole diagonalisoituva. • K n = V1 ⊕ V2 ⊕ V3 , missä dim V1 = 1, dim V2 = 3 ja dim V3 = 2, ja AVi ⊆ Vi ∀ i. Jordanin lohkot ovat A:n määräämän lineaarikuvauksen K n → K n restriktioiden Vi → Vi matriisit joidenkin kantojen suhteen. (Esitysteorian kielellä: Algebran hAi vasen moduli K n hajoaa alimodulien Vi suoraksi summaksi, ja A:n operointia alimodulissa Vi esittää sopivan kannan suhteen ko. Jordanin lohko.)
Huomautus 4.11.5 Similaarisuuden A = P JP −1 välittävä muunnosmatriisi P on mahdollista ratkaista muodostamalla matriisiyhtälöstä AP = P J yhtälöryhmä.
Seuraus 4.11.6 Oletetaan, että matriisin A ∈ Mn (K) karakteristinen polynomi hajoaa täydellisesti yli K :n. Seuraavat ehdot ovat ekvivalentit: (i) A on diagonalisoituva; (ii) A:n minimaalipolynomin nollakohdat ovat yksinkertaiset; (iii) (A − λI):n alkeistekijät ovat lineaariset. P Todistus. Oletetaan (i). Kun A = si=1 λi Ei on A:n spektraalihajotelma ja kun p(λ) ∈ K[λ], Ps niin p(A) = i=1 p(λi )Ei , ja tämä on = O tarkalleen silloin, kun p(λ1 ) = · · · = p(λs ) = 0. Seuraa ψA (λ) = (λ − λ1 ) · · · (λ − λs ), (4.18) koska tämä on alimmanasteinen ko. ehdon toteuttava pääpolynomi. Siis (ii) on voimassa. Oletetaan (ii). Koska ij (λ) | in (λ) ja in (λ) = ψA (λ) on muotoa (4.18), alkeistekijät ovat muotoa (λ − λi ), ja (iii) seuraa. Oletetaan (iii). Silloin A:n Jordanin normaalimuodon Jordanin lohkot ovat 1×1-matriiseja, joten A on diagonalisoituva. 2
Esimerkki 4.11.7 Matriisi A ∈ M2 (C) on diagonalisoituva jos vain jos ominaisarvot ovat erisuuret tai A = cI , c ∈ C. Jos nimittäin ominaisarvot λ1 , λ2 ovat erisuuret, diagonalisoituvuus seuraa lauseesta 2.2.6. Jos taas ominaisarvot ovat yhtäsuuret, λ1 = λ2 , niin cA (x) = (x − λ1 )2 , joten ψA (x) on (x − λ1 )2 tai x − λ1 . Edellisessä tapauksessa A ei ole diagonalisoituva, ja jälkimmäisessä ψA (A) = O antaa A = λ1 I .
LUKU 4. MINIMAALIPOLYNOMI JA NORMAALIMUODOT
µ
Esimerkki 4.11.8 a) Tarkastellaan matriisin
O In In O
65
¶ ∈ M2n (K) diagonalisoituvuutta.
Huomaa tapaus char K µ= 2. ¶ O A b) Sama matriisille A−1 O , missä A ∈ Mn (K) on säännöllinen.
Lause 4.11.9 Olkoon A ∈ Mn (K), ja oletetaan että cA (λ) hajoaa täydellisesti yli K :n. Olkoot Jm1 (λ1 ), . . . , Jmg (λ1 ) ominaisarvoon λ1 liittyvät Jordanin lohkot A:n Jordanin normaalimuodossa J (siis mi on Jmi (λ1 ):n riviluku). Silloin λ1 :n algebrallinen kertaluku on m1 + · · · + mg ja geometrinen kertaluku on g . Todistus. Nyt A = P JP −1 . Siis cA (λ) = cJ (λ), joten λ1 :n algebralliset kertaluvut A:n ja J :n ominaisarvoina ovat samat. Samoin geometriset kertaluvut dim Ker(A − λ1 I) ja dim Ker(J − λ1 I) ovat samat. Voidaan siis tarkastella A:n sijasta J :tä. Algebrallista kertalukua koskeva väite seuraa siitä, että cJ (λ) = (j11 − λ) · · · (jnn − λ), kun j11 , · · · , jnn ovat J :n diagonaalialkiot. Kun Jni (λk ) on Jordanin lohko (riviluku on ni , ominaisarvo λk ), niin ( ni , jos λk 6= λ1 , r(Jni (λk ) − λ1 I) = ni − 1, jos λk = λ1 . Summaamalla nämä saadaan matriisin J − λ1 I asteeksi r(J − λ1 I) = n − g . Näin ollen λ1 :n geometrinen kertaluku on
dim Ker(J − λ1 I) = n − r(J − λ1 I) = g.
2
Vaihtoehtoisesti λ1 :n geometrisen kertaluvun voisi todistaa ratkaisemalla J :n λ1 :een kuuluvat ominaisvektorit tavalliseen tapaan; Jordanin normaalimuotoisen matriisin tapauksessa tämä on helppo tehtävä (ks. seuraavaa esimerkkiä).
Esimerkki 4.11.10 Kirjoitetaan esimerkin 4.11.2 matriisin J sekä sen transpoosin ominaisvektorit. (Vertaa esimerkkiin 1.9.5.)
3 0 Esimerkki 4.11.11 Lasketaan matriisin A = 0 0 ainakin kahdella tavalla. Oletetaan char K 6= 2.
0 3 0 0
1 0 −1 0
2 −1 Jordanin normaalimuoto 1 −1
Esimerkki 4.11.12 Nyt voimme selvittää, millainen matriisi välittää matriisien A ja AT similaarisuuden esimerkissä 4.7.4. Olkoon J A:n Jordanin normaalimuoto, P −1 AP = J = ¡ ¢ diag Jm1 (λ1 ), . . . , Jmp (λp ) . Kullekin Jordanin lohkolle etsitty matriisi löydetään helposti: ¡ ¢ Rk Jnk (λk )Rk−1 = Jnk (λk )T , missä Rk = δi+j,nk +1 n ×n . Siis RJR−1 = J T , missä R = k k diag(R1 , . . . , Rp ). Lopuksi M −1 AM = AT , missä M = P R−1 P T .
Luku 5
Matriisien normit Tässä luvussa skalaarikuntana on R tai C, joille käytetään yhteistä merkintää K.
5.1 Vektorinormi Kuvausta h : Kn → R sanotaan vektorinormiksi , jos se täyttää seuraavat ehdot: VN1.
h(x) ≥ 0 ∀ x ∈ Kn ;
VN2.
h(cx) = |c|h(x) ∀ c ∈ K, x ∈ Kn ;
VN3.
h(x + y) ≤ h(x) + h(y) ∀ x, y ∈ Kn .
h(x) = 0 ⇔ x = 0;
Usein merkitään h(x) = kxk.
Esimerkki 5.1.1 (Euklidinen vektorinormi) Tavallinen vektorin pituus |x| = ³P
n i=1
2
|xi |
´
1 2
p
hx, xi =
(kun x = (x1 , . . . , xn ) ) on vektorinormi, ns. euklidinen normi . T
Esimerkki 5.1.2 (Hölderin normit) Edellisen yleistys: hp (x) =
³P
n i=1
|xi |p Aksioomat VN1 ja VN2 ovat helppoja, ja VN3 seuraa Minkowskin epäyhtälöstä µX n i=1
(ai + bi )p
¶ p1 ≤
µX n
api
¶ p1 +
µX n
i=1
bpi
´ p1
(p ≥ 1).
¶ p1 (ai , bi ≥ 0, p ≥ 1),
i=1
jonka otamme tässä tunnettuna. Euklidinen normi on h2 (x) = |x|.
Esimerkki 5.1.3 Edellisestä saadaan erikoistapauksena h1 (x) =
Pn i=1
|xi |.
Esimerkki 5.1.4 (Sup-normi) Näytetään, että h0 (x) = maxi |xi | on vektorinormi. Lemma 5.1.5 Kun h on vektorinormi, niin h(x − y) ≥ |h(x) − h(y)| ∀ x, y ∈ Kn . Todistus. Koska h(x) = h(x − y + y) ≤ h(x − y) + h(y), niin h(x − y) ≥ h(x) − h(y). Samoin h(x − y) = h(y − x) ≥ h(y) − h(x). 2 66
LUKU 5. MATRIISIEN NORMIT
67
Metrisellä avaruudella tarkoitetaan joukkoa X varustettuna metriikalla d : X × X → R (pisteiden etäisyydellä ), joka toteuttaa seuraavat ehdot: MA1.
d(x, y) ≥ 0 ∀ x, y ∈ X;
d(x, y) = 0 ⇔ x = y ;
MA2.
d(x, y) = d(y, x) ∀ x, y ∈ X ;
MA3.
d(x, y) = d(x, z) + d(z, y) ∀ x, y, z ∈ X
(kolmioepäyhtälö ).
Vektorinormi h indusoi Kn :ssä metriikan eli pisteiden etäisyyden: d(x, y) = h(x − y). Metriikka mahdollistaa mm. kuvausten jatkuvuuden määrittelyn. Kuvaus f : X → Z kahden metrisen avaruuden välillä on jatkuva pisteessä x ∈ X , jos ³ ´ ∀ ² > 0 ∃ δ² > 0 : d(f (x), f (y)) < ² kun d(x, y) < δ² , (5.1) ja f on jatkuva, jos se on jatkuva jokaisessa X :n pisteessä.
Lemma 5.1.6 Olkoon h vektorinormi Kn :ssä. Silloin h on jatkuva kuvaus Kn → R, kun Kn :lle käytetään h1 :n määräämää metriikkaa ja R:lle tavallista metriikkaa. Toisin sanoen, kun x ∈ Kn , niin ³ ´ ∀ ² > 0 ∃ δ² > 0 : |h(x) − h(y)| < ² kun h1 (x − y) < δ² . (5.2)
Todistus. Käyttämällä Kn :n luonnollista kantaa {e1 , . . . , en } saadaan |h(x) − h(y)| ≤ h(x − y) = h
µX ¶ X n n (xi − yi )ei ≤ |xi − yi |h(ei ) ≤ M h1 (x − y), i=1
missä M = maxi h(ei ). Valitaan δ² =
² M
i=1
.
2
Esimerkki 5.1.7 Osoitetaan, että lineaarikuvaukset Kn → Km ovat jatkuvia, kun Kn :lle ja Km :lle on valittu jotkin normit. (Myöhemmin näemme, ettei normien valinta vaikuta asiaan.) Kun h : Kn → R on vektorinormi, sanomme joukkoa Sh = { x ∈ Kn | h(x) = 1} yksikköpallon pinnaksi h:n suhteen. Otamme todistamatta käyttöön seuraavan tuloksen.
Lemma 5.1.8 Olkoot h ja h0 vektorinormeja Kn :ssä. Jos f : Kn → R on jatkuva h:n indusoiman metriikan suhteen, niin f saa joukossa Sh0 suurimman ja pienimmän arvon, toisin sanoen on sellaiset a, b ∈ Sh0 , että f (a) ≤ f (x) ≤ f (b) ∀ x ∈ Sh0 . (Lemma seuraa siitä yleisestä tuloksesta, että jatkuva kuvaus Kn → R saa kompaktissa joukossa suurimman ja pienimmän arvon; Sh0 on kompakti, sillä Kn :n joukoille kompaktisuus tarkoittaa samaa kuin suljettu ja rajoitettu.)
Lemma 5.1.9 Kun h on Kn :n vektorinormi, niin on sellaiset vakiot r, s > 0, että rh1 (x) ≤ h(x) ≤ sh1 (x)
∀ x ∈ Kn .
(5.3)
LUKU 5. MATRIISIEN NORMIT
68
Todistus. Kun x ∈ Kn , niin ¶ X µX n n n X h(x) = h xi ei ≤ |xi |h(ei ) ≤ s |xi | = sh1 (x), i=1
i=1
i=1
missä on merkitty s = maxi h(ei ). Lemmojen 5.1.6 ja 5.1.8 mukaan on sellainen a ∈ Sh1 , että h(a) ≤ h(x) ∀ x ∈ Sh1 . Kun x ∈ Kn \ {0} on mielivaltainen, niin h11(x) x ∈ Sh1 , ja saadaan
³ h(x) = h1 (x)h Valitaan r = h(a).
´ 1 x ≥ h1 (x)h(a). h1 (x)
2
Lause 5.1.10 Olkoot h ja h0 vektorinormeja Kn :ssä. On sellaiset vakiot R, S > 0, että Rh0 (x) ≤ h(x) ≤ Sh0 (x)
∀ x ∈ Kn .
(5.4)
Todistus. Lemma 5.1.9 antaa h:lle sellaiset vakiot r, s ja h0 :lle vakiot r0 , s0 , että s0 h1 (x) ≥ h0 (x) ≥ r0 h1 (x).
rh1 (x) ≤ h(x) ≤ sh1 (x) ,
Jaetaan epäyhtälöt puolittain, kun x 6= 0. (Tapauksessa x = 0 (5.4) on triviaali.) Valitaan R = sr0 ja S = rs0 . 2
Huomautus 5.1.11 Normi määräytyy yksikköpallostaan, ja toisaalta sopivasta konveksista joukosta voidaan konstruoida normi. (Kts. F. A. Valentine: Convex sets.)
5.2 Matriisinormi Kuvaus Mn (K) → R, A 7→ kAk , on matriisinormi , jos se täyttää seuraavat ehdot: MN1.
kAk ≥ 0 ∀ A ∈ Mn (K);
kAk = 0 ⇔ A = O;
MN2.
kcAk = |c|kAk ∀ c ∈ K, A ∈ Mn (K);
MN3.
kA + Bk ≤ kAk + kBk ∀ A, B ∈ Mn (K);
MN4.
kABk ≤ kAk · kBk ∀ A, B ∈ Mn (K).
Kun A 7→ kAk on matriisinormi, niin lukua kAk sanotaan matriisin A normiksi . 2 Huomaa, että kun Mn (K) samaistetaan vektoriavaruuden Kn kanssa (esimerkki 1.4.4), niin MN1MN3 ovat vektorinormin aksioomat. Matriisinormit ovat erityisesti vektorinormeja, joten edellä todistetut tulokset ovat voimassa niillekin.
Esimerkki 5.2.1 Näytetään, että kAk =
Pn i,j=1
|aij | (kun A = (aij )) on matriisinormi.
Esimerkki 5.2.2 Esimerkin 5.1.4 mukaan kAk = maxi,j |aij | on vektorinormi. Näytetään, ettei se ole matriisinormi, mutta että kAk = n maxi,j |aij | on matriisinormi.
LUKU 5. MATRIISIEN NORMIT
69
Matriisinormi toteuttaa ehdot
¯ ¯ kA − Bk ≥ ¯kAk − kBk¯,
kAp k ≤ kAkp
(p ≥ 1),
(5.5)
kIk ≥ 1,
ja jos A on säännöllinen, niin
kA−p k ≥ kAk−p
(5.6)
(p ≥ 1).
Ensimmäinen näistä seuraa lemmasta 5.1.5 ja toinen induktiolla MN4:stä. Koska kIk = kI 2 k ≤ kIk2 , niin kIk ≥ 1. Lopuksi 1 ≤ kIk = kAp A−p k ≤ kAp k · kA−p k ≤ kAkp kA−p k.
Määritelmä 5.2.3 Matriisin A ∈ Mn (C) spektraalisäteeksi sanotaan lukua ¯ © ª λA = max |λi | ¯ λi on A:n ominaisarvo .
(5.7)
Lause 5.2.4 Jokainen Mn (C):n matriisinormi toteuttaa ehdon kAk ≥ λA . ¡ ¢ Todistus. Olkoon λi ominaisarvo. Merkitään M = x | 0 | · · · | 0 ∈ Mn (C), missä x on λi :hin kuuluva ominaisvektori. Silloin AM = λi M , joten |λi |kM k = kλi M k = kAM k ≤ kAk · kM k. Koska kM k > 0, väite seuraa. 2
Esimerkki 5.2.5 (Euklidinen matriisinormi) Todetaan, että kAk =
³P n
|aij |2
´ 21
= p ∗ tr(AA ) on matriisinormi. Tämä on ns. euklidinen matriisinormi eli Frobeniuksen normi. Ã ! 2 1 1 √ √ Esimerkki 5.2.6 Matriisin A = 1 2 1 euklidinen normi on kAk = 3 · 6 = 3 2. 1 1 2 √ Lauseen 5.2.4 mukaan λA ≤ 3 2. (Itse asiassa A:n ominaisarvot ovat 1, 1, 4, joten λA = 4.) i,j=1
Esimerkki 5.2.7 Oletetaan, että kAk < 1 jonkin matriisinormin suhteen. Silloin I − A on säännöllinen: Koska λA ≤ kAk < 1, niin kaikki A:n ominaisarvot λi toteuttavat ehdon |λi | < 1. Siis 1 ei ole A:n ominaisarvo, joten det(A − I) = cA (1) 6= 0.
5.3 Indusoitu matriisinormi Olkoon h mielivaltainen vektorinormi Kn :ssä. Määritellään
h(Ax) = sup h(Ax) x6=0 h(x) h(x)=1
kAk = sup
∀ A ∈ Mn (K).
(5.8)
Todistamme kohta, että k · k on matriisinormi. Sitä sanotaan h:n indusoimaksi matriisinormiksi .
Lemma 5.3.1 On sellainen (A:sta riippuva) vektori b ∈ Kn , että sup h(Ax) = h(Ab) ja h(x)=1
h(b) = 1.
LUKU 5. MATRIISIEN NORMIT
70
Todistus. Koska h ja x 7→ Ax ovat jatkuvia (esimerkki 5.1.7), yhdistetty kuvaus x 7→ h(Ax) on jatkuva. Lemman 5.1.8 mukaan on sellainen b ∈ Sh , että h(Ab) = max h(Ax) = sup h(Ax).
x∈Sh
2
h(x)=1
Lause 5.3.2 Olkoon h vektorinormi. Yhtälöllä (5.8) määritelty k · k on matriisinormi. Todistus. Tarkistetaan aksioomat. Olkoon A, B ∈ Mn (K). Aksiooman MN1 kohdat kAk ≥ 0 ja kOk = 0 ovat ilmeisiä. Jos kAk = 0, niin h(Ax) = 0 ∀ x 6= 0; tästä seuraa VN1:n nojalla, että Ax = 0 ∀ x ∈ Kn , ja siis A = O. Kun c ∈ K, niin kcAk = sup h(cAx) = sup |c|h(Ax) = |c| sup h(Ax) = |c|kAk, h(x)=1
h(x)=1
h(x)=1
mikä antaa aksiooman MN2. Edelleen,
kA + Bk = sup h((A + B)x) = sup h(Ax + Bx) ≤ sup (h(Ax) + h(Bx)) h(x)=1
h(x)=1
h(x)=1
≤ sup h(Ax) + sup h(Bx) = kAk + kBk, h(x)=1
h(x)=1
joten MN3 on voimassa. On voimassa epäyhtälö µ ¶ h(Ax) h(Ay) h(Ax) = h(x) ≤ h(x) sup = h(x)kAk h(x) y6=0 h(y)
∀ x ∈ Kn , x 6= 0.
(5.9)
Lemman 5.3.1 mukaan kABk = h(ABb) jollain vektorilla b, h(b) = 1. Käyttämällä epäyhtälöä (5.9) kahdesti saadaan
kABk = h(A(Bb)) ≤ h(Bb)kAk ≤ h(b)kBkkAk = kBkkAk. Näin ollen k · k toteuttaa myös ehdon MN4.
2
Määritelmä 5.3.3 Vektorinormi h ja matriisinormi k · k ovat yhteensopivat , jos h(Ax) ≤ kAkh(x)
∀ A ∈ Mn (K), x ∈ Kn .
(5.10)
Lause 5.3.4 Olkoon h vektorinormi ja k · k sen indusoima matriisinormi. (i) Silloin h ja k · k ovat yhteensopivat. (ii) Jos N on h:n kanssa yhteensopiva matriisinormi, niin kAk ≤ N (A) ∀ A ∈ Mn (K).
Todistus. Väite (i) tulee epäyhtälöstä (5.9). Lemman 5.3.1 nojalla kAk = h(Ab), missä b ∈ Kn , h(b) = 1. Kun N on h:n kanssa yhteensopiva matriisinormi, niin kAk = h(Ab) ≤ N (A)h(b) = N (A).
2
Esimerkki 5.3.5 Näytetään, että euklidiset vektori- ja matriisinormit ovat yhteensopivat. Huomaa, ettei euklidinen matriisinormi kuitenkaan ole euklidisen vektorinormin indusoima; katso seuraavaa esimerkkiä.
LUKU 5. MATRIISIEN NORMIT
71
Esimerkki 5.3.6 (Spektraalinormi) Euklidinen vektorinormi eli vektorin pituus h2 (x) = |x| indusoi matriisinormin kAk = sup |Ax|
∀ A ∈ Mn (K).
|x|=1
Sitä sanotaan spektraalinormiksi . Osoitetaan, että p kAk = λA∗A ,
(5.11)
missä λA∗A on matriisin A∗A spektraalisäde. Koska A∗A on itseadjungoitu, sen ominaisarvot ovat reaalisia; ne ovat epänegatiivisiakin, sillä jos A∗Ax = λi x, x 6= 0, niin λi hx, xi = hA∗Ax, xi = hAx, Axi ≥ 0, josta λi ≥ 0. Siis A∗A:n spektraalisäde on sen suurin ominaisarvo. Soveltamalla lausetta 3.4.2 matriisin A∗A Rayleighin osamäärään saadaan
sup hA∗Ax , xi = sup RA∗A (x) = λA∗A . |x|=1
|x|=1
Tässä hA∗Ax, xi = hAx, Axi = |Ax|2 , joten
sup |Ax| =
p λA∗A .
|x|=1
(Myöhemmin todistettavasta lauseesta 7.3.1 seuraa, että λA∗A = λAA∗ . Siis spektraalinormi √ saadaan myös muodossa kAk = λAA∗ .)
Esimerkki 5.3.7 (h0 :n indusoima matriisinormi) Olkoon k · kv sup-normin h0 (x) = maxi |xi | indusoima matriisinormi, siis kAkv =
(5.12)
sup h0 (Ax). h0 (x)=1
Osoitetaan, että
kAkv = max i
X
(5.13)
|aij |.
j
Ensinnäkin
¯X ¯ X X ¯ ¯ h0 (Ax) = max¯ aij xj ¯ ≤ max |aij | |xj | ≤ h0 (x) max |aij |, i
j
i
i
j
P
joten määritelmän (5.12) mukaan kAkv ≤ maxi j |aij |. Olkoon maxi Merkitään y = (y1 , . . . , yn )T , missä ( |a | kj jos akj 6= 0, akj yj = 1 jos akj = 0.
j
P j
Silloin h0 (y) = 1, ja
|aij | =
¯X ¯ ¯X ¯ X X ¯ ¯ ¯ ¯ h0 (Ay) = max¯ aij yj ¯ ≥ ¯ akj yj ¯ = |akj | = max |aij |. i
Tämä antaa kAkv ≥ maxi
j
P j
j
|aij |. Siis (5.13) on tosi.
j
i
j
P j
|akj | .
LUKU 5. MATRIISIEN NORMIT
72
Esimerkki 5.3.8 (h1 :n indusoima matriisinormi) Kun k·k on matriisinormi, niin samoin on k( · )T k. Esimerkistä 5.3.7 nähdään siis, että
kAkp = max j
X
(5.14)
|aij |
i
P on matriisinormi. Se on itse asiassa vektorinormin h1 (x) = i |xi | indusoima, sillä ¯ XX ´ X ¯¯X X³ X X ¯ h1 (Ax) = aij xj ¯ ≤ |aij ||xj | = |xj | |aij | ≤ h1 (x) max |aij |, ¯ i
ja jos maxj
P i
j
i
|aij | =
P i
j
j
j
i
i
|aik |, niin h1 (Aek ) =
X
|aik | = max j
i
X
|aij |.
i
Esimerkki 5.3.9 Osoitetaan, että euklidinen matriisinormi ja spektraalinormi ovat unitaarisesti invariantteja, siis toteuttavat ehdon kAU k = kU Ak = kAk
(A, U ∈ Mn (C), U unitaarinen).
Esimerkki 5.3.10 Esimerkin 5.2.7 mukaan A on säännöllinen ainakin jos kI −Ak < 1 jonkin matriisinormin suhteen. Eri matriisinormeja käyttäen saadaan nyt erilaisia riittäviä ehtoja A:n säännöllisyydelle. Normi k · kv antaa seuraavan kriteerin:
|1 − aii | +
n X
|aij | < 1
∀i
=⇒
A säännöllinen.
j=1 j6=i
Parannetaan tulosta vielä. Oletetaan, että aii 6= 0 ∀ i, ja merkitään D = diag(a11 , . . . , ann ). Matriisi A on säännöllinen tarkalleen silloin kun D−1 A on säännöllinen, ja kun tähän sovelletaan yo. kriteeriä, niin lopulta saadaan
|aii | >
n X
|aij | ∀ i
=⇒
A säännöllinen.
j=1 j6=i
Vasemman puolen ehdon toteuttavia matriiseja sanotaan joskus diagonaalisesti dominoiviksi .
5.4 Vektorien ja matriisien jonot ja sarjat Olkoon h vektorinormi. n Tarkastellaan ääretöntä jonoa (xp )∞ p=1 = x1 , x2 , x3 , . . . K :n vektoreita. Sanotaan, että jono (xp ) suppenee vektorinormin h suhteen ja sen raja-arvo on x, jos h(xp − x) → 0 kun p → ∞; tällöin merkitään xp → x tai limp→∞ xp = x. Lemman 5.1.9 nojalla on sellaiset positiivivakiot r ja s, että
rh1 (xp − x) ≤ h(xp − x) ≤ sh1 (xp − x)
∀ p.
LUKU 5. MATRIISIEN NORMIT
73
Näin ollen jono (xp ) suppenee raja-arvoa x kohti normin h suhteen tarkalleen silloin kun se suppenee samaa raja-arvoa kohti normin h1 suhteen. Jonon suppeneminen ja raja-arvo eivät siis riipu käytetystä normista . Merkitään xp = (xp1 , . . . , xpn )T ja x = (x1 , . . . , xn )T . Silloin h0 (xp − x) = maxi |xpi − xi |. Tämä lähenee nollaa jos ja vain jos jokaisella i:llä xpi → xi kun p → ∞. Siis jonon (xp ) suppenemista voidaan ekvivalentisti ajatella alkioittain tapahtuvana suppenemisena. Tavalliset raja-arvon laskusäännöt ovat selvästi voimassa: Jos xp → x ja yp → y, niin
xp + yp → x + y,
cxp → cx (c ∈ K).
P∞ Määritellään, että vektorisarja p=1 xp suppenee ja sen summa on x, jos sen osasummien PN P∞ jonon raja-arvo on x, eli jos p=1 xp → x kun N → ∞; tällöin merkitään p=1 xp = x. Sarjankin suppenemista ja summaa voidaan käsitellä vektorialkioittain: Merkitään xp = P∞ (xp1 , . . . , xpn )T ja x = (x1 , . . . , xn )T . Silloin p=1 xp = x jos ja vain jos kullakin i:llä sarja P∞ P∞ p=1 xpi suppenee ja p=1 xpi = xi . P∞ P∞ Tutut laskusäännöt pätevät: Jos p=1 xp = x ja p=1 yp = y, niin ∞ X
(xp + yp ) = x + y,
p=1
∞ X
cxp = cx
(c ∈ K).
p=1
Tavallisilla jonoilla (xk ) K:ssa on voimassa: Jos xk → x, niin |xk | → |x| (k → ∞), muttei P∞ kääntäen. Sarjoilla taas itseisestä suppenemisesta seuraa suppeneminen: Jos k=1 |xk | supP∞ penee, niin k=1 xk suppenee, muttei kääntäen. Todistetaan vastaavat seikat vektorijonoille ja -sarjoille.
Lause 5.4.1 Olkoon (xp ) jono Kn :n vektoreita ja olkoon h jokin vektorinormi. (i) Jos xp → x Kn :ssä, niin h(xp ) → h(x) R:ssä (p → ∞). (ii) Jos sarja
∞ P p=1
h(xp ) suppenee R:ssä, niin sarja
∞ P p=1
xp suppenee Kn :ssä.
Todistus. Lemma 5.1.5 antaa |h(xp ) − h(x)| ≤ h(xp − x), josta ensimmäinen väite seuraa. P∞ Oletetaan, että sarja p=1 h(xp ) suppenee. Lauseen 5.1.10 mukaan h0 (xp ) ≤ sh(xp ), P∞ missä s on vakio. Majoranttiperiaatteen nojalla sarja p=1 h0 (xp ) suppenee. Koska |xpi | ≤ P∞ h0 (xp ) ∀ p, i, niin majoranttiperiaatteen mukaan sarjat p=1 |xpi | suppenevat (i = 1, . . . , n). P∞ P∞ Siis sarjat p=1 xpi suppenevat. Näin ollen sarja p=1 xp suppenee. 2
Lemma 5.4.2 Olkoon xp = cp1 z1 + · · · + cpr zr (p = 1, 2, . . . ), missä z1 , . . . , zr ∈ Kn ovat vakiovektoreita ja cpi ∈ K. Jos limp→∞ cpi = ci (i = 1, . . . , r), niin lim xp = c1 z1 + · · · + cr zr .
p→∞
Kääntäen, jos z1 , . . . , zr ovat lineaarisesti riippumattomia ja jos limp→∞ xp on olemassa, niin raja-arvot limp→∞ cpi ovat olemassa.
LUKU 5. MATRIISIEN NORMIT
74
Todistus. Ensimmäinen väite nähdään heti ajattelemalla raja-arvoa vektorialkioittain. Oletetaan nyt, että z1 , . . . , zr ovat lineaarisesti riippumattomia ja limp→∞ xp on olemassa. Lemman 1.11.5 mukaan on sellaiset y1 , . . . , yr ∈ Kn , että hzi , yj i = δij . Ottamalla yhtälöstä xp = cp1 z1 + · · · + cpr zr puolittain sisätulo h−, yj i saadaan hxp , yj i = cpj . Pn Pn Merkitsetään x = (xp1 , . . . , xpn )T = i=1 xpi ei . Silloin hxp , yj i = i=1 xpi hei , yj i. Tämän raja-arvo on olemassa (p → ∞, j kiinitetty), joten samoin on cpj :n. 2 Erikoistapauksena vektorijonoista ja -sarjoista saadaan matriisijonot ja -sarjat . Käsittelemme seuraavassa vain neliömatriiseja. Olkoon (Ap ) jono matriiseja Mn (K):ssa ja merkitään (p) (p) Ap = (aij ). Silloin ensinnäkin limp→∞ Ap = (aij ) jos ja vain jos limp→∞ aij = aij ∀ i, j . P∞ P∞ (p) Toiseksi p=1 Ap = (bij ) jos ja vain jos p=1 aij = bij ∀ i, j . Tietenkin sama laskusäännöt ovat voimassa matriisijonoille ja -sarjoille kuin vektoreillekin, ja lisäksi tulee yksi uusi: Jos Ap → A ja Bp → B , niin Ap Bp → AB (p → ∞). Tämän voi todistaa samoin kuin kompleksilukujonojen vastaavan säännön, tai sen voi helposti palauttaa kompleksilukujonojen sääntöihin.
Esimerkki 5.4.3 Olkoon A = (aij ) ∈ Mn (K). Milloin Ap → O kun p → ∞? Vastausta ei saa tarkastelemalla alkioittain suppenemista, koska Ap :n alkiot ovat mutkikkaita lausekkeita. Helposti päätellään seuraava riittävä ehto: Jos kAk < 1 jonkin matriisinormin suhteen, niin Ap → O. Nimittäin tällöin MN4:n nojalla kAp − Ok = kAp k ≤ kAkp → 0, joten Ap → O. Eri matriisinormeista saadaan nyt erilaisia riittäviä kriteerejä sille, milloin Ap → O.
Esimerkki 5.4.4 Osoitetaan, että sarja I + A + A2 + · · · suppenee, kun kAk < 1 jonkin
P∞ matriisinormin suhteen: Koska kAp k ≤ kAkp , kun p > 0, ja koska sarja p=0 kAkp suppenee P∞ (geometrinen sarja, suhdeluku kAk < 1), niin myös sarja p=0 kAp k suppenee (majoranttiP∞ periaate). Lauseen 5.4.1 nojalla sarja p=0 Ap suppenee.
Esimerkki 5.4.5 Osoitetaan, että sarja
P∞
Ap suppenee tarkalleen silloin kun Ap → O, ja että tällöin summa on (I − A) . (Vertaa: 1 + q + q 2 + · · · suppenee jos ja vain jos |q| < 1 1 eli q i → 0, ja tällöin summa on 1−q .) p=0
−1
Esimerkki 5.4.6 Olkoon A, B, C, D ∈ Mn (K). Esimerkissä 1.7.4 johdettiin kaava µ det
A B C D
(
¶ =
det(AD − CB)
jos AC = CA,
det(DA − CB)
jos AB = BA,
sillä oletuksella, että A on säännöllinen. Osoitetaan nyt, että tulos laajenee myös tapaukseen, jossa A saa olla singulaarinen. Tarkastellaan tässä vain kuntaa K = K. Todetaan ensin, että jokainen neliömatriisi A on joidenkin säännöllisten matriisien rajaarvo: Merkitään µ = min{ |λ1 |, . . . , |λr | }, missä λ1 , . . . , λr ovat A:n nollasta eroavat ominaisarvot. Kun t ∈ K, 0 < |t| < µ, niin t ei ole A:n ominaisarvo, joten det(A−tI) = cA (t) 6= 0; siis A − tI on säännöllinen. Lisäksi A = limt→0 (A − tI); ajattele raja-arvoa matriisialkioittain.
LUKU 5. MATRIISIEN NORMIT
75
(Tämä on raja-arvo jatkuvan muuttujan t suhteen; se määritellään vastaavalla tavalla kuin matriisijonon raja-arvo. Toisaalta helpostihan asia voitaisiin lausua matriisijononkin avulla.) Jos AC = CA, niin (A − tI)C = C(A − tI), joten em. kaava antaa ¡ ¢ µ ¶ ( det (A − tI)D − CB jos AC = CA A − tI B ¡ ¢ (0 < |t| < µ). det = C D det D(A − tI) − CB jos AB = BA Kumpikin puoli on t:n polynomi. Väite saadaan ottamalla raja-arvo t → 0. (Tässä käsiteltiin tapaus K = K. Tulos kyllä pätee mielivaltaisellakin kunnalla K . Silloin raja-arvon otto ei ole mahdollista, mutta lauseen 4.2.2 todistuksen idea käy.)
Huomautus 5.4.7 Tarkastellaan ex :n esitystä Maclaurinin sarjana: ex =
P∞
1 i i=0 i! x ∀ x ∈ 1 p p=0 p! A suppenee.
P∞
C. Samoin kuin esimerkissä 5.4.4 näytetään, että kun A ∈ Mn (K), sarja Summaa merkitään eA :lla. Tällä tavoin voidaan määritellä tuttujen reaalifunktioiden vastineita matriiseille. EsimerP∞ kiksi logaritmifunktion sarjasta ln(1 − x) = − i=1 1i xi (x ∈ C, |x| < 1) voidaan muodostaa P∞ matriisifunktio ln(1 − A) = − p=1 p1 Ap . Esimerkin 5.4.4 tapaan nähdään, että sarja suppenee ainakin jos A:n ominaisarvot ovat itseisarvoltaan < 1; toisaalta se ei suppene aina. Vielä esimerkkinä mainittakoon matriisifunktio (I − A)−1 , joka esimerkin 5.4.5 mukaan P∞ voidaan esittää sarjana p=0 Ap kun tämä suppenee (ekvivalentisti: Ap → O), ja myöhemmin näemme, että näin käy tarkalleen silloin kun λA < 1. Toisaalta (I −A)−1 on määritelty paljon suuremmallakin matriisijoukolla: riittää, ettei 1 ole A:n ominaisarvo. Tämä synnyttää kysymyksiä, joihin saadaan joitain vastauksia seuraavassa luvussa: Voi√ daanko tuttuja funktioita kuten ln(1 − x), sin x, 1 + x jne. määritellä matriiseille jollain toisella menetelmällä kuin sarjoilla, jolloin ehkä ei aiheutuisi rajoituksia suppenemisista? Voidaanko matriisisarjojen suppenemisesta sanoa mitään tarkempaa; esimerkiksi voidaanko suppenemisehtoja lausua matriisin ominaisarvojen avulla? Onko näillä matriisifunktioilla tuttuja ominaisuuksia, esimerkiksi sin2 x + cos2 x = 1?
Huomautus 5.4.8 Koska Kn :ssä on vektorien etäisyyden käsite, pystytään kehittämään myös vektorien ja matriisien dierentiaali- ja integraalilaskentaa.
Luku 6
Komponenttimatriisit 6.1 Komponenttimatriisit: alialgebran hAi kanta Olkoon K mielivaltainen kunta. Muistetaan, että Mn (K) on assosiatiivinen K -algebra (määritelmä 1.5.1) ja että matriisin A generoima alialgebra on
hAi = hAialialg = {c0 I + c1 A + c2 A2 + · · · + ck Ak | k ≥ 0, ci ∈ K} = { p(A) | p(x) ∈ K[x]}. Lauseen 4.4.7 mukaan alialgebralla hAi on kanta {I, A, A2 , . . . , Am−1 }, missä m = deg ψA . Johdamme seuraavassa alialgebralle hAi toisen kannan, jonka avulla tiettyjen laskelmien suorittaminen on yksinkertaista ja jota käytämme myös matriisifunktioiden määrittelemiseen.
Lause 6.1.1 Olkoon A ∈ Mn (K). Oletetaan että cA (λ) hajoaa täydellisesti yli K :n; siis ψA (x) =
s Y
(x − λk )mk ,
(6.1)
k=1
missä λ1 , . . . , λs ∈ K ovat A:n erisuuret ominaisarvot. On sellainen täysi joukko ortogonaalisia idempotentteja E1 , . . . , Es ∈ hAi, että (A − λk I)mk −1 Ek 6= O,
(A − λk I)mk Ek = O
(k = 1, . . . , s).
(6.2)
Todistus. Merkitään ψek (x) =
s Y ψA (x) = (x − λi )mi ∈ K[x] (x − λk )mk
(k = 1, . . . , s).
(6.3)
i=1 i6=k
Silloin syt(ψe1 , . . . , ψes ) = 1, joten on sellaiset p1 (x), . . . , ps (x) ∈ K[x] että s X
pk (x)ψek (x) = 1.
k=1
76
(6.4)
LUKU 6. KOMPONENTTIMATRIISIT Merkitään
77
Ek = pk (A)ψek (A)
Silloin Ek ∈ hAi ja
s X
Ek =
k=1
s X
(6.5)
(k = 1, . . . , s).
pk (A)ψek (A) = I.
k=1
Kun k 6= l, niin Ek El = O, sillä
ψek (A)ψel (A) = ψek (A) · (A − λk I)mk ·
s Y
(A − λi I)mi ,
i=1 i6=k,l
ja tässä ψek (A)(A − λk I)mk = ψA (A) = O. Lisäksi Ek2 = Ek , koska
Ek = Ek I = Ek (E1 + · · · + Es ) = O + · · · + Ek2 + · · · + O = Ek2 . Siis E1 , . . . , Es muodostavat täyden joukon ortogonaalisia idempotentteja. Edelleen,
(A − λk I)mk Ek = (A − λk I)mk pk (A)ψek (A) = pk (A)ψA (A) = O. Vielä on osoitettava, että (A − λk I)mk −1 Ek 6= O. Olkoon kullakin k :lla nk pienin luku, jolla Qs (A − λk I)nk Ek = O. Silloin 0 ≤ nk ≤ mk . Merkitään q(x) = k=1 (x − λk )nk . Saadaan
q(A) = q(A)I = q(A)(E1 + · · · + Es ) =
s X
q(A)Ei =
i=1
s Y s X
(A − λk I)nk Ei .
i=1 k=1
Kaikki matriisit tässä kommutoivat. Kussakin tulossa on mukana tekijä (A − λi I)ni Ei = O, joten q(A) = O. Jos olisi nk < mk jollain k :lla, q(x) olisi ψA (x):ää alemmanasteinen A:n annihiloiva polynomi, mikä ei käy. Siis nk = mk (k = 1, . . . , s). 2
Lause 6.1.2 Olkoon A ∈ Mn (K), ja oletetaan että cA (λ) hajoaa täydellisesti yli K :n; siis (6.1) on voimassa. Silloin A:n generoimalla Mn (K):n alialgebralla hAialialg on kanta {Ykj | k = 1, . . . , s, j = 1, . . . , mk },
missä
(
Yk1 = Ek Ykj = (A − λk I)
(k = 1, . . . , s), j−1
Ek
(k = 1, . . . , s, j = 2, . . . , mk ),
(6.6)
(6.7)
ja E1 , . . . , Es ovat lauseessa 6.1.1 löydetyt idempotentit. Todistus. Ensinnäkin hAi = hAiE1 ⊕ · · · ⊕ hAiEs , missä hAiEk = {BEk | B ∈ hAi}. Jos nimittäin B ∈ hAi, niin B = BI = BE1 + · · · + BEs , ja jos BE1 + · · · + BEs = O, niin kertomalla matriiseilla E1 , . . . , Es vuorotellen saadaan BE1 = · · · = BEs = O. Riittää osoittaa, että kullakin k :lla matriisit Yk1 , . . . , Ykmk muodostavat hAiEk :n kannan. Selvästi Ykj ∈ hAiEk . Kun p ≥ 1, niin binomikaavan mukaan p µ ¶ p µ ¶ X X p p j Ap Ek = ((A − λk I) + λk I)p Ek = (A − λk I)p−j (λk I)j Ek = λ Ykj j j k j=0 j=0
LUKU 6. KOMPONENTTIMATRIISIT
78
(missä (A − λk I)0 Ek = Ek ). Näin ollen Yk1 , . . . , Ykmk virittävät hAiEk :n. Jos ne olisivat lineaarisesti riippuvia, niin olisi cr Ykr + · · · + cmk Ykmk = O, missä cr 6= 0. Kertomalla matriisilla (A − λk I)mk −r saataisiin cr (A − λk I)mk −1 Ek = O, siis ristiriita. 2 Kun char K = 0, luonnollisilla luvuilla 6= 0 jakaminen on luvallista. Koska Ykj :t muodostavat alialgebran hAi kannan, samoin muodostavat seuraavassa määriteltävät Zkj :t.
Määritelmä 6.1.3 Käytetään lauseen 6.1.2 oletuksia ja merkintöjä. Olkoon char K = 0. Matriisin A komponenttimatriiseiksi sanotaan matriiseja Zkj =
Zkj =
1 (j−1)! (A
− λk I)j−1 Ek
1 (j−1)! Ykj ,
siis (6.8)
(k = 1, . . . , s, j = 1, . . . , mk ),
missä matriisit Zk1 = Ek ovat lauseen 6.1.1 idempotentit. 6 2 2 Esimerkki 6.1.4 Matriisin A = −2 2 0 ∈ M3 (C) minimaalipolynomi on ψA (x) = 0 0 2 2 (x − 4) (x − 2). Lasketaan lauseen 6.1.1 idempotentit lauseen todistuksen menetelmällä. ToP detaan, että A 6= k λk Ek , siis toisin kuin diagonalisoituvien matriisien kohdalla on totuttu. Lasketaan sitten loputkin komponenttimatriisit, ja todetaan, että A saadaan komponenttimatriisiensa lineaarikombinaationa, kuten lauseen 6.1.2 mukaan pitää ollakin.
Esimerkki 6.1.5 Olkoon A nilpotentti. Silloin ψA (x) = xm , missä m on pienin sellainen positiiviluku, että Am = O. Ainoa ominaisarvo on λ1 = 0, ja m1 = m. Komponenttimatriisit ovat Z11 , Z12 , . . . , Z1m . Idempotentti E1 = Z11 muodostaa yksinään täyden joukon ortogonaaleja idempotentteja, joten Z11 = I . Muut komponenttimatriisit ovat
Z1j =
1 1 (A − λ1 I)j−1 E1 = Aj−1 (j − 1)! (j − 1)!
(j = 2, . . . , m).
Esimerkki 6.1.6 Olkoon J Jordanin lohko,
a 1 0 ... ... J = Jn (a) = . a 1 0 a n×n Ainoa ominaisarvo on λ1 = a, ja ψJ (x) = (x − a)n , joten m1 = n. Komponenttimatriisit ovat Z11 , Z12 , . . . , Z1n , missä Z11 = I , ja kun j = 2, . . . , n niin 0 ... 1 ... 0 . .. . ... . . 1 1 1 . j−1 j−1 . . Z1j = (J − λ1 I) E1 = (J − aI) = 1 . (j − 1)! (j − 1)! (j − 1)! . . . . ..
0
0
Esimerkki 6.1.7 Etsitään matriisin diag(J2 (a), J3 (a), J2 (b)) komponenttimatriisit (a 6= b). Esimerkki 6.1.8 Olkoon A diagonalisoituva. Osoitetaan, että sen komponenttimatriisit ovat samat kuin spektraalihajotelman idempotentit.
LUKU 6. KOMPONENTTIMATRIISIT
79
Esimerkki 6.1.9 Tarkastellaan kanta-alkioiden kertotaulua, kun käytetään hAi:n kantoja {I, A, . . . , Am−1 }, {Zkj | k = 1, . . . , s, j = 1, . . . , mk } ja {Xkj | k = 1, . . . , s, j = 0, . . . , mk −1}, missä Xkj = Yk,j+1 .
Esimerkki 6.1.10 Olkoon A ∈ Mn (C) ja ψA (x) = (x + 1)2 (x2 + 1). Kirjoitetaan A:n komponenttimatriisien kertotaulu. Paljonko on A:n polynomeja B = p(A), jotka toteuttavat yhtälön B 3 = B ?
Esimerkki 6.1.11 Olkoon A ∈ Mn (K). Oletetaan että cA (λ) hajoaa täydellisesti yli K :n. Osoitetaan, että A = S + N , missä S on diagonalisoituva ja N on nilpotentti ja S, N ∈ hAi.
Huomautus 6.1.12 Olemme käsitelleet vain matriiseja, mutta teorian olisi voinut muotoilla yleisemmäksikin. Nimittäin on K -algebraisomorsmi hAi ' K[x]/hψA (x)iihanne . Vastaavat tulokset saadaankin jokaiselle äärellisulotteiselle yhden alkion generoimalle K -algebralle; sellainen algebra on nimittäin aina ' K[x]/hp(x)iihanne jollain polynomilla p(x).
6.2 Komponenttimatriisit ja matriisipolynomit Määritellään polynomin h(x) = c0 xm + c1 xm−1 + · · · + cm ∈ K[x] derivaatta
h0 (x) = c0 mxm−1 + c1 (m − 1)xm−2 + · · · + cm−1 ∈ K[x]. Derivoimalla tätä yhä uudelleen saadaan korkeamman kertaluvun derivaatat h00 (x), h000 (x), h(4) (x), . . . . Merkitään myös h(x) = h(0) (x), h0 (x) = h(1) (x), jne. Helposti todetaan, että derivaatta noudattaa tuttuja summan ja tulon derivoimissääntöjä. Vakiopolynomin derivaatta on 0. Jos deg h(x) < m, niin h(m) (x) = 0. Myös tuttu Taylorin kaava
h(x) =
m X h(j) (a) j=0
j!
(x − a)j
(m ≥ deg h).
(6.9)
on näille polynomeille voimassa, kun char K = 0. Emme varsinaisesti tarvitse tätä kaavaa, mutta sitä kannattaa verrata seuraavaan lauseeseen.
Lause 6.2.1 Olkoon A ∈ Mn (K). Oletetaan, että char K = 0 ja että ψA (x) hajoaa täydellisesti yli K :n; siis ψA (x) = Silloin
Qs
mk , k=1 (x−λk )
h(A) =
mk s X X
missä λ1 , . . . , λs ovat A:n erisuuret ominaisarvot.
h(j−1) (λk )Zkj
∀ h(x) ∈ K[x].
(6.10)
k=1 j=1
Todistus. Väitteen kumpikin puoli on h(x):n suhteen lineaarinen, joten riittää todistaa tapaus h(x) = xp (p ≥ 0). Kun h(x) = xp , väitteen vasen puoli on (binomikaavan avulla) Ap = Ap I =
s X k=1
Ap Ek =
s X
(λk I + (A − λk I))p Ek =
k=1
p µ ¶ s X X p j−k λ (A − λk I)j Ek . (∗) j j=0
k=1
LUKU 6. KOMPONENTTIMATRIISIT Kun h(x) = xp , niin h(j) (λk ) =
h
dj xp dxj
i x=λk
väitteen oikea puoli on s mX k −1 · j p ¸ X d x k=1 j=0
dxj
x=λk
80
= p(p − 1) · · · (p − j + 1)λp−j = k
¡p¢ p−j j λk j! , joten
s mX k −1 µ ¶ X 1 p p−j (A − λk I)j Ek = λk (A − λk I)j Ek . j! j j=0
(∗∗)
k=1
Summassa (∗) termit ovat nollia, kun j ≥ mk , ja summassa (∗∗) termit ovat nollia, kun j > p. Siis summat ovat samat. 2
Seuraus 6.2.2 Jos h(x), p(x) ∈ K[x] ja jos h(j−1) (λk ) = p(j−1) (λk ) kun k = 1, . . . , s ja j = 1, . . . , mk , niin h(A) = p(A).
Esimerkki 6.2.3 Vakiopolynomi h(x) = 1 antaa I=
s X k=1
Zk1 =
s X
Ek .
(6.11)
k=1
Tämähän tiedettiin jo siitäkin että Ek :t muodostavat täyden joukon ortogonaalisia idempotentteja. Ottamalla h(x) = x saadaan
A=
s X
(λk Zk1 + Zk2 ),
(6.12)
k=1
missä sovitaan että Zk2 = O jos mk = 1. Tämä saadaan myös laskelmasta A = AI = P P P 2 k (λk Zk1 + Zk2 ). Tapaus h(x) = x antaa k (λk I + (A − λk I))Ek = k AEk =
A2 =
s X
(λ2k Zk1 + 2λk Zk2 + 2Zk3 ),
(6.13)
k=1
missä sovitaan että Zkj = O jos j > mk . Matriisien Zkj ominaisuus (6.10) määrää Zkj :t yksikäsitteisesti. Kun nimittäin ehtoon (6.10) sijoitetaan h(x):n paikalle polynomit h(x) = xp (p = 0, . . . , m − 1), missä m = dimhAi = deg ψA , saadaan yhtälöryhmä mk · j−1 p ¸ s X X d x p A = Zkj (p = 0, . . . , m − 1). (6.14) dxj−1 x=λk j=1 k=1
Alialgebran hAi kanta {I, A, . . . , Am−1 } on tässä lausuttuna toisen kannan { Zkj | k = P (p) (p) 1, . . . , s, j = 1, . . . , mk } avulla: Ap = k,j ckj Zkj , missä ckj ∈ K . Siis Zkj :t voidaan ratkaista yhtälöryhmästä. Erityisesti siis idempotentit Ek = Zk1 määräytyvät A:sta yksikäsitteisesti; tätähän emme lauseessa 6.1.1 todistaneet. Kun Zkj :t ratkaistaan ryhmästä (6.14), ne tulevat matriisien Ap lineaarikombinaatioina P (p) eli A:n polynomeina, Zkj = p qkj Ap = Qkj (A), Qkj (x) ∈ K[x]. Kannattaa huomata, että koska yhtälön (6.14) oikealla puolella matriisista A esiintyvät vain suureet s, mk , λk , jotka määräytyvät jo ψA :sta, niin jos matriisilla B on sama minimaalipolynomi, ψB = ψA , niin B :n komponenttimatriisit saadaan B :stä samoina polynomeina Qkj (B).
LUKU 6. KOMPONENTTIMATRIISIT
81
Yhtälöryhmästä (6.14) saadaan myös hyvä keino komponenttimatriisien laskemiseen. Tähän astihan meillä on ollut vain lauseen 6.1.1 todistuksen antama menetelmä idempotenttien Ek löytämiseksi, jonka jälkeen Zkj :t on saatu kaavasta (6.8). 6 2 2 Esimerkki 6.2.4 Olkoon A = −2 2 0 ∈ M3 (C) kuten esimerkissä 6.1.4. Sen minimaa0 0 2 lipolynomi on ψA (x) = (x − 4)2 (x − 2), joten λ1 = 4 ja λ2 = 2, ja komponenttimatriiseja on kolme: Z11 , Z12 ja Z21 . Kaavasta (6.14) p:n arvoilla 0, 1, 2, toisin sanoen kaavoista (6.11) (6.13), saadaan
I = Z11 + Z21 ,
A2 = 16Z11 + 8Z12 + 4Z21 .
A = 4Z11 + Z12 + 2Z21 ,
Näistä ratkaistaan
1 Z11 = − A2 + 2A − 3I , 4 Sijoittamalla A saadaan 1 0 0 Z11 = 0 1 1 ,
Z12 =
1 2 A − 3A + 4I , 2
Z12
0 0 0
2 2 2 = −2 −2 −2 , 0 0 0
Z21 =
1 2 A − 2A + 4I . 4
Z21
0 0 0 = 0 0 −1 . 0 0 1
Komponenttimatriiseja Zkj ratkaistaessa voi A:n potenssien Ap sijasta käyttää muitakin A:n polynomeja h1 (A), . . . , hm (A), jolloin yhtälöryhmäksi tulee
hi (A) =
mk s X X
(j−1)
hi
(λk )Zkj
(6.15)
(i = 1, . . . , m).
k=1 j=1
Riittää, että {h1 (A), . . . , hm (A)} on hAi:n kanta. Valitsemalla hi :t sopivasti yhtälöryhmään (j−1) voi saada useiksi kertoimiksi hi (λk ) nollia.
Esimerkki 6.2.5 Käyttämällä esimerkissä 6.2.4 polynomeja x − 2, x − 4, (x − 4)2 olisi yhtälöryhmään saatu nollakertoimia.
Esimerkki 6.2.6 Tarkastellaan uudestaan rekursiivisia lukujonoja esimerkissä 2.4.10. Komponenttimatriisien sovelluksena todistetaan seuraava tärkeä tulos.
Lause 6.2.7 Kun A ∈ Mn (C), niin lim Ap = O jos ja vain jos λA < 1 . p→∞
Todistus. Nyt Ap =
P
(p) k,j ckj Zkj ,
(p)
missä ckj =
h
dj−1 xp dxj−1
i x=λk
. Matriisit Zkj ovat lineaarisesti
riippumattomia vakiomatriiseja, joten lemman 5.4.2 mukaan limp→∞ Ap = O jos ja vain jos (p) limp→∞ ckj = 0 ∀ k, j . Laskemalla derivaatat saadaan (p)
ckj = p(p − 1) · · · (p − j + 2)λp−j+1 . k (p)
Selvästi limp→∞ ckj = 0 jos ja vain jos |λk | < 1. Väite seuraa tästä.
2
LUKU 6. KOMPONENTTIMATRIISIT
82
Huomautus 6.2.8 Rajoitus char K = 0 aiheutuu komponenttimatriiseista Zkj . Käyttämällä matriiseja Ykj saadaan kaavan (6.10) sijasta kaava
h(A) =
mk s X X
bkj Ykj ,
(6.16)
k=1 j=1
Pm missä kertoimet bkj määräytyvät yhtälöstä h(x) = j=0 bkj (x − λk )j ja ovat tietenkin aina yksikäsitteisinä olemassa (h(x) on polynomi). Tässä karakteristika saa olla mielivaltainen. Seuraamme kuitenkin perinteistä käsittelyä, joka tähtää matriisien f (A) määrittelyyn, kun f (x) on annettu kompleksifunktio.
6.3 Matriisin funktio f (A) Tässä pykälässä skalaarikuntana on C. Huomaa kuitenkin, että jos A ∈ Mn (R) ja jos ψA (λ) hajoaa täydellisesti yli R:n, eli jos kaikki ominaisarvot ovat reaalisia, komponenttimatriisitkin Zkj ovat reaalisia (yhtälöt (6.14)), ja kaikki voitaisiin käsitellä yli R:n. Määrittelemme nyt, mitä tarkoittaa f (A), kun f (x) on jokin kompleksifunktio, yleistämällä suoraan polynomeja koskevan kaavan (6.10).
Määritelmä 6.3.1 Olkoon A ∈ Mn (C) ja olkoot λ1 , . . . , λs A:n erisuuret ominaisarvot. Olkoon f : X → C (X ⊆ C) sellainen funktio, että
f (j−1) (λk ) on määritelty ∀ k = 1, . . . , s, j = 1, . . . , mk . Tällöin sanotaan, että f on määritelty A:n spektrillä , ja määritellään
f (A) =
mk s X X
f (j−1) (λk )Zkj .
(6.17)
k=1 j=1
missä Zkj :t ovat A:n komponenttimatriisit. Olkoon f jokin A:n spektrillä määritelty kompleksifunktio. Koska f (A) ∈ hAi, niin f (A) = h(A) jollain polynomilla h, ja jos vielä vaaditaan, että deg h < deg ψA , niin h on yksikäsitteinen. Vertaamalla f (A):n ja h(A):n kantaesityksiä (6.17) ja (6.10) saadaan: On yksikäsitteinen sellainen polynomi h(x), että ( f (j−1) (λk ) = h(j−1) (λk ) (k = 1, . . . , s, j = 1, . . . , mk ), (6.18) deg h < deg ψA . Polynomia h(x) sanotaan funktion f (x) interpolaatiopolynomiksi A:n spektrillä. Huomaa kuitenkin, että seurauksen 6.2.2 mukaan f (A) = p(A), kun p(x) on mikä tahansa sellainen polynomi, että f (j−1) (λk ) = p(j−1) (λk ) (k = 1, . . . , s, j = 1, . . . , mk ).
Huomautus 6.3.2 Kaavat (6.18) vastaavat seuraavaa yleistä tulosta, joka voitaisiin nyt helposti todistaa meidänkin tuloksistamme: Olkoot λ1 , . . . , λs ∈ K erisuuria ja ckj ∈ K (k = 1, . . . , s, j = 1, . . . , mk ). Silloin on yksikäsitteinen sellainen h(x) ∈ K[x], että h(j−1) (λk ) = ckj (k = 1, . . . , s, j = 1, . . . , mk ) ja deg h < m1 + · · · + ms . Tässä esiintyvän polynomin h(x) löytäminen on ns. yleinen Hermiten interpolaatiotehtävä.
LUKU 6. KOMPONENTTIMATRIISIT
83
√
Esimerkki 6.3.3 Lasketaan esimerkin 6.2.4 matriisille A funktio f (A) missä f (x) = + x. Ominaisarvot ovat λ1 = 4 ja λ2 = 2, joten f on määritelty A:n spektrillä, ja
√ 1 f (A) = f (λ1 )Z11 + f 0 (λ1 )Z12 + f (λ2 )Z21 = 2Z11 + Z12 + 2 Z21 . 4 Sijoittamalla matriisit A ja Zkj esimerkistä 6.2.4 saadaan
f (A) =
√
√
√
1 1 (−3 + 2 2 )A2 + (13 − 8 2 )A + (−5 + 4 2 )I = 8 4
Tätä voi merkitä
√
A . Laskemalla todetaan, että
√
5 2 1 − 2
1 2 3 2
1 2√
3 2− √
0 0
2.
2
2
A = A (vrt. pykälä 6.5).
Esimerkki 6.3.4 Oletetaan, että matriisin A ∈ Mn (C) ominaisarvot ovat positiivisia reaalilukuja. Määritetään limp→∞ A1/p . (Tässä A1/p = f (A) funktiolla f (x) =
√ p
x .)
Esimerkki 6.3.5 Osoitetaan, että matriisi U ∈ Mn (C) on unitaarinen tarkalleen silloin kun on sellainen itseadjungoitu matriisi H , että U = eiH . (Vertaa kompleksilukuja koskevaan seikkaan: Jos |z| = 1, niin z = eix , x ∈ R, ja kääntäen.) Tarkastellaan vielä f (A):n lausumista A:n Jordanin normaalimuodon avulla.
Esimerkki 6.3.6 Esimerkissä 6.1.6 laskettiin Jordanin lohkon J = Jn (a) komponenttimatriisit. Kun f (x) on kompleksifunktio ja f (a), f 0 (a), . . . , f (n−1) (a) ovat määritellyt, niin
f (J) =
n X
f (j−1) (a)Z1j
j=1
=
f (a) f 0 (a) f (a)
1 00 2! f (a) 0
f (a) f (a)
O
..........
1 (n−1) (a) (n−1)! f
........................... ........................... ........................... f (a) f 0 (a) f (a)
.
Valitsemalla erityisesti f (x) = xp saadaan
p J =
ap
pap−1 ap
O
p(p−1) p−2 a 2 p−1
pa ap
..........
p(p−1)···(p−n+2) p−n+1 a (n−1)!
.................................. .................................. .................................. ap pap−1 ap
.
Tietysti sama tulos tulee nopeammin J :n lausekkeesta J = aI + Hn ja binomikaavasta.
Lause 6.3.7 Olkoon A = diag(A1 , . . . , Ap ) ∈ Mn (C) kvasidiagonaalimatriisi ja olkoon f (x) jokin kompleksifunktio. Silloin f on määritelty A:n spektrillä jos ja vain jos f on määritelty ¡ ¢ kunkin Ai :n spektrillä, ja tällöin f (A) = diag f (A1 ), . . . , f (Ap ) .
LUKU 6. KOMPONENTTIMATRIISIT
84
Todistus. Ensinnäkin ψA (x) = pyj(ψA1 (x), . . . , ψAp (x)), koska jos q(x) ∈ C[x], niin q(A) = ¡ ¢ diag q(A1 ), . . . , q(Ap ) , joten q(A) = O ⇔ q(Ai ) = O ∀ i. Kun siis λ1 , . . . , λs ovat A:n erisuuret ominaisarvot, niin voidaan kirjoittaa ψA (x) =
s Y
(x − λk )mk ,
ψAi (x) =
s Y
(x − λk )mki
(i = 1, . . . , p),
k=1
k=1
missä mk ≥ 1 ja mki ≥ 0, ja nyt mk = maxi mki ∀ k . Ensimmäinen väite nähdään tästä. Olkoon h(x) funktion f (x) interpolaatiopolynomi A:n spektrillä. Silloin f (A) = h(A) = ¡ ¢ diag h(A1 ), . . . , h(Ap ) , ja tässä kukin h(Ai ) = f (Ai ), koska f (j−1) (λk ) = h(j−1) (λk ) ainakin kyseeseen tulevilla j :n ja k :n arvoilla. 2
Lause 6.3.8 Oletetaan, että matriisit A, B ∈ Mn (C) ovat similaariset, A = P −1 BP . Jos f on määritelty A:n spektrillä, niin f (A) = P −1 f (B)P . Todistus. Olkoon h funktion f interpolaatiopolynomi A:n spektrillä. Koska similaareilla matriiseilla on sama minimaalipolynomi, h on funktion f interpolaatiopolynomi myös B :n spektrillä. Siis f (A) = h(A) = h(P −1 BP ) = P −1 h(B)P = P −1 f (B)P . 2
Seuraus 6.3.9 Olkoon J = diag(J1 , . . . , Jt ) matriisin A Jordanin normaalimuoto ja olkoon A = P JP −1 . Kun f on kompleksifunktio, niin f on määritelty A:n spektrillä jos ja vain jos ¡ ¢ se on määritelty jokaisen Ji :n spektrillä, ja tällöin f (A) = P diag f (J1 ), . . . , f (Jt ) P −1 .
6.4 Matriisien funktiot sarjaesityksinä P∞ Tunnetusti kompleksiseen potenssisarjaan p=0 αp (z−z0 )p (missä αp , z0 ∈ C ovat vakioita ja z ∈ C on muuttuja) liittyy suppenemissäde r ≥ 0 tai r = ∞; sarja suppenee, kun |z − z0 | < r, ja hajaantuu, kun |z−z0 | > r. Potenssisarjan saa derivoida termeittäin suppenemisympyränsä (p) P∞ sisäosassa (muttei ehkä kehällä). Jos merkitään f (z) = p=0 αp (z − z0 )p , niin αp = f p!(z0 ) , P∞ (p) joten kyseessä on f :n Taylorin sarja f (z) = p=0 f p!(z0 ) (z − z0 )p .
Lause 6.4.1 Olkoon A ∈ Mn (C) ja olkoon f (z) kompleksifunktio. Oletetaan, että f (z) =
∞ X
αp (z − z0 )p
( |z − z0 | < r).
p=0
Jos A:n ominaisarvot λi toteuttavat ehdon |λi − z0 | < r ∀ i, niin f (A) on määritelty ja f (A) =
∞ X
αp (A − z0 I)p .
p=0
Todistus. Olkoot A:n erisuuret ominaisarvot λ1 , . . . , λs ja olkoot komponenttimatriisit Zkj (k = 1, . . . , s, j = 1, . . . , mk ) kuten aikaisemminkin. Oletusten nojalla derivaatat f (j−1) (λk ) ovat olemassa (j ≥ 1, k = 1 . . . , s), joten f on määritelty A:n spektrillä, ja f (A) =
mk s X X k=1 j=1
f (j−1) (λk )Zkj .
LUKU 6. KOMPONENTTIMATRIISIT
85
Derivaatat f (j−1) saadaan derivoimalla f :n sarjaa termeittäin; siis Ã∞ · ! ¸ mk s X X X dj−1 p f (A) = (αp (z − z0 ) ) Zkj . dz j−1 z=λk j=1 p=0 k=1
Lemman 5.4.2 nojalla (sarja on osasummiensa raja-arvo) saadaan ¸ mk · j−1 s X ∞ X X d f (A) = (αp (z − z0 )p ) Zkj . j−1 dz z=λk p=0 j=1 k=1
Väite nähdään tästä soveltamalla yhtälöä (6.10) polynomiin αp (z − z0 )p .
Esimerkki 6.4.2 Koska ex =
P∞
1 p p=0 p! A
2
P∞
1 p p=0 p! x
ja sarjan suppenemissäde on ääretön, niin eA = ∀ A ∈ Mn (C). Samoin funktioille sin A ja cos A saadaan tutut sarjakehitelmät.
µ
Esimerkki 6.4.3 Lasketaan eA kahdella tavalla, kun A =
¶ c c−1 , c 6= 1. 0 1
P∞ 1 Geometrisesta sarjasta 1−z = p=0 z p (|z| < 1|) P∞ saadaan f (A) = p=0 Ap , kun λA < 1. Mutta määritelmä 6.3.1 antaa f (A):n aina, kun 1 ei ole A:n ominaisarvo; tietysti nämä ovat ekvivalentit, kun λA < 1. (On kolmaskin tapa katsoa f (A):ta: Se on sama kuin käänteismatriisi (I − A)−1 . Perustelu saadaan pykälässä 6.5.)
Esimerkki 6.4.4 Merkitään f (z) =
1 1−z .
Sarjoja on muitakin kuin potenssisarjat. Tarkastellaan sellaisia aivan lyhyesti. Olkoon A ∈ Mn (C) ja olkoot λk :t ja Zkj :t kuten edellä. Olkoon f1 , f2 , . . . jono A:n spektrillä määriteltyjä funktioita. Silloin
fp (A) =
mk s X X
fp(j−1) (λk )Zkj
(p = 1, 2, . . . ).
k=1 j=1
Lemman 5.4.2 avulla saadaan heti seuraava lause.
Lause 6.4.5 Jono (fp (A)) suppenee jos ja vain jos jonot (fp(j−1) (λk )) C:ssä suppenevat (k = 1, . . . , s, j = 1, . . . , mk ). Suppenevassa tapauksessa lim fp (A) =
p→∞
mk s X X ( lim fp(j−1) (λk ))Zkj . k=1 j=1
p→∞
Oikean puolen raja-arvot otetaan pisteissä x = λk , mutta huomautuksen 6.3.2 mukaan (j−1) on sellainen h(x) ∈ C[x], että h(j−1) (λk ) = limp→∞ fp (λk ) (ko. k :illa ja j :illä), ja
lim fp (A) =
p→∞
mk s X X
h(j−1) (λk )Zkj = h(A).
k=1 j=1
Lause 6.4.6 Olkoot funktiot u1 , u2 , . . . määriteltyjä A:n spektrillä. Sarja penee jos ja vain jos sarjat
P∞
(j−1) (λk ) p=1 up
P∞ p=1
up (A) sup-
C:ssä suppenevat (k = 1, . . . , s, j = 1, . . . , mk ).
LUKU 6. KOMPONENTTIMATRIISIT
86
Suppenevassa tapauksessa on sellainen polynomi h(x), että h(j−1) (λk ) = (k = 1, . . . , s, j = 1, . . . , mk ), ja ∞ X up (A) = h(A).
P∞ p=1
(j−1)
up
(λk )
p=1
Jos u(x) on funktio ja u
(j−1)
(λk ) =
P∞
(j−1)
p=1 ∞ X
up
(λk ) (k = 1, . . . , s, j = 1, . . . , mk ), niin
up (A) = u(A).
p=1
Lause saadaan soveltamalla edellistä lausetta funktioihin fp (x) = väite tulee siitä, että oletuksista seuraa h(A) = u(A).
Pp q=1
uq (x). Viimeinen
6.5 Matriisifunktioiden välisistä relaatioista Kun g(x) on kompleksifunktio ja A ∈ Mn (C), sanotaan, että g(x) = 0 A:n spektrillä , jos g (j−1) (λk ) = 0 (k = 1, . . . , s, j = 1, . . . , mk ) (tavalliset merkinnät).
Lause 6.5.1 Olkoon A ∈ Mn (C). Oletetaan, että G(x1 , . . . , xl ) on l muuttujan polynomi ja f1 , . . . , fl ovat matriisin A spektrillä määriteltyjä funktioita. Jos G(f1 (x), . . . , fl (x)) = 0 A:n spektrillä, niin G(f1 (A), . . . , fl (A)) = 0. Todistus. Merkitään hi :llä fi :n interpolaatiopolynomia A:n spektrillä. Silloin fi (A) = hi (A). Merkitään g(x) = G(f1 (x), . . . , fl (x)) ja h(x) = G(h1 (x), . . . , hl (x)). Silloin g(x) ja h(x) yhtyvät A:n spektrillä (eli g(x)−h(x) = 0 A:n spektrillä), joten g(A) = h(A). Koska g(x) = 0 A:n spektrillä, niin h(x) = 0 A:n spektrillä, ja siis h(A) = O. Seuraa g(A) = O. 2
Huomautus 6.5.2 Idean selventämiseksi ajatellaan tapausta l = 1. Oletus oli G(f (x)) = 0 A:n spektrillä, eli (G ◦ f )(j−1) (λk ) = 0 kyseeseen tulevilla k :illa ja j :illä. Tämä antaa (G ◦ f )(A) = O. Mutta väite onkin, että G(f (A)) = O ! Ei ole selvää, että (G ◦ f )(A) ja G(f (A)) olisivat samat. Toisaalta varmasti on (G ◦ h)(A) = G(h(A)), koska G ja h ovat polynomeja. Siksi todistuksessa kuljettiin interpolaatiopolynomien kautta. Samalla nähdään, miksi lauseessa rajoituttiin polynomeihin G.
Esimerkki 6.5.3 Valitsemalla f1 (x) = sin x, f2 (x) = cos x ja G(x) = x21 + x22 − 1 saadaan sin2 A + cos2 A = I ∀ A ∈ Mn (C).
Esimerkki 6.5.4 Olkoon f (x) A:n spektrillä määritelty funktio ja f (λk ) 6= 0 kaikilla A:n ominaisarvoilla λk . Silloin f (A) on säännöllinen ja sen käänteismatriisille saadaan lauseke ¶¸ mk · j−1 µ s X X d 1 −1 f (A) = Zkj . (6.19) dxj−1 f (x) x=λk j=1 k=1
1 Nimittäin, kun f1 (x) = f (x) ja f2 (x) = f (x) , niin f1 (x)f2 (x) = 1, ja lauseesta 6.5.1 seuraa −1 f1 (A)f2 (A) = I ; siis f (A) = f2 (A). Käytetään f2 (A):lle kaavaa (6.17).
Esimerkki 6.5.5 Valitsemalla f1 (x) = exs , f2 (x) = ext , f3 (x) = ex(s+t) ja G(x1 , x2 , x3 ) = x1 x2 − x3 saadaan eAs eAt = eA(s+t) ∀ s, t ∈ C, A ∈ Mn (C).
Luku 7
Yleistetty käänteismatriisi Tässä luvussa skalaarikuntana on C.
7.1 Määritelmä Tarkastelemme kiinnitettyä matriisia A ∈ Mm×n (C). Se ja sen adjungoitu matriisi A∗ ∈ Mn×m (C) määräävät lineaarikuvaukset
Cn → Cm ,
x 7→ Ax
∀ x ∈ Cn ,
Cm → Cn ,
y 7→ A∗ y
∀ y ∈ Cm .
(7.1)
Tulomatriisit A∗A ∈ Mn (C) ja AA∗ ∈ Mm (C) antavat näiden yhdistetyt kuvaukset
Cn → Cn ,
x 7→ A∗Ax
∀ x ∈ Cn ,
Cm → Cm , y 7→ AA∗ y
∀ y ∈ Cm .
(7.2)
Lemma 7.1.1 Avaruudella Cn on suorasummahajotelma Cn = Ker(A∗A) ⊕ Im(A∗A),
ja
Ker(A∗A) = Ker(A) = Im(A∗ )⊥ , Im(A∗A) = Im(A∗ ) = Ker(A)⊥ .
(7.3)
(7.4)
Vastaava tulos on voimassa, jossa A ja A∗ on vaihdettu toisiinsa ja Cn :n tilalla on Cm . Todistus. Nyt Ker(A∗A) ⊆ Cn ja Im(A∗A) ⊆ Cn , ja lineaarikuvausten dimensioyhtälön mukaan dim Ker(A∗A) + dim Im(A∗A) = dim Cn = n. Siis suorasummahajotelma (7.3) seuraa, kun osoitetaan että Ker(A∗A) ∩ Im(A∗A) = {0}: Jos A∗Ax ∈ Ker(A∗A), niin
hA∗Ax , A∗Axi = hA∗AA∗Ax , xi = h0, xi = 0, 87
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
88
joten A∗Ax = 0. Triviaalisti Ker(A∗A) ⊆ Ker(A). Jos A∗Ax = 0, niin
hAx , Axi = hA∗Ax , xi = h0, xi = 0, joten Ax = 0. Siis Ker(A∗A) = Ker(A). Väite Ker(A) = Im(A∗ )⊥ nähdään yhtälöstä hAx, yi = hx, A∗ yi, sillä x ∈ Ker(A) jos ja vain jos hAx, yi = 0 ∀ y ∈ Cm , ja x ∈ Im(A∗ )⊥ jos ja vain jos hx, A∗ yi = 0 ∀ y ∈ Cm . Triviaalisti Im(A∗A) ⊆ Im(A∗ ). Siis vertaamalla suorasummahajotelmia
Cn = Ker(A) ⊕ Im(A∗A), Cn = Im(A∗ )⊥ ⊕ Im(A∗ ), joista edellinen juuri todistettiin ja jälkimmäinen saadaan yhtälöstä (1.31), nähdään, että Im(A∗A) = Im(A∗ ). Lopuksi, Ker(A)⊥ = Im(A∗ )⊥⊥ = Im(A∗ ). Viimeinen väite on selvä. 2 Avaruuksilla Cn ja Cm on siis ortogonaaliset suorasummahajotelmat
Cn = Im(A∗ ) ⊕ Ker(A), Cm = Im(A) ⊕ Ker(A∗ ).
(7.5)
Seuraus 7.1.2 Kuvaukset Im(A∗ ) → Im(A),
x 7→ Ax
∀ x ∈ Im(A∗ ),
Im(A) → Im(A∗ ),
y 7→ A∗ y
∀ y ∈ Im(A).
(7.6)
ovat bijektioita. Todistus. Kuvaus Cn → Im(A), x 7→ Ax, on tietenkin surjektio. On helppo todeta, että sen restriktio Im(A∗ ):lle on sekä surjektio että injektio; tämä johtuu siitä, että Im(A∗ ):n suorasummakomplementti hajotelmassa (7.5) on tarkalleen kuvauksen ydin Ker(A). Samoin saadaan toinen väite käyttämällä jälkimmäistä suorasummahajotelmista (7.5). 2 Huomaa, että vaikka kuvaukset (7.6) ovatkin bijektioita samojen avaruuksien välillä päinvastaisiin suuntiin, ne eivät yleensä ole toistensa käänteiskuvauksia!
Määritelmä 7.1.3 Konstruoidaan lineaarikuvaus τ : Cm → Cn asettamalla, että τ kuvaa Im(A):n alkiot kuten bijektion Im(A∗ ) → Im(A), x 7→ Ax, käänteiskuvaus ja että τ kuvaa Ker(A∗ ):n alkiot 0:ksi. Kuvauksen τ matriisi A+ luonnollisten kantojen suhteen on A:n yleistetty käänteismatriisi eli MoorenPenrosen (yleistetty) käänteismatriisi . Määritelmästä nähdään heti, että matriisin A ∈ Mm×n (C) yleistetty käänteismatriisi A ∈ Mn×m (C) on aina olemassa ja yksikäsitteinen, ja lisäksi (A+ )+ = A. ³ ´ Esimerkki 7.1.4 Lasketaan A+ määritelmän 7.1.3 mukaan, kun A = 00 10 . +
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
89
Lause 7.1.5 Matriisin A ∈ Mm×n (C) yleistetty käänteismatriisi A+ ∈ Mn×m (C) on se yksikäsitteinen matriisi X ∈ Mn×m (C), joka toteuttaa ehdot (AX)∗ = AX,
(XA)∗ = XA,
AXA = A,
XAX = X.
(7.7)
Todistus. Osoitetaan ensin, että A+ toteuttaa ehdot (7.7). Muistetaan, että kaksi kuvausta f ja g ovat käänteiskuvauksia jos ja vain jos f ◦ g ja g ◦ f ovat identiteettikuvauksia. Määritelmän 7.1.3 käänteiskuvausehto merkitsee siis, että AA+ Ax = Ax ∀ x ∈ Cn ,
A+ AA∗ y = A∗ y
∀ y ∈ Cm .
Edellinen antaa AA+ A = A. Kun z ∈ Cm , niin A+ z = A∗ y jollain y:llä, koska Im(A+ ) = Im(A∗ ); siis yhtälö A+ AA+ z = A+ z tulee muotoon A+ AA∗ y = A∗ y, joka yllä todetun mukaan on tosi. Saadaan A+ AA+ = A+ . (Vaihtoehtoisesti voisi käyttää sitä että A = (A+ )+ .) Matriisi P = A+ A on idempotentti, sillä P 2 = A+ AA+ A = A+ A = P . Ajattelemalla em. suorasummahajotelmia ja kuvauksia nähdään, että
Im(P ) = Im(A+ A) = Im(A∗ ),
Ker(P ) = Ker(A+ A) = Ker(A).
Siis Im(P ) = Ker(P )⊥ , joten P on ortogonaalinen projektio. Lauseen 2.3.11 nojalla P on itseadjungoitu, eli (A+ A)∗ = A+ A. Soveltamalla tätä matriisiin A+ saadaan (AA+ )∗ = AA+ . Olkoon nyt X matriisi, joka täyttää ehdot (7.7). Silloin
AX = (AX)∗ = X ∗ A∗ = X ∗ (AA+ A)∗ = X ∗ A∗ (A+ )∗ A∗ = (AX)∗ (AA+ )∗ = (AX)(AA+ ) = AA+ . Symmetrisesti osoitetaan, että XA = A+ A. Siis X = XAX = XAA+ = A+ AA+ = A+ .
2
Merkitään, kun M ∈ Mp×q (C), PM :llä ortogonaalista projektiota Cp :n aliavaruudelle ∗ 2 Im(M ); siis PM ∈ Mp (C), PM = PM = PM ja Im(PM ) = Im(M ).
Seuraus 7.1.6 Kun A ∈ Mm×n (C), niin A+ ∈ Mn×m (C) on se yksikäsitteinen matriisi X ∈ Mn×m (C), joka toteuttaa ehdot AX = PA ,
XA = PX .
(7.8)
Todistus. Lauseen 7.1.5 todistuksessa nähtiin, että AA+ = PA . Koska (A+ )+ = A, niin myös A+A = PA+ . Siis A+ toteuttaa ehdot (7.8). Oletetaan, että X toteuttaa ehdot (7.8). Riittää todeta, että X toteuttaa ehdot (7.7), ∗ koska silloin seuraa X = A+ . Saadaan (AX)∗ = PA∗ = PA = AX ; (XA)∗ = PX = PX = XA; AXA = PA A = A (koska Im(A) = Im(PA ) ja PA on idempotentti); XAX = PX X = X . 2 Ehdot (7.7) ovat Penrosen määritelmä (1955) ja ehdot (7.8) ovat Mooren määritelmä (1920) A+ :lle. ³ ´ Esimerkki 7.1.7 Tarkistetaan esimerkin 7.1.4 tulos A+ = 01 00 .
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
90
Esimerkki 7.1.8 a) Jos A on säännöllinen neliömatriisi, niin A+ = A−1 . −1 b) Jos D = diag(d1 , . . . , dk , 0, . . . , 0), di 6= 0 ∀ i, niin D+ = diag(d−1 1 , . . . , dk , 0, . . . , 0).
Esimerkki 7.1.9 Kun U ja V ovat unitaarisia (sopivaa kokoa), niin (U A)+ = A+ U ∗ ja (AV )+ = V ∗ A+ . Nämä nähdään tarkistamalla Penrosen ehdot (7.7).
Esimerkki 7.1.10 Olkoon A ∈ Mm×n (C) ja b ∈ Cm . Osoitetaan, että yhtälöryhmällä Ax = b on ratkaisu jos ja vain jos AA+ b = b, jolloin x0 = A+ b on eräs ratkaisu ja yleinen ratkaisu on x = x0 + (I − A+A)y, y ∈ Cn .
Lause 7.1.11 Oletetaan, että matriisi A ∈ Mm×n (C) on hajotettu muotoon A = BC , missä B on m×k -matriisi ja C on k×n-matriisi (jollain k :lla), ja lisäksi k = r(B) = r(C). Silloin A+ = C ∗ (CC ∗ )−1 (B ∗ B)−1 B ∗ .
(7.9)
Todistus. Todetaan ensin, että matriisit B ∗ B ja CC ∗ ovat säännöllisiä. Lineaarikuvausten dimensioyhtälön mukaan dim Ker(B) = k − dim Im(B) = k − r(B) = k − k = 0, joten Ker(B) = {0}. Toisaalta lemmasta 7.1.1 saadaan Ker(B ∗ B) = Ker(B). Siis B ∗ B on neliömatriisi ja Ker(B ∗ B) = {0}, joten B ∗ B on säännöllinen. Soveltamalla tätä matriisiin C ∗ saadaan, että myös CC ∗ on säännöllinen. Näin ollen matriisi X = C ∗ (CC ∗ )−1 (B ∗ B)−1 B ∗ ∈ Mn×m (C) voidaan muodostaa. (Tarkista myös matriisien tyypit.) Todetaan, että se täyttää lauseen 7.1.5 ehdot. Ensinnäkin
AX = BCX = BCC ∗ (CC ∗ )−1 (B ∗ B)−1 B ∗ = B(B ∗ B)−1 B ∗ , josta nähdään, että (AX)∗ = AX (yleisesti (M −1 )∗ = (M ∗ )−1 ). Samoin saadaan (XA)∗ = XA. Edelleen,
AXA = BCC ∗ (CC ∗ )−1 (B ∗ B)−1 B ∗ BC = BIIC = BC = A, ja XAX = X osoitetaan samoin.
2
Kaava (7.9) antaa käyttökelpoisen menetelmän A+ :n laskemiseksi. Kun nimittäin matriisin A ∈ Mm×n (C) aste on r, niin lauseen 1.8.2 mukaan Am×n = Bm×r Cr×n ja todistuksesta saa keinonkin eräiden tällaisten matriisien B ja C löytämiseksi. ! Ã 7 3 1 1 3 1 1 0 . Esimerkki 7.1.12 Lasketaan A+ , kun A = 10 4 2 1 ! Ã 1 0 + Esimerkki 7.1.13 Lasketaan A , kun A = 1 1 . 0 1
Esimerkki 7.1.14 Osoitetaan, että kaava (7.9) voidaan kirjoittaa A+ = C + B + . (Vertaa esimerkkiin 7.1.15.)
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
91
´ ³ ´ ³ ´ 1 1 10 1 −1 + −1 ja B = . Silloin A = A = 0 1 00 0 1 ja B + = B , koska A on säännöllinen ja B on ortogonaalinen projektio. Lisäksi AB = B joten ³ ´ 1 −1 + + + −1 + + + (AB) = B . Toisaalta B A = BA = 0 0 ; siis (AB) 6= B A !
Esimerkki 7.1.15 Olkoon A =
³
Esimerkki 7.1.16 Olkoon A ∈ Mm×n (C)³, A 6= O´, ja oletetaan, että jos A on neliömatriisi
O A A+ O ∈ Mm+n (C). Osoitetaan, että ψB (x) = 3 x − x. Mitkä B :n ominaisarvot ovat? Miten sen komponenttimatriisit ja ominaisavaruudet löydetään?
niin se ei ole säännöllinen. Merkitään B =
7.2 Sovellus: yhtälöryhmän likimääräinen ratkaiseminen Lineaarinen yhtälöryhmä, jossa on m yhtälöä ja n tuntematonta, voidaan kirjoittaa matriisiyhtälöksi Ax = b, missä A ∈ Mm×n (C), b ∈ Cm , ja x = (x1 , . . . , xn )T . Jos ryhmällä ei ole ratkaisua, niin voidaan etsiä sellaisia vektoreita x, että |Ax − b| on pienin mahdollinen. Nämä ovat ryhmän parhaita likimääräisratkaisuja pienimmän neliösumman mielessä (ajattele vektorin pituuden kaavaa). Tarkastellaan suorasummahajotelmaa Cn = Ker(A) ⊕ Ker(A)⊥ = Ker(A) ⊕ Im(A+ ). Olkoon x ∈ Cn . Kirjoitetaan x = x0 + x1 missä x0 ∈ Ker(A) ja x1 ∈ Im(A+ ). Silloin x0 ⊥ x1 . Nyt A+ Ax = x1 ja A+ Ax0 = 0; ks. seuraus 7.1.6. Pythagoraan lauseen mukaan
|x|2 = |x0 |2 + |x1 |2 .
Lause 7.2.1 Tehtävän |Ax − b| = minimi, |x| = minimi, ratkaisu on x = A+ b. Tehtävä tarkoittaa, että ensin haetaan ne x:t, joilla |Ax − b| saavuttaa minimin, ja sitten niiden joukosta haetaan ne x:t, joilla |x| saavuttaa minimin.
Todistus. Kirjoitetaan b = b0 + b1 missä b0 ∈ Ker(A+ ) ja b1 ∈ Im(A); siis b1 = AA+ b. Olkoon x ∈ Cn . Koska Ax − b1 ∈ Im(A) niin Pythagoraan lauseen mukaan |Ax − b|2 = |(Ax − b1 ) − b0 |2 = |Ax − b1 |2 + |b0 |2 ≥ |b0 |2 . Lausekkeella |Ax − b| on siis alaraja |b0 |. Tämä alaraja saavutetaan kun x = A+ b, koska tällöin Ax − b1 = AA+ b − b1 = 0. Tämä valinta samalla minimoi |x|:n näiden ratkaisujen joukossa. Jos nimittäin y ∈ Cn on toinen jolla Ay = b1 , niin kirjoitetaan y = y0 + y1 missä y0 ∈ Ker(A) ja y1 ∈ Im(A+ ), jolloin siis y1 = A+ Ay = A+ b1 = A+ b = x, ja nyt
|y|2 = |y0 |2 + |y1 |2 = |y0 |2 + |x|2 ≥ |x|2 .
2
Esimerkki 7.2.2 Etsitään pienimmän neliösumman mielessä paras likimääräinen ratkaisu yhtälöryhmälle
= 1, x1 + 2x2 x1 + x2 − x3 = −1, x2 + x3 = 1.
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
92
7.3 Singulaariarvohajotelma Itseadjungoidut matriisit AA∗ ja A∗A ovat diagonalisoituvia, joten niiden ominaisvektoreista voidaan muodostaa kannat Cn :lle ja Cm :lle (lauseet 3.2.6 ja 2.2.6). Lisäksi ominaisarvot ovat reaalisia ja ≥ 0, ja eri ominaisarvoihin kuuluvat ominaisvektorit ovat ortogonaaliset (lause 3.2.3, esimerkki 5.3.7 ja lause 3.2.5).
Lause 7.3.1 Olkoon A ∈ Mm×n (C) ja r(A) = k. Matriisien AA∗ ja A∗A positiiviset ominaisarvot ovat samat kertalukuineen. Niitä on tarkalleen k kappaletta (kun kukin ominaisarvo lasketaan kertalukunsa ilmoittaman määrän kertoja). Todistus. Olkoon x ∈ Cn ominaisarvoon λ kuuluva A∗A:n ominaisvektori, siis A∗Ax = λx. Jos λ = 0, niin x ∈ Ker(A∗A) = Ker(A), ja jos λ 6= 0, niin x = λ−1 A∗Ax ∈ Im(A∗A) = Im(A∗ ). Lemman 7.1.1 mukaan Cn = Im(A∗ ) ⊕ Ker(A). Koska A∗A:n ominaisvektoreista saadaan avaruuden kanta, niin Ker(A) on A∗A:n ominaisarvoon 0 kuuluva ominaisavaruus ja Im(A∗ ) on muiden ominaisavaruuksien summa. Positiivisten ominaisarvojen määrä (kertalukuineen) on nyt sama kuin niiden geometristen kertalukujen summa, siis sama kuin dim Im(A∗ ) = r(A∗ ) = r(A) = k. Samoin Cm = Im(A)⊕Ker(A∗ ), ja tässä Ker(A∗ ) on AA∗ :n ominaisarvoon 0 kuuluva ominaisavaruus ja Im(A) on muiden ominaisavaruuksien summa, ja positiivisten ominaisarvojen määrä on dim Im(A) = r(A) = k . Olkoon λ matriisin A∗A positiivinen ominaisarvo ja {v1 , . . . , vg } (⊆ Cn ) ortogonaalinen joukko siihen kuuluvia ominaisvektoreita. Merkitään
1 ui = √ Avi λ
(∈ Cm )
(i = 1, . . . , g).
(7.10)
Silloin
1 1 hAvi , Avj i = hA∗Avi , vj i = hvi , vj i, (7.11) λ λ joten myös u1 , . . . , ug ovat ortogonaalisia ja 6= 0. Ne ovat AA∗ :n ominaisarvoon λ kuuluvia ominaisvektoreita, koska hui , uj i =
√ 1 1 AA∗ ui = √ AA∗Avi = √ A(λvi ) = λ Avi = λui . λ λ Täten λ:n geometrinen kertaluku (ja siis algebrallinen kertaluku) AA∗ :n ominaisarvona on ≥ λ:n kertaluku A∗A:n ominaisarvona. Lähtemällä matriisista AA∗ voidaan samalla tavalla todistaa kertalukujen välinen päinvastainen epäyhtälö. Siis kertaluvut ovat yhtä suuret. 2 Olkoon edelleen A ∈ Mm×n (C) ja r(A) = k . Olkoot λ1 , . . . , λk matriisin A∗A positiiviset ominaisarvot numeroituina niin että λ1 ≥ · · · ≥ λk (toistot mukana). Valitaan Cn :lle kanta v1 , . . . , vn , missä vi (1 ≤ i ≤ k ) on λi :hin kuuluva ominaisvektori ja vk+1 , . . . , vn ovat 0:aan kuuluvia ominaisvektoreita (jos 0 on ominaisarvo). Valitaan kanta
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
93
ortonormaaliksi; tämä on mahdollista, koska A∗A on itseadjungoitu. Siis {v1 , . . . , vk } on Im(A∗ ):n kanta ja {vk+1 , . . . , vn } on Ker(A):n kanta. Merkitään
1 ui = √ Avi λi
(i = 1, . . . , k)
(7.12)
kuten lauseen 7.3.1 todistuksessa. Siellä nähtiin, että u1 , . . . , uk ovat matriisin AA∗ positiivisiin ominaisarvoihin λ1 , . . . , λk kuuluvia ominaisvektoreita. Yhtälön (7.11) nojalla nekin ovat ortonormaaleja, ja ne muodostavat Im(AA∗ ) = Im(A):n kannan. Täydennetään se Cm :n kannaksi {u1 , . . . , uk , uk+1 , . . . , um }, missä {uk+1 , . . . , um } on Ker(A∗ ):n ortonormaali kanta. Myös joukko {u1 , . . . , um } on ortonormaali, koska Ker(A∗ ) ⊥ Im(A). Merkitään
V = U =
¡ ¡
v1 | . . . | vn
¢ ¢
∈ Mn (C),
u1 | . . . | um ∈ Mm (C),
(7.13)
missä vi :t ja ui :t ovat matriisien pystyrivit. Koska kannat ovat ortonormaaleja, U ja V ovat unitaarisia. Saadaan
p ¡ ¢ ¡p ¢ AV = Av1 | . . . | Avn = λ1 u1 | . . . | λk uk | 0 | . . . | 0 .
(7.14)
Tämä voidaan kirjoittaa AV = U Σ, missä Ã ! p ¢ ¡p D O , D = diag λ1 , . . . , λk . Σ= O O Koska V on unitaarinen, niin A = U ΣV ∗ . Kirjoitetaan tulos lauseeksi.
Määritelmä 7.3.2 Matriisin A ∈ Mm×n (C) singulaariarvoiksi sanotaan lukuja σi =
p
λi
(i = 1, . . . , k),
missä k = r(A) ja λ1 , . . . , λk ovat matriisin A∗A positiiviset ominaisarvot (ja myös matriisin AA∗ positiiviset ominaisarvot, kukin otettuna kertalukunsa ilmoittaman määrän kertoja).
Lause 7.3.3 Olkoot matriisin A ∈ Mm×n (C) singulaariarvot σ1 ≥ · · · ≥ σk . Merkitään D = diag(σ1 , . . . , σk ). Silloin A voidaan esittää muodossa A = U ΣV ∗
(A:n singulaariarvohajotelma),
missä U on unitaarinen m×m-matriisi, V on unitaarinen n×n-matriisi ja à ! D O Σ= ∈ Mm×n (C). O O
(7.15)
(7.16)
Huomaa, että U ja V ovat neliömatriiseja ja että Σ on samaa tyyppiä kuin A. Matriisi D on diagonaalinen neliömatriisi ja Σ:ssa olevat nollamatriisit valitaan sopivan kokoisiksi. Saimme samalla menetelmän eräiden tällaisten matriisien U ja V löytämiseksi.
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
94
Huomautus 7.3.4 Matriisi A on kuvauksen Cn → Cm , x 7→ Ax, matriisi luonnollisten kantojen suhteen, ja Σ on saman kuvauksen matriisi kantojen {v1 , . . . , vn } ja {u1 , . . . , um } suhteen (ks. (7.14)). Lisäksi U ja V ∗ (tai V ) ovat kannanvaihtojen matriisit ko. kantojen ja luonnollisten kantojen välillä jompaankumpaan suuntaan. Matriisi D taas on A:n määräämän kuvauksen Im(A∗ ) → Im(A) matriisi kantojen {v1 , . . . , vk } ja {u1 , . . . , uk } suhteen. ! Ã 1 1 Esimerkki 7.3.5 Selvitetään matriisin A = 2 2 singulaariarvohajotelma. Matriisin 2 2 ! Ã µ ¶ 2 4 4 9 9 ∗ ∗ A A = 9 9 ominaisarvot ovat 18, 0, ja matriisin AA = 4 8 8 ominaisarvot ovat 4 8 8 √ √ 18, 0, 0. Siis A:n ainoa singulaariarvo on σ1 = 18 = 3 2. Matriisille A∗A haetaan ortonormaali ominaisvektorijoukko, joka on C2 :n kanta: ( λ1 = 18 : v1 = √12 (1, 1)T ,
λ2 = 0 :
v2 =
√1 (1, −1)T . 2
Haetaan AA∗ :lle vastaava ominaisvektorijoukko: λ = 18 : u1 = σ11 Av1 = 31 (1, 2, 2)T , 1 ( u2 = √15 (−2, 1, 0)T , λ2 = 0 : 1 u3 = 3√ (2, 4, −5)T . 5 Ensin vektori u1 laskettiin kaavasta (7.10), ja kanta täydennettiin valitsemalla ominaisarvoon 0 kuuluvat ortonormaalit ominaisvektorit u2 , u3 . Singulaariarvohajotelmaksi saadaan 1 √ 2 ! − √25 3√ 3 2 0 Ã √1 3 5 √1 2 1 4 2 2 √ √ 0 A=3 . 0 5 3 √5 √1 − √12 5 2 2 0 0 0 − 3 3
µ
Lause 7.3.6 Jos matriisin A singulaariarvohajotelma on A = U ΣV ∗ , missä Σ = µ
niin A:n yleistetty käänteismatriisi on A+ = V Σ+ U ∗ , missä Σ+ =
¶ D−1 O . O O
Todistus. Helposti todetaan, että V Σ+ U ∗ toteuttaa lauseen 7.1.5 ehdot.
¶ D O O O ,
2
Huomaa, että A+ ja Σ+ ovat samaa tyyppiä kuin A∗ ja että D−1 = diag(σ1−1 , . . . , σk−1 ). ! Ã 1 1 Esimerkki 7.3.7 Matriisin A = 2 2 singulaariarvohajotelmasta saadaan 2 2
à +
A =
√1 2 √1 2
√1 2 − √12
!Ã
1 √ 3 2
0 0
0
0 0
!
1 3 − √2 5 2 √ 3 5
Esimerkki 7.3.8 A+ = (A∗A)+ A∗ = A∗ (AA∗ )+ .
2 3 √1 5 4 √ 3 5
2 3
−
0 = √ 5 3
à 1 18
1 2 1 2
2 2
! .
LUKU 7. YLEISTETTY KÄÄNTEISMATRIISI
95
Esimerkki 7.3.9 Osoitetaan, että jos A ∈ Mn (C) on säännöllinen ja σ1 ≥ · · · ≥ σn ovat sen singulaariarvot, niin
¯ © ª σn = min kA − A0 k ¯ A0 on singulaarinen , missä k · k on euklidinen matriisinormi. Olkoon singulaariarvohajotelma A = U ΣV ∗ . Koska A on säännöllinen, samoin on Σ, joten A:lla on n singulaariarvoa ja Σ = diag(σ1 , . . . , σn ). Matriisi A0 = U diag(σ1 , . . . , σn−1 , 0)V ∗ on singulaarinen, ja esimerkin 5.3.9 mukaan
kA − A0 k = kU diag(0, . . . , 0, σn )V ∗ k = k diag(0, . . . , 0, σn )k = σn . Olkoon nyt C sellainen matriisi, että kA − Ck < σn . On osoitettava, että C on säännöllinen. Käyttämällä taas esimerkkiä 5.3.9 saadaan
kA − Ck = kU ΣV ∗ − Ck = kU (Σ − U ∗ CV )V ∗ k = kΣ − U ∗ CV k. Merkitään M = Σ − U ∗ CV , ja olkoot m1 , . . . , mn matriisin M pystyrivit. Matriisin M Σ−1 pystyrivit ovat σ1−1 m1 , . . . , σn−1 mn . Yleisesti, jos matriisin X pystyrivit ovat x1 , . . . , xn , niin ¡P ¢ 2 1/2 sen euklidinen normi on kXk = . Näin ollen i |xi |
kM Σ
−1 2
k =
n X i=1
|σi−1 mi |2
=
n X i=1
−2
|σi |
2
−2
|mi | ≤ |σn |
n X
|mi |2 = |σn |−2 kM k2 < 1.
i=1
Esimerkkien 5.4.4 ja 5.4.5 mukaan matriisi I − M Σ−1 on säännöllinen. Siis samoin on
C = U (Σ − M )V ∗ = U (I − M Σ−1 )ΣV ∗ .
Huomautus 7.3.10 On jopa voimassa: Olkoon A = U diag(σ1 , . . . , σk , 0, . . . , 0)V ∗ singulaariarvohajotelma. Olkoon 0 ≤ r < k . Silloin matriiseista, joiden aste on ≤ r, (eräs) A:ta lähinnä oleva on U diag(σ1 , . . . , σr , 0, . . . , 0)V ∗ . Tämä pätee minkä tahansa unitaarisesti invariantin normin suhteen (esimerkki 5.3.9).
Huomautus 7.3.11 Matriisin A ∈ Mn (C) esitystä muodossa A = HW , missä H on positiivisesti semideniitti (siis itseadjungoitu ja ominaisarvot ≥ 0) ja W on unitaarinen, sanotaan A:n polaarihajotelmaksi . (Yleensä H ja W eivät kommutoi.) Tapauksessa n = 1 kyse on tavallisesta kompleksilukujen z ∈ C polaariesityksestä: z = |z|(cos φ + i sin φ) = |z|eiφ . Singulaariarvohajotelma A = U ΣV ∗ antaa polaarihajotelman A = (U ΣU ∗ )(U V ∗ ). Voidaan osoittaa, että jos A on säännöllinen, sen polaarihajotelma on yksikäsitteinen.
Luku 8
Epänegatiiviset matriisit 8.1 PerroninFrobeniuksen lause PerroninFrobeniuksen lause koskee matriiseja (aij ), joissa aij ≥ 0 ∀ i, j . Kun A, B ∈ Mm×n (R), A = (aij ), B = (bij ), merkitään
A≥B
⇐⇒
aij ≥ bij
∀ i, j,
(8.1)
A>B
⇐⇒
aij > bij
∀ i, j.
(8.2)
Huomaa, ettei A > B tarkoita samaa kuin A ≥ B , A 6= B . Matriisi A on epänegatiivinen, jos A ≥ O, ja positiivinen, jos A > O; tässä O on nollamatriisi samaa tyyppiä kuin A. Nämä koskevat erityisesti vektoreita v = (v1 , . . . , vn )T ∈ Rn : v on epänegatiivinen eli v ≥ 0, jos vi ≥ 0 ∀ i ; v on positiivinen eli v > 0, jos vi > 0 ∀ i. Kun A, B ≥ O, niin AB ≥ O, ja kun A, B > O, niin AB > O (kun tulo AB on määritelty). Erityisesti matriisille A ∈ Mn (R) ja vektorille v ∈ Rn on voimassa
A≥O
=⇒
Ap ≥ O
∀ p ≥ 1;
A>O
=⇒
Ap > O
∀ p ≥ 1;
A ≥ O, v ≥ 0
=⇒
Av ≥ 0;
A > O, v > 0
=⇒
Av > 0.
Otamme todistamatta käyttöön seuraavan lauseen.
Lause 8.1.1 Olkoon A ∈ Mn (R), A ≥ O. Seuraavat ehdot ovat ekvivalentit: µ
(i) Ei ole permutaatiomatriisia P , jolla P AP
riiseja.
T
=
¶ B C , missä B ja D ovat neliömatO D
(ii) (I + A)n−1 > O. (iii) A:lla on skalaarikerrointa vaille yksikäsitteinen ominaisvektori v ≥ 0. Lisäksi v > 0. 96
LUKU 8. EPÄNEGATIIVISET MATRIISIT
97
Määritelmä 8.1.2 Matriisi A ≥ O on redusoitumaton, jos se toteuttaa lauseen 8.1.1 ehdot (i)(iii). Muuten A on redusoituva. Erityisesti positiivinen neliömatriisi on redusoitumaton. Kohdan (i) muunnos A 7→ P AP T merkitsee A:n vaaka- ja pystyrivien järjestysten vaihtamista samalla permutaatiolla. ! Ã 1 1 11 123 0 1 0 1 Esimerkki 8.1.3 Matriisit 4 5 6 ja 1 1 1 1 ovat redusoituvia. 009 0 1 01 ¯ © ª Muistetaan, että matriisin A spektraalisäde on λA = max |λk | ¯ λk on A:n ominaisarvo . Ominaisarvo λi on yksinkertainen, jos sen algebrallinen kertaluku on 1.
Lause 8.1.4 (PerronFrobenius) Olkoon A ∈ Mn (R). Oletetaan, että A ≥ O, A 6= O ja että A on redusoitumaton. Silloin (i)
λA on A:n ominaisarvo ja λA > 0;
(ii)
λA on A:n yksinkertainen ominaisarvo;
(iii)
ominaisarvoon λA kuuluu ominaisvektori v > 0;
(iv)
mihinkään muuhun A:n ominaisarvoon ei kuulu ominaisvektoria ≥ 0.
Lauseen tilanteessa ominaisarvoa λA sanotaan A:n Perronin juureksi ja siihen kuuluvaa ominaisvektoria v > 0 Perronin vektoriksi. Kohdan (ii) nojalla v on skalaarikerronta vaille yksikäsitteinen. Lause todistetaan pykälissä 8.1.18.1.2.
Esimerkki 8.1.5 Havainnollistetaan piirroksella redusoitumattoman epänegatiivisen matriisin ominaisarvojen sijaintia kompleksitasossa.
Huomautus 8.1.6 Perron todisti lauseen 1907 positiivisen matriisin tapauksessa ja Frobenius 1912 epänegatiivisen redusoitumattoman matriisin tapauksessa. Oikeastaan lause 8.1.4 on vain osa PerroninFrobeniuksen lauseesta, joka antaisi tarkempaa tietoa muistakin ominaisarvoista ja matriisin rakenteesta (ks. Gantmacher tai Berman & Plemmons tai Fiedler).
8.1.1 Epänegatiivinen matriisi Lemma 8.1.7 Olkoon γ ∈ C, γ 6= 0. Jos γ ei ole positiivisella reaaliakselilla, on sellaiset luvut w1 , . . . , wr ≥ 0 (jollain r:llä), että 1 +
r X
wi γ i = 0.
i=1
Todistus on helppo ja jää lukijan tehtäväksi. Sen voi perustaa seuraavaan ideaan: Voidaan olettaa, että |γ| = 1. Pääsääntöisesti löydetään sellainen r, että 0 on kolmiossa, jonka kärjet ovat 1, γ, γ r . Tällaisen kolmion pisteet voidaan esittää muodossa x1 1 + x2 γ + x3 γ r , missä x1 , x2 , x3 ≥ 0 ja x1 + x2 + x3 = 1. Lausutaan 0 tässä muodossa, ja jos x1 6= 0, väite saadaan jakamalla x1 :llä.
C
................................ ........ ...... ...... ..... γ ..... ..... ..... ...... ... ....• . ...... ........ . . . . . r−1.... ...... .... . . γ . . ... . ...... .... . . • . . ... ...... . . ...... ..... ..... ...... ...• . . . . . . . . . . . . . .. . . ... ... ......... . . . . . . . . . . . . . . . . . . . ... . ... .. ...... .. ... ........................................ . . . . . . . . . . . . . . . γ r •....... ... ..... .... ...... ..... ....... ..... ............ .................. ..........
1
LUKU 8. EPÄNEGATIIVISET MATRIISIT
98
Seuraus 8.1.8 Kun on annettuna luvut γ1 , . . . , γh ∈ C, jotka eivät ole nollia eivätkä positiivisella reaaliakselilla, niin on sellainen polynomi W (x) = 1 + w1 x + · · · + wr xr (jollain r:llä), että w1 , . . . , wr ≥ 0 ja W (γ1 ) = · · · = W (γh ) = 0. Todistus. Otetaan lemman kullekin γi :lle antamien polynomien tulo.
2
Seuraava tulos on PerroninFrobeniuksen lauseen todistuksen ydin. Nimityksiä Perronin juuri ja Perronin vektori käytetään myös redusoituville matriiseille A ≥ 0; tällöin Perronin vektori ei kuitenkaan välttämättä ole skalaarikerrointa vaille yksikäsitteinen.
Lause 8.1.9 Olkoon A ∈ Mn (R), A ≥ O. Silloin λA on A:n ominaisarvo ja siihen kuuluu ominaisvektori v ≥ 0. Todistus. Jos ensinnäkin λA = 0, niin 0 on A:n ainoa ominaisarvo, joten A on nilpotentti (esimerkki 2.1.2 tai Jordanin normaalimuoto). Valitaan x > 0. Jollain r:llä Ar x 6= 0 ja Ar+1 x = 0. Silloin Ar x on väitetty ominaisvektori ≥ 0. Qs Oletetaan nyt, että λA > 0. Merkitään ψA (x) = k=1 (x − λk )mk , missä λ1 , . . . , λs ovat A:n erisuuret ominaisarvot, numeroituina niin, että |λ1 | = |λ2 | = · · · = |λν | > |λν+1 | ≥ · · · ≥ |λs |.
(8.3)
Silloin λA = |λ1 | = · · · = |λν |. Oletetaan numerointi vielä sellaiseksi, että (8.4)
m1 = m2 = · · · = mh > mh+1 ≥ · · · ≥ mν . Merkitään M = m1 . Kaavasta (6.14) saadaan p
A
=
mk s X X
p(p − 1) · · · (p − j + 2)λp−j+1 Zkj k
(p ≥ 1).
(8.5)
k=1 j=1
Erotamme nyt summasta termit, jotka ovat dominoivia, kun p → ∞. Kirjoitetaan µ ¶p−j+1 mk s X X p(p − 1) · · · (p − j + 2) λk 1 Ap = pM −1 λpA Zkj . j−1 M −1 p λA λA j=1 k=1
Hajotetaan summa neljään osaan: mk s X X k=1 j=1
=
h X k=1 j=M
+
h M −1 X X k=1 j=1
+
mk ν X X k=h+1 j=1
+
mk s X X
merk.
= S1 + S2 + S3 + S4 .
k=ν+1 j=1
Summassa S2 matriisin Zkj kerroin → 0 kun p → ∞; nimittäin siinä |λk /λA | = 1, joten tekijä (λk /λA )p−j+1 pysyy rajoitettuna, ja p:n murtolauseke p(p − 1) · · · (p − j + 2)/pM −1 → 0, sillä osoittajassa on tekijöitä ≤ M − 2 kappaletta. Siis S2 → 0 kun p → ∞. Aivan samasta syystä S3 → 0 kun p → ∞. Edelleen, S4 → 0 kun p → ∞, koska |λk /λA | < 1 ja koska (λk /λA )p−j+1 eksponenttifunktiona lähestyy nollaa niin nopeasti, ettei kertominen murtolausekkeella p(p − 1) · · · (p − j + 2)/pM −1 muuta asiaa (vaikka murtolauseke ehkä → ∞).
LUKU 8. EPÄNEGATIIVISET MATRIISIT Näin ollen
1 pM −1 λpA
Ap =
h X
99
ckp ZkM + Rp
(p = 1, 2, . . . ),
(8.6)
k=1
missä Rp → O kun p → ∞, ja
ckp
p(p − 1) · · · (p − M + 2) = pM −1
µ
λk λA
¶p−M +1
1 −1 λM A
(k = 1, . . . , h, p = 1, 2, . . . ). (8.7)
−1 Koska |ckp | → 1/λM 6= 0 ja koska ZkM :t ovat lineaarisesti riippumattomia, niin A Ph k=1 ckp ZkM 9 O kun p → ∞ (lemma 5.4.2); ehkei raja-arvo ole olemassakaan. Siis
1 Ap 9 O pM −1 λpA
(p → ∞).
(8.8)
Koska (A − λk I)Zkmk = O (katso lause 6.1.1 ja (6.8)), niin
AZkmk = λk Zmk
(k = 1, . . . , s).
(8.9)
Matriisin Zkmk pystyrivit 6= 0 ovat siis λk :hon kuuluvia A:n ominaisvektoreita. Tavoitteenamme on todistaa, että jokin ominaisarvoista λ1 , . . . , λh on λA . Koska |λ1 | = · · · = |λh | = λA , on osoitettava, että jokin näistä λi :stä on positiivinen reaaliluku. Sovitaan, ettei mikään ominaisarvoista λ2 , . . . , λh ole positiivinen reaaliluku, ja osoitetaan, että tällöin λ1 on positiivinen reaaliluku. Pr i Olkoon W (x) = i=0 wi x seurauksen 8.1.8 luvuille λ2 , . . . , λh antama polynomi; siis w0 = 1, wi ≥ 0 ∀ i ja W (λ2 ) = · · · = W (λh ) = 0. Kerrotaan (8.6) matriisilla W (A). Koska Ai Zkmk = λik Zkmk , niin W (A)Zkmk = W (λk )Zkmk . Saadaan
1 pM −1 λpA
W (A)Ap = c1p W (λ1 )Z1M + W (A)Rp .
(8.10)
Tässä W (A)Rp → O kun p → ∞. Toisaalta (pM −1 λpA )−1 W (A)Ap 9 O; nimittäin muuten epäyhtälöstä Ã ! r X 1 1 1 p i W (A)A = M −1 p I + wi A Ap ≥ M −1 p Ap ≥ O, pM −1 λpA p λA p λA i=1 saataisiin (pM −1 λpA )−1 Ap → O (ajattele matriisialkioittain), joka on vastoin edellä todettua. Jos λ1 ei olisi positiivinen reaaliluku, polynomi W (x) voitaisiin valita sellaiseksi, että myös W (λ1 ) = 0. Yhtälöstä (8.10) saataisiin (pM −1 λpA )−1 Ap → O, ristiriita. Näin ollen λ1 on positiivinen reaaliluku. Siis λA = λ1 on ominaisarvo. −1 Koska c1p → 1/λM kun p → ∞, niin yhtälöstä (8.10) saadaan A
lim
1
p p→∞ pM −1 λ A
W (A)Ap =
1 −1 λM A
W (λ1 )Z1M .
(8.11)
Vasen puoli ≥ O ja oikealla puolella λA > 0 ja W (λ1 ) = W (λA ) > 0. Näin ollen Z1M ≥ O, ja tietenkin Z1M 6= O. Siis Z1M :llä on jokin pystyrivi v ≥ 0, v 6= 0. Tämä on väitetty λ1 :een kuuluva ominaisvektori ≥ 0. 2
Esimerkki Tutkitaan jonoja (8.6) ja (8.10) ja erityisesti matriisin W (A) merkitystä, ³ 8.1.10 ´ kun A =
01 10 .
LUKU 8. EPÄNEGATIIVISET MATRIISIT
100
8.1.2 PerroninFrobeniuksen lauseen todistus Olkoon A ≥ O, A 6= O, redusoitumaton matriisi. PerroninFrobeniuksen lause väittää, että (i)
λA on A:n ominaisarvo ja λA > 0;
(ii)
λA on A:n yksinkertainen ominaisarvo;
(iii)
ominaisarvoon λA kuuluu ominaisvektori v > 0;
(iv)
mihinkään muuhun A:n ominaisarvoon ei kuulu ominaisvektoria ≥ 0.
Lauseessa 8.1.9 todistettiin, että λA on ominaisarvo ja että siihen kuuluu ominaisvektori v ≥ 0. Lauseen 8.1.1 kohdasta (iii) saadaan v > 0. Siis (iii) on tosi. Nyt Av = λA v. Jos olisi λA = 0, niin Av = 0, ja koska A ≥ O ja v > 0, seuraisi A = O, mikä on vastoin oletusta. Siis (i) on todistettu. Väite (iv) tulee lauseen 8.1.1 kohdasta (iii). Enää on todistamatta (ii). Merkitään λA = λ1 . Osoitetaan ensin, että λ1 :n geometrinen kertaluku on 1. Olkoon v > 0 kuten edellä ja olkoon u jokin toinen λ1 :een kuuluva ominaisvektori. Kun t on kyllin suuri, tv + u > 0. Lauseen 8.1.1 kohdan (iii) mukaan v ja tv + u ovat lineaarisesti riippuvat, joten samoin ovat v ja u. Siis geometrinen kertaluku on 1. Tämä merkitsee, että A:n Jordanin normaalimuodossa J on vain yksi λ1 :een liittyvä Jordanin lohko (vertaa esimerkkiin 4.11.10). Väite seuraa, kun osoitetaan, että lohkon riviluku on 1. Tehdään vastaoletus, että sen riviluku on ainakin 2. Kyseisestä lohkosta saadaan sellaiset ei ja ej , että Jei = ei ja eTj J = λ1 eTj . (Sanotaan, että ei on J :n oikea ja ej on vasen ominaisvektori.) Koska lohkon riviluku on ≥ 2, niin i 6= j , joten hei , ej i = 0. Olkoon J = P −1 AP , missä P on säännöllinen matriisi. Merkitään x = P ei ja y = (P −1 )T ej . Silloin
Ax = P JP −1 P ei = P Jei = λ1 P ei = λ1 x, yTA = eTj P −1 P JP −1 = eTj JP −1 = λ1 eTj P −1 = λ1 yT , hx, yi = yT x = eTj P −1 P ei = eTj ei = hei , ej i = 0. Koska λ1 :n geometrinen kertaluku on 1, niin x = av. Myös AT ≥ O ja AT on redusoitumaton (helposti lauseen 8.1.1 kohdasta (i) tai (ii)); siis samoin on y = bw, missä w > 0 on AT :n ominaisvektori. Mutta koska v, w > 0, niin hv, wi 6= 0, siis myös hx, yi 6= 0, ristiriita. 2
8.1.3 Positiiviset ja primitiiviset matriisit Matriisi A ≥ O on primitiivinen, jos Ak > O jollain k :lla. On voimassa implikaatiot
A positiivinen
=⇒
A primitiivinen
=⇒
A redusoitumaton.
Jälkimmäinen implikaatio tulee helposti lauseen 8.1.1 kohdasta (i) tai (ii).
Lause 8.1.11 Olkoon A ≥ O primitiivinen matriisi. Silloin |λi | < λA aina kun λi on ominaisarvo ja λi 6= λA .
LUKU 8. EPÄNEGATIIVISET MATRIISIT
101
Todistus. Olkoon Ak > O. Silloin Ak+1 > O. Nimittäin matriisissa A ei ole nollarivejä, koska sellaiset säilyisivät potenssissa Ak ; siis matriisiin Ak+1 = AAk ei tule nolla-alkioita. Olkoot λ1 , . . . , λs A:n erisuuret ominaisarvot, missä λ1 = λA (lause 8.1.9). Siis |λi | ≤ λ1 ∀ i. Matriisin Ak ominaisarvot ovat λk1 , . . . , λks , joista osa voi olla samoja (lause 1.10.5). Koska |λki | = |λi |k ≤ λk1 ∀ i, niin λk1 = λAk . Koska Ak > O, voidaan valita niin pieni ² > 0, että B = Ak − ²I > O. Matriisin B ominaisarvot ovat λk1 − ², . . . , λks − ². Koska λk1 = λAk , niin λk1 on suurin Ak :n reaalisista ominaisarvoista. Siis λk1 − ² on suurin B :n reaalisista ominaisarvoista. Koska B > O, tästä seuraa lauseen 8.1.9 nojalla λB = λk1 − ². Näin ollen |λki − ²| ≤ λB = λk1 − ² ∀ i. Tarkastellaan yhtä A:n ominaisarvoa λi 6= λ1 . Jos sattuu olemaan λki = λk1 , niin λk+1 6= i k+1 k k λ1 (nythän λ1 6= 0). Voimme siis olettaa, että λi 6= λ1 ; tarvittaessa k voidaan korvata (k + 1):llä koska Ak+1 > O. Saadaan |λki | = |(λki − ²) + ²| ≤ |λki − ²| + ² ≤ (λk1 − ²) + ² = λk1 . Ensimmäinen epäyhtälö on kolmioepäyhtälö C:ssä. Jos siinä tulee yhtäsuuruus, niin λki − ² on positiivinen reaaliluku; tällöin taas toinen epäyhtälö on aito: |λki − ²| = λki − ² < λk1 − ². Näin ollen |λki | < λk1 , josta |λi | < λ1 . 2
Esimerkki 8.1.12 Havainnollistetaan taas ominaisarvojen sijaintia kuviolla. Havainnollistetaan myös todistuksen vaiheita kompleksitason ympyröillä, erityisesti viimeisen kappaleen päätelmää.
Esimerkki 8.1.13 Olkoon A = (aij ) ∈ Mn (R). Oletetaan, että aij > 0 ∀ i 6= j . Silloin B = A + cI > O kun c > 0 on kyllin suuri, joten B :hen voidaan soveltaa PerroninFrobeniuksen lausetta ja lausetta 8.1.11. Tutkitaan, mitä tästä seuraa A:n ominaisarvoille ja -vektoreille. Esimerkki 8.1.14 Olkoon A ≥ O. Osoitetaan, että jos A on redusoitumaton, (8.6) yksinkertaistuu muotoon h
X 1 p p A = E1 + λA
k=2
µ
λk λA
¶p Ek + Rp
(p = 1, 2, . . . ).
(8.12)
Osoitetaan, että jos A on primitiivinen, (8.6) yksinkertaistuu muotoon
1 p A = E1 + Rp λpA
(p = 1, 2, . . . );
1 p p A = E1 . p→∞ λ A
tällöin siis lim
8.2 Sovellus: Markovin ketjut Sovelluksissa esiintyvät matriisit ovat usein epänegatiivisia.
(8.13)
LUKU 8. EPÄNEGATIIVISET MATRIISIT
102
Olkoon tutkittavana systeemi, joka on kullakin ajanhetkellä jossakin n tilasta s1 , . . . , sn ja joka suorittaa ajoittain transition uuteen tilaan. Oletetaan, että transitiot tapahtuvat todennäköisyyden mukaan: jos systeemi on tilassa si , niin transition jälkeen se on tilassa sj P todennäköisyydellä tij (missä tij ≥ 0 ja j tij = 1). Oletetaan edelleen, että tij :t ovat koko ajan vakioita. Tällaista systeemiä kutsutaan (äärelliseksi homogeeniseksi) Markovin ketjuksi. Kuvataan systeemin tilaa k transition jälkeen vaakavektorilla π(k) = (π1 (k), . . . , πn (k)), missä πi (k) on todennäköisyys, että systeemi on tilassa i. Seuraavan transition jälkeen vektori on π(k + 1) = (π1 (k + 1), . . . , πn (k + 1)), missä
πj (k + 1) =
n X
πi (k)tij .
i=1
Siis π(k + 1) = π(k)T , missä matriisi T = (tij ) on transitiomatriisi. Merkitään π(0) = (π1 (0), . . . , πn (0)); siis πi (0) on todennäköisyys sille, että systeemin alkutila on i. Koska
π(k) = π(0)T k
(k = 0, 1, 2, . . . ),
¡ ¢∞ niin systeemin käyttäytyminen tunnetaan, jos matriisijonon T k k=0 käyttäytyminen tunnetaan. Määritelmän mukaan T ≥ O. Jos T on primitiivinen, niin alkutilasta riippumatta π(k) → vT , missä v = (v1 , . . . , vn )T on matriisin T T Perronin vektori normalisoituna niin, että v1 + · · · + vn = 1. Tietenkin teoria soveltuu aina, kun transitiot voidaan esittää vakiotransitiomatriisilla, joka on epänegatiivinen ja redusoitumaton; ei tarvitse olla kyse todennäköisyyksistä.