LE FIBRE DI UNA APPLICAZIONE LINEARE
Transcript
LE FIBRE DI UNA APPLICAZIONE LINEARE
LE FIBRE DI UNA APPLICAZIONE LINEARE Sia f:A→B una funzione tra due insiemi. Se y appartiene all’immagine di f si chiama “fibra di f sopra y” l’insieme f-1(y) ossia l’insieme di tutte le controimmagini di y, cioé l’insieme di tutti gli x di A che hanno come immagine y. Poiché ogni elemento di A ha una e una sola immagine in B risulta evidente che le fibre di f costituiscono una partizione di A. Nel caso che A e B siano due spazi vettoriali V e W e f sia una applicazione lineare abbiamo già studiato in dettaglio una delle fibre: il nucleo di f che non é altro che la fibra sopra 0W. Abbiamo in particolare visto che si tratta di un sottospazio. Vogliamo far vedere che anche le altre fibre non sono sottoinsiemi qualsiasi di V ma possiedono una certa regolarità di comportamento. Consideriamo l’esempio della applicazione lineare g:R2→R2 che manda ogni vettore v nel vettore sua proiezione ortogonale sull’asse x. Il nucleo di g é l’asse y. Le altre fibre sono tutte le rette di R2 parallele all’asse y, cioé parallele a Ker f. Possiamo descrivere il comportamento che ci interessa di questo concetto di rette “parallele” come segue: (i) due rette parallele si ottengono l’una dall’altra per traslazione, ossia spostando tutti i punti di una retta di un vettore fissato (ii) le rette parallele ad una retta data costituiscono una partizione di R2, ossia per ogni punto passa una e una sola di queste rette. Per cercare un concetto generale degli spazi vettoriali che sia l’analogo del concetto di rette parallele ad una retta data definiamo il concetto di laterale di un sottospazio. Dato uno spazio vettoriale V, un suo sottospazio H e un vettore qualunque x di V, definiamo il laterale x+H come l’insieme x+H = {x+h|h ∈ H} ossia come l’insieme ottenuto sommando il vettore fisso x a tutti i vettori di H, o ancora traslando H del vettore x. E’ dunque riprodotta esattamente la (i). Vediamo che vale la (ii). In effetti ogni vettore v∈V si può scrivere come v+0V ∈ v+H, pertanto il laterale v+H passa per v. Inoltre se due laterali x+H e y+H si incontrano in un vettore q essi coincidono. Sia infatti q ∈ x+H∩y+H. Allora q si può scrivere come q = x+h con h ∈ H ma anche come q = y+h’ con h’ ∈ H. Da x+h = y+h’ si ha x-y = h’-h e quindi x-y ∈ H. Sia ora u un qualunque elemento del primo laterale x+H, ossia sia u = x+k con k ∈ H. Si può scrivere u = y+[(x-y)+k] e poiché [(x-y)+k] appartiene ad H in quanto somma di vettori di H, si conclude u ∈ y+H, dunque il primo laterale é contenuto nel secondo. Ripetendo il ragionamento partendo da y+H si trova che il secondo laterale é contenuto nel primo, e dunque i due laterali coincidono. Osserviamo infine che H stesso é un laterale perché si ha evidentemente H = 0V+H. Sia dunque f:V→W una applicazione lineare e consideriamo il sottospazio Ker f. Abbiamo allora in V due diverse partizioni: la partizione nei laterali di Ker f e la partizione nelle fibre di f. L’esempio fatto poco sopra suggerisce che queste due partizioni coincidano. Vediamo che in effetti accade proprio così per qualunque applicazione lineare. Sia v un vettore di V e sia w = f(v). Pertanto v é un qualunque elemento della fibra f–1(w). Facciamo vedere che la fibra f-1(w) coincide proprio con il laterale v+Ker f. La fibra é contenuta nel laterale. Infatti sia z ∈ f-1(v). Possiamo scrivere z = v+(z-v) e inoltre z–v ∈ ker f in quanto f(z-v) = f(z)-f(v) = w-w = 0W. Pertanto z ∈ v+Ker f Il laterale é contenuto nella fibra. Infatti sia u ∈v+Ker f. Allora u si scrive v+h con h ∈ Ker f. Quindi f(u) = f(v+h) = f(v)+f(h) = w+0W = w. Quindi u ∈ f-1(w). L’utilità pratica di queste osservazioni sta nel fatto seguente: può essere più facile calcolare il nucleo di f piuttosto che una sua fibra sopra un vettore non nullo. Allora é interessante sapere che si può ottenere la fibra voluta calcolando prima il nucleo e poi traslandolo di un particolare elemento della fibra stessa, pur di essere venuti in qualche modo in possesso di un tale particolare elemento della fibra. Sia ad esempio f:R3[X] →R2[X] l’applicazione lineare definita da f(P) = P” (derivata seconda del polinomio P). Calcolare ad esempio la fibra f-1(5X) richiede la conoscenza delle regole di integrazione, mentre é sufficiente dire che la derivazione di un polinomio fa scendere di uno il grado per affermare che il nucleo di f é formato da tutti e soli i polinomi del tipo aX+b. Se allora in un modo qualsiasi si sa che la derivata seconda di (5/6)X3 é proprio 5X, ossia (5/6)X3 ∈ f–1(5X), si può affermare che la fibra f-1(5X) é costituita da tutti i polinomi del tipo (5/6)X3+aX+b al variare di a e b in R. SISTEMI LINEARI E FIBRE Un sistema di equazioni lineari di m equazioni in n incognite é un sistema del tipo a11x1+a12x2+ ………..+a1nxn = b1 a21x1+a22x2+ ………..+a2nxn = b2 ………………………………… ………………………………… am1x1+am2x2+ ……….+amnxn = bm dove i coefficienti aij e i termini noti bi appartengono a un certo campo K (ad esempio sono numeri reali o complessi). Si dice soluzione una n-upla (c1,c2,...,cn) di elementi di K che sostituita alle incognite x1,x2,...,xn rende verificate tutte le uguaglianze. Si può scrivere il sistema anche nella forma AX = B dove A é la matrice degli aij (detta “matrice dei coefficienti”, X é la matrice a n righe e una sola colonna formata dalle n incognite e B é la matrice a m righe e una sola colonna formata dagli m termini noti. Le equazioni del sistema indicano che se f é l’applicazione lineare f:Kn→Km associata alla matrice A rispetto alle basi canoniche, allora si ha f(x1,x2,...,xn) = (b1,b2,...,bm). Pertanto risolvere il sistema significa trovare tutte queste n-uple (x1,x2,...,xn). Risolvere il sistema significa dunque determinare la fibra f-1(B) di f sopra B. In questa ottica si ritrovano tutte le seguenti affermazioni circa la risolubilità e la natura delle soluzioni di un sistema che costituiscono il classico teorema di Rouché-Capelli. (i) (risolubilità del sistema) esistono soluzioni al sistema, ossia la fibra f-1(B) non é vuota, se e solo se B ∈ Im f. Poiché Im f é generata dalle colonne di A possiamo dire che il sistema é risolubile se e solo se B appartiene allo spazio delle colonne di A. Se pertanto consideriamo la cosiddetta “matrice completa” (A|B) del sistema, ossia la matrice formata dalle colonne di A con l’aggiunta della colonna B vediamo che B appartiene allo spazio delle colonne di A se e solo se tale spazio delle colonne non aumenta di dimensione aggiungendo la colonna B. In definitiva il sistema é risolubile se e solo se il rango di A coincide con il rango della matrice completa. (ii) (sistemi con un’unica soluzione) il sistema ha una sola soluzione se la fibra cercata é costituita da un unico vettore; poiché la fibra coincide con un laterale del nucleo, la fibra ha un unico elemento se e solo se il nucleo contiene il solo vettore nullo di Kn e si è visto che questo equivale a richiedere che f sia iniettiva. Questo accade se il rango di A (e quindi anche quello della matrice completa) valgono n, ossia quanto il numero delle incognite. Osserviamo che ρ(A|B)=n vuole anche dire che solo n equazioni impongono effettive condizioni alle n incognite; le rimanenti m-ρ(A|B) equazioni si ottengono come conseguenza delle precedenti. (iii) (incognite libere) diciamo che alcune delle incognite del sistema sono libere se per ogni scelta arbitraria di valori per esse si ottiene una e una sola soluzione del sistema dove queste incognite hanno proprio quei valori. Ora assegnando i valori alle incognite libere, supponendo che esse siano in numero di q, resta un sistema in n-q incognite. La matrice dei coefficienti A* del nuovo sistema risulta da A togliendovi le colonne corrispondenti alle incognite libere mentre la colonna dei termini noti B* del nuovo sistema risulta da B sommandovi una combinazione lineare delle colonne tolte ad A. La definizione ci dice che questo sistema deve possedere una e una sola soluzione e pertanto deve valere la (1) ρ (A*) = ρ (A*|B*) = n-q. Poniamo p = n-ρ (A). Si hanno vari casi: (a) q < p. Le incognite sono ora n-q cioé più di ρ (A) mentre ρ (A*) ≤ ρ (A). Pertanto non vale la (1) e il sistema ha ancora infinite soluzioni. (b) q = p e ρ (A*) = ρ (A) ossia le colonne rimaste in A* erano già una base dello spazio delle colonne di A. In tal caso B* é generata dalle colonne di A* in quanto B* é combinazione di B, che era generata dalle colonne di A e quindi dalle colonne di A*, e delle colonne tolte ad A, che a loro volta erano combinazione delle colonne di A*. Pertanto i ranghi ρ (A*) e ρ (A*|B*) coincidono e valgono proprio ρ (A) = n-p = n-q ossia vale la (1). (c) q = p ma ρ (A*) < ρ (A). In tal caso salvo scelta di valori particolari, e quindi non generici, per le incognite libere, B* non é più generata dalle colonne di A* e quindi il nuovo sistema non é più risolubile (d) q > p. In questo caso sicuramente ρ (A*) < ρ (A) e si conclude come in (c) In definitiva l’unico caso possibile é (b) e pertanto le incognite libere sono in mumero di p = n-ρ (A) e possono essere p qualunque tra le incognite purché le colonne relative alle incognite rimanenti siano linearmente indipendenti in modo tale che sia ρ (A*) = ρ (A). La circostanza che il sistema abbia p incognite libere si esprime anche dicendo che il sistema possiede ∞p soluzioni. (iv) (sistemi omogenei) Se il sistema é omogeneo, ossia B = 0, risolvere il sistema significa determinare il nucleo di f. La condizione di risolubilità é sempre verificata e infatti il nucleo di una applicazione non é mai vuoto. Si ha poi una sola soluzione, e cioé il nucleo contiene solo il vettore nullo, se ρ (A) = n e si hanno infinite soluzioni come al punto (iii) se ρ (A) < n. (v) (sistema non omogeneo e sistema omogeneo associato) Dato il sistema AX = B si chiama suo sistema omogeneo associato il sistema AX = 0. Per la caratterizzazione a suo tempo studiata delle fibre di f possiamo affermare che l’insieme di tutte le soluzioni di un sistema non omogeneo, ossia la fibra di f sopra B, si può ottenere dall’insieme delle soluzioni del sistema omogeneo associato, ossia il nucleo della stessa f, aggiungendo a tutte queste ultime una soluzione particolare del sistema non omogeneo, ossia un particolare vettore della fibra sopra B. LA FORMULA DI TAYLOR E LO STUDIO DEGLI ESTREMI RELATIVI Sia f:Rn→R una funzione delle n variabili x1,x2,...xn. Sia P0 = (a1,a2,...,an) un punto fissato di Rn, sia P = (x1,x2,...,xn) un punto variabile di Rn e sia pertanto f(P)-f(P0) l’incremento subito dalla funzione f nel passaggio dal punto P0 ad un punto qualunque P. Come sappiamo si ha la formula di Taylor che esprime questo incremento come somma di infinitesimi di ordini crescenti. f(P)-f(P0) = [(∂f/∂x1)P0(x1-a1)+(∂f/dx2)P0 (x2-a2)+...+(∂f/∂xn)P0 (xn-an)] +(1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2) +...+(∂2f/∂xn2)P0 (xn-an)2]+R dove R è infinitesima, quando P tende a P0, di un ordine superiore a (x1-a1)2+...+(xn-an)2 ossia al quadrato della distanza da P0 a P. Portando f(P0) a secondo membro si può riformulare il risultato affermando che la f*(P) = f(P0)+ [(∂f/∂x1)P0(x1-a1)+(∂f/dx2)P0 (x2-a2)+...+(∂f/∂xn)P0 (xn-an)] +(1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2)+...+(∂2f/∂xn2)P0 (xn-an)2] costituisce la funzione polinomiale di seondo grado che meglio approssima la f nell’intorno di P0. Ciò che qui vogliamo fare è provare ad applicare la diagonalizzazione delle matrici alla ricerca dei massimi e minimi relativi di una funzione f:Rn→R. P0 sarà un punto di minimo relativo per la funzione f se esiste un intorno di P0 in tutti i punti del quale la funzione assume valori maggiori o uguali che in P0. Se P è un punto di questo intorno l’incremento f(P)-f(P0) sarà dunque positivo o nullo. P0 sarà invece un punto di massimo relativo se esiste un intorno in cui l’incremento f(P)-f(P0) è sempre negativo o nullo. La prima cosa da dire è che se P0 è un punto di minimo relativo, e se f è derivabile in P0, tutte le derivate parziali prime ∂f/dxi devono essere nulle. Infatti in P0 tutte le funzioni (di una sola variabile) f(a1,a2,...,xi,...an) ottenute tenendo fisse tutte le variabili meno la xi devono avere un minimo (lo stesso per i massimi). Occorre quindi innanzitutto cercare i punti di Rn (interni al dominio di f) in cui queste derivate parziali prime si annullano. Questi punti si diranno punti di stazionarietà per f. Tra questi cercheremo i minimi e i massimi. Scrivendo la formula di Taylor per f in un punto di stazionarietà P0 si ha f(P)-f(P0) = (1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2) +...+(∂2f/∂xn2)P0 (xn-an)2]+R ossia in questo caso la parte principale dell’infinitesimo diventa quella infinitesima del secondo ordine. Il fatto che R sia infinitesimo di ordine superiore rispetto a (x1-a1)2+ ...+(xn-an)2 dovrebbe convincere che, almeno in un intorno di P0, il segno dell’incremento f(P)-f(P0) è lo stesso della funzione q(P) = [(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2) +...+(∂2f/∂xn2)P0 (xn-an)2] che è una forma quadratica nelle variabili (x1-a1), (x2-a2), ...,(xn–an). La matrice di questa forma quadratica è la cosiddetta matrice hessiana 2 # f % " 2 % " x1 % % % % % % % % % % % % 2 % f % " %" " $ x n x1 2 " f "x "x 1 & ( 1 n( ( ( ( ( ( ( ( ( ( ( ( ( 2 " f2 (( " x n (' 2 2 " f "x "x dove tutte le derivate devono intendersi calcolate nel punto P0 (ricordiamo che questa ! matrice risulta simmetrica per il teorema di Schwartz). Concludiamo dunque come segue: TEOREMA. Se gli autovalori della matrice hessiana, calcolata in un punto di stazionarietà P0 sono tutti strettamente positivi la funzione f ha un minimo in P0. Se sono tutti strettamente negativi la funzione f ha un massimo in P0. Se la matrice hessiana ha almeno un autovalore strettamente negativo e uno strettamente positivo il punto P0 non è nè di massimo nè di minimo perchè in ogni intorno di P0 esistono punti dove la funzione vale più che in P0 e punti in cui vale meno che in P0. Un punto di stazionarietà del terzo tipo è, ad esempio, l’origine per la funzione f(x,y) = xy. Questi punti si chiamano punti di sella per la funzione f. Se infine ci sono solo autovalori positivi o nulli (oppure solo negativi o nulli) lo studio della matrice hessiana non è sufficiente a determinare la natura del punto di stazionarietà. Infatti in tal caso la forma quadratica che approssima la f è semidefinita ed in qualunque intorno di P0 esistono punti in cui la forma vale zero. In tale caso l’infinitesimo R, anche se di ordine maggiore, non può più essere trascurato perchè può essere proprio colpa di questo R se, in realtà, in questi punti il vero incremento della funzione f è positivo o negativo. ESEMPIO. Sia f(x,y) = x2+y4. Gli autovalori dell’hessiano (in P0 = (0,0)) sono 2 e 0. La funzione polinomiale di secondo grado che meglio approssima f nell’intorno di (0,0) è f*(x,y) = x2. R(x,y) = y4. q risulta semidefinita positiva e f (lo si vede direttamente perchè è somma di quadrati, quindi sempre positiva o nulla) ha un minimo in (0,0). Se invece consideriamo g(x,y) = x2+y3 abbiamo lo stesso hessiano, gli stessi autovalori, la stessa q, la stessa funzione approssimante g*(x,y) = f*(x,y). Però g ha una sella in (0,0), infatti ci sono punti sull’asse y vicini quanto si vuole a (0,0) in cui g ha segno positivo o negativo.