LE FIBRE DI UNA APPLICAZIONE LINEARE

Transcript

LE FIBRE DI UNA APPLICAZIONE LINEARE
LE FIBRE DI UNA APPLICAZIONE LINEARE
Sia f:A→B una funzione tra due insiemi. Se y appartiene all’immagine di f si chiama “fibra di
f sopra y” l’insieme f-1(y) ossia l’insieme di tutte le controimmagini di y, cioé l’insieme di tutti gli x
di A che hanno come immagine y. Poiché ogni elemento di A ha una e una sola immagine in B
risulta evidente che le fibre di f costituiscono una partizione di A.
Nel caso che A e B siano due spazi vettoriali V e W e f sia una applicazione lineare abbiamo
già studiato in dettaglio una delle fibre: il nucleo di f che non é altro che la fibra sopra 0W. Abbiamo
in particolare visto che si tratta di un sottospazio. Vogliamo far vedere che anche le altre fibre non
sono sottoinsiemi qualsiasi di V ma possiedono una certa regolarità di comportamento.
Consideriamo l’esempio della applicazione lineare g:R2→R2 che manda ogni vettore v nel
vettore sua proiezione ortogonale sull’asse x. Il nucleo di g é l’asse y. Le altre fibre sono tutte le
rette di R2 parallele all’asse y, cioé parallele a Ker f. Possiamo descrivere il comportamento che ci
interessa di questo concetto di rette “parallele” come segue:
(i) due rette parallele si ottengono l’una dall’altra per traslazione, ossia spostando tutti i punti
di una retta di un vettore fissato
(ii) le rette parallele ad una retta data costituiscono una partizione di R2, ossia per ogni punto
passa una e una sola di queste rette.
Per cercare un concetto generale degli spazi vettoriali che sia l’analogo del concetto di rette
parallele ad una retta data definiamo il concetto di laterale di un sottospazio.
Dato uno spazio vettoriale V, un suo sottospazio H e un vettore qualunque x di V, definiamo
il laterale x+H come l’insieme x+H = {x+h|h ∈ H} ossia come l’insieme ottenuto sommando il
vettore fisso x a tutti i vettori di H, o ancora traslando H del vettore x.
E’ dunque riprodotta esattamente la (i). Vediamo che vale la (ii). In effetti ogni vettore v∈V si
può scrivere come v+0V ∈ v+H, pertanto il laterale v+H passa per v. Inoltre se due laterali x+H e
y+H si incontrano in un vettore q essi coincidono. Sia infatti q ∈ x+H∩y+H. Allora q si può
scrivere come q = x+h con h ∈ H ma anche come q = y+h’ con h’ ∈ H. Da x+h = y+h’ si ha x-y =
h’-h e quindi x-y ∈ H. Sia ora u un qualunque elemento del primo laterale x+H, ossia sia u = x+k
con k ∈ H. Si può scrivere u = y+[(x-y)+k] e poiché [(x-y)+k] appartiene ad H in quanto somma di
vettori di H, si conclude u ∈ y+H, dunque il primo laterale é contenuto nel secondo. Ripetendo il
ragionamento partendo da y+H si trova che il secondo laterale é contenuto nel primo, e dunque i
due laterali coincidono. Osserviamo infine che H stesso é un laterale perché si ha evidentemente H
= 0V+H.
Sia dunque f:V→W una applicazione lineare e consideriamo il sottospazio Ker f. Abbiamo
allora in V due diverse partizioni: la partizione nei laterali di Ker f e la partizione nelle fibre di f.
L’esempio fatto poco sopra suggerisce che queste due partizioni coincidano. Vediamo che in effetti
accade proprio così per qualunque applicazione lineare.
Sia v un vettore di V e sia w = f(v). Pertanto v é un qualunque elemento della fibra f–1(w).
Facciamo vedere che la fibra f-1(w) coincide proprio con il laterale v+Ker f.
La fibra é contenuta nel laterale. Infatti sia z ∈ f-1(v). Possiamo scrivere z = v+(z-v) e inoltre
z–v ∈ ker f in quanto f(z-v) = f(z)-f(v) = w-w = 0W. Pertanto z ∈ v+Ker f
Il laterale é contenuto nella fibra. Infatti sia u ∈v+Ker f. Allora u si scrive v+h con h ∈ Ker f.
Quindi f(u) = f(v+h) = f(v)+f(h) = w+0W = w. Quindi u ∈ f-1(w).
L’utilità pratica di queste osservazioni sta nel fatto seguente: può essere più facile calcolare il
nucleo di f piuttosto che una sua fibra sopra un vettore non nullo. Allora é interessante sapere che si
può ottenere la fibra voluta calcolando prima il nucleo e poi traslandolo di un particolare elemento
della fibra stessa, pur di essere venuti in qualche modo in possesso di un tale particolare elemento
della fibra.
Sia ad esempio f:R3[X] →R2[X] l’applicazione lineare definita da f(P) = P” (derivata seconda
del polinomio P). Calcolare ad esempio la fibra f-1(5X) richiede la conoscenza delle regole di
integrazione, mentre é sufficiente dire che la derivazione di un polinomio fa scendere di uno il
grado per affermare che il nucleo di f é formato da tutti e soli i polinomi del tipo aX+b. Se allora in
un modo qualsiasi si sa che la derivata seconda di (5/6)X3 é proprio 5X, ossia (5/6)X3 ∈ f–1(5X), si
può affermare che la fibra f-1(5X) é costituita da tutti i polinomi del tipo (5/6)X3+aX+b al variare di
a e b in R.
SISTEMI LINEARI E FIBRE
Un sistema di equazioni lineari di m equazioni in n incognite é un sistema del tipo
a11x1+a12x2+ ………..+a1nxn = b1
a21x1+a22x2+ ………..+a2nxn = b2
…………………………………
…………………………………
am1x1+am2x2+ ……….+amnxn = bm
dove i coefficienti aij e i termini noti bi appartengono a un certo campo K (ad esempio sono
numeri reali o complessi). Si dice soluzione una n-upla (c1,c2,...,cn) di elementi di K che sostituita
alle incognite x1,x2,...,xn rende verificate tutte le uguaglianze. Si può scrivere il sistema anche nella
forma AX = B dove A é la matrice degli aij (detta “matrice dei coefficienti”, X é la matrice a n righe
e una sola colonna formata dalle n incognite e B é la matrice a m righe e una sola colonna formata
dagli m termini noti. Le equazioni del sistema indicano che se f é l’applicazione lineare f:Kn→Km
associata alla matrice A rispetto alle basi canoniche, allora si ha f(x1,x2,...,xn) = (b1,b2,...,bm).
Pertanto risolvere il sistema significa trovare tutte queste n-uple (x1,x2,...,xn). Risolvere il sistema
significa dunque determinare la fibra f-1(B) di f sopra B. In questa ottica si ritrovano tutte le
seguenti affermazioni circa la risolubilità e la natura delle soluzioni di un sistema che costituiscono
il classico teorema di Rouché-Capelli.
(i) (risolubilità del sistema) esistono soluzioni al sistema, ossia la fibra f-1(B) non é vuota, se e
solo se B ∈ Im f. Poiché Im f é generata dalle colonne di A possiamo dire che il sistema é risolubile
se e solo se B appartiene allo spazio delle colonne di A. Se pertanto consideriamo la cosiddetta
“matrice completa” (A|B) del sistema, ossia la matrice formata dalle colonne di A con l’aggiunta
della colonna B vediamo che B appartiene allo spazio delle colonne di A se e solo se tale spazio
delle colonne non aumenta di dimensione aggiungendo la colonna B. In definitiva il sistema é
risolubile se e solo se il rango di A coincide con il rango della matrice completa.
(ii) (sistemi con un’unica soluzione) il sistema ha una sola soluzione se la fibra cercata é
costituita da un unico vettore; poiché la fibra coincide con un laterale del nucleo, la fibra ha un
unico elemento se e solo se il nucleo contiene il solo vettore nullo di Kn e si è visto che questo
equivale a richiedere che f sia iniettiva. Questo accade se il rango di A (e quindi anche quello della
matrice completa) valgono n, ossia quanto il numero delle incognite. Osserviamo che ρ(A|B)=n
vuole anche dire che solo n equazioni impongono effettive condizioni alle n incognite; le rimanenti
m-ρ(A|B) equazioni si ottengono come conseguenza delle precedenti.
(iii) (incognite libere) diciamo che alcune delle incognite del sistema sono libere se per ogni
scelta arbitraria di valori per esse si ottiene una e una sola soluzione del sistema dove queste
incognite hanno proprio quei valori. Ora assegnando i valori alle incognite libere, supponendo che
esse siano in numero di q, resta un sistema in n-q incognite. La matrice dei coefficienti A* del
nuovo sistema risulta da A togliendovi le colonne corrispondenti alle incognite libere mentre la
colonna dei termini noti B* del nuovo sistema risulta da B sommandovi una combinazione lineare
delle colonne tolte ad A. La definizione ci dice che questo sistema deve possedere una e una sola
soluzione e pertanto deve valere la
(1) ρ (A*) = ρ (A*|B*) = n-q.
Poniamo p = n-ρ (A). Si hanno vari casi:
(a) q < p. Le incognite sono ora n-q cioé più di ρ (A) mentre ρ (A*) ≤ ρ (A). Pertanto non
vale la (1) e il sistema ha ancora infinite soluzioni.
(b) q = p e ρ (A*) = ρ (A) ossia le colonne rimaste in A* erano già una base dello spazio delle
colonne di A. In tal caso B* é generata dalle colonne di A* in quanto B* é combinazione di B, che
era generata dalle colonne di A e quindi dalle colonne di A*, e delle colonne tolte ad A, che a loro
volta erano combinazione delle colonne di A*. Pertanto i ranghi ρ (A*) e ρ (A*|B*) coincidono e
valgono proprio ρ (A) = n-p = n-q ossia vale la (1).
(c) q = p ma ρ (A*) < ρ (A). In tal caso salvo scelta di valori particolari, e quindi non generici,
per le incognite libere, B* non é più generata dalle colonne di A* e quindi il nuovo sistema non é
più risolubile
(d) q > p. In questo caso sicuramente ρ (A*) < ρ (A) e si conclude come in (c)
In definitiva l’unico caso possibile é (b) e pertanto le incognite libere sono in mumero di p =
n-ρ (A) e possono essere p qualunque tra le incognite purché le colonne relative alle incognite
rimanenti siano linearmente indipendenti in modo tale che sia ρ (A*) = ρ (A).
La circostanza che il sistema abbia p incognite libere si esprime anche dicendo che il sistema
possiede ∞p soluzioni.
(iv) (sistemi omogenei) Se il sistema é omogeneo, ossia B = 0, risolvere il sistema significa
determinare il nucleo di f. La condizione di risolubilità é sempre verificata e infatti il nucleo di una
applicazione non é mai vuoto. Si ha poi una sola soluzione, e cioé il nucleo contiene solo il vettore
nullo, se ρ (A) = n e si hanno infinite soluzioni come al punto (iii) se ρ (A) < n.
(v) (sistema non omogeneo e sistema omogeneo associato) Dato il sistema AX = B si chiama
suo sistema omogeneo associato il sistema AX = 0. Per la caratterizzazione a suo tempo studiata
delle fibre di f possiamo affermare che l’insieme di tutte le soluzioni di un sistema non omogeneo,
ossia la fibra di f sopra B, si può ottenere dall’insieme delle soluzioni del sistema omogeneo
associato, ossia il nucleo della stessa f, aggiungendo a tutte queste ultime una soluzione particolare
del sistema non omogeneo, ossia un particolare vettore della fibra sopra B.
LA FORMULA DI TAYLOR E LO STUDIO DEGLI ESTREMI RELATIVI
Sia f:Rn→R una funzione delle n variabili x1,x2,...xn. Sia P0 = (a1,a2,...,an) un punto fissato di
Rn, sia P = (x1,x2,...,xn) un punto variabile di Rn e sia pertanto f(P)-f(P0) l’incremento subito dalla
funzione f nel passaggio dal punto P0 ad un punto qualunque P. Come sappiamo si ha la formula di
Taylor che esprime questo incremento come somma di infinitesimi di ordini crescenti.
f(P)-f(P0) =
[(∂f/∂x1)P0(x1-a1)+(∂f/dx2)P0 (x2-a2)+...+(∂f/∂xn)P0 (xn-an)]
+(1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2) +...+(∂2f/∂xn2)P0 (xn-an)2]+R
dove R è infinitesima, quando P tende a P0, di un ordine superiore a (x1-a1)2+...+(xn-an)2 ossia
al quadrato della distanza da P0 a P.
Portando f(P0) a secondo membro si può riformulare il risultato affermando che la
f*(P) = f(P0)+ [(∂f/∂x1)P0(x1-a1)+(∂f/dx2)P0 (x2-a2)+...+(∂f/∂xn)P0 (xn-an)]
+(1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2)+...+(∂2f/∂xn2)P0 (xn-an)2]
costituisce la funzione polinomiale di seondo grado che meglio approssima la f nell’intorno di
P0.
Ciò che qui vogliamo fare è provare ad applicare la diagonalizzazione delle matrici alla
ricerca dei massimi e minimi relativi di una funzione f:Rn→R. P0 sarà un punto di minimo relativo
per la funzione f se esiste un intorno di P0 in tutti i punti del quale la funzione assume valori
maggiori o uguali che in P0. Se P è un punto di questo intorno l’incremento f(P)-f(P0) sarà dunque
positivo o nullo. P0 sarà invece un punto di massimo relativo se esiste un intorno in cui l’incremento
f(P)-f(P0) è sempre negativo o nullo.
La prima cosa da dire è che se P0 è un punto di minimo relativo, e se f è derivabile in P0, tutte
le derivate parziali prime ∂f/dxi devono essere nulle. Infatti in P0 tutte le funzioni (di una sola
variabile) f(a1,a2,...,xi,...an) ottenute tenendo fisse tutte le variabili meno la xi devono avere un
minimo (lo stesso per i massimi). Occorre quindi innanzitutto cercare i punti di Rn (interni al
dominio di f) in cui queste derivate parziali prime si annullano. Questi punti si diranno punti di
stazionarietà per f. Tra questi cercheremo i minimi e i massimi.
Scrivendo la formula di Taylor per f in un punto di stazionarietà P0 si ha
f(P)-f(P0) = (1/2)[(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2)
+...+(∂2f/∂xn2)P0 (xn-an)2]+R
ossia in questo caso la parte principale dell’infinitesimo diventa quella infinitesima del
secondo ordine. Il fatto che R sia infinitesimo di ordine superiore rispetto a (x1-a1)2+ ...+(xn-an)2
dovrebbe convincere che, almeno in un intorno di P0, il segno dell’incremento f(P)-f(P0) è lo stesso
della funzione q(P) = [(∂2f/dx12)P0 (x1-a1)2+2(∂2f/∂x1∂x2)P0 (x1-a1)(x2-a2) +...+(∂2f/∂xn2)P0 (xn-an)2]
che è una forma quadratica nelle variabili (x1-a1), (x2-a2), ...,(xn–an).
La matrice di questa forma quadratica è la cosiddetta matrice hessiana
2
#
f
% " 2
% " x1
%
%
%
%
%
%
%
%
%
%
%
%
2
%
f
% "
%" "
$ x n x1
2
" f
"x "x
1
&
(
1
n(
(
(
(
(
(
(
(
(
(
(
(
(
2
" f2 ((
" x n ('
2
2
" f
"x "x
dove tutte le derivate devono intendersi calcolate nel punto P0 (ricordiamo che questa
! matrice risulta simmetrica per il teorema di Schwartz).
Concludiamo dunque come segue:
TEOREMA. Se gli autovalori della matrice hessiana, calcolata in un punto di stazionarietà P0
sono tutti strettamente positivi la funzione f ha un minimo in P0. Se sono tutti strettamente negativi
la funzione f ha un massimo in P0. Se la matrice hessiana ha almeno un autovalore strettamente
negativo e uno strettamente positivo il punto P0 non è nè di massimo nè di minimo perchè in ogni
intorno di P0 esistono punti dove la funzione vale più che in P0 e punti in cui vale meno che in P0.
Un punto di stazionarietà del terzo tipo è, ad esempio, l’origine per la funzione f(x,y) = xy.
Questi punti si chiamano punti di sella per la funzione f.
Se infine ci sono solo autovalori positivi o nulli (oppure solo negativi o nulli) lo studio della
matrice hessiana non è sufficiente a determinare la natura del punto di stazionarietà. Infatti in tal
caso la forma quadratica che approssima la f è semidefinita ed in qualunque intorno di P0 esistono
punti in cui la forma vale zero. In tale caso l’infinitesimo R, anche se di ordine maggiore, non può
più essere trascurato perchè può essere proprio colpa di questo R se, in realtà, in questi punti il vero
incremento della funzione f è positivo o negativo.
ESEMPIO. Sia f(x,y) = x2+y4. Gli autovalori dell’hessiano (in P0 = (0,0)) sono 2 e 0. La
funzione polinomiale di secondo grado che meglio approssima f nell’intorno di (0,0) è f*(x,y) = x2.
R(x,y) = y4. q risulta semidefinita positiva e f (lo si vede direttamente perchè è somma di quadrati,
quindi sempre positiva o nulla) ha un minimo in (0,0). Se invece consideriamo g(x,y) = x2+y3
abbiamo lo stesso hessiano, gli stessi autovalori, la stessa q, la stessa funzione approssimante
g*(x,y) = f*(x,y). Però g ha una sella in (0,0), infatti ci sono punti sull’asse y vicini quanto si vuole a
(0,0) in cui g ha segno positivo o negativo.