distribuzioni congiunte, covarianza e retta di regressione

Transcript

distribuzioni congiunte, covarianza e retta di regressione
1
APPUNTI
SU: DISTRIBUZIONI CONGIUNTE,
COVARIANZA E RETTA DI REGRESSIONE
1
Distribuzioni congiunte
Spesso nelle applicazioni si e portati a considerare piu quantita aleatorie e a
confrontarne il comportamento. Cio motiva l'introduzione della nozione di
distribuzione congiunta.
Sia, al solito, (
; P) uno spazio di probabilita, ovvero e uno spazio
campionario e P : ! [0; 1] e una (misura di) probabilita su . Su siano
denite due variabili aleatorie (v.a.) discrete X e Y :
X; Y : ! 2 7! X (!); Y (!) 2 R:
Denotiamo con E = fx1 ; : : : ; x g (o E = fx1 ; x2 ; : : : g) e con E =
fy1; : : : ; y g (o E = fy1; y2; : : : g)) l'insieme dei valori ammissibili per X
e Y rispettivamente. Ricordiamo brevemente che la legge o distribuzione
di X e di Y sono date dalle funzioni p e p , rispettivamente, che ad ogni
valore ammissibile associano la probabilita con la quale possono vericarsi:
p (x) = PfX = xg
x2E
p (y) = PfY = yg
y2E
Si consideri ora l'applicazione
X
m
X
k
Y
Y
X
Y
X
X
Y
Y
(X; Y ) : ! R2 ; ! 7! (X (!); Y (!)):
L'immagine di tale applicazione e l'insieme delle coppie (x; y) 2 E E .Si
denisce legge o distribuzione congiunta delle v.a. X e Y l'applicazione
X
Y
p(x; y) = PfX = x; Y = yg
che ad ogni coppia (ammissibile) (x; y) 2 E E associa la probabilita
con la quale tale coppia puo essere assunta.
Vedremo nel seguito che tale nozione si rivela estremamente importante
e che permette di risolvere numerosi problemi.
Osserviamo dapprima che la legge congiunta di X e Y consente di dedurre le leggi di X e di Y , dette leggi o distribuzioni marginali. Infatti,
per la formula delle probabilita totali, ssato x 2 E , si ha
X
Y
i
p (x ) = PfX = x g =
X
i
X
i
X
fX = x ; Y = y g =
P
i
j
X
j
p(x ; y )
i
j
(1)
j
1
Queste note sono la traduzione di parte delle lezioni tenute dai Pro. Paolo Baldi e
Nicole El Karoui all'Universita Pierre et Marie Curie (Paris VI) nell'a.a. 1995/'96.
1
La legge (marginale) di X in x si calcola dunque a partire dalla legge congiunta, \congelando" la prima variabile, x , e \saturando" rispetto a tutti i
possibili valori che puo assumere la Y , ovvero sommando p(x ; y ) su tutti i
possibili y . Discorso analogo riguardo il calcolo della legge (marginale) di
Y : ssato y 2 E ,
i
i
i
j
j
j
Y
p (y ) = PfY = y g =
Y
j
X
j
p(x ; y )
i
j
(2)
i
Esempio 1. Si consideri un'urna contenente 6 palline numerate da 1 a 6;
se ne estraggano 2 con reinserimento: siano X1 e X2 i due numeri ottenuti.
Si vuole calcolare la distribuzione congiunta di X1 e X2 .
I valori ammissibili per la coppia (X1 ; X2 ) sono dati dalle coppie (i; j ),
al variare di i; j nell'insieme f1; : : : ; 6g. Si tratta quindi di 36 possibili valori
e, poiche ogni coppia e equiprobabilie, ciascuna coppia ha probabilita 361
di vericarsi. Quindi, E( 1 2 ) = f1; : : : ; 6g2 . E possibile visualizzare la
situazione dei due tiri come nella Figura 1, in cui denotano i valori possibili.
X ;X
6
5
4
3
2
1
1 2 3 4 5 6
Figura 1 Insieme dei valori ammissibili per la coppia (X1 ; X2 ).
Prese singolarmente, le due v.a. X1 e X2 possono assumere valori nell'insieme f1; : : : ; 6g e ciascun valore e assunto con probababilita 61 (esercizio!). Cio signica che le distribuzioni marginali di X1 e X2 sono uniformi
nell'insieme f1; : : : ; 6g.
Supponiamo ora che le due estrazioni siano eettuate senza reinserimento, e denotiamo con Y1 e Y2 il risultato della prima e della seconda estrazione
rispettivamente. I valori ammissibili per la coppia (Y1 ; Y2 ) non sono piu gli
stessi perche, ad esempio, la coppia (1; 1) non puo piu vericarsi. Infatti,
i possibili risultati sono dati dalle coppie (i; j ) tali che i; j 2 f1; : : : ; 6g ma
con i 6= j . Si tratta dunque di 30(= 36 possibili coppie 6 coppie identiche)
2
valori ammissibili, tutti equiprobabili, che dunque possono vericarsi ciascuno con probabilita 301 . Quindi, E( 1 2 ) = f(i; j ) : i 6= j; i; j 2 f1; : : : ; 6gg.
La legge congiunta di Y1 e Y2 e quindi data da
(
1
se i; j = 1; : : : ; 6 e i 6= j
p(i; j ) = 30
0 altrimenti
La Figura 2 visualizza tutti i possibili risultati di questo secondo esperimento. Ancora una volta, i simboli denotano tutti i possibili valori per la
coppia (Y1 ; Y2 ), che possono essere assunti con probabilita 301 .
Y ;Y
6
5
4
3
2
1
1 2 3 4 5 6
Figura 2 Valori ammissibili per (Y1 ; Y2 ).
Usando le formule (1) e (2), e possibile calcolare le distribuzioni di Y1 e
di Y2 come distribuzioni marginali della loro legge congiunta. La somma in
(1) per x = 1; 2; 3; 4; 5; 6 contiene 5 termini uguali a 301 . Ad esempio, per
x = 3,
1
p 1 (3) = p(3; 1) + p(3; 2) + p(3; 4) + p(3; 5) + p(3; 6) =
6
dunque la legge di Y1 e la legge uniforme su f1; : : : ; 6g. Usando la (2), si
verica facilmente (esercizio!) che anche Y2 ha distribuzione uniforme su
f1; : : : ; 6g.
Tale risultato non e sorprendente per Y1 (la probabilita che alla prima estrazione si ottenga la pallina numero i e ovviamente 61 , per ogni
i = 1; 2; 3; 4; 5; 6) ma lo e un po' meno per Y2 ...
Le leggi marginali sono dunque identiche, sia che le estrazioni vengano
eettuate con reinserimanto sia che le palline vengano estratte senza reinserimento.
i
i
Y
L'esempio precedente mostra che e possibile avere due distribuzioni congiunte diverse aventi le medesime distribuzioni marginali. Cio signica che
3
non e possibile, in generale, stabilire quale sia il comportamento congiunto
di due v.a. noto il comportamento di ognuna di esse prese singolarmente.
Al contrario, la distribuzione congiunta consente sempre di determinare le
due distribuzioni marginali, a partire dalle (1) e (2).
L'esempio che segue mostra un particolare utilizzo della distribuzione
congiunta.
Esempio 2. Da un'urna contenente 6 palline numerate da 1 a 6 vengono
eettuate due estrazioni senza reinserimento. Qual e la probabilita che i
risultati delle due estrazioni dieriscano al piu di 2? E se le estrazioni
fossero state eettuate con reinserimento?
Usando le notazioni dell'Esempio 1, si tratta di calcolare PfjY1 Y2 j 2g.
Tale probabilita si puo riscrivere come Pf(Y1 ; Y2 ) 2 Ag, dove A e la regione
del piano f(x1 ; x2 ); jx1 x2 j 2g. Dunque, la probabilita richiesta e data
da
X
p(i; j )
(3)
(i;j )2A
dove p denota la distribuzione congiunta di (Y1 ; Y2 ), calcolata nell'Esempio
1.
La regione A e data dalla striscia compresa tra le rette di equazione
x = y + 2 e x = y 2, disegnate nella Figura 3.
In A si trovano 18 valori ammissibili per la coppia (Y1 ; Y2 ) e poiche
= 35 .
ciascuna coppia ha probabilita 301 , la somma in (3) vale 18
30
.
..
..
..
..
.
..
..
..
..
..
.
.
..
..
..
.
..
..
..
.
..
..
..
..
..
.
.
.
.
..
..
..
..
..
..
..
..
..
..
.
.
..
..
..
..
..
..
..
..
..
..
.
.
..
..
..
..
..
..
..
..
..
..
.
.
.
.
..
..
..
..
..
..
..
..
..
..
.
.
..
..
..
..
..
..
..
..
..
..
.
.
..
..
..
..
..
..
..
.
.
..
..
..
..
..
.
.
..
..
..
..
6
5
4
3
2
1
1 2 3 4 5 6
Figura 3 L'insieme A e dato dall'intersezione della striscia compresa tra le due
rette disegnate in gura e l'insieme dei valori ammissibili.
Se le estrazioni fossero state eettuate con reinserimento, il procedimento
sopra descritto sarebbe comunque valido, ma in tal caso A conterrebbe 24(=
18+6) valori possibili, ciascuno vericabile con probabilita 361 . Cio signica
che, sotto tale ipotesi, la probabilita dell'evento in questione sarebbe 23 .
4
Un'altra situazione nella quale la nozione di distribuzione congiunta e
cruciale e la seguente: se X e Y denotano due v.a., di legge congiunta p,
qual e la legge di X + Y ?
Si ha
fX + Y = tg =
P
=
X
X
fX + Y = t; Y = y g
P
j
j
fX = t y ; Y = y g =
P
j
X
j
j
j
X
p(t y ; y ) =
p(x ; y )
j
i
j
(xi ;xj ) : xi +yj =t
j
Tale formula permette di calcolare esplicitamente la distribuzione della v.a.
X + Y ed ha una grande importanza teorica perche mostra che la legge di
X + Y non dipende dalle marginali ma solo dalla distribuzione congiunta:
se X 0 e Y 0 sono due v.a. che hanno stessa legge (congiunta) p allora la
distribuzione di X 0 + Y 0 e la stessa di X + Y .
2
Covarianza e correlazione
Siano X e Y due v.a. Si vuole determinare una formula per la varianza di
X + Y . Si ha
Var(X +h Y ) = E (X + Y ) E [X + Yi ] 2 =
= E (X E [X ]) + (Y E [Y ]) 2 =
h
i
h
i
h
= E (X E [X ])2 + E (Y E [Y ])2 + 2E (X E [X ])(Y
= Var(X ) + Var(Y ) + 2Cov(X; Y )
dove
i
E [Y ])
=
(4)
Cov(X; Y ) = E (X E [X ])(Y E [Y ])
(5)
La quantita Cov(X; Y ) prende il nome di covarianza di X e Y . Un'altra
espressione per la covarianza (spesso piu utile nei calcoli) e la seguente:
Cov(
X; Y ) = E (X E [X ])(Y E [Y ]) =
= E XY X E [Y ] Y E [X ] + E [X ]E [Y ] =
= E [XY ] E [X ] E [Y ]
dove, ricordiamo,
X
E [XY ] =
x x p(x ; x ):
i
j
i
(6)
j
i;j
Sappiamo che se X e Y sono indipendenti allora E [XY ] = E [X ]E [Y ], dunque
Cov(X; Y ) = E [XY ]
5
E [X ]E [Y ] = 0
(7)
In tal caso, Var(X + Y ) = Var(X ) + Var(Y ). Per il caso di m v.a. segue
facilmente (esercizio!)
Var(X1 + + X ) =
m
X
m
Var(X ) +
X
i
i=1
Cov(X ; X )
i
6
j
(8)
i=j
e se X1 ; : : : ; X sono indipendenti, allora
Var(X1 + + X ) = Var(X1 ) + + Var(X )
(9)
Dunque, la varianza della somma di v.a. indipendenti e data dalla somma
delle varianze.
Cerchiamo ora di capire il signicato della covarianza di due v.a. Abbiamo appena visto che la covarianza di due v.a. indipendenti e zero. Sfortunatamente, l'inverso e falso (se cos non fosse, infatti, si potrebbe usare
tale risultato per una verica, tutto sommato non diÆcile dal punto di vista
computazionale, dell'indipendenza di due v.a.). Mostriamo qui di seguito
un controesempio.
Esempio 3. Sia X una v.a. che puo assumere i valori f 1; 0; +1g, con
distribuzione
p (0) = ; p ( 1) = p (+1) = con ; > 0, + 2 = 1. Si noti che E [X ] = 0. Sia ora Y denita
nel modo seguente: Y = 1 se X 6= 0, Y = 0 se X = 0. Mostriamo che
Cov(X; Y ) = 0. Infatti, e immediato vericare che XY = X (esercizio!),
dunque E [XY ] = E [X ] = 0. Allora,
Cov(X; Y ) = E [XY ] E [X ] E [Y ] = 0:
Ma, X e Y non sono indipendenti:
0 = P(X = 0; Y = 1) 6= P(X = 0) P(Y = 1) = 2:
Se Cov(X; Y ) = 0, diremo che X e Y sono non correlate. In ogni caso,
ci si puo servire della covarianza per dare una misura dell'indipendenza di
due v.a.: valori della covarianza vicini a zero signicano che le due v.a. sono
quasi indipendenti; viceversa, valori grandi (in valore assoluto) della covarianza indicano la presenza di una forte dipendenza tra le due v.a. Il prossimo
esempio mostra la relazione che lega la covarianza positiva e negativa con il
concetto di \dipendenza" tra due v.a.
Esempio 4. (Retta di regressione) Siano X e Y due v.a. sullo stesso
spazio di probabilita (
; P ). Si vuole trovare la migliore approssimazione
possibile della Y tramite una funzione lineare della X . In altre parole, si
cercano due numeri a; b 2 R tali che aX + b approssima Y nel miglior modo
possibile.
m
m
X
m
X
X
6
Un problema di questo tipo appare, ad esempio, quando si vuole stimare
una quantita Y che non e osservabile direttamente. Si consideri, a titolo di
esempio, il caso in cui Y e un segnale e X e un'osservazione \disturbata"
(vale a dire, X e uguale a Y piu un errore dovuto all'osservazione).
Il primo problema consiste nel denire un criterio di ottimalita: che signicato si vuole dare a \migliore approssimazione possibile"? Ovviamente,
occorre partire dalla distanza tra aX + b e Y , ovvero da jaX + b Y j.
Poiche pero lavorare con i moduli puo essere oneroso in termini di calcoli, si
preferisce considerare (aX + b Y )2 . Ora, tale quantita e aleatoria e il problema che e stato posto e \deterministico": i numeri a e b che si cercano non
sono aleatori. Per tale ragione, si considera il valore atteso di (aX + b Y )2 .
Dunque, il criterio di ottimalita scelto e il seguente: si vogliono determinare
due numeri a e b tali da minimizzare
h
(a; b) 7! E (aX + b Y )2
i
(va detto che esistono altri criteri di ottimizzazione, che qui non saranno
presi in considerazione). Denotiamo, per semplicita, = E (X ); = E (Y ).
Allora,
h
i
h
(aX + b Y )2 = E (a(X ) + (b + a) (Y ) )2
h
i
= E ((a(X ) (Y )) + (b + a ))2
h
i
= E (a(X ) (Y ))2 + (b + a )2
h
i
+2(b + a )E a(X ) (Y )
= I1 + I2 + I3
Osserviamo che il termine I3 e nullo perche
E
E
h
a(X
i
h
i
h
) (Y ) = E a(X ) E Y
= a(E (X ) ) (E (Y ) ) = 0
i
i
Cominciamo con il cercare il valore di a che minimizza I1 :
h
h
I1 = E (a(X
h
) (Y
i
i
))2 =
h
= a2 E (X )2 ] + E (Y )2 2aE (X )(Y
= a2 Var(X ) 2aCov(X; Y ) + Var(Y ):
Il minimo di questo trinomio e raggiunto nel punto
Cov(X; Y )
a =
Var(X )
7
i
) =
(10)
Cerchiamo ora il valore di b che minimizza I2 , calcolato sul valore di a appena
trovato:
b = a = E (Y ) a E (X )
Si denisce retta di regressione la retta di equazione
y = a x + b
dove a e b sono i numeri appena determinati. Quindi, l'equazione della
retta di regressione e
Cov(X; Y ) (x E [X ]) + E [Y ]
y=
Var(X )
...................
..................
..........
......
.......
.................. .
.
.
..................................................
....
..................
............
................................................................. ...................
.
...
...
.....
.................. .
.
.
.
.
..................
......
................
....................................
................................................................. ..................
...................
.............
Figura 4 Si suppone, qui e nel graco successivo, che i punti disegnati in gura
rappresentino i valori ammissibili per la coppia (X; Y ), ognuno dei quali puo essere assunto
con la stessa probabilita. Qui la retta di regressione ha un coeÆciente angolare negativo
e la correlazione e negativa. Si noti che Y ha tendenza ad assumere valori piu piccoli
quando X e grande.
Si noti che la retta di regressione non e \simmetrica", ovvero scambiando
i ruoli ad X e Y cambia anche la retta di regressione. Inoltre, il coeÆciente
angolare della retta di regressione ha lo stesso segno della covarianza (perche
Var(X ) e sempre positiva). Cio indica che, se la covarianza e positiva, Y
tende ad assumere valori grandi in corrispondenza di valori grandi della X .
Tale proprieta e detta di dipendenza positiva. Al contrario, se la covarianza
e negativa, Y tende ad assumere valori piccoli in corrispondenza di valori
grandi della X e in tal caso si dice che c'e dipendenza negativa tra le due
v.a. Ad esempio, se si volesse creare un modello che leghi la relazione tra
il peso X e l'altezza Y di un individuo preso a caso da una popolazione,
ci si aspetta una covarianza positiva tra queste due v.a. perche individui
alti hanno la tendenza ad essere piu pesanti (cio non toglie che possano
esistere individui alti e leggeri oppure bassi e molto pesanti, eventi che, in
8
generale, hanno probabilita di vericarsi molto bassa). Ci si attende una
covarianza negativa quando si considerino quantita aleatorie che hanno un
eetto \antitetico' l'una sull'altra.
..
..................
....................
..................
...................................................................
...... ....................
.
.............
..................
............................................... .................... .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..................
....................
..
.................. ...................
..................................................................... .................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............
...................
Figura 5 Qui in corrispondenza di valori grandi per
piuttosto grandi anche per Y . La covarianza e positiva.
X
si osservano valori
Abbiamo appena visto come la covarianza possa essere utilizzata per misurare la dipendenza di due v.a. In realta cio non e del tutto vero perche la
covarianza presenta un difetto:
Cov(aX; bY ) = abCov(X; Y )
Cio signica che la covarianza tra due v.a. e strettamente legata all'unita di
misura: la covarianza cambia se si cambia l'unita di misura con la quale le
v.a. X e Y sono state misurate. Per tale ragione, si introduce la seguente
quantita:
Cov(X; Y )
(11)
=p
Var(X )Var(Y )
e detto coeÆciente di correlazione di X e Y e non dipende dai
cambiamenti di misurazione, cioe (esercizio!)
X;Y
X;Y
=
X;Y
aX;bY
per ogni a > 0; b > 0 (se ab < 0, il coeÆciente di correlazione cambia segno:
esercizio!).
La proposizione che segue assicura che
1
X;Y
9
1
Proposizione 1.
di Cauchy-Schwartz
Vale la seguente disuguaglianza, detta
:
E [XY ]2
disuguaglianza
E [X ]E [Y ]
2
2
Dimostrazione. poiche il valore atteso di una v.a. non negativa e
sempre non negativo, per ogni # 2 R si ha
0 E [(#X + Y )2 ] = #2 E [X 2 ] + 2#E [XY ] + E [Y 2 ]
Tale disuguaglianza e vera per ogni # 2 R: il trinomio # ! #2 E [X 2 ] +
2#E [XY ] + E [Y 2 ] non puo assumere valori negativi e dunque il suo discriminante deve necessariamente essere minore di 0, il che signica
E [XY ]2
E [X 2 ]E [Y 2 ]
0
2
La Proposizione 1 applicata alle v.a. X
Cov(
X; Y )2 = E (X
E (X E [X ])2 E (Y
E [X ]
et Y
E [Y ]
da
2
E [X ])(Y
E [Y ])
E [Y ])2 = Var(X )Var(Y )
e quindi 2 1.
Come abbiamo visto, la condizione di non correlazione e in realta molto
piu debole di quella di indipendenza, ma e anche piu facile da vericare per
cui e abbastanza usata nella pratica come forma debole di indipendenza.
X;Y
10