distribuzioni congiunte, covarianza e retta di regressione
Transcript
distribuzioni congiunte, covarianza e retta di regressione
1 APPUNTI SU: DISTRIBUZIONI CONGIUNTE, COVARIANZA E RETTA DI REGRESSIONE 1 Distribuzioni congiunte Spesso nelle applicazioni si e portati a considerare piu quantita aleatorie e a confrontarne il comportamento. Cio motiva l'introduzione della nozione di distribuzione congiunta. Sia, al solito, ( ; P) uno spazio di probabilita, ovvero e uno spazio campionario e P : ! [0; 1] e una (misura di) probabilita su . Su siano denite due variabili aleatorie (v.a.) discrete X e Y : X; Y : ! 2 7! X (!); Y (!) 2 R: Denotiamo con E = fx1 ; : : : ; x g (o E = fx1 ; x2 ; : : : g) e con E = fy1; : : : ; y g (o E = fy1; y2; : : : g)) l'insieme dei valori ammissibili per X e Y rispettivamente. Ricordiamo brevemente che la legge o distribuzione di X e di Y sono date dalle funzioni p e p , rispettivamente, che ad ogni valore ammissibile associano la probabilita con la quale possono vericarsi: p (x) = PfX = xg x2E p (y) = PfY = yg y2E Si consideri ora l'applicazione X m X k Y Y X Y X X Y Y (X; Y ) : ! R2 ; ! 7! (X (!); Y (!)): L'immagine di tale applicazione e l'insieme delle coppie (x; y) 2 E E .Si denisce legge o distribuzione congiunta delle v.a. X e Y l'applicazione X Y p(x; y) = PfX = x; Y = yg che ad ogni coppia (ammissibile) (x; y) 2 E E associa la probabilita con la quale tale coppia puo essere assunta. Vedremo nel seguito che tale nozione si rivela estremamente importante e che permette di risolvere numerosi problemi. Osserviamo dapprima che la legge congiunta di X e Y consente di dedurre le leggi di X e di Y , dette leggi o distribuzioni marginali. Infatti, per la formula delle probabilita totali, ssato x 2 E , si ha X Y i p (x ) = PfX = x g = X i X i X fX = x ; Y = y g = P i j X j p(x ; y ) i j (1) j 1 Queste note sono la traduzione di parte delle lezioni tenute dai Pro. Paolo Baldi e Nicole El Karoui all'Universita Pierre et Marie Curie (Paris VI) nell'a.a. 1995/'96. 1 La legge (marginale) di X in x si calcola dunque a partire dalla legge congiunta, \congelando" la prima variabile, x , e \saturando" rispetto a tutti i possibili valori che puo assumere la Y , ovvero sommando p(x ; y ) su tutti i possibili y . Discorso analogo riguardo il calcolo della legge (marginale) di Y : ssato y 2 E , i i i j j j Y p (y ) = PfY = y g = Y j X j p(x ; y ) i j (2) i Esempio 1. Si consideri un'urna contenente 6 palline numerate da 1 a 6; se ne estraggano 2 con reinserimento: siano X1 e X2 i due numeri ottenuti. Si vuole calcolare la distribuzione congiunta di X1 e X2 . I valori ammissibili per la coppia (X1 ; X2 ) sono dati dalle coppie (i; j ), al variare di i; j nell'insieme f1; : : : ; 6g. Si tratta quindi di 36 possibili valori e, poiche ogni coppia e equiprobabilie, ciascuna coppia ha probabilita 361 di vericarsi. Quindi, E( 1 2 ) = f1; : : : ; 6g2 . E possibile visualizzare la situazione dei due tiri come nella Figura 1, in cui denotano i valori possibili. X ;X 6 5 4 3 2 1 1 2 3 4 5 6 Figura 1 Insieme dei valori ammissibili per la coppia (X1 ; X2 ). Prese singolarmente, le due v.a. X1 e X2 possono assumere valori nell'insieme f1; : : : ; 6g e ciascun valore e assunto con probababilita 61 (esercizio!). Cio signica che le distribuzioni marginali di X1 e X2 sono uniformi nell'insieme f1; : : : ; 6g. Supponiamo ora che le due estrazioni siano eettuate senza reinserimento, e denotiamo con Y1 e Y2 il risultato della prima e della seconda estrazione rispettivamente. I valori ammissibili per la coppia (Y1 ; Y2 ) non sono piu gli stessi perche, ad esempio, la coppia (1; 1) non puo piu vericarsi. Infatti, i possibili risultati sono dati dalle coppie (i; j ) tali che i; j 2 f1; : : : ; 6g ma con i 6= j . Si tratta dunque di 30(= 36 possibili coppie 6 coppie identiche) 2 valori ammissibili, tutti equiprobabili, che dunque possono vericarsi ciascuno con probabilita 301 . Quindi, E( 1 2 ) = f(i; j ) : i 6= j; i; j 2 f1; : : : ; 6gg. La legge congiunta di Y1 e Y2 e quindi data da ( 1 se i; j = 1; : : : ; 6 e i 6= j p(i; j ) = 30 0 altrimenti La Figura 2 visualizza tutti i possibili risultati di questo secondo esperimento. Ancora una volta, i simboli denotano tutti i possibili valori per la coppia (Y1 ; Y2 ), che possono essere assunti con probabilita 301 . Y ;Y 6 5 4 3 2 1 1 2 3 4 5 6 Figura 2 Valori ammissibili per (Y1 ; Y2 ). Usando le formule (1) e (2), e possibile calcolare le distribuzioni di Y1 e di Y2 come distribuzioni marginali della loro legge congiunta. La somma in (1) per x = 1; 2; 3; 4; 5; 6 contiene 5 termini uguali a 301 . Ad esempio, per x = 3, 1 p 1 (3) = p(3; 1) + p(3; 2) + p(3; 4) + p(3; 5) + p(3; 6) = 6 dunque la legge di Y1 e la legge uniforme su f1; : : : ; 6g. Usando la (2), si verica facilmente (esercizio!) che anche Y2 ha distribuzione uniforme su f1; : : : ; 6g. Tale risultato non e sorprendente per Y1 (la probabilita che alla prima estrazione si ottenga la pallina numero i e ovviamente 61 , per ogni i = 1; 2; 3; 4; 5; 6) ma lo e un po' meno per Y2 ... Le leggi marginali sono dunque identiche, sia che le estrazioni vengano eettuate con reinserimanto sia che le palline vengano estratte senza reinserimento. i i Y L'esempio precedente mostra che e possibile avere due distribuzioni congiunte diverse aventi le medesime distribuzioni marginali. Cio signica che 3 non e possibile, in generale, stabilire quale sia il comportamento congiunto di due v.a. noto il comportamento di ognuna di esse prese singolarmente. Al contrario, la distribuzione congiunta consente sempre di determinare le due distribuzioni marginali, a partire dalle (1) e (2). L'esempio che segue mostra un particolare utilizzo della distribuzione congiunta. Esempio 2. Da un'urna contenente 6 palline numerate da 1 a 6 vengono eettuate due estrazioni senza reinserimento. Qual e la probabilita che i risultati delle due estrazioni dieriscano al piu di 2? E se le estrazioni fossero state eettuate con reinserimento? Usando le notazioni dell'Esempio 1, si tratta di calcolare PfjY1 Y2 j 2g. Tale probabilita si puo riscrivere come Pf(Y1 ; Y2 ) 2 Ag, dove A e la regione del piano f(x1 ; x2 ); jx1 x2 j 2g. Dunque, la probabilita richiesta e data da X p(i; j ) (3) (i;j )2A dove p denota la distribuzione congiunta di (Y1 ; Y2 ), calcolata nell'Esempio 1. La regione A e data dalla striscia compresa tra le rette di equazione x = y + 2 e x = y 2, disegnate nella Figura 3. In A si trovano 18 valori ammissibili per la coppia (Y1 ; Y2 ) e poiche = 35 . ciascuna coppia ha probabilita 301 , la somma in (3) vale 18 30 . .. .. .. .. . .. .. .. .. .. . . .. .. .. . .. .. .. . .. .. .. .. .. . . . . .. .. .. .. .. .. .. .. .. .. . . .. .. .. .. .. .. .. .. .. .. . . .. .. .. .. .. .. .. .. .. .. . . . . .. .. .. .. .. .. .. .. .. .. . . .. .. .. .. .. .. .. .. .. .. . . .. .. .. .. .. .. .. . . .. .. .. .. .. . . .. .. .. .. 6 5 4 3 2 1 1 2 3 4 5 6 Figura 3 L'insieme A e dato dall'intersezione della striscia compresa tra le due rette disegnate in gura e l'insieme dei valori ammissibili. Se le estrazioni fossero state eettuate con reinserimento, il procedimento sopra descritto sarebbe comunque valido, ma in tal caso A conterrebbe 24(= 18+6) valori possibili, ciascuno vericabile con probabilita 361 . Cio signica che, sotto tale ipotesi, la probabilita dell'evento in questione sarebbe 23 . 4 Un'altra situazione nella quale la nozione di distribuzione congiunta e cruciale e la seguente: se X e Y denotano due v.a., di legge congiunta p, qual e la legge di X + Y ? Si ha fX + Y = tg = P = X X fX + Y = t; Y = y g P j j fX = t y ; Y = y g = P j X j j j X p(t y ; y ) = p(x ; y ) j i j (xi ;xj ) : xi +yj =t j Tale formula permette di calcolare esplicitamente la distribuzione della v.a. X + Y ed ha una grande importanza teorica perche mostra che la legge di X + Y non dipende dalle marginali ma solo dalla distribuzione congiunta: se X 0 e Y 0 sono due v.a. che hanno stessa legge (congiunta) p allora la distribuzione di X 0 + Y 0 e la stessa di X + Y . 2 Covarianza e correlazione Siano X e Y due v.a. Si vuole determinare una formula per la varianza di X + Y . Si ha Var(X +h Y ) = E (X + Y ) E [X + Yi ] 2 = = E (X E [X ]) + (Y E [Y ]) 2 = h i h i h = E (X E [X ])2 + E (Y E [Y ])2 + 2E (X E [X ])(Y = Var(X ) + Var(Y ) + 2Cov(X; Y ) dove i E [Y ]) = (4) Cov(X; Y ) = E (X E [X ])(Y E [Y ]) (5) La quantita Cov(X; Y ) prende il nome di covarianza di X e Y . Un'altra espressione per la covarianza (spesso piu utile nei calcoli) e la seguente: Cov( X; Y ) = E (X E [X ])(Y E [Y ]) = = E XY X E [Y ] Y E [X ] + E [X ]E [Y ] = = E [XY ] E [X ] E [Y ] dove, ricordiamo, X E [XY ] = x x p(x ; x ): i j i (6) j i;j Sappiamo che se X e Y sono indipendenti allora E [XY ] = E [X ]E [Y ], dunque Cov(X; Y ) = E [XY ] 5 E [X ]E [Y ] = 0 (7) In tal caso, Var(X + Y ) = Var(X ) + Var(Y ). Per il caso di m v.a. segue facilmente (esercizio!) Var(X1 + + X ) = m X m Var(X ) + X i i=1 Cov(X ; X ) i 6 j (8) i=j e se X1 ; : : : ; X sono indipendenti, allora Var(X1 + + X ) = Var(X1 ) + + Var(X ) (9) Dunque, la varianza della somma di v.a. indipendenti e data dalla somma delle varianze. Cerchiamo ora di capire il signicato della covarianza di due v.a. Abbiamo appena visto che la covarianza di due v.a. indipendenti e zero. Sfortunatamente, l'inverso e falso (se cos non fosse, infatti, si potrebbe usare tale risultato per una verica, tutto sommato non diÆcile dal punto di vista computazionale, dell'indipendenza di due v.a.). Mostriamo qui di seguito un controesempio. Esempio 3. Sia X una v.a. che puo assumere i valori f 1; 0; +1g, con distribuzione p (0) = ; p ( 1) = p (+1) = con ; > 0, + 2 = 1. Si noti che E [X ] = 0. Sia ora Y denita nel modo seguente: Y = 1 se X 6= 0, Y = 0 se X = 0. Mostriamo che Cov(X; Y ) = 0. Infatti, e immediato vericare che XY = X (esercizio!), dunque E [XY ] = E [X ] = 0. Allora, Cov(X; Y ) = E [XY ] E [X ] E [Y ] = 0: Ma, X e Y non sono indipendenti: 0 = P(X = 0; Y = 1) 6= P(X = 0) P(Y = 1) = 2: Se Cov(X; Y ) = 0, diremo che X e Y sono non correlate. In ogni caso, ci si puo servire della covarianza per dare una misura dell'indipendenza di due v.a.: valori della covarianza vicini a zero signicano che le due v.a. sono quasi indipendenti; viceversa, valori grandi (in valore assoluto) della covarianza indicano la presenza di una forte dipendenza tra le due v.a. Il prossimo esempio mostra la relazione che lega la covarianza positiva e negativa con il concetto di \dipendenza" tra due v.a. Esempio 4. (Retta di regressione) Siano X e Y due v.a. sullo stesso spazio di probabilita ( ; P ). Si vuole trovare la migliore approssimazione possibile della Y tramite una funzione lineare della X . In altre parole, si cercano due numeri a; b 2 R tali che aX + b approssima Y nel miglior modo possibile. m m X m X X 6 Un problema di questo tipo appare, ad esempio, quando si vuole stimare una quantita Y che non e osservabile direttamente. Si consideri, a titolo di esempio, il caso in cui Y e un segnale e X e un'osservazione \disturbata" (vale a dire, X e uguale a Y piu un errore dovuto all'osservazione). Il primo problema consiste nel denire un criterio di ottimalita: che signicato si vuole dare a \migliore approssimazione possibile"? Ovviamente, occorre partire dalla distanza tra aX + b e Y , ovvero da jaX + b Y j. Poiche pero lavorare con i moduli puo essere oneroso in termini di calcoli, si preferisce considerare (aX + b Y )2 . Ora, tale quantita e aleatoria e il problema che e stato posto e \deterministico": i numeri a e b che si cercano non sono aleatori. Per tale ragione, si considera il valore atteso di (aX + b Y )2 . Dunque, il criterio di ottimalita scelto e il seguente: si vogliono determinare due numeri a e b tali da minimizzare h (a; b) 7! E (aX + b Y )2 i (va detto che esistono altri criteri di ottimizzazione, che qui non saranno presi in considerazione). Denotiamo, per semplicita, = E (X ); = E (Y ). Allora, h i h (aX + b Y )2 = E (a(X ) + (b + a) (Y ) )2 h i = E ((a(X ) (Y )) + (b + a ))2 h i = E (a(X ) (Y ))2 + (b + a )2 h i +2(b + a )E a(X ) (Y ) = I1 + I2 + I3 Osserviamo che il termine I3 e nullo perche E E h a(X i h i h ) (Y ) = E a(X ) E Y = a(E (X ) ) (E (Y ) ) = 0 i i Cominciamo con il cercare il valore di a che minimizza I1 : h h I1 = E (a(X h ) (Y i i ))2 = h = a2 E (X )2 ] + E (Y )2 2aE (X )(Y = a2 Var(X ) 2aCov(X; Y ) + Var(Y ): Il minimo di questo trinomio e raggiunto nel punto Cov(X; Y ) a = Var(X ) 7 i ) = (10) Cerchiamo ora il valore di b che minimizza I2 , calcolato sul valore di a appena trovato: b = a = E (Y ) a E (X ) Si denisce retta di regressione la retta di equazione y = a x + b dove a e b sono i numeri appena determinati. Quindi, l'equazione della retta di regressione e Cov(X; Y ) (x E [X ]) + E [Y ] y= Var(X ) ................... .................. .......... ...... ....... .................. . . . .................................................. .... .................. ............ ................................................................. ................... . ... ... ..... .................. . . . . . .................. ...... ................ .................................... ................................................................. .................. ................... ............. Figura 4 Si suppone, qui e nel graco successivo, che i punti disegnati in gura rappresentino i valori ammissibili per la coppia (X; Y ), ognuno dei quali puo essere assunto con la stessa probabilita. Qui la retta di regressione ha un coeÆciente angolare negativo e la correlazione e negativa. Si noti che Y ha tendenza ad assumere valori piu piccoli quando X e grande. Si noti che la retta di regressione non e \simmetrica", ovvero scambiando i ruoli ad X e Y cambia anche la retta di regressione. Inoltre, il coeÆciente angolare della retta di regressione ha lo stesso segno della covarianza (perche Var(X ) e sempre positiva). Cio indica che, se la covarianza e positiva, Y tende ad assumere valori grandi in corrispondenza di valori grandi della X . Tale proprieta e detta di dipendenza positiva. Al contrario, se la covarianza e negativa, Y tende ad assumere valori piccoli in corrispondenza di valori grandi della X e in tal caso si dice che c'e dipendenza negativa tra le due v.a. Ad esempio, se si volesse creare un modello che leghi la relazione tra il peso X e l'altezza Y di un individuo preso a caso da una popolazione, ci si aspetta una covarianza positiva tra queste due v.a. perche individui alti hanno la tendenza ad essere piu pesanti (cio non toglie che possano esistere individui alti e leggeri oppure bassi e molto pesanti, eventi che, in 8 generale, hanno probabilita di vericarsi molto bassa). Ci si attende una covarianza negativa quando si considerino quantita aleatorie che hanno un eetto \antitetico' l'una sull'altra. .. .................. .................... .................. ................................................................... ...... .................... . ............. .................. ............................................... .................... . . . . . . . . . . . . . . . . . . . .................. .................... .. .................. ................... ..................................................................... ................. . . . . . . . . . . . . . . . . . ............ ................... Figura 5 Qui in corrispondenza di valori grandi per piuttosto grandi anche per Y . La covarianza e positiva. X si osservano valori Abbiamo appena visto come la covarianza possa essere utilizzata per misurare la dipendenza di due v.a. In realta cio non e del tutto vero perche la covarianza presenta un difetto: Cov(aX; bY ) = abCov(X; Y ) Cio signica che la covarianza tra due v.a. e strettamente legata all'unita di misura: la covarianza cambia se si cambia l'unita di misura con la quale le v.a. X e Y sono state misurate. Per tale ragione, si introduce la seguente quantita: Cov(X; Y ) (11) =p Var(X )Var(Y ) e detto coeÆciente di correlazione di X e Y e non dipende dai cambiamenti di misurazione, cioe (esercizio!) X;Y X;Y = X;Y aX;bY per ogni a > 0; b > 0 (se ab < 0, il coeÆciente di correlazione cambia segno: esercizio!). La proposizione che segue assicura che 1 X;Y 9 1 Proposizione 1. di Cauchy-Schwartz Vale la seguente disuguaglianza, detta : E [XY ]2 disuguaglianza E [X ]E [Y ] 2 2 Dimostrazione. poiche il valore atteso di una v.a. non negativa e sempre non negativo, per ogni # 2 R si ha 0 E [(#X + Y )2 ] = #2 E [X 2 ] + 2#E [XY ] + E [Y 2 ] Tale disuguaglianza e vera per ogni # 2 R: il trinomio # ! #2 E [X 2 ] + 2#E [XY ] + E [Y 2 ] non puo assumere valori negativi e dunque il suo discriminante deve necessariamente essere minore di 0, il che signica E [XY ]2 E [X 2 ]E [Y 2 ] 0 2 La Proposizione 1 applicata alle v.a. X Cov( X; Y )2 = E (X E (X E [X ])2 E (Y E [X ] et Y E [Y ] da 2 E [X ])(Y E [Y ]) E [Y ])2 = Var(X )Var(Y ) e quindi 2 1. Come abbiamo visto, la condizione di non correlazione e in realta molto piu debole di quella di indipendenza, ma e anche piu facile da vericare per cui e abbastanza usata nella pratica come forma debole di indipendenza. X;Y 10