Lezione 5 - e-Learning
Transcript
Lezione 5 - e-Learning
Capitolo 2 Regressione Lineare Semplice Marcello Gallucci P S I C O M E T R I A [email protected] Lezione: 5 Correlazione La correlazione indica la pendenza della retta che meglio interpola i punti La retta ci consente di rappresentare il legame tra le due variabili La retta passerà sempre per l’origine (variabili standardizzate) La retta sarà tanto più piatta quanto meno è la correlazione Lezione: 5 Regressione Questa retta è detta retta di regressione di v su x (o x su v grazie alla simmetria di r) In questa retta il coefficiente di correlazione r indica la pendenza Lezione: 5 Legge di relazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di dettaglio una deviazione standard Legge di relazione r=0.78 v z =r xv x z .78 Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: 7 Regressione standardizzata La correlazione indica il cambiamento atteso usando come unità di misura porzioni di deviazioni standard La legge di relazioni sarà quindi standardizzata r indica il coefficiente di regressione di v su x standardizzato Lezione: 5 Regressione Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento 10 9 8 7 6 5 4 3 SORRISI Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Regressione standardizzata Calcoliamo il coefficiente di correlazione e disegnamo la retta sul diagramma standardizzato r=.89 1.0 .8 .5 .3 0.0 -.3 -.5 ZSORRISI Zbirre ZSorrisi -1.51 -1.771 -1.21 -1.007 -0.9 -0.625 -0.6 -1.007 -0.3 -0.243 0 0.139 0.302 0.903 0.603 0.903 0.905 1.285 1.206 0.903 1.508 0.521 -.8 -1.0 -1.0 -.8 -.5 -.3 0.0 .3 .5 .8 1.0 ZBIRRE Lezione: 5 Regressione standardizzata Calcoliamo il coefficiente di correlazione e disegnamo la retta sul diagramma standardizzato r=.89 1.0 .8 .5 All’aumentare delle birre di una deviazione standard, mi aspetto un incremento dei sorrisi dell’ 89% della deviazione standard dei sorrisi .3 0.0 -.3 ZSORRISI -.5 -.8 -1.0 -1.0 -.8 -.5 -.3 0.0 .3 .5 .8 1.0 ZBIRRE Lezione: 5 Perchè non usare l’unità di misura vere In questo esempio, liberarci della unità di misura non è necessariamente conveniente Potrebbe infatti essere interessante quantificare il cambiamento atteso in una variabile in termini di unità orginali Quanti sorrisi in piu’ si fanno ogni birra bevuta? Lezione: 5 Perché non usare l’unità di misura vere Vi sono molti casi in cui le unità di misura originali possono aver senso Quanto aumenta (in media) il rischio di tumori per ogni sigaretta fumata al giorno? Quanto aumenta lo stipendio dei professori ogni anno lavorato? (molto poco!) Quanto aumenta il costo di uno spot-minuto per ogni spettatore in piu’? In generale, il ricercatore può essere interessato al legame fra variabili sia standardizzato, sia espresso mediante le unità di misura originali Lezione: 5 Predizione In generale, quando il nostro scopo non è solo di appurare un’associazione fra variabili, ma di predire una variabile (che diremo dipendente) per mezzo di un’altra (che diremo indipendente) Siamo interessati a quantificare la nostra predizione sia esprimendola mediante le unità di misura originali, sia al netto di esse Useremo la regressione non standardizzata Lezione: 5 Regressione non standardizzata La regressione non standardizzata identifica la retta interpolante i punti sul diagramma delle variabili non standardizzate Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 Lezione: 5 Regressione non standardizzata La retta di regressione non standardizzata identifica il cambiamento della variabile dipendente (Y) al variare della variabile indipendente (X) Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 Lezione: 5 Legge di relazione Come sarà la legge di relazione di questa retta? y sorrisi =ab yx x birre La retta non passerà necessariamente per l’origine Dunque per birre=0, la predizione di sorrisi non sarà necessariamente 0 y sorrisi =ab yx x birre Costante: valore atteso di y quando x è zero Lezione: 5 Legge di relazione Come sarà la legge di relazione di questa retta? y sorrisi =ab yx x birre La retta avra’ un coefficiente che indica la pendenza y sorrisi =ab yx x birre Il coefficiente viene detto coefficiente di regressione non standardizzato Lezione: 5 Coefficiente di Regressione NS Il coefficiente indica la pendenza della retta. Ma cosa vuol dire? Notiamo che la retta rappresenta i valori di Y predetti sulla base dei valori di X 10 9 8 7 Valore predetto di Y per x=8 6 5 4 Valore predetto di Y per x=2 y sorrisi =ab yx x birre SORRISI 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Coefficiente di Regressione NS Il coefficiente indica la pendenza della retta. Ma cosa vuol dire? Proviamo a muovere la variabile indipendente di una unità 10 Se abbiamo bevuto birre=0 9 8 y sorrisi =ab yx 0=a 7 6 5 Se abbiamo bevuto birre=1 4 y sorrisi =ab yx 1=ab yx SORRISI 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Coefficiente di Regressione NS Dunque, muovendo la variabile indipendente di una unità, abbiamo predetto due valori di Y. Quale cambiamento in Y prediciamo? 10 Cambiamento in x 9 8 Δ x =1−0=1 7 6 5 Cambiamento in y 4 SORRISI Δ y =b yx a−a=b yx 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Coefficiente di Regressione NS Dunque, il coefficiente rappresenta il cambiamento predetto in Y nel variare (cambiare) la X di una unità 10 Cambiamento in x 9 8 Δ x =1−0=1 7 6 5 Cambiamento in y 4 SORRISI Δ y =b yx a−a=b yx 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Coefficiente di Regressione NS Se ci muoviamo di K unità su X, prediremo uno di cambio in Y di K volte b Valore predetto di Y per x=8 10 9 y sorrisi =ab yx 8 8 7 6 Valore predetto di Y per x=2 5 4 SORRISI y sorrisi =ab yx 2 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Coefficiente di Regressione NS Calcoliamo il cambiamento 10 In x ci siamo mossi di 6 unità 9 8 Δ x =8−2=6 7 6 5 Cambiamento in y 4 SORRISI Δ y =8b yx a−2b yx −a=6b yx 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Regressione NS La retta di regressione rappresenta la predizione lineare (o dipendenza lineare) tra una variabile indipendente ed una dipendente, espressa nelle unità di misura originali 10 9 8 La retta di regressione richiede due coefficienti 7 6 La costante: il valore predetto di Y quando 5 X=0 4 3 al variare di una unità di X SORRISI Il coefficiente di regressione: il cambiamento predetto in Y 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Regressione NS In buona sostanza, la regressione NS rappresenta la stessa retta espressa dalla correlazione, solo non standardizzata standardizzata Non standardizzata 10 1.0 9 .8 8 .5 7 6 .3 5 0.0 -.3 3 -.5 2 SORRISI ZSORRISI 4 -.8 1 0 -2 -1.0 -1.0 -.8 -.5 -.3 0.0 .3 .5 .8 1.0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE ZBIRRE Lezione: 5 Regressione NS La retta di regressione potrà dunque essere scritta come y =ab yx x Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 y =2 . 09. 70 x Sig. .014 .000 10 a. Dependent Variable: SMILES 9 8 b 7 In media, per ogni birra bevuta ci aspettiamo il .7 sorrisi in piu’ 6 5 4 a Quando non si è bevuta neanche una birra, ci aspettiamo 2.09 sorrisi SORRISI 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 5 Come si calcola Se la retta di regressione NS è equivalente alla retta standardizzata, per ottenerla basterà “ridare” alle variabili le loro scale (cioè le deviazioni standard) retta standardizzata* d y sy =r xv dx sx retta non standardizzata d y=r xv sy sx dx Coefficiente stand. cov x , y r xv = sy sx Coefficiente non stand. s y cov x , y b yx =r xv = sx s 2x * Ricorda che i punteggi standardizzati si possono esprimere come deviazioni dalla media (d) fratto dev.stan. Lezione: 5 Calcolo della Costante Intercetta, cioè il valore atteso di Y quando X=0, si ottiene “ridando” alle variabili le loro medie scostamenti d y=b xy d x y − M y =b xv x −M x Se X=0 y − M y =−b xy M x Intercetta y = M y −b xy M x Lezione: 5 Regressione NS In buona sostanza, il coefficiente di regressione non standardizzato dipende dalla covarianza tra X e Y e dalla varianza di X b yx = cov x , y s 2x L’intercetta dipende dalle medie di X e Y e dal coefficiente di regressione a= M y−b yx M x Lezione: 5 Asimmetria A differenza della correlazione, la retta di regressione non è simmetrica Regressione Y su X Regressione X su Y Coefficiente b yx = cov x , y b xy = s 2x cov x , y s 2y Costante a= M y−b yx M x a= M x−b xy M y Lezione: 5 Asimmetria A differenza della correlazione, la retta di regressione non è simmetrica Regressione X su Y Regressione Y su X 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 3 BIRRE SORRISI 2 2 1 0 1 0 -2 -2 -1 BIRRE 0 1 2 3 4 5 6 7 8 9 10 y =2 . 09. 70 x 11 -1 0 1 2 3 4 5 6 7 8 9 10 12 SORRISI x =−1. 411 .13 y Lezione: 5 Campo di variazione A differenza della correlazione, i parametri della retta di regressione (coefficiente e constante) variano da meno infinito a più infinito Come per la correlazione, il valore di zero indica nessuna relazione fra le variabili Lezione: 5 Bonta’ di adattamento L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del modello di regressione ai dati basso R2 alto R2 All’aumentare dell valore di R2, diminuisce la dispersione dei punti intorno alla retta, dunque diminuisce l’errore Lezione 5 Errori di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati y i =ab yx x i predetti Discrepanza osservati-predetti errore y i − y i =y i − ab yx x i Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l’errore y i = ab yx x i y i − y i retta errore Lezione 5 Errori di regressione Proviamo con l’esempio y =2.09−70 x retta 5 . 63=2 . 09. 70⋅5 predetto 10 6−5 . 63=. 36 errore 9 8 7 6 5 4 3 6=5.63.36 retta SORRISI Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE errore Lezione 5 Quanto e’ grande l’errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato n ∑ i =1 yi − y i n−1 Discrepanza osservati-predetti 2 2 =s e Notiamo che questa e’ una varianza, che chiameremo varianza di errore Lezione 5 Quanto e’ buona la regressione Se Y e’ funzione della retta e dell’errore, cosi’ sara’ la sua viarianza Decomponiamo la varianza di Y 2 2 2 s y =s reg s e La nostra retta sara tanto piu’ buona quanto sara’ grande la varianza spiegata dalla regressione 2 sy 2 se Varianza spiegata 2 s reg Y Y X 2 2 2 s reg =s y −s e Lezione 5 % di varianza spiegata Ora possiamo esprimere la bonta’ della regressione come % della varianza di Y spiegata dalla regressione 2 2 2 s reg s y −s e = 2 2 sy sy 2 sy 2 se Varianza spiegata Y Y 2 s reg X Ma questa quantita’ noi la conosciamo gia’!!! Lezione 5 R2=% di varianza spiegata Essendo una quantita’ relativa, non dipende dalla grandezza assoluta della varianza di Y, inclusa varianza uquale a 1 2 se Y Y 2 s reg X Y Yzz Dunque questa quantita’ e’ data da R2 Xz 2 2 2 s reg s y −s e 2 = =R yx 2 2 sy sy In alcuni testi R2 viene chiamato coefficiente di determinazione Lezione 5 % di varianza non spiegata La varianza non spiegata sara’ data dal complemento di R-quadro 2 se Y Y 2 s reg X Dunque questa quantita’ e’ data da 1-R2 Y Yzz Xz 2 2 2 s e s y −s reg 2 = =1−R yx 2 2 sy sy In alcuni testi 1-R2 viene chiamato coefficiente di alienazione Lezione 5 Bonta’ di adattamento L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del modello di regressione ai dati basso R2 alto R2 All’aumentare dell valore di R2, diminuisce la dispersione dei punti intorno alla retta, dunque diminuisce l’errore Lezione 5 R2 e b La relazione tra R2 e b (coefficiente di reg. non standardizzato) e’ la seguente Se b e’ diverso da zero, la grandezza di b non dice nulla della grandezza di R2 Esempio: Stessa pendenza, differenti errori Lezione 5 R2 e b La relazione tra R2 e b (coefficiente di reg. non standardizzato) e’ la seguente Se b e’ uguale a zero (prossimo a zero), R2 sara’ zero (prossimo a zero) y =a0 x =M y R2=0 b=0 Se prediciamo la media (b=0) R2 dovra’ essere 0 Lezione 5 R2 e r La relazione tra R2 e r (coefficiente correlazione) e’ la seguente I due coefficienti sono perfettamente associati 2 R =r∗r ±r = R Piu’ grande e’ r (sia in negativo che in positivo), maggiore e’ R2 r = R 2 2 −r = R 2 Questa relazione e’ valida solo se abbiamo una ed una sola variabile indipendente Lezione 5 Fine Fine della Lezione V Lezione: 5