R - Dipartimento di Psicologia
Transcript
R - Dipartimento di Psicologia
Metodologie Quantitative Regressione Lineare Multipla M Q Predizione, varianze, e coefficienti Marco Perugini Milano-Bicocca 1 Lezione: XIX Approccio esploratorio in RLM Finora abbiamo considerato regressioni basate su modelli teorici A volte (spesso…) la regressione viene usata allo scopo di identificare tra un insieme di VI quelle che predicono significativamente le VD Tutte le VI sono teoricamente “uguali” all’inizio ed alla fine verranno considerate soltanto quelle VI che predicono in modo significativo Ci sono veri metodi per questo tipo di regressione Il più diffuso è il metodo stepwise 2 Lezione: XVIII Metodo stepwise (per passi) Metodo iterativo Al primo passo viene selezionata la VI che predice meglio di tutte (p.<.05) Al secondo passo viene aggiunta la VI che predice meglio tra le restanti Viene ricalcolato il contributo delle due VI. Se una VI non è più significativa, viene esclusa (p.>.10) Terzo passo, quarto passo, ecc., fino all’ultimo passo nel quale non ci sono più VI significative da aggiungere Si interpreta la regressione finale 3 Lezione: XVIII Esempio 4 Lezione: XVIII Esempio 5 Lezione: XVIII Esempio 6 Lezione: XVIII Alcuni punti chiave della RLM La regressione multipla e’ una generalizzazione di una regressione semplice lineare La significativita’ dei coefficienti e’ calcolata come per la regressione semplice I coefficienti sono interpretati come gli effetti di una IV tenendo costanti le altre IV (effetti parziali) R2 e’ la capacita’ complessiva delle IV a spiegare la DV Le variabili possono essere selezionate teoricamente o empiricamente Situazione ideale: Le IV non sono correlate tra di loro e sono correlate con la DV 7 Lezione: XVIII Predizione e varianza Esplicitiamo la relazione tra predizione mediante la regressione, varianza spiegata e varianza di errore Relazione Lineare Varianza condivisa/spiegata 24 22 20 yy x w 18 COOP 16 14 12 10 3 2 1 0 CLOSE -1 -2 2 4 6 8 10 TRUST 8 Lezione: XIX Predizione senza regressione Ricordiamo che in assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabile è predire il valore Istogramma medio (assumendo una distribuzione circa normale) 200 Quale è il valore più probabile nella variabile stereotipi verso il sud? Media=16.14 Varianza=20.38 Frequenza yˆ i = M y 150 100 50 Mean = 16,4196 Std. Dev. = 4,51513 N = 1.599 0 5,00 10,00 15,00 20,00 25,00 30,00 stereotipi verso sud italia (alto=forte) 9 Lezione: XIX Predizione senza regressione In assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabile è predire il valore medio Istogramma (assunzione di distribuzione normale) 120 Quale è lo stipendio più probabile di un dirigente? Media=21450 Varianza=599 Frequenza yˆ i = M y 100 80 60 40 20 Mean = 2145,3403 Std. Dev. = 599,06439 N = 1.200 0 0 ,0 00 45 0 ,0 00 40 0 ,0 00 35 0 ,0 00 30 0 ,0 00 25 0 ,0 00 20 00 0 0 ,0 00 , 00 15 10 0 0, 50 stipendio 10 Lezione: XIX Varianza ed errore di predizione Se predicessimo che tutti hanno un punteggio pari al valore medio, quale sarebbe il nostro errore? Istogramma Tutto ciò che si distanzia dalla media 120 yi − yˆ i = yi − M y s 2 (y ∑ = i − My) n −1 80 60 40 20 Mean = 2145,3403 Std. Dev. = 599,06439 N = 1.200 0 0 ,0 00 45 0 ,0 00 40 0 ,0 00 35 0 ,0 00 30 0 ,0 00 25 0 ,0 00 20 00 0 0 ,0 00 , 00 15 10 0 0, 50 Media=21450 Varianza=599 2 Frequenza 100 stipendio 11 Lezione: XIX Varianza ed errore di predizione La varianza della variabile da predire rappresenta sia l’errore che commettiamo nell’usare la media come predittore, sia tutta l’informazione che possiamo spiegare se usassimo un predittore migliore della media s 2 (y ∑ = i − My) n −1 2 YY n-1 perché la varianza viene stimata dal campione (non conosciuta nella popolazione) e si perde un grado di libertà (l’ultimo valore stimabile è “costretto” dalla media) 12 Lezione: XIX Varianza ed errore di predizione Consideriamo il diagramma di dispersione tra la nostra variabile dipendente ed una altra variabile, sempre nel caso volessimo usare il valore 4500,00 medio come predittore della VD 4000,00 Errore di predizione: Tutto ciò che si distanzia dalla media yi − M y 3500,00 stipendio 3000,00 2500,00 2000,00 s 2 (y ∑ = i − My) n −1 2 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 80,00 100,00 pub 13 Lezione: XIX Regressione Se ora usiamo i valori di una variabile indipendente, pesati per i coefficienti di regressione, come predittori, il nostro punteggio predetto 4500,00 sarà generalmente diverso da prima 4000,00 Valori predetti 3000,00 stipendio yˆ i = a + byx xi 3500,00 2500,00 2000,00 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 80,00 100,00 pub 14 Lezione: XIX Errore della Regressione Anche la predizione fatta con la regressione commetterà degli errori, cioè il valore predetto non coinciderà perfettamente con il valore 4500,00 osservato 4000,00 Errore che commettiamo 3500,00 stipendio yi − yˆ i = yi − (a + byx xi ) 3000,00 2500,00 2000,00 s 2 e [y ∑ = − (a + byx xi )] 2 i n −1 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 80,00 100,00 pub 15 Lezione: XIX Varianza di errore Questa varianza, detta di errore, indica la parte della varianza della VD che non è predicibile mediante i punteggi della VI e Media degli errori di regressione s 2 e [y ∑ = − (a + byx xi )] 2 i X n −1 16 Lezione: XIX % Varianza di errore Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di errore % di errore di regressione e errore di regressione 2 e 2 y s = s 2 [ ( )] y − a + b x ∑ i yx i ∑(y i − My) 2 =e X massimo errore totale 17 Lezione: XIX Riduzione dell’errore Potremo dire che l’errore di predizione si è ridotto, al confronto con l’errore che facevamo senza usare la regressione (usando cioè la media di Y come valore predetto) e % di riduzione s 2 y 2 y 2 e 2 y 2 e 2 y s s − = 1− = 1− e s s s X 18 Lezione: XIX Varianza spiegata Quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all’uso della regressione e Chiamiamo tale % di varianza: R2 s 2 y 2 y 2 e 2 y 2 e 2 y s s 2 − = 1 − = R yx s s s X 19 Lezione: XIX Decomposizione della Varianza Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la regressione si può decomporre in % di varianza di errore:1-R2 e X % di varianza spiegata: R2 s 2 y 2 y 2 reg 2 y s 2 e 2 y s = + s s s 20 Lezione: XIX Regressione multipla In presenza di più variabili, la storia non cambia Valori predetti e yˆ i = a + byx.w xi + byw. x wi Errori X y − yˆ i = y − (a + byx.w xi + byw. x wi ) Varianza di Errori (y ∑ e= i W − yˆ i ) 2 n −1 [ y − (a + b ∑ = x + byw. x wi )]2 yx. w i n −1 21 Lezione: XIX Varianza spiegata Anche nella multipla, quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all’uso della regressione e Chiamiamo tale % di varianza: R2 s 2 y 2 y 2 e 2 y 2 e 2 y s s 2 − = 1 − = R yxw s s s X W 22 Lezione: XIX Varianza Spiegata Passando dalle regressione semplice a quella multipla, notiamo che la varianza spiegata si può ulteriormente decomporre e e a b c X X W R2:relazione tra Y e X R2: Effetto di X unico, Effetto di W unico, Effetto comune di X eW 23 Lezione: XIX Effetti e Varianza Spiegata Nella semplice, la varianza spiegata è anche l’effetto della VI Nella multipla, la varianza spiegata è data dai contributi unici e del contributo condiviso dalla VI e e a b c X X W R2:relazione tra Y e X R2: Effetto di X unico, Effetto di W unico, Effetto comune di X eW 24 Lezione: XIX Contributo unico di VI Il contributo unico di una VI può essere stimato grazie al quadrato della correlazione parziale Correlazione parziale Varianza spiegata pr 2 yw. x - Varianza spiegata da x e a = a+e a b c X w 25 Lezione: XIX Correlazione parziale Il quadrato della correlazione parziale indica l’effetto di una VI dopo aver rimosso tutta la variabilita’ delle altre Correlazione parziale pr 2 yw. x a = a+e e Varianza dovuta a w calcolata sul totale dopo aver tolto la varianza di x a b c X w Varianza di x e’ completamente rimossa 26 Lezione: XIX Calcolo di pr2 Pr può essere calcolato partendo dalle correlazioni semplici pryw. x = ryw − ryx rwx e 1 − ryx2 1 − rwx2 a b c Oppure dai coefficienti standardizzati X pryw. x = β yw. x 1 − ryx2 W pryw2 . x = pryw. x ⋅ pryw. x 27 Lezione: XIX Contributo unico di una VI (2) Il contributo unico della VI può anche essere valutato come varianza spiegata totale parzializzando la varianza condivisa con altre VI Varianza spiegata - Varianza spiegata da x e sr 2 yw. x = a + b + c − (b + c) = a a b c X w 28 Lezione: XIX Contributo unico di una VI L’indice che indica il contributo unico di una VI e’ detto Correlazione semi-parziale sr 2 yw. x Rimuovendo la varianza condivisa con altre VI =a e Varianza spiegata solo da W Il quadrato della correlazione semiparziale indica la percentuale di varianza spiegata unicamente dalla variabile indipendente a b c X W 29 Lezione: XIX Correlazione semi-parziale Notiamo che la parzializzazione e’ solo parziale (!?), ecco perche’ si chiama semi-parziale Rimuovendo la varianza condivisa con altre VI sr 2 yw. x a = =a a+c+b+e e Questa è 1 a b c Notiamo che la varianza delle altre variabili indipendenti e’ rimossa solo dalla variabile indipendente X W b rimane 30 Lezione: XIX Calcolo di sr2 Il calcolo pratico della varianza spiegata unicamente da VI puo’ essere effettuato partendo dalle correlazioni semplici e R2 sr 2 yw. x = (a + c + b) − (c + b) = a e 2 sryw2 . x = R yxw − ryx2 a b c Oppure partendo solo dalle correlazioni semplici sryw. x = X W ryw − ryx rwx 1− r 2 wx 31 Lezione: XIX sr & sr2 Noteremo che SPSS ci da sempre l’indice non elevato al quadrato, che varia da –1 a 1. Lo eleviamo al quadrato per interpretarlo in temini di varianza spiegata unicamente sryw. x = e ryw − ryx rwx 1 − rwx2 a b c X W SPSS chiama questo coefficiente “parziale indipendente”, non si capisce il perchè! 32 Lezione: XIX Correlazione semi-parziale La correlazione sr e’ anche detta correlazione supplementare R2=.25 R2=.10 e e s r2=.15 a r2 b c x w w Grazie a X, si spiega un 15% in piu’ 33 Lezione: XIX Correlazione semi-parziale In altri termini.. 2 2 R yxw = ryw + sryx2 .w R2=.25 R2=.10 e e s r2=.15 a r2 b c x w w .25 = .10 + .15 Grazie a X, si spiega un 15% in piu’ 34 Lezione: XIX Sr e r semplice Nel caso in cui le VI non sono correlate, sr e r semplice sono uguali, e R2 e’ dato dalla somma delle correlazioni semplici c=0 2 ryw = a 2 2 sryw. x = ryw = a R y . xw = ryx + ryw = a + b 2 2 2 e a b w x In generale (quando le VI sono correlate) sr, r, sr2 e R2 sono diversi 35 Lezione: XIX Relazione tra sr2 e pr2 Pr puo’ essere calcolato partendo da sr pryw2 . x = sryw2 . x 1− r e 2 yx a E sr da pr b c sryw2 . x = pryw2 . x ⋅1 − ryx2 X W 36 Lezione: XIX Regressione con SPSS File dati 37 Lezione: XIX Regressione con SPSS Cerchiamo “regressione” nel menu “analizza” Menu 38 Lezione: XIX Regressione con SPSS Inseriamo le variabili al posto giusto Variabile Dipendente Tutte le variabili Finestra Regressione Variabili Indipendenti 39 Lezione: XIX Regressione con SPSS Inseriamo le variabili al posto giusto Opzioni ulteriori Marchiamo qui per ottenere le correlazioni semplici, semiparziali, e parziali 40 Lezione: XIX OUTPUT SPSS Bontà della regressione R2 Significatività 41 Lezione: XIX OUTPUT SPSS Coefficienti e indici Significatività (notiamo che c’è un test solo per ogni VI) r pr sr 42 Lezione: XIX OUTPUT SPSS sryw2 . x = .3482 = .121 sryx2 . w = .359 2 = .128 43 Lezione: XIX Interpretazione 1) L’effetto congiunto di atteggiamento e stereotipi generali spiega intorno al 33% della varianza di stereotipi sul sud. 2) Tale effetto risulta significativamente diverso da zero. 3) Le singole VI mostrano effetti parziali significativi. 4) Specificamente, entrambe le variabili contribuiscono unicamente a spiegare le differenze negli stereotipi del sud per circa il 12% R y . wx = .33 2 sryw. x = .348 = .121 2 2 sryx2 . w = .359 2 = .128 tutte le p. < .05 44 Lezione: XIX Regressione: Esempio 2 Studio delle relazioni tra stipendio percepito dal corpo accademico, anni di anzianità lavorativa e produttività scientifica (numero di pubblicazioni) Dati fittizi ma realistici... Scopo indagine: stabilire se vi sia una forma di riconoscimento economico della produttività Statistiche descrittive annilav stipendio pub Validi (listwise) N 1200 1200 1200 1200 Minimo ,11 850,00 ,00 Massimo 30,26 4301,03 90,43 Media 14,9086 2145,3403 30,4506 Deviazione std. 4,93553 599,06439 17,47410 45 Lezione: XIX Relazioni semplici Iniziamo nel mettere in relazione produttività e stipendio Apparentemente, buona relazione Riepilogo del modello Modello 1 R R-quadrato ,364a ,133 R-quadrato corretto ,132 Errore std. della stima 558,13562 a. Stimatori: (Costante), pub Apparentemente, per ogni pubblicazione, si guadagnano 12 euro in più ANOVAb Modello 1 Regressione Residuo Totale Somma dei quadrati 57099475,2 373195417 430294892 df 1 1198 1199 a. Stimatori: (Costante), pub b. Variabile dipendente: stipendio Modello 1 (Costante) pub B 1765,057 12,489 Errore std. 32,382 ,922 Coefficienti standardizzati Beta ,364 F 183,296 Sig. ,000a Reg semplice r=rs=pr Coefficientia Coefficienti non standardizzati Media dei quadrati 5,7E+07 311515,4 Correlazioni t 54,508 13,539 Sig. ,000 ,000 Ordine zero ,364 Parziali ,364 Parziali indipendenti ,364 a. Variabile dipendente: stipendio 46 Lezione: XIX Inseriamo un altro predittore Cosa accade se consideriamo l’anzianità lavorativa Solo con pub L’ R2 aumenta sensibilmente Riepilogo del modello Modello 1 2 R R-quadrato ,364a ,133 ,604b ,365 R-quadrato corretto ,132 ,364 Errore std. della stima 558,13562 477,66820 Variazione di R-quadrato ,133 ,233 Variazione dell'adattamento Variazione di df1 df2 F 183,296 1 1198 438,625 1 1197 Sig. variazione di F ,000 ,000 a. Stimatori: (Costante), pub b. Stimatori: (Costante), pub, annilav Tutte e due ANOVAb Modello 1 Regressione Residuo Totale Somma dei quadrati 157179096 273115796 430294892 a. Stimatori: (Costante), annilav, pub b. Variabile dipendente: stipendio df 2 1197 1199 Media dei quadrati 7,9E+07 228166,9 F 344,439 Sig. ,000a L’ R2 aumenta, passando da .133 a .365: Insieme, apparentemente, predicono bene 47 Lezione: XIX Quali sono gli effetti unici (parziali) 1: Solo con pub L’effetto di pub passa da 12 euro a 1,2 euro Coefficientia Coefficienti non standardizzati Modello 1 2 (Costante) pub (Costante) pub annilav La varianza spiegata da pub passa da .36*.36=.13 a .03*.03=.009 B 1765,057 12,489 1052,049 1,246 70,789 Errore std. 32,382 ,922 43,898 ,955 3,380 Coefficienti standardizzati Beta ,364 ,036 ,583 Correlazioni t 54,508 13,539 23,966 1,305 20,943 Sig. ,000 ,000 ,000 ,192 ,000 Ordine zero Parziali Parziali indipendenti ,364 ,364 ,364 ,364 ,604 ,038 ,518 ,030 ,482 a. Variabile dipendente: stipendio 2: tutte e due Parzializzando gli effetti dovuti a anzianità, l’effetto pubblicazioni praticamente sparisce 48 Lezione: XIX Effetti totali diretti e indiretti (% var) Effetto semplice stipendio stipendio Effetto unico o parziale Sr2(pub)=.009 stipendio stipendio R2=.13 Pub Anzianità Pub R2=.36 49 Lezione: XIX Effetti totali diretti e indiretti (coeffic.) Effetto semplice 12.4 Pub Stipendio Di un cambiamento atteso di 12.4 euro, 11.2 è dovuto agli effetti di anzianità Effetto diretto pub verso anz. pub 1.2 .16 anzianità L’effetto diretto di pub è di 1,2 euro per ogni pubblicazione, non distinguibile dal caso (sig.>.05) stipendio 70.7 Effetto indiretto=.16*70.7≈11.2 Effetto totale=11.2+1.2=12.4 50 Lezione: XIX Interpretazione 1) Vi è un apparente relazione positiva tra stipendio e produttività scientifica 2) Tale effetto risulta essere dovuto esclusivamente alla variabile anzianità lavorativa 3) Parzializzando gli effetti di anzianità, il contributo unico della produttività alla determinazione dello stipendio è praticamente nullo 51 Lezione: XIX