Correlazione e regressione (file pdf)
Transcript
Correlazione e regressione (file pdf)
LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per continue ____________________________________ Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 7 - RELAZIONI TRA DUE O PIU’ VARIABILI CONTINUE Nell'ANOVA si prendevano in considerazione i dati relativi ad un unica variabile, rilevati su "unità sperimentali" appartenenti a gruppi diversi, i quali rappresentano altrettanti livelli di altre "variabili categoriali" (dette anche attributi o fattori) che possono essere sia nominali (attributi qualitativi esempio: colore, forma, gruppi tassonomici, ecc…) sia ordinali (es.: classi di età, di merito,ecc…). Qui consideriamo l'analisi simultanea di due o più variabili, misurate contestualmente, con lo scopo di analizzare le eventuali relazioni esistenti tra loro. A questo proposito le ipotesi di riferimento, cioè i modelli interpretativi possono essere diversi, e fanno riferimento a due fondamentali metodi di analisi: correlazione e regressione. Le variabili coinvolte in queste analisi sono tutte quantitative, continue oppure discontinue (dette anche discrete o meristiche, es. numero di figli, di peli, di individui, ecc...) ma trattate come se fossero continue. 7.1. CORRELAZIONE Questo metodo di analisi, che sarà sviluppato in dettaglio più avanti, si basa su un particolare parametro detto covarianza (somma dei prodotti degli scarti dalla media di ciascuna variabile, diviso i gradi di libertà) n 9 peso Y 8,98 8,14 6,67 6,08 5,9 5,83 4,68 4,2 3,72 mean 6,02 dev(SS) 24,13 varian(MS) 3,02 sd 1,74 umidità X 1 0 12 29,5 43 53 62,5 75,5 85 93 50,39 8301,39 1037,67 32,21 y- y 2,96 2,12 0,65 0,06 -0,12 -0,19 -1,34 -1,82 -2,30 xy xy / n - 1 x- x -50,39 -38,39 -20,89 -7,39 2,61 12,11 25,11 34,61 42,61 Codevianza Covarianza* ( y - y )*( x- x ) -149,04 -81,30 -13,53 -0,43 -0,32 -2,33 -33,70 -63,07 -98,10 -441,82 -55,23 * Excel = xy / n -49,09 La covarianza è una misura di quanto due variabili possano variare in modo congiunto e quindi del livello di associazione (interdipendenza), senza però stabilire nessun rapporto causale o funzionale. Il limite di questo parametro è che il suo valore dipende dalle unità di misura delle variabili concomitanti (concomitante indica che le misure sono state prese sulle stesse unità sperimentali o nelle stesse condizioni). Se si standardizza questo valore, dividendo per le deviazioni standard di entrambe le variabili, otteniamo un nuovo valore, il coefficiente di correlazione (r) ( Pearson's product-moment coefficient), svincolato da influenze dimensionali, che misura la "forza" della relazione lineare esistente tra le due variabili. Esso varia tra -1 (correlazione negativa) e +1 (correlazione positiva) con valori attorno allo 0, che indicano assenza di correlazione. = -0,987 Corr. = r = Covariance /sdx*sdy = -0,987 oppure: Codevianza/ SS x SS y 1 (Sarebbe stato più opportuno indicare le due variabili con la stessa lettera Y indicizzata, per indicare che non esiste nessun rapporto "gerarchico" tra le due variabili. Qui però si è preferito mantenere il simbolismo adottato nella regressione per evidenziare le marcate omologie di calcolo) La significatività del coefficiente di correlazione può essere testata con il t di Student (2 code) dove n2 con n - 2 gradi di libertà 1 r 2 nel nostro caso t = -16,346 che in valore assoluto è 16,346 con significatività 7,81615E-07 t = r* 7.2. REGRESSIONE Termine introdotto da F. Galton per indicare la tendenza della prole, di genitori con elevata statura, a "regredire" verso i a regredire verso i valori medi della popolazione. Si usa questo modello ogni qual volta si voglia evidenziare un rapporto di dipendenza, causale o funzionale, tra una variabile detta dipendente (generalmente indicata con Y) ed una o più variabili indipendenti (Xi). L'approccio statistico è quello di individuare un'appropriata funzione matematica Y = f(X) che ci consenta di spiegare le variazioni di Y (variabile regressa) in termini di risposta alle variazioni della(e) variabile(i) indipendente(i) (regressori). Per convenienza di esposizione, distingueremo la regressione semplice (una sola variabile X, indipendente) dalle regressioni multiple (due o più variabili X). Inoltre, a seconda della funzione utilizzata per spiegare le variazioni di Y, parleremo di regressione lineare e di regressione curvilinea. La prima si ha quando i valori della Y, rappresentati in relazione a quelli della X, assumono un andamento lineare e pertanto la relazione tra le due variabili può essere rappresentata dall'equazione di una retta, mentre la seconda riguarda tutti io casi in cui l'andamento rettilineo non è adeguato a rappresentare i dati sperimentali. I problemi che si possono affrontare con l'analisi di regressione sono diversi. Oltre ad individuare un modello empirico atto ad illustrare la relazione esistente tra le variabili, è possibile utilizzare questa analisi a fini inferenziali, ovvero per estrapolare valori di Y sulla base di valori noti della variabile indipendente. Inoltre, quando avessimo più valori di Y per un dato valore di X, questa analisi viene utilizzata per testare se esistono differenze significative tra le medie dei valori osservati per ciascun valore di X. In questo senso sostituisce o va ad implementare gli eventuali risultati di un ANOVA, in quanto viene testata la stessa ipotesi nulla (uguaglianza delle medie), con il vantaggio che il test è più potente (meno probabilità di commettere un errore di tipo II, ovvero accettazione di un ipotesi nulla falsa); in genere quando si osserva una marcata regressione dei valori medi di Y sui valori di X, abbiamo un concomitante risultato dell'ANOVA che indica la presenza di differenze significative tra le medie. Il viceversa non è vero. yj = bxj +a Regressione lineare semplice Con l'equazione della retta si stimano i valori teorici della varabile dipendente, oppure il valore della media, qualora ci siano più osservazioni per ogni valore di X, che si verificherebbero qualora l'unica fonte di variazione della Y fosse dovuta alla variazione della X. Il parametro "a" è l'intercetta (ovvero il valore della y quando x = 0). Il parametro "b" è il coefficiente di angolare della retta, ovvero il valore della tangente di ( = angolo della retta con l'asse delle ascisse); il segno indica il verso ed il suo valore assoluto il grado di inclinazione della retta. Questo parametro Questo parametro è detto anche coefficiente di regressione e rappresenta il numero di unità di variazione della Y corrispondenti alla variazione unitaria della X. Analogamente a quanto osservato nell'ANOVA, anche qui abbiamo due modelli, I e II. Il modello I si adatta molto bene a situazioni sperimentali in quanto prevede, come condizione fondamentale, che i valori della variabile indipendente siano misurati senza errore. In altre parole, la variabile indipendente è fissa, ovvero non varia casualmente, ma le sue variazioni sono determinate, o sono sotto il controllo dello sperimentatore. Altre assunzioni, verificabili quando esistono più valori di Y per ciascun valore di X, sono: 1) per ogni valore di X le Y sono indipendenti e normalmente distribuite. Tenendo conto delle variazioni accidentali della variabile dipendente, la relazione che unisce questa variabile con quella indipendente diventa: yj = a + bxj + ej. La normalità della distribuzione delle Y implica che anche gli errori (variabilità casuale non dovuta alla regressione) sono normalmente distribuiti. L'indipendenza, implica che i valori di Y per una data X non sono influenzati da osservazioni precedenti o successive, presupposto che spesso non è soddisfatto quando si considerino serie temporali (osservazioni ripetute nel tempo) spaziali (misure di aree vicine tra loro possono essere più simili di quelle osservate in aree distanti. Per verificare questa assunzione esiste un particolare test detto di Durbin-Watson che stima i livelli di autocorrelazione. 2) la varianza degli errori deve essere omogenea, quindi costante e indipendente dalla dimensione della X o della Y. valori di Y normalmente distribuiti con varianze omogenee. Tutti questi presupposti possono essere visualizzati si graficamente sia con metodi analitici quali: 1) determinazione dei parametri della retta di regressione; 2) analisi della varianza della regressione; 3) analisi dei residui, ovvero degli errori. 1) Determinazione dei parametri della retta di regressione Graficando i dati dell'esempio (che si riferiscono alla perdità di peso in mg, osservata dopo sei giorni di digiuno, in larve dello scarafaggio Tribolium tenute a differenti livelli di umidità) possiamo ottenere informazioni importanti sulla validità delle assunzioni. In questo caso i valori di Y hanno un andamento abbastanza lineare, ovvero non si discostano di molto da quelli previsti dalla retta di regressione ed i residui, ovvero gli scarti dai valori teorici, sono casualmente distribuiti (sono maggiori o minori rispetto al valore predetto indipendentemente dal corrispondente valore della x) e quindi la regressione lineare è la funzione giusta per illustrare la dipendenza di Y da X. Se ciò non fosse stato, bisognava ricorre, se possibile a trasformazioni dei valori delle variabili in grado di linearizzare la funzione (vedi trasformazioni logaritmiche, inverse, ecc…) oppure ricorrere a regressioni curvilinee (modalità che saranno trattate entrambe successivamente). 10 Y B Y (B' ) 8 Peso 6 Y B ' ' 4 X 2 0 20 40 Umidità 60 80 100 Y = valore osservato; Y = bx + a, valore predetto; Y = valore medio Y- Y = deviazione del valore osservato dalla sua media; Y - Y = deviazione del valore predetto dalla media (deviazione dovuta alla regressione); Y - Y = deviazione del valore osservato dal valore predetto (residuo). Risulta pertanto che : Y - Y = Y- Y + Y- Y Questa identità è valida per tutti i punti, quindi si piuò estendere anche alla loro sommatoria. Poiché la somma degli scarti dalla media risulterebbe nulla si utilizzano i loro quadrati: (Y - Y )2 = ( Y- Y)2 + (Y- Y)2 ovvero: Devianza di totale = Devianza di regressione + Devianza dei residui Il criterio per individuare la retta che meglio descrive la dipendenza funzionale tra le due variabili utilizza questa scomposizione della varianza. Tra le infinite rette che passano per A (punto di incontro tra le medie delle due variabili), la retta di regressione è quella che rende minima la devianza residua e, nello stesso tempo, rende massima la devianza di regressione, ovvero: Q = (Y- Y)2 minimo; sostituendo a Yla funzione della retta: Q = (Y- bx - a)2 minimo. Ricordando che una funzione è minima quando la sua derivata è 0 ed essendoci in questo caso due parametri “a” e “b”, la quantità Q è minima quando sono simultaneamente nulle le derivate parziali di Q rispetto ad “a” e “b”, ovvero: ∂(Q) / ∂(a) = 0 ∂(Q) / ∂(b) = 0 per il calcolo della derivata ricordiamo che nel caso di funzione di funzione: [f(x)]n ' = n[f(x)]n-1 * f'(x) Le soluzioni, ovvero i valori di a e b, ottenute con questo metodo, conosciuto col nome di 2 "metodo dei minimi quadrati" sono: a = Y - b X ; b = xy /x Il coefficiente di regressione può essere pertanto calcolato direttamente dal rapporto tra: b = codevianza / devianza della variabile indipendente I coefficienti della retta di regressione risultano pertanto: b = -0,0532; a = 8,704 La retta è quindi quella individuata dai punti yj = -0,0532x + 8,704 In teoria per ogni aumento unitario di umidità ci sarebbe una perdita di 0,053 mg di peso. I valori di Y osservati sono pertanto dovuti in parte a questa relazione di dipendenza dalla variabile indipendente (variabilità di regressione) ed in parte alla variabilità casuale (variabilità del residuo o d'errore): yj = a + bxj + ej. Per esempio il valore di Y di 8,14, corrispondente alla perdita di peso osservata quando l'umidità è del 12%, può essere così interpretata: 8,07 (valore predetto) + 0,07 (errore). 2) Analisi della varianza di regressione Una volta determinati i coefficienti, ci si pone quindi il problema di valutare se essi siano in grado di spiegare una parte significativa della varianza della variabile Y. In particolare è importante valutare se il coefficiente di regressione b è sufficientemente diverso da 0, ovvero, in questo esempio, se la retta di regressione descrive adeguatamente il fenomeno della perdita di peso in funzione dell'umidità. Infatti, nel caso b fosse 0, avremmo l'equazione di una retta parallela all'asse X, y = a , dove "a" è uguale al valore medio di Y. In questo caso non ci sarebbe alcuna regressione e tutta la variabilità delle Y sarebbe dovuta variazioni casuali intorno al valor medio (che rimane l'unico parametro predittore). Si noti che per il punto B, la deviazione di regressione, Y - Y , corrisponde al cateto B’B’’ che è uguale a AB'' * tang . Dato che AB'' è la differenza del corrispettivo valore di x dalla sua media e che tang è uguale al coefficiente di regressione b, elevando al quadrato i due membri di questa identità abbiamo: ( Y - Y )2 = (x - x )2 *b2. Facendo questo per tutte le osservazioni, sostituendo b con xy /x2 ,e considerando che il coefficiente di b diventa la devianza di x: ( Y - Y )2 =x2 * xy)2 /(x2 )2 Fatte le dovute semplificazioni abbiamo: Devianza di regressione = quadrato della codevianza / devianza della variabile indipendente. Ricordando che: Devianza di totale = Devianza di regressione + Devianza dei residui è possibile, per differenza tra la devianza totale (che è la devianza di Y= 24,130) e quella di regressione, calcolare l'ultima componente della varianza, cioè la devianza del residuo o d'errore. Abbiamo ora tutte le componenti della varianza di Y le quali possono essere utilizzate in un analisi della varianza per testare la loro significatività, ed in particolare la significatività della varianza di regressione che, come vedremo, coincide con la significatività di b. ANALISI VARIANZA Regressione var. - 1 Residuo n-2 Totale n-1 gdl 1 7 8 SQ MQ F 23,514493 23,5144927 267,182899 0,6160628 0,08800897 24,130556 Significatività F 7,81615E-07 E' anche possibile testare b con il t di Student. Per fare questo occorre però conoscere l'errore standard di b che è una funzione sia della variabile indipendente sia della varianza residua. E' abbastanza intuitivo che tanto maggiore è la varianza residua (cioè quella non spiegabile con la regressione) intorno alla regressione, tanto maggiore sarà l'incertezza di b. Pertanto l'errore di b si ottiene dalla radice quadrata del rapporto tra la varianza residua e la devianza della variabile indipendente (8301,39): sd2 sb = che qui è = 0,0036 x 2 Il relativo t di Student che saggia la significatività del coefficiente di regressione, b, è: t = b - bH / sb da cui t = -16,3457; Sign. 7,81*10-7 In questo caso bH è quello dell'assenza di regressione ovvero 0. (Per t-test di intercetta vedi Quinn p.86) In effetti questa verifica è ridondante per la relazione esistente con l'F-test: t2=F Il t-test può essere comunque utilizzato per testare qualsiasi altra ipotesi, quale per esempio se c'è una differenza significativa tra due rette di regressione. L'errore standard di b è comunque importante per determinare l'intervallo fiduciale della regressione. Nel caso si prenda in considerazione un intervallo fiduciale al 95% si ha che: bi (inferiore) = b – t(0,05; n-2) *sb = -0,0609 bs (superiore) = b + t(0,05; n-2) *sb = -0,0455 b = -0,0532; t = 2,365 (Barrai usa n-1 gradi di libertà , da cui t = 2,306) (si considera n-2 gl perché l'errore si basa sulla varianza residua e pertanto si sono utilizzate le due stime della regressione, quella dell'intercetta e quella del coefficiente di regressione, per ottenere i dati predetti e di conseguenza i residui). Altre informazioni che i vari programmi statistici riportano con l'analisi di regressione sono: OUTPUT RIEPILOGO Da Excel Statistica della regressione R multiplo 0,98715 è il coefficiente di correlazione (in valore assoluto) R quadro 0,97447 è il coefficiente di determinazione, una misura della quantità di variabilità della Y spiegabile dalla regressione su X. Infatti, oltre ad essere il quadrato di r, esso può essere ottenuto dal rapporto SQregr / SQtotale Pertanto è anche una stima del "fit" della funzione di regressione utilizzata che può essere comparata con quella ottenuta da altri tipi di funzioni per scegliere quella che maggiormente si adatta ai dati. Per contro il rapporto SQresid / SQ totale è una misura di "lack of fit" Il valore del coefficiente di determinazione deve essere elevato quando si voglia usare la regressioni per scopi inferenziali. R al quadrato corretto 0,970822 in base al numero (p) delle var. indipendenti nel modello (reg. multiple) = R2-[p(1-R2)/(n-p-1)] Errore standard (ds del residuo) 0,296663 misura la dispersione dei residui intorno alla retta di regressione. In questo senso è omologo alla deviazione standard dalla media sia come significato sia come modalità di ottenimento (si calcola facendo la radice quadrata della varianza dei residui),quindi potrebbe essere indicato anche come dev standard del residuo* = MQres *Se questo valore non risulta inferiore a quello della deviazione standard dalla media allora il modello della regressione lineare non è un migliore predittore della media(in questo caso la ds dalla media era 1,74).