Correlazione e regressione (file pdf)

Transcript

Correlazione e regressione (file pdf)
LEZIONI DI STATISTCA APPLICATA
Parte 2
Statistica inferenziale
Variabili continue per continue
____________________________________
Alessandro Valbonesi
SARRF di Scienze ambientali
Anno accademico 2010-11
CAPITOLO 7 - RELAZIONI TRA DUE O PIU’ VARIABILI CONTINUE
Nell'ANOVA si prendevano in considerazione i dati relativi ad un unica variabile, rilevati su "unità
sperimentali" appartenenti a gruppi diversi, i quali rappresentano altrettanti livelli di altre "variabili
categoriali" (dette anche attributi o fattori) che possono essere sia nominali (attributi qualitativi
esempio: colore, forma, gruppi tassonomici, ecc…) sia ordinali (es.: classi di età, di merito,ecc…).
Qui consideriamo l'analisi simultanea di due o più variabili, misurate contestualmente, con lo scopo
di analizzare le eventuali relazioni esistenti tra loro.
A questo proposito le ipotesi di riferimento, cioè i modelli interpretativi possono essere diversi, e
fanno riferimento a due fondamentali metodi di analisi: correlazione e regressione.
Le variabili coinvolte in queste analisi sono tutte quantitative, continue oppure discontinue
(dette anche discrete o meristiche, es. numero di figli, di peli, di individui, ecc...) ma trattate come
se fossero continue.
7.1. CORRELAZIONE
Questo metodo di analisi, che sarà sviluppato in dettaglio più avanti, si basa su un particolare
parametro detto covarianza (somma dei prodotti degli scarti dalla media di ciascuna variabile,
diviso i gradi di libertà)
n
9
peso Y
8,98
8,14
6,67
6,08
5,9
5,83
4,68
4,2
3,72
mean
6,02
dev(SS)
24,13
varian(MS) 3,02
sd
1,74
umidità X 1
0
12
29,5
43
53
62,5
75,5
85
93
50,39
8301,39
1037,67
32,21
y- y
2,96
2,12
0,65
0,06
-0,12
-0,19
-1,34
-1,82
-2,30
xy

xy / n - 1
x- x
-50,39
-38,39
-20,89
-7,39
2,61
12,11
25,11
34,61
42,61
Codevianza
Covarianza*
( y - y )*( x- x )
-149,04
-81,30
-13,53
-0,43
-0,32
-2,33
-33,70
-63,07
-98,10
-441,82
-55,23
* Excel = xy / n
-49,09
La covarianza è una misura di quanto due variabili possano variare in modo congiunto e quindi
del livello di associazione (interdipendenza), senza però stabilire nessun rapporto causale o
funzionale. Il limite di questo parametro è che il suo valore dipende dalle unità di misura delle
variabili concomitanti (concomitante indica che le misure sono state prese sulle stesse unità
sperimentali o nelle stesse condizioni). Se si standardizza questo valore, dividendo per le
deviazioni standard di entrambe le variabili, otteniamo un nuovo valore, il coefficiente di
correlazione (r) ( Pearson's product-moment coefficient), svincolato da influenze dimensionali, che
misura la "forza" della relazione lineare esistente tra le due variabili. Esso varia tra -1 (correlazione
negativa) e +1 (correlazione positiva) con valori attorno allo 0, che indicano assenza di
correlazione.
= -0,987
Corr. = r = Covariance /sdx*sdy = -0,987 oppure: Codevianza/ SS x  SS y
1
(Sarebbe stato più opportuno indicare le due variabili con la stessa lettera Y indicizzata, per indicare
che non esiste nessun rapporto "gerarchico" tra le due variabili. Qui però si è preferito mantenere
il simbolismo adottato nella regressione per evidenziare le marcate omologie di calcolo)
La significatività del coefficiente di correlazione può essere testata con il t di Student (2 code)
dove
n2
con n - 2 gradi di libertà
1 r 2
nel nostro caso t = -16,346 che in valore assoluto è 16,346 con significatività 7,81615E-07
t = r*
7.2. REGRESSIONE
Termine introdotto da F. Galton per indicare la tendenza della prole, di genitori con elevata statura, a
"regredire" verso i a regredire verso i valori medi della popolazione.
Si usa questo modello ogni qual volta si voglia evidenziare un rapporto di dipendenza, causale
o funzionale, tra una variabile detta dipendente (generalmente indicata con Y) ed una o più
variabili indipendenti (Xi). L'approccio statistico è quello di individuare un'appropriata funzione
matematica Y = f(X) che ci consenta di spiegare le variazioni di Y (variabile regressa) in termini
di risposta alle variazioni della(e) variabile(i) indipendente(i) (regressori).
Per convenienza di esposizione, distingueremo la regressione semplice (una sola variabile X, indipendente)
dalle regressioni multiple (due o più variabili X). Inoltre, a seconda della funzione utilizzata per spiegare
le variazioni di Y, parleremo di regressione lineare e di regressione curvilinea. La prima si ha quando i
valori della Y, rappresentati in relazione a quelli della X, assumono un andamento lineare e pertanto la
relazione tra le due variabili può essere rappresentata dall'equazione di una retta, mentre la seconda
riguarda tutti io casi in cui l'andamento rettilineo non è adeguato a rappresentare i dati sperimentali.
I problemi che si possono affrontare con l'analisi di regressione sono diversi. Oltre ad individuare un
modello empirico atto ad illustrare la relazione esistente tra le variabili, è possibile utilizzare questa
analisi a fini inferenziali, ovvero per estrapolare valori di Y sulla base di valori noti della variabile
indipendente.
Inoltre, quando avessimo più valori di Y per un dato valore di X, questa analisi viene utilizzata per
testare se esistono differenze significative tra le medie dei valori osservati per ciascun valore di X.
In questo senso sostituisce o va ad implementare gli eventuali risultati di un ANOVA, in quanto viene
testata la stessa ipotesi nulla (uguaglianza delle medie), con il vantaggio che il test è più potente
(meno probabilità di commettere un errore di tipo II, ovvero accettazione di un ipotesi nulla falsa);
in genere quando si osserva una marcata regressione dei valori medi di Y sui valori di X, abbiamo un
concomitante risultato dell'ANOVA che indica la presenza di differenze significative tra le medie.
Il viceversa non è vero.
yj = bxj +a
Regressione lineare semplice
Con l'equazione della retta si stimano i valori teorici della varabile dipendente, oppure il valore
della media, qualora ci siano più osservazioni per ogni valore di X, che si verificherebbero
qualora l'unica fonte di variazione della Y fosse dovuta alla variazione della X.
Il parametro "a" è l'intercetta (ovvero il valore della y quando x = 0).
Il parametro "b" è il coefficiente di angolare della retta, ovvero il valore della tangente di  ( = angolo
della retta con l'asse delle ascisse); il segno indica il verso ed il suo valore assoluto il grado di inclinazione
della retta. Questo parametro Questo parametro è detto anche coefficiente di regressione e rappresenta
il numero di unità di variazione della Y corrispondenti alla variazione unitaria della X.
Analogamente a quanto osservato nell'ANOVA, anche qui abbiamo due modelli, I e II.
Il modello I si adatta molto bene a situazioni sperimentali in quanto prevede, come condizione
fondamentale, che i valori della variabile indipendente siano misurati senza errore. In altre
parole, la variabile indipendente è fissa, ovvero non varia casualmente, ma le sue variazioni sono
determinate, o sono sotto il controllo dello sperimentatore.
Altre assunzioni, verificabili quando esistono più valori di Y per ciascun valore di X, sono:
1) per ogni valore di X le Y sono indipendenti e normalmente distribuite. Tenendo conto delle
variazioni accidentali della variabile dipendente, la relazione che unisce questa variabile con quella
indipendente diventa: yj = a + bxj + ej. La normalità della distribuzione delle Y implica che anche
gli errori (variabilità casuale non dovuta alla regressione) sono normalmente distribuiti.
L'indipendenza, implica che i valori di Y per una data X non sono influenzati da osservazioni precedenti
o successive, presupposto che spesso non è soddisfatto quando si considerino serie temporali
(osservazioni ripetute nel tempo) spaziali (misure di aree vicine tra loro possono essere più simili di quelle
osservate in aree distanti. Per verificare questa assunzione esiste un particolare test detto di
Durbin-Watson che stima i livelli di autocorrelazione.
2) la varianza degli errori deve essere omogenea, quindi costante e indipendente dalla dimensione
della X o della Y.
valori di Y normalmente distribuiti con varianze omogenee.
Tutti questi presupposti possono essere visualizzati si graficamente sia con metodi analitici quali:
1) determinazione dei parametri della retta di regressione;
2) analisi della varianza della regressione;
3) analisi dei residui, ovvero degli errori.
1) Determinazione dei parametri della retta di regressione
Graficando i dati dell'esempio (che si riferiscono alla perdità di peso in mg, osservata dopo sei giorni
di digiuno, in larve dello scarafaggio Tribolium tenute a differenti livelli di umidità) possiamo ottenere
informazioni importanti sulla validità delle assunzioni. In questo caso i valori di Y hanno un
andamento abbastanza lineare, ovvero non si discostano di molto da quelli previsti dalla retta di
regressione ed i residui, ovvero gli scarti dai valori teorici, sono casualmente distribuiti (sono maggiori o
minori rispetto al valore predetto indipendentemente dal corrispondente valore della x) e quindi
la regressione lineare è la funzione giusta per illustrare la dipendenza di Y da X. Se ciò non fosse stato,
bisognava ricorre, se possibile a trasformazioni dei valori delle variabili in grado di linearizzare la funzione
(vedi trasformazioni logaritmiche, inverse, ecc…) oppure ricorrere a regressioni curvilinee (modalità che
saranno trattate entrambe successivamente).
10
Y B 
Y (B' )
8
Peso 6

Y  B ' '
4
X
2
0
20
40 Umidità 60
80
100
Y = valore osservato; Y = bx + a, valore predetto; Y = valore medio
Y- Y = deviazione del valore osservato dalla sua media;
Y - Y = deviazione del valore predetto dalla media (deviazione dovuta alla regressione);
Y - Y = deviazione del valore osservato dal valore predetto (residuo).
Risulta pertanto che : Y - Y = Y- Y + Y- Y
Questa identità è valida per tutti i punti, quindi si piuò estendere anche alla loro sommatoria. Poiché
la somma degli scarti dalla media risulterebbe nulla si utilizzano i loro quadrati:
(Y - Y )2 = ( Y- Y)2 + (Y- Y)2
ovvero:
Devianza di totale = Devianza di regressione + Devianza dei residui
Il criterio per individuare la retta che meglio descrive la dipendenza funzionale tra le due variabili utilizza
questa scomposizione della varianza. Tra le infinite rette che passano per A (punto di incontro tra le medie
delle due variabili), la retta di regressione è quella che rende minima la devianza residua e, nello
stesso tempo, rende massima la devianza di regressione, ovvero:
Q = (Y- Y)2 minimo; sostituendo a Yla funzione della retta:
Q = (Y- bx - a)2 minimo.
Ricordando che una funzione è minima quando la sua derivata è 0 ed essendoci in questo caso due
parametri “a” e “b”, la quantità Q è minima quando sono simultaneamente nulle le derivate parziali
di Q rispetto ad “a” e “b”, ovvero:
∂(Q) / ∂(a) = 0
∂(Q) / ∂(b) = 0
per il calcolo della derivata ricordiamo che nel caso di funzione di funzione:
[f(x)]n ' = n[f(x)]n-1 * f'(x)
Le soluzioni, ovvero i valori di a e b, ottenute con questo metodo, conosciuto col nome di
2
"metodo dei minimi quadrati" sono: a = Y - b X ; b = xy /x
Il coefficiente di regressione può essere pertanto calcolato direttamente dal rapporto tra:
b = codevianza / devianza della variabile indipendente
I coefficienti della retta di regressione risultano pertanto: b = -0,0532; a = 8,704
La retta è quindi quella individuata dai punti yj = -0,0532x + 8,704
In teoria per ogni aumento unitario di umidità ci sarebbe una perdita di 0,053 mg di peso.
I valori di Y osservati sono pertanto dovuti in parte a questa relazione di dipendenza dalla variabile
indipendente (variabilità di regressione) ed in parte alla variabilità casuale (variabilità del residuo o
d'errore): yj = a + bxj + ej.
Per esempio il valore di Y di 8,14, corrispondente alla perdita di peso osservata quando l'umidità è del
12%, può essere così interpretata: 8,07 (valore predetto) + 0,07 (errore).
2) Analisi della varianza di regressione
Una volta determinati i coefficienti, ci si pone quindi il problema di valutare se essi siano in
grado di spiegare una parte significativa della varianza della variabile Y. In particolare è
importante valutare se il coefficiente di regressione b è sufficientemente diverso da 0,
ovvero, in questo esempio, se la retta di regressione descrive adeguatamente il fenomeno
della perdita di peso in funzione dell'umidità. Infatti, nel caso b fosse 0, avremmo
l'equazione di una retta parallela all'asse X, y = a , dove "a" è uguale al valore medio di Y.
In questo caso non ci sarebbe alcuna regressione e tutta la variabilità delle Y sarebbe dovuta
variazioni casuali intorno al valor medio (che rimane l'unico parametro predittore).
Si noti che per il punto B, la deviazione di regressione, Y - Y , corrisponde al cateto B’B’’
che è uguale a AB'' * tang . Dato che AB'' è la differenza del corrispettivo valore di x
dalla sua media e che tang  è uguale al coefficiente di regressione b, elevando al quadrato
i due membri di questa identità abbiamo: ( Y - Y )2 = (x - x )2 *b2. Facendo questo per
tutte le osservazioni, sostituendo b con xy /x2 ,e considerando che il coefficiente di b
diventa la devianza di x:
( Y - Y )2 =x2 * xy)2 /(x2 )2
Fatte le dovute semplificazioni abbiamo: Devianza di regressione = quadrato della
codevianza / devianza della variabile indipendente.
Ricordando che: Devianza di totale = Devianza di regressione + Devianza dei residui
è possibile, per differenza tra la devianza totale (che è la devianza di Y= 24,130) e quella
di regressione, calcolare l'ultima componente della varianza, cioè la devianza del residuo o
d'errore.
Abbiamo ora tutte le componenti della varianza di Y le quali possono essere utilizzate in un
analisi della varianza per testare la loro significatività, ed in particolare la significatività
della varianza di regressione che, come vedremo, coincide con la significatività di b.
ANALISI VARIANZA
Regressione
var. - 1
Residuo
n-2
Totale
n-1
gdl
1
7
8
SQ
MQ
F
23,514493 23,5144927 267,182899
0,6160628 0,08800897
24,130556
Significatività F
7,81615E-07
E' anche possibile testare b con il t di Student. Per fare questo occorre però conoscere l'errore standard
di b che è una funzione sia della variabile indipendente sia della varianza residua. E' abbastanza intuitivo
che tanto maggiore è la varianza residua (cioè quella non spiegabile con la regressione) intorno alla
regressione, tanto maggiore sarà l'incertezza di b. Pertanto l'errore di b si ottiene dalla radice quadrata
del rapporto tra la varianza residua e la devianza della variabile indipendente (8301,39):
sd2
sb =
che qui è = 0,0036
x 2
Il relativo t di Student che saggia la significatività del coefficiente di regressione, b, è:
t = b - bH / sb
da cui t = -16,3457; Sign. 7,81*10-7
In questo caso bH è quello dell'assenza di regressione ovvero 0. (Per t-test di intercetta vedi Quinn p.86)
In effetti questa verifica è ridondante per la relazione esistente con l'F-test: t2=F
Il t-test può essere comunque utilizzato per testare qualsiasi altra ipotesi, quale per esempio
se c'è una differenza significativa tra due rette di regressione.
L'errore standard di b è comunque importante per determinare l'intervallo fiduciale della regressione.
Nel caso si prenda in considerazione un intervallo fiduciale al 95% si ha che:
bi (inferiore) = b – t(0,05; n-2) *sb = -0,0609
bs (superiore) = b + t(0,05; n-2) *sb = -0,0455
b = -0,0532; t = 2,365 (Barrai usa n-1 gradi di libertà , da cui t = 2,306)
(si considera n-2 gl perché l'errore si basa sulla varianza residua e pertanto si sono utilizzate le due
stime della regressione, quella dell'intercetta e quella del coefficiente di regressione, per ottenere i
dati predetti e di conseguenza i residui).
Altre informazioni che i vari programmi statistici riportano con l'analisi di regressione sono:
OUTPUT RIEPILOGO
Da Excel
Statistica della regressione
R multiplo
0,98715 è il coefficiente di correlazione (in valore assoluto)
R quadro
0,97447 è il coefficiente di determinazione, una misura della quantità
di variabilità della Y spiegabile dalla regressione su X. Infatti,
oltre ad essere il quadrato di r, esso può essere ottenuto dal
rapporto SQregr / SQtotale
Pertanto è anche una stima del "fit" della funzione di regressione
utilizzata che può essere comparata con quella ottenuta da altri tipi
di funzioni per scegliere quella che maggiormente si adatta ai dati.
Per contro il rapporto SQresid / SQ totale è una misura di "lack of fit"
Il valore del coefficiente di determinazione deve essere elevato
quando si voglia usare la regressioni per scopi inferenziali.
R al quadrato corretto
0,970822 in base al numero (p) delle var. indipendenti nel modello
(reg. multiple) = R2-[p(1-R2)/(n-p-1)]
Errore standard (ds del
residuo)
0,296663 misura la dispersione dei residui intorno alla retta di regressione.
In questo senso è omologo alla deviazione standard dalla
media sia come significato sia come modalità di ottenimento
(si calcola facendo la radice quadrata della varianza dei
residui),quindi potrebbe essere indicato anche come dev
standard del residuo* = MQres
*Se questo valore non risulta inferiore a quello
della deviazione standard dalla media allora il modello della
regressione lineare non è un migliore predittore
della media(in questo caso la ds dalla media era 1,74).