RELAZIONI TRA VARIAIBLI LA REGRESSIONE LINEARE

Transcript

RELAZIONI TRA VARIAIBLI LA REGRESSIONE LINEARE
RELAZIONI TRA VARIAIBLI
Esiste la possibilità che la correlazione tra due variabili x e y sia dovuta all’influenza di una terza variabile z
o
Relazione spuria
Presenza di covariazione in assenza di causazione. La correlazione tra X e Y è dovuta all’influenza di
una terza variabile Z, precede temporalmente e logicamente l a X e che correla sia con X sia con Y
o
Relazione mediata
La relazione causale tra X e Y è presente, e tuttavia X esercita il suo effetto su Y tramite Z. tale
relazione è detta anche indiretta. La variabile X influenza Z che a propria volta influenza Y. La
variabile Z è chiamata mediatore o variabile interveniente
o
Relazione moderata
Relazione causale tra X e Y moderata dalla variabile Z. la variabile Z modifica il modo in cui la X
agisce sulla Y
LA REGRESSIONE LINEARE
La regressione lineare è una tecnica che consente di evidenziare e stimare l’effetto causale che una o più
variabili indipendenti (VI) esercitano su di una sola variabile dipendente (VD).
Può avere uno scopo predittivo (si individua una combinazione lineare di VI per predire in modo ottimale il
valore assoluto della VD) o esplicativo (si vuole stimare l’effetto causale della VI sulla VD)
Si parla di regressione lineare semplice quando vi è una sola variabile indipendente; di regressione lineare
multipla se le VI (o regressori) sono due o più
La variabile dipendente è sempre misurata a livello di scala cardinale (ad intervalli, di rapporti, assoluta), la
variabile indipendente viene misurata a livello di scala cardinale o dicotomica
La regressione lineare consente di stimare o predire i valori dei casi sulla VD conoscendo solo i valori della
VI.
RELAZIONE DI DIPENDENZA LINEARE SEMPLICE:
o
o
o
o
y -> variabile dipendente (VD)
x -> variabile indipendente (VI)
α -> intercetta, valore assunto da VD quanto VI vale 0
β -> coefficiente angolare, indica di quanto varia la VD all’aumentare di una unità della misura di VI
-> retta riferita alla i-esima unità statistica
Prima di analizzare la regressione è opportuno calcolare l’r di Pearson tra le due variabili, per
valutare quanto linearmente esse covariano tra loro. Se la correlazione è molto bassa non ha senso
applicare l’analisi di regressione lineare.
Coefficiente di correlazione di Pearson: rapporto tra la covarianza tra le due variabili e il prodotto
delle rispettive deviazioni standard.
r assume valori compresi tra
indipendenti
, assume valore 0 quando le due variabili solo linearmente
poiché la relazione tra x e y non è perfettamente lineare è necessario introdurre nell’equazione un termine
d’errore:
se utilizziamo i dati campionari diventa:
attraverso il metodo di stima dei minimi quadrati ordinari si stimano i parametri a e b che identificano la
retta che rappresenta al meglio la relazione lineare tra le due variabili. Si tratta di quell’unica retta capace
di rendere minima la somma dei quadrati delle distanze che separano, dato ciascun valore della VI, il valore
della VD stimato sulla base dell’equazione della retta e i valori della VD effettivamente registrati.
= scostamento totale del valore su Y dell’unità i dalla media di Y
= parte dello scostamento dell’unità i dalla media di Y dovuta all’influenza della variabile X
= errore residuo (e), quella parte di scostamento dell’unità i dalla media di Y non dovuta
all’influenza di X
quando si utilizza il metodo dei minimi quadrati, il valore stimato di Y (ovvero ) viene individuato in qual
valore di Y tale che, dato ciascun valore di X, esso rende minima la differenza tra sé e tutti i valori di Y
effettivamente registrati in corrispondenza di X, differenza calcolata come somma degli scarti al quadrato
(devianza) => è il valore medio dei valori di Y relativi a ciascun valore di X (proprietà media).
Il coefficiente di regressione (β) stimato con il metodo dei minimi quadrati ordinari indica quanto
mediamente i valori della VD variano all’aumentare di una unità di misura dei valori della VI.
il metodo dei minimi quadrati consente di identificare la retta che riduca al minimo l’errore che viene
commesso nello stimare Y da X.
Applicando il metodo dei minimi quadrati ordinari, i valori di b e di a sono calcolati con le formule:
NB: Covarianza:
Varianza:
Per fari in modo che il valore numerico del coefficiente di regressione (b) non risenta dell’unità di misura
delle variabili, è possibile standardizzarlo ( ), moltiplicando il risultato di b per il rapporto delle deviazioni
standardi di x e y. Il (beta standardizzato) equivale nella regressione lineare semplice al coefficiente di
correlazione lineare di Pearson (r)
Se le variabili di partenza fossero state standardizzate =>
In termini di devianze:
1. devianza totale:
2. devianza spiegata:
3. devianza residua :
1. è possibile calcolare la devianza totale della VD =
. consideriamo tutti i casi del
campione, sommiamo tra loro gli scarti quadratici dei valori individuali della VD dalla media
generale
2. otteniamo la devianza spiegata della VD =
. Sommiamo tra loro gli scarti quadrati che
separano la media generale della VD dai valori della VD stimati dall’equazione di regressione =>
otteniamo quella parte di variabilità complessiva della VD dovuta alla variabilità della VI
3. otteniamo la devianza residua della VD =
. Sommiamo tutti gli scarti quadratici medi
che separano ogni valore effettivamente registrato dalla VD dal corrispondente valore stimato dalla
regressione => otteniamo quella parte di variabilità complessiva della VD non dovuta alla variabilità
della VI
il rapporto tra la devianza spiegata e la devianza totale è chiamato coefficiente di determinazione ( R
quadro), che varia da 0 a 1, e che può essere utilizzato per valutare quanto il modello d regressione stimato
si adatta ai dati.
Più grande è l’R quadro, più ampia è la quota di variabilità della VD dovuta alla variabilità della VI, ovvero
tanto meglio il fenomeno rappresentato dalla VD risulta essere spiegato/determinato dal fenomeno
rappresentato dalla VI.
REGRESSIONE LINEARE MULTIPLA
L’analisi della regressione lineare multipla consente di evidenziare e stimare l’effetto causale su di una
variabile dipendente esercitato da parte di n variabili indipendenti.
La specificazione funzionale di una relazione di dipendenza lineare è:
Poiché le variabili sono più di due, l’equazione non individuerà una retta, ma un piano (nel caso di due
variabili indipendenti) o un iper-piano (quando le VI sono più di due).
Poiché la relazione di dipendenza lineare non è perfetta, si deve aggiungere un termine di errore:
Se si parla di campioni:
 Il modello di dipendenza lineare tra la VD e le VI stabilisce che il valore della Y è il risultato del
sommarsi di n+1 effetti causai, ovvero gli effetti dovuti ai valori degli n regressori più l’effetto del
valore dell’intercetta (additività del modello)
 L’effetto causale esercitato da ciascun repressore è sempre lo stesso per tutti i casi esaminati, cioè
è indipendente dai valori che i casi assumono sugli altri regressori (assenza di interazione tra i
regressori)
 Ciascun coefficiente di regressione b esprime di quanto il valore della VD mediamente varia
all’aumentare di un’unità di misura del valore del corrispondente repressore, e tale variazione è
costante (linearità della relazione di dipendenza)
 Ciascun coefficiente di regressione b è definito netto o parziale perché indica di quanto la VD
mediamente varia all’aumentare di un’unità di misura del relativo repressore, al netto
dell’influenza che tutti gli altri regressori possono esercitare sulla relazione che lega la VD al
repressore in questione
La funzione obiettivo del metodo dei minimi quadrati ordinari applicato alla regressione lineare multipla:
Applicando il calcolo differenziale e ricorrendo all’espressione matriciale delle equazioni si ha che:
1.
2.
3.
Applicando le espressioni matriciali 1 e 2 derivate in base al metodo dei minimi quadrati si ottengono le
stime per i parametri contenuti nel vettore b, che contiene il nucleo della soluzione
NB:
o
o
o
= matrice inversa (matrice che moltiplica per la matrice originaria restituisce la matrice di
identità I)
I = matrice di identità, una matrice diagonale che contiene solo i valori 1 sulla diagonale principale e
0 al di fuori di essa
X’ = matrice trasposta che si ottiene scambiando le righe con le colonne della matrice originaria
Coefficienti di associazione






a = varianza che Y condivide solo con
b = varianza che Y condivide solo con
a+c = varianza in comune solo con e Y
b+c = varianza in comune solo con e Y
c+d = varianza in comune e
e = varianza che Y non condivide né con
né con
coefficiente di correlazione semiparziale (
)
correlazione tra
e Y quando
viene parzializzata solo da . Al quadrato è la parte di varianza
totale di Y [=(a+c+b+e)] spiegata unicamente da
al netto di
a/(a+c+b+e)
coefficiente di correlazione parziale (
)
correlazione tra e Y quando
viene parzializzato da e da Y. Al quadrato, è la parte di
varianza totale di Y non spiegata da [= (a+e)], spiegata unicamente da al netto di
=a/(a+e)
coefficiente di regressione (
)
inclinazione della retta di regressione di Y su per valori costanti di
atteso di Y in seguito al cambiamento di una unità di al netto di
coefficiente di regressione standardizzato (
, ovvero il cambiamento
)
Le correlazioni parziale e semiparziale (elevate al quadrato) misurano la quantità di varianza spiegata da
una variabile indipendente dopo che è stato eliminato il contributo fornito dalle altre variabili indipendenti.
I coefficienti b e invece indicano l’entità del cambiamento di una variabile indipendente, tenendo le altre
variabili indipendenti sotto controllo
Anche per la regressione lineare multipla è possibile calcolare un coefficiente di determinazione multiplo
(che non equivale più al quadrato del coefficiente di correlazione r di Pearson), indica la proporzione di
varianza della variabile dipendente spiegata dalle variabili indipendenti prese nel loro complesso . Dato che
il suo valore è influenzato dal numero di regressori è più opportuno utilizzare l’ -corretto
Se ad esempio i regressori sono due =>
Ovvero il coefficiente di determinazione si ottiene dalla somma dei prodotti delle correlazione semplici r (o
di ordine 0) e dei coefficienti tra la variabile dipendente e ogni variabile indipendente
Il coefficiente di determinazione multiplo corretto rappresenta una stima del coefficiente multiplo della
popolazione, esente da errore di approssimazione dovuto al numero di predittori considerati (k
rappresenta il numero di predittori, N il numero di soggetti) :
Il coefficiente di correlazione multiplo di ottiene dal coefficiente di correlazione nel modo seguente:
Il coefficiente di correlazione multiplo R è sempre maggiore/uguale a 0, ed è maggiore di ciascuno dei
singoli coefficienti di ordine 0. Se le variabili sono molto correlate tra loro, R tende a essere prossimo al più
elevato coefficiente di correlazione semplice tra le variabili indipendenti e la variabile dipendente
La significatività statistica dei coefficienti di regressione è valutata usando la statistica del test t si Student, il
sui valore si ottiene dividendo il coefficiente di regressione b per il proprio errore standard (stima della
deviazione standard della distribuzione campionaria dei coefficienti di regressione b)
La significatività statistica del coefficiente di determinazione
usando la distribuzione F di Snedecor
nella regressione multipla è valutata
ASSUNZIONI ALLA BASE DELLA REGRESSIONE LINEARE:
1. assenza di errore di specificazione:
a. la forma della relazione tra X e Y deve essere lineare
b. non devono essere state omesse variabili indipendenti rilevanti
c. non devono essere state incluse variabili indipendenti irrilevanti
2. assenza di errore di misurazione
3. la variabile indipendente deve essere qualitativa o dicotomica e la variabile dipendente deve essere
quantitativa
4. la varianza di ogni variabile indipendente deve essere maggiore di 0
5. il campionamento deve essere casuale semplice
6. se vi è più di una variabile indipendente nessuna di esse deve essere una combinazione lineare
perfetta delle altre (assenza di perfetta multicollinearità). È bene che le variabili indipendenti non
siano troppo correlate. Se le variabili indipendenti sono fortemente correlate, si parla di
multicollinearità
7. assunzioni sui residui (o termini di errore)
a. media uguale a 0:
b. omoschedasticità:
VAR
c. normalità
d. assenza di autocorrelazione:
e. le variabili indipendenti non devono essere correlate
se le assunzioni 1-7 sono verificate è corretto utilizzare i test statistici t e F
verifica delle assunzioni tramite il grafico dei residui:
strategie analitiche per la regressione:
 regressione standard
entità della relazione complessiva tra le VI e la VD
tutte le VI sono considerate simultaneamente nell’equazione
 regressione gerarchica
esamina qual è il contributo aggiuntivo che una VI inserita in seguito a un’altra VI apporta alla
spiegazione della VD
 regressione statistica
regressione gerarchica in cui l’ordine di inserimento delle VI non è scelto dal ricercatore, ma è
determinato in base a criteri statistici
o metodo forward: l’equazione è inizialmente vuota, le VI vengono inserite di volta in volta
partendo da quella che presenta la correlazione più elevata con la VD
o metodo backward: l’equazione è inizialmente piena, le VI vengono eliminate di volta in
colta partendo da quella che contribuisce meno alla spiegazione della VD
o metodo stepwise: compromesso tra i due metodi precedenti. Come per il primo metodo
l’equazione è inizialmente vuota, le VI vengono inserite partendo da quella che presenta la
correlazione più elevata con la VD. Tuttavia a ogni step, possono essere eliminate le VI
precedentemente inserite che, all’inserimento di nuove VI, non contribuiscono più in
misura significativa alla spiegazione della VD