Relazioni statistiche: regressione e correlazione

Transcript

Relazioni statistiche: regressione e correlazione
Relazioni statistiche: regressione e correlazione
È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili
statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche.
È di notevole interesse perché permette di individuare legami fra fenomeni diversi. Tale e può
essere effettuato sia sull’intera popolazione statistica, sia su un campione estratto da essa.
Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami
fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile.
In statistica è più importante lo studio della connessione fra due variabili, studio che si può
effettuare o ricercando se una variabile è dipendente dall’altra, oppure se si influenzano
reciprocamente.
Funzione di Regressione
E’ la funzione che esprime il legame di dipendenza dì una variabile dall’altra
è molto utile perché permette di valutare, entro i limiti dell’intervallo dei dati rilevati, il valore della
variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima
necessità, sì sono rilevate, al variare del prezzo, le relative quantità domandate, si può determinare,
mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il
prezzo e la quantità domandata dai consumatori e quindi il produttore ha la possibilità di prevedere,
per un prezzo prefissato, la corrispondente quantità di bene domandata.
La funzione più utilizzata, soprattutto se i dati rilevati sono numerosi, è la funzione lineare; sì parla
allora di regressione lineare.
Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dall’altra si
possono verificare i seguenti casi:
•
•
•
esse possono influenzarsi reciprocamente, cioè esiste fra loro una correlazione.
possono essere entrambe dipendenti da un’altra grandezza
possono essere indipendenti.
Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perché la
meccanica applicazione delle diverse tecniche può portare a risultati assurdi.
Correlazione fra due variabili
La correlazione si misura mediante indici ed esprime la «forza», o «intensità», del loro legame.
Fra i vari indici introdotti il più importante e il più utile è il coefficiente di correlazione lineare.
Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile
viene confrontata con varie altre per vedere quelle più connesse fra loro.
Correlazione fra due mutabili o fra una variabile e una mutabile
Il loro grado di correlazione è dato da alcuni indici di cui il più importante è quello di Pearson.
Regressione lineare
Siano X e Y due variabili statistiche (oppure, come si preferisce dire, sia data una variabile statistica
doppia di cui X e Y sono le componenti), consideriamo le coppie (xi, yi) dei valori associati; se il
numero delle coppie non è grande, si usa una Tabella a semplice entrata, altrimenti una Tabella a
doppia entrata.
Per prima cosa occorre fare una rappresentazione grafica mediante un diagramma, che rappresenta
le coppie dei valori rilevati (xi, yi); si ottiene così un diagramma a dispersione.
Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si
distribuiscono vicino a una retta, come nei primi due schemi qui riportati di diagrammi a
dispersione; se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna
relazione.
Retta di regressione di Y rispetto a X
Si ottiene applicando il Metodo dei minimi quadrati:
Il coefficiente di regressione b1 indica di quanto varia laY al variare di una unità di X e se Y è
crescente o decrescente. Se, per esempio, b1 valesse 10, al crescere di una unità di X, la Y
crescerebbe di 10 unità, mentre se b1 valesse 0,5, al crescere di una unità di X, la Y crescerebbe di
mezza unità.
Retta di regressione di X rispetto a Y
Si può anche determinare, se ha senso logico, la retta di regressione di X rispetto a Y, che ha
equazione (ottenuta dalla precedente scambiando X con Y):
Le rette di regressione possono anche essere scritte nel modo seguente, sostituendo ad a1 e a2 le loro
espressioni:
da cui si deduce che entrambe passano per il punto ( ( x; y ) baricentro della distribuzione, le cui
coordinate sono le medie aritmetiche, rispettivamente dei valori di X e dei valori di Y.
Le due rette di regressione coincidono quando tutti i punti del diagramma a dispersione
appartengono a una retta, invece quanto maggiore è la dispersione, tanto maggiore è l’angolo
formato dalle due rette.
Caso estremo si ha quando b1 = b2 = 0; le rette, allora, hanno equazione y = y e x = x e sono,
quindi, parallele agli assi cartesiani.
È però importante notare che la condizione b1 = b2 = 0, in generale, non indica che le due variabili
X e Y sono indipendenti, ma piuttosto indica che non esiste regressione lineare, ossia che le due
variabili non sono linearmente dipendenti, potrebbero però essere legate da una relazione di tipo
parabolico, o di tipo esponenziale ecc. (Vedi esempi 1,2,3).
Correlazione fra due variabili
L’analisi della correlazione fra due variabili conduce a misurare la forza, o l’intensità, del legame
fra le due variabili. Si misura mediante l’indice di Bravais-Pearson detto “Indice di correlazione
lineare”
Tale indice può essere espresso mediante la covarianza fra X ed Y (varianza congiunta) la varianza
di X e la varianza di y. Sostituendo si ottiene:
Se tutti i punti giacciono su una retta parallela all’asse delle ascisse, o parallela all’asse delle
ordinate l’indice r assume la forma indeterminata 0/0 perché si annullano numeratore e
denominatore.
Relazione fra r e i coefficienti angolari delle rette di regressione b1 e b2
Questa relazione ci permette di dimostrare facilmente che se le due rette di regressione coincidono
il coefficiente r vale + 1 oppure meno – 1. Infatti in tal caso risulta b 2 = 1 / b1
Varianza spiegata e Varianza non spiegata
Elevando a quadrato e sommando, per gli n punti si ottiene:
Poiché si dimostra sostituendo che l’ultima sommatoria è nulla
= Varianza attribuibile alla relazione che sussiste fra X ed Y. Viene detta Varianza
spiegata. E’ calcolata come differenza dalla retta di regressione dal valore medio.
= E’ detta varianza non spiegata in quanto non è imputabile alla relazione fra X ed Y ma ad
altri fattori.
Coefficiente di determinazione
Esempio
Esempio
Esempio
Calcolare il coefficiente di correlazione lineare fra le variabili X e Y della Tabella
dell’esercizio 3 .