Alcuni concetti di statistica: medie, varianze

Transcript

Alcuni concetti di statistica: medie, varianze
A1
Alcuni concetti di statistica:
medie, varianze, covarianze
e regressioni
Esistono svariati modi per presentare grandi quantità di dati. Una possibilità è
presentarne la cosiddetta distribuzione, raggruppare cioè i dati per singoli valori (o intervalli di valori) e indicare la frequenza relativa di ciascun valore (o
intervallo di valori). Un’altra possibilità è presentare alcune statistiche di sintesi. Data una serie di dati, X1, X2, X3, … Xn, in cui n rappresenta il numero di
osservazioni nella serie, le statistiche di sintesi più utilizzate sono le seguenti:
■ La media (µ), che consiste appunto nella media aritmetica di tutte le osser-
vazioni della serie di dati.
j =n
Media = µ x =
∑X
j
j =1
n
■ La mediana, che è il punto che divide la serie di dati in maniera tale che
metà dei dati siano superiori alla mediana e metà siano inferiori.
■ La varianza, che è una misura della dispersione della distribuzione attorno
alla media, e si calcola sommando i quadrati delle deviazioni dalla media e
dividendo poi tale somma o per il numero di osservazioni n (se i dati rappresentano l’intera popolazione) o per n – 1 (se i dati rappresentano un campione della popolazione).
j =n
∑( X − µ )
j
2
Varianza = σ x =
j =1
n
2
(se i dati rappresentano un campione,
dividere invece per n – 1)
638
Appendice 1
In presenza di due serie di dati, esistono diverse misure statistiche che possono essere utilizzate per quantificare la tendenza delle due serie a muoversi
insieme nel corso del tempo. Le due misure più utilizzate sono la correlazione
e la covarianza. Date due variabili X (X1, X2, …) e Y (Y1, Y2, …), la covarianza
fornisce una misura non standardizzata della loro tendenza a muoversi insieme, e viene stimata sommando il prodotto delle deviazioni dalla media per
ciascuna variabile in ciascun periodo.
j =n
∑( X − µ
j
Covarianza = σ XY =
X
)( Yj − µY )
j =1
n
(se i dati rappresentano un
campione, dividere invece
per n – 1)
Il segno della covarianza indica il tipo di relazione che intercorre fra le due
variabili. Un segno positivo indica che si muovono nella stessa direzione, mentre uno negativo indica che si muovono in direzioni opposte. Inoltre, più stretta è la relazione fra le variabili, maggiore sarà la covarianza. Ma è difficile capire l’intensità della relazione basandosi esclusivamente sulla covarianza, in
quanto non è una misura standardizzata.
Una misura standardizzata della relazione che intercorre fra due variabili è
rappresentata invece dalla correlazione, che può essere così calcolata a partire
dalla covarianza:
j=n
Correlazione = ρ XY = σ XY /σ X σ Y =
( X j − µ X )( Yj − µ Y )
∑
j 1
=
j=n
∑
j 1
=
( X j − µ X )2
j=n
( Yj − µ Y )2
∑
j 1
=
La correlazione non può mai essere superiore a 1 o inferiore a –1. Valori prossimi allo zero indicano che la relazione fra le due variabili è minima. Una correlazione positiva indica che le due variabili si muovono nella stessa direzione; la relazione è tanto più stretta quanto più il valore della correlazione si
avvicina a 1. Una correlazione negativa indica che le due variabili si muovono
in direzioni opposte; in questo caso la relazione è tanto più stretta quanto più
il valore della correlazione si avvicina a –1. Due variabili che sono positivamente perfettamente correlate (ρ = 1) si muovono in perfetta proporzione nella
stessa direzione, mentre due variabili negativamente perfettamente correlate
(ρ = –1) si muovono in perfetta proporzione in direzioni opposte.
La regressione rappresenta un’estensione dei concetti di covarianza e correlazione. Essa mira a spiegare l’andamento di una variabile, chiamata variabile dipendente (Y), con l’andamento di un’altra, chiamata variabile indipendente (X). Inserendo le due variabili in un diagramma, con Y sull’asse verticale
Alcuni concetti di statistica: medie, varianze, covarianze e regressioni
639
e X su quello orizzontale, la regressione consiste nel trovare la retta di interpolazione che minimizzi la somma delle deviazioni dei dati dalla retta medesima
elevate al quadrato; per questo motivo si parla di metodo dei “minimi quadrati” (OLS, ordinary least squares regression).
Una volta ottenuta questa retta, emergono due parametri:
1. Il punto in cui la retta interseca l’asse delle Y, chiamato intercetta della regressione (intercept);
2. L’inclinazione della retta di regressione (slope).
Regressione OLS: Y = a + bX
L’inclinazione (b) della regressione misura sia la direzione che l’intensità della
relazione. Quando le due variabili sono positivamente correlate, l’inclinazione
sarà positiva; quando le variabili sono negativamente correlate, l’inclinazione
sarà negativa. Numericamente, l’inclinazione della regressione può essere così
interpretata: per ogni aumento unitario della variabile indipendente (X), la
variabile dipendente (Y) cambia di b (inclinazione). La stretta connessione fra
inclinazione della regressione e correlazione/covarianza non dovrebbe sorprendere, visto che l’inclinazione viene stimata a partire dalla covarianza:
Inclinazione della regressione = b =
CovarianzaYX σYX
= 2
Varianza di X
σX
640
Appendice 1
L’intercetta a della regressione può essere interpretata in diversi modi: 1) il
valore assunto da Y quando X = 0; 2) la differenza fra il valore medio di Y, e il
valore medio di X corretto per tenere conto dell’inclinazione. Questa seconda
interpretazione discende direttamente dalla formula con cui si calcola l’intercetta:
Intercetta della regressione = a = µY – (b × µX)
I parametri di regressione vengono sempre stimati con un margine di errore,
in parte dovuto al fatto che i dati stessi sono misurati con un margine di errore, e in parte perché il procedimento di stima si basa su un campione di dati.
Questo margine di errore è rappresentato da due dati statistici. Il primo è l’R
quadrato (R-squared) della regressione, che misura la proporzione della variabilità di Y attribuibile alla variabilità di X. L’R quadrato è una funzione diretta
della correlazione fra le due variabili:
R2 = R quadrato della regressione = Correlazione2YX = ρ2YX =
b2σ2X
σ2Y
Un valore dell’R quadrato vicino a 1 indica una stretta correlazione fra le due
variabili, sebbene non indichi se essa sia positiva o negativa. L’altra misura
dell’imprecisione di una regressione è l’errore standard, che misura
la “dispersione” attorno a ciascuno dei due parametri stimati (intercetta e inclinazione). A ciascun parametro è infatti associato un errore standard, così
calcolato:




j =n

( X j )

j =1

∑
Errore standard dell’intercetta = SEa =
2
j =n

∑
( Yj − bX j )2 


j =1
j =n
∑( X − µ
( n − 1)
j
X
)2
j =1




Errore standard dell’inclinazione = SEb =
j =n
∑

( Yj − bX j )2 


j =1
j =n
∑( X − µ
( n − 1)
j
X
)2
j =1
Se inoltre ipotizziamo che la distribuzione delle stime dell’intercetta e dell’inclinazione sia la distribuzione normale, possiamo combinare la stima dei pa-
Alcuni concetti di statistica: medie, varianze, covarianze e regressioni
641
rametri e l’errore standard per ottenere la cosiddetta t di Student, un test statistico utilizzato per capire se la relazione è statisticamente significativa:
t di Student dell’intercetta = a/SEa
t di Student dell’inclinazione = b/SEb
Per campioni con più di 120 osservazioni, una t di Student maggiore di 1,66
consente di affermare con una confidenza del 95% che la variabile è significativamente diversa da zero, mentre una t di Student maggiore di 2,36 consente
la stessa affermazione con una confidenza del 99%. Per campioni più piccoli, per
avere la stessa confidenza statistica è necessaria una t di Student maggiore.1
La semplice regressione che misura la relazione fra due variabili diventa
una regressione multipla quando più variabili indipendenti (X1, X2, X3, X4 …)
vengono incluse nel tentativo di spiegare la variabile dipendente Y. Sebbene la
presentazione grafica si complichi, la regressione multipla risulta essere
un’estensione della regressione semplice:
Y = a + b X1 + c X2 + d X3 + e X4
Anche in questo caso l’R quadrato misura l’intensità della relazione; però, per
neutralizzare la tendenza dell’R quadrato ad aumentare al crescere del numero delle variabili indipendenti inserite nella regressione, sarà utile calcolare
un’altra statistica, il cosiddetto R quadrato corretto (adjusted R-square). Se nella
regressione ci sono k variabili indipendenti, l’R quadrato corretto sarà:
2
R quadrato corretto = 1 − (1 − R )
1
( n − 1)
(n − k)
I valori necessari possono essere desunti dalla tabella della distribuzione della t di Student.