Dispense del corso - Dipartimento di Scienze Statistiche

Transcript

Dispense del corso - Dipartimento di Scienze Statistiche
U NIVERSITÀ
S CUOLA
DI
B OLOGNA
C ORSO DI L AUREA M AGISTRALE IN
E CONOMIA E P ROFESSIONE
DI E CONOMIA , M ANAGEMENT E S TATISTICA
S TATISTICA
PER L’ ANALISI DEI DATI
Monia Lupparelli
Dipartimento di Scienze Statistiche
Via Belle Arti, 41
[email protected]
http://www2.stat.unibo.it/lupparelli
Indice
1 Tabelle di contingenza
1.1 Introduzione . . . . . . . . . . . . . . . . .
1.2 Tabelle a doppia entrata . . . . . . . . . .
1.3 Dipendenza in una distribuzione doppia
1.3.1 L’indice χ2 . . . . . . . . . . . . . .
1.3.2 L’odds ratio . . . . . . . . . . . . .
1.4 Tabelle a tre vie . . . . . . . . . . . . . . .
1.4.1 Distribuzioni marginali . . . . . .
1.4.2 Distribuzioni condizionate . . . .
1.5 Tabelle multiple . . . . . . . . . . . . . . .
1.5.1 La distribuzione multinomiale . .
1.6 Esercizi . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 La distribuzione normale multivariata
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 La distribuzione normale univariata . . . . . . . . . . . . . . .
2.3 La funzione di densità della normale multipla . . . . . . . . .
2.4 Ellissoidi di concentrazione e proprietà della normale multipla
2.5 La normale bivariata . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Combinazioni lineari di variabili normali . . . . . . . . . . . .
2.7 Distribuzioni marginali e condizionate . . . . . . . . . . . . . .
2.8 Misure di associazione fra variabili casuali normali . . . . . .
2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
7
7
8
11
12
14
16
17
19
.
.
.
.
.
.
.
.
.
21
21
23
25
27
27
31
33
35
38
iv
INDICE
Capitolo 1
Tabelle di contingenza
1.1 Introduzione
Si consideri un’indagine effettuata per due variabili X ed Y di tipo qualitativo (ordinabile o sconnesso) o quantitativo (discreto o continuo). I dati rilevati vengono raccolti sotto forma di distribuzione semplice in una tabella dalla quale si può facilmente
risalire alla categoria o al valore assunto dalle singole unità campionarie.
Unità Variabile X Variabile Y
1
..
.
x1
..
.
y1
..
.
n
xn
yn
Nonostante questa tabella contenga i dati in modo dettagliato e completo, questa
configurazione non sempre facilita il calcolo degli indici statistici e l’applicazione di
procedure statistiche più complesse. Pertanto è necessaria una riclassificazione dei
dati per favorire l’analisi e l’interpretazione dei fenomeni analizzati.
Una prima operazione consiste nell’individuare un numero finito di categorie che
sintetizzano al meglio le modalità con cui i fenomeni X ed Y possono verificarsi . Se
la variabile ha carattere quantitativo (discreto o continuo), i dati vengono classificati
attraverso modalità o classi numeriche. Rientrano nella tipologia di variabili quantitative il numero di addetti, l’età, il reddito pro-capite, il fatturato annuo, etc... Se la
variabile ha carattere qualitativo (ordinabile o sconnesso), i dati vengono classificati
secondo categorie opportune; per questo motivo tali variabili vengono anche dette categoriali. Il carattere sesso si articola secondo le categorie maschio e femmina, il carattere
settore di attività può essere individuato dalle categorie agricolo, artigianale, industriale,
terziario, etc...
Si considerino il fenomeno X a carattere quantitativo articolato secondo le madalità
1, 2 e 3 ed il fenomeno Y a carattere qualitativo classificabile tramite le categorie a e b.
1
Tabelle di contingenza
2
Unità
Variabile X
Variabile Y
modalità 1 modalità 2 modalità 3 categoria a categoria b
1
1
0
0
0
1
2
..
.
0
..
.
0
..
.
1
..
.
1
..
.
0
..
.
n
1
0
0
1
0
n10
n20
n30
n01
n02
n
Tabella 1.1:
Sulla base di quanto detto, i dati rilevati, piuttosto che sotto forma di distribuzione
unitaria, sono illustrati all’interno della tabella 1.1 in cui, per ogni unità statistica, i valori 1 e 0 indicano rispettivamente l’assenza e la presenza della variabile nella specifica
modalità o categoria.
Grazie a questa configurazione, risulta immediato il passaggio da una distribuzione
unitaria ad una distribuzione di frequenza: sommando verticalmente le unità contenute nelle celle, nell’ultima riga della tabella si ottiene, per ognuna delle due variabili, il
numero di unità che presenta una specifica modalità o categoria. Le n unità non sono
più elencate consecutivamente, ma raggruppate e ripartite fra le modalità/categorie
presenti. Si ottengono quindi le due distribuzioni marginali di frequenza,
Variabile X
Variabile Y
modalità 1 modalità 2 modalità 3 tot
categoria a categoria b tot
n10
in cui ni0 =
n20
P2
j=1 nij , n0j =
n30
P3
i=1 nij e
n
P3
i=1 ni0 =
n01
P2
j=1
n02
n
n0j = n.
1.2 Tabelle a doppia entrata
Le variabili X ed Y fino ad ora sono state analizzate separatamente, ma è possibile che
il verificarsi di X/Y con una determinata modalità/categoria dipenda dal manifestarsi
di Y /X e viceversa. Per valutare e misurare la relazione esistente fra i due fenomeni si
considerano sia le distribuzioni marginali, sia le distribuzioni di frequenza congiunte
di X ed Y .
Data la tabella 1.1, si possono ripartire le frequenze ni0 (i = 1, 2, 3) a seconda della
categoria assunta nella variabile Y , così come si possono ripartire le frequenze n0j (j =
1, 2) sulla base della modalità assunta nella variabile X. Il risultato di tale operazione
è contenuto nella seguente tabella.
1.2 Tabelle a doppia entrata
3
Y
categoria b categoria b tot
modalità 1
n11
n12
n10
X modalità 2
n21
n22
n20
modalità 3
n31
n32
n30
tot
n01
n02
n
Tramite questa nuova configurazione dei dati, le variabili X ed Y diventano rispettivamente le variabili riga e colonna della tabella a doppia entrata (3 × 2) così definita in
quanto permette di accedere ai dati con due chiavi di lettura distinte.
L’ultima colonna e l’ultima riga della tabella sono il risultato della somma orizzontale e verticale dei dati e rappresentano le distribuzioni di frequenza marginali della
variabile riga (ni0 ) e della variabile colonna (n0j ).
I valori all’interno della tabella nij indicano le frequenze di cella di una distribuzione congiunta, ossia il numero di casi che presentano modalità i-esima della variabile
X e categoria j-esima della variabile Y ; da una lettura orizzontale dei dati si ottiene
la distribuzione di frequenza della variabile riga ripartita per le categorie della variabile colonna, mentre, da una lettura verticale della tabella, si ha la distribuzione di
frequenza della variabile Y ripartita per le modalità della variabile X.
Fino ad ora sono state considerate le frequenze assolute, ma spesso è più comodo
n
lavorare con le frequenze relative congiunte fij = nij .
Y
categoria 1 categoria 2 tot
modalità 1
f11
f12
f10
X modalità 2
f21
f22
f20
modalità 3
f31
f32
f30
tot
f01
f02
1
In questa cross table i valori fij esprimono il rapporto fra le frequenze assolute ed il
totale delle unità. Per costruzione, la somma di tutte le frequenze relative è pari ad 1.
XX
i
fij =
j
X X nij
i
j
n
=
1 XX
nij = 1 .
n i j
I valori fi0 = ni0 /n e f0j = n0j /n rappresentano le frequenze relative marginali rispettivamente della variabile X e Y ed, anche in questo caso, la loro somma è ovviamente
pari ad 1
X
X
fi0 =
= f0j = 1 .
i
j
Tabelle di contingenza
4
I valori fi0 e f0j si ottengono rispettivamente dalla somma orizzontale ed verticale delle
frequenze relative congiunte fij
X
X
fi0 =
fij , f0j =
fij .
j
i
Le frequenze relative congiunte fij rapportano la frequenza dell’evento al totale dei
casi considerati. Nell’approccio frequentista della probabilità, la frequenza relativa f ij
si interpreta come stima della probabilità che si verifichino congiuntamente due eventi
sulla base del campione rilevato. Pertanto, denotiamo con πij
nij
πij =
= P (X = i, Y = j) .
n
la probabilità che un’unità statistica assuma modalità i della variabile X e categoria j
della variabile Y .
Si possono inoltre calcolare le frequenze relative condizionate fi|j = nij /n0j e fj|i =
nij /ni0 da cui deriva l’interpretazion in termini di la probabilità condizionate
nij
nij
πi|j =
= P (X = i|Y = j), πj|i =
= P (Y = j|X = i),
n0j
ni0
cioè la probabilità che si verifichi una modalità/categoria per la variabile X/Y condizionatamente al fatto che si sia già verificata una categoria/modalità per la variabile
Y /X.
Questo ci consente di costruire la tabella dei profili riga nella quale ogni riga rappresenta la ditribuzione di Y condizionata alla variabile X
Y
categoria a categoria b tot
modalità 1
r11
r12
1
X modalità 2
r21
r22
1
modalità 3
r31
r32
1
f01
f02
1
Ogni cella
rij = nij /ni0
è data dal rapporto fra la frequenza assoluta ed il totale di riga1 . Come si può intuire, l’ultima riga non si ottiene come somma verticale dei profili riga. Mentre, per
costruzione, la somma orizzontale di ogni riga è 1.
1
Il valore rij si può ottenere anche rapportando le frequenze realtive congiunte fij alla frequenza
relativa marginale fi0 della variabile X
rij =
nij
fij
=
= fj|i .
ni0
fi0
Pertanto i profili riga rappresentano la frequenza relativa dei casi j condizionata al fatto che si sia
verificato i.
1.2 Tabelle a doppia entrata
5
Se i profili riga sono uguali fra loro ed uguali al profilo marginale della Y
rij = ri0 j = f0j ,
∀i, i0 , j
significa che il verificarsi di una delle modalità di X non condiziona2 la variabile Y . I
profili riga si interpretano come probabilità condizionate
πj|i = rij = P (Y = j|X = i).
Se r11 = r21 = r31 = f01 e r12 = r22 = r32 = f02 , vuole dire che la probabilità
condizionata della Y è uguale alla sua probabilità marginale
P (Y = 1|X = 1) = P (Y = 1|X = 2) = P (Y = 1|X = 3) = P (Y = 1)
P (Y = 2|X = 1) = P (Y = 2|X = 2) = P (Y = 2|X = 3) = P (Y = 2).
Quindi, se P (Y |X) = P (Y ), le due variabili sono indipendenti, X⊥⊥Y e P (X, Y ) =
P (X)P (Y ).
Allo stesso modo si può costruire la tabella dei profili colonna nella quale ogni
colonna rappresenta la distribuzione di X condizionata alla variabile Y
Y
categoria a categoria b tot
modalità 1
c11
c12
f10
X modalità 2
c21
c22
f20
modalità 3
c31
c32
f30
1
1
1
Ogni cella
cij = nij /n0j
è data dal rapporto fra la frequenza assoluta ed il totale colonna3 . Anche in questo
caso, l’ultima colonna non è il risultato della somma orizzontale dei profili colonna. La
somma di ogni colonna è 1.
2
Quindi si ha che fj|i = f0j
fj|i =
nij
n0j
=
= f0j .
n0i
n
3
Il valore cij si può ottenere anche rapportando le frequenze realtive congiunte fij alla frequenza
relativa marginale f0j della variabile Y
cij =
nij
fij
=
= fi|j .
n0j
f0j
Pertanto i profili colonna rappresentano la frequenza relativa dei casi i condizionata al fatto che si sia
verificato j.
Tabelle di contingenza
6
I profili colonna si interpretano come probabilità condizionate
πi|j = cij = P (X = i|Y = j).
Se c11 = c12 = f10 , c21 = r22 = f20 e c31 = r32 = f30 , vuole dire che la probabilità
condizionata della X è uguale alla sua probabilità marginale
P (X = 1|Y = 1) = P (X = 1|Y = 2) = P (X = 1)
P (X = 2|Y = 1) = P (X = 2|Y = 2) = P (X = 2)
P (X = 3|Y = 1) = P (X = 3|Y = 2) = P (X = 3).
Quindi, se P (X|Y ) = P (X), le due variabili sono indipendenti, X⊥⊥Y . Ne deriva che
l’indipendeza probabilistica è bilaterale: se i profili riga sono uguali, anche i profili
colonna sono fra di loro uguali e X⊥⊥Y .
In generale, date le due distribuzioni marginali {πi0 } e {π0j }, non è possibile ricostruire la distribuzione congiunta {πij } delle due variabili X e Y a meno che le due
variabili non siano indipendenti. Nel caso in cui X⊥⊥Y , la loro distribuzione congiunta
si può ottenere come prodotto delle probabilità marginali, πij = πi0 × π0j . Ne deriva
che, nel caso di indipendenza, le frequenze della tabella sono date dal prodotto delle
frequenze marginali
ni0 n0j
nij =
.
n
Esempio 1. Consideriamo la tabella doppia relativa alla rilevazione di due variabili
qualitative, il Sesso e l’Orientamento politico
Orientamento politico
democratici indipendenti repubblicani
Sesso
tot
femmine
573
516
422
1511
maschi
386
475
399
1260
tot
959
991
821
2771
Consideriamo i profilo riga rij per vedere se le due variabili sono associate.
Orientamento politico
democratici indipendenti repubblicani tot
Sesso
femmine
0.38
0.34
0.28
1
maschi
0.31
0.38
0.31
1
tot
0.35
0.35
0.30
1
I profili riga sono diversi fra di loro. Questo significa che il sesso e l’orientamente
politico sono variabili associate.
1.3 Dipendenza in una distribuzione doppia
7
1.3 Dipendenza in una distribuzione doppia
Sulla base di quanto è stato appena detto, le distribuzioni congiunte consentono di valutare la probabilità che si verifichino contemporaneamente due fenomeni distinti; ma,
da un’analisi della tabella, si potrebbe ipotizzare una connessione fra gli accadimenti,
tanto da prendere in esame la possibilità che il manifestarsi di X/Y in una specifica
modalità/categoria possa influenzare la variabile Y /X. Quindi consideriamo alcuni
indici utili per misurare l’associazione fra le variabili.
1.3.1 L’indice χ2
Per valutare l’intensità di questa dipendenza, si utilizza l’indice χ2 , il quale misura lo
scostamento fra la tabella presa in esame ed il caso limite di una tabella di indipendenza. Quest’ultima si ha qualora non ci sia alcuna interazione fra gli accadimenti e,
per costruzione, i dati ñij contenuti nelle celle sono dati dal prodotto delle frequenze
marginali, fratto il totale delle unità4
ñij =
ni0 n0j
.
n
Maggiore è lo scostamento fra i valori della tabella presa in esame e quelli della tabella
teorica di indipendenza e maggiore è il grado di dipendenza e associazione fra le due
variabili.
Indicando con zij
nij − ñij
zij =
ñij
la differenza relativa fra la frequenza effettiva e la frequenza teorica, si giunge alla
formula del χ2 calcolando la media quadratica delle zij ponderata con le frequenze
teoriche. Dopo opportune semplificazioni si ha l’indice χ2
I X
J
X
(nij − ñij )2
χ =
.
ñij
i=1 j=1
2
Sapendo che tale statistica si distribuisce come una χ2(I−1)(J−1) (i = 1, . . . , I, j = 1, . . . J),
sulla base del valore ottenuto si può accettare o rifiutare l’ipotesi di indipendenza per
le variabili X ed Y considerate. Il test preso in esame è il seguente: date due variabili
XeY
H0 : X⊥⊥Y
H1 : X⊥⊥
/ Y.
4
La condizione di indipendenza deriva dal fatto che i profili riga (colonna) rij = nij /ni0 (cij =
nij /n0j ) sono uguali al profilo marginale f0j = n0j /n (fi0 = n0j /n).
nij =
ni0 n0j
.
n
Tabelle di contingenza
8
Sotto l’ipotesi H0 , la statistica si distribuisce come una χ2r con r = (I − 1)(J − 1)
gradi di libertà. Dato un valore k calcolato per la statistica test, si rifiuta l’ipotesi di
indipendenza se
P (χ2(r) > k) < α
dove α è il livello di significatività sufficientemente piccolo fissato per il test (di solito
0.10, 0.05, 0.01).
Consideriamo la tabella dell’esempio 1 e calcoliamo la tabella teorica di indipendenza
Orientamento politico
democratici indipendenti repubblicani
Sesso
tot
femmine
523
540
448
1511 .
maschi
436
451
373
1260
tot
959
991
821
2771
L’indice χ2(2) con gradi di libertà (2 − 1) × (3 − 1) = 2 è
χ22 =
(399 − 373)2
(573 − 523)2
+···+
= 16.2.
523
373
Pertanto, si rifiuta l’ipotesi di indipendenza perché
P (χ2(2) > 16.2) = 0.001.
Nonostante la statistica χ2 sia molto nota ed utilizzzata per misurare l’associazione
fra due variabili categoriali, ha dei forti limiti. Prima di tutto è un indice assoluto con
il quale possiamo testare l’assenza o la presenza di associazione, ma, qualora si rifiuti
l’ipotesi di indipendenza, l’indice non ci dà alcuna informazione sull’intensità dell’associazione. Inoltre, non meno importante, il valore assunto dall’indice dipende molto
dalla numerosità campionaria, in modo particolare, maggiore è n a parità di proporzioni f e maggiore è il valore che si ottiene per l’indice χ2 . Quindi, se osserviamo le
due variabili su due campioni che hanno una tabella con stessa proporzioni fij , ma una
numerosità n molto diversa, i risultati dei due test potrebbero essere diversi. Questo ci
porta a prendere in esame altre misure di associazione.
1.3.2 L’odds ratio
Consideriamo una variabile X con due modalità che in letteratura per comodità si indicano come successo ed insuccesso (ad esempio pensiamo al lancio di una moneta dove
il successo corrisponde all’uscita di testa). L’odd o quota è definito come il rapporto di
due probabilità
odd=
probabilità di successo
.
probabilità di insuccesso
1.3 Dipendenza in una distribuzione doppia
9
Supponiamo di osservare la variabile X con questa distribuzione di frequenza
Variabile X
successo insuccesso tot
25
75
100
La probabilità di successo ed insuccesso sono rispettovamente π1 = 0.25 e π2 = 0.75,
da cui l’odd è
0.25
odd =
= 0.3.
0.75
L’odd non è mai negativo, assume valori fra 0 ed 1 quando la probabilità di successo è
inferiore alla probabilità di insuccesso e, viceversa, assume valori maggiori di 1 quando la probabilità di successo è maggiore. Se l’odd è pari a 3 significa che il successo
è 3 volte più probabile dell’insuccesso, quindi ci aspettiamo che ci siano circa 3 successi ogni insuccesso. Se l’odd è 0.3 vuol dire che il successo è 3 volte meno probabile
dell’insuccesso e ci aspettiamo circa 1 successo per ogni 3 insuccessi.
Consideriamo ora la tabella realtiva a due variabili binarie, X: la razza dell’omicida
e Y : la razza della vittima
Razza della vittima
Razza dell’omicida
bianca
nera
tot
bianca
3150
230
3380
nera
516
2984
3500
.
3150 230
Se consideriamo solo il caso degli assassini bianchi, l’odd della variabile Y è 3380
/ 3380 =
13.7. Significa, che nel caso in cui l’omicida sia stato un bianco, ci sono state 13.7 vittime bianche per ogni vittima nera. Nel caso di assassini neri, l’odd della variabile
516 2984
Y è 3500
/ 3500 = 0.173, significa che nel caso di omicida nero, ci sono 1/0.173 = 5.8
vittime nere per ogni vittima bianca. Quindi sembrerebbe che ci sia una forte associazione fra la razza dell’omicida e quella della vittima. Per misurare questa associazione
utilizziamo l’odds ratio, o rapporto di quote
θ XY =
odd per gli assassini bianchi
13.7
=
= 79.2.
odd per gli assassini neri
0.173
Questo significa che, per gli assassini bianchi, l’odd di una vittima bianca è circa 79
volte più grande dell’odd di una vittima bianca per gli assassini neri.
Quindi l’odds ratio è una naturale misura di associazione ottenuta come rapporti
di odd delle variabili X ed Y . Nel caso di una tabella 2 × 2, è anche detto rapporto dei
prodotti incrociati, poiché
3150 × 2984
θ XY =
.
230 × 516
Proprietà dell’odds ratio:
Tabelle di contingenza
10
• è sempre non negativo;
• se θ XY = 1 vuol dire che gli odds sono uguali, perciò le due variabili X ed Y non
sono associate: perché la quota dei successi di una variabile non varia al variare
dell’altra, X⊥⊥Y ;
• se θ XY > 1 vuol dire che l’odd di successo è maggiore nella prima riga;
• se 0 < θ XY < 1 vuol dire che l’odd di successo è minore nelle prima riga;
• in generale, se θ XY 6= 1, vuol dire che le variabili sono associate, X⊥/⊥ Y ;
• più θ XY si allontana da 1 una in una delle due direzioni e maggiore è l’associazione;
• per considerare in modo simmetrico l’allontamento dalla situazione di indipendenza in entrambe le direzioni, spesso come misura di associazione si considera
il logaritmo log θ XY ;
• se log θ XY = 0 le due variabili sono indipendenti;
• se log θ XY ≷ 0, l’odd di successo è maggiore/minore nella prima riga:
• più log θ XY si allontana da 0 una in una delle due direzioni e maggiore è l’associazione, in questo caso il confronto è simmetrico;
XY
• la
si distribuisce come una normale con standard error SE =
q statistica log θ
1
1
1
+ n12 + n21 + n122 ;
n11
• l’intervallo di confidenza per il logartimo dell’odds ratio pertanto si può costruire
come log θ XY ± 1.96SE.
Esempio 2. Consideriamo due variabili X: razza (bianchi, neri), Y : opinione sulle unioni civili di coppie dello stesso sesso (sì, no). Supponiamo di osservare queste variabili
in 3 diversi campioni A, B e C.
YA
X
YB
YC
sì no tot
sì
no
bianca 49 51 100
98
102 200
4900 5100 10000
102
98
5100 4900 10000
nera
51 49 100
tot
200
sì
no
tot
.
La tabella riporta le frequenze osservate nei 3 campioni che hanno una diversa numerosità, nA = 100, nB = 200, nC = 10000, notare però che le frequenze relative fij sono le
stesse. La statistica χ2 nei tre campioni assume valori molto diversi, proporzionali alla
dimensione del campione (fra parentesi sono indicati i p-value)
χ2A = 0.08 (0.78),
χ2B = 0.16 (0.69),
χ2C = 8 (0.005).
1.4 Tabelle a tre vie
11
Quindi, sulla base dei primi due campioni, si ha un valore molto basso della statistica
che fa pensare all’ indipendenza fra le due variabili. Per avere un valore abbastanza
alto della statistica che consenta di rifiutare l’ipotesi di indipendenza fra le variabili è
necessaria una numerosità campionaria molto alta.
Se invece calcoliamo l’odds ratio come misura di associazione, questo è indipendente dalla numerosità del campione
θ XY =
49 × 49
98 × 98
4900 × 4900
=
=
= 0.92,
51 × 51
102 × 102
5100 × 5100
log(θ XY ) = −0.08.
E’ naturale che il calcolo dell’errore standard dipende invece dal numero delle osservazioni, in particolare
r
r
1
1
1
1
1
1
1
1
+
+
+
= 0.28, SEB =
+
+
+
= 0.20,
SEA =
49 49 51 51
98 98 102 102
r
1
1
1
1
SEC =
+
+
+
= 0.03,
4900 4900 5100 5100
e gli intervalli di confidenza sono
(−0.6288; 0.4688),
(−0.472; 0.312),
(−0.1388; −0.0212).
1.4 Tabelle a tre vie
Consideriamo ora il caso di tre variabili X, Y e Z le cui frequenze congiunte si possono rappresentare in una tabella a tre dimensioni. La generica frequenza nijk indica
il numero di unità che manifestano la i-esima modalità della X, la j-esima modalità della Y e la k-esima modalità della Z. Di conseguenza la probabilità congiunta è
πijk = P (X = i, Y = j, Z = k).
Considerando due variabili binarie X e Y ed una variabile Z a 3 livelli, la tabella a
tre vie si può rappresentare nel seguente modo:
Z=1
Y
X
1
2
Z=2
tot
1
2
Z=3
tot
1
2
tot
1 n111 n121 n101
n112 n122 n102
n113 n123 n1032
2 n211 n221 n201
n212 n222 n202
n213 n223
.
n203
Si ha che
XXX
i
j
nijk = n,
k
mentre le frequenze marginali si ottengono sommando rispetto alla variabile per cui si
marginalizza
X
X
X
nijk , n0jk =
nijk ,
nij0 =
nijk , ni0k =
k
j
i
Tabelle di contingenza
12
ni00 =
XX
j
nijk ,
n0j0 =
XX
i
k
nijk ,
n00k =
XX
i
k
nijk .
j
Analogamente si possono calcolare le stime delle probabilità marginali πi00 , π0j0 , π00k ,
πij0 , πi0k , π0jk .
1.4.1 Distribuzioni marginali
Data una tabella a tre vie, le tabelle marginali doppie si possono ottenere attraverso
delle somme:
Y
1
tot
2
1 n110 = n111 + n112 + n113 n120 = n121 + n122 + n123 n100 = n101 + n102 + n103
X 2 n210 = n211 + n212 + n213 n220 = n221 + n222 + n223 n200 = n201 + n202 + n203
Y
1
tot
2
1 n011 = n111 + n211 n021 = n121 + n221 n101 + n201
Z 2 n012 = n112 + n212 n022 = n122 + n222 n102 + n202
3 n013 = n113 + n213 n023 = n123 + n223 n103 + n203
X
1
tot
2
1 n101 = n111 + n121 n201 = n112 + n122 n011 + n021
Z 2 n102 = n112 + n122 n202 = n212 + n222 n012 + n022
3 n103 = n113 + n123 n203 = n213 + n223 n013 + n023
Notare che la dimensione campionaria di ogni tabella marginale è sempre
n=
X
nij0 =
ij
X
ik
ni0k =
X
n0jk .
jk
Marginalizzare significa ignorare una variabile e considerare le osservazioni congiunte
delle restanti variabili sulla stessa popolazione.
Se andiamo a misurare l’associazione in queste tabelle, stiamo misurando l’associazione marginale fra le coppie di variabili XY o XZ o Y Z, indipendentemente dal
comportamento della terza variabile. L’odds ratio
θ XY =
n110 × n220
n120 × n210
1.4 Tabelle a tre vie
13
misura l’associazione in una tabella doppia fra le variabili X ed Y . Se θ XY = 1, si ha
che le due variabili sono marginalmente indipendenti X⊥⊥Y , quindi
πij0 = πi00 × π0j0 .
Se θ XY ≷ 1, si ha che le due variabili sono marginalmente associate in una direzione o
nell’altra e
πij0 = πi0|j × π0j0 .
Esempio 3. Cosideriamo tre variabili binarie X: atteggiamento religioso (non praticante,
praticante), Y : atteggiamento politico (repubblicano, democratico) e Z: atteggiamento
verso la pena di morte (favorevole, contrario) e la seguente tabella a 3 vie
Z: favorevole
Z: contrario
Y
rep.
dem.
tot
rep.
dem.
tot
non prat.
18
12
30
2
8
10
prat.
12
8
20
8
32
40
X
.
Costruiamo le 3 distribuzioni marginali
rep. dem. tot
Y
X
non prat.
20
20
40
prat.
20
40
60
fav. contr. tot
Z
non prat.
30
10
40
prat.
20
40
60
X
fav. contr. tot
Z
Y
rep.
30
10
40 .
dem.
20
40
60
Calcoliamo i 3 odds ratio per misurare l’associazione marginale
θ XY =
20 × 40
= 2,
20 × 20
θ XZ =
30 × 40
= 6,
10 × 20
θY Z =
30 × 40
= 6.
10 × 20
Gli odds ratio mostrano che le variabili sono marginalmente associate, in particolare
l’associazione più forte è fra le variabili XZ e Y Z.
Esempio 4. Cosideriamo tre variabili binarie X: sesso (maschio, femmina), Y : razza
(bianca, nera) e Z: atteggiamento verso la pena di morte (favorevole, contrario) e la
seguente tabella a 3 vie
Z: favorevole
Y
Z: contrario
bianchi neri tot
maschi
X femmine
bianchi neri tot
6
12
18
4
18
22
2
3
5
6
21
27
.
Costruiamo le 3 distribuzioni marginali
Y
b
n
tot
m 10 30 40
X
f
8
24 32
X
Z fav. cont. tot
Z fav. cont. tot
m
18
22
40
b
8
15
23 .
f
5
27
32
n
10
39
49
Y
Tabelle di contingenza
14
Calcoliamo i 3 odds ration per misurare l’associazione marginale
θ XY =
10 × 24
= 1,
8 × 30
θ XZ =
18 × 27
= 4.4,
5 × 22
θY Z =
8 × 39
= 2.
10 × 15
Gli odds ratio mostrano che le variabili X ed Y sono marginalmente indipendenti,
X⊥⊥Y , mentre sono associate le coppie di variabili XZ e Y Z.
1.4.2 Distribuzioni condizionate
Le probabilità condizionate si ottengono attraverso dei rapporti,
πij|k =
πijk
,
π00k
πi|jk =
πijk
.
πi0k
Ad esempio, consideriamo le frequenze dell tabelle XY condizionate ai 3 livelli di Z:
Z=1
Y
1
2
tot
1 n111 /n001 n121 /n001 n101 /n001
X
2 n211 /n001 n221 /n001 n201 /n001
Z=2
Y
1
2
tot
1 n112 /n002 n122 /n002 n102 /n002
X
2 n212 /n002 n222 /n002 n202 /n002
Z=3
Y
1
2
tot
1 n113 /n003 n123 /n003 n1032 /n003
X
2 n213 /n003 n223 /n003
.
n203 /n003
Notare che la dimensione campionaria delle tabelle condizionate è diversa da n. Ad
esempio, nella tabella XY |Z = 1, la dimensione campionaria è data dal condizionamento, cioè da tutte le unità n001 tali per cui Z = 1. Sommando la dimensione campionaria delle 3 tabelle condizionate si ottiene nuovamente la dimensione complessiva
P
n = k n00k . Condizionare ad un livello k della variabile Z, significa andare ad osservare le restanti variabili X ed Y nella sottopopolazione delle unità che assumono uno
specifico livello della variabile di condizionamento.
Una tabella a tre vie è sostanzialmente un insieme di tabelle doppie condizionate
ai livelli della terza variabile. Ad esempio, la tabella sopra illustrata contiene 3 tabelle doppie XY condizionate ai 3 livelli della variabile Z: X, Y |Z = 1, X, Y |Z = 2,
1.4 Tabelle a tre vie
15
X, Y |Z = 3. Studiando l’associazione di queste 3 tabelle, studiamo in pratica l’associazione condizionata di X ed Y in base alle modalità assunte da Z. Ad esempio, se osserviamo i seguenti odds ratio condizionati (al pedice si indica il livello della variabile
di condizionamento)
θ1XY = 1,
θ2XY < 1,
θ3XY > 1
si ha che nel caso in cui Z = 1, X⊥⊥Y poiché l’odds ratio è 1, mentre nel caso cui
cui Z = 2 e Z = 3, X ed Y sono associate, ma la loro associazione è nella direzione
opposta. Qualora θkXY = 1 per ogni modalità k della variabile Z, si ha l’indipendenza
condizionata
X⊥⊥Y |Z,
Questo vuol dire che condizionandoci a qualunque modalità che la Z può assumere,
le due variabili X ed Y non sono associate. L’indipendenza condizionata implica che
la probabilità congiunta πijk = πi|jk πj|k πk , si può anche ottenere come prodotto delle
probabilità condizionate
πijk = πi|k πj|k πk ,
poiché, se X⊥⊥Y |Z, πi|jk = πi|k .
Come si può facilmente intuire, l’indipendenza condizionata fra due variabili non
implica quella marginale e viceversa. Riprendiamo l’esempio 3 in cui le variabili sono
tutte marginalmente associate. Se calcoliamo l’odds ratio nella distriuzione condizionata di XY |Z, notiamo che
θ1XY =
18 × 8
= 1,
12 × 12
θ2XY =
2 × 32
= 1.
8×8
Quindi l’atteggiamento religioso e quello politico sono associate marginalmente, ma
indipendenti condizionatamente all’atteggiamento nei confronti della pena di morte:
X⊥⊥
/ Y,
X⊥⊥Y |Z.
Analogamente, se consideriamo l’esempio 4, abbiamo che le variabili X ed Y sono
marginalmente indipendenti, ma se andiamo a calcolare l’odds ratio nella distriuzione
condizionata di XY |Z, notiamo che
θ1XY =
6×3
= 0.75,
12 × 2
θ2XY =
4 × 21
= 0.8.
18 × 6
Quindi il sesso e la razza sono marginalmente indipendenti, ma associati condizionatamente all’atteggiamento nei confronti della pena di morte,
X⊥⊥Y,
X⊥/⊥ Y |Z.
Tabelle di contingenza
16
1.5 Tabelle multiple
Il caso più generale delle tabelle di contingenza è quello in cui si considera un insieme
di k variabili C1 , . . . , Ck ognuna delle quali può assumere b1 , . . . , bk livelli. L’insieme
Q
delle possibili combinazioni dei livelli delle k variabili è data dal prodotto t = kj=1 bj .
Ad esempio, consideriamo la variabile discreta C1 : soddifazione per il prodotto A (poco, abbastanza molto) e C2 : soddifazione per il prodotto B (poco, abbastanza molto);
ogni variabile ha 3 modalità, perciò le combinazioni possibili sono t = 3 × 3 = 9:
• poco soddisfatto (A), poco soddifatto (B)
• poco soddisfatto (A), abbastanza soddifatto (B)
• poco soddisfatto (A), molto soddifatto (B)
• abbastanza soddisfatto (A), poco soddifatto (B)
• abbastanza soddisfatto (A), abbastanza soddifatto (B)
• abbastanza soddisfatto (A), molto soddifatto (B)
• molto soddisfatto (A), poco soddifatto (B)
• molto soddisfatto (A), abbastanza soddifatto (B)
• molto soddisfatto (A), molto soddifatto (B).
Le osservazioni relative a queste due variabili si possono rappresentare con una tabella
doppia. Supponiamo di estendere la stessa indagine per osservare il livello di soddisfazione di k > 3 prodotti, abbiamo una tabella multidimensionale definita da una
classe I di celle che rappresentano le combinazioni di tutti i possibili livelli delle variabili. Questa classe è definita come il prodotto cartesiano di tutti i livelli I = ×kj=1 bk e
ogni cella i ∈ I della tabella rappresenta una possibile combinazione da cui ni è la frequenza di osservazioni nella cella i e πi è la probabilità che si verifichi quella specifica
configurazione di modalità.
Esempio 5. Consideriamo 5 variabili binarie osservate su 1128 individui in Germania
fra 18 e 65 anni. U : unconcerned about environment (yes, no); P : no own political
impact expected (yes, no), E: parents education, both at lower level (at most 10 years)
(yes, no); A: age under 40 years(yes, no); S: gender (female, male). Queste osservazioni
1.5 Tabelle multiple
17
si collezionano in una tabella a 5 dimensioni con 25 = 32 celle.
U yes
no
f
m
P yes no yes no yes
no yes
S
f
m
A
E
no
yes
6
8
7 27
no
4
0
1
9
2
2
11
6
0
1
0
2
yes yes
no
66 186
8
64
28 159
4
75
no
24 230
4
60
16 130
8
80
1.5.1 La distribuzione multinomiale
La distribuzione di probabilità associata ad una tabella multipla a k dimensioni è la
distribuzione multinomiale. La variabile casuale multinomiale è una generalizzazione
della variabile casuale Binomiale poiché si basa su una sequenza di prove indipendenti identicamente distribuite. La differenza consiste nel fatto che, ad ogni prova, si
possono osservare un numero finito t ≥ 2 di risultati che non sono necessariamente
un successo o un insuccesso. Un vettore X = (X1 , . . . , Xt ) si distribuisce come una
multinomiale, X ∼ M n(n, π), π = (π1 , . . . , πt ), la cui funzione di probabilità è
pX (n1 , . . . , nt ) =
n
π1n1 × · · · × πtnt
n1 , . . . , n t
P
n
n!
.
I
parametri
della
distribuzione
sono
n
=
dove n1 ,...,n
=
i ni , il numero delle
n
!...n
!
t
t
1
prove e π1 , . . . , πt , le probabilità di ogni i-esima configurazione. Anche i parametri
P
relativi alla probabilità sono ovviamente vincolati poiché i πi = 1.
Il valore atteso di una distribuzione multinomiale è



E(X) = 




E(X1 )
nπ1
 

  .. 
..
 =  . .
.
 

E(Xt )
nπt
Le covarianze e le correlazioni fra le coppie Xi , Xj sono
C(Xi , Xj ) = −nπi πj ,
Corr(Xi , Xj ) = −
r
πi
πj
.
1 − πi 1 − πj
Esempio 6. Sia X una variabile casuale con distribuzione multinomiale associata ad
Tabelle di contingenza
18
una tabella multipla 2 × 3 × 2 con vettore di probabilità
















π=














π111
π112
π121
π122
π131
π132
π211
π212
π221
π222
π231
π232


 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
=
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0.01
0.20
0.10
0.09
0.09
0.03
0.07
0.09
0.20
0.02
0.04
0.06
















.














Consideriamo n = 200 prove indipendenti, la probabilità marginale P (X = 1, Z = 1) è
π101 = π111 + π121 + π131 = π101 = 0.01 + 0.10 + 0.09 = 0.20
mentre il valore atteso associato a questo evento è E(n101 ) = 200×π101 = 200×0.2 = 40.
La probabilità condizionata P (X = 1, Y = 1|Z = 2) è
π11|2 =
π112
π112
=
=
π002
π112 + π122 + π132 + π212 + π212 + π222 + π232
π11|2 =
0.20
0.20
=
= 0.41
0.20 + 0.09 + 0.03 + 0.09 + 0.02 + 0.06
0.49
mentre il valore atteso associato a questo evento è E(n11|2 ) = (2 × 49) × 0.41 = 40.18.
Notare che la dimensione campionaria della tavola XY |Z = 2 è data dal 49% del totale
n = 200, poiché π002 = 0.49.
Alcune proprietà della distribuzione multinomiale:
• se X ∼ M n(nX , π) e Y ∼ M n(nY , π), la somma X + Y ∼ M n(nX + nY , π);
questa proprietà si può generalizzare anche per la somma di m > 2 multinomiali
• se X ∼ M n(nX , π), anche la distribuzione marginale X 1 ∼ M n(nX , π 1 ) è una
distribuzione multinomiale
• se X ∼ M n(nX , π), anche la distribuzione condizionata X 1 |X 2 ∼ M n(n1|2 , π 1|2 )
è una distribuzione multinomiale.
1.6 Esercizi
19
1.6 Esercizi
1. Si consideri la seguente tabella relativa a due variabili Y : result of crash (fatality,
nonfatality), X: seat-belt use (yes, no).
fatality nonfatality tot
Y
yes
13
34
no
X
60
tot
52
107
• completare la tabella;
• calcolare la tabella delle frequenze relative;
• rappresentare la tabella di X|Y ;
• rappresentare la tabella di Y |X;
• verificare se c’è indipendenza fra le variabili.
2. Si consideri la seguenete tabella relativa a due variabili Y : job satisfaction (very
dissatisfied, little dissatisfied, moderately satisfied, very satisfied), X: income
(<15000, 15000-25000, 25000-40000, >40000).
Y
vd ld ms vs tot
<15000
1
3
10
6
15000-25000
2
3
10
7
X 25000-40000
1
6
14
12
0
1
9
19
>40000
tot
• completare i totali della tabella;
• costruire la tabella di indipendenza;
• verificare l’ipotesi di indipendenza attraverso il test χ2 ;
• costruire la tabella 2 × 2 considerando le stesse variabili in cui vengono accorpate delle categorie Y : job satisfaction (dissatisfied, satisfied), X: income
(<25000, >25000);
• calcolare l’intervallo di confidenza per l’odds ratio in quest’ultima tabella.
3. Si consideri la seguente tabella relativa a due variabili Y : party identification
(democrat, independent, republican), X: race (black, white).
Y
democratic independent republican
black
103
15
11
X white
341
105
405
Tabelle di contingenza
20
• verificare l’ipotesi di indipendenza con il test χ2 ;
• costruire la tabella ignorando la categoria independent della variabile Y ;
• verificare l’ipotesi di indipendenza in questa nuova tabella con il test χ2 ;
• nella stessa tabella 2 × 2 costruire l’intervallo di confidenza per l’odds ratio
e valutare la presenza/assenza di indipendenza;
• mantenendo lo stesso totale delle osservazioni della tabella 2 × 2 (ignorando
gli indipendenti per la variabile Y ), riclassificare in modo arbitrario le unità
considerate in due tabelle 2 × 2 considerando una terza variabile Z: gender
(male, female);
• calcolare l’odds ratio condizionato nelle due tabelle ottenute; confrontare il
livello di associazione fra XY condizionatamente al genere.
4. Si consideri la seguente tabella relativa a tre variabili Y : death penalty verdict
(yes,no), X: defendant’s race (white, black), Z: victim’s race (white, black).
Z = white
Y
yes
no
white
53
X black
11
Z = black
tot
Y
yes
no
414
white
0
16
37
X black
4
139
tot
• completare la tabella;
• costruire le tabelle marginali XY , Y Z e XZ;
• verificare l’indipendenza marginale per ognuna delle tre distribuzioni;
• verificare l’indipendenza condizionata.
5. Si consideri una distribuzione multinomiale associata ad una tabella 3 × 3 di
parametri n = 120 e vettore di probabilità
π 0 = π11 π12 π13 π21 π22 π23 π31 π32 π33 =
=
0.088 0.04 0.099 0.14 0.19 0.19 0.045 0.14 0.072
• calcolare le probabilità marginali π10 , π12 ;
• calcolare le probabilità condizionate π2|2 , π1|3 ;
• calcolare i seguenti valori attesi E(n21 ), E(n03 ), E(n2|1 ).
.
Capitolo 2
La distribuzione normale multivariata
2.1 Introduzione
Le variabili casuali multiple ci consentono di studiare congiuntamente e contemporaneamente il comportamento di un insieme di fenomeni aleatori su una stessa popolazione di riferimento e, inoltre, di studiare le associazioni e le relazioni fra i singoli
fenomeni presi in esame.
Siano X1 , . . . , Xp , delle variabili casuali continue definite sullo stesso spazio di probabilità. Allora il vettore casuale


X
 1 
 .. 
X= . 


Xp
costituisce una variabile casuale multipla o multivariata la cui funzione di densità di
probabilità è fX (x). Il valore atteso della variabile X è definito come il vettore dei
valori attesi delle singole componenti (sempre se estinono finiti)


E(X1 )




..
E(X) = µ 
.
.


E(Xp )
La matrice di varianza e covarianza è definita come

C(X1 , X2 ) · · · C(X1 , Xp )
 V (X1 )

 C(X2 , X1 )
V (X2 )
· · · C(X2 , Xp )
V (X) = 
..
..
..

..
.

.
.
.

C(Xp , X1 ) C(Xp , X2 ) · · ·
V (Xp )
Questa matrice è simmetrica e semidefinita positiva.
21




.



La distribuzione normale multivariata
22
Così come per le variabili univariate, è possibile derivare la distribuzione di probabilità anche di combinazioni lineari di variabili casuali multiple. Sia A una matrice
(k × p) e b un vettore (k × 1), si ottiene una variabile casuale multipla Y di dimensione
k attraverso la seguente combinazione lineare
Y = AX + b.
Conoscere la distribuzione di combinazioni lineari di variabili è utile quando, più che
al comportamento dei fenomeni presi in esame, si è interessati a studiare l’effetto di
alcune loro trasformazioni.
Ogni sottoinsieme di k < p componenti, definisce una variabile casuale multipla
marginale X k di dimensione k. Marginalizzare significa ignorare p − k variabili che
non vengono più considerate. La funzione di densità di probabilità fX k (xk ) della
distribuzione marginale X k si ottiene integrando la funzione di densità della variabile
multipla X rispetto alle p − k dimensioni che vengono ignorate,
fX k (xk ) =
Z
x∈R(p−k)
fX (x)dx.
Supponiamo di osservare le seguenti variabili in una popolazione di riferimento: età,
peso, pressione oculare, ore in media trascorse ogni giorno al computer. Stiamo facendo un’operazione di marginalizzazione se ci limitiamo a studiare il comportamento
probabilistico nell’intera popolazione di riferimentosolo della pressione oculare e delle
ore passate al computer ignorando le variabili età e peso.
Diversa è invece la variabile casuale multipla condizionata X|X k che rappresenta la
distribuzione di probabilità delle restanti p−k componenti dopo aver fissato una classe
di valori per le k componenti. A differenza della marginalizzazione che osserva un
ridotto numero di variabili sull’intera popolazione, l’operazione di condizionamento
consente di studiare un ridotto numero di variabili su una sottopopolazione definita
dalla classe di valori assunta dalle k variabili selezionate. Ad esempio, si studia il
comportamento probabilistico delle variabili pressione oculare e delle ore passate al
computer non su tutta la popolazione, ma solo su coloro che hanno fra i 40 e i 50 anni
e hanno un peso compreso fra i 65 e i 70 kg. La funzione di densità di probabilità della
variabile casuale condizionata X|X k di ottiene attraverso il rapporto
fX |X k (x|xk ) =
fX (x)
fX k (xk )
della distribzione congiunta della variabile X e della distribuzione marginale della
variabile X k a cui ci stiamo condizionando.
2.2 La distribuzione normale univariata
Normale standard
0.4
0.35
23
mu = 0
sigma = 1
0.3
f(z)
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
z
1
2
3
Figura 2.1:
2.2 La distribuzione normale univariata
Prima di procedere con la normale multivariata, questo paragrafo richiama brevemente la funzione di densità di una variabile continua ed, in particolare, la normale
univariata e le sue proprietà.
Una distribuzione di probabilità univariata definita per un certo fenomeno aleatorio X di carattere continuo ci consente di studiare il comportamento di tale fenomeno
in una popolazione di riferimento, ad esempio, il reddito, il lievllo dei consumi, l’altezza, etc... Pertanto, sia X una variabile casuale continua con funzione di densità di
probabilità fX (x), il suo valore atteso e la sua varianza, se esistono finiti, sono definiti
come
Z
Z
E(X) = µ = xfX (x)dx, V (X) = (x − µ)2 fX (x)dx.
Fra le distribuzioni di probabilità la più nota ed utilizzata è sicuramente la distribuzione normale. Questa distribuzione si adatta bene a descrivere il comportamento probabilistico di fenomeni quantitativi simmetrici. E’ caratterizzata da due parametri, un
parametro di posizione, la media µ e un parametro di scala, la varianza σ 2 , che misura
la dispersione del fenomeno attorno al valor medio. Minore è la varianza e maggiore
è la probabilità che le realizzazioni del fenomeno preso in esame siano in un intorno
della media. E’ una distribuzione che è molto utilizzata anche perché gode di ottime
proprietà che verranno successivamente illustrate.
Sia X una variabile casuale continua distribuita secondo una legge normale, i.e.
X ∼ N (µ, σ). La funzione di densità della variabile X è
fX (x) =
1
(x − µ)2
√ exp{−
}
2σ 2
σ 2π
dove µ e σ sono i parametri della distribuzione. Al variare dei parametri si ha una
diversa distribuzione normale. Il caso particolare in cui µ = 0 e σ 2 = 1 definisce la
variabile normale standardizzata, solitamente indicata come Z ∼ N (0, 1), vedi Fig. 2.1.
La distribuzione normale multivariata
24
La probabilità che una variabile casuale normale standard assuma valori in un certo
intervallo (a, b) si calcola attraverso l’integrale
Z b
P (a ≤ Z ≤ b) =
fZ (z)dz.
a
Il calcolo dell’integrale non può essere svolto in forma analitica, ma numerica per cui si
ricorre all’utilizzo di un software o delle tavole di probabilità. Circa il 90% della probabilità si concentra nell’intervallo di valori (−2, 2), mentre circa il 99% della probabilità
nell’intervallo di valori (−3, 3).
L’insieme di tutte le coppie di valori dei parametri (µ, σ 2 ), definisce la famiglia di
distribuzioni normali. Ad esempio, se il fenomeno che vogliamo rappresentare è l’altezza, possiamo ipotizzare che X ∼ N (1.60, 0.1). Al variare del parametro media cambia la posizione della distribuzione, mentre al variare dei parametro varianza cambia
la forma e la concentrazione della distribuzione attorno alla media (vedi Fig. 2.2). Data
una variabile casuale normale X ∼ N (µ, σ 2 ) non standard, ci si può sempre ricondurre
ad una variabile Z attraverso l’operazione di standardizzazione:
X −µ
.
σ
Z=
Quindi se volessimo calcolare P (a ≤ X ≤ b), dobbiamo standardizzare gli estremi
dell’intervallo ed ottenere così
za =
a−µ
,
σ
zb =
b−µ
.
σ
La probabilità che una variabile X non standard sia compresa fra a e b è equivalente
alla probabilità che una normale standard Z sia compresa fra za e zb :
Z b
Z zb
P (a ≤ X ≤ b) =
fX (x)dx =
fZ (z)dz.
a
za
Esempio 7. Sia X ∼ N (12, 4.5). Calcolare P (X ≥ 14).
14 − 12
P (X ≥ 14) = P (Z ≥ √
) = P (Z ≥ 0.94) = 0.17361
4.5
Variazioni del parametro di posizione
8
media = 1.60
media = 1.50
media = 1.70
3.5
3
8
var = 0.1
var = 0.05
var = 0.2
7
6
5
f(x)
2.5
f(x)
Variazioni del parametro di scala
2
7
media = 1.60
var = 0.1
6
media = 1.55
var = 0.05
4
4
1.5
3
3
1
2
2
0.5
1
1
0
1.3
1.4
1.5
1.6
x
1.7
1.8
1.9
2
0
1.3
Variazioni deli parametri media e varianza
5
f(x)
4
1.4
1.5
1.6
x
1.7
1.8
Figura 2.2:
1.9
2
0
1.3
1.4
1.5
1.6
x
1.7
1.8
1.9
2
2.3 La funzione di densità della normale multipla
25
Calcolare P (9 ≤ X ≤ 14).
9 − 12
14 − 12
P (9 ≤ X ≤ 1) = P ( p
≤Z≤ √
)=
4.5
(4.5
= P (Z ≤ 0.94) − P (Z ≤ −1.4142) = 0.82639 − 0.078652 = 0.74774.
2.3 La funzione di densità della normale multipla
Un vettore X = (X1 , . . . , Xp ) di p variabili casuali che assume valori x = (X1 =
x1 , . . . , Xp = xp ) con x ∈ Rp (spazio euclideo di dimensione p) si distribuisce come
una normale multivariata a p dimensioni se la sua funzione di densità di probabilità è
fX (x) =
1
(2π)p/2 (det Σ)1/2
1
exp{ (x − µ)0 Σ−1 (x − µ)},
2
(2.1)
dove µ = (µ1 , . . . , µp )0 ∈ Rp è il vettore dei parametri media e Σ è una matrice di
varianza e covarianza simmetrica, definita positiva di dimensione (p × p)


2
σ σ12 · · · σ1p
 1



 σ21 σ22 · · · σip 


Σ= .
..
..  con σij = σji , i, j = 1, . . . , p.
..
.
.
 .
.
. 


σp1 σp2 · · · σp2
La matrice Σ contiene sulla diagonale principale la varianza σi2 relativa alla variabile
Xi , mentre al di fuori della diagonale principale ci sono le covarianze σij che rappresentano una misura di associazione lineare a coppia fra le variabili Xi e Xj . La covarianza
è una misura di associazione bilaterale per cui σij = σji ; pertanto la matrice Σ è simmetrica. Data la funzione di densità, per ogni punto x = (x1 , . . . , xp ) in Rp , possiamo
calcolare attraverso un integrale multiplo la probabilità congiunta che ogni variabile
Xi assuma un valore inferiore a xi , contemporaneamente per ogni i = 1, . . . , p,
Z x1 Z x2
Z xp
P (X < x) = P (X1 , < x1 , . . . , Xp < xp ) =
...
fX (x)dx.
−∞
−∞
−∞
Esempio 8. Se consideriamo solo due variabili, possiamo calcolare la probabilità che
la pressione oculare sia inferiore a 21 millimetri di mercurio e che le ore trascorse in
media ogni giorno al pc siano meno di 8 nella popolazione di riferimento.
Se il vettore X si distrbuisce come una normale multivariata a p dimensioni, i.e.
X ∼ N (µ, Σ), ogni singola variabile Xi si distribuisce come una Normale univariata,
i.e. N (µi , σi2 ),
1
(xi − µi )2
fXi (xi ) = √ exp{−
}.
(2.2)
2σi2
σi 2π
La distribuzione normale multivariata
26
Se la matrice Σ è diagonale




Σ=



σ12
0
0
..
.
σ22
..
.
0
0

···
0 

··· 0 

. ,
..
. .. 

2
· · · σp
significa che tutte le covarianze sono nulle σij = 0. Per variabili casuali normali, la
covarianza nulla è una condizione necessaria e sufficiente per l’indipendenza (questa
condizione non è valida in generale):
σij = 0 ⇐⇒ Xi⊥⊥Xj ,
i 6= j.
Inoltre, sempre caso specifico di distribuzioni normali, l’indipendenza fra tutte le possibili coppie di variabili Xi e Xj implica quella che viene chiamata l’indipendenza
mutua,
Xi⊥⊥Xj , ∀(i, j) ⇐⇒ X1⊥⊥X2⊥⊥, . . . , ⊥⊥Xp .
Questo implica che la funzione di densità per il vettore casuale X è il prodotto delle
funzioni di densità di ogni singola variabile Xi ∼ N (µi , σi2 )
fX (x) =
p
Y
i=1
1
√
σi 2π
exp{−
(xi − µi )2
}.
2σi2
Considerando l’esempio 2.3, se le due variabili sono indipendenti, la probabilità congiunta dell’evento è il prodotto fra la probabilità che la pressione oculare sia inferiore
a 21 millimetri di mercurio e la probabilità che le ore trascorse in media ogni giorno al
pc siano meno di 8.
Dalla matrice di varianza e covarianza Σ si può ricavare la matrice di correlazione
−1
R = D −1
σ ΣD σ




R=



1
ρ21
..
.
ρp1

ρ12 · · · ρ1p 

1 · · · ρip 

..
.. 
..
.
.
. 

ρp2 · · · 1
con
ρij = ρji , i, j = 1, . . . , p.,
dove D σ è la matrice diagonale di tutte le deviazioni standard. Anche questa è una maσ
trice simmetrica il cui generico elemento ρij = σiijσj è il coefficiente di correlazione lineare fra le variabili Xi e Xj . Se le variabili sono indipendenti, la matrice di correlazione
coincide con una matrice identità R = I di dimensione p.
2.4 Ellissoidi di concentrazione e proprietà della normale multipla
27
2.4 Ellissoidi di concentrazione e proprietà della normale
multipla
Dal momento che Σ è un matrice semidefinita positiva, (x − µ)0 Σ−1 (x − µ) ≥ 0, per
ogni costante c > 0, l’equazione
(x − µ)0 Σ−1 (x − µ) = c2
(2.3)
definisce un ellissoide nello spazio Rp rispetto al quale la funzione di densità fX (x) di
una normale p-dimensionale è costante. Al variare di c, si ha una famiglia di ellissoidi
(detti di uguale concentrazione) che hanno lo stesso centro nel punto µ, mentre la forma e l’orientamento di questi ellissoidi dipende dalla matrice di varianza e covarianza
Σ. Questa viene chiamata la famiglia degli ellissoidi di concentrazione. Tale nome
deriva dal fatto che l’inversa della matrice di varianza e covarianza Σ−1 , viene anche
detta matrice di concentrazione i cui elementi σ ij sono le concetrazioni per ogni coppia
di variabili. Gli elementi σ ij si ottengono invertendo la matrice Σ, pertanto, σ ij 6= σij−1 .
La normale multivariata gode di numerose e peculiari proprietà fra le quali ricordiamo le seguenti:
• se X ∼ N (µ, Σ), allora Y = Σ−1/2 (X − µ) ∼ N (0, I) è una normale multipla a
componenti indipendenti e standardizzate;
√
• se X ∼ N (µ, Σ), allora per ogni vettore c non nullo c0 X 0 cc0 ∼ N (0, 1) è una
normale standard univariata;
• se X ∼ N (µ, Σ), allora la forma quadratica (x − µ)0 Σ−1 (x − µ) ∼ χ2p di distribuisce come una chi-quadrato con p gradi di libertà;
• se X ∼ N (µ, Σ), allora AX e BX sono indipendenti se e solo se AΣB 0 = 0.
Dalle proprietà della normale derivano importanti conseguenze relative alle combinazioni lineari, alle distribuzioni marginali e condizionate di una variabile normale
multipla.
2.5 La normale bivariata
Nel caso particolare in cui p = 2, il vettore X = (X1 , X2 ) si distribuisce come una
normale bivariata di parametri µ = (µ1 , µ2 )0 e

Σ=
σ12
σ12
σ21
σ22

.
La distribuzione normale multivariata
28
Normale bivariata
mu1 = 1
mu2 = −2
sigma1 = 2
sigma2 = 1
rho = 0.6
0.08
y
0.06
0.04
0.02
0
2
1
0
−1
−2
x2
−3
−4
−5
−6
0
−2 −1
−3
−4
1
2
3
4
5
6
x1
Figura 2.3:
La funzione di densità (2.1) si può anche scrivere in modo scalare
fX1 ,X2 (x1 , x2 ) =
1
1
(x1 − µ1 )2
p
−
exp{−
[
2(1 − ρ212 )
σ12
(2π)σ1 σ2 ( 1 − ρ212 )
x1 − µ1 x2 − µ2 (x2 − µ2 )2
]}
−2ρ12
+
σ1
σ2
σ22
dove ρ12 = σσ112σ2 è il coefficiente di correlazione lineare. La normale bivariata assume
una forma campanulare e la sua funzione di densità si può rappresentare in R3 , lo
spazio eluclideo tridimensionale, vedi Fig. 2.3.
Un piano parallelo al piano (x1 , x2 ) interseca orizzontalmente la superficie formando l’ellisse di concentrazione definito in (2.3), tale per cui, in ogni punto (x1 , x2 ) appartente all’ellisse, la funzione di densità fX1 ,X2 (x1 , x2 ) è costante. Un piano perpendicolare al al piano (x1 , x2 ) interseca verticalmente la superficie e, per un fissato valore
di x1 o x2 definisce una funzione di densità univariata condizionata fX2 (x2 |X1 = x1 ) o
fX1 (x1 |X2 = x2 ).
Nella Fig. 2.4 viene rappresentata la famiglia degli ellissi di concentrazione. Dato
il coefficiente di correlazione ρ = 0.6 positivo, l’orientamento degli ellissi evidenzia
un’associazione lineare positiva fra le variabili casuali.
In presenza di coefficiente di correlazione ρ = −0.6 negativo, cambia l’orientamento
della funzione di densità in Fig. 2.5 e di conseguenza quello della famiglia di ellissi di
concentrazione in Fig. 2.6.
Al variare del vettore dei parametri media cambia la posizione, in particolare il
centro degli ellissoidi (vedi Fig. 2.7), mentre al variare della matrice di varianza e
covarianza cambia l’orientamento e la dispersione degli ellissoidi (vedi Fig. 2.8).
2.5 La normale bivariata
29
Ellissi di concentrazione
2
mu1 = 1
mu2 = −2
sigma1 = 2
sigma2 = 1
rho = 0.6
1
0
x2
−1
−2
−3
−4
−5
−6
−3
−2
−1
0
1
x1
2
3
4
5
Figura 2.4:
Normale bivariata
mu1 = 1
mu2 = −2
sigma1 = 2
sigma2 = 1
rho = − 0.6
0.1
0.08
0.06
0.04
0.02
0
2
1
0
−1
−2
x2
−3
−4
−5
−6
0
−2 −1
−4 −3
Figura 2.5:
x1
1
2
3
4
5
6
La distribuzione normale multivariata
30
Ellissi di concentrazione
2
mu1 = 1
mu2 = −2
sigma1 = 2
sigma2 = 1
rho = − 0.6
1
0
x2
−1
−2
−3
−4
−5
−6
−3
−2
−1
0
1
2
x1
3
4
5
1
2
Figura 2.6:
Ellissi di concentrazione
8
7
6
mu1 = −2
mu2 = 4
sigma1 = 2
sigma2 = 1
rho = 0.6
x2
5
4
3
2
1
0
−6
−5
−4
−3
−2
x1
−1
Figura 2.7:
0
2.6 Combinazioni lineari di variabili normali
31
Ellissi di concentrazione
4
mu1 = 1
mu2 = −2
2
sigma1 = 2
sigma2 = 3
rho = 0.4
x2
0
−2
−4
−6
−8
−4
−2
0
x1
2
4
6
Figura 2.8:
Due variabili casuali normali X1 ∼ N (µ1 , σ12 ) e X1 ∼ N (µ2 , σ22 ) sono indipendenti,
se e solo se σ12 = 0 e di conseguenza ρ12 = 0. L’indipendenza fra due variabili si ha se
e solo se la funzione di densità congiunta per la variabile X = (X1 , X2 ) è il prodotto
delle funzioni di densità delle singole variabili.
fX (x) = fX1 (x1 )fX2 (x2 ) =
=
1
1 (x1 − µ1 )2 (x2 − µ2 )2
+
]}.
exp{− [
(2π)σ1 σ2
2
σ12
σ22
Quando le due variabili sono indipendenti, ρ12 = 0, gli assi degli ellissi sono paralleli
agli assi cartesiani (vedi Fig. 2.9).
2.6 Combinazioni lineari di variabili normali
Sia X una variabile casuale di dimensione p che ha distribuzione normale multipla con
parametri media µ e matrice di varianza e covarianza Σ. Consideriamo ora la variabile
casuale multipla Y di dimensione k ottenuta dalla seguente combinazione lineare
Y = AX + b
dove A è una matrice k × p e b è un vettore k × 1. La variabile casuale Y si distribuisce
come una normale multipla con valore atteso e varianza
E(Y ) = Aµ + b,
V (Y ) = AV (X)A0
rispettivamente di dimesioni (k × 1) e (k × k).
La distribuzione normale multivariata
32
Ellissi di concentrazione
2
1
0
x2
−1
−2
−3
−4 mu1 = 1
mu2 = −2
−5 sigma1 = 2
−6
−3
sigma2 = 1
rho = 0
−2
−1
0
1
x1
2
3
4
5
Figura 2.9:
Esempio 9. Sia (X1 , X2 ) un vettore casuale con distribuzione normale di parametri µ0 =
(6.25, −3.58), σ12 = 9.84, σ22 = 4.65 e σ12 = −1.95. Consideriamo la variabile casuale
W = X1 − 2X2 ottenuta con la seguente combinazione lineare


X1
.
W = 1 −2 
X2
La variabile W ha distribuzione normale con media e varianza


6.25
 = 6.25 + 2 ∗ 3.58 = 13.41
µW = 1 −2 
−3.58
2
σW
=
1 −2


9.84
−1.95
−1.95
4.65


1
−2

 = 36.24
Esempio 10. Siano (X1 , X2 ) e (Y1 , Y2 ) vettori aleatori indipendenti entrambi con distri2
buzione normale con parametri µX = (5.25, 8.48), µY = (−1.34, −6.29), σX
= 9.87,
1
2
2
2
σX2 = 2.81, σY1 = 1.26, σY2 = 8.66, σX1 ,X2 = −0.99, σY1 ,Y2 = 1.22. La variabile multipla
W = (W1 , W2 ), con W1 = X1 + X2 − (Y1 + Y2 ) e W2 = (X1 − X2 ) + (Y1 − Y2 ) è ottenuta
con la seguente combinazione lineare




X1



X2 
W1
1 1 −1 −1 


=

W =
.

Y
W2
1 −1 1 −1 
1


Y2
2.7 Distribuzioni marginali e condizionate
33
Quindi, la variabile W ha distribuzione normale multipla con parametri


5.25



 


21.36
1 1 −1 −1  8.48 

.
µW = 
=


1.72
1 −1 1 −1  −1.34 
−6.29


9.87

 −0.99


−1 
 0
0
−0.99
0
2.81
0
0

1
1



  1 −1 


ΣW = 
=



1 −1 1
0
1.26 1.22 
  −1 1 
0
1.22 8.66
−1 −1


1
1



 


23.06 14.46
8.88 1.82 −2.48 −9.88  1 −1 


=
=


14.46 22.14
10.86 −3.8 0.04 −7.44  −1 1 
−1 −1
1
1
−1 −1
0
2.7 Distribuzioni marginali e condizionate
Sia X = (X 1 , X 2 )0 un vettore di variabili casuali normali con parametro media µ =
(µ1 , µ2 ) e matrice di varianza e covarianza


Σ11 Σ12
,
Σ=
Σ21 Σ22
dove, ad esempio, Σ11 indica il blocco della matrice di varianza e covarianza della componente multipla X 1 . La variabile casuale marginale X 1 ha distribuzione
normale
X 1 ∼ N (µ1 , Σ11 ).
Esempio 11. Sia X = (X1 , X2 , X3 ) una variabile normale multipla di parametri µX =
(2.25, −1.89, 0.56), σ12 = 10.25, σ22 = 8.72, σ32 = 15.33, σ12 = −0.45, σ13 = 0, σ23 = 0.99.
La variabile marginale (X1 , X2 ) ha distribuzione normale bivariata di parametri




2.25
10.25 −0.45
 , Σ1,2 = 
.
µ1,2 = 
−1.89
−0.45 8.72
La variabile marginale (X1 , X3 ) ha distribuzione normale bivariata di parametri




2.25
10.25
0
 , Σ1,3 = 
.
µ1,3 = 
0.56
0
15.33
34
La distribuzione normale multivariata
Esempio 12. Sia X = (X1 , X2 ) una variabile normale bivariata di parametri µX =
(13.10, −10.5) e matrice di concentrazione


0.07
−0.04
.
Σ−1 = 
−0.04 0.9
La matrice di varianza e covarianza è




0.9
0.04
0.9
0.04
1 
1
=

=
Σ=
det(A)
0.07
∗
0.9
−
0.04
∗
0.04
0.04 0.07
0.04 0.07

 

1  0.9 0.04   14.66 0.65 
=
=
,
0.0614
0.04 0.07
0.65 1.14
pertanto la variabile marginale X1 ha distribuzione normale con parametri µ1 = 13.10
e σ12 = 14.66.
Inoltre, dato il vettore a blocchi X = (X 1 , X 2 )0 di variabili casuali normali la
variabile X 2,1 = X 2 − Σ21 Σ−1
11 X 1 ha ancora distribuzione normale multipla
−1
X 2,1 ∼ N (µ2 − Σ21 Σ−1
11 µ1 , Σ22 − Σ21 Σ11 Σ12 ).
La variabile casuale condizionata X 2 |X 1 è ancora una variabile casuale normale multipla
−1
X 2 |X 1 ∼ N (µ2 + Σ21 Σ−1
11 (X 1 − µ1 ), Σ22 − Σ21 Σ11 Σ12 ).
Esempio 13. Consideriamo una variabile X multipla di dimensione 4 che ha parametri
µ = (0.22, 4.35, −0.01, 2.25) e


12.33
0.1 −0.32 −0.01


 0.1

2.84
−0.2
−0.15


Σ=
.

 −0.32 −0.2 4.10
0.25


−0.01 −0.15 0.25
8.67
Consideriamo due blocchi di variabili X 1 = (X1 , X2 ) e X 2 = (X3 , X4 ) e i conseguenti
blocchi di parametri associati




0.22
−0.01
 µ2 = 

µ1 = 
4.35
2.25






12.33 0.1
4.10 0.25
−0.32 −0.01
 , Σ22 = 
 , Σ12 = 
 , Σ21 = Σ012 .
Σ11 = 
0.1 2.84
0.25 8.67
−0.2 −0.15
La variabile condizionata e X 2 |X 1 ha dstribuzione normale con matrice di varianza e
covarianza
Σ2|1 = Σ22 − Σ21 Σ−1
11 Σ12 =
2.8 Misure di associazione fra variabili casuali normali

=
4.10 0.25
0.25 8.67


−
−0.32
−0.2
−0.01 −0.15


0.08

35
−0.003
−0.003

4.10 0.25

=
0.25 8.67
0.35


−0.32 −0.01
−0.2
−0.15

=
Per concludere, si consideri il caso più semplice di una normale bivariata Z =
(X, Y ) con µz = (µx , µy )0 e matrice di varianza e covarianza


2
σx σxy
.
Σ=
σyx σy2
La variabile marginale Y ha distribuzione normale, N (µy , σy2 ), analogamente anche
la variabile marginale X ∼ N (µx , σx2 ). Si consideri la variabile casuale condizionata
Y |X = x. Questa è ancora una variabile casuale normale
σx
E(Y |X = x) = µy + ρxy (x − µx ), V (Y |X = x) = σy2 (1 − ρ2xy )
σy
Se le due variabili sono incorrelate, ρxy = 0, e quindi indipendenti, le distribuzioni
marginali e condizionali coincidono poiché
E(Y |X = x) = µy ,
V (Y |X = x) = σy2 .
Esempio 14. Sia (X, Y ) un vettore di variabili casuali che si distribuiscono come una
normale bivariata di parametri
µX = 2.65,
µY = −3.99,
2
σX
= 9.24,
σY2 = 9.32,
σXY = −2.10,
da cui ρXY = σσXXY
= −0.23 La distribuzione condizionata di Y |X = x è ancora una
σY
variabile casuale normale con parametri
µY |X = −3.99 + 0.23
3.04
(x − 2.65),
3.05
σY2 |X = 9.32(1 − 0.232 ) = 8.82.
2.8 Misure di associazione fra variabili casuali normali
Mentre la covarianza σij è una misura di associazione marginale fra le variabili Xi e Xj ,
la concentrazione σ ij misura l’associazione fra le variabili Xi e Xj condizionatamente
a tutte le altre variabili X −(ij) = X \ (Xi ∪ Xj ), cioè per un certo valore fissato per
le altre variabili. Quindi, se la covarianza è nulla, le variabili sono marginalmente
indipendenti
σij = 0 ⇐⇒ Xi⊥⊥Xj ,
se la concentrazione è nulla, le variabili sono condizionalmente indipendenti
σ ij = 0 ⇐⇒ Xi⊥⊥Xj | X −(i,j) .
Lo studio dell’associazione ci consente di interpretare meglio le relazioni esistenti fra
due o più variabili casuali.
La distribuzione normale multivariata
36
Esempio 15. Consideriamo tre variabili casuali, X1 (peso), X2 (altezza), X3 (livello di colesterolo nel sangue). Supponiamo di sapere che, marginalmente (ignorando l’altezza),
il peso e il livello di colesterolo non sono associati. Quindi, all’aumentare del peso, non
possiamo dire nulla in merito alla probabilità che il livello di colesterolo aumenti o diminuisca. Invece, supponiamo di condizionarci alla sottopopolazione degli individui
che hanno la stessa altezza (altezza compresa fra 1.65 e 1.70). Condizionatamente alla
sottopopolazione di coloro che sono alti fra 1.65 e 1.70, il peso e il livello di colesterolo
hanno una misura di associazione molto forte. Questo ci consente di dire che, condizionatamente ad alla classe di altezza considerata, all’aumentare del peso, c’è un’alta
probabilità che il livello di colesterolo nel sangue sia più alto.
La covarianza e la concentrazione sono misure di associazione entrambe non pure, cioè dipendono dall’unità di misura adottata per le variabili. Questi indici hanno
un valore minimo pari a zero, ma non hanno un valore massimo. In entrambi i casi
è possibile far riferimeto ad un indice di associazione relativo, puro, che non dipende
dall’untà di misura, assume valori entro un certo intervallo e quindi ha un valore minimo e un valore massimo. Questi indici consentono di confrontare l’intensità dell’associazione anche fra coppie di variabili che hanno unità di misura diversa, ad esempio,
consentono di confrontare la forza dell’associaione fra le variabili peso e altezza e fra
le variabili tasso di interesse e investimenti.
L’indice relativo di associazione marginale è il coefficiente di correlazione
−1 ≤ ρij ≤ 1,
ρij =
σij
.
σi σj
Quando l’indice assume i valori estremi ρij = ±1 c’è una perfetta associazione lineare
positiva(negativa) fra Xi e Xj , per cui dato un certo valore Xi = xi , si può dire che
Xj = xj con probabilità 1 sulla base di una certa relazione lineare esistente fra le due
variabili. Se ρij = 0, vuol dire che σij = 0, quindi le due variabili sono marginalmente indipendenti, pertanto, dato un certo valore Xi = xi , in termini probabilistici non
possiamo dire nulla sul valore che assumerà Xj .
L’indice relativo di associazione condizionale è il coefficiente di correlazione parziale
σ ij
ij
ij
√
−1 ≤ ρ ≤ 1, ρ =
σ ii σ jj
Quando l’indice assume i valori estremi ρij = ±1 c’è una perfetta associazione lineare
positiva(negativa) fra Xi e Xj condizionatamente al valore assunto dalle altre variabili
X −(i,j) , per cui, dato un certo valore Xi = xi , si può dire che Xj = xj con probabilità
1 sulla base di una certa relazione lineare esistente fra le due variabili, condizionatamente al fatto che le altre variabili hanno assunto un valore X −(i,j) = x−(i,j) . Se ρij = 0,
vuol dire che σ ij = 0, quindi le due variabili sono indipendenti condizionalmente al
valore assunto dalle altre variabili X −(i,j) . Pertanto, dato un certo valore Xi = xi , i
termini probabilistici non possiamo dire nulla sul valore che assumerà Xj .
2.8 Misure di associazione fra variabili casuali normali
37
Considerando l’esempio 15, abbiamo che la correlazione marginale fra il peso e il
livello di colestoro è nulla, ρ13 = 0, quindi le variabili sono marginalmente indipendenti. Invece, condizionatamente all’altezza, le due variabili sono correlate positivamente,
ρ13 > 0. A volte può accadere che date tre variabili X1 , X2 , X3 , due di esse siano indipendenti marginalmente poiché ρ13 = 0 ma non condizionalmente poiché ρ13 6= 0 o
viceversa (ρ13 6= 0, ρ13 = 0).
Esempio 16. Si consideri un vettore X = (X1 , X2 , X3 ) che ha una distribuzione normale
multipla di parametri µ e


 0.375 0.192 0.524 


−1
Σ =  0.192 0.233 0.332  .


0.524 0.332 0.906
Per verificare se ci sono delle indipendenze marginali calcoliamo la matrice di varianza
e covarianza


 13.90 0.00 −8.04 


Σ =  0.00
8.98 −3.29 


−8.04 −3.29 6.96
da cui si ha che X1⊥⊥X2 .
Procedura per invertire una matrice C di dimensioni 3 × 3


1 2 
 1


C= 2
1 2 .


1 −2 1
Prima di tutto si deve calcolare il det(C). Utilizziamo il metodo di Sarrus (valida solo
per matrici 3 × 3): si accostano le prime due colonne alla terza,


1 2 1
1 
 1


 2
1 2 2
1 .


1 −2 1 1 −2
Ora si calcola il determinate di C
det(C) = (1 × 1 × 1) + (1 × 2 × 1) + (2 × 2 × −2)+
−(1 × 1 × 2) − (−2 × 2 × 1) − (1 × 2 × 1) = 1 + 2 − 8 − 2 + 4 − 2 = −5
Si considera poi la trasposta della matrice di partenza


1 
 1 2


C 0 =  1 1 −2 


2 2
1
La distribuzione normale multivariata
38
e per ogni elemento della matrice C 0 si calcola il complemento algebrico hij , imponendo negativi quelli che occupano un posto dispari






1 −2
1 −2
1 1
 = −5, h1,3 = det 
 = 0,
 = 5, h1,2 = −det 
h1,1 = det 
2
1
2
1
2 2
da cui seguono
h2,1 = 0, h22 = −2, h23 = 2, h31 = −5, h32 = 3, h33 = −1.
Consideriamo quindi la matrice dei complementi algebrici


0 
 5 −5


H =  0 −1
2 .


−5
3 −1
Alla fine si ottiene l’inversa
C −1

1
1

H=− 
=
det(C)
5



1
0 
0   −1
 

0 −1
2 = 0
1/5 −2/5  .
 

−5
3 −1
1 −3/5
1/5
5 −5
2.9 Esercizi
1. Sia X = (X1 , X2 , X3 ) un vettore casuale con distribuzione normale multipla di
parametri µ = (7.10, −2.20, 3.01), σ12 = 8.8, σ22 = 5.3, σ32 = 12.4, σ13 = −3.14, σ23 =
2.14 e con X1⊥⊥X2 . Calcolare i parametri della distribuzione W = X1 +1/2X2 −X3 .
2. Siano (X1 , X2 ) e (Y1 , Y2 ) vettori aleatori indipendenti entrambi con distribuzione
2
normale multipla di parametri µX = (3.10, −4.1), µY = (2.20, −3.16), σX
= 8.25,
1
2
2
2
σX2 = 4.6, σY1 = 0.27, σY2 = 2.10, σX1 ,X2 = −2.19, σY1 ,Y2 = 2.41. Calcolare i
parametri della distribuzione multipla W = (W1 , W2 ), con W1 = X1 + 1/2Y2 e
W2 = X2 − 3Y1 .
3. Sia X = (X1 , X2 ) una variabile normale multipla di parametri µ = (7.4, −3.6),
σ12 = 4.10, σ22 = 6.30, σ12 = −1.45.
• calcolare i parametri delle distribuzioni marginali X1 e X2 ;
• calcolare la matrice di concentrazione;
• calcolare i parametri della distribuzioni condizionate X2 |X1 e X1 |X2 .
4. Sia X = (X1 , X2 , X3 ) una variabile normale multipla di parametri µ = (−2.30, +1.89, 0.56),
σ12 = 8.25, σ22 = 10.72, σ32 = 13.33, σ12 = −1.45, σ13 = 1.10, σ23 = 0.99.
2.9 Esercizi
39
• verificare se ci sono indipendenze condizionate fra le variabili;
• calcolare i parametri della distribuzione marginale (X2 , X3 );
• calcolare i parametri della distribuzione condizionata X3 |(X1 , X2 ).
5. Sia X = (X1 , X2 , X3 ) un vettore casuale con distribuzione normale di parametri
µ = (−3.10, 4.20, 1.01), σ12 = 4.8, σ22 = 2.3, σ32 = 1.4, σ13 = −0.14, σ23 = 0 e con
X1⊥⊥X2 .
• calcolare la matrice di correlazione;
• calcolare i 3 coefficienti di correlazione parziale.
6. Consideriamo una variabile X = (X1 , X2 , X3 , X4 ) normale multipla di dimensione 4 che ha parametri µ = (−0.10, 2.35, −0.20, 3.15) e

10.40
−0.1
0.32
0.01




 −0.1 6.84
0.2
−0.15


Σ=
.

 0.32
0.2
5.10
−0.25


−0.01 −0.15 −0.25 4.67
Calcolare i parametri della distribuzione marginale X1 e della della distribuzione
condizionata X1 |X2 .