Descrittiva 3

Transcript

Descrittiva 3
DIPENDENZA E ASSOCIAZIONE
DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI
Sinora abbiamo considerato l’analisi di un’unica variabile
per volta. Tuttavia, le rilevazioni su un’unità statistica
sono in generale relative ad un insieme di variabili (confronto con la matrice di dati vista nella prima lezione).
Ci limiteremo a considerare il caso di due variabili.
Siano X e Y due variabili che possono essere entrambe
qualitative, entrambe quantitative, oppure una di un tipo
e una di un altro.
Distribuzioni doppie unitarie
(dati bivariati in forma grezza)
Unità
(X, Y )
1
2
...
i
...
N
(x1, y1)
(x2, y2)
...
(xi, yi)
...
(xN , yN )
Coppia di modalità osservate
su ciascuna unità statistica
In questo caso su ogni unità statistica rileviamo una coppia di modalità, quella di X e quella di Y .
Esempi:
Per ogni persona, sesso e età; per ogni azienda, settore
e fatturato; per ogni nucleo familiare, reddito e consumo
mensile.
84
Alcuni dati sul Titanic
Dopo il disastro, una commissione d’inchiesta del British Board of Trade ha compilato una lista di tutti i 1316
passeggeri con alcune informazioni aggiuntive riguardanti: l’esito (salvato, non salvato), la classe (I,II, III) in cui
viaggiavano, il sesso, l’età, ecc..
Ci limitiamo a considerare le informazioni sull’esito e la
classe.
I dati bivariati in forma grezza saranno del tipo
Passeggero Classe
Esito
nome 1
II
salvato
nome 2
III non salvato
nome 3
I
non salvato
...
...
nome 1316 III
salvato
85
Una prima sintesi che possiamo operare consiste nel costruire una tabella del tipo
Esito
Classe
I
II III Totale
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
499
817
1316
chiamata Tabella a doppia entrata o Tabella di
contingenza.
Ci dice, ad esempio, che 203 è il numero di passeggeri
che viaggiavano in I classe e sono sopravvissuti. Analogamente, 528 è il numero di passeggeri che viaggiavano
in III classe e non sono sopravvissuti. Ci dice ancora che
499 è il numero complessivo di passeggeri che sono sopravvissuti, a prescindere dalla classe, e, similmente, che
285 è il numero di passeggeri che viaggiavano in II classe,
a prescindere dall’esito del disastro.
86
Una tabella di contingenza contiene diverse informazioni.
Parte centrale della tabella: Distribuzione di frequenza assoluta congiunta delle due variabili
Esito
Classe
I
II
III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325
285
706
Totale
499
817
1316
I bordi della tabella: Distribuzione di frequenza assoluta marginale (di una sola variabile)
Esito
Classe
I
II III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
Totale
499
817
325 285 706 1316
Distribuzione marginale della variabile Esito, a prescindere dalla variabile Classe.
87
Esito
Classe
I
II
III
Salvato
203
Non Salvato 122
Totale
118
167
178
528
Totale
499
817
325 285 706 1316
Distribuzione marginale della variabile Classe, a prescindere dalla variabile Esito.
Una sola riga (o colonna): Distribuzione di frequenza assoluta di una variabile condizionata ad una modalità dell’altra variabile
Esito
Classe
I
II
III
Totale
Salvato
203 118 178
499
Non Salvato 122
Totale
325
167
528
817
285
706
1316
Distribuzione della variabile Classe condizionata alla modalità “Salvato” della variabile Esito: guardiamo alla distribuzione delle frequenze assolute della variabile Classe
limitando l’attenzione ai sopravvissuti.
88
Esito
I
Classe
II
III
118
167
178
528
499
817
325 285
706
1316
Salvato
203
Non Salvato 122
Totale
Totale
Distribuzione della variabile Esito condizionata alla modalità “II classe” della variabile Classe: guardiamo alla
distribuzione delle frequenze assolute della variabile Esito
limitando l’attenzione ai viaggiatori della II classe.
N. B.: Le distribuzioni marginali e condizionate sono
distribuzioni univariate, per le quali valgono tutte le
considerazioni fatte nella prima parte del corso.
89
STRUTTURA GENERALE DI UNA
TABELLA A DOPPIA ENTRATA
Variabile X con modalità x1, x2, . . . , xr
Variabile Y con modalità y1, y2, . . . , ys
X
y1
y2
Y
. . . yj . . . ys Totale
x1
x2
...
xi
...
xr
n11
n21
...
ni1
...
nr1
n12
n22
...
ni2
...
nr2
...
...
...
...
...
...
n1j
n2j
...
nij
...
nrj
...
...
...
...
...
...
n1s
n2s
...
nis
...
nrs
n1·
n2·
...
ni·
...
nr·
Totale n·1 n·2 . . . n·j . . . n·s
N
Quando una o entrambe le variabili sono continue o discrete con molte modalità, le righe e/o le colonne possono
anche corrispondere alle classi di suddivisione della variabile.
90
Distribuzione di frequenza assoluta congiunta
(parte centrale della tabella)
X
y1
y2
Y
. . . yj . . . ys
x1
x2
...
xi
...
xr
n11
n21
...
ni1
...
nr1
n12
n22
...
ni2
...
nr2
...
...
...
...
...
...
n1j
n2j
...
nij
...
nrj
...
...
...
...
...
...
n1s
n2s
...
nis
...
nrs
N
nij = numero di unità con la modalità i–esima di X e
j–esima di Y = frequenza assoluta congiunta della coppia
(xi, yj ).
Pr Ps
i=1
j=1 nij
=N
91
Distribuzioni di frequenza assoluta marginali
(bordi della tabella)
X
x1
x2
...
xi
...
xr
n1·
n2·
...
ni·
...
nr·
Totale N
ni·=numero di unità che hanno il valore xi della variabile
X senza tener conto del valore della Y = frequenza assoluta marginale di xi
P
ni· = sj=1 nij
Y
y1
y2
...
yj
...
ys
n·1
n·2
...
n·j
...
n·s
Totale N
n·j =numero di unità che hanno il valore yj della variabile Y senza tener conto del valore della X= frequenza
assoluta marginale di yj
P
n·j = ri=1 nij
92
Distribuzione di frequenza assoluta di X condizionata alla modalità yj di Y (colonna j–esima
della tabella)
Si denota con X|Y = yj o X|yj
X
x1
x2
...
xi
...
xr
n1j
n2j
...
nij
...
nrj
Totale n·j
È una distribuzione univariata. Una tabella a doppia entrata contiene s distribuzioni condizionate di X.
Distribuzione di frequenza assoluta di Y condizionata alla modalità xi di X (riga i–esima della
tabella)
Si denota con Y |X = xi o Y |xi
Y
y1
y2
...
yj
...
ys
ni1
ni2
...
nij
...
nis
Totale ni·
È una distribuzione univariata. Una tabella a doppia
entrata contiene r distribuzioni condizionate di Y .
93
DISTRIBUZIONI DI FREQUENZA
RELATIVA
X
y1
y2
Y
. . . yj . . . ys ToT
x1
x2
...
xi
...
xr
f11
f21
...
fi1
...
fr1
f12
f22
...
fi2
...
fr2
...
...
...
...
...
...
f1j
f2j
...
fij
...
frj
...
...
...
...
...
...
f1s
f2s
...
fis
...
frs
f1·
f2·
...
fi·
...
fr·
frequenze
⇐ relative
marginali
di X
ToT f·1 f·2 . . . f·j . . . f·s 1
⇑
frequenze relative marginali di Y
n
fij =frequenza relativa congiunta della coppia (xi, yj )= Nij
Pr Ps
j=1 fij = 1
i=1
P
fi·=frequenza relativa marginale di xi= nNi· = sj=1 fij
P
n
f·j =frequenza relativa marginale di yj = N·j = ri=1 fij
Esempio TITANIC
Esito
Classe
I
II III
Salvato
0,15 0,09 0,14
Non Salvato 0,09 0,13 0,40
Totale
0,25 0,22 0,54
94
Totale
0,38
0,62
1
Distribuzione di frequenza relativa di X condizionata alla modalità yj di Y
X
freq. ass.
X
freq. rel.
x1
x2
...
xi
...
xr
n1j
n2j
...
nij
...
nrj
x1
x2
...
xi
...
xr
n1j /n·j
n2j /n·j
...
nij /n·j
...
nrj /n·j
Totale
n·j
Totale
1
ATTENZIONE: Le frequenze relative congiunte fij
NON sono le frequenze relative condizionate!!
Si noti che nij /n·j = fij /f·j .
Esempio TITANIC
Classe
Esito
I
II III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
95
Esito
Classe
I
II III
Salvato
0,62 0,41 0,25
Non Salvato 0,38 0,59 0,75
Totale
1
1
1
Distribuzione di frequenza relativa di Y condizionata alla modalità xi di X
Y
freq. ass.
Y
freq. rel.
y1
y2
...
yj
...
ys
ni1
ni2
...
nij
...
nis
y1
y2
...
yj
...
ys
ni1/ni·
ni2/ni·
...
nij /ni·
...
nis/ni·
Totale
ni·
Totale
1
Si noti che nij /ni· = fij /fi·
Esempio TITANIC
Esito
Classe
I
II III Totale
Salvato
203 118 178
Non Salvato 122 167 528
Esito
Classe
I
II III
Salvato
0,41 0,24 0,36
Non Salvato 0,15 0,20 0,65
96
499
817
Totale
1
1
Medie e varianze marginali e condizionate
Si consideri il caso in cui X è quantitativa. Poiché le distribuzioni marginali e condizionate di X sono univariate,
possiamo calcolare medie e varianze marginali e condizionate.
Marginali
P
P
M (X) = N1 ri=1 xi · ni· = ri=1 xi · fi·
P
V (X) = N1 ri=1 x2i · ni· − M 2(X)
Condizionate
Pr
1
M (X|Y = yj ) = n·j i=1 xinij
P
V (X|Y = yj ) = n1·j ri=1 xinij − M 2(X|Y = yj )
calcolabili per ogni j = 1, . . . , s
Analogo ragionamento per Y , se è quantitativa.
Esempio
Voto all’esame
Sesso 26 28
30
Totale
M
4 2
4
10
F
1 8
1
10
Totale 5 10
5
20
=28
M(Voto)= 26·5+28·10+30·5
20
2
2
2
V(Voto)= 26 ·5+2820·10+30 ·5 − 282=2
= 28
M(Voto|Sesso=M)= 26·4+28·2+30·4
10
= 28
M(Voto|Sesso=F)= 26·1+28·8+30·1
10
2
2
2
V(Voto|Sesso=M)= 26 ·4+2810·2+30 ·4 − 282 = 3, 2
2
2
2
V(Voto|Sesso=F)= 26 ·1+2810·8+30 ·1 − 282 = 0, 8
97
DIPENDENZA E INDIPENDENZA
STATISTICA (IN DISTRIBUZIONE) TRA
DUE VARIABILI
Spesso due caratteri vengono osservati insieme per vedere
se vi è tra loro dipendenza. Si vuole, allora, usare i dati
della tabella a doppia entrata per stabilire se tra X e Y
c’è dipendenza o se sono tra loro indipendenti.
Riprendiamo l’esempio del TITANIC.
Le distribuzioni di frequenza relativa della variabile Esito
condizionate alle tre modalità della variabile Classe sono:
Classe
Esito
I
II III freq. rel. marg. di Esito
Salvato
0,62 0,41 0,25
0,38
0,62
Non Salvato 0,38 0,59 0,75
Totale
1
1
1
È evidente che l’Esito dipende dalla Classe. Si noti, infatti, che in I classe si è salvato il 62% dei passeggeri,
mentre in III classe solo il 25% dei passeggeri è sopravvissuto (viene da pensare che i viaggiatori della I classe
abbiano avuto un trattamento preferenziale).
N.B.: Il confronto tra le tre distribuzioni condizionate
ha senso solo in termini di frequenze relative; non
ha senso in termini di frequenze assolute, poiché le marginali della Classe sono diverse. Ad esempio, è sbagliato
dire che si sono salvate più persone nella III classe rispetto
alla II classe (178 contro 118), dato che 178 rappresenta
solo il 25% del numero complessivo di passeggeri della
98
III classe, mentre 118 rappresenta ben il 41% del numero
complessivo di passeggeri della II classe.
Se l’Esito e la Classe fossero indipendenti, ci aspetteremmo di osservare delle distribuzioni di frequenza relativa
condizionate fatte in questo modo:
Classe
Esito
I
II III freq. rel. marg. di Esito
Salvato
0,38 0,38 0,38
0,38
Non Salvato 0,62 0,62 0,62
0,62
Totale
1
1
1
ossia
1. tutte uguali tra loro
2. uguali alla distribuzione di frequenza relativa marginale di Esito, dato che questa non tiene conto della
suddivisione in classi.
Questo ragionamento intuitivo si formalizza nella definizione di indipendenza statistica (o in distribuzione).
DEFINIZIONE: X è statisticamente indipendente da Y se le s distribuzioni di frequenza relativa
di X condizionate alle modalità di Y sono uguali alla
distribuzione di frequenza relativa marginale di X:
nij ni·
=
per ogni i = 1, . . . , r e per ogni j = 1, . . . , s
n·j
N
99
L’indipendenza è un concetto simmetrico. Vale, infatti, la seguente proposizione.
PROPOSIZIONE: Se X è indipendente da Y , allora
Y è indipendente da X e viceversa.
DIMOSTRAZIONE:
X indipendente da Y equivale a
nij ni·
i = 1, . . . , r j = 1, . . . , s
=
n·j
N
da cui
nij n·j
=
i = 1, . . . , r j = 1, . . . , s
ni·
N
ossia le r distribuzioni di frequenza relativa di Y condizionate alle modalità di X sono tutte uguali alla distribuzione di frequenza relativa marginale di Y e quindi Y
è statisticamente indipendente da X.
Analogamente, Y indipendente da X equivale a
nij n·j
i = 1, . . . , r j = 1, . . . , s
=
ni·
N
da cui
nij ni·
i = 1, . . . , r j = 1, . . . , s
=
n·j
N
ossia le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono tutte uguali alla distribuzione di frequenza relativa marginale di X e quindi X
è statisticamente indipendente da Y .
In base a questa proposizione possiamo tranquillamente parlare di indipendenza di X e Y senza specificare la
“direzione”.
100
In sintesi, X e Y sono indipendenti se le distribuzioni di
frequenza relativa di X|Y sono uguali alla distribuzione
di frequenza relativa marginale di X e se le distribuzioni
di frequenza relativa di Y |X sono uguali alla distribuzione di frequenza relativa marginale di Y .
Dalla definizione di indipendenza, dire che X e Y sono
statisticamente indipendenti equivale a
ni· × n·j
N
ossia ogni frequenza assoluta congiunta nij è pari al prodotto del totale della riga i e il totale della colonna j
diviso per il numero complessivo di unità.
nij =
101
DIPENDENZA
Abbiamo visto cosa significa indipendenza tra X e Y .
Se X e Y non sono indipendenti, allora vi è dipendenza.
Casi estremi di dipendenza:
MASSIMA ASSOCIAZIONE (DIPENDENZA
PERFETTA): Y dipende perfettamente da X se in
corrispondenza ad ogni modalità di X si verifica una sola
modalità di Y (ossia, per ogni i si ha un solo j tale che
nij 6= 0).
INTERDIPENDENZA PERFETTA: se ciascuna
variabile dipende perfettamente dall’altra.
Esempio
X
x1
x2
x3
x4
y1
0
13
0
0
Y
y2
4
0
15
0
y3
0
0
0
7
Y dipende perfettamente da X, ma X non dipende perfettamente da Y .
L’interdipendenza perfetta è possibile solo in tabelle ....
La dipendenza perfetta è rara, si osserva esclusivamente
quando tra le due variabili esiste una dipendenza deterministica (una delle due variabile è funzione dell’altra).
102
MISURA DI ASSOCIAZIONE IN UNA
TABELLA A DOPPIA ENTRATA:
L’INDICE CHI–QUADRATO
Come valutiamo se una tabella doppia osservata è vicina
o lontana dalla situazione di indipendenza?
Possiamo calcolare i valori teorici delle frequenze assolute
congiunte che si avrebbero nel caso in cui X e Y fossero
indipendenti:
ni·n·j
n∗ij =
N
e confrontarli con le frequenze assolute congiunte effettivamente osservate nij . Se rileviamo delle differenze notevoli tra le due frequenze abbiamo l’indicazione che tra le
due variabili non c’è indipendenza.
Potremmo pensare di costruire le differenze
cij = nij − n∗ij
e ottenere una misura dell’associazione nella tabella osservata dall’indice
r X
s
X
cij
i=1 j=1
Il problema è che questo indice è sempre identicamente
uguale a 0, dato che
r X
s
r X
s
X
X
n∗ij
nij = N =
i=1 j=1
i=1 j=1
Infatti,
r X
s
X
i=1 j=1
n∗ij =
r X
s
X
ni·n·j
i=1 j=1
N
r
s
1 X X
N2
=
=N
ni·
n·j =
N i=1
N
j=1
103
Possiamo ovviare a questo problema usando c2ij al posto
di cij .
Il principale indice utilizzato per misurare l’associazione
in una tabella è l’indice chi–quadrato:
s
r X
s
r X
2
X
X
(nij − n∗ij )2
c
ij
2
χ =
∗ =
∗
n
n
ij
ij
i=1 j=1
i=1 j=1
Caratteristiche dell’indice chi–quadrato
1. χ2 ≥ 0
2. χ2 = 0 nel caso di indipendenza tra X e Y
3. χ2 è tanto più grande quanto più ci allontaniamo dal
caso di indipendenza
4. può essere calcolato anche attraverso la formula
r X
s
X
n2ij
2
χ = N(
− 1)
n
n
i=1 j=1 i· ·j
5. è un indice di dipendenza simmetrico: non tiene
conto della direzione della dipendenza (causa–effetto)
e rimane invariato se scambiamo il ruolo di X e Y .
104
Il valore dell’indice chi–quadrato dipende anche da N e
dalla dimensione della tabella (r e s). Per facilitarne
l’interpretazione, si ricorre spesso a indici normalizzati
(compresi tra 0 e 1) derivati da χ2. In particolare, è
frequente l’uso di
√
χ2
e
V = T
T =
N · min(r − 1, s − 1)
Sono entrambi compresi tra 0 e 1. Entrambi sono pari
a 1 in caso di interdipendenza perfetta. T tende a
sottovalutare il livello di dipendenza, questo problema è
un pò attenuato con l’uso di V .
Esempi di calcolo dell’indice chi–quadrato
1. IL TITINIC
Classe
I
II III Totale
Esito
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
499
817
1316
La tabella delle frequenze teoriche sotto l’ipotesi di indipendenza, n∗ij = ni·n·j /N , è
Esito
Classe
II
I
III
Totale
Salvato
499·325
1316
= 123, 2 108,1
499·706
1316
= 267, 7
499
Non Salvato
817·325
1316
= 201, 8 176,9
817·706
1316
= 438, 3
817
Totale
325
285
105
706
1316
Il confronto tra frequenze teoriche e frequenze osservate è
istruttivo. Ad esempio, ci indica che, senza la preferenza
accordata ai passeggeri di I classe, si sarebbero salvati un
centinaio di passeggeri di III classe in più.
(528 − 438, 3)2
(203 − 123, 2)2 (118 − 108, 1)2
+
+. . .+
= 133, 05
χ =
123, 2
108, 1
438, 3
s
133, 05
V =
= 0, 32
1316 · min(3 − 1, 2 − 1)
2
che indica un certo grado di associazione tra Classe ed
Esito.
2. ATTEGGIAMENTO RIGUARDO L’IMMIGRAZIONE DI EXTRA–COMUNITARI
Area di provenienza
Atteggiamento Nord Centro Sud Isole Totale
Favorevoli
Contrari
80
286
103
187
182
238
16
74
381
785
Totale
366
290
420
90
1166
Costruiamo le 4 distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza
106
Area di provenienza
freq. rel. marg.
Atteggiamento Nord Centro Sud Isole di Atteggiamento
Favorevoli
Contrari
0,219
0,781
0,355
0,645
Totale
1
1
0,433 0,178
0,567 0,822
1
1
0,327
0,633
1
Da cui notiamo, ad esempio, che la percentuale di favorevoli al Sud è superiore sia rispetto al Nord che rispetto
al Centro. Questo ci fa pensare che ci sia una qualche
forma di associazione tra le due variabili.
Ricordiamo che, se le due variabili fossero indipendenti,
le distribuzioni di frequenza relativa dell’Atteggiamento
condizionate all’Area di provenienza dovrebbero essere
uguali alla distribuzione di frequenza relativa marginale
dell’Atteggiamento, ossia, si dovrebbe avere una tabella
del tipo
Area di provenienza
freq. rel. marg.
Atteggiamento Nord Centro Sud Isole di Atteggiamento
Favorevoli
Contrari
0,327
0,633
0,327
0,633
Totale
1
1
0,327 0,327
0,633 0,633
1
1
0,327
0,633
1
Per valutare il grado di associazione all’interno della tabella osservata, costruiamo l’indice chi–quadrato, partendo dalla tabella delle frequenze teoriche sotto l’ipotesi di
indipendenza che risulta essere
107
Area di provenienza
Atteggiamento Nord Centro Sud Isole Totale
Favorevoli
Contrari
119,6
246,4
94,8
195,2
Totale
366
290
137,2 29,4
282,8 60,6
420
90
381
785
1166
Possiamo calcolare l’indice chi–quadrato:
(80 − 119, 6)2 (103 − 94, 8)2
(74 − 60, 6)2
χ =
+
+. . .+
= 51, 3
199, 6
94, 8
60, 6
2
e da questo
V =
s
51, 3
= 0, 22
1166 · min(2 − 1, 4 − 1)
che indica una forma di associazione tra le due variabili,
seppure non molto forte.
108
Talvolta sono possibili associazioni spurie, ossia la presenza di un legame statistico empirico tra due variabili
logicamente indipendenti. Spesso sono dovute ad una
variabile latente.
Esempio
-R=reddito basso,
+R=reddito medio-alto
<165=statura< 165 cm,
≥165=statura ≥ 165cm
Maschi
-R +R
<165 9 61
≥ 165 42 293
V=0,004
Femmine
-R +R
<165 36 34
≥ 165 13 12
V=0,005
Totale
-R +R
<165 45 95
≥ 165 55 305
V=0,19
Si provi a calcolare l’indice chi–quadrato tra Sesso e Reddito.
109
Esercizi
Si usino i dati del TITANIC.
1. Potrebbe venire il dubbio che la preferenza accordata
alla I classe sia dipesa dal fatto che in I classe viaggiava
un numero più elevato di donne e di bambini (associazione spuria) e quindi che quello che abbiamo osservato
era semplicemente una manifestazione di una “politica di
salvataggio” del tipo “prima le donne e i bambini”.
La seguente tabella si riferisce solo alle donne e ai bimbi.
Esito
Classe
I
II III
Salvato
146 105 103
Non Salvato 4 13 141
Lo studenti commenti questa nuova tabella e calcoli
ˆ la distribuzione di frequenza relativa congiunta;
ˆ le distribuzioni di frequenza relativa marginale di en-
trambe le variabili;
ˆ le distribuzioni di frequenza relativa dell’Esito condi-
zionate alla Classe;
ˆ l’indice chi–quadrato.
2. Lo studente ricostruisca dai dati forniti la distribuzione
congiunta di Esito e Classe riferita solo ai maschi e la
analizzi con le tecniche studiate.
110
DIPENDENZA DI UNA VARIABILE
QUANTITATIVA DA UNA QUALITATIVA
Spesso si osserva una variabile quantitativa Y classificata
secondo le modalità di una variabile qualitativa X e l’interesse principale riguarda l’analisi del comportamento di
quella quantitativa.
Più precisamente, si vuole verificare se l’analisi di Y può
essere approfondita quando, invece di analizzare l’intero
insieme delle sue osservazioni indistintamente, si considerano queste suddivise in classi identificate dalle modalità
della variabile qualitativa.
Ad esempio, la distribuzione del reddito pro–capite (Y )
per provincia italiana (X), oppure il peso (Y ) per uomini/donne (X).
In questi contesti, i dati sono organizzati per gruppi distinti:
X
x1
y11
...
...
...
...
yn1,1
x2
x3
y12 y13
...
...
...
...
...
...
...
...
...
...
... y
n3 ,3
yn2,3
111
...
xr
. . . y1r
. . . ...
. . . ...
. . . ...
. . . ...
. . . ...
. . . ynr ,r
Si noti che le y della tabella non sono frequenze, ma le
osservazioni della variabile.
Ciascuna colonna della tabella ci dà la distribuzione di Y
condizionata a ciascuna delle modalità di X: Y |X = xi.
Per verificare quanto è utile la suddivisione in gruppi,
bisogna sapere se queste distribuzioni condizionate sono
simili oppore no. Vogliamo quindi rappresentare in modo
sintentico ciascuna distribuzione Y |X = xi.
Due delle soluzioni possibili sono:
1. Costruzione di una tabella a doppia entrata
Possiamo raggruppare la variabile Y in s classi. In
tal modo, otteniamo una tabella a doppia entrata
per la quale possiamo verificare se c’è indipendenza
guardando al valore dell’indice chi–quadrato.
La tabella avrà la seguente forma
Y
y1 — y2 . . . ys−1 — ys Totale
X
y0 — y1
x1
x2
...
xr
n11
n21
...
nr1
n12
n22
...
nr2
...
...
...
...
n1s
n2s
...
nrs
n1·
n2·
...
nr·
Totale
n·1
n·2
...
n·s
N
112
2. Rappresentazione grafica di ciascuna distribuzione condizionata
Possiamo rappresentare graficamente ciascuna distribuzione condizionata Y |X = xi, ad esempio tramite
istogramma, e confrontare i diversi istogrammi. Se
tutti gli istogrammi sono uguali, allora le distribuzioni condizionate sono uguali e non vi è dipendenza
statistica tra Y e X.
Tuttavia, il confronto degli istogrammi potrebbe essere laborioso e di difficile interpretazione. Può risultare più agevole un confronto dei boxplot. Ancora, se
tutti i boxplot sono uguali, Y e X sono indipendenti.
113
25
20
15
Numero di insetti
10
5
0
A
B
C
D
E
F
Tipo di Spray
Esempio di confronto mediante boxplot: distribuzione del numero di insetti rilevati su unità agricole trattate con 6 differenti tipi di insetticida (A, B, C, D,
E e F). Non solo dal confonto possiamo concludere
che c’è dipendenza del numero di insetti Y dal tipo
di insetticida adottato X, ma possiamo anche notare
che alcuni insetticidi (C, D e E) hanno un’efficacia
nettamente superiore agli altri.
114