Statistica 1 A.A. 2015/2016

Transcript

Statistica 1 A.A. 2015/2016
Corso di Laurea in
“Economia e Finanza”
Statistica 1
A.A. 2015/2016
(8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione)
Prof. Luigi Augugliaro
1 / 24
Rilevazione congiunta di due caratteri statistici: le tabelle
a doppia entrata
Introduzione
Nella prima parte del corso ci siamo occupati della descrizione di un carattere statistico X e abbiamo introdotto i principali strumenti di base della statistica descrittiva
univariata.
In questa seconda parte ci occuperemo dell’analisi derivante dalla rilevazione congiunta
di due caratteri statistici, indicati genericamente con X e Y . Questo tipo di analisi
prende il nome di analisi bivariata.
Gli strumenti di analisi statistica bivariata si dividono in due grosse categorie:
1. analisi simmetrica: in questo caso i due caratteri X e Y sono sullo stesso
piano logico, ovvero siamo interessati a studiare come X ed Y si influenzano
reciprocamente.
2. analisi asimmetrica: in questo caso i due caratteri X e Y non sono sullo
stesso piano logico, ovvero siamo interessati a studiare come X influenza Y o
viceversa.
2 / 24
Le tabelle a doppia entrata: la prima forma di sintesi dei dati bivariati
Supponiamo di rilevare su di un campione di 20 individui il carattere qualifica professionale e il
carattere sesso. Di seguito è riportata la matrice dei dati.
Unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Qualifica
Dirigente
Dirigente
Dirigente
Dirigente
Dirigente
Impiegato
Impiegato
Impiegato
Impiegato
Impiegato
Insegnante
Insegnante
Insegnante
Insegnante
Insegnante
Medico
Medico
Medico
Medico
Medico
Sesso
M
M
M
F
M
M
M
M
M
F
F
M
M
F
F
F
M
F
F
M
3 / 24
Un primo strumento che consente una rappresentazione più compatta ed informativa dei dati è la
tabella a doppia entrata anche nota come distribuzione doppia di frequenza.
Professione
Dirigente
Impiegato
Insegnante
Medico
Tot.
Sesso
F.
M.
1
4
1
4
3
2
3
2
8
12
Tot.
5
5
5
5
20
La distribuzione doppia di frequenza mostra, ad esempio, che un lavoratore è caratterizzato dalla
qualifica professionale “Dirigente” e dal sesso “Femmina” mentre 4 lavoratori sono caratterizzati
dalla qualifica professionale “Dirigente” e dal sesso “Maschio”.
Il campione è costituito da 5 dirigenti, 5 impiegati, 5 insegnanti e 5 medici; delle venti unità
campionarie rilevate, 8 sono donne e 12 sono uomini.
4 / 24
In uno studio sull’orario di lavoro dei dirigenti d’impresa, sono stati intervistati 30 dirigenti. Durante
l’intervista sono state rilevate le variabili “fatturato” ed “ore di lavoro settimanale”. Di seguito si
riportano i valori rilevati.
ore
fat.
46
24.03
46
25.12
48
25.97
49
25.17
51
23.08
53
25.07
53
25.22
54
28.66
54
31.66
55
24.96
ore
fat.
55
27.81
56
32.22
57
27.04
58
30.33
58
24.79
62
34.13
63
32.72
63
28.81
63
33.04
63
31.18
ore
fat.
64
30.61
64
26.98
64
32.93
65
33.49
66
30.49
67
29.48
68
26.49
69
30.56
69
26.75
72
25.81
Sulla base dei precedenti valori il candidato costruisca la distribuzione doppia di frequenza utilizzando tre classi di ampiezza costante sia per la variabile “fatturato” che per la variabile “ore di
lavoro settimanale”.
5 / 24
Ore
(45,55]
(55,65]
(65,75]
Tot.
(20,25]
3
1
0
4
fatturato
(25,30] (30,35]
7
1
3
9
4
2
14
12
Tot.
11
13
6
30
6 / 24
Eserzio. Un gruppo di ricercatori è interessato a studiare come i consumi finali pro capite siano
influenzati dal prodotto nazionale lordo a prezzi correnti. Sulla base dei seguenti dati
PNL
Cons
6.07
11.46
6.59
11.20
6.95
16.39
7.07
13.22
7.48
5.33
8.28
10.52
PNL
Cons
8.82
5.30
9.20
9.49
11.18
8.28
12.20
11.04
12.76
19.00
12.94
6.97
PNL
Cons
13.64
6.58
13.91
14.61
14.92
14.13
14.93
5.75
15.36
9.24
16.06
9.31
PNL
Cons
16.23
14.74
16.96
9.33
17.17
7.85
17.59
16.83
17.66
15.20
17.70
7.84
PNL
Cons
17.70
7.21
17.94
13.12
18.38
14.95
18.93
12.81
19.32
16.45
19.91
8.15
il candidato costruisca la distribuzione doppia di frequenza ottenuta utilizzando tre classi di ampiezza costante sia per la variabile “prodotto interno lordo” che per la variabile “consumi finali”. Quando la distribuzione doppia di frequenza è ottenuta utilizzando due variabili quantitative
continue prende il nome di tavola di correlazione.
7 / 24
PNL
5 a 10
10 a 15
15 a 20
Tot.
5 a 10
3
4
7
14
consumi
10 a 15 15 a 20
4
1
3
1
4
3
11
5
Tot.
8
8
14
30
8 / 24
Formalmente una distribuzione doppia di frequenza può essere rappresentata nel seguente modo:
X /Y
x1
x2
...
xi
...
xr
Tot.
y1
n11
n21
...
ni1
...
nr 1
n.1
y2
n12
n22
...
ni2
...
nr 2
n.2
...
...
...
...
...
...
...
...
yj
n1j
n2j
...
nij
...
nrj
n.j
...
...
...
...
...
...
...
...
yc
n1c
n2c
...
nic
...
nrc
n.c
Tot.
n1.
n2.
...
ni.
...
nr .
n
r = numero di righe e c = numero di colonne;
xi è l’i-esima generica modalita di X mentre yj è la j-esima modalità di Y ;
nij viene definita frequenza assoluta congiunta ij, ovvero il numero di unità campionarie
portatrici della modalità xi e yj ;
P
ni. = cj=1 nij è definita i-esima frequenza marginale della variabile X ;
P
n.j = ri=1 nij è definita j-esima frequenza marginale della variabile Y ;
Pr
P
n = i=1 ni. = cj=1 n.j è la numerosità campionaria.
9 / 24
Data una distribuzione doppia di frequenza
X /Y
x1
x2
..
.
xi
..
.
xr
Tot.
y1
n11
n21
..
.
ni1
..
.
nr 1
n.1
y2
n12
n22
..
.
ni2
..
.
nr 2
n.2
...
...
...
..
.
...
..
.
...
...
yj
n1j
n2j
..
.
nij
..
.
nrj
n.j
...
...
...
..
.
...
..
.
...
...
yc
n1c
n2c
..
.
nic
..
.
nrc
n.c
Tot.
n1.
n2.
..
.
ni.
..
.
nr .
n
la colonna e la riga in cui vengono riportati i totali identificano, rispettivamente, la distribuzione
marginale di X e la distribuzione marginale di Y .
L’i-esima riga della distribuzione doppia di frequenza identifica la distribuzione di frequenze
condizionata della variabile Y data la modalità xi della variabile X .
La j-esima colonna della distribuzione doppia di frequenza identifica la distribuzione di frequenze
condizionata della variabile X data la modalità yj della variabile Y .
10 / 24
La seguente distribuzione doppia di frequenza è ottenuta rilevando su di un campione di soggetti
la variabile “altezza” e la variabile “peso”.
Altezza
160 a 165
165 a 170
170 a 175
175 a 180
Tot.
40 a 50
6
3
1
0
10
Peso
50 a 75
27
34
29
9
99
75 a 90
10
13
37
52
112
Tot.
43
50
67
61
221
individuare:
i. la numerosità campionaria;
ii. la distribuzione marginale della variabile “Altezza” ed utilizzare la più adeguata rappresentazione grafica;
iii. la distribuzione marginale della variabile “Peso” ed utilizzare la più adeguata rappresentazione
grafica;
iv. la distribuzione condizionata della variabile “Peso” dato che un individuo ha un altezza
compresa tra 160 e 170 cm;
v. la distribuzione condizionata della variabile “Altezza” dato che un individuo ha un peso
compresa tra 50 e 75 Kg;
11 / 24
Analogamente a quanto visto per le distribuzioni di frequenze semplice, anche per le distribuzioni di
frequenze doppie è possibile definire le distribuzioni doppie di frequenze relative e le distribuzioni
doppie di frequenze percentuali rispetto al totale n. In questo caso definiremo fij = nij /n e
pij = fij · 100.
Con riferimento all’esempio precedente, di seguito è riportata la distribuzione doppia di frequenze
relative rispetto al totale.
Tabella: Distribuzione doppia di frequenze relative rispetto al totale
Altezza
160 a 165
165 a 170
170 a 175
175 a 180
Tot.
40 a 50
0.027
0.014
0.005
0.000
0.046
Peso
50 a 75
0.122
0.154
0.131
0.041
0.448
75 a 90
0.045
0.059
0.167
0.235
0.506
Tot.
0.194
0.227
0.303
0.276
1.000
12 / 24
Nell’analisi di una distribuzione doppia di frequenza, svolgono un ruolo fondamentale le distribuzioni di freguenze relative condizionate di X dato Y e di Y dato X . Le distribuzioni relative
condizionate sono ottenute rapportando le distribuzione condizionate ai corrispondenti totali di
riga o colonna.
La seguente tabella riporta le distribuzioni di frequenze relative condizionate di Y dato le modalità
della variabile X .
X /Y
x1
x2
...
xi
...
xr
y1
n11 /n1.
n21 /n2.
...
ni1 /ni.
...
nr 1 /nr .
n.1 /n
y2
n12 /n1.
n22 /n2.
...
ni2 /ni.
...
nr 2 /nr .
n.2 /n
...
...
...
...
...
...
...
...
yj
n1j /n1.
n2j /n2.
...
nij /ni.
...
nrj /nr .
n.j /n
...
...
...
...
...
...
...
...
yc
n1c /n1.
n2c /n2.
...
nic /ni.
...
nrc /nr .
n.c /n
Tot.
n1. /n1. = 1
n2. /n2. = 1
...
ni. /ni. = 1
...
nr . /nr . = 1
n/n = 1
13 / 24
Con riferimento all’esempio precedente, la seguente tabella riporta le distribuzioni condizionate
della variabile “Peso” data la variabile “Altezza”.
Altezza
160 a 165
165 a 170
170 a 175
175 a 180
40 a 50
0.139
0.060
0.015
0.000
0.045
Peso
50 a 75
0.628
0.680
0.433
0.148
0.448
75 a 90
0.233
0.260
0.552
0.852
0.507
Tot.
1
1
1
1
1
14 / 24
Analogamente a quanto fatto in precedenza, le distribuzioni relative condizionate di X dato le
modalità della variabile Y sono ottenute attraverso la seguente tabella
X /Y
x1
x2
...
xi
...
xr
Tot.
y1
n11 /n.1
n21 /n.1
...
ni1 /n.1
...
nr 1 /n.1
n.1 /n.1 = 1
y2
n12 /n.2
n22 /n.2
...
ni2 /n.2
...
nr 2 /n.2
n.2 /n.2 = 1
...
...
...
...
...
...
...
...
yj
n1j /n.j
n2j /n.j
...
nij /n.j
...
nrj /n.j
n.j /n.j = 1
...
...
...
...
...
...
...
...
yc
n1c /n.c
n2c /n.c
...
nic /n.c
...
nrc /n.c
n.c /n.c = 1
n1. /n
n2. /n
...
ni. /n
...
nr . /n
n/n = 1
15 / 24
Con riferimento all’esempio precedente, la seguente tabella riporta le distribuzioni relative condizionate della variabile “Altezza” data la variabile “Peso”.
Altezza
160 a 165
165 a 170
170 a 175
175 a 180
Tot.
40 a 50
0.6
0.3
0.1
0.0
1.0
Peso
50 a 75
0.273
0.343
0.293
0.091
1.000
75 a 90
0.090
0.116
0.330
0.464
1.000
0.195
0.226
0.303
0.276
1.000
16 / 24
Misure di sintesi condizionate e marginali
Analogamente a quanto visto nella prima parte del corso, le distribuzioni di frequenze condizionate di Y dato X (o di X dato Y ) possono essere sintetizzate e
confrontate tramite opportune misure di sintesi (valore medio, indici da variabilità
relativa, indici di forma). Dato che le misure di sintesi vengono calcolate sulle distribuzioni condizionate essere prendono il nome di misure di sintesi condizionate
(ad esempio possiamo calcolare le medie condizionate, le mediane condizionate, gli
scarti quadratici medi condizionati, etc.).
Quando vogliamo sintetizzare e confrontare la distribuzione marginale di X e/o Y ,
le corrispondenti misure di sintesi vengono definite marginali (ad esempio le medie
marginali, le mediane marginali, gli scarti quadratici medi marginali, etc.).
17 / 24
Esempio. Media aritmetica condizionata di un carattere quantitativo X rispetto alla j-esima
modalità del carattere Y
Pr
i=1 xi nij
Ma (X |Y = yj ) =
n.j
e la varianza condizionata di un carattere quantitativo X rispetto alla j-esima modalità del
carattere Y
Pr
2
i=1 (xi − Ma (X |Y = yj )) nij
σX2 |Y =yj =
n.j
Se Y è un carattere quantitativo, analogamente a quanto fatto in precedenza possiamo definire
la media aritmetica condizionata di Y data l’i-esima modalità di X , formalmente
Ma (Y |X = xi ) =
c
X
yj nij
ni.
j=1
e la varianza condizionata di Y data l’i-esima modalità di X , formalmente
Pc
2
j=1 (yj − Ma (Y |X = xi )) nij
σY2 |X =xi =
ni.
18 / 24
Con riferimento all’esempio precedente calcolare la media e lo scarto quadratico medio della
variabile Altezza dato che il peso è compreso tra 40 e 50 Kg.
Sulla base della seguente tabella
Classi
160 a 165
165 a 170
170 a 175
175 a 180
Tot.
si ricava
ni1
6
3
1
0
10
xic
162.50
167.50
172.50
177.50
xic ni1
975.00
502.50
172.50
0.00
1650
(xic )2
26406.25
28056.25
29756.25
31506.25
(xic )2 ni1
158437.50
84168.75
29756.25
0.00
272362.50
1650
Ma (X |Y = y1 ) =
= 165 cm
10
r
272362.50
σX |Y =y1 =
− 1652 = 3.35 cm
10
I dati mostrano che colore che hanno un peso compreso tra 40 e 50 Kg sono caratterizzati da una
altezza media uguale a 165 cm e da uno scarto quadratico medio uguale a 3.35 cm.
19 / 24
Con riferimento all’esempio precedente, calcolare la media e lo scarto quadratico medio della
variabile Peso dato che l’altezza è compresa tra 160 e 165 cm.
Sulla base della seguente tabella
Classi
40 a 50
50 a 75
75 a 90
Tot.
si ricava
n1j
6
27
10
43
yjc
45.0
62.5
82.5
yjc n1j
270.0
1687.5
825.0
2782.5
(yjc )2
2025.00
3906.25
6806.25
(yjc )2 n1j
12150.00
105468.75
68062.50
185681.25
2782.5
Ma (Y |X = x1 ) =
= 64.71 Kg
43
r
185681.25
σY |X =x1 =
− 64.712 = 11.44 Kg
43
I dati mostrano che, colore che hanno una altezza compresa tra 160 e 165 cm, sono caratterizzati
da un peso medio uguale a 64.71 Kg e da uno scarto quadratico medio uguale a 11.44 Kg.
20 / 24
Completare lo studio della precedente tabella calcolando tutte le possibili medie e
varianze condizionate e commentare i risultati ottenuti.
21 / 24
Oltre alla media e alla varianza condizionata, altre misure di sintesi per l’analisi di
una distribuzione doppia di frequenze sono la media marginale e la varianza
marginale, ovvero la media e la varianza calcolate mediante l’utilizzo delle
distribuzioni di frequenze marginali; formalmente
Pr
Pr
xi ni.
(xi − Ma (X ))2 ni.
Ma (X ) = i=1
σX2 = i=1
n
n
mentre per Y si ricava
Pc
Pc
Ma (Y ) =
j=1 yj n.j
n
σY2
=
j=1 (yj
− Ma (Y ))2 n.j
n
22 / 24
Con riferimento all’esercizio precedente, dalla seguente tabella
Classi
160 a 165
165 a 170
170 a 175
175 a 180
Tot,
ni1
43
50
67
61
221
xic
162.5
167.5
172.5
177.5
xic ni1
6987.5
8375.0
11557.5
10827.5
37747,5
(xic )2
26406.25
28056.25
29756.25
31506.25
(xic )2 ni1
1135468.75
1402812.50
1993668.75
1921881.25
6453831,25
si ricava che la media e lo scarto quadratico medio marginali della variabile “altezza” sono
rispettivamente
r
37747.5
6453831.25
= 170.80 cm
σX =
− 170.802 = 5.5 cm
Ma (X ) =
221
221
I dati mostrano che i 221 soggetti sono caratterizzati da una altezza media pari a 170.80 cm e da
uno scarto quadratico medio pari a 5.5 cm.
23 / 24
Se consideriamo la variabile “peso”, dalla seguente tabella
Classi
40 a 50
50 a 75
75 a 90
Tot.
n1j
10
99
112
221
yjc
45.0
62.5
82.5
yjc n1j
450.0
6187.5
9240.0
15877.5
(yjc )2
2025.00
3906.25
6806.25
(yjc )2 n1j
20250.00
386718.75
762300.00
1169268.75
si ricava che la media e lo scarto quadratico medio marginali della variabile “peso” sono rispettivamente
r
15877.5
1169268.75
Ma (Y ) =
= 71.84 Kg
σY =
− 71.842 = 11.39 Kg
221
221
I dati mostrano che i 221 soggetti sono caratterizzati da un peso medio pari a 71.84 Kg e da uno
scarto quadratico medio pari a 11.39 Kg.
24 / 24