Statistica 1 A.A. 2015/2016

Transcript

Statistica 1 A.A. 2015/2016
Corso di Laurea in
“Economia e Finanza”
Statistica 1
A.A. 2015/2016
(8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione)
Prof. Luigi Augugliaro
1 / 52
Adattamento di una distribuzione teorica ad una
distribuzione empirica
La valutazione della bontà di adattamento di una distribuzione teorica ad una
distribuzione empirica avviene attraverso le seguenti fasi:
i. in funzione della natura della variabile statistica in esame si sceglie il modello
probabilistico più ideneo;
Pk (n −n∗ )2
ii. valutazione della bontà di adattamento mediante l’indice X 2 = i=1 i n∗ i
i
a) stima dei parametri incogniti del modello probabilistico scelto;
b) calcolo delle frequenze teoriche ni∗ ;
c) valutazione della bontà di adattamento mediante il confronto dell’indice X 2 con
il valore critico k − 1, dove k è il numero di modalità/classi della distribuzione
di frequenza in esame.
2 / 52
Momenti empirici
I momenti empirici, i quali costituiscono la versione empirica dei momenti teorici,
svolgono un ruolo centrale all’interno del metodo dei momenti per la stima dei
parametri di una funzione di distribuzione di probabilità o di una funzione di densità.
I momenti empirici consentono inoltre di definire la versione empirica dell’indice
teorico di asimmetria β1 e dell’indice di curtosi β2 .
3 / 52
Sia (x1 , x2 , . . . , xn ) un campione di numerosità n. Definiamo momento empirico di ordine r e
origine m la quantità
Pn
r
i=1 (xi − m)
µ̂m,r =
.
n
La precedente definizione mostra che il momento empirico di origine 0 e ordine 1 è la media
artimetica
Pn
i=1 xi
= x̄
µ̂0,1 =
n
I momementi empirici di ordine r e origine la media aritmetica x̄ vengono definiti momenti
empirici centrati di ordine r , formalmente
Pn
r
i=1 (xi − x̄)
µ̂r =
.
n
L’espressione precedente mostra che il momento empirico centrato di ordine 2 è l’indice varianza
Pn
2
i=1 (xi − x̄)
µ̂2 =
.
n
4 / 52
Quando si dispone di una distribuzione di frequenza, il momento empirico di ordine
r e origine m viene definito nel seguente modo
Pn
(xi − m)r ni
.
µ̂m,r = i=1
n
dove ni è la frequenza assoluta associata ad xi .
Se si dispone di una distribuzione di frequenza in classi, la formula precedente si
modifica utilizzando i valori centrale di ogni classe, ovvero
Pn
(x c − m)r ni
µ̂m,r = i=1 i
n
5 / 52
Il problema della bontà di adattamento: esempio 1
Un gruppo di 80 studenti è stato sottoposto ad un test attitudinale per l’ammissione
ad un corso di studi. Viene riportata la distribuzione di frequenze della variabile
Numero di errori commessi:
X
0
1
2
3
4
5
6
7
8
9
10
Tot.
ni
1
2
6
9
14
22
12
7
5
1
1
80
Individuare il modello teorico più opportuno da adattare alla distribuzione osservata
e verificarne la bontà di adattamento.
6 / 52
La variabile statistica osservata numero di errori commessi è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili
aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di
Poisson.
Osservazioni:
i. la variabile in esame può assumere solamente un numero finito di valori, ovvero
il numero totale n di domande riportate nel questionario. Notiamo che n non
è noto;
ii. la distribuzione di frequenza sembra mostrare che la variabile considerata non
descrive un evento raro.
Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più
idoneo è il modello binomiale.
7 / 52
Come visto in precedenza, la funzione di distribuzione di probabilità di una
variabile aleatoria binomiale
n
p(x) =
· π x · (1 − π)n−x
x
è indicizzata da due parametri:
n = numero di prove;
π = probabilità dell’evento successo.
Poiché n e π non sono noti è necessario utilizzare un metodo opportuno per la
stima dei due parametri. Il metodo che utilizzeremo prende il nome di metodo
dei momenti.
8 / 52
Il metodo dei momenti è uno dei più vecchi metodi di stima puntuale proposti in
letteratura e venne introdotto da Karl Pearson alla fine del 1800.
Il metodo consiste nell’uguagliare i momenti teorici con i momenti empirici. La
risoluzione del sistema cosı̀ ottenuto fornisce le stime dei parametri incogniti.
Consideriamo quindi il sistema
(
n̂π̂
= x̄
n̂π̂(1 − π̂) = σ 2
dove x̄ e σ 2 sono rispettivamente la media aritmetica e la varianza calcolata sui
dati.
9 / 52
Sostituendo nella seconda equazione n̂π̂ con x̄ si ricava
x̄(1 − π̂) = σ 2
quindi
1 − π̂ =
σ2
x̄
quindi
π̂ = 1 −
σ2
.
x̄
Noto π̂, sostituendo nella prima equazione si ricava
n̂ =
x̄
.
π̂
Poiché n̂ non è un numero intero si utilizza come stima del parametro n sempre
l’intero successivo.
10 / 52
L’esempio1 che segue consente di chiarire perché n̂ deve sempre essere arrotondato all’intero
successivo.
Sia X una variabile aleatoria binomiale di parametri n e π. Dalla tabella
ni
1
2
16
1
20
xi · ni
0
2
32
3
37
37
= 1.85
20
Applicando le formule precedenti si ricava
σ2 =
X
0
1
2
3
Tot.
si ricava che
x̄ =
π̂ = 1 −
σ2
= 0.82
x̄
xi2
0
1
4
9
xi2 · ni
0
2
64
9
75
75
− 1.852 = 0.3275.
20
n̂ =
x̄
= 2.26
π̂
Poiché la variabile X assume massimo valore 3, si deduce che n̂ non può essere arrotondato al
valore 2 dato che n̂ è una stima del numero totale di prove compiute.
1 l’autore
è in debito con il Prof. Mineo e il Prof. Chiodi per l’esempio suggerito.
11 / 52
Con riferimento alla variabile “numero di errori commessi”, dalla seguente tabella
xi
0
1
2
3
4
5
6
7
8
9
10
Tot.
ni
1
2
6
9
14
22
12
7
5
1
1
80
xi2
0
1
4
9
16
25
36
49
64
81
100
xi · ni
0
2
12
27
56
110
72
49
40
9
10
387
xi2 · ni
0
2
24
81
224
550
432
343
320
81
100
2157
si ricava che x̄ = 4.84 e σ 2 = 3.56. Utilizzando le formule precedenti si ricava
π̂ = 1 −
σ2
= 0.26
x̄
n̂ =
x̄
= 18.62
π̂
Utilizzando l’intero successivo si ricava che n̂ = 19.
12 / 52
Sulla base dei precedenti risultati, le probabilità teoriche sono fornite dalla seguente funzione di
distribuzione di probabilità
19
p̂(xi ) =
· 0.26xi · (1 − 0.26)(19−xi )
xi
Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p̂(xi ),
per il totale delle osservazioni, ovvero 80.
x
0
1
2
3
4
5
6
7
8
9
≥ 10
Tot,
ni
1
2
6
9
14
22
12
7
5
1
1
80
p̂(xi )
0.0033
0.0219
0.0692
0.1377
0.1935
0.2040
0.1672
0.1091
0.0575
0.0247
0.0119
1
ni∗
0.2640
1.7520
5.5360
11.0160
15.4800
16.3200
13.3760
8.7280
4.6000
1.9760
0.9520
(ni − ni∗ )
0.7360
0.2480
0.4640
-2.0160
-1.4800
5.6800
-1.3760
-1.7280
0.4000
-0.9760
0.0480
(ni − ni∗ )2
0.5417
0.0615
0.2153
4.0643
2.1904
32.2624
1.8934
2.9860
0.1600
0.9526
0.0023
(ni − ni∗ )2 /ni∗
2.0519
0.0351
0.0389
0.3689
0.1415
1.9769
0.1416
0.3421
0.0348
0.4821
0.0024
5.6162
Poiché X 2 = 5.6162 è inferiore a k − 1 = 11 − 1 = 10 si deduce che il modello binomiale descrive
bene i dati a nostra disposizione.
13 / 52
Il problema della bontà di adattamento: esempio 2
Un gruppo di 76 studenti è stato sottoposto ad un test attitudinale per l’ammissione
ad un corso di studi. Viene riportata la distribuzione di frequenze della variabile
Numero di errori commessi su un totale di 10 domande:
x
0
1
2
3
4
5
6
7
8
9
10
Tot.
n
1
2
5
8
14
20
13
6
4
2
1
76
Individuare il modello teorico più opportuno da adattare alla distribuzione osservata
e verificarne l’adattamento.
14 / 52
La variabile statistica osservata numero di errori commessi su un totale di 10
domande è una variabile quantitativa discreta, quindi la nostra scelta si limita
ai modelli studiati per le variabili aleatorie discrete, ovvero la variabile aleatoria
binomiale e la variabile aleatoria di Poisson.
Osservazioni:
i. la variabile in esame può assumere solamente un numero finito di valori.
Notiamo che n è noto;
ii. la distribuzione di frequenza mostra che la variabile considerata non sembra
descrivere un evento raro.
Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più
idoneo è il modello binomiale.
15 / 52
Come visto in precedenza, la funzione di distribuzione di probabilità di una variabile
aleatoria binomiale
n
p(x) =
· π x · (1 − π)n−x
x
è indicizzata da due parametri:
n = numero di prove;
π = probabilità dell’evento successo.
Dalla descrizione dell’esperimento si deduce che il parametro n è noto ed uguale a
10. Il parametro π è incognito e verrà stimato con il metodo dei momenti.
Uguagliando il valore atteso della variabile aleatoria binomiale alla media aritmetica
E (X ) = n · π̂ = x̄
si ricava che π̂ = x̄n .
16 / 52
La seguente tabella
x
0
1
2
3
4
5
6
7
8
9
10
Tot.
mostra che x̄ =
372
76
n
1
2
5
8
14
20
13
6
4
2
1
76
x ·n
0
2
10
24
56
100
78
42
32
18
10
372
= 4.89 da cui si ricava che π̂ =
4.89
10
= 0.489.
17 / 52
Sulla base dei precedenti risultati, le probabilità teoriche sono fornite dalla seguente
funzione di distribuzione di probabilità
p̂(xi ) =
10
xi
· 0.489xi · (1 − 0.489)(10−xi )
Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità
teoriche, p̂(xi ), per il totale delle osservazioni, ovvero 76.
x
0
1
2
3
4
5
6
7
8
9
10
Tot.
ni
1
2
5
8
14
20
13
6
4
2
1
76
p̂(xi )
0.001
0.012
0.050
0.128
0.214
0.245
0.196
0.107
0.038
0.008
0.001
1
ni∗
0.076
0.912
3.800
9.728
16.264
18.620
14.896
8.132
2.888
0.608
0.076
(ni − ni∗ )
0.924
1.088
1.200
-1.728
-2.264
1.380
-1.896
-2.132
1.112
1.392
0.924
(ni − ni∗ )2
0.854
1.184
1.440
2.986
5.126
1.904
3.595
4.545
1.237
1.938
0.854
(ni − ni∗ )2 /ni∗
11.234
1.298
0.379
0.307
0.315
0.102
0.241
0.559
0.428
3.187
11.234
29.284
18 / 52
Sulla base dei risultati precedenti si ricava che X 2 = 29.284. Poiché X 2 è più grande di
k − 1 = 11 − 1 = 10, i risultati sembrano suggerire che non vi sia un buon adattamento.
L’analisi della tabella utilizzata per il calcolo dell’indice X 2
x
0
1
2
3
4
5
6
7
8
9
10
ni
1
2
5
8
14
20
13
6
4
2
1
p̂i
0.001
0.012
0.050
0.128
0.214
0.245
0.196
0.107
0.038
0.008
0.001
ni∗
0.076
0.912
3.800
9.728
16.264
18.620
14.896
8.132
2.888
0.608
0.076
(ni − ni∗ )
0.924
1.088
1.200
-1.728
-2.264
1.380
-1.896
-2.132
1.112
1.392
0.924
(ni − ni∗ )2
0.854
1.184
1.440
2.986
5.126
1.904
3.595
4.545
1.237
1.938
0.854
(ni − ni∗ )2 /ni∗
11.234
1.298
0.379
0.307
0.315
0.102
0.241
0.559
0.428
3.187
11.234
29.284
mostra che il cattivo adattamento è dovuto solamente ai valori (ni − ni∗ )2 /ni∗ delle prime due
righe e delle ultime due righe.
19 / 52
Il problema della bontà di adattamento: esempio 3
Negli ultimi anni si è assistito ad un’evoluzione delle modalità di accesso wireless ad Internet
sia in termini di affidabilità che di prestazioni. All’interno di questo nuovo settore tecnologico
le femtocelle, piccole stazioni radio domestiche in grado di coprire un ufficio o un appartamento
e gestite in remoto dagli operatori di telefonia mobile, consentono di eliminare i problemi di
trasmissione che si verificano all’interno di luoghi di ridotte dimensioni. Per valutare le prestazioni
di una nuova femtocella, un gruppo di ingegneri ha rilevato per 100 giorni il numero di interferenze
giornaliere, denotato con X , ottenendo la seguente distribuzione di frequenza
X
ni
0
6
1
12
2
25
3
20
4
17
5
8
6
9
7
2
8
1
Sulla base della descrizione del fenomeno oggetto di studio, il candidato scelga il più adeguato
modello probabilistico e ne valuti l’adattamento mediante l’indice più adeguato.
20 / 52
La variabile statistica osservata numero di interferenze giornaliere è una variabile
quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le
variabili aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile
aleatoria di Poisson.
Osservazioni:
i. la variabile in esame può assumere, almeno da un punto di vista teorico, un
numero infinito di valori.
ii. la variabile in esame sembra descrivere un evento raro.
Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più
idoneo è il modello di Poisson.
21 / 52
La funzione di distribuzione di probabilità della variabile aleatoria di Poisson
p(x) =
λx e −λ
x!
dipende da un solo parametro incognito
λ = valore atteso della variabile aleatoria X .
L’applicazione del metodo dei momenti mostra che il parametro λ può essere stimato
tramite la media aritmetica, ovvero
Pk
xi · ni
λ̂ = x̄ = i=1
n
22 / 52
xi
0
1
2
3
4
5
6
7
8
Tot.
La tabella mostra che λ̂ =
Pk
i=1
n
xi ·ni
ni
6
12
25
20
17
8
9
2
1
100
=
306
100
xi · ni
0
12
50
60
68
40
54
14
8
306
= 3.06.
23 / 52
Sulla base della stima del parametro λ, le probabilità teoriche sono fornite dalla seguente funzione
p(xi ) =
3.06xi e −3.06
xi !
Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p(xi ),
per il totale delle osservazioni, ovvero 100.
xi
0
1
2
3
4
5
6
7
8
Tot.
ni
6
12
25
20
17
8
9
2
1
100
p(xi )
0.0469
0.1435
0.2195
0.2239
0.1713
0.1048
0.0535
0.0234
0.0132
1
ni∗
4.69
14.35
21.95
22.39
17.13
10.48
5.35
2.34
1.32
ni − ni∗
1.31
-2.35
3.05
-2.39
-0.13
-2.48
3.65
-0.34
-0.32
(ni − ni∗ )2
1.7161
5.5225
9.3025
5.7121
0.0169
6.1504
13.3225
0.1156
0.1024
(ni − ni∗ )2 /ni∗
0.3659
0.3848
0.4238
0.2551
0.0010
0.5869
2.4902
0.0494
0.0776
4.6347
Poiché l’indice X 2 è inferiore a k − 1 = 9 − 1 = 8 si può ritenere che il modello teorico di Poisson
descrive bene i dati a nostra disposizione.
24 / 52
Di seguito è riportata la distribuzione di frequenza del numero di prodotti realizzati
giornalmente da una data azienda e definiti difettosi.
x
0
1
2
3
4
5
6
7
8
n
11
20
32
24
21
11
12
4
1
Sulla base della descrizione del fenomeno oggetto di studio, il candidato scelga il
più adeguato modello probabilistico e ne valuti l’adattamento mediante l’indice più
adeguato.
25 / 52
La variabile statistica osservata numero di prodotti difettosi è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili
aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di
Poisson.
Osservazioni:
i. la variabile in esame può assumere, almeno da un punto di vista teorico, un
numero infinito di valori.
ii. la variabile in esame sembra descrivere un evento raro.
Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più
idoneo è il modello di Poisson.
26 / 52
La funzione di distribuzione di probabilità della variabile aleatoria di Poisson
p(x) =
λx e −λ
x!
dipende da un solo parametro incognito
λ = valore atteso della variabile aleatoria X .
L’applicazione del metodo dei momenti mostra che il parametro λ può essere stimato
tramite la media aritmetica, ovvero
Pk
xi · ni
λ̂ = x̄ = i=1
n
27 / 52
xi
0
1
2
3
4
5
6
7
8
Tot.
La tabella mostra che λ̂ =
Pk
i=1
n
xi ·ni
ni
11
20
32
24
21
11
12
4
1
136
=
403
136
xi · ni
0
20
64
72
84
55
72
28
8
403
= 2.96.
28 / 52
Sulla base della stima del parametro λ, le probabilità teoriche sono fornite dalla seguente funzione
p(xi ) =
2.96xi e −2.96
xi !
Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p(xi ),
per il totale delle osservazioni, ovvero 100.
xi
0
1
2
3
4
5
6
7
8
Tot.
ni
11
20
32
24
21
11
12
4
1
136
p(xi )
0.0517
0.1531
0.2268
0.2240
0.1659
0.0983
0.0486
0.0206
0.0110
1
ni∗
7.0312
20.8216
30.8448
30.4640
22.5624
13.3688
6.6096
2.8016
1.4960
ni − ni∗
3.9688
-0.8216
1.1552
-6.4640
-1.5624
-2.3688
5.3904
1.1984
-0.4960
(ni − ni∗ )2
15.7514
0.6750
1.3345
41.7833
2.4411
5.6112
29.0564
1.4362
0.2460
(ni − ni∗ )2 /ni∗
2.2402
0.0324
0.0433
1.3716
0.1082
0.4197
4.3961
0.5126
0.1644
9.2885
Poiché l’indice X 2 è inferiore a k − 1 = 9 − 1 = 8 si può ritenere che il modello teorico di Poisson
non descrive bene i dati a nostra disposizione.
29 / 52
Il problema della bontà di adattamento: esempio 4
Di seguito è riportata la distribuzione di frequenza in classi ottenuta mediante un
campione 100 misure sperimentali rilevate in un punto di un circuito elettrico tramite
voltmetro digitale.
classi
0a5
5 a 10
10 a 15
15 a 20
20 a 25
25 a 30
ni
2
16
36
32
13
1
Individuare il modello teorico più opportuno da adattare alla distribuzione osservata
e verificarne l’adattamento.
30 / 52
Poiché la variabile statistica osservata è una variabile quantitativa continua, l’unico
modello teorico di cui possiamo valutare la bontà di adattamento è il modello di
Gauss. La funzione di densità
fX (x; µ, σ) =
(x−µ)2
1
√ e − 2σ2 ,
σ 2π
dipende dai due parametri incogniti
µ = valore atteso della variabile aleatoria X
σ = deviazione standard della variabile aleatoria X .
I parametri µ e σ possono essere stimati attraverso la media aritmetica e la deviazione standard campionaria.
31 / 52
Dalla tabella
classi
0a5
5 a 10
10 a 15
15 a 20
20 a 25
25 a 30
Tot.
ni
2
16
36
32
13
1
100
xic
2.5
7.5
12.5
17.5
22.5
27.5
xic · ni
5.0
120.0
450.0
560.0
292.5
27.5
1455.0
(xic )2
6.25
56.25
156.25
306.25
506.25
756.25
(xic )2 · ni
12.50
900.00
5625.00
9800.00
6581.25
756.25
23675
si ricava
µ̂ =
σ̂
=
Pk
x c ni
x̄ = i=1 i
= 14.55
n
s
Pk
c 2
i=1 (xi ) · ni
− x̄ 2 = 5.005
n
32 / 52
Il calcolo dell’indice X 2 =
ni∗ definite come
Pk
i=1
(ni −ni∗ )2
ni∗
si fonda sull’utilizzo delle frequenze teoriche
ni∗ = n · P(xi < X < xi+1 )
Utilizzando la relazione
P(xi < X < xi+1 ) = P(zi < Z < zi+1 ) = P(Z < zi+1 ) − P(Z < zi ) = F (zi+1 ) − F (zi )
si ricava che per il calcolo delle frequenze teoriche è necessario calcolare i valori
standardizzati
xi − 14.55
xi − µ̂
zi =
=
σ̂
5.005
ed utilizzare il prontuario delle probabilità integrali della distribuzione normale standardizzata.
33 / 52
Dallo studio della seguente tabella si ricava che
xi+1
5
10
15
20
25
Tot.
zi+1
−∞
-1.908
-0.909
0.090
1.089
2.088
+∞
Fi+1
0
0.028
0.182
0.536
0.862
0.982
1
Fi+1 − Fi
ni∗
ni
(ni − ni∗ )
(ni − ni∗ )2
(ni − ni∗ )2 /ni∗
0.028
0.154
0.354
0.326
0.120
0.018
2.8
15.4
35.4
32.6
12
1.8
2
16
36
32
13
1
-0.8
0.6
0.6
-0.6
1.0
-0.8
0.64
0.36
0.36
0.36
1.00
0.64
0.229
0.023
0.010
0.011
0.083
0.356
0.712
X 2 = 0.712. Poiché l’indice X 2 è inferiore al valore k − 1 = 6 − 1 = 5, si deduce
che la distribuzione di Gauss descrive bene la distribuzione osservata.
34 / 52
0.00
0.02
fi
0.04
0.06
0.08
I risultati ottenuti in precedenza trovano conferma nella seguente rappresentazione
grafica.
0
5
10
15
20
25
30
Volt
35 / 52
Il problema della bontà di adattamento: esempio 5
Per valutare il livello di inquinamento di un dato fiume del territorio italiano, un
gruppo di studiosi ha misurato il livello di nitrogeno presente in un punto fissato
del fiume. Di seguito viene riportata la distribuzione di frequenza in classi ottenuta
attraverso un campione di 112 rilevazioni sperimentali.
Classi
130 a 135
135 a 140
140 a 145
145 a 150
150 a 155
155 a 160
160 a 165
165 a 170
Tot.
ni
12
28
34
19
9
5
3
2
112
Individuare il modello teorico più opportuno da adattare alla distribuzione osservata
e verificarne l’adattamento.
36 / 52
fi
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Poiché la variabile statistica osservata è una variabile quantitativa continua, l’unico
modello teorico di cui possiamo valutare la bontà di adattamento è il modello di
Gauss.
130
140
150
160
170
N 2O
Il grafico sembra suggerire che il modello di Gauss non descrive bene i dati a nostra
disposizione. Una conferma a tale ipotesi è ottenuta mediante l’indice X 2 .
37 / 52
La funzione di densità
fX (x; µ, σ) =
(x−µ)2
1
√ e − 2σ2 ,
σ 2π
dipende dai due parametri incogniti
µ = valore atteso della variabile aleatoria X
σ = deviazione standard della variabile aleatoria X .
I parametri µ e σ possono essere stimati attraverso la media aritmetica e la deviazione standard.
38 / 52
Dalla tabella
classi
130 a 135
135 a 140
140 a 145
145 a 150
150 a 155
155 a 160
160 a 165
165 a 170
Tot.
ni
12
28
34
19
9
5
3
2
112
xic
132.5
137.5
142.5
147.5
152.5
157.5
162.5
167.5
xic · ni
1590.0
3850.0
4845.0
2802.5
1372.5
787.5
487.5
335.0
16070
(xic )2
17556.25
18906.25
20306.25
21756.25
23256.25
24806.25
26406.25
28056.25
(xic )2 · ni
210675.00
529375.00
690412.50
413368.75
209306.25
124031.25
79218.75
56112.50
2312500.00
si ricava
Pk
µ̂ =
σ̂
=
x̄ =
s
Pk
c
i=1 xi ni
n
c 2
i=1 (xi )
n
= 143.482
· ni
− x̄ 2 = 7.761
39 / 52
Il calcolo dell’indice X 2 =
ni∗ definite come
Pk
i=1
(ni −ni∗ )2
ni∗
si fonda sull’utilizzo delle frequenze teoriche
ni∗ = n · P(xi < X < xi+1 )
Utilizzando la relazione
P(xi < X < xi+1 ) = P(zi < Z < zi+1 ) = P(Z < zi+1 ) − P(Z < zi ) = F (zi+1 ) − F (zi )
si ricava che per il calcolo delle frequenze teoriche è necessario calcolare i valori
standardizzati
xi − 143.482
xi − µ̂
zi =
=
σ̂
7.761
ed utilizzare il prontuario delle probabilità integrali della distribuzione normale standardizzata.
40 / 52
Poiché ni∗ = n[F (zi+1 ) − F (zi )], si ricava che il calcolo dell’indice X 2 si basa sulla
seguente tabella
xi+1
zi+1
Fi+1
Fi+1 − Fi
ni∗
ni
(ni − ni∗ )
(ni − ni∗ )2
135
140
145
150
155
160
165
−∞
-1.093
-0.449
0.196
0.840
1.484
2.128
2.773
+∞
0
0.137
0.327
0.578
0.800
0.931
0.983
0.997
1
0.137
0.190
0.251
0.222
0.131
0.052
0.014
0.003
15.344
21.280
28.112
24.864
14.672
5.824
1.568
0.336
12
28
34
19
9
5
3
2
-3.344
6.720
5.888
-5.864
-5.672
-0.824
1.432
1.664
11.182
45.158
34.669
34.386
32.172
0.679
2.051
2.769
Tot.
(ni −ni∗ )2
ni∗
0.729
2.122
1.233
1.383
2.193
0.117
1.308
8.241
17.325
da cui si ricava che X 2 = 17.325. Poiché l’indice X 2 è superiore a k −1 = 8−1 = 7
si deduce che la distribuzione di Gauss non descrive bene la distribuzione osservata.
41 / 52
fi
0.00
0.01
0.02
0.03
0.04
0.05
0.06
I risultati ottenuti in precedenza trovano conferma nella seguente rappresentazione
grafica
120
130
140
150
160
170
N 2O
dalla quale si evence che il modello di Gauss non descrive bene i dati a nostra
disposizione.
42 / 52
Esercizi
I test ADAC sono tra le più affidabili e attendibili prove sugli pneumatici. L’ultimo test condotto
ha avuto come obiettivo il confronto di 3 differenti prodotti, indicati con P1 , P2 e P3 , con un
prodotto di riferimento, indicato con P0 . Il test è stato ripetuto 100 volte per ogni prodotto e
nella seguente tabella sono riportati i risultati ottenuti. Il test fornisce un valore reale compreso
tra 0 e 100 e i valori crescenti indicano un miglioramento nella performance dei pneumatici.
Tabella: Risultati del test ADAC
P0
P1
P2
P3
0 a 20
33
26
4
7
20 a 40
46
27
12
6
Test
40 a 60
13
25
61
17
60 a 80
7
13
15
43
80 a 100
1
9
8
27
Tot.
100
100
100
100
Sulla base della descrizione del fenomeno in esame scegliere il più opportuno modello
probabilistico e verificarne l’adattamento alle distribuzioni dei prodotti P0 , P1 , P2 e P3 .
43 / 52
Un’azienda di credito ha ripartito un campione di 140 dei propri clienti in due categorie definite
solvente e insolvente. La tabella seguente riporta la distribuzione dei finanziamenti concessi
dall’azienda di credito in funzione delle due categorie considerate
Cliente
solvente
insolvente
Finanziamenti concessi (dati per migliaia di euro)
1 a 1.5
1.5 a 2
2 a 2.5
2.5 a 3
3 a 3.5
6
25
37
21
3
25
13
7
2
1
Sulla base dei dati riportati in tabella, si scelga il modello probabilistico più adeguato per
descrivere la distribuzione di frequenze dei clienti di tipo solvente e se ne valuti la bontà di
adattamento mendiante adeguato indice statistico.
44 / 52
Per valutare le prestazioni di un nuovo processore per personal computer, il direttore del reparto
ricerca e sviluppo ha ripetuto, sullo stesso processore, cento volte lo stesso benchmark
prestazionale. Il benchmark utilizzato fornisce un valore continuo e di seguito è riportata la
distribuzione di frequenze in classi dei risultati ottenuti.
Tabella: Distribuzione di frequenze in classi dei risultati del benchmark considerato
Benchmark
0a1
1a2
2a3
3a4
4a5
Tot.
ni
4
26
47
20
3
100
Il candidato valuti la bontà di adattamento al modello probabilistico ritenuto più adeguato per i
dati riportati in tabella. Commentare adeguatamente i risultati ottenuti.
45 / 52
Di seguito è riportata la distribuzione di frequenze in classi delle sovvenzioni cambiarie concesse
da una data banca ai propri clienti.
Tabella: Distribuzione di frequenze in classi delle sovvenzioni cambiarie (dati in migliaia
di euro)
Sovvenzioni
< 200
200 a 300
300 a 500
500 a 700
700 a 1000
Tot.
ni
8
11
19
21
17
76
Il candidato valuti la bontà di adattamento al modello probabilistico ritenuto più adeguato per i
dati riportati in tabella.
46 / 52
Per valutare la qualità del proprio processo produttivo, l’addetto al controllo della qualità di
un’azienda produttrice di lampadine estrae con reimmisione, dal totale della produzione mensile,
trenta campioni di numerosità dieci. Su ogni campione viene rilevato il numero di lampadine
difettose. La tabella riporta i dati rilevati.
Tabella: Numero di lampadine difettose rilevato su trenta campioni
3
3
3
1
0
2
2
2
2
0
2
2
2
2
2
3
2
3
0
1
3
3
2
4
1
3
3
2
4
2
i. Il candidato costruisca e rappresenti graficamente la distribuzione di frequenze della variabile
“numero di lampadine difettose”.
ii. Il candidato adatti alla variabile “numero di lampadine difettose” il modello teorico che
ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice.
47 / 52
Si sono rilevati i guasti meccanici riportati da 40 autovetture FIAT e da 60 autovetture OPEL,
possedute da un’azienda di spedizioni, nei primi 50.000 km di percorrenza. I dati sono
sintetizzati nella seguente tabella che riporta le frequenze assolute:
N. Guasti
0
1
2
3
4
Fiat
9
13
10
5
3
Opel
33
10
6
1
0
Si adatti alla variabile osservata, distintamente per i due tipi di autovettura, la variabile casuale
che si ritiene più opportuna, e si calcoli, su ciascuna delle due distribuzioni, un indice di bontà di
adattamento. Su quale delle due distribuzioni l’adattamento si può ritenere migliore?
48 / 52
In un’impresa di soccorso stradale sono state registrate le richieste giornaliere di intervento, su
un arco di 100 giorni, ottenendo la seguente distribuzione di frequenza:
interventi
n
0
14
1
22
2
31
3
17
4
8
5
5
6
2
7
1
Il candidato adatti alla variabile “numero di interventi giornalieri” il modello teorico che ritiene
più opportuno e ne valuti l’adattamento attraverso un adeguato indice.
49 / 52
In un campione casuale di 130 circuiti elettronici è stato osservato il numero dei difetti presenti.
La distribuzione di frequenza del numero dei difetti è riportata nella seguente tabella:
n. di difetti
frequenza osservata
0
25
1
54
2
35
3
9
4
3
5
2
6
1
7
1
Il candidato adatti alla variabile “numero di difetti” il modello teorico che ritiene più opportuno e
ne valuti l’adattamento attraverso un adeguato indice.
50 / 52
La seguente distribuzione descrive il numero di particelle rilasciate durante il decadimento
radioattivo del Polonio, in intervalli di 72 secondi:
x
n
0
57
1
203
2
383
3
525
4
532
5
408
6
273
7
139
8
45
9
27
10
10
11
4
Il candidato adatti alla variabile considerata il modello teorico che ritiene più opportuno e ne
valuti l’adattamento attraverso un adeguato indice.
51 / 52
La seguente tabella mostra la distribuzione di frequenze del numero dei parti, rilevato in una
clinica, nell’arco di un periodo di 100 giorni:
n. parti
0
1
2
3
4
5
6
7
frequenze
17
32
29
15
3
2
1
1
Il candidato adatti alla variabile considerata il modello teorico che ritiene più opportuno e ne
valuti l’adattamento attraverso un adeguato indice.
52 / 52