Esercizi di Statistica - UniFI

Transcript

Esercizi di Statistica - UniFI
Esercizi di Statistica
per gli studenti di
Scienze Politiche
Università di Firenze
Esercizi svolti da una selezione di compiti degli Esami
scritti di Statistica
VERSIONE PROVVISORIA Maggio 2003
A cura di
L. Matrone
F.Mealli
L.Mencarini
A.Petrucci
1
Ai nostri studenti dei corsi di Statistica
Con questa nuova versione delle dispense di esercizi svolti di Statistica ci proponiamo, ancora una
volta, l’obiettivo di aiutarvi a superare la prova scritta dell’esame di Statistica che tante
preoccupazioni, non del tutto fondate, vi crea.
Ed è proprio per tener conto di queste vostre preoccupazioni che, sin dalla prima stesura, abbiamo
puntato non a presentare semplicemente degli esercizi di statistica ma ad illustrare lo svolgimento di
esercizi di statistica proposti in alcune sedute d’esame; inoltre la scelta degli esercizi raccolti è stata
fatta in modo da fornire un panorama completo dei possibili temi d’esame sia dal punto di vista
formale che da quello sostanziale.
In questa nuova edizione, ampliata ed integrata, per ciascun problema sono stati messi in evidenza i
presupposti teorici e concettuali e sono stati indicati i dettagli del procedimento di calcolo necessario
per la determinazione dei risultati numerici richiesti nel tentativo di far comprendere come le
formalizzazioni algebriche delle varie misure statistiche si traducano in valutazioni numeriche a
partire dai dati disponibili.
Gli esercizi proposti sono stati raggrupparti secondo grandi temi: a) statistica descrittiva, b)
probabilità e variabili casuali, c) inferenza statistica, in modo da rendere più agevole la consultazione.
Naturalmente non vi sfuggirà che i molti richiami teorici costituiscono un utile aiuto per fornire le
risposte ai quesiti della cosiddetta Parte teorica della prova d’esame.
Vogliamo concludere questo nostro messaggio con un invito a voi tutti di segnalarci, non solo gli
eventuali errori, ma tutto ciò che vi sembrerebbe utile aggiungere e/o eliminare per migliorare questo
supporto didattico e renderlo più utile per la vostra preparazione all’esame.
Buon lavoro!
I docenti di Statistica della Facoltà di Scienze Politiche dell’Università di Firenze
L.Matrone
[email protected]
F.Mealli
[email protected]
L.Mencarini
[email protected]
A.Petrucci
[email protected]
2
A. ESERCIZI DI STATISTICA DESCRITTIVA
Esercizio 1A.
Si consideri la seguente distribuzione delle industrie tessili secondo il fatturato annuo in milioni di
vecchie lire:
Fatturato
Aziende
[300,500]
20
]500,800]
45
]800,1500]
56
]1500,2000]
50
a) Determinare la distribuzione di frequenze relative.
Le frequenze relative si ottengono dividendo ciascuna frequenza assoluta per la numerosità del
4
collettivo
N =∑ ni =20455650=171
i =1
Classi di
modalità
Frequenze
assolute
] X i , X i1 ]
ni
[300,500]
20
]500,800]
]800,1500]
]1500,2000]
Totale
45
56
50
171
Frequenze
relative
ni
N
20
=0.117
171
0.2632
0.3275
0.2924
Ampiezza di
classe
i= X i1− X i
500-300=200
800-500=300
1500-800=700
2000-1500=500
Densità di
frequenza
ni
d i=
i
Valore centrale
20
=0.10
200
0.15
0.08
0.10
300500
=400
2
650
1150
1750
c i=
X i X i1
2
1.0000
b) Qual è la percentuale di industrie con fatturato annuo superiore a 500 milioni e non superiore
a 1.5 miliardi?
Il numero di industrie con tali caratteristiche risulta dalla somma delle frequenze assolute delle classi ]
4556
⋅100=59.06 %
500,800] e ]800,1500]. La percentuale richiesta è quindi
171
c)
Calcolare la classe modale del fatturato
E' la classe con la densita di frequenza più elevata, che risulta essere la classe ]500, 800].
d) Calcolare il fatturato medio
Essendo le modalità raggruppate in classi è necessario fare qualche ipotesi sulla distribuzione del
fatturato all'interno di ciascuna classe. Si può ipotizzare, ad esempio, che le frequenze siano
concentrate sul valore centrale c i di ogni classe, oppure che il fatturato medio in ogni classe sia pari
al valore centrale. Entrambe queste ipotesi conducono al calcolo del fatturato medio come:
4
X =
1
∑ c n =400⋅20650⋅451150⋅561750⋅50171=1106.14
N i=1 i i
3
Esercizio 2A.
I tentativi di suicidio nel 1995 secondo l'età sono descritti dalla seguente distribuzione di frequenza:
Età
] X i , X i1 ]
N° tentativi
ni
[14,18[
[18,25[
[25,45[
[45,65[
[65,75]
133
499
1400
885
409
Si sa inoltre che la somma delle età di coloro che hanno tentato il suicidio è pari a 141233 anni,
N
ovvero
∑ x i =141233 .
i=1
a) Calcolare l'età media
5
La numerosità del collettivo è N =∑ ni =3326 . Inoltre, poiché la somma delle età di coloro che
i =1
hanno tentato il suicidio è uguale a 141233, l'età media sarà data da
X =
141233
=42.46
3326
In questo caso non è necessaria alcuna ipotesi semplificatrice per il calcolo della media come invece è stato necessario
nell'esercizio 1 in quanto è noto l'ammontare complessivo del carattere età nel collettivo.
b) Calcolare la percentuale di minorenni che hanno tentato il suicidio
Essendo i minorenni coloro che hanno età nella classe [14,18[ , tale percentuale risulta pari a
133
⋅100=3.99 %
3326
c)
Calcolare la percentuale di coloro che hanno tentato il suicidio di età non inferiore a 18 anni e
minore di 65 anni
Il numero di persone che soddisfano la condizione richiesta è dato dalla somma delle frequenze
assolute delle tre classi di età [18,25[, [25,45[ e [45,65[. Dunque la percentuale è pari a
4991400885
⋅100=83.7%
3326
d) Calcolare la classe modale
Essendo le classi di ampiezza diversa, è necessario individuare la classe a cui corrisponde la densità di
frequenza più elevata:
4
Classi di età
] X i , X i1 ]
Frequenze assolute
ni
Ampiezza intervallo
i= X i1− X i
Densità di frequenza
ni
d i=
i
[14, 18[
[18, 25[
[25, 45[
[45, 65[
[65, 75]
Totale
133
499
1400
885
409
3326
4
7
20
20
10
33.25
71.29
70.00.00
44.25
40.90
La classe modale è dunque la classe [18,25[.
Esercizio 3A.
Sia data la variabile X = reddito mensile in milioni di vecchie lire, rilevata su un collettivo di
famiglie come segue:
Reddito
Xi
N° di famiglie
ni
1
2
3
4
1
0
5
4
a) Trovare la moda del reddito
La moda è la modalità che si presenta più frequentemente (ovvero che presenta frequenza assoluta più
elevata); il reddito modale è dunque pari a 3 milioni.
b) Trovare lo scarto quadratico medio del reddito
Lo scarto quadratico medio σ, o deviazione standard, è la media quadratica degli scarti dalla media µ
=
La media del reddito è data da

1
N
4
∑  X i −2 n i
4
dove
i =1
=
N =∑ ni=10
i=1
1⋅12⋅03⋅54⋅4 32
= =3.2
10
10
e quindi
1−3.22⋅1 2−3.22⋅03−3.22⋅54−3.22⋅4
 =
=0.76
10
2
ed infine
=  0.76=0.87
5
Ricordando che la varianza si può anche determinare utilizzando la relazione:
k
2 =
1
∑ X 2 n −2
N i=1 i i
si ottiene lo stesso risultato eseguendo i calcoli per la determinazione della varianza come segue:
2 =
c)
1 2⋅12 2⋅032⋅54 2⋅4
14564
−3.22=
−10.24=0.76
10
10
Trovare lo scarto quadratico medio del reddito nell'ipotesi che ad ogni famiglia venga dato un
aumento di stipendio di 500 mila lire
Lo scarto quadratico medio, così come la varianza, è invariante per traslazione, ovvero se viene
aggiunta una costante α a ciascuna determinazione del carattere lo scarto quadratico medio non
cambia:
  X = X =0.87
Si ricordi, più in generale, che date le costanti α e β si ha
 2 X =2  2X
e di conseguenza
  X =∣∣ X
d) Trovare il rapporto di concentrazione per il reddito

ovvero come rapporto fra la differenza media
2
semplice e il valore che tale indice di variabilità assume nel caso di massima concentrazione.
La differenza media semplice è data da
Il rapporto di concentrazione è definito come: R=
k
k
∑ ∑∣X i −X j∣n i n j
= i =1
j =1
N  N −1
Per determinare i k 2 addendi (k=4 numero di modalità) che compaiono al numeratore
dell'espressione precedente si possono costruire due tabelle nelle quali vengono calcolate le differenze
∣X i− X j∣ ed i prodotti n i n j :
∣X i− X j∣
Xj
ni n j
nj
Xi
1
2
3
4
ni
1
0
5
4
1
2
3
4
0
1
2
3
1
0
1
2
2
1
0
1
3
2
1
0
1
0
5
4
1
0
5
4
0
0
0
0
5
0
25
20
4
0
20
16
6
A questo punto il numeratore della differenza media semplice si ottiene moltiplicando elemento per
elemento le due tabelle precedenti e sommando i prodotti ottenuti:
=
0⋅11⋅02⋅53⋅41⋅00⋅01⋅02⋅02⋅51⋅00⋅251⋅203⋅42⋅01⋅200⋅16
1010−1
=
84
=0.993
90
e quindi il rapporto di concentrazione è dato da
R=
0.993
=0.146
2⋅3.2
Esercizio 4A.
Nell'a.a. 1988-89, il numero degli iscritti in corso all'Università in Italia per Facoltà è riportato
nella tabella che segue:
Facoltà
Studenti in corso (in migliaia)
Scientifiche
146
Mediche
100
Ingegneria
193
Economiche-Giuridiche-Sociali
520
Letterarie
239
Come è evidente dai dati, l'unità statistica di rilevazione è la Facoltà ed il carattere è il “Numero di
studenti in corso”, i valori forniti  x i  costituiscono quindi una successione di osservazioni sulla
variabile “Numero di studenti in corso” e la numerosità del collettivo è N=5.
a) Disegnare il diagramma di Lorenz del numero di studenti.
Il diagramma di Lorenz è una rappresentazione grafica che permette di evidenziare la concentrazione
di un carattere trasferibile. Per costruire il grafico è necessario ordinare le intensità del carattere in
i
senso non decrescente; si calcolano poi le cumulate delle intensità assolute c i=∑ x j i=1 N  , le
cumulate delle intensità relative q i=
ci
cN
j=1
e le cumulate di frequenza relative p i=
i
, come risulta
N
nella seguente tabella:
i
xi
Intensità cumulate
ci
Intensita relative cumulate
qi
Frequeze relative cumulate
pi
1 100
100
0.083
0.2
2 146
246
0.210
0.4
3 193
439
0.360
0.6
4 239
678
0.560
0.8
5 520
1198
1
1
Il diagramma di Lorenz si ottiene costruendo la spezzata di concentrazione i cui vertici sono i punti di
coordinate  p i , q i i =0 N  con la posizione  p 0 , q 0≡0,0
7
Diagramma di Lore nz
1
0,8
q
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
p
b) Calcolare il rapporto di concentrazione.
Il rapporto di concentrazione può essere calcolato utilizzando l'indice di Gini dato da:
N −1
R=
∑  pi−qi 
i=1
N −1
∑ pi
i=1
Dalla precedente tabella risulta:
i
1
2
3
4
Σ
pi
qi
p i−qi
0.2
0.4
0.6
0.8
2
0.083
0.205
0.366
0.566
0.116
0.195
0.233
234
0.779
e quindi
R=
0.779
=0.389
2
Allo stesso risultato si può giungere calcolando il rapporto di concentrazione come rapporto fra la
differenza media semplice e il doppio della media come di seguito indicato:
∣x i −x j∣
xj
xi
100
146
193
239
520
100
146
193
239
0
46
93
139
46
0
47
93
93
47
0
46
139
93
46
0
420
374
327
281
8
520
420
374
327
281
0
Si può osservare che questa tabella è simmetrica rispetto alla diagonale costituita dai valori zero
derivanti dalle differenze di intensità di una unità statistica con se stessa; di conseguenza il calcolo del
numeratore della differenza media semplice può essere abbreviato moltiplicando per 2 la somma dei
valori al di sopra della diagonale indicata e quindi
N
=
N
∑ ∑∣x i− x j∣
24693139420479337446327281 3732
=
=186.6
N  N −1
5⋅4
20
100146193239520 1198
=
=
=239.6 2 =479.2
5
5
i =1 j =1
=
ed in definitiva
R=
 186.6
=
=0.389
2 479.2
9
Esercizio 5A.
Il capitale (in miliardi di lire) di una Società è suddiviso tra i soci nel seguente modo:
Socio
Capitale
1
3
2
1
3
0,5
4
10
5
5
a) Calcolare la variabilità del capitale mediante la differenza media semplice.
Le informazioni fornite costituiscono una successione di osservazioni sulla variabile Capitale e quindi
per calcolare la differenza semplice media si può seguire la stessa procedura dell'esercizio precedente.
∣x i −x j∣
xj
=
xi
0.5
1
3
5
10
0.5
1
3
5
10
0
0.5
2.5
4.5
9.5
0.5
0
2
4
9
2.5
2
0
2
7
4.5
4
2
0
5
9.5
9
7
5
0
2⋅0.52.54.59.5249275 2⋅46 46
=
= =4.6
5⋅4
5⋅4 10
b) Rappresentare la concentrazione del capitale mediante la spezzata di Lorenz.
Si può procedere come fatto al punto a) dell'esercizio precedente.
i
xi
1
2
3
4
5
0.5
1
3
5
10
Intensità cumulate
ci
Intensità relative cumulate
qi
Frequeze relative cumulate
pi
0.5
1.5
4.5
9.5
19.5
0.0256
0.0769
0.2307
0.4871
1
0.2
0.4
0.6
0.8
1
Diagramma di Lorenz
1,1
0,9
0,7
q
0,5
0,3
0,1
-0,1
-0,1
0,1
0,3
0,5
0,7
0,9
1,1
p
10
c) Determinare il rapporto di concentrazione.
Avendo nel punto a) già calcolato la differenza media semplice, per determinare il rapporto di
concentrazione si deve calcolare la media:
0.513510 19.5
=
=
=3.9
5
5
e quindi
R=
 4.6
=
=0.5897
2 7.8
Esercizio 6A.
Su un collettivo formato da 120 maschi e 80 femmine è stata rilevata l'età in anni compiuti
ottenendo la seguente distribuzione percentuale per genere:
Età
0 - 19
20 - 29
30 - 49
50 - 89
Totale
% Maschi
10
10
30
50
100
% Femmine
20
20
30
30
100
Le informazioni fornite si riferiscono ad una variabile statistica discreta suddivisa in classi della quale
vengono fornite le distribuzioni percentuali in due sottocollettivi (maschi e femmine). La frequenza
percentuale è il numero di unità statistiche per ogni 100 unità del collettivo, ovvero valgono le
seguenti relazioni
p i=
ni
 
N
100
ni
= 100
N
⇔
{
ni =
pi= f i 100
pi
N
100
⇔
f i=
pi
100
nella quale p i è la frequenza percentuale, n i è la frequenza assoluta, f i è la frequenza relativa ed N
è la numerosità del collettivo.
a) Trovare il numero di unità statistiche nel collettivo di età minore di 20 anni
Per determinare tale numero (q), date le informazioni disponibili, bisognerà sommare il 10% dei
maschi di età inferiore a 20 anni al 10% delle femmine con la stessa caratteristica
q=
10
20
120
180=1216=28
100
100
b) Trovare la percentuale di unità statistiche nel collettivo di età maggiore o uguale a 50 anni
Bisognerà prima determinare il numero di unità statistiche (n) dell'intero collettivo che soddisfano alla
condizione richiesta e poi calcolarne la percentuale (p) rispetto all'intero collettivo:
50
30
84
n=
120
80=6024=84 e quindi la percentuale richiesta è p=
100=42 %
100
100
12080
11
c)
Trovare il numero di maschi di età maggiore o uguale a 30 anni
Il numero richiesto è dato da
3050
120=96
100
d) Trovare le classi modali di età per i maschi e le femmine
Sarà necessario individuare per ciascun sottocollettivo la classe cui corrisponde la massima densità di
frequenza; determinare tale classe è equivalente a determinare la classe con la massima densità di
frequenza relativa in quanto, dette d i , i e i rispettivamente la densità di frequenza assoluta,
quella relativa e il numero di modalità per la classe i-ma, si ha:
n
ni N N f i
d i= =
= N =i N
i
i
i
dalla quale si deduce che, qualunque sia la classe, la densità di frequenza assoluta è proporzionale
secondo N alla densità di frequenza relativa i
Classe
a i , bi 
Frequenze
relative
Maschi
fiM
Frequenze
relative
Femmine
fiF
Numero di
modalità della
classe
i=bi−a i1
(0 , 19)
(20 , 29)
(30 , 49)
(50 , 89)
0.10
0.10
0.30
0.50
0.20
0.20
0.30
0.30
20
10
20
40
Densità di
frequenza
relativa
Maschi
i M
Densita di
frequenza
relativa
Femmine
i F
0.0050
0.0100
0.0150
0.0125
0.0100
0.0200
0.0150
0.0075
Pertanto la classe modale per i maschi è (30 , 49) anni, mentre per le femmine è la classe (20 , 29)
anni.
Esercizio 7A.
In un collettivo di 200 studenti, di cui 30 sono lavoratori, è stato rilevato il voto ad un certo esame
ottenendo la seguente distribuzione percentuale del voto per condizione occupazionale dello
studente:
Voto
18 - 22
23 - 25
26 - 28
29 - 30
Totale
% Studenti non lavoratori
10
10
30
50
100
% Studenti lavoratori
20
40
20
20
100
12
L'ESERCIZIO È SIMILE AL PRECEDENTE, QUINDI VENGONO FORNITI SOLO I RISULTATI
a) Trovare il numero di unità statistiche nel collettivo con voto minore di 23
23 unità
b) Trovare la percentuale di unità statistiche nel collettivo con voto maggiore o uguale a 29
45.5%
c)
Trovare il numero di studenti lavoratori con voto maggiore o uguale a 26
12
d) Trovare le classi modali del voto per gli studenti e gli studenti lavoratori
La classe modale per gli studenti è quella di voto 29-30, per gli studenti lavoratori invece è quella 2325.
Esercizio 8A.
Le abitazioni di una città vengono distinte in quelle abitate dai proprietari e in quelle abitate da
affittuari. Le distribuzioni di frequenza relativa delle abitazioni per numero di vani vengono
riportate nella tabella che segue; si sa inoltre che il numero di abitazioni abitate dai proprietari è
4000 e quello delle abitazioni in affitto è 6000.
Numero di vani
Abitate da proprietari
Abitate da affittuari
1
0,05
0,17
2
0,10
0,21
3
0,15
0,22
4
0,16
0,18
5
0,23
0,13
6
0,31
0,09
Totale
1
1
a) Calcolare il numero totale di abitazioni con un numero di vani non inferiore a 5
Si sa che le abitazioni abitate da proprietari sono 4000, mentre quelle abitate da affittuari sono 6000.
Il numero di abitazioni, abitate da proprietari, con un numero vani5 sarà dato da
0.230.31 4000=0.54⋅4000=2160 mentre quello per le case abitate da affittuari sarà
0.130.09 6000=0.22⋅6000=1320 e quindi il numero di abitazioni richiesto è dato da
2160+1320= 3480
b) Calcolare il numero medio di vani per il complesso delle abitazioni
Si può determinare la media richiesta in due modi:
1) costruendo la tabella delle frequenze assolute a partire da quella delle frequenze relative date dal
problema
Numero vani
Xi
Abitate da proprietari
ni p
Abitate da affittuari
ni a
Totale
ni
1
2
3
4
5
200
400
600
640
920 1240
4000
780
540
6000
1220 1660 1920 1720 1700 1780
10000
1020 1260 1320 1080
6
Totale
13
e calcolando la media nel modo usuale
=
1⋅12202⋅16603⋅19204⋅17205⋅17006⋅1780
=3.636
10000
2) oppure calcolando le medie per le due sottopopolazioni (proprietari e affittuari) e determinando la
media richiesta come media delle due medie
1⋅2002⋅4003⋅6004⋅6405⋅9206⋅1240
=4.35
4000
1⋅10202⋅12603⋅13204⋅10805⋅7806⋅540
 a=
=3.16
6000
4.35⋅40003.16⋅6000
=
=3.636
10000
 p=
c)
Rappresentare graficamente le abitazioni per numero di vani abitate da affittuari
Si vuole mettere in evidenza che, nel grafico 1, i bastoncini sono stati disegnati con l'obiettivo di
mettere in evidenza le ordinate dei punti  X i , ni  e che lo spessore dei bastoncini è del tutto
arbitrario e non ha nessun significato. Il grafico andrebbe fatto rappresentando in un riferimento
cartesiano i punti  X i , ni  come nel grafico 2.
Abitazioni abitate da affittuari
per numero di vani
1400
N° Abitazioni
1200
1000
800
600
400
200
0
1
2
3
4
5
6
N° vani
Grafico 1
Abitazioni abitate da affittuari
per numero di vani
2000
1800
N° Abitazioni
1600
1400
1200
1000
800
600
400
200
0
0
1
2
3
4
N° Vani
5
6
7
Grafico 2
14
Esercizio 9A.
In un collettivo di pazienti sono stati rilevati la quantità di colesterolo in milligrammi per 100
millilitri di sangue ed il genere. Dallo spoglio delle osservazioni si è ottenuta la seguente
distribuzione doppia di frequenze
Colesterolo
[120,160]
]160,180]
]180,200]
]200,240]
]240,300]
Maschio
40
10
20
10
45
Femmina
20
12
10
20
10
a) Rappresentare graficamente la distribuzione del colesterolo
Lo spoglio effettuato per il carattere quantità di colesterolo ha generato una variabile quantitativa
continua, suddivisa in classi, pertanto la rappresentazione grafica opportuna è costituita
dall'istogramma. Per costruire l'istogramma bisogna valutare la densità di frequenza per classe, tale
valutazione si effettua ipotizzando una uniforme distribuzione della variabile in ciascuna classe e
calcolando quindi la densità come rapporto fra frequenza e ampiezza di classe
Classi
] X i , X i1]
[120, 160]
]160, 180]
]180, 200]
]200, 240]
]240, 300]
Frequenze
assolute
ni
60
22
30
30
55
Ampiezza della
classe
i= X i1− X i
40
20
20
40
60
Densità di
frequenza
d i=
ni
Valori centrali
c i=
X i X i1
2
i
1.5
1.1
1.5
0.75
0.91
140
170
190
220
270
La rappresentazione per istogrammi avviene costruendo tanti rettangoli quante sono le classi, le cui
basi hanno lunghezza uguale all'ampiezza di classe, con gli estremi negli estremi di classe, e le cui
altezze sono pari alla densità di classe, l'area di ciascun rettangolo è quindi pari alla frequenza assoluta
della classe.
15
b) Calcolare la media del colesterolo per ciascuno genere
I dati sono raggruppati in classi quindi si può determinare solo una media approssimata nell'ipotesi di
uniforme distribuzione nella classe, sotto tale ipotesi la media della classe concide con il punto medio
della classe stessa e quindi l'ammontare del carattere nella classe si può valutare come prodotto fra il il
valore centrale di classe c i e la frequenza di classe n i Di conseguenza per determinare la media
aritmetica approssimata si utilizza l'espressione:
=
∑i=1k ci ni
N
e quindi
140⋅40170⋅10190⋅20220⋅10270⋅45
=203.6
125
140⋅20170⋅12190⋅10220⋅20270⋅10
 femmine =
=192.2
72
maschi =
c) Calcolare la classe modale del colesterolo per i maschi
La classe (o le classi modali) sono quelle con densità di frequenza più elevate
Classi
Frequenze assolute
Ampiezza di classe
Densità di frequenza
(maschi)
[120, 160]
]160, 180]
]180, 200]
]200, 240]
]240, 300]
40
10
20
10
45
40
20
20
40
60
1
0,5
1
0,25
0,75
Ci sono due classi modali: [120, 160] e ]180, 200].
16
Esercizio 10A.
In un collettivo di 10 studenti è stato rilevato il voto riportato all'esame di Statistica e quello
riportato all'esame di Storia Contemporanea:
1
28
30
Studente
Voto a Statistica (X)
Voto a Storia Contemporanea (Y)
2
22
28
3
18
27
4
18
18
5
20
28
6
30
28
7
20
28
8
23
27
9
23
27
10
27
18
a) Costruire la distribuzione doppia di frequenze (X,Y)
Bisogna costruire una tabella a doppia entrata nella quale viene riportato il numero di unità statistiche
sulle quali si osserva la stessa coppia di modalità  X i ,Y j 
Si ottiene così la seguente distribuzione bivariata
Voto a Storia contemporanea(Y)
Voto a Statistica (X)
18
20
22
23
27
28
30
Totale di colonna
18
1
0
0
0
1
0
0
2
27
1
0
0
2
0
0
0
3
28
0
2
1
0
0
0
1
4
30
0
0
0
0
0
1
0
1
Totale di riga
2
2
1
2
1
1
1
10
I totali per riga e per colonna costituiscono le frequenze corrispondenti alle variabili marginali X e Y .
b) Calcolare il voto mediano dell'esame di Statistica
Occorre ordinare i voti riportati all'esame di Statistica, ottenendo la seguente successione ordinata
18, 18, 20, 20, 22, 23, 23, 27, 28, 30
Poichè il numero di unità statistiche è N=10, quindi pari, bisognerà considerare i voti riportati dalle
N
N
=5 e
1=6 ,tali voti sono rispettivamente 22 e 23,
unità statistiche che occupano le posizioni
2
2
la mediana è per definizione un qualunque valore fra i due voti individuati: per convenzione si assume
2223
=22.5 .
come mediana la media fra i due valori e quindi si ha M e =
2
c)
Stabilire se vi è indipendenza in media di X da Y
Vi è indipendenza in media di X da Y, se al variare di Y le medie delle condizionate X /Y =Y j 
rimangono costanti. Determiniamo quindi tali medie:
17
18⋅127⋅1
=22.5
2
18⋅123⋅2
 X / Y =27=
=21.3
3
20⋅222⋅130⋅1
 X / Y =28=
=23
4
28⋅1
 X / Y =30=
=28
1
 X / Y =18=
Le medie condizionate non sono uguali fra loro e quindi si può dire che non c'è indipendenza in media
di X da Y.
Esercizio 11A.
In un collettivo di giovani si è osservato l'atteggiamento verso il fumo per classi di età ottenendo la
seguente distribuzione di frequenze:
Classi di età
]18 , 22]
]22 , 25]
[16 , 18]
7
16
Fuma
Non fuma
8
18
]25 , 30]
21
9
30
10
a) Calcolare la classe modale per l'età di chi fuma e di chi non fuma
] X i , X i1]
Frequenze
assolute
Non
Fumatori
fumatori
ni , F
n i , NF
[16, 18]
]18, 22]
]22, 25]
]25, 30]
7
8
21
30
16
18
9
10
Totale
66
53
Densità di frequenza
Non
fumatori
ni
7
8
4.5
3
6
2
23
26
30
40
Ampiezza
della classe
Valore
centrale
2
4
3
17
20
23.5
3.5
2
5
27.5
Fumatori
119
La classe modale per i fumatori è ]22, 25] e per i non fumatori è ]16, 18]
b) Calcolare il rapporto di correlazione dell'età dall'atteggiamento verso il fumo.
Poiché la variabile è suddivisa in classi tutti gli indici statistici coinvolti saranno calcolati utilizzando i
valori centrali delle classi.
Il rapporto di correlazione è così definito:
18
h
X /Y =
∑  j−2⋅n . j
Devianza fra i gruppi D B j=1
=
= k
Devianza totale
DT
∑ C i−2⋅ni.
i=1
nella quale  j e  sono rispettivamente la media di X nel j-mo gruppo e nella popolazione e C i
sono i valori centrali delle classi.
4
=
∑ C i n i.
i=1
N
=
17⋅2320⋅2623.5⋅3027.5⋅40
=22.8235
119
4
 fumatori =
∑ C i ni1
i=1
n.1
=
17⋅720⋅823.5⋅2127.5⋅30
=24.2045
66
4
non fumatori =
∑ C i ni2
i =1
n.2
=
17⋅1620⋅1823.5⋅927.5⋅10
=21.1037
53
2
2
D B = 24.2045−22.8235 ⋅6621.1037−22.8235 ⋅53=282.5
2
2
2
2
D T =17−22.8235 ⋅2320−22.8235 ⋅2623.5−22.8235 ⋅30 27.5−22.8235 ⋅40=
=1875.87
2
 X ∣Y =
282.5
=0.1506
1875.87
Esercizio 12A.
In un collettivo di 420 volontari si è osservato la frequenza di attività di volontariato per classi di
età ottenendo la seguente distribuzione di frequenze relative percentuali:
Classi di età (X)
Frequenza di attività di volontariato
(Y)
Almeno una volta la settimana
Una o più volte al mese
[14,20]
]20,35]
]35,55]
]55,60]
10
15
10
5
10
20
20
10
19
a) Quanti sono i volontari con età superiore a 20 anni e non superiore a 55 anni.
La frequenza richiesta è data da
15102020
⋅420=273
100
b) Quanti sono i volontari che prestano la loro attività almeno una volta la settimana e che
hanno un'età superiore a 55 anni e non superiore a 60 anni.
Il numero di volontari richiesto è dato da:
c)
5
⋅420=21
100
Determinare il rapporto di correlazione dell'età dalla regolarità del servizio di volontariato.
Prima di procedere nel calcolo del rapporto di correlazione sarà necessario individuare i valori centrali
di classe per la variabile X e la sua distribuzione marginale di frequenze percentuali.
Ci
Valore centrali
pi
Frequenza percentuale
17
27.5
45.0
57.5
20
35
30
15
Indicando con n 1i e p1i rispettivamente la frequenza assoluta e percentuale di coloro che svolgono
attività di volontariato almeno una volta la settimana e hanno un'età della classe i-ma, con
n 2i e p 2i le corrispondenti frequenze di coloro che svolgono attività di volontariato una o più volte
al mese, con N la numerosità del collettivo, con 1 l'età media di coloro che svolgono attività di
volontariato almeno una volta la settimana, con  2 l'età media di coloro che svolgono attività di
volontariato una o più volte al mese, con µ l'età media del collettivo di volontari e tenendo conto di
quanto detto nell'esercizio 6A, si ha
p1i =
1 =
n1i
⋅100
N
e quindi
4
4
i=1
i=1
∑ C i⋅n1i ∑
n1.
=

n
N
C i⋅ 1i ⋅100⋅
N
100
4
∑ n1i
i =1
1 =

4
=
4
∑ C i⋅p1i ∑ C i⋅p 1i
i=1
4
100
∑ n i1⋅ N
i=1
= i =14
∑ p1i
i =1
17⋅1027.5⋅1545⋅1057.5⋅5 1320
=
=33
40
40
ed analogamente
2 =
=
17⋅1027.5⋅2045⋅2057.5⋅10
=36.8
60
17⋅2027.5⋅3545⋅3057.5⋅15
=35.15
100
Possiamo ora determinare il rapporto di correlazione dell'età dalla frequenza di attività di volontariato
Devianza fra i gruppi D B
 2X ∣Y =
=
Devianza totale
DT
20
2
D B =∑ i−2⋅p j · =33−35.152⋅4036.58−35.152⋅60=307.594
j=1
4
D T =∑ C i −2⋅pi
i=1
D T =17−35.152⋅2027.5−35.152⋅3545−35.152⋅3057.5−35.152⋅15=19040.23
 2X ∣Y =
307.59
=0.01615
19040.23
Esercizio 13A.
Su un collettivo di individui sono stati rilevati i caratteri X (Peso in Kg) e Y (Altezza in cm)
ottenendo la seguente distribuzione congiunta di frequenze:
60
165
2
Y
170
0
175
0
70
80
0
1
1
0
0
1
X
a) Ricostruire la successione ordinata dell'altezza
Al fine di rispondere al quesito costruiamo la distribuzione di frequenze della marginale Y
Y
n. j
165
170
175
3
1
1
dalla quale otteniamo la successione richiesta
165 , 165 , 165 , 170 , 175
b) Calcolare la media e la mediana dell'altezza
Essendo N=5 (dispari) la mediana è il valore che occupa il terzo posto

N 1
=3
2

nella
successione ordinata; quindi la mediana è pari a 165
Per calcolare la media della Y utilizziamo la distribuzione di frequenze costruita al punto precedente
 y=
c)
163⋅3170⋅1175⋅1 840
=
=168
5
5
Calcolare il peso medio per gli individui che hanno un'altezza di 165 cm
 X∣Y =165 =
60⋅270⋅080⋅1
=66.66
3
21
d) Calcolare il coefficiente di correlazione lineare tra peso e altezza
Il coefficiente di correlazione lineare è dato da:
 XY =
1
X =
N
 XY
X Y
=
Cov  X , Y 
 Var  X Var Y 
3
350
=
=70
∑ X i⋅ni⋅= 60⋅270⋅180⋅2
5
5
i=1
3
1
60−702⋅270−702⋅180−702⋅2
2
 = ∑  X i− X  ⋅ni⋅=
=80
N i=1
5
2
X
 X = 80=8.94
 Y2 =
1
N
3
∑ Y j−Y 2⋅n⋅j=
i =1
165−1682⋅3170−1782⋅1175−1682⋅1
=16
5
 Y = 16=4
3
3
 XY =
1
N
 XY =
60−70165−168⋅280−70165−168⋅1

5

 XY =
∑ ∑  X i− X Y j −Y nij
i =1 j=1
70−70170−168⋅180−70175−168⋅1
5
60−30070 100
=
=20
5
5
 XY =
20
=0.56
4⋅8.94
Esercizio 14A.
Lo stipendio medio annuo (X), in migliaia di euro, dei dirigenti e il numero di dipendenti (Y) di 9
aziende sono riportati nella tabella che segue:
Azienda
1
2
3
4
5
6
7
8
9
Stipendio
45
30
84
63
62
61
46
43
42
N°Dipendenti
14
16
46
32
22
21
28
17
24
22
a) Calcolare il coefficiente di correlazione lineare fra X e Y
I dati forniti costituiscono quella che si chiama una successione doppia, infatti per ciascuna delle 9
unità statistiche di rilevazione (aziende) sono riportati i valori delle due variabili Stipendio medio
annuo dei dirigenti e Numero di dipendenti, ciò determina una semplificazione delle espressioni per il
calcolo degli tutti indici statistici da utilizzare come appresso indicato
{
9
X =
9
1
∑x
9 i=1 i
2
X =
9
9
1
1
2
2
2
 x i−X  = ∑ x i − X
∑
9 i=1
9 i=1
9
1
Y = ∑ y i
9 i=1
9
1
1
 = ∑  y i−Y 2= ∑ y 2i −2Y
9 i=1
9 i =1
2
Y
9
9
1
1
 XY = ∑  x i−X  y i −Y = ∑ xi y i − X Y
9 i=1
9 i=1
 XY
 XY =
 X⋅ Y
e quindi
453084636261464342 476
=
=52.89
9
9
141646322221281724 220
Y =
=
=24.44
9
9
45230 284 2632 622612462432422
27244
 2X =
−52.89 2=
−2797.23=229.88
9
9
14 216246 2322 222 212 282 172242
6166
2
Y =
−24.442=
−597.53=87.58
9
9
X =
45⋅1430⋅1684⋅4663⋅3261⋅2146⋅2843⋅1742⋅24
−52.89⋅24.44=
9
12662
=
−1292.84=114.05
9
114.05
114.05
 XY =
=
=0.8
15.16⋅9.36
 229.88⋅ 87.58
 XY =
b) Determinare la mediana del numero di dipendenti
Ricordiamo che la mediana è l'intensità del carattere ordinabile posseduta dall'unità statistica che,
nella sucessione ordinata delle modalità, è preceduta e seguita dallo stesso numero di unità statistiche
del collettivo; per individuare quindi la mediana sarà necessario ordinare le unità statistiche in ordine
crescente (descrescente) secondo il numero di dipendenti, la successione ordinata delle osservazioni
date è la seguente
Azienda
1
2
8
6
5
9
7
4
3
N°Dipendenti
14
16
17
21
22
24
28
32
46
l'unità statistica preceduta e seguita dallo stesso numero di unità statistiche (4) è l' Azienda 5 che
possiede un numero di dipendenti pari a 22, quindi la mediana è proprio 22; in generale, quando la
numerosità del collettivo è dispari, la posizione nella successione ordinata delle modalità dell'unita
statistica mediana è data da  N 1/2 nella quale N è la numerosità del collettivo; così, nel nostro
caso, la posizione mediana è 91/ 2=5 e di conseguenza la mediana è il 5° valore nella
successione ordinata su costruita, cioè 22.
23
B. ESERCIZI DI PROBABILITA' E VARIABILI CASUALI
24
B1. Calcolo delle probabilità
Esercizio 1B1.
In una popolazione di 400 laureati in Scienze Politiche la distribuzione secondo il sesso e lo stato
lavorativo a due anni dalla laurea è la seguente:
Maschio
Femmina
Occupato
100
150
Disoccupato
50
100
Si estrae a caso un laureato.
Premessa
Al fine di poter effettuare una estrazione casuale di una unità statistica del collettivo si può pensare di associare a
ciascuna di esse una pallina, di diametro costante e di un dato materiale in determinate condizioni fisico-chimiche, sulla
quale annotare genere e stato occupazionale. Le 400 palline così costruite vengono inserite in una scatola e mescolate
accuratamente. La prova consiste nell'estrarre una sola pallina dalla scatola. In queste condizioni ciascuna pallina ha la
stessa probabilità di essere estratta. Si è così costruito uno spazio di eventi (le 400 palline) necessari (una pallina verrà
estratta), incompatibili (una sola pallina verrà estratta) ed equiprobabili (ciascuna pallina ha la stessa probabilità di
1
essere estratta): ciascuna pallina ha probabilità data da 400 .
Il problema di calcolare la probabilita di estrarre una pallina con una particolare annotazione, per esempio femmina, si
risolve considerando tale annotazione (femmina) come un evento composto dalla disgiunzione (unione) di un numero k
(le 250 palline con femmina) di eventi incompatibili ed equiprobabili e quindi la sua probabilità sarà data dalla somma
1
delle probabilità di questi k eventi equiprobabili cioè k⋅400 (la probabilità di femmina sarà 250 /400), ovvero dal
rapporto fra il numero di casi favorevoli (le 250 palline con femmina) e il numero di casi possibili (le 400 palline).
Dalle considerazioni esposte si può concludere che la frequenza relativa di una modalita di un carattere può essere vista
come la probabilità di un evento: quello individuato dalla modalità fissata.
a) Qual è la probabilità che sia disoccupato?
Occupato Disoccupato
100
50
150
Maschio
150
100
250
Femmina
250
150
400
Si considerino gli eventi A:={essere disoccupato} e B:={essere maschio}, dalle considerazioni svolte
in premessa si ha:
150
Pr  A=
=0.375
400
b) Qual è la probabilità che sia disoccupato e maschio?
Pr  A∩B=
c)
50
=0.125
400
Qual è la probabilità che sia disoccupato dato che è stato estratto un maschio?
25
50
Pr  A∩B 400 50
Pr  A∣B=
=
=
=0.125
Pr  B
150 150
400
Esercizio 2B1.
Un collettivo di 200 studenti è stato classificato secondo il voto riportato ad un dato esame e a
seconda che l'esame in oggetto sia stato il primo ad essere sostenuto o meno
Primo esame
si
no
40
15
45
100
Voto
voto ≤ 24
voto ≥ 25
Si estrae a caso dal collettivo uno studente.
Si considerino gli eventi A:={voto ≤ 24} e B:={è il primo esame sostenuto}
a) Calcolare Pr(A)
Primo esame
Voto
si
no
voto ≤ 24
40
15
55
voto ≥ 25
45
100
145
85
115
200
Pr  A=
55
=0.275
200
Pr  B=
85
=0.425
200
b) Calcolare Pr(B)
c)
Calcolare Pr  A∪B
Pr  A∪B=Pr  APr  B−Pr  A∩ B=
55
85
40 100

−
=
=0.5
200 200 200 200
d) Calcolare Pr  B∣A
40
Pr  A∩B 200 40
Pr  B∣A=
=
= =0.727
Pr  A
55 55
200
26
Esercizio 3B1.
Un collettivo di 200 donne è stato classificato secondo lo stato civile e l'età come segue:
Età
fino a 25 anni
più di 25 anni
Stato civile
Nubile Coniugata
40
15
45
100
Si estrae dal collettivo casualmente una donna.
Si considerino gli eventi A:={avere una età fino a 25 anni} e B:={essere coniugata}
a) Calcolare Pr(A)
fino 25 anni
più di 25 anni
Nubile
40
45
85
Coniugata
15
100
115
Pr  A=
55
=0.275
200
Pr  B=
115
=0.575
200
55
145
200
b) Calcolare Pr(B)
c)
Calcolare Pr  A∩B
Pr  A∩B=
15
=0.075
200
d) Calcolare Pr  A∪B
Pr  A∪B=Pr  APr  B−Pr  A∩ B=0.2750.575−0.075=0.775
e)
Calcolare Pr  B∣A
Pr  B∣A=
f)
Pr  A∩B 0.075
=
=0.273
Pr  A
0.275
A e B sono eventi indipendenti?
Due eventi si dicono stocasticamente indipendenti se Pr  B∣A= Pr  B dai risultati ottenuti ai
precedenti punti b) ed e) si deduce che la condizione di indipendenza non è verificata.
27
Esercizio 4B1.
Un collettivo di 200 giovani è stato classificato secondo lo stato civile e la condizione lavorativa
come segue:
Stato civile
Condizione lavorativa
lavora
non lavora
Celibe
50
70
Coniugato
60
20
Si estrae dal collettivo casualmente un giovane.
Si considerino gli eventi A:={non lavora} e B:={essere celibe}.
a) Calcolare Pr(A)
Celibe
50
70
120
lavora
non lavora
Coniugato
60
20
80
Pr  A=
110
90
200
90
=0.45
200
b) Calcolare Pr  A∩B
Pr  A∩B=
c)
70
=0.35
200
A e B sono eventi indipendenti?
Due eventi si dicono stocasticamente indipendenti se Pr  A∣B= Pr  A ; determiniamo quindi la
probabilità a primo membro della precedente
Pr  B=
120
=0.6
200
Pr  A∣B=
Pr  A∩ B 0.35
=
=0.583
Pr  B
0.6
poiché risulta, tenendo conto del punto a), che
eventi non sono indipendenti.
Pr  A∣B≠ Pr  A possiamo concludere che i due
d) Calcolare Pr  A∪B
Pr  A∪B=Pr  APr  B−Pr  A∩ B=0.450.6−0.35=0.7
28
Esercizio 5B1.
Delle auto prodotte da una certa casa automobilistica si sa che 1 su 100 presenta difetti di
carrozzeria e che 4 su 180 presentano difetti meccanici, inoltre fra le auto con difetti di carrozzeria
la probabilità di trovarne una con difetti meccanici è pari a 0.002.
Calcolare la probabilità di produrre un'auto con difetti di un tipo o dell'altro.
Definiamo i seguenti eventi:
A:={l'auto presenta difetti di carrozzeria}
B:={l'auto presenta difetti meccanici}
Bisognerà determinare la Pr  A∪B
Dai dati del problema sappiamo che:
Pr  A=
1
=0.01
100
Pr  B=
4
=0.022
180
Pr  B∣A=0.002
dalle quali otteniamo:
Pr  A∩B =Pr  A⋅Pr  B∣A=0.01⋅0.002=0.00002
ed in conclusione
Pr  A∪B=Pr  APr  B−Pr  A∩ B=0.010.022−0.00002=0.0319
Esercizio 6B1.
Con riferimento ad un collettivo di 600 studenti dell'Università di Firenze si considerino i seguenti
eventi:
A := {ha superato l'esame di Economia}
B := {frequenta il corso di Statistica}.
Sapendo che 400 studenti hanno superato l'esame di Economia, che 300 studenti frequentano il
corso di Statistica e che 200 sono gli studenti che hanno superato l'esame di Economia e
frequentano il corso di Statistica
a) Calcolare Pr(A)
Pr  A=
400
=0.66
600
b) Calcolare Pr  A∩B
Pr  A∩B=
c)
200
=0.33
600
Calcolare Pr  A∪B
Pr  A∪B=Pr  APr  B−Pr  A∩ B=
400 300 200 500

−
=
=0.83
600 600 600 600
29
Esercizio 7B1.
Per un paziente con certi sintomi si considerino i seguenti eventi:
A := { ha l'influenza }
B := { ha la polmonite }
C := { ha la febbre a 40}
sapendo che:
A∩B=∅
Pr  A=0.7
A∪B=I
Pr C∣A=0.3
Pr C∣B=0.8
dove si è posto I :={evento certo} e ∅ :={evento impossibile }
a) Calcolare la probabilità che il paziente abbia la polmonite
Poiché gli eventi A e B sono necessari ed incompatibili si ha
Pr  B=1−Pr  A=0.3
b) Calcolare la probabilità che abbia l'influenza dato che ha la febbre a 40
Tenendo conto delle notazioni adottate nel testo del problema bisogna calcolare la Pr  A∣C  che è
Pr  A∩C
data da
Pr C 
Si può ora notare che (vedi anche figura)
Pr C =Pr C ∩I =Pr C∩ A∪B=Pr [C ∩A∪C∩B]
e tenendo conto del fatto che gli eventi C∩ A e C∩B sono incompatibili, in quanto lo sono A e B,
si ha
Pr C =Pr C ∩APr C ∩B
e poichè
Pr C∩ A=Pr C∣A⋅Pr  A=0.3⋅0.7=0.21
Pr C∩B=Pr C∣B⋅Pr  B=0.8⋅0.3=0.24
e quindi
Pr C =0.45
ed in definitiva la probabilità richiesta è data da
Pr  A∩C  0.21
Pr  A∣C =
=
=0.47
Pr C 
0.45
Naturalmente quanto è stato fatto non è altro che la derivazione della probabilità a posteriori
dell'evento A sapendo che si è verificato C data dal teorema di Bayes.
A
C = A∩C ∪ B∩C 
A∩C
B
B∩C
30
Esercizio 8B1.
Uno studente al primo anno di università vuole conoscere le sue possibilità di laurearsi entro 4
anni. Gli vengono fornite le seguenti informazioni:
1) il 15% degli iscritti si laurea entro 4 anni;
2) su 10 laureati entro 4 anni 6 hanno riportato il massimo dei voti all'esame di diploma di scuola
media superiore;
3) su 100 laureati con tempi superiori ai 4 anni 10 hanno riportato il massimo dei voti all'esame di
diploma di scuola media superiore.
Sapendo che lo studente in questione ha riportato il massimo dei voti all'esame di diploma di
scuola media superiore, qual è la probabilità che si laurei entro 4 anni?
Si considerino i seguenti eventi:
A:={laurea conseguita entro 4 anni}
B:={riportare il massimo dei voti all'esame di diploma di scuola media superiore}
In base ai dati del problema sarà:
Pr  A=
15
=0.15
100
Pr  B∣A=0.6
Pr  B∣ A =0.1
Si deve quindi calcolare Pr  A∣B , con considerazioni analoghe a quelle dell'esercizio precedente si
ha:
Pr  B∩ A=Pr  A⋅Pr  B∣A=0.15⋅0.6=0.09
Pr  A =1−Pr  A=0.85 ⇒ Pr  B∩ A =Pr  A⋅Pr  B∣ A =0.85⋅0.1=0.085
Pr  B=Pr  B∩APr  B∩ A =0.090.085=0.175
ed in definitiva
Pr  A∣B=
Pr  A∩B 0.09
=
=0.514
Pr  B
0.175
Esercizio 9B1.
Un giovane deve decidere se iscriversi all'Università per conseguire una laurea o mettersi sul
mercato del lavoro. Egli sa che tra i giovani lavoratori il 30% ha la laurea mentre tra i disoccupati
il 20% è laureato. Inoltre, data la situazione economica, la probabilità per un giovane di lavorare è
0.8.
Consigliereste al giovane di iscriversi all'Università per conseguire una laurea?
Si considerino gli eventi:
A:={il giovane lavora}
B:={il giovane ha la laurea}
I:={evento certo}
Dai dati del problema si ha:
Pr  A=0.8⇒ P  A =0.2
Pr B∣A=0.3
 =0.2
Pr  B∣A
Al fine di dare una risposta al quesito si dovrà stabilire quale fra le due probabilità Pr  A∣B e
31
  è maggiore.
Pr  A∣B
Con i dati disponibili possiamo calcolare le seguenti probabilità
Pr  B∩ A=Pr  A⋅Pr  B∣A=0.8⋅0.3=0.24
 ⋅Pr  B∣ A=0.2⋅0.2=0.04
Pr  B∩ A =Pr  A
 =0.72
Pr  B=Pr  B∩APr  B∩ A =0.240.04=0.28 ⇒ Pr  B
Osservando che
A=A∩ I = A∩ B∪ B = A∩B∪ A∩ B 
si ha
  ⇒ Pr  A∩ B
 = Pr  A−Pr  A∩B=0.8−0.24=0.56
Pr  A= Pr  A∩ BPr  A∩ B
ed in definitiva quindi
Pr  A∣B=
Pr  A∩ B 0.24
=
=0.857
Pr  B
0.28
Pr  A∣B =
Pr  A∩ B  0.56
=
=0.778

Pr  B
0.72
si può quindi concludere che conviene conseguire una laurea in quanto, possedendo tale titolo, è
maggiore la probabilità di trovare un lavoro.
Esercizio 10B1.
In un ufficio le pratiche relative ad una certa procedura amministrativa vengono affidate
casualmente a tre impiegati che indicheremo con A,B,C. La probabilità che una pratica venga
completata entro una settimana per ciascun impiegato è indicata nella tabella che segue:
Impiegato
Probabilità
A
0.4
B
0.8
C
0.3
Avendo ricevuto una pratica espletata entro una settimana qual è, secondo voi, l'impiegato al
quale era stata affidata?
Si considerino i seguenti eventi:
S:={la pratica è completata entro una settimana}
A:={la pratica è affidata all'impiegato A}
B:={la pratica è affidata all'impiegato B}
C:={la pratica è affidata all'impiegato C}
Dai dati del problema si ha:
Pr  A= Pr  B=Pr C =
1
3
in quanto la pratica viene affidata casualmente ad uno dei tre impiegati, inoltre
Pr  S∣A=0.4
Pr S∣B=0.8
Pr  S∣C =0.3
32
Per rispondere alla domanda posta sarà necessario stabilire qual è la maggiore fra le seguenti tre
probabilità:
Pr  A∣S 
Pr  B∣S 
Pr C∣S 
Utilizzando il teorema di Bayes si ha:
Pr  A∣S =
Pr  A⋅Pr S∣A
Pr  A⋅Pr S∣APr  B⋅Pr  S∣BPr C ⋅Pr  S∣C 
Calcoliamo il denominatore della precedente che non è altro che la Pr  S 
Pr S = Pr  A⋅Pr  S∣APr  B⋅Pr S∣BPr C ⋅Pr  S∣C
1
1
1
1
1
Pr S = ⋅0.4 ⋅0.8 ⋅0.3= ⋅0.40.80.3= ⋅1.5
3
3
3
3
3
e quindi
1
⋅0.4
Pr  A⋅Pr S∣A 3
0.4
Pr  A∣S =
=
= =0.267
Pr  S 
1
1.5
⋅1.5
3
ed analogamente
1
⋅0.8
Pr  B⋅Pr S∣B 3
0.8
Pr  B∣S =
=
= =0.533
Pr S 
1
1.5
⋅1.5
3
1
⋅0.3
Pr C ⋅Pr  S∣C  3
0.3
Pr C∣S =
=
= =0.2
Pr S 
1
1.5
⋅1.5
3
Si può quindi concludere che l'impiegato B è quello che, con maggiore probabilità, ha espletato la
pratica riconsegnata.
Esercizio 11B1.
Si consideri un mazzo di 40 carte costituito da 10 carte per ciascun seme (♣,♦,♥,♠) e per ciascun
seme le carte sono numerate da 1 a 10. Si estraggano da tale mazzo due carte senza reintroduzione.
a) Calcolare la probabilità che entrambe siano ♥
Poiché le estrazioni sono effettuate senza reintroduzione, gli eventi nella prima e seconda prova non
sono indipendenti, inoltre, in ciascuna prova, la probabilità di estrarre una determinata carta è data da
1
k nella quale k è il numero di carte rimaste nel mazzo. Consideriamo ora i seguenti eventi:
C 1 :={si verifica una carta di cuori alla prima estrazione}
C 2 :={si verifica una carta di cuori alla seconda estrazione}
33
Bisognerà calcolare la probabilità dell'evento C 1∩C 2
Pr C 1∩C 2= Pr C 1⋅Pr C 2∣C 1 =
10 9
⋅ =0.25⋅0.23=0.0575
40 39
b) Calcolare la probabilità che la seconda sia ♠ dato che la prima è un 2
Consideriamo gli eventi.
21 :={si verifica una carta due alla prima estrazione }
P 2 :={si verifica una carta di picche alla seconda estrazione }
2P1 :={si verifica un due di picche alla prima estrazione}
2Q1 :={si verifica un due di quadri alla prima estrazione}
2C1 :={si verifica un due di cuori alla prima estrazione}
2F1 :={si verifica un due di fiori alla prima estrazione}
ed osserviamo che
21=2P1∪2Q1∪2C1∪2F 1
Pr 21 =Pr  2P1Pr 2Q1 Pr 2C1 Pr 2F 1=
1
1
1
1
4
   =
40 40 40 40 40
21∩P 2= 2P1∪2Q1∪2C1∪2F1∩P 2= 2P1∩P 2 ∪2Q1∩P 2 ∪ 2C1∩P 2 ∪ 2F1∩ P 2
Pr 21∩ P 2= Pr  2P1∩P 2 ∪ 2Q1 ∩P 2 ∪ 2C1 ∩P 2 ∪ 2F1∩P 2 =
=Pr 2P1∩P 2Pr 2Q1∩P 2 Pr  2C1∩P 2 Pr  2F1∩P 2 =
=Pr 2P1 ⋅Pr  P 2∣2P1 Pr 2Q1 ⋅Pr  P 2∣2Q1Pr 2C1 ⋅Pr  P 2∣2C1Pr 2F1 ⋅Pr  P 2∣2F1=
=
1 9
1 10 1 10 1 10 1 9
1 10
39
1
⋅  ⋅  ⋅  ⋅ = ⋅ 3⋅ ⋅ =
=
40 39 40 39 40 39 40 39 40 39
40 39 40⋅39 40
e quindi
1
Pr 2 1∩P 2  40 1
Pr  P 2∣21 =
=
= =0.25
Pr  21
4 4
40
c)
Calcolare la probabilità che la seconda sia ♦
Consideriamo gli eventi:
Q 1 :={si verifica una carta di quadri alla prima estrazione}
Q 2 :={si verifica una carta di quadri alla seconda estrazione}
Possiamo osservare che l'evento Q2 si verificherà quando si verificherà uno dei seguenti due eventi
Q1∩Q 2 oppure Q1∩Q 2 che sono incompatibili e quindi
34
Pr Q2 =Pr Q1 ∩Q2 Pr  Q1∩Q2 =Pr Q 1⋅Pr Q 2∣Q1 Pr Q1⋅Pr Q 2∣Q1=
10 9 30 10 10 9 10 10 39 1
= ⋅  ⋅ = ⋅  = ⋅ = =0.25
40 39 40 39 40 39 39 40 39 4
Osservazione:
Naturalmente sarà 0.25 la probabilità di estrarre alla seconda prova una carta di uno qualunque degli
altri semi e ricordando dal punto b) che Pr  P 2∣21 =0.25=Pr  P 2  possiamo concludere che, il
sapere il numero della carta alla prima estrazione, non modifica la probabilità del colore della carta
alla seconda estrazione; in altre parole saper il numero non aiuta a prevedere il colore.
Esercizio 12B1.
Vengono estratte, senza reintroduzione, tre carte da un mazzo di 52 contenente 13 carte di ciascun
seme (fiori, quadri, picche, cuori), per ciascun seme le carte sono contrassegnate dai numeri da 2 a
10, da fante, regina, re, asso.
Nella presentazione della soluzione utilizzeremo per gli eventi notazioni analoghe a quelle dell'esercizio precedente.
a) Trovare la probabilità che abbiano tutte lo stesso contrassegno
L'evento E:={tre carte con lo stesso contrassegno} è costituito dalla disgiunzione dei 13 eventi
incompatibili ed equiprobabili S i1∩S i2 ∩S i3  nel quale S ij con i =113 e j =13 rappresenta una
carta con un determinato contrassegno, l'i-mo, alla j-ma estrazione, per esempio S 32 indica il
verificarsi della carta 3 alla seconda estrazione, con queste posizioni calcoliamo la probabilità
richiesta
Pr  E= Pr

13
∪ S
i=1
i
1

13
∩S ∩S  =∑ Pr  S i1∩S i2∩S i3 =13⋅Pr S 21∩S 22∩S 23 =
i
2
i
3
i=1
4 3 2
=13⋅Pr S 21 ⋅Pr  S 22∣S 21 ⋅Pr  S 23∣ S 12∩S 22 =13⋅ ⋅ ⋅ =13⋅0.077⋅0.059⋅0.04=0.0024
52 51 50
b) Trovare la probabilità che nessuna delle tre carte sia asso
Pr nessuna sia asso= Pr  A1∩ A2∩ A3 =Pr  A1 ⋅Pr  A2∣ A1⋅Pr  A3∣ A1∩ A2 =
=
48 47 46
⋅ ⋅ =0.923⋅0.922⋅0.92=0.783
52 51 50
35
B2.1. Variabili casuali discrete
Esercizio 1B2.1.
Vi propongono di giocare al seguente gioco: si lanciano due monete, se si verificano due teste si
vince 1 euro, se si verificano due croci si vince 0.5 euro, in tutti gli altri casi non si vince nulla. Per
partecipare al gioco si paga 0.5 euro.
Conviene giocare a questo gioco? (calcolare la vincita media)
Indicando con T 1 e C 1 gli eventi Testa e Croce per una delle due monete e con T 2 e C 2 i
corrispondenti eventi per l'altra moneta, lo spazio degli eventi Ω generato dal lancio delle due monete
è dato da:
={T 1∩T 2 ,T 1∩C 2  ,C 1∩T 2  ,C 1∩C 2 }
Supponendo che le due monete siano bilanciate, cioè siano uguali le probabilità di Testa e di Croce e
quindi entrambe uguali ad 12 , la probabilità di ciascuno dei 4 eventi di Ω sarà data da 14 in quanto
ciascuna coppia di risultati è costituita da eventi indipendenti e di conseguenza la sua probabilità è
data dal prodotto delle probabilità dei due eventi che la costituiscono.
Costruiamo ora una variabile casuale G che associa a ciascun evento di Ω la differenza fra vincita e
costo di partecipazione al gioco
{
T 1∩T 2  1−0.5=0.5
G : C 1∩C 2  0.5−0.5=0
C 1∩T 2 ∪T 1∩C 2  0−0.5=−0.5
Pr 0.5=
Pr 0=
1
4
1
4
1 1 1
Pr −0.5=  =
4 4 2
Il valore atteso della variabile casuale G ci fornirà il guadagno atteso del gioco proposto e quindi la
risposta al quesito posto
1
1
1
E [G]=0.5⋅ 0⋅ −0.5⋅ =−0.125
4
4
2
poiché il guadagno atteso è negativo non conviene partecipare al gioco proposto.
Esercizio 2B2.1.
Un’urna contiene palline bianche e nere con probabilità rispettivamente uguale 0.3 e 0.7. La prova
consiste nell’estrarre ripetutamente una pallina dall’urna rimettendo la pallina nell’urna dopo ogni
estrazione.
a) Calcolare la probabilità di ottenere la prima pallina bianca alla decima estrazione.
Poiché le estrazioni sono effettuate con reintroduzione non cambia, da un'estrazione all'altra, la
36
composizione dell'urna e quindi la probabilità dei due risultati possibili: la probabilità di ottenere una
pallina di un determinato colore ad una certa estrazione è sempre la stessa ad ogni estrazione, ciò si
sintetizza dicendo che le estrazioni sono indipendenti.
Indicando con N i l'evento {pallina nera alla i-ma estrazione} e con Bi l'evento {pallina bianca alla
i-ma estrazione} bisogna calcolare la probabilità dell'evento
E 10 := N 1∩N 2 ∩N 3∩N 4∩N 5∩ N 6∩N 7∩ N 8 ∩N 9∩B 10 
e quindi
∏
9
Pr  E 10 =
1

Pr  N i ⋅Pr  B 10=0.7 9⋅0.3
b) Calcolare la probabilità di ottenere la prima pallina bianca fra la settima e la nona estrazione.
Indicando con E j l'evento {la prima pallina bianca si ottiene alla j-ma estrazione} si dovrà
determinare la probabilità dell'evento
B := E 7∪E 8∪ E 9
nel quale i tre eventi E 7 , E 8 ed E 9 sono incompatibili e quindi:
6
7
8
Pr  B= Pr  E 7∪E 8∪ E 9= Pr  E 7 Pr  E 8 Pr  E 9=0.7 ⋅0.30.7 ⋅0.30.7 ⋅0.3=0.077
Esercizio 3B2.1.
Un’urna contiene 7 palline gialle e 3 rosse.
a) Calcolare la probabilità che, estraendo dall’urna due palline senza reintroduzione, alla
seconda estrazione si verifichi pallina gialla
Utilizzando notazioni analoghe a quelle dell'esercizio 1B2.1 e tenendo conto che in questo caso le
estrazioni non sono indipendenti in quanto la pallina estratta non viene rimessa nell'urna, si ha:
G 2=G 1∩G 2∪ R1∩G 2 
Pr G 2 =Pr G1∩G 2∪ R1∩G 2 =Pr G 1∩G 2 Pr  R1∩G 2 =
7 6 3 7 7
=Pr G 1⋅Pr G 2∣G 1 Pr  R1 ⋅Pr G2∣R1 = ⋅  ⋅ = =0.7
10 9 10 9 10
b) Calcolare la probabilità che, estraendo dall’urna due palline senza reintroduzione, si verifichi
pallina rossa alla prima estrazione e gialla alla seconda
Pr  R1 ∩G 2 =Pr  R1 ⋅Pr G 2∣R1 =
3 7
⋅ =0.23
10 9
37
Esercizio 4B2.1.
La proporzione di studenti di una certa Facoltà che hanno superato un determinato esame è 0.3 e si
ipotizza di estrarre un campione casuale di 50 studenti della stessa Facoltà.
a) Stabilire la probabilità di ottenere una proporzione campionaria di studenti che hanno
superato quell’esame pari a 0.4.
X
La proporzione campionaria è una variabile casuale definita da n nella quale X rappresenta il numero
di successi nelle n estrazioni, in questo caso il valore fissato della proporzione campionaria è 0.4 in un
campione di numerosità 50 e quindi x=0.4⋅50=20 . Si dovrà quindi calcolare la probabilità di
ottenere 20 successi in 50 prove di Bernoulli indipendenti, ciascuna con probabilità di successo θ pari
a 0.3; a tale scopo utilizziamo la funzione di distribuzione di probabilità della variabile casuale
binomiale (X) che fornisce appunto la probabilità di ottenere x successi in n prove bernoulliane

x
n− x
Pr  X = x= n  ⋅1−
x
x=0,1 , 2, n
la probabilità richiesta sarà quindi
 
50!
Pr  X =20= 50 0.320⋅1−0.350− 20 =
⋅0.320⋅0.7 30=0.037
20!⋅50−20!
20
Esercizio 5B2.1.
I corsi di Statistica offerti negli atenei italiani richiedono agli studenti di acquistare un numero
variable di libri di testo. Sia X la variabile casuale che rappresenta il numero di libri di testo
richiesti da un corso di Statistica scelto a caso. X può assumere soltanto i valori 0, 1, 2, 3, 4, 5 e la
tabelle sottostante fornisce la distribuzione di probabilità della variabile causuale X (a meno di una
delle probabilità che è mancante):
Numero di libri richiesti x
Probabilità Pr(X=x)
0
?
1
0.45
2
0.24
3
0.12
4
0.09
5
0.05
a) Che valore ha la probabilità mancante?
Affinchè la funzione di distribuzione di probabilità Pr(X=x) sia ben definita dovrà essere:
Pr  X = x ≥0
∀ x=0,1 ,2 ,3,4 ,5
5
∑ Pr  X = x=1
x=0
di conseguenza, tenendo conto della seconda delle precedenti condizioni, si dovrà avere
Pr  X =0Pr  X =1Pr  X =2Pr  X =3Pr  X =4Pr  X =5=1
Pr  X =00.450.240.120.090.05=1
Pr  X =0=1−0.450.240.120.090.05=0.05
quindi la probabilità richiesta è pari a 0.05, notiamo infine che anche la prima delle condizioni poste è
soddisfatta.
38
b) Qual è la probabilità che un corso scelto a caso richieda 2 o più libri di testo?
Bisogna determinare la Pr  X ≥2
Pr  X ≥2=Pr  X =2Pr  X =3Pr  X =4Pr  X =5=0.240.120.090.05=0.5
c)
Si calcoli il valore atteso della variabile casuale X.
5
E  X =∑ x⋅Pr  X =x =
x=0
=0⋅Pr  X =01⋅Pr  X =12⋅Pr  X =23⋅Pr  X =34⋅Pr  X =45⋅Pr  X =5=
=0⋅0.051⋅0.452⋅0.243⋅0.124⋅0.095⋅0.05=1.9
Esercizio 6B2.1.
Sapendo che un certo partito politico ha ottenuto in un determinato collegio elettorale il 35% dei
voti e supponendo di estrarre casualmente,con reintroduzione, fra le schede depositate nell’urna 30
schede, calcolare
a) la probabilità di ottenere 15 schede favorevoli al partito
L'urna dalla quale si effettuano le estrazioni può essere descritta da una variabile casuale di Bernoulli
X
{
X : scheda non favorevole  0
scheda favorevole
1
Pr  X =0=1−0.35=0.65
Pr  X =1=0.35
e di conseguenza il numero di schede favorevoli nelle 30 estrazioni è rappresentato da una variabile
casuale binomiale Y di parametri n=30 e p=0.35 la cui funzione di distribuzione di probabilità
sarà
 
k
30−k
Pr Y=k = 30 0.35 0.65
k
k =0,1,2 ,,30
la probabilità richiesta sarà quindi
 
30!
Pr Y =15= 30 0.3515 0.6530−15=
0.3515 0.6515=0.035
15!⋅30−15!
15
b) la probabilità di ottenere non meno di 27 schede favorevoli al partito
Sulla base di quanto detto al punto a) la probabilità richiesta è data da
30
 
Pr Y ≥27= ∑ 30 0.35k 0.6530− k =0.0000000005786
k
k=27
39
B2.2. Variabili casuali continue
Esercizio 1B2.2.
Si è rilevato che il tempo di percorrenza di un tratto autostradale da parte degli automobilisti è
descritto da una variabile casuale con la seguente distribuzione di probabilità:
Tempo (minuti)
[15,20]
]20,23]
]23,27]
]27,31]
Probabilità
0.15
0.25
0.40
0.20
a) Calcolare la probabilità che un automobilista percorra il tratto autostradale in non più di 23
minuti
Indicando con T il tempo di percorrenza, la probabilità richiesta è data da
Pr T 23=Pr [15T 20∪20T 23]=
=Pr [15T 20]Pr [20T 23]=0.150.25=0.4
b) Calcolare la probabilità di percorrere il tratto autostradale in un tempo non superiore a 27
minuti
Pr T 27=1−Pr T 27=1−Pr 27T 31=1−0.20=0.8
b) Calcolare la probabilità di percorrere il tratto autostradale in un tempo T tale che 20<T≤27
Pr 20T 27=Pr [20T 23∪23T 27]=
=Pr 20T 23Pr 23T 27=0.250.40=0.65
Esercizio 2B2.2.
La quantità P in grammi di farina erogati in ogni confezione da una macchina si distribuisce
normalmente con media 500 g. e scarto quadratico medio 10 g.
a) Calcolare la probabilità che vengano erogati meno di 485 g.
Ricordiamo innanzitutto che, data una qualunque variabile casuale normale (X) di media µ e scarto
quadratico medio σ che indichiamo con X ~N  ,  . Per la simmetria rispetto alla retta x= della
sua funzione di densità f(x;µ,σ), che per brevità indicheremo con f(x), si ha
f −k = f k  per qualunque k 0
di conseguenza, con semplici trasformazioni della variable di integrazione, ed indicando con  X  x 
la funzione di ripartizione di X si ha
40
− k
k
∞
∞
−∞
∞
k
k
Pr  X −k = X −k = ∫ f  x dx=−∫ f − y dy= ∫ f − y  dy=∫ f  y dy=
∞
= ∫ f  x  dx=Pr  X k =1−Pr  X k =1− X k 
 k
Sappiamo inoltre che la standardizzata (Z) di una normale è ancora normale con, ovviamente, media
zero e scarto quadratico medio uno, quindi la relazione precedente per Z si scrive
Pr  Z 0−k =Pr  Z −k = Z −k =1−Z k 
ricordiamo infine che, preso un qualunque numero reale h si avrà
 X  h= Pr  X h= Pr 
X − h−
h−
h−

=Pr  Z 
= Z 





Con queste premesse possiamo calcolare la probabilità richiesta.
Sappiamo che P ha distribuzione normale di media µ=500 e varianza 100 e quindi scarto quadratico
medio σ=10, di conseguenza si ha
Pr  P≤485=Pr

 

P− 485−
P−500 485−500

= Pr

=Pr W ≤−1.5
10
10


nella quale con W si è indicata la standardizzata di P, tenendo ora conto delle proprietà della normale
ricordate prima ed utilizzando la tavola della normale standardizzata si ha
Pr W −1.5=Pr W 1.5=1−Pr W 1.5=1− W 1.5=1−0.93319=0.06681
b) Calcolare la probabilità che la quantità erogata sia compresa fra 490 g. e 512 g.
490−500 P−500 512−500


= Pr −1W 1.2=
10
10
10
= W 1.2−W −1= W 1.2−1−W 1=0.88493−1−0.84134=0.72627
Pr 490P512=Pr 
c)
Stabilire quel peso p 0 per il quale la probabilità che la macchina eroghi una quantità di
farina maggiore di p 0 è pari a 0.14
Dobbiamo determinare un p 0 tale che Pr  P p 0=0.14 ; possiamo scrivere
Pr  P p 0 =1−Pr  P p 0 =1−Pr
nella quale si è posto w 0=
standardizzata tale che
p0 −500
10


P−500 p0 −500

=1−Pr W w0 =0.14
10
10
e quindi si tratterà di determinare quel valore w 0 della normale
Pr W w 0= W w 0 =1−0.14=0.86
dalla tavola della normale standardizzata il valore di probabilità più vicino a 0.86 è 0.85993 cui
corrisponde il valore di W dato da 1.08; quindi
p 0=50010⋅w0=50010⋅1.08=510.8
La probabilità che la macchina eroghi una quantità di farina maggiore di 510.8 grammi è pari a 0.14.
41
Esercizio 3B2.2.
I laureati di una certa facoltà hanno una votazione di laurea media di 100 con uno scarto
quadratico medio di 4. Supponiamo che la distribuzione dei voti sia normale.
a) Calcolare la probabilità che un laureato riporti un voto alla laurea compreso tra 96 e 104
La variabile V, voto alla laurea, è per sua natura discreta e quindi assume valori interi, v i ,fra 66 e 110;
supporre che sia normale, come indicato nel testo del problema, vuol dire fare le seguenti ipotesi:
i. La variabile V viene prolungata per continuità associando a ciascun valore v i l'intervallo
]v i −0.5 , v i0.5 ] ; costruendo, cioè, una nuova variabile casuale continua L che assume valori
nell'intervallo [ 66−0.5 , 1100.5 ]≡[ 65.5 , 110.5 ] .
ii. La variabile L sia uniformememente distribuita in ciascun intervallo ]v i −0.5 , v i0.5 ] con
funzione di densità data da
g  l =
{
Pr  v i 
0
∀ l ∈ ] v i−0.5 , v i 0.5 ]
Altrove
i=1 45
nella quale v i =i65 e quindi
v i 0.5
Pr v i−0.5Lv i 0.5=
∫
v i 0.5
g l dl=
v i −0.5
∫
v i −0.5
vi 0.5
Pr v i dl= Pr v i 
∫
dl=
vi −0.5
=Pr  v i [v i 0.5−v i −0.5]=Pr  v i 
il che evidenzia che la probabilità di ottenere un certo voto si può calcolare utilizzando la
funzione di densità della variabile L anziché la funzione di distribuzione di probabilità di V.
iii. La variabile normale F ~N 100,4 costituisce una “buona” approssimazione di L nel senso che
∀ f ∈ℝ ⇒ Pr  L f ≈Pr  F f  ovvero che la funzione di ripartizione di L è “bene”
approssimata da quella di F.
Con le ipotesi poste possiamo perciò scrivere
Pr 96V 104=Pr 96−0.5L≤1040.5=Pr 95.5L≤104.5= L 104.5− L 95.5≈
≈ F 104.5− F 95.5
effettuando la standardizzazione di F ed utilizzando le tavole della normale standardizzata si ha
104.5−100
95.5−100
− Z 
= Z 1.125− Z −1.125=
4
4
= Z 1.125−1− Z 1.125=2⋅ Z 1.125−1=2⋅0.86864−1=0.73728
 F 104.5− F 95.5= Z 
b) Calcolare la probabilità che un laureato ottenga un voto maggiore di 108
Pr V 108=1−Pr V 108=1−Pr  L108.5≈1−Pr  F 108.5=1−Z 
108.5−100
=
4
=1− Z 2.125=1−0.983=0.017
42
c)
Calcolare la differenza interquartile
Bisogna determinare la quantità D=Q3−Q1 nella quale Q 1 e Q3 sono rispettivamente il primo ed
il terzo quartile; non disponendo della distribuzione empirica di V per determinare i due quartili
necessari utilizzeremo la distribuzione della variabile F.
Q 1 : Pr  F Q1 =0.25 ⇒  F Q1 =0.25 ⇒  Z

⇒ 1−  Z −



Q1−100

4

=0.25 ⇒
Q1−100
Q −100
=0.25 ⇒  Z − 1
=0.75
4
4
ed utilizzando la tavola della normale standardizzata si ha infine
−
Q 1−100
4
=0.68 ⇒ Q 1=100−4⋅0.68=97.28
procedendo in maniera del tutta analoga alla precedente si ha
Q 3 : Pr  F Q 3=0.75 ⇒  F Q3 =0.75 ⇒  Z
⇒ Q3=1004⋅0.68 ⇒ Q3 =102.72


Q 3−100
Q 3−100
=0.75 ⇒
=0.68 ⇒
4
4
e quindi
D=Q3−Q1=102.72−97.28=5.44
43
C. INFERENZA STATISTICA
44
C1. Stima per intervalli
Esercizio 1C1.
Per analizzare la riuscita scolastica degli adolescenti si estrae un campione casuale semplice con
reintroduzione di 600 studenti della prima classe superiore. In tale campione il numero di ragazzi
bocciati è pari a 220.
Calcolare l’intervallo di confidenza al 90% per la percentuale dei bocciati nell’intera
popolazione.
Indichiamo con X la v.c. che rappresenta l’esito della prima classe superiore:
{
X = 0 ⇔ promosso
1 ⇔ bocciato
Pr  X =0=1− p
Pr  X =1= p

Se B è il numero di studenti bocciati in n prove Bernoulliane, la v.c. P=B
/n , che è la proporzione
campionaria di bocciati, segue una distribuzione binomiale relativa con parametri n e p:
 B ~ Bin R  n , p 
P=
n
che ha valore atteso p e varianza p 1− p/ n .
Dato che la numerosità del campione è pari a 600, la distribuzione della variabile B /n può essere
approssimata con una distribuzione normale
B
≃N
n

p,
p 1− p
n

A questo punto possiamo quindi ricondurci al caso della stima di un intervallo di confidenza per la
media di una normale con varianza incognita.
Il corrispondente intervallo di confidenza asintotico per il parametro p (proporzione di bocciati per
l’intera popolazione) con livello di confidenza 1− è dato da:
IC 1−  p:=
{
 z
P−

1−
2


P 1− P
 z
 p P

n
1−
2

P 1− P 
n
}
nella quale z 1− /2 è il quantile di ordine 1− / 2 della normale standardizzata Z
z

1−
2

: Pr Z ≤z

1−
2

=1−

2
La stima di p sulla base delle informazioni campionarie è data da p =220/600=0.36 ; inoltre dai dati
del problema si ha
1−=0.90 ⇒ =0.10 ⇒


=0.05 ⇒ 1− =0.95
2
2
di conseguenza dalla tavola della normale standardizzata si ha z 1− /2 =z 0.95=1.65 e in definitiva la
45
stima dell’intervallo di confidenza è data da

IC 0.95  p:=
{
p −z
{

1−
2

p 1− p 
 p p z 
n
1−
2


p 1− p 
n
}

⇒
0.361−0.36
0.36 1−0.36
 p0.361.65
600
600
⇒ {0.328 p≤0.329 }
⇒
0.36−1.65
}
⇒
Esercizio 2C1.
In una città ci sono 100000 persone di età compresa fra i 18 e i 25 anni; si estrae da questa
popolazione un campione casuale semplice di 500 soggetti, 194 di questi risultano iscritti
all’Università.
Determinare un intervallo di confidenza al 95% per la proporzione di persone con età
compresa fra i 18 e i 25 anni che sono iscritte all’ Università.
LA SOLUZIONE È ANALOGA AL PRECEDENTE ESERCIZIO
In questo situazione si ha
1−=0.95 ⇒ =0.05 ⇒
z
1−

2
p=
=z 0.975=1.96


=0.025 ⇒ 1− =0.975
2
2
194
=0.388
500
e quindi la stima dell'intevallo di confidenza per la proporzione p di iscritti all'Università è data da

IC 0.95  p:=
{
p −z
{

1−
2

p 1− p 
 p p z 
n
1−
2


p 1− p 
n
}
⇒
0.3881−0.388
 p0.3881.96
500
⇒ {0.345 p≤0.431 }
⇒
0.388−1.96

0.3881−0.388
500
}
⇒
46
Esercizio 3C1.
Per studiare l’effetto della marijuana sulle capacità intellettuali di soggetti (senza esperienze
precedenti) alcuni ricercatori hanno verificato su un campione di soggetti i cambiamenti nei
punteggi ad opportuni test dopo aver fumato della marijuana. I risultati sono presentati nella
seguente tabella:
Soggetto
Differenza punteggio
1
5
2
-17
3
-7
4
-3
5
-7
6
-9
7
-6
8
1
9
3
Si determini l’intervallo di confidenza per la media della differenza dei punteggi al 99%.
Si tratta di un problema di stima di un intervallo di confidenza per la media di una popolazione con
varianza incognita. Per dare una risposta al problema bisogna ipotizzare che la differenza dei punteggi
si distribuisca normalmente e quindi si tratta di determinare l'intervallo di confidenza per il valore
medio θ di una normale di varianza incognita. Esso è dato da:
IC 1−  :=
{
X n−t 
2
Sn
,n −1
n
 X nt 
2
Sn
, n−1
n
}
nella quale
n
1
X n= ∑ X i
n i=1
n
1
2
 2
S n=
 X i− X
∑
n−1 i=1
è la media campionaria
è la varianza campionaria corretta
S n= S 2n
t
2
,n−1
: Pr T  n−1t 
2
,n−1
=1−

2

della variabile T di
2
Student con n−1 gradi di di libertà
è il quantile di ordine 1−
Per stimare l'intervallo di confidenza dovremo determinare i valori della media campionaria e della
varianza campionaria sulla base del campione osservato
xn=
5−17−7−3−7−9−613 −40
=
= −4.44
9
9
Ricordando ora che la varianza si può esprimere come media dei quadrati delle determinazioni meno
il quadrato della media, si ha
n
2
S n=
n
n
1
n 1
n 1
2
2
 X i − X n =
 X i − X n =
∑
∑
∑  X i − X n2=
n−1 i=1
n n−1 i=1
n−1 n i=1
[
n
n
1
=
X 2i − X 2
∑
n−1 n i=1
]
e quindi la varianza campionaria corretta osservata sarà data da
47
9
s=
8
2
n
=
{[

]
}
52−172−72−32−72−92−62123 2
−4.44 2 =
9

9 548
9
−19.75 = 41.13=46.28 ⇒ s n= s 2n= 46.28=6.803
8 9
8
inoltre
1−=0.99 ⇒

=0.005 ⇒ t 0.005,8=3.355
2
Dunque, la stima dell'intevallo di confidenza richiesto è
{
−4.44−3.355
}
6.803
6.803
≤≤−4.443.355
≡ {−12.05≤3.17}
9
9
48
C2. Verifica delle ipotesi
In questa sezione sono proposti test sui parametri di una popolazione normale. In tutti gli esercizi proposti si
ipotizza che la/le popolazione/i dalla/e quale/i si effettua il campionamento sia/siano normale/i.
Esercizio 1C2.
Una macchina per il riempimento delle buste di patatine ha uno scarto quadratico medio di 6
grammi e una media incognita. La macchina è stata costruita per un riempimento medio delle buste
di patatine di 100 grammi. Per verificare la conformità del riempimento a quello previsto dalle
specifiche costruttive si estrae un campione di 100 buste ottenendo un contenuto medio di 99
grammi.
Effettuare un test delle ipotesi per stabilire se il riempimento medio di 100 grammi è
accettabile al livello di significatività 0.05.
Il test da effettuare riguarda la media di una normale X ~ N ,6 di cui è nota la varianza. Si deve
sottoporre a test l’ipotesi
H 0 : =0 =100
contro
H 1 : ≠0=100
come previstodalle specifiche costruttive
Il test è quindi bidirezionale, la statistica test da utilizzare è la media campionaria X che sotto
l'ipotesi H 0 si distribuisce come una normale
X ~N 0 ,


n
e la regione critica “migliore” di ampiezza α è così definita:
RC  :
{
X ≤0−z

1−
2
}{


∪ X 0 z 
1−  n
n
2
}
nella quale z 1− /2 è il quantile di ordine 1− / 2 della normale standardizzata Z. Nel nostro caso
quindi la regione critica è così individuata
RC  :
{
X ≤100−1.96
}{
}
6
6
∪ X ≥1001.96
≡ { X ≤98.82}∪{ X ≥101.76 }
 100
 100
di conseguenza la regione di non rifiuto dell'ipotesi nulla è data da
RC  : {98.82 X 101.76 }
Il valore osservato della media campionaria è pari a 99 che appartiene alla regione di non rifiuto per
cui possiamo concludere che, sulla base delle risultanze campionarie non possiamo rifiutare quanto
affermato nelle specifiche costruttive.
Vogliamo a questo punto aggiungere che la regione critica individuata può anche essere scritta,
effetuando delle semplici trasformazioni, come segue
49
RC  :
{
{
X ≤0−z

1−
2
⇔ X −0≤−z
⇔
{
X −0

n

1−
2
≤−z
}{
 }{
}
 }


∪ X 0 z 
1−  n
n
2

1−
2


∪ X −0≥z 
1−
n
n
2
}{
∪
X −0

n
≥z
1−

2
}
⇔
⇔
nella quale la statistica test è data da
Z=
X −0

n
~ N 0,1
e di conseguenza si rifiuterà l'ipotesi nulla se il suo valore calcolato in corrispondenza del campione
osservato cade nella regione critica. Dato che
Z c=
99−100
=−1.67−1.96
6
10
non rifiutiamo l'ipotesi nulla.
Esercizio 2C2.
Su un campione di giovani fra i 20 e 25 anni è stato rilevato X:=“numero di libri letti in un anno”
ottenendo i seguenti risultati campionari
Numero di libri letti
4
5
5
2
6
1
4
Si può confutare l’ipotesi di un editore che il numero medio di libri letti è 2 con un livello di
significatività di 0.05?
Si deve effettuare un test sul valore medio di una popolazione la cui varianza è incognita.
Se ipotizziamo che X è distribuita normalmente con una media µ e una varianza σ2, bisognerà
effettuare un test delle ipotesi sulla media di una normale di varianza incognita; le ipotesi da mettere a
confronto sono
H 0 : =0 =2
contro
H 1 : ≠0=2
come affermato dall'editore
in questo caso, poiché la varianza della popolazione non è nota, la regione critica “migliore” è data da
{
RC  : T −t 
2
,n −1
}∪{T t }

, n−1
2
nella quale la statistica test T che, sotto l'ipotesi H 0 si distribuisce come una t di Student con n-1
50
gradi di libertà, è così definita
T=
X −0
S
n
in cui S è la varianza campionaria corretta, inoltre t  /2 ,n−1 è il quantile di ordine 1− / 2 della t di
Student con n-1 gradi di libertà; nel nostro caso la regione critica sarà data:
{
RC 0.05 : T =
}{
X −2
X −2
−2.447 ∪ T =
2.447
S
S
n
n
}
Per effettuare il nostro test dovremo determinare il valore che la statistica test assume dato il
campione osservato; i valori osservati di media campionaria e varianza campionaria corretta sono
x=
4552614
=3.857
7
[
] [
]
7 42 525 22 26 21242
7 123
2
2
s=
−3.857 =
−3.857 =3.143 ⇒ s=1.773
6
7
6 7
2
e quindi
T c=
3.857−2 1.857
=
=2.77
1.773
0.67
7
Poiché il valore campionario della statistica test appartiene alla regione critica in quanto è maggiore
del punto critico possiamo rifiutare l'ipotesi nulla.
Se il quesito posto fosse stato
L'editore afferma che il numero medio di libri letti è 2 mentre il responsabile dell'ufficio
vendite è convinto che in media si leggono più di 2 libri, è possibbible confutare l'affermazione
dell'editore al livello di significatività di 0.05?
In questa situazione le ipotesi da mettere a confronto sono
H 0 : =0 =2
contro
H 1 : ≠02
come affermato dall'editore
come affermato dal responsabile delle vendite
e la regione critica è data da
RC  : {T t  , n−1} ⇒ RC 0.05 : {T 1.943 }
anche in questo caso, come era da attendersi, il valore campionario della statistica test appartiene alla
regione critica e quindi si può rifiutare l'ipotesi che in media si leggono 2 libri.
51
Esercizio 3C2.
In un campione di pazienti trattati con una terapia per l’abbassamento del colesterolo si sono
osservati i seguenti valori di colesterolo in milligrammi per 100 millilitri di sangue:
130
145
128
169
132
138
141
153
129
135
140
Sapendo che in una popolazione di persone sane la quantità di colesterolo in media è pari a
130 cosa fareste per stabilire se la terapia adottata ha avuto effetto?
SOLUZIONE UGUALE AL PRECEDENTE ESERCIZIO
Le ipotesi da sottoporre a test sono
H 0 : =0 =130
contro
H 1 : ≠0130
colesterolo per persone sane
colesterolo alterato
la regione critica è data da:
RC  : {T t  , n−1} ⇒ RC 0.05 : {T 1.812 }
T c=
140−130
10
=
=2.714
12.22
3.684
 11
Il valore campionario della statistica test appartiene alla regione critica, quindi rifiutiamo l'ipotesi
nulla. Possiamo concludere che, al livello di significatività di 0.05, la cura non ha avuto effetto sui
pazienti.
Esercizio 4C2.
Per un’indagine sul lavoro femminile sono state rilevate le ore lavorate giornalmente di un
campione di 60 lavoratrici residenti in Toscana e di un campione di 45 lavoratrici residenti in
Lombardia. I risultati sono i seguenti:
Regione
Toscana
Lombardia
Media
Varianza
Campionari campionaria
a
5.5
4
6.5
9
Numerosità
campionaria
60
45
Verificare se le osservazioni campionarie possono suffragare l’ipotesi che in Toscana ci sia
una tendenza maggiore all’uso del part-time (α=0.05).
Precisiamo innanzitutto che assumeremo i valori osservati delle varianze campionarie come stime
delle varianze campionarie corrette, inoltre ipotizzeremo che le due popolazioni hanno la stessa
varianza (ipotesi di omoschedasticità) e che i due campioni siano indipendenti.
Con queste premesse il “migliore” stimatore della varianza comune è dato da:
52
S 2n ,m =
S 2T⋅n−1S 2L⋅ m−1
nm−2
nella quale i pedici T :=Toscana e L:=Lombardia stanno ad indicare, qui e nel seguito, a quale delle
due popolazioni si riferiscono gli indici, n è la numerosità campionaria per la Toscana e m quella della
Lombardia ed infine S 2T e S 2L sono le varianze campionarie corrette.
Per dare risposta al quesito posto bisogna effettuare un test di confronto tra le medie delle due
popolazioni, ovvero mettere a confronto le ipotesi
H 0 : T = L ⇔ H 0 : T − L =0
contro
H 1 : T L ⇔ H 1 : T −L 0
nessuna differenza tra le regioni
più part-time in Toscana
(ovvero numero medio di ore lavorate inferiore)
La statistica test da utilizzare in questo caso è la seguente
T=
 X T − X L −T − L 
S n,m
che sotto l'ipotesi H 0 diventa
T=

1 1

n m
X T− X L
S n ,m

1 1

n m
che si distribuisce come una t di Student con n+m-2 gradi di libertà; la regione critica per effettuare il
test richiesto al livello α è data da
RC  : {T −t  , nm−2 }
che nel caso in esame diventa
RC 0.05 : {T −t 0.05,103}≡{T −1.66 }
La statistica test, calcolata sul campione osservato, è così determinata
60−1⋅445−1⋅9 632
=
=6.136 ⇒ s n.m=2.477
6045−2
103
5.5−6.5
−1
T c=
=
=−2.047
1
1 0.488
2.477⋅

60 45
s 2n.m=

Poiché il valore campionario della statistica test appartiene alla regione critica possiamo rifiutare
l'ipotesi nulla a favore dell'ipotesi alternativa; possiamo qundi affermare, al livello di significatività di
0.05, che in Toscana vi è una maggiore propensione delle lavoratrici al part-time che in Lombardia.
53
Esercizio 5C2.
Si supponga di voler comparare la durata media delle lampadine prodotte da due fabbriche e di
disporre delle seguenti informazioni campionarie
Fabbrica A
Fabbrica B
Numerosità
100
80
Durata media (ore)
107
122
S /n
22
10
nella quale S /  n è la deviazione standard (o errore) della media campionaria.
Sottoporre a test l’ipotesi di uguaglianza fra le medie al livello di significatività 0.01
L’ESERCIZIO È SIMILE AL PRECEDENTE.
Le ipotesi da sottoporre a verifica sono in questo caso
H 0 :  A= B ⇔ H 0 :  A− B=0
contro
H 1 :  A≠B ⇔ H 1 :  A−B ≠0
nessuna differenza di durata
differenza di durata
Ipotizzando, come nell'esercizio precedente, l'uguaglianza delle varianze delle due popolazioni, lo
stimatore della varianza comune è dato da
S
2
n ,m
S 2A⋅ n−1S 2B⋅m−1
=
nm−2
nella quale S 2A e S 2B si determinano, sulla base delle informazioni fornite, nel modo seguente
 
 
2
A
S =
2
B
S =
2
SA
⇒
S A=
⋅m
⇒
S B=
n
2
SB
m
  
  
⋅n
SA
n
SB
m
⋅ n
⋅ m
e quindi le corrispondenti stime nel nostro caso sono
s A = 22  ⋅100=484⋅100=48400
2
2
s B = 10  ⋅80=100⋅80=8000
2
2
Di conseguenza la stima della varianza comune è
s 2n.m=
100−1⋅4840080−1⋅8000 5423600
=
=30469.66 ⇒ sn.m =174.55
10080−2
178
La statistica test è la stessa dell'esercizio precedente e, tenendo conto che in questo caso il test è
bilaterale, la regione critica è data da
RC 0.01 : {T −t 0.005,178 }∪{T t 0.005,178 }≡{T −2.58 }∪{T 2.58 }
Il valore della statistica test corrispondente alle informazioni campionarie è
54
107−122
T c=

174.55⋅
1
1

100 80
=
−15
=−0.57
26.33
poiché tale valore non appartiene alla regione di rifiuto si deve concludere che le risultanze
campionarie non ci permettono di rifiutare l’ipotesi nulla: cioè non possiamo rifiutare l'ipotesi che la
durata media delle lampadine delle due fabbriche sia la stessa.
Esercizio 6C2.
Si è misurata la durata in ore delle pile prodotte da due diverse industrie su due campioni casuali
estratti dalla produzione di pile delle due marche, i risultati campionari sono riportati nella tabella
che segue:
Marca A
Marca B
1094
1159
1137
1224
1161
1153
1092
1229
1123
1260
1084
Stabilire attraverso un test di ampiezza 0.05 se vi è differenza fra la durata delle pile delle due
marche.
Il problema è del tutto simile al precedente tranne per il fatto che bisognerà stimare le medie e la
varianza comune sulla base delle informazioni campionarie.
109411371161109211231084
=1115.167
6
11591224115312291260
xB =
=1205
5
xA =
6
n−1⋅s 2A=∑  x i− xA 2=4594.83
i=1
5
m−1⋅s2B=∑  x i − xB 2 =8782
i =1
e di conseguenza
2
s n.m=
4594.838782 13376.83
=
=1486.314 ⇒ sn.m =38.55
65−2
9
anche in questo caso le ipotesi da porre a confronto sono
H 0 :  A= B ⇔ H 0 :  A− B=0
contro
H 1 :  A≠B ⇔ H 1 :  A−B ≠0
nessuna differenza nelle durate medie
differenza tra le durate medie
e la regione critica è data da
RC 0.05 : {T −t 0.025,9 }∪{T t 0.025,9}≡{T −2.262}∪{T 2.262 }
Il valore della statistica test corrispondente alle informazioni campionarie è
55
T c=
1115.167−1205 −89.833
=
=−3.848
23.34
1 1
38.55⋅ 
6 5

che appartiene alla regione critica in quanto minore di -2.262 e quindi possiamo rifiutare, al livello di
significatività 0.05, l'ipotesi che la durata media delle pile delle due marche sia uguale.
56