Lezioni di STATISTICA MATEMATICA

Transcript

Lezioni di STATISTICA MATEMATICA
Università di Modena e Reggio Emilia
Facoltà di Ingegneria - sede di Modena
Lezioni
di
STATISTICA MATEMATICA
Docente: Prof. Valter Franceschini
per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali
- a.a. 2008/09 -
INDICE
1
CALCOLO DELLE PROBABILITÀ
1
1.1
Calcolo combinatorio
1
1.2
La probabilità matematica
Spazi di probabilità finiti
Spazi finiti equiprobabili
5
8
9
1.3
Probabilità condizionata
Eventi indipendenti
Formula di Bayes
14
16
19
1.4
Variabili aleatorie
Variabili aleatorie discrete
Variabili aleatorie continue
23
25
26
1.5
Media e varianza
31
1.6
Variabili aleatorie bidimensionali
37
1.7
Distribuzioni binomiale, di Poisson e di Gauss
Distribuzione binomiale
Distribuzione di Poisson
Distribuzione di Gauss
46
46
49
51
1.8
Approssimazione normale
55
1.9
Altre distribuzioni
Distribuzione esponenziale
Distribuzione ipergeometrica
Distribuzione geometrica
61
61
63
65
2
STATISTICA DESCRITTIVA
66
2.1
2.2
2.3
Introduzione
Organizzazione e rappresentazione dei dati
Grandezze che sintetizzano i dati
66
66
71
3
STATISTICA MATEMATICA
81
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
Popolazioni e campioni
Stimatori
Distribuzioni chi-quadro e di Student
Intervalli di fiducia (o di confidenza)
Stima della media di una popolazione normale
Stima della varianza di una popolazione normale
Stima della differenza delle medie di due popolazioni normali
Stima di una proporzione
Basi logiche dei test
Formulazione di un test di ipotesi
Test di significatività
Test riguardanti la media di una popolazione normale
Test riguardanti la differenza delle medie di due popolazioni normali
Curve caratteristiche operative dei test
81
82
85
87
87
91
94
99
102
104
107
109
117
120
Tavole delle leggi N (0, 1), χ2n e Tn
125
Bibliografia
128
CAPITOLO
1: CALCOLO DELLE PROBABILITÀ
1.1 CALCOLO COMBINATORIO
DISPOSIZIONI
Definizione Una disposizione semplice di n oggetti dati presi k alla volta è una
k¡upla ordinata di k oggetti distinti scelti tra gli n (ovviamente k · n) .
Esempio 1.1.1
Le disposizioni semplici dei 3 oggetti dati a, b, c presi a coppie (per cui
k = 2, n = 3), sono
(a, b), (b, c), (c, a), (b, a), (c, b), (a, c) .
Proposizione Il numero di disposizioni semplici di n oggetti presi k alla volta, che
indichiamo con D(k; n), è il prodotto dei k numeri naturali decrescenti a partire
da n:
D(k; n) = n(n ¡ 1) ¢ ¢ ¢ (n ¡ k + 1) =
n!
.
(n ¡ k)!
Infatti, se riempio k caselle in ordine, nella prima ho n possibilità di scelta, nella
seconda (n ¡ 1) possibilità, ..., nella k¡esima (n ¡ k + 1).
Definizione Una disposizione con ripetizione di n oggetti dati presi k alla volta
è una k¡upla ordinata i cui elementi, non necessariamente distinti, sono scelti fra
gli n.
Osservazione: differentemente dal caso delle disposizioni semplici, k può anche essere
maggiore di n.
Esempio 1.1.2 Le diposizioni con ripetizione dei tre oggetti a, b, c a due a due (per cui
n = 3, k = 2) sono
(a, a), (a, b), (b, a), (b, b), (b, c), (c, b), (a, c), (c, a), (c, c) .
Proposizione
Il numero di disposizioni con ripetizione di n oggetti presi k alla
volta è
D R (k; n) = nk .
Infatti, se riempio k caselle in ordine, nella prima casella ho n possibilità di scelta,
nella seconda ho ancora n possibilità, e cosı̀ per tutte le altre caselle. Ottengo quindi
il numero di oggetti elevato al numero di caselle.
Il numero delle possibile schedine del totocalcio è 313 ; questo è infatti il
numero di disposizioni con ripetizione dei 3 simboli 1, 2, x, in 13 caselle ordinate.
Esempio 1.1.3
Osservazione: Come si deduce da quanto appena visto, in questo contesto l’aggettivo
1
”semplice” significa ”senza ripetizioni”.
2
PERMUTAZIONI
Definizione Una permutazione di n oggetti dati è una n¡upla ordinata i cui
elementi sono tutti gli n oggetti.
Detto altrimenti, una permutazione è una disposizione semplice degli n oggetti dati
quando sono presi tutti n (si tratta del caso k = n). Di conseguenza il numero P (n)
delle possibili permutazioni di n oggetti vale
P (n) = n(n ¡ 1) ¢ ¢ ¢ 3 ¢ 2 ¢ 1 ´ n!
Il simbolo n! si legge “n fattoriale” e designa il prodotto dei primi n numeri naturali.
Per convenzione si pone 0! = 1. Si è dunque trovato che vale la seguente
Proposizione
Il numero P (n) delle permutazioni di n oggetti è uguale a n! .
Esempio 1.1.4
Le permutazioni di 5 clienti di banca (che rappresentano i possibili modi di
metterli in ordine di attesa a uno sportello) sono 5!, ossia = 5 ¢ 4 ¢ 3 ¢ 2 ¢ 1 = 120.
COMBINAZIONI
Definizione Una combinazione semplice di n oggetti dati presi k alla volta,
k · n, è un sottoinsieme non ordinato di k oggetti distinti scelti tra gli n.
Esempio 1.1.5
Le combinazioni dei 3 oggetti a, b, c, presi 2 alla volta sono
fa, bg, fb, cg, fa, cg .
Si noti che fa, bg ´ fb, ag. Per gli insiemi astratti (per i quali si usa la parentesi graffa)
non vige alcuna struttura d’ordine.
Proposizione Il numero di combinazioni semplici di n oggetti presi k alla volta,
che indichiamo con C(k; n), vale
C(k; n) =
Ricordato che
n
.
k
n
n(n ¡ 1)...(n ¡ k + 1)
n!
:=
=
,
k
k!
k!(n ¡ k)!
dimostriamo la proposizione enunciata. Per ciascuna combinazione in cui sono presi
k oggetti alla volta, esistono P (k) modi di metterli in ordine. Di conseguenza, fra
il numero D(k; n) delle disposizioni e il numero C(k; n) delle combinazioni vale la
seguente relazione
D(k; n) = C(k; n) ¢ P (k) ,
da cui
C(k; n) =
D(k; n)
.
P (k)
Da questa segue immediatamente la tesi della proposizione.
3
Esempio 1.1.6 Il numero di comitati di 4 persone che si possono formare da un gruppo di 9
è
9¢8¢7¢6
9
C(4; 9) =
= 9!/[4!(9 ¡ 4)!] =
= 126 .
4
4¢3¢2¢1
Definizione Una combinazione con ripetizione di n oggetti dati presi k alla
volta è un insieme non ordinato di k oggetti, non necessariamente distinti, scelti
tra gli n.
Osservazione: come per le disposizioni con ripetizione, e differentemente dal caso
delle combinazioni semplici, k può anche essere maggiore di n.
Esempio 1.1.7
Le combinazioni con ripetizione dei 3 oggetti a, b, c, presi a coppie sono
fa, ag, fa, bg, fa, cg, fb, bg, fb, cg, fc, cg .
Analogamente, le combinazioni con ripetizione dei 2 oggetti a e b presi a terne sono
fa, a, ag, fa, a, bg, fa, b, bg, fb, b, bg .
Proposizione
Il numero di combinazioni con ripetizione di n oggetti presi k alla
volta è
C R (k; n) =
n+k¡1
.
k
Dimostrazione
Si tratta di contare il numero di soluzioni (a1 , a2 , . . . , ak ), con gli ai numeri interi,
soddisfacenti la relazione
1 · a1 · a2 · ¢ ¢ ¢ · ak · n .
Questa relazione equivale alla seguente
0 < a1 < a2 + 1 < a3 + 2 < ¢ ¢ ¢ < ak + k ¡ 1 < n + k ,
che a sua volta equivale a
0 < b1 < b2 < ¢ ¢ ¢ < bk < n + k ,
con i bi interi. Ne consegue che il numero cercato è uguale al numero di possibili
scelte di k oggetti distinti presi dall’insieme f1, 2, . . . , n + k ¡ 1g, e quindi è uguale a
C(k; n + k ¡ 1).
Applichiamo la formula che ci dà C R (k; n) per verificare che il numero di
combinazioni con ripetizione nei due casi visti nell’esempio 1.1.7 è rispettivamente 6 e 4.
Dobbiamo ovviamente calcolare C R (2, 3) e C R (3, 2). Si ha
Esempio 1.1.8
3+2¡1
4
C (2, 3) =
=
= 6;
2
2
2+3¡1
4
C R (3, 2) =
=
= 4.
3
3
R
4
Esercizio 1.1.1 Si consideri un gruppo costituito da 20 persone. Ci si pone il seguente
problema: qual è la probabilità che queste persone compiano gli anni in giorni tutti diversi?
Com’è facilmente intuibile, la probabilità che ci interessa è data dal rapporto fra il numero
Ndist dei casi possibili di 20 compleanni tutti distinti e il numero totale Ntot dei casi possibili di 20 compleanni anche con coincidenze. Volendo formalizzare il problema in termini
matematici, indichiamo con (c1 , c2 , ..., c20 ) la 20¡upla definita dai 20 compleanni, con ci
giorno di compleanno della i-esima persona. Allora Ndist corrisponde al numero delle possibili 20¡uple di ci tutti distinti, con 1 · ci · 365, il che implica Ndist = D(20; 365).
D’altra parte Ntot corrisponde al numero di tutte le possibili 20¡uple con 1 · ci · 365,
ossia Ntot = D R (20; 365). Indicando con P la probabilità cercata si ha
P=
346 D(20; 365)
365 ¢ 364 ¢ ¢ ¢ ¢ ¢ 346 365 364 Ndist
=
¢
¢
¢
¼ 59% .
= R
=
Ntot
D (20, 365)
(365)20
365 365
365
Proposizione
Vale la seguente formula, detta formula binomiale di Newton:
n
n
n
n n
n
n−1
n−1
(a + b) =
a +
a
b + ... +
ab
+
b
0
1
n¡1
n
n
ovvero, in notazione compatta,
(a + b)n =
n n
k=0
Dimostrazione
k
an−k bk .
(a + b)n = (a + b)(a + b)...(a + b) [n volte]
è una lunga somma che contiene più volte l’addendo generico an−k bk . Fissiamo k,
con k · n. Quante volte appare tale addendo? Tante quante le possibili scelte di
k parentesi tra le n date, prendendo da ciascuna il fattore b (ottenendo cosı̀ bk ), e
conseguentemente prendendo da ciascuna delle rimanenti n ¡ k parentesi il fattore a
(ottenendo cosı̀ an−k ). In altre parole: il fattore an−k bk compare
tante volte quante
n
sono le combinazioni semplici di k oggetti tra gli n dati. Cioè
volte. Quindi tale
k
n
addendo va moltiplicato per
e la somma va fatta rispetto a k come enunciato.
k
Esercizio 1.1.2 Provare la proprietà dei coefficienti binomiali
n¡1
n¡1
n
+
=
.
k¡1
k
k
Procediamo con calcolo diretto:
n¡1
n¡1
(n ¡ 1)!
(n ¡ 1)!
+
=
+
=
k¡1
k
(k ¡ 1)! (n ¡ k)! k! (n ¡ 1 ¡ k)!
(n ¡ 1)! k + (n ¡ 1)! (n ¡ k)
(n ¡ 1)! (k + n ¡ k)
n
=
=
=
.
k! (n ¡ k)!
k! (n ¡ k)!
k
Osserviamo che è grazie a questa relazione che si costruisce il famoso “triangolo di Tartaglia”.
5
1.2 LA PROBABILITÀ MATEMATICA
Definizione Si chiama spazio campionario l’insieme S di tutti i possibili esiti
di un dato esperimento. Un evento è un insieme di esiti, cioè un sottinsieme
dello spazio campionario S. Si dice poi classe di eventi, e la denoteremo con Ω,
ogni insieme non vuoto di eventi che risulti essere chiuso rispetto alle operazioni
insiemistiche elementari, vale a dire:
i) dati due eventi A, B 2 Ω, allora anche A [ B 2 Ω (A [ B è l’evento che si
verifica se si verifica almeno uno fra gli eventi A e B);
ii) data una successione
numerabile di eventi Ai 2 Ω, allora anche la loro unione
è un evento, cioè ∞
i=1 Ai 2 Ω;
iii) dato un evento A 2 Ω, allora anche il suo complementare AC ´ S ¡ A 2 Ω
(AC è l’evento che si verifica quando A non si verifica).
Dai tre assiomi che caratterizzano una classe di eventi Ω seguono queste altre proprietà:
— Dati due eventi A e B , anche A \ B è un evento;
A \ B = (AC [ B C )C
A \ AC = ;
=)
A\ B 2 Ω;
=)
— L’insieme vuoto ; e lo spazio S sono eventi;
; 2 Ω,
infatti:
infatti, preso A 2 Ω, si ha
A [ AC = S
=)
S 2 Ω.
L’evento ; è detto evento impossibile e S è detto evento certo.
Definizione Due eventi A e B sono detti incompatibili se sono disgiunti, cioè se
A \ B = ;. A parole: due eventi sono incompatibili se non si possono mai verificare
simultaneamente.
Esempio 1.2.1
Si consideri il seguente esperimento: si getta un dado e si guarda il risultato
della prova, vale a dire il numero che si presenta. Lo spazio campionario consiste nei sei
numeri possibili:
S = f1, 2, 3, 4, 5, 6g .
Consideriamo i seguenti eventi: A:“il risultato è un numero pari”; B :“il risultato è un
numero dispari”; C :“il risultato è un numero primo”. In termini si sottinsiemi di S :
A = f2, 4, 6g ,
Si ha quindi, ad esempio:
B = f1, 3, 5g ,
C = f2, 3, 5g .
AC = f1, 3, 5g = B ;
C C = f1, 4, 6g: è l’evento “il risultato non è un numero primo”;
B \ C = f3, 5g: è l’evento “il risultato è un numero dispari e primo”;
A [ C = f2, 3, 4, 5, 6g: è l’evento “il risultato è un numero pari o primo”.
Si noti che gli eventi A e B , essendo A \ B = ;, sono incompatibili.
6
Osservazione: Come si evince dall’esempio, gli eventi sono definiti mediante proposizioni
fatte nel linguaggio comune, e poi identificati con sottinsiemi di S . Sulla base di questa
considerazione risulta molto più appropriato parlare di eventi incompatibili piuttosto che di
eventi disgiunti, e di sottinsiemi disgiunti piuttosto che di sottinsiemi incompatibili. Accade
però spesso che i due aggettivi siano usati indifferentemente.
Definizione Sia S uno spazio campionario ed Ω una classe di eventi in S. Sia poi
P una funzione definita su Ω a valori in [0, 1]:
P : Ω ¡! [0, 1] .
Allora (S, Ω, P ) è detto spazio di probabilità e P (A) è detta probabilità dell’evento A 2 Ω se valgono i seguenti tre assiomi:
1) P (S) = 1 ;
2) se A e B sono due eventi incompatibili, allora
3)
P (A [ B) = P (A) + P (B) ;
se fAn , n 2 N g è una successione numerabile di eventi incompatibili, si ha
∞
P [∞
A
=
P (An ) .
n
n=1
n=1
Gli assiomi 2) e 3) esprimono il fatto che le probabilità di eventi incompatibili si
sommano. In particolare l’assioma 3), che ovviamente ha significato solo nel caso in
cui Ω è un insieme infinito, si esprime sinteticamente dicendo che P è numerabilmente
additiva.
Teorema
P (;) = 0 . (La probabilità dell’evento impossibile è nulla)
Dimostrazione
Sia A un qualunque evento di Ω. Poiché anche ; 2 Ω, segue che A [ ; 2 Ω. Inoltre,
A ed ; sono eventi incompatibili essendo A \ ; = ;. In virtù dell’assioma 2) si ha
quindi
P (A) = P (A [ ;) = P (A) + P (;)
=)
P (;) = 0 .
Teorema (regola di complementazione) Sia A 2 Ω un evento ed AC il suo comple-
mentare. Allora si ha
P (AC ) = 1 ¡ P (A) .
Dimostrazione
Essendo A \ AC = ;, A ed AC sono eventi incompatibili. Di conseguenza, applicando
l’assioma 2) ad S, si ottiene
P (S) = P (A [ AC ) = P (A) + P (AC ) = 1 ,
da cui consegue banalmente la tesi.
7
Teorema Se A e B sono due eventi tali che
A µ B , allora
P (A) · P (B) .
Dimostrazione
Essendo A µ B si può decomporre B negli
eventi incompatibili A e B ¡ A = B \ AC . Si
può quindi scrivere
P (B) = P (A [ (B ¡ A)) = P (A) + P (B ¡ A) ¸ P (A) ,
esssendo P (B ¡ A) ¸ 0.
Teorema
Se A e B sono due eventi qualun-
que, allora
P (A ¡ B) = P (A) ¡ P (A \ B) .
Dimostrazione
L’evento A può essere decomposto negli eventi
incompatibili A ¡ B e A \ B, per cui, in virtù
dell’assioma 2), si ha
P (A) = P (A ¡ B) [ (A \ B) = P (A ¡ B) + P (A \ B) .
La tesi segue immediatamente.
Teorema (regola di addizione per eventi arbitrari) Se A, B sono eventi arbitrari di uno
spazio di probabilità, allora
P (A [ B) = P (A) + P (B) ¡ P (A \ B) .
Dimostrazione
Scriviamo A [ B come unione dei due eventi
incompatibili A ¡ B e B. Applicando quindi
l’assioma 2) e il teorema precedente si ottiene
la tesi.
P (A [ B) = P (A ¡ B) [ B = P (A ¡ B) + P (B) = P (A) + P (B) ¡ P (A \ B) .
8
Spazi di probabilità finiti
Sia S uno spazio campionario finito:
S = fa1 , a2 , . . . , aN g
ed Ω l’insieme di tutti i sottinsiemi di S (inclusi S e ;). Si ottiene uno spazio di
probabilità finito assegnando a ciascun elemento ai di S un numero reale pi , detto
probabilità di ai e indicato come P (fai g), tale che
i)
ii)
pi ¸ 0 per ogni i = 1, 2, . . . , N ;
la somma delle singole probabilità è uguale a 1, ossia
N
i=1
pi = 1 .
La probabilità P (A) di un qualsiasi evento A µ S viene quindi definita come la somma
delle probabilità degli eventi elementari fai g contenuti in A:
P (A) = P
fai g =
P fai g =
pi .
i:ai ∈A
i:ai ∈A
i:ai ∈A
Dimostriamo che la funzione P : Ω ! [0, 1] è una funzione di probabilità facendo
vedere che valgono gli assiomi 1) e 2). Per quanto riguarda la validità dell’assioma
1), si ha
P (S) = P
N
N
N
fai g = P
fai g =
P fai g =
pi = 1 .
i=1
i:ai ∈S
i=1
i=1
D’altra parte, se A e B sono eventi incompatibili, abbiamo
P (A [ B) = P
=
i:ai ∈A∪B
i:ai ∈A
pi +
fai g =
i:ai ∈A∪B
P fai g =
pi = P (A) + P (B) ,
i:ai ∈B
per cui vale anche l’assioma 2). Valgono dunque tutti gli assiomi richiesti perché P
sia una probabilità (essendo lo spazio finito, l’assioma 3) non ha significato).
Dal punto di vista pratico ci sono diversi modi di assegnare le probabilità pi agli
eventi elementari fai g. Uno dei possibili modi è il seguente: se ripetiamo lo stesso
esperimento n volte e chiamiamo si il numero di volte che si verifica fai g, si osserva
che il rapporto
si
,
n
detto frequenza relativa, a lungo andare tende a stabilizzarsi, cioè tende ad un limite pi (compreso, ovviamente, tra 0 ed 1). Questo valore limite pi , cosı̀ calcolato
empiricamente, viene assunto come la probabilità dell’evento elementare fai g.
9
Spazi finiti equiprobabili
Definizione Si dice spazio equiprobabile (o uniforme) uno spazio di probabilità
finito dove ciascun elemento dello spazio campionario S (o, equivalentemente,
ciascun evento elementare) ha la stessa probabilità.
Dalla definizione e dagli assiomi della probabilità segue immediatamente che, se lo
spazio campionario S consta di N elementi, la probabilità di ciascun elemento di S
1
vale p = . Avremo inoltre che, dato un qualunque evento A, la sua probabilità sarà
N
da
numero degli elementi di A
jAj
=
.
P (A) =
N
N
A parole: in uno spazio finito equiprobabile, la probabilità di un evento vale il
numero dei casi favorevoli diviso il numero dei casi possibili.
Nota bene: jAj denota la cardinalità di A, cioè il numero degli eventi elementari che
costituiscono A. Questa notazione sarà utizzata anche in seguito.
Esempio 1.2.2
Consideriamo un dado non truccato: avremo
S = f1, 2, 3, 4, 5, 6g,
P (1) = P (2) = ¢ ¢ ¢ = P (6) =
N = 6,
1
6
.
Vogliamo calcolare, ad esempio, la probabilità degli eventi
A : esce un numero pari,
B : esce un numero minore di 3.
Si avrà
P (A) =
1
jf2, 4, 6gj
= ,
6
2
P (B) =
jf1, 2gj
1
= .
6
3
Esercizio 1.2.1 Si scelga a caso una carta da un mazzo ben mescolato di 52 carte da ramino.
Ci si chiede la probabilità di ottenere: 1) un asso; 2) una carta di fiori; 3) una figura; 4) una
figura non di cuori.
Lo spazio campionario S è ovviamente l’insieme delle 52 carte, per cui N =52. Siano poi
A1 , A2 , A3 e A4 gli eventi di cui si chiede, nell’ordine, la probabilità. Essendo lo spazio
equiprobabile (la carta è scelta a caso!), avremo:
jA1 j
N
jA2 j
P (A2 ) =
N
jA3 j
P (A3 ) =
N
jA4 j
P (A4 ) =
N
P (A1 ) =
4
1
=
;
52
13
numero delle carte di fiori
13
1
=
=
= ;
N
52
4
numero delle figure
12
3
=
=
=
;
N
52
13
numero delle figure non di cuori
9
=
=
.
N
52
=
numero degli assi
N
10
=
Esercizio 1.2.2 Si effettuano cinque lanci successivi di una moneta non truccata. Ci si
chiede: qual è la probabilità che in cinque lanci esca “testa” almeno una volta?
Introduciamo l’appropriato spazio di probabilità:
S = (a1 , a2 , a3 , a4 , a5 ),
con ai = T o ai = C, i = 1, ..., 5 ,
dove ai indica il risultato del lancio i-esimo, e T e C stanno ovviamente per “testa” e “croce”.
Siccome il numero delle possibili cinquine che costituiscono S è 25 , abbiamo N = 32, e quindi
1
p = 32
.
L’evento che ci interessa è
A = “esce almeno una testa” ,
che è il complementare dell’evento elementare f(C, C, C, C, C)g, la cui probabilità è ovviamente p. Si ha quindi
P (A) = 1 ¡ P (AC ) = 1 ¡
1
31
=
.
32
32
Esercizio 1.2.3 Problema: qual è la probabilità che fra M persone ce ne siano almeno due
con lo stesso compleanno?
Il problema, nella sostanza, è già stato affrontato nell’esercizio 1.1.1. Assunto che tutti gli
anni siano di 365 giorni (considerare anche gli anni bisestili complicherebbe considerevolmente il problema), e che tutti i giorni siano equiprobabili, lo spazio di probabilità è
S =
(a1 , a2 , . . . , aM ), ai 2 [1, 2, . . . , 365] .
Siccome il numero degli eventi elementari è N = DR (M ; 365) = 365M , ogni evento ele-
1
.
365M
Indicato con AM l’evento “gli M compleanni avvengono tutti in giorni diversi”, l’evento di
cui interessa la probabilità è il complementare di AM , cioè AC
M . Ricordando quanto visto
mentare ha probabilità p =
nell’esercizio 1.1.1, generalizzandone il risultato si ottiene
P (AM ) =
jAM j
D(M ; 365)
365 ¢ 364 ¢ ¢ ¢ ¢ ¢ (365 ¡ M + 1)
= R
=
,
jSj
D (M ; 365)
365M
e quindi, in virtù della regola di complementazione,
P (AC
M)
=1¡
M
i=1 (366
365M
¡ i)
.
C
C
Facendo il calcolo, si ottiene, ad esempio, P (AC
10 ) ¼ 12%, P (A20 ) ¼ 41%, P (A30 ) ¼ 71%,
C
P (A50 ) ¼ 97%.
11
Esercizio 1.2.4 Carlo e Giorgio sono due amici che ogni giorno scommettono sul risultato
del lancio di un dado. Carlo punta sempre su un risultato dispari, Giorgio su un risultato
pari. Giorgio crede che i numeri riportati sulle facce del dado (ovviamente gli interi da 1 a 6)
siano equiprobabili. In realtà non è cosı̀ in quanto Carlo, di nascosto, ha “truccato” il dado
facendo in modo che il numero 1 abbia probabilità 15 , lasciando però che gli altri numeri
siano equiprobabili. Quali sono le probabilità di vincere di Carlo e Giorgio rispettivamente?
Lo spazio campionario è ovviamente
S = f1, 2, 3, 4, 5, 6g .
Sia pi = P fig . Siccome sappiamo che p1 = 15 e che p2 =p3 =p4 =p5 =p6 , dovendo essere
6
4
i=1 pi = 1, si ricava pi = 25 , per i = 2, . . . , 6. L’evento per cui vince Carlo è
A = “il risultato è dispari” = f1, 3, 5g .
Ovviamente l’evento per cui vince Giorgio è AC . Si ha dunque
P (A) = P f1, 3, 5g = P f1g + P f3g + P f5g =
1
5
+
4
25
+
4
25
=
13
25
,
e quindi
P (AC ) = 1 ¡ P (A) =
12
25
.
In fin dei conti, Carlo è stato sleale, ma poteva esserlo molto di più.
Esercizio 1.2.5 Le probabilità che tre giocatori G1 , G2 e G3 colpiscano il bersaglio sono
rispettivamente p1 = 16 , p2 = 14 , p3 = 13 . Ciascuno spara una volta al bersaglio. Trovare la
probabilità degli eventi:
a) A: “un solo giocatore colpisce il bersaglio”;
b) B : “uno o due giocatori colpiscono il bersaglio”.
Sia S ´ (s1 , s2 , s3 ) , con si = Y oppure si = N a seconda che il giocatore Gi colpisca
oppure no il bersaglio. E quindi
S ´ (Y,Y,Y), (Y,Y,N), (Y,N,Y), (Y,N,N), (N,Y,Y), (N,Y,N), (N,N,Y), (N,N,N) .
Sappiamo che P (fsi = Yg) = pi e di conseguenza P (fsi = Ng) = 1 ¡ pi . Essendo il
risultato di ciascun sparo indipendente dagli altri (il concetto di “eventi indipendenti” sarà
definito in maniera rigorosa più avanti), si ha
P (s1 , s2 , s3 ) = P (fs1 g) ¢ P (fs2 g) ¢ P (fs3 g) .
Avremo perciò
P (A) = P
1
=
6
(Y,N,N) + P (N,Y,N) + P (N,N,Y) =
3 2 5 1 2 5 3 1
31
¢ ¢ + ¢ ¢ + ¢ ¢ =
4 3 6 4 3 6 4 3
72
C
P (B) = P f(Y, Y, Y ), (N, N, N )g = 1 ¡ P (Y, Y, Y ) + P (N, N, N ) =
1 1 1 5 3 2 41
¢ ¢ + ¢ ¢
=
.
=1¡
6 4 3 6 4 3
72
12
Esercizio 1.2.6 Un dado “equo” a 4 facce riportanti i numeri 1, 2, 3 e 4 è lanciato tre volte.
Si chiede la probabilità di ottenere: i) almeno un tre; ii) nessun uno e nessun due.
Lo spazio campionario è
S = f(a1 , a2 , a3 ) , ai 2 [1, 2, 3, 4] , i = 1, 2, 3 .g
Sia A l’evento “si è ottenuto almeno un 3”. Indicando con Qk l’evento “il risultato del
C
C
k-esimo lancio è 3”, si ha AC = QC
1 \ Q2 \ Q3 . Essendo poi gli eventi Q1 , Q2 e Q3
indipendenti uno dall’altro (in quanto il risultato di ciascuno non dipende da quello degli
altri due), anche gli eventi complementari QC
k sono indipendenti. Tenendo conto di ciò e del
3
C
C
fatto che P (Q1 ) = P (Q2 ) = P (Q3 ) = 14 , per cui P (QC
1 ) = P (Q2 ) = P (Q3 ) = 4 , si ha
C
C
C
C
C
P (A) = 1 ¡ P (AC ) = 1 ¡ P QC
1 \ Q2 \ Q3 = 1 ¡ P (Q1 ) ¢ P (Q2 ) ¢ P (Q3 ) =
3 3
37
=1¡
=
¼ 57.8% .
4
64
Sia ora B l’evento “non si è ottenuto nessun uno e nessun due”. Indicando con Rk l’evento
“il risultato del k -esimo lancio è 3 o 4”, si ha B = R1 \ R2 \ R3 . Anche in questo caso i
tre eventi Rk sono indipendenti; inoltre P (R1 ) = P (R2 ) = P (R3 ) = 12 . Ne consegue
1 3
1
P (B) = P (R1 \ R2 \ R3 ) = P (R1 ) ¢ P (R2 ) ¢ P (R3 ) =
= = 12.5% .
2
8
Esercizio 1.2.7 Un’urna contiene 20 palline numerate progressivamente. a) Vengono estratte
in blocco 4 palline: qual è la probabilità che venga estratta la pallina numero 1? b) Vengono estratte una dopo l’altra 4 palline ogni volta con reimmissione: qual è la probabilità
che venga estratta la pallina numero 1?
Sia A l’evento ”fra le 4 palline estratte c’è anche la numero 1”. L’evento complementare AC
è dunque ”fra le 4 palline estratte non c’è la numero 1”. Calcoleremo P (A) come 1¡P (AC ),
essendo P (AC ) molto semplice.
a) Assumiamo come spazio S l’insieme di tutte le possibili disposizioni (p1 , p2 , p3 , p4 )
dei numeri da 1 a 20 presi quattro alla volta (senza ripetizioni). Essendo tali quaterne
equiprobabili, avremo
P (A) = 1 ¡
jAC j
D(4; 19)
19 ¢ 18 ¢ 17 ¢ 16
16
1
=1¡
=1¡
=1¡
= .
jSj
D(4; 20)
20 ¢ 19 ¢ 18 ¢ 17
20
5
Allo stesso risultato si poteva pervenire anche per altra via. Come spazio S, infatti, si può
assumere l’insieme di tutte le possibili combinazioni di 4 numeri interi (distinti) presi tra 1
e 20. Anche le combinazioni sono equiprobabili, per cui si ha
19
jAC j
C(4; 19)
19! 16! 4!
4
1
4
=1¡
P (A) = 1 ¡
=1¡
= 1 ¡ 20
=1¡ = .
jSj
C(4; 20)
15! 4! 20!
5
5
4
b) In questo caso, affinchè lo spazio campionario sia equiprobabile, bisogna assumere S
costituito da tutte le possibili disposizioni con ripetizione di 4 interi presi tra 1 e 20. Si ha
dunque
P (A) = 1 ¡
19 4
D R (4; 19)
194
=
1
¡
=
1
¡
¼ 1 ¡ 0.815 = 18.5% .
D R (4; 20)
204
20
13
Esercizio 1.2.8 Da un mazzo ben mescolato di 52 carte da ramino se ne estraggono 5 a caso.
Si chiede la probabilità di: 1) un poker (PO); 2) un full (FU); 3) una doppia coppia (CC);
4) una coppia (C).
Lo spazio campionario S è costituito da tutte le possibili cinquine (non ordinate) di carte
ottenute combinando senza ripetizioni le 52 carte di un mazzo, ossia
S = f(c1 , c2 , c3 , c4 , c5 ) , ci 6
= cj g ,
N=
52
5
= 2· 598· 960 .
La probabilità di ciascun evento si ottiene calcolando il numero degli eventi favorevoli e
dividendolo per N . Volendo calcolare la probabilità di un poker, contiamo quante sono le
possibili cinquine con quattro carte “uguali”. Scelte 4 carte “uguali”, e ci sono 13 possibili
scelte, la quinta carta può essere una qualunque fra le rimanenti 48. Avremo dunque
P (P O) =
13¢48
¼ 0.024% .
N
Volendo poi un full, cioè una cinquina del tipo aaabb, osserviamo che ogni tris aaa può
essere
4 ottenuto con 13 diverse carte “a” e che per ciascun “a” se ne possono poi ottenere
una volta scelto il tris, la si può ottenere con
3 = 4; per quanto riguarda poi la coppia bb, 12 diverse carte “b”, e per ciascun “b” ci sono 42 = 6 possibilità. Si ha quindi
P (F U ) =
13¢
4
3
¢12¢
N
4
2
=
13¢4¢12¢6
¼ 0.14% .
N
La domanda 3) concerne le doppie coppie, cioè le cinquine del tipo aabbc. Ragionando in
modo analogo a quanto fatto per le precedenti domande, si ha
P (CC) =
13¢
4
2
¢12¢ 42 ¢11¢ 41
13¢6¢12¢6¢11¢4
=
¼ 4.75% ,
2¢N
2¢N
dove il 2 a denominatore tiene conto del fatto che sono state conteggiate sia le ”quaterne”
del tipo aabb che quelle del tipo bbaa.
La domanda 4) richiede di calcolare la probabilità di una semplice coppia, vale a dire una
cinquina del tipo aabcd. In questo casi si ha
P (C) =
13¢
4
2
¢12¢
4
¢11¢
6¢N
1
4
1
¢10¢
4
1
=
13¢6¢12¢4¢11¢4¢10¢4
¼ 42.3% ,
6¢N
dove il 6 a denominatore tiene conto del fatto che per la formazione di una coppia del tipo
aabcd sono state conteggiate tutte le possibili terne bcd, bdc, cbd, cdb, dbc e dcb (cioè le
possibili permutazioni dei tre ogetti a, b, c).
14
1.3 PROBABILITÀ CONDIZIONATA
Definizione Dato uno spazio di probabilità (S, Ω, P ) e due eventi A e B di Ω
con P (B) > 0, si chiama probabilità condizionata di A dato B il numero
P (A \ B)/P (B). Tale numero, che esprime la probabilità che avvenga A una volta
che sia avvenuto B , sarà indicato con P (AjB). Si ha dunque, per definizione,
P (AjB) =
P (A \ B)
.
P (B)
Nel caso di uno spazio S finito ed equiprobabile, indicato con jEj il numero degli
elementi di un evento E 2 S, si ha
P (A \ B) =
e quindi
jA \ Bj
,
jSj
P (AjB) =
P (B) =
jBj
,
jSj
jA \ Bj
.
jBj
Esercizio 1.3.1 Si lanci una coppia di dadi. Se la loro somma è 6, si determini la probabilità
che almeno uno dei dadi abbia dato come risultato 2.
Lo spazio campionario è
S = f(h, k), h, k = 1, 2, 3, 4, 5, 6g ,
per cui, indicati con A e B i due eventi
B = “la somma è 6” = f(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)g ,
A = “almeno un 2” = f(2, 2), (2, k), (h, 2), h, k = 1, 3, 4, 5, 6g ,
si ha A \ B = f(2, 4), (4, 2)g. Essendo lo spazio equiprobabile, ne consegue
P (AjB) =
jA \ Bj
2
= .
jBj
5
Esercizio 1.3.2 In una popolazione i genotipi AA, Aa e aa (che rappresentano in questo
problema gli eventi elementari) abbiano probabilità rispettivamente
P (AA) =
49
42
9
, P (Aa) =
, P (aa) =
.
100
100
100
Supponiamo che dopo un certo tempo muoiano sistematicamente gli individui di tipo aa,
sicchè gli adulti sono o AA o Aa. Ci si chiede: qual è la probabilità di AA fra gli adulti?
Bisogna calcolare la probabilità condizionata di AA dato l’evento B = AA [ Aa :
P (AAj AA[Aa) =
P (AA \ [AA [ Aa])
P (AA)
0.49
0.49
=
=
=
¼ 54% .
P (AA [ Aa)
P (AA [ Aa)
0.49 + 0.42
0.91
15
Teorema (o legge) delle probabilità composte
Dati gli eventi A e B , con P (B) > 0, vale la relazione
P (A \ B) = P (B)¢P (AjB) .
La dimostrazione segue banalmente dalla definizione di probabilità condizionata.
La legge appena formulata, che permette di calcolare la probabilità dell’intersezione
di due eventi note la probabilità di uno e la probabilità condizionata dell’altro dato
il primo, si può facilmente estendere a più eventi. Riscritta la legge nel caso di due
eventi A1 e A2 ,
P (A1 \ A2 ) = P (A1 )¢P (A2 jA1 ) ,
quella per tre eventi A1 , A2 e A3 si ricava immediatamente
P (A1 \ A2 \ A3 ) = P ([A1 \ A2 ] \ A3 ) = P (A1 \ A2 )¢P (A3 jA1 \ A2 ) =
= P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) .
Generalizzando al caso di n eventi A1 , A2 , . . . , An si ottiene
P \ni=1 Ai = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) ¢ ¢ ¢ P (An jA1 \ A2 \ ¢ ¢ ¢ \ An−1 ) .
Esercizio 1.3.3 Un’urna contiene 9 palline rosse e 6 gialle. Una dopo l’altra vengono estratte
a caso, senza reimmissione, tre palline. Calcolare la probabilità che siano tutte rosse.
Denotiamo con Ak , con k = 1, 2, 3, l’evento “la k -esima pallina è rossa”. L’evento di cui ci
interessa la probabilità è A1 \ A2 \ A3 . Dal teorema delle probabilità composte segue che
P (A1 \ A2 \ A3 ) = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) =
Proposizione
9 8 7
12
¢ ¢
=
.
15 14 13
65
Dati due eventi A e B , con P (A) > 0 e P (B) > 0, vale la relazione
P (AjB) =
P (A)
¢P (BjA) .
P (B)
Questa relazione consegue immediatamente dalla legge della probabilità composta
scrivendo
P (A \ B) = P (B)¢P (AjB) = P (A)¢P (BjA) .
È una formula di grande utilità in quanto permette di ricavare la probabilità condizionata di un evento A dato B, sapendo la probabilità condizionata di B dato A. Ciò
aiuta, ad esempio, nelle diagnosi delle malattie, come si vede nell’esercizio che segue.
Esempio 1.3.1
Se la probabilità teorica del sintomo B , data la malattia A, è il 30%, posso
calcolare la probabilità che un paziente affetto dal sintomo B abbia la malattia A. Se, ad
esempio, in Emilia la percentuale delle persone affette dalla malattia A è il 15% e quella
delle persone che manifestano il sintomo B è il 5%, per cui P (A) = 0.15 e P (B) = 0.05,
la probabilità della malattia A dato il sintomo B è
P (AjB) =
P (A)
0.15
¢P (BjA) =
¢ 0.30 = 90% .
P (B)
0.05
16
EVENTI INDIPENDENTI
Definizione Due eventi A e B si dicono indipendenti se
P (A \ B) = P (A)¢P (B) .
Il significato di questa definizione, che vale qualunque siano gli eventi A e B, appare
chiaro se si considerano eventi di probabilità non nulla. Infatti, se P (B) > 0, dalla
definizione di probabilità condizionata, segue
P (A) = P (AjB) ,
e analogamente, supposto P (A) > 0, si ha
P (B) = P (BjA) .
A parole: la probabilità di A non dipende dal verificarsi oppure no di B, e viceversa.
Ciò giustifica la terminologia.
Teorema
Se A e B sono indipendenti, lo sono anche A e B C , AC e B , AC e B C .
Dimostrazione
Dimostriamo dapprima l’indipendenza di A e B C . Essendo
P (B C ) = 1 ¡ P (B) ,
si ha
P (A) = P (A \ B) + P (A \ B C ) ,
P (A \ B C ) = P (A) ¡ P (A \ B) = P (A) ¡ P (A)¢P (B) =
= P (A)¢[(1 ¡ P (B)] = P (A)¢P (B C ) .
Quindi, se A e B sono indipendenti, lo sono anche A e B C .
Scambiando l’ordine, si può dedurre che lo sono anche AC
e B, e quindi anche AC e B C .
Esercizio 1.3.4 Un test diagnostico di una malattia è corretto nel 98% dei casi. Ci si chiede:
ripetendo due volte il test sullo stesso soggetto, qual è la probabilità di un doppio errore?
Sia A = “errore nel primo test”, B = “errore nel secondo test”. Essendo i due eventi
indipendenti, si ha
P (A \ B) = P (A)¢P (B) =
2
2
4
¢
=
= 0.04% .
100 100
10000
Esercizio 1.3.5 Aldo e Bruno sparano ad un bersaglio. Siano A e B rispettivamente l’evento
“Aldo fa centro” e “Bruno fa centro”. Modello la situazione con una funzione di probabilità
P tale che P (A) = 14 e P (B) = 25 , e supponendo che A e B siano indipendenti. Supposto
che Aldo e Bruno sparino contemporaneamente contro il bersaglio, qual è la probabilità che
1) almeno uno dei due centri il bersaglio? 2) uno solo dei due centri il bersaglio?
17
L’evento “almeno uno fa centro” è A [ B . Siccome A e B sono indipendenti, avremo
P (A [ B) = P (A) + P (B) ¡ P (A \ B) = P (A) + P (B) ¡ P (A)¢P (B) =
1 2 1 2
11
= + ¡ ¢ =
.
4 5 4 5
20
Per quanto riguarda invece l’evento “uno solo fa centro”, esso è dato da (A\B C )[(AC \B).
Tenendo conto che A ed B C sono indipendenti, cosı̀ come AC e B , e che gli eventi A \ B C
e (AC \ B) sono incompatibili, si ha
P (A \ B C ) [ (AC \ B) = P (A \ B C ) + P (AC \ B) =
= P (A)¢P (B C ) + P (AC )¢P (B) =
1 3 3 2
9
= ¢ + ¢ =
.
4 5 4 5
20
Definizione Dato uno spazio di probabilità (S, Ω, P ) si chiama partizione di S
un insieme di eventi incompatibili A1 , A2 , . . . , Ai , ¢ ¢ ¢ 2 Ω tali che
Ai = S .
i
Nel seguito considereremo partizioni finite, cioè partizioni formate da un numero finito
n di eventi. In tal caso l’indice i assumerà ovviamente i valori da 1 a n.
Teorema (o formula) della probabilità totale (o di fattorizzazione)
Dato un evento B e una partizione finita A1 , A2 , ...An di S, con P (Ai ) > 0 per
ogni i, si ha
n
P (B) =
P (Ai )¢P (BjAi ) .
i=1
Dimostrazione
In virtù della definizione della legge delle probabilità composte, per ogni i possiamo
scrivere
P (Ai \ B) = P (Ai )¢P (BjAi ) .
Sommando per i che va da 1 ad n, si ha
n
n
i=1 P (Ai \ B) =
i=1 P (Ai )¢P (BjAi ) ,
da cui, essendo
n
n
n
i=1 P (Ai \ B) = P
i=1 (Ai \ B) = P ( i=1 Ai ) \ B = P (S \ B) = P (B) ,
consegue la tesi.
Esercizio 1.3.6 Una fabbrica di autovetture riceve da tre fornitori i cambi da installare sulle
auto nelle seguenti percentuali: 65%, 25% e 10%. Sapendo che i tre fornitori producono i
cambi con una difettosità rispettivamente del 5%, 10% e 25%, si vuole conoscere la probabilità
che la fabbrica di auto ha di ricevere un cambio difettoso.
18
In questo caso l’esperimento consiste nell’arrivo di un cambio. I possibili eventi elementari
(e quindi incompatibili) sono i Bk , k = 1, 2, 3, essendo Bk l’evento ”il cambio arriva dal
fornitore k -esimo”. Chiaramente i Bk costituiscono una partizione di S. Indicato poi con A
l’evento ”il cambio ricevuto è difettoso”, si richiede P (A).
I dati dell’esercizio sono i seguenti:
P (B1 ) = 65% , P (B2 ) = 25% , P (B3 ) = 10% ;
P (AjB1 ) = 5% , P (AjB2 ) = 10% , P (AjB3 ) = 25% .
Utilizzando la formula di fattorizzazione si ha immediatamente
P (A) =
3
P (Bi )¢P (AjBi ) = 0.65¢0.05 + 0.25¢0.10 + 0.10¢0.25 = 0.0825 = 8.25% .
i=1
Esercizio 1.3.7 Com’è noto, le trasfusioni di sangue possono avvenire con le modalità seguenti: dal gruppo 0 a tutti i gruppi; da A ai gruppi A e AB ; da B ai gruppi B e AB ; da
AB al solo gruppo AB . Supposto che le frequenze dei gruppi sanguigni siano
P (0) = 52%, P (A) = 32%, P (B) = 10%, P (AB) = 6% ,
ci si chiede: qual è la probabilità che un individuo x, scelto a caso, possa donare sangue a
un individuo y pure scelto a caso?
Sia S l’insieme delle coppie (x, y) in cui sia x che y possono essere uguali a 0, A, B o AB .
L’evento di cui vogliamo calcolare la probabilità è “x è donatore per y ” e lo indichiamo con
[x ) y]. Introduciamo poi gli eventi
[x=0] = f(0, 0), (0, A), (0, B), (0, AB)g ,
[x=A] = f(A, 0), (A, A), (A, B), (A, AB)g ,
[x=B] = f(B, 0), (B, A), (B, B), (B, AB)g ,
[x=AB] = f(AB, 0), (AB, A), (AB, B), (AB, AB)g ,
e analogamente gli eventi [y =0], [y =A], [y =B],[y =AB]. Per calcolare P ([x ) y]) si può
usare il teorema della probabilità totale in due modi diversi: in un caso considereremo come
partizione di S gli eventi [x = 0], [x = A], [x = B] e [x = AB], nell’altro gli eventi [y = 0],
[y =A], [y =B] e [y =AB].
Modo 1
P ([x ) y]) = P ([x=0])¢P ([x ) y][x=0]) + P ([x=A])¢P ([x ) y][x=A])+
+ P ([x=B])¢P ([x ) y][x=B]) + P ([x=AB])¢P ([x ) y][x=AB]) =
52
32 32
6 10 10
6 6
6
=
¢1 +
¢
+
+
¢
+
+
¢
' 66% .
100
100 100 100
100 100 100
100 100
Modo 2
P ([x ) y]) = P ([y =0])¢P ([x ) y][y =0]) + P ([y =A])¢P ([x ) y][y =A])+
+ P ([y =B])¢P ([x ) y][y =B]) + P ([y =A]B)¢P ([x ) y][y =AB]) =
52 52
32 52
32 10 52
10 6
=
¢
+
¢
+
+
¢
+
+
¢1 ' 66% .
100 100 100 100 100
100 100 100
100
19
Modo 3
L’esercizio può essere risolto anche senza ricorrere al teorema della probabilità totale, e ciò
in virtù del fatto che l’evento [x ) y] può essere visto come unione di eventi elementari
(x, y); più precisamente
[x ) y] ´ f(0, 0), (0, A), (0, B), (0, AB), (A, A), (A, AB), (B, B), (B, AB), (AB, AB)g .
Poiché
gli
per cui
individui sono scelti a caso, x e y sono
indipendenti uno dall’altro,
32
6
P (x, y) = P (x)¢P (y). Ad esempio, P (A, AB) = P (A)¢P (AB) = 100 ¢ 100 .
Si ha quindi
P [x ) y] = P (0, 0) + P (0, A) + P (0, B) + P (0, AB) + P (A, A) +
+ P (A, AB) + P (B, B) + P (B, AB) + P (AB, AB) =
= P (0)¢P (0) + P (0)¢P (A) + P (0)¢P (B) + P (0)¢P (AB) + P (A)¢P (A)+
+ P (A)¢P (AB) + P (B)¢P (B) + P (B)¢P (AB) + P (AB)¢P (AB) =
52 52
32
10
6 32 32
6 =
¢
+
+
+
+
¢
+
+
100 100 100 100 100
100 100 100
10 10
6 6
6
+
¢
+
+
¢
' 66% .
100 100 100
100 100
Teorema (o formula) di Bayes
Dato un evento B con P (B) > 0, e data una partizione finita A1 , A2 , ...An di S
con P (Ai ) > 0 per ogni i, vale la relazione
P (BjAi )¢P (Ai )
P (Ai jB) = .
k P (BjAk )¢P (Ak )
Dimostrazione
In virtù del teorema della probabilità composta si può scrivere
P (Ai jB) =
P (B|Ai )·P (Ai )
P (B)
.
Sostituendo a denominatore P (B) con la sua espressione fornita dalla formula della
probabilità totale, si ottiene immediatamente la tesi.
Gli eventi Ai possono essere considerati come possibili cause dell’evento B, o ipotesi
che lo spiegano. Il fatto che costituiscano una partizione di S, per cui certamente
B ½ [i Ai , comporta che se si verifica B, necessariamente si verifica anche uno (ed
uno solo in virtù della incompatibilità) degli eventi Ai . In altre parole, l’insieme
delle “cause” Ai è esaustivo: se si verifica B, una di esse deve aver agito. Una volta
osservato l’evento B, ci si può chiedere quale sia la causa che ha effettivamente agito, e
il teorema di Bayes risponde, naturalmente in senso probabilistico, a questa domanda.
La probabilità P (Ai ) è la probabilità che si verifichi Ai indipendentemente dal verificarsi o meno dell’evento B; viene detta probabilità a priori. La probabilità condizionata P (Ai jB) è la probabilità di Ai valutata sapendo che si è verificato B, e viene
chiamata probabilità a posteriori.
20
Gli esercizi che seguono, in particolare il primo, sono utili ad illustrare il significato
di probabilità a priori e posteriori, e come si applica il teorema di Bayes.
Esercizio 1.3.8 Si abbiano tre scatole, indistinguibili una dall’altra, contenenti ciascuna due
palline: una contiene due palline bianche (scatola 1), un’altra una pallina bianca ed una
rossa (scatola 2), la terza due palline rosse (scatola 3). Scelta una scatola a caso, si estrae
una pallina. La pallina è bianca. Ci si chiede: qual è la probabilità che la pallina sia stata
estratta dalla scatola i?
Indicato con B l’evento “la pallina estratta è bianca” e con Ai l’evento “la pallina è stata
estratta dalla scatola i”, ci interessa calcolare le probabilità P (Ai jB). Osserviamo che si ha
P (A1 ) = P (A2 ) = P (A3 ) =
1
;
3
P (BjA1 ) = 1 ,
P (BjA2 ) =
1
,
2
P (BjA3 ) = 0 .
Il fatto che le probabilità non condizionate P (Ai ) (probabilità a priori) siano tutte uguali a
1
3 consegue ovviamente dal fatto che le tre scatole sono indistinguibili. Applicando il teorema
di Bayes si ha quindi
P (BjA1 )¢P (A1 )
=
P (BjA1 )¢P (A1 ) + P (BjA2 )¢P (A2 ) + P (BjA3 )¢P (A3 )
1
1¢ 1
2
3
= 1 1 31
=
1
1 = 3;
1¢ 3 + 2 ¢ 3 + 0¢ 3
2
P (A1 jB) =
P (A2 jB) =
P (A3 jB) =
P (BjA2 )¢P (A2 )
1
2
P (BjA3 )¢P (A3 )
1
2
=
=
1 1
2¢3
1
2
0¢ 13
1
2
=
1
.
3
= 0.
Osserviamo che si trova confermato il fatto ovvio che P (A3 jB) = 0. Osserviamo anche
come il verificarsi dell’evento B influisca sulle probabilità degli eventi Ai modificandone le
probabilità.
Nota bene: dato un evento A, con 0 < P (A) < 1, gli eventi A e AC costituiscono
la più semplice partizione di S utilizzabile nell’applicazione del teorema di Bayes. Gli
esempi che seguono utilizzano tutti una partizione di questo tipo.
Esercizio 1.3.9 In una scuola il 4% dei maschi e l’1% delle femmine sono più alti di 1.80
metri. Inoltre, il 60% sono femmine. Fra la totalità degli studenti ne viene scelto a caso uno
che risulta essere più alto di 1.80 metri. Si chiede: qual è la probabilità che sia femmina?
Sia S l’insieme di tutti gli studenti. Siano poi F l’evento “lo studente scelto è femmina”
ed A l’evento “l’altezza dello studente è maggiore di 1.80”. Si deve determinare P (F jA).
Osservato che F C coincide con l’evento “lo studente è maschio”, i dati del problema sono
P (F ) = 0.60 ,
P (F C ) = 0.40 ,
P (AjF ) = 0.01 ,
21
P (AjF C ) = 0.04 .
Utilizzando il teorema di Bayes con la partizione di S data da F e F C , si ottiene
P (AjF )¢P (F )
=
P (AjF )¢P (F ) + P (AjF C )¢P (F C )
0.01¢0.60
0.006
3
=
=
=
¼ 27.3% .
0.01¢0.60 + 0.04¢0.40
0.022
11
P (F jA) =
Esercizio 1.3.10 Si sa che lo 0,5% dei soggetti di una città è ammalato di AIDS. Si sa che
i test diagnostici danno una diagnosi corretta nell’80% dei sani e nel 98% dei malati. Qual
è la probabilità di un individuo, scelto a caso fra quelli sottoposti a test, di esser sano posto
che sia stato diagnosticato malato?
Sia S l’insieme degli individui sottoposti ai test per l’AIDS. Consideriamo gli eventi: A =
“l’individuo scelto è sano”, AC = “l’individuo è malato”, B = “la diagnosi dell’individuo è:
sano”, B C = “la diagnosi è: malato”. Le statistiche sopra riportate implicano che
P (AC ) = 0.005 ,
P (BjA) = 0.80 ,
Determiniamo con la formula di Bayes P (AjB C ). Si ha
P (B C jAC ) = 0.98 .
P (B C jA)¢P (A)
=
P (B C jA)¢P (A) + P (B C jAC )¢P (AC )
(0.995)(0.20)
=
' 0.976
(0.20)(0.995) + (0.98)(0.005)
P (AjB C ) =
(probabilità molto alta; se fossimo però dentro una categoria a rischio, avremmo una incidenza di malattia P (AC ) più elevata, per cui questa probabilità sarebbe più contenuta).
Esercizio 1.3.11 Una fabbrica che produce lampadine ha due linee di produzione A e B:
dalla A esce il 60% delle lampadine prodotte e dalla B il rimanente 40%. Sappiamo inoltre
che un 2% delle lampadine prodotte dalla linea A è difettoso, mentre la percentuale di difetti
per l’altra linea è il 3.8%. Ci si chiede: qual è la probabilità che una lampadina difettosa,
scelta a caso fra tutte le lampadine prodotte in un dato periodo, sia uscita dalla linea A?
Sia S l’insieme di tutte le lampadine prodotte dalla fabbrica in un dato periodo. Se A è
l’evento “la lampadina scelta è uscita dalla linea A”, AC è l’evento “la lampadina è uscita
dalla linea B”. Indicato poi con D l’evento “la lampadina è difettosa”, i dati del problema
sono
P (DjA) = 0.02 ,
P (DjAC ) = 0.038,
P (A) = 0.6 .
Il numero che cerchiamo è la probabilità condizionata di A dato per avvenuto D , cioè
P (AjD). Utilizzando la formula di Bayes, si ottiene
P (DjA) ¢ P (A)
(0.02)(0.6)
=
=
C
C
P (DjA) ¢ P (A) + P (DjA ) ¢ P (A )
(0.02)(0.6) + (0.038)(0.4)
0.012
=
¼ 0.441 = 44.1%
0.012 + 0.0152
P (AjD) =
22
Esercizio 1.3.12 In un cappello ci sono 10 monete, 9 normali ed una truccata con due teste.
Se ne estrae una a caso, che lanciata k volte consecutive dà k teste. Qual è la probabilità
che la moneta estratta sia quella truccata?
Sia A l’evento “la moneta estratta dal cappello è quella truccata”. Chiaramente ne consegue
che AC rappresenta l’evento “la moneta estratta è normale”. Indicato poi con Tk l’evento
“k consecutivi lanci della moneta danno k teste”, i dati del problema sono
P (A) =
1
10
P (AC ) =
;
9
10
;
Applicando la formula di Bayes si ha quindi
P (AjTk ) =
P (Tk jAC ) =
P (Tk jA) = 1 ;
1
2)
k
.
1
1¢ 10
P (Tk jA)¢P (A)
2k
=
=
k 9
1
P (Tk jA)¢P (A) + P (Tk jAC )¢P (AC )
9 + 2k
1¢ 10
+ 12 ¢ 10
Ad esempio, per k =2, 4, 6, 8 si ha
P (AjT2 ) =
4
13
;
P (AjT4 ) =
16
25
;
P (AjT6 ) =
64
73
;
P (AjT8 ) =
256
265
.
Osserviamo che 8 teste consecutive danno già una probabilità del 96.6% che la moneta
estratta sia quella truccata.
Come ultima osservazione, notiamo che ci sono due modi di fare un campionamento,
cioè di “scegliere a caso” un certo numero di elementi da una popolazione:
1) con reimmissione;
2) senza reimmissione.
Rimarchiamo il fatto seguente, peraltro molto intuitivo: se il numero N di individui
della popolazione é infinito o molto grande, non c’è differenza apprezzabile tra
estrarre con reimmissione ed estrarre senza reimmisione. In questo caso, pertanto,
conviene per semplicità calcolare ogni cosa “come se” si estraesse con reimmissione.
L’esercizio che segue illustra le due diverse modalità di campionamento e mostra, per
quanto sia solo N =10, il fatto precedentemente rimarcato.
Esercizio 1.3.13 Una scatola contiene 10 viti, di cui tre difettose. Si estraggono due viti a
caso. Con quale probabilità nessuna delle due è difettosa?
Considerati gli eventi A = “prima vite estratta non difettosa”, B = “seconda vite estratta
non difettosa”, l’evento di cui ci interessa la probabilità è A \ B .
Estraendo con reimmissione, prima di estrarre la seconda volta abbiamo nella scatola l’i7
dentica situazione di 10 viti di cui tre difettose; si ha pertanto P (A) = P (B) = 10
e
quindi
P (A \ B) = P (A)¢P (B) =
7 7
¢
= 49% .
10 10
Estraendo invece senza reimmissione, l’evento B non è più indipendente da A, per cui si ha
7
P (A) = 10
, P (BjA) = 69 . Di conseguenza
P (A \ B) = P (A)¢P (BjA) =
23
7 6
10 ¢ 9
' 47% .
1.4 VARIABILI ALEATORIE
Definizione Dato uno spazio di probabilità (S, Ω, P ), si dice variabile aleatoria
(o casuale) una funzione X che ad ogni s 2 S associa un numero X(s) 2 R, in
modo che ogni insieme fs : X(s) · ag sia un evento contenuto in Ω.
L’evento fs : X(s) · ag si chiama immagine
inversa o contro-immagine dell’intervallo
−1
(¡1, a] e viene indicato con X
(¡1, a] o, adottando una forma più concisa ed
esplicita, con X · a. Più in generale, se B è un sottinsieme di numeri reali, si indica
con X −1 (B) l’evento fs : X(s) 2 Bg.
È facile
far
vedere che, 8a
2 R, gli insiemi di numeri
reali X−1 (a, +1) , X −1 (a, b] ,
X −1 fag , X −1 (a, b) , X −1 (¡1, a) e X −1 [a, +1) sono eventi. Ad esempio,
il fatto che X −1 (a, +1) sia un evento consegue banalmente dal fatto che l’insieme
fs : X(s) > ag è il complementare dell’evento fs : X(s) · ag. Anche gli eventi
appena elencati sono denotati in forma concisa con X > a , a< X · b , X =a , etc...
Dunque, l’immagine inversa di un qualunque intervallo è un evento di Ω. Ci sono
però altri sottinsiemi B di numeri reali tali che X −1 (B) è un evento.
Definizione Si chiama classe dei Boreliani la più piccola classe di sottinsiemi di
numeri reali che comprende tutti gli intervalli ed è chiusa rispetto alle operazioni
di unione (finita e numerabile) e complementazione.
Proposizione
Ogni Boreliano B è tale che X −1 (B) è un evento.
I Boreliani rappresentano dunque i sottinsiemi di numeri reali che possono essere
associati attraverso X −1 agli eventi di Ω. Ciò porta alla seguente definizione:
Definizione Data una variabile aleatoria X , si chiama distribuzione o legge di
X l’applicazione che ad ogni Boreliano B associa la probabilità della sua immagine
inversa:
B ¡! P X −1 (B) .
Sia S = f1, 2, ..., 6g lo spazio campionario relativo all’esperimento del
lancio di un dado (non truccato). Definiamo X := ”numero uscente da un lancio”, cioè
Esempio 1.4.1
X(1) := 1,
X(2) := 2
...
X(6) := 6 .
Potremo allora calcolare la probabilità di eventi del tipo X · 2.5, 1 < X · 4 oppure X ¸ 3.
Ricordando che P (X =k) = P (fkg) = 16 , per k = 1, 2, . . . , 6, si ha
P (X · 2.5) = P (X =1) + P (X =2) = 13 ,
P (1< X · 4) = P (X =2) + P (X =3) + P (X =4) = 12 ,
P (X ¸ 3) = P (X =3) + P (X =4) + P (X =5) + P (X =6) =
2
3
.
Su uno stesso spazio di probabilità possono essere definite più variabili casuali. Ad esempio,
una seconda variabile casuale può essere definita nel modo seguente:
Y := 0
Y := 1
se l’esito del lancio è pari;
24
se l’esito del lancio è dispari.
Si ha cosı̀ :
P (Y =0) = P (f2g) + P (f4g) + P (f6g) = 12 ,
P (Y =1) = P (f1g) + P (f3g) + P (f5g) = 12 ,
P (1< Y · 4) = P (;) = 0 , P (Y < 0) = P (;) = 0 ecc.
Definizione Data una variabile aleatoria X definita sullo spazio di probabilità
(S, Ω, P ), si chiama funzione di distribuzione o di ripartizione di X la funzione
F : R ! [0, 1] cosı̀ definita:
F (x) = P (X · x) , x 2 R .
Esempio 1.4.2 Consideriamo la variabile casuale Y definita nell’esempio precedente. Indicata con FY (x) la funzione di distribuzione ad essa associata, avremo

per x < 0

 P (;) = 0
1
FY (x) = P (Y · x) = P (Y =0) = 2
per 0 · x < 1


1
1
per x ¸ 1 .
P (Y =0) + P (Y =1) = 2 + 2 = 1
La funzione di distribuzione gode di alcune proprietà che sono formalizzate nelle
cinque proposizioni che seguono. Di queste dimostriamo solo la prima.
Proposizione
Vale la relazione
P (a< X · b) = F (b) ¡ F (a) .
Dimostrazione
L’evento X · b è l’unione dei due eventi X · a e a< X · b, cioè degli eventi
fs 2 S : X(s)· ag
e
fs 2 S : a< X(s)· bg,
che chiaramente sono incompatibili. Di conseguenza si ha
P (X · b) = P (X · a) + P (a< X · b) ,
da cui segue banalmente la relazione che si voleva dimostrare.
Proposizione
La funzione di distribuzione è monotona non decrescente, cioè
F (a) · F (b)
Proposizione
a · b.
Valgono i due limiti seguenti:
lim F (x) = 0 ,
lim F (x) = 1 .
x→−∞
Proposizione
se
x→+∞
La funzione di distribuzione è continua da destra, si ha cioè
lim F (x + h) = F (x) .
h→0+
Essendo F (x) definita in ogni punto, ogni eventuale discontinuità è del tipo del salto,
e per effetto della proposizione appena enunciata, vale anche la seguente
Proposizione L’ampiezza ∆F (x) del salto della funzione di distribuzione in un
punto x di discontinuità vale
∆F (x) = P (X =x) .
25
VARIABILI ALEATORIE DISCRETE
Definizione Una variabile aleatoria X è discreta se
1) c’è un insieme finito o numerabile di valori xj , tali che P (X =xj ) > 0 ;
2)
j
P (X =xj ) = 1 .
Ovviamente, j = 1, ..., n nel caso finito e j 2 N nel caso numerabile.
Una variabile aleatoria discreta, essendo individuata dai valori xj e dalle corrispondenti probabilità pj ´ P (X =xj ), può
essere cosı̀ rappresentata:
x1 , x2 , ...
X:
p1 , p2 , ...
In maniera equivalente essa è poi rappresentabile mediante la relativa funzione di
probabilità f (x) definita come
se x = xj (j = 1, 2, ...)
pj
,
f (x) =
0
altrove
oppure mediante la relativa funzione di distribuzione F (x) già definita per una qualunque variabile aleatoria , che nel caso discreto diventa
F (x) =
f (xj ) .
j: xj · x
Più esplicitamente, come peraltro già visto nell’esempio 1.4.2, F (x) è la seguente
funzione a gradini

0
se x < x1





p1
se x1 · x < x2



 p +p
se x2 · x < x3
1
2
F (x) =

¢¢¢¢¢¢¢¢¢
¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢





se xn−1 · x < xn
 p1 + ¢ ¢ ¢ + pn−1


¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢
¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢
Esempio 1.4.3
Nel caso di un dado non truccato, la variabile casuale X definita nell’esempio
1.4.1 e la relativa funzione di probabilità sono date da
X:
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
,
f (x) =
1
6
per x = 1, 2, 3, 4, 5, 6
0 altrimenti
.
La funzione distribuzione di X e il relativo grafico sono riportati qui sotto.
F (x) =

0



1


6



1


 3











1
2
2
3
5
6
1
per x < 1
per 1 · x < 2
per 2 · x < 3
per 3 · x < 4
.
per 4 · x < 5
per 5 · x < 6
per x ¸ 6
26
Esempio 1.4.4
Si consideri l’esperimento del lancio simultaneo di due dadi non truccati. In
questo caso lo spazio compionario S è costituito dai 36 eventi elementari (i, j), con i, j =
1, 2, 3, 4, 5, 6. Consideriamo la variabile aleatoria discreta Z , con Z := somma dei due
numeri estratti. Si ha quindi
Z:
2
3
4
5
6
7
8
9
10 11 12
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Il grafico sottoriportato mostra la funzione di distribuzione relativa a Z .
VARIABILI ALEATORIE CONTINUE
Definizione Una variabile aleatoria X si dice assolutamente continua se esiste
una funzione f : R !R+
0 che permette di rappresentare la funzione distribuzione
F (x) di X come funzione integrale, cioè tale che
F (x) =
x
8x 2 R .
f (t)dt ,
−∞
La funzione f (¢), che è assunta continua eccetto al più che in un numero finito
di punti,è detta densità di probabilità (o, più semplicemente, densità) della
variabile aleatoria X .
Nel seguito (come peraltro già fatto nel titolare il paragrafo), per semplicità, ci riferiremo alle variabili casuali ”assolutamente continue” con il solo aggettivo ”continue”.
Osservazione: Qui e altrove si usano integrali ”impropri”, cioè integrali definiti su un intervallo con un estremo di integrazione infinito (qualche volta entrambi). Senza approfondire
l’argomento, ricordiamo che
x
−∞
f (t)dt := lim
a→−∞
x
f (t)dt ,
a
+∞
f (t)dt := lim
a→+∞
x
a
f (t)dt .
x
Per quanto riguarda poi l’integrale su tutto l’asse reale, una possibile definizione è la seguente:
+∞
−∞
f (t)dt :=
0
f (t)dt +
−∞
27
0
+∞
f (t)dt .
La funzione densità gode di alcune proprietà che adesso elenchiamo.
1) Vale la relazione
P (a < X · b) =
b
a
f (t)dt .
Essa consegue immediatamente dal fatto che P (a< X · b) = F (b) ¡ F (a) e costituisce
lo strumento standard per il calcolo delle probabilità nel caso di variabili casuali
continue. Si noti che la formula in questione esprime l’uguaglianza fra la probabilità
P (a< X · b) e l’area sottesa dalla curva f (x) tra gli estremi x=a ed x=b.
2)
Per ogni funzione densità si ha che
+∞
−∞
f (t)dt = 1 .
Consegue direttamente dalla relazione di cui al punto precedente, tenendo conto che
P (¡1< X < +1) = P (S) = 1.
3) La funzione densità f (x), per ogni x dove è continua, soddisfa la relazione
F ′ (x) = f (x) .
Ciò risulta direttamente dalla derivazione di F (x) scritta in forma integrale.
Osservazione:
Nel caso di una variabile aleatoria continua si ha sempre P (X =a) =
a
f
(x)dx
=
0,
mentre
nel caso di variabile X discreta può benissimo essere P (X =
a
a) > 0. Analogamente, se X è continua si ha
P (a< X < b) = P (a· X < b) = P (a< X · b) = P (a· X · b) .
Queste stesse probabilità possono differire tra loro nel caso di X discreta.
Definizione Una variabile casuale X continua si dice uniformemente distribuita
o equidistribuita se la sua funzione densità f (x) o, equivalentemente, la sua funzione di distribuzione F (x) sono cosı̀ definite:


0
per x· a
0
per x· a




 1
 x¡a
f (x) =
F (x) =
per a< x< b .
per a< x< b ;


b¡a
b¡a




1
per x¸ b
0
per x¸ b
28
Esempio 1.4.5
Si consideri la variabile casuale continua di densità
f (x) =
1
2x
se 0· x· 2
0
altrove
.
Si chiede di verificare che f (x) è effettivamente una densità, calcolarne la funzione di distribuzione F (x) e quindi disegnarla assieme alla f (x). Si chiede anche di calcolare P ( 12 < X < 1).
Essendo
+∞
−∞
f (t)dt =
2
1
tdt
0 2
=
t 2 2
4 0
= 1,
siamo certi di aver a che fare con una densità. Per quanto concerne la sua funzione di
distribuzione si ha


 0
x
x 1
F (x) =
f (t)dt =
2 tdt =
0

−∞

1
I grafici di f (x) e F (x) sono dunque i seguenti:
per x· 0
x2
4
per 0· x· 2
per x¸ 2 .
La probabilità richiesta è P ( 12 < X < 1), che è uguale all’area sottesa da f (x) per 12 · x· 1.
Trattandosi di un trapezio di altezza 12 e basi 14 e 12 , la sua area, e quindi la probabilità
3
richiesta, è 16
. L’area suddetta è tratteggiata nel grafico di f (x).
Esercizio 1.4.1 Si consideri la variabile casuale continua di densità
1 ¡ jxj se jxj · 1
f (x) =
0
altrove .
Si chiede di verificare che f (x) è una densità, di calcolare la funzione di distribuzione F (x)
e di disegnare sia f (x) che F (x). Si chiede anche di calcolare P (X · ¡0.5).
Calcoliamo subito la funzione distribuzione.
F (x) =
x
−∞
f (t)dt =

0


x






−1
0
−1
1
(1 + t)dt
(1 + t)dt
2
= x2 + x + 12
x
+ 0 (1 ¡ t)dt
29
per x· ¡1
=
1
2
¡
2
x
2
per ¡ 1· x · 0
+ x per 0· x· 1
per x¸ 1 .
I grafici di f (x) e F (x) sono dunque i seguenti:
+∞
Essendo limx→+∞ F (x) = 1, ne consegue −∞ f (x)dx = 1, e quindi risulta verificato che
f (x) è una densità. Per quanto concerne infine il calcolo di P (X · ¡0.5), si ha
P (X · ¡0.5) = F (¡0.5) =
1
8
.
Questa probabilità corrisponde all’area sottesa da f (x) fra ¡1 e ¡ 12 , ossia, come si vede dal
grafico, all’area di un triangolo di base 12 e altezza 12 .
Esercizio 1.4.2 Si consideri una variabile casuale X

zione:
0



 1 x2
50
F (x) =
1 2

¡
x + 25 x ¡ 1

 50

1
a) quali sono i possibili valori della X ?
avente la seguente funzione di distribuper x· 0
per 0· x· 5
per 5· x· 10
per x¸ 10 .
b) qual è la funzione densità della X ?
a) La variabile aleatoria X assume, con probabilità 1, i valori compresi tra 0 e 10. Infatti:
P (0· X · 10) = F (10) ¡ F (0) = 1 .
b) Poichè nei punti di continuità di f (x) vale la relazione F ′ (x)=f (x), si ha
f (x) =

0



 1




25 x
1
¡ 25
x
per x· 0
per 0· x· 5
+
2
5
0
per 5· x· 10
per x¸ 10 .
Riportiamo qui sotto i grafici della funzione di distribuzione e della funzione densità della
variabile casuale X . Osserviamo che dal grafico di f (x) risulta evidente la simmetria della
distruibuzione rispetto ad x=5.
30
FUNZIONI DI VARIABILE ALEATORIA
Spesso, data una variabile casuale X, interessa una sua funzione g(X), che a sua volta
è una variabile casuale. Negli esempi che seguono si considerano appunto variabili
casuali di questo tipo. L’ultimo esempio, per quanto semplice, è forse quello più
significativo in quanto mostra come si ricava la funzione di probabilità (nel caso di
un variabile casuale discreta).
Esercizio 1.4.3 In un processo automatico si riempiono bottigliette di sciroppo. Il contenuto
di ciascuna bottiglietta risulta Y = 100+X ml (millilitri), dove X è la variabile casuale
definita nell’esercizio 1.4.1. Si chiede: in una partita di 1000 confezioni, quante approssimativamente conterranno meno di 99.5 ml?
Il numero di bottigliette cercato è uguale a 1000 moltiplicato per P (Y · 99.5), cioè per
P (X + 100 · 99.5) = P (X · ¡0.5) .
Questa probabilità è già stata calcolata nell’esercizio 1.4.1 e vale 18 . Il numero approssimativo
delle bottiglie aventi contenuto inferiore a quanto richiesto è dunque
1
8 ¢1000
= 125 .
p
Esercizio 1.4.4 Si considerino le variabili casuali Y = 3X , Q = X 2 e R = X , dove X è la
variabile casuale dell’esercizio 1.4.2. Calcolare:
Si ha:
a) P (3· Y · 21) ;
b) P (Q¸ 64) ;
c) P (2· R· 3) .
4
;
5
a)
P (3· Y · 21) = P (3· 3X · 21) = P (1· X · 7) = F (7) ¡ F (1) =
b)
P (Q¸ 64) = P (X 2 ¸ 64) = P [(X · ¡8) [ (X ¸ 8)] = P (X ¸ 8) = 1 ¡ F (8) =
c)
p
33
.
P (2· R· 3) = P (2· X · 3) = P (4· X · 9) = F (9) ¡ F (4) =
50
2
;
25
Esercizio 1.4.5 Si consideri la variabile casuale X sotto definita e si ricavi la funzione di
probabilità della variabile Y := X 2 .
¡2 ¡1
0
1
2
X:
1
1
1
1
1
5
5
5
5
5
Osservato che mentre X assume il valore xi la variabile Y assume il valore x2i , ne consegue
che Y può assumere solo i valori 0, 1 e 4. Più precisamente Y assume il valore 0 quando X
assume il valore 0, il valore 1 quando X assume il valore -1 oppure 1, il valore 4 quando X
assume il valore -2 oppure 2. Per quanto riguarda, ad esempio, la probabilità che Y assuma
il valore 1, essa sarà data dalla somma delle probabilità che X assuma i valori -1 e 1, ossia:
P (Y =1) = P (X =¡1) + P (X =1). La variabile casuale X 2 sarà dunque la seguente:
2
Y =X :
0
1
4
1
5
2
5
2
5
31
1.5 MEDIA E VARIANZA
Definizione
Si chiama media (o valor medio o valore atteso o aspettazione matematica
o speranza matematica) della variabile aleatoria X il numero, che indicheremo
indifferentemente con µX o E(X), cosı̀ definito:
µX ´ E(X) :=
xi f (xi ) ,
se X è discreta ,
µX ´ E(X) :=
i
+∞
se X è continua .
xf (x)dx ,
−∞
Nel caso discreto numerabile, per garantire la convergenza
della serie, si assume che
essa sia assolutamente convergente, cioè che sia i jxi jf (xi ) < +1.
Osservazione: Nel caso discreto la media è la somma dei valori xi moltiplicati per le
rispettive probabilità f (xi ) ´ P (X =xi ). Essa rappresenta dunque la media ponderata
dei possibili valori di X, ciascuno pesato con la sua probabilità.
Esempio 1.5.1
Si consideri l’esperimento del lancio simultaneo di una coppia di dadi non
truccati. Abbiamo già visto che lo spazio campionario S è
S = f(i, j), i, j = 1, 2, 3, 4, 5, 6g .
Sia X la variabile aleatoria che assegna a ciascun evento elementare (i, j) il massimo fra i
e j . Allora l’insieme immagine di X , cioè l’insieme di tutti i possibili valori che la X può
assumere, è il seguente
X(S) = f1, 2, 3, 4, 5, 6g .
Tenendo conto che
1
P (X =1)=P f(1, 1)g = 36
,
3
P (X =2)=P f(1, 2)g + P f(2, 1)g + P f(2, 2)g = 36
,
e, generalizzando, essendo 2k —1 il numero degli eventi elementari f(i, j)g che hanno come
valore massimo k ,
2k ¡ 1
, k = 3, 4, 5, 6 ,
36
la variabile aleatoria X risulta cosı̀ definita:
1 2 3
X:
1
3
5
P (X =k)=
36
36
36
4
5
6
7
36
9
36
11
36
.
La media di X si calcola dunque nel modo seguente:
µX =
6
k=1
xk f (xk ) = 1¢
1
3
5
7
9
11
161
+ 2¢
+ 3¢
+ 4¢
+ 5¢
+ 6¢
=
¼ 4.47 .
36
36
36
36
36
36
36
32
Proposizione
Data la variabile casuale X , la media della variabile casuale g(X)
è la seguente:
E[g(X)] =
E[g(X)] =
g(xi )f (xi ) ,
se X è discreta ,
i
+∞
g(x)f (x)dx ,
se X è continua.
−∞
La proposizione consegue direttamente dalle definizione di media. Ad esempio, se
g(X)=X 2 , si ha
E[X 2 ] =
x2i f (xi ) ,
se X è discreta ,
E[X 2 ] =
i
+∞
x2 f (x)dx ,
se X è continua.
−∞
Nel seguito vedremo che il calcolo di E[X 2 ] è estremamente utile.
Definizione
Si chiama varianza (o variazione standard) della variabile aleatoria X il numero,
2
che indicheremo con σX
o V ar(X), cosı̀ definito:
2
´ V ar(X) := E (X ¡ µX )2 .
σX
Quindi, tenendo conto della definizione di µX ,
2
´ V ar(X) :=
σX
2
σX
´ V ar(X) :=
i
(xi ¡ µX )2 f (xi ) ,
+∞
−∞
(x ¡ µX )2 f (x)dx ,
se X è discreta ,
se X è continua .
2
La varianza σX
è sempre non negativa. Esiste un unico caso in cui è nulla. Questo
caso, che è privo di interesse probabilistico, si ha se e solo se la variabile X è degenere,
cioè se la sua funzione di probabilità vale 1 in un punto x1 e 0 in ogni altro punto x.
Definizione La radice quadrata della varianza si chiama deviazione standard (o
scarto quadratico medio) e si indica con σX .
La varianza (e quindi anche la deviazione standard) misura la “dispersione” dei valori
2
assunti da X rispetto al suo valor medio µX : tanto più grande è σX
, tanto più i valori
2
di X saranno lontani dal valor medio; per contro, tanto più σX è piccola, tanto più
i valori di X saranno raccolti attorno a µX . Si può anche dire che la media di una
variabile casuale è tanto più attendibile quanto più piccola è la sua varianza.
Teorema
2
σX
= E(X 2 ) ¡ µ2X .
Facciamo la dimostrazione nel caso discreto. Nel caso continuo si procederà in maniera
del tutto analoga con integrali al posto di sommatorie. Ricordando la definizione di
33
µX e che
i f (xi )=1,
2
σX
=
i
=
i
=
i
si ottiene
(xi ¡ µX )2 f (xi ) =
x2i f (xi )
¡ 2µX
(x2i ¡ 2xi µX + µ2X )f (xi ) =
i
xi f (xi ) + µ2X
i
f (xi ) =
i
x2i f (xi ) ¡ 2µ2X + µ2X = E(X 2 ) ¡ µ2X .
Teorema (trasformazione lineare di una variabile aleatoria)
Data una variabile aleatoria X , si consideri la variabile aleatoria aX + b, con a e b
reali qualunque, a 6
= 0. Valgono allora le seguenti relazioni:
2
2
σaX+b
= a2 σX
.
µaX+b = aµX + b ,
Dimostrazione
Come nel caso del precedente teorema, proviamo anche questo nel caso discreto. La
variabile aleatoria aX + b è la seguente:
ax1 + b ax2 + b ... axn + b ...
f (x1 )
f (x2 ) ... f (xn ) ...
Ricordando che i f (xi ) = 1, si ha immediatamente
µaX+b =
(axi + b)f (xi ) = a
xi f (xi ) + b
f (xi ) = aµX + b .
i
i
i
Ora, sfruttando questo risultato, calcoliamo la varianza:
2
σaX+b
=
(axi + b ¡ µaX+b )2 f (xi ) =
(axi + b ¡ aµX ¡ b)2 f (xi ) =
i
2
=a
i
i
2
(xi ¡ µX ) f (xi ) =
2
a2 σX
.
Corollario
E(X ¡ µX ) = 0 .
Si ottiene immediatamente dall’ultimo teorema ponendo a=1 e b=¡µX .
2
2
Corollario
σaX
= a2 σX
.
Si ottiene immediatamente dall’ultimo teorema ponendo b=0.
2
2
Corollario
σX+b
= σX
.
Si ottiene immediatamente dall’ultimo teorema ponendo a=1.
2
Definizione Sia X una variabile casuale con varianza σX
> 0. Si chiama variabile
casuale standardizzata associata ad X la variabile casuale X ∗ cosı̀ definita:
X ¡ µX
X∗ =
.
σX
34
Proposizione Ogni variabile casuale standardizzata ha media nulla e varianza
uguale ad 1, ossia
2
µX ∗ = 0 ,
σX
∗ = 1.
Queste proprietà di X ∗ seguono immediatamente dai teoremi e dai corollari precedenti. Infatti:
X ¡ µ X µ
1 X
X
µX ∗ = E
=E
¡
=
E(X) ¡ µX = 0 ,
σX
σX
σX
σX
X ¡ µ X
µX 1 2
X
2
σX
= V ar
¡
= 2 σX
= 1.
∗ = V ar
σX
σX
σX
σX
Definizione Data una variabile aleatoria X , si chiama mediana di X un valore
x0 tale che
1
P (X < x0 ) · · P (X · x0 ) .
2
Dalla definizione consegue immediatamente che, se F (x) è la funzione distribuzione
di X, la mediana è un punto x0 tale che F (x0 ) = 12 se un tale x0 esiste. In caso
contrario x0 è un punto di discontinuità di F (x) tale che F (x) < 12 per x < x0 e
F (x) > 12 per x ¸ x0 . È anche facile constatare che vi possono essere più mediane;
più precisamente le mediane costituiscono un intervallo chiuso (che eventualmente si
riduce ad un punto).
I tre grafici proposti qui sotto illustrano le tre situazioni più comuni: a) F (x) è
continua in ogni x (e quindi associata ad una variabile casuale X continua con f (x)
continua 8x): esiste un unico x0 tale che F (x0 ) = 12 ; b) F (x) è costante a tratti (e
quindi associata ad una variabile casuale X discreta), con F (x) 6
= 12 , 8x. In questo
caso, se F (x) assume i valori α e β con α < 12 < β, saltando da α a β nel punto x∗ ,
allora x0 = x∗ . c) F (x) è costante a tratti , con F (x) = 12 , per x1 · x < x2 : ogni
x 2 [x1 , x2 ] può essere assunto come x0 .
Esempio 1.5.2 Consideriamo di nuovo l’esperimento dell’esempio 1.5.1. Calcoliamo la va2
rianza di X mediante la relazione σX
=E(X 2 )¡µ2X . A tal fine andiamo a calcolare E(X 2 ).
6
1
3
5
7
9
11
791
+ 22 + 32 + 42 + 52 + 62
=
¼ 21.97 .
36
36
36
36
36
36
36
Ora, applicando il risultato precedentemente ricordato e utilizzando il valore di µX trovato
E(X 2 ) =
i=1
x2i f (xi ) = 12
nell’esempio 1.5.1, si ottiene
2
σX
= E(X 2 ) ¡ µ2X ¼ 21.97 ¡ (4.47)2 ¼ 21.97 ¡ 19.98 = 1.99 ,
e quindi la deviazione standard
σX ¼
p
1.99 ¼ 1.41 .
35
Esempio 1.5.3
Sia X la variabile aleatoria continua (già considerata nell’esempio 1.4.5) la
cui funzione densità è
1
se 0· x· 2
2x
f (x) =
0
altrove
.
Calcoliamo media e varianza (quest’ultima in due modi: sia applicando la definizione che
attraverso il calcolo di E(X 2 )).
3 2
x
=
= 43 ,
6
−∞
0
2
4
2
+∞
2
= −∞ (x ¡ µX )2 f (x)dx = 0 x ¡ 43 ¢ 12 xdx = x8 ¡ 49 (x3 ¡ x2 ) = 29 ,
0
4 2
+∞
2
x
2
= E(X 2 ) ¡ µ2X = −∞ x2 f (x)dx ¡ µ2X = 0 12 x3 dx ¡ 16
¡ 16
9 =
8
9 = 9 .
µX =
2
σX
2
σX
+∞
xf (x)dx =
2
1
x¢xdx
0 2
0
Esercizio 1.5.1 Si eseguano tre lanci consecutivi di una moneta truccata in modo tale che
P (T ) = 34 . Sia X la variabile casuale che rappresenta il numero di teste ottenute nei tre
lanci. Si chiede di calcolarne la media, la varianza e la deviazione standard.
La variabile X può assumere i valori 0,1,2,3. Le probabilità che X assuma ciascuno di questi
valori sono le seguenti:
P (X =0) = P (CCC) =
1 3
4
=
1
64
,
2
9
P (X =1) = P (T CC) + P (CT C) + P (CCT ) = 3 34 14 = 64
,
2
P (X =2) = P (T T C) + P (T CT ) + P (CT T ) = 3 34 14 = 27
64 ,
3 3
P (X =3) = P (T T T ) = 4 = 27
64 ,
0 1 2
La funzione di probabilità di X è dunque la seguente: X :
9
27
1
64
Avremo quindi:
64
64
3
27
64
.
1
9
27
27
9
µX = 0¢
+ 1¢
+ 2¢
+ 3¢
= ;
64
64
64
64
4
2 1
2 9
9
9
9 2 27 9 2 27
9
2
σX
= 0¡
¢
+ 1¡
¢
+ 2¡
¢
+ 3¡
¢
=
;
64
4
64
4
64
4
64
16
4
9
3
σX =
= .
16
4
2
Per il calcolo della varianza si sarebbe potuto procedere anche utilizzando la relazione σX
=
2
2
2
E(X ) ¡ µx . In tal caso si sarebbe dovuto calcolare E(X ) ottenendo
E(X 2 ) = 02 ¢
1
9
27
27
45
+ 12 ¢
+ 22 ¢
+ 32 ¢
=
,
64
64
64
64
8
e quindi, come prima,
2
σX
= E(X 2 ) ¡ µ2x =
36
45 81
9
¡
=
.
8
16
16
Esercizio 1.5.2 Si consideri la variabile aleatoria X definita nell’esercizio 1.4.2. Si chiede di
calcolarne la media, la varianza e la mediana.
La funzione densità e di distribuzione di X sono le seguenti:
f (x) =

0



 1




per x· 0
25 x
1
x
¡ 25
per 0· x· 5
+
2
5
0
F (x) =
per 5· x· 10
per x¸ 10 .
La media e la varianza sono date da
µX =
+∞
xf (x)dx =
−∞
2
σX
= E(X 2 ) ¡ µ2X =
5
0
5
0

0



 1




per x· 0
2
50 x
1 2
x
¡ 50
per 0· x· 5
+
2
x
5
1
¡ 1 per 5· x· 10
per x¸ 10 .
x3 5 x3
x2
2x x2 10
+ ¡ +
= 5;
+
dx =
25
5
75 0
75
5 5
5
10 3
x
2x2 25
x3
dx +
¡ +
dx ¡ 25 =
.
25
25
5
6
5
x2
dx +
25
10 ¡
Per calcolare la mediana occorre determinare un x0 tale che F (x0 ) = 12 . Chiaramente si
ricava x0 = 5. Il fatto che µX ed x0 coincidano e valgano 5 è un’ovvia conseguenza della
simmetria della distribuzione rispetto ad x=5 (si riveda il grafico di f (x) precedentemente
riportato).
Esercizio 1.5.3 Calcolare media, varianza e mediana di una generica variabile aleatoria
uniformemente distribuita.
Sia [a, b] l’intervallo in cui la variabile aleatoria ha densità non nulla. Ricordiamo che

0




0


 x¡a
F (x) =

b¡a


1
per x· a
1
f (x) =

b¡a


0
per a< x< b ;
per x¸ b
per x· a
per a< x< b .
per x¸ b
Andiamo a calcolarne media e varianza. Procedendo come nell’esercizio precedente, abbiamo:
µX =
+∞
xf (x)dx =
−∞
2
σX
= E(X 2 ) ¡ µ2X =
b
x
a+b
dx =
;
b¡a
2
a
+∞
−∞
x2 f (x)dx ¡
(a + b)2
=
4
b
a
x2
(a + b)2
(b ¡ a)2
dx ¡
=
.
b¡a
4
12
Per calcolare la mediana x0 dobbiamo risolvere l’equazione F (x) =
x¡a
1
= ,
b¡a
2
1
2,
cioè l’equazione
a+b
. Dunque, come peraltro facilmente intuibile, per ogni
2
variabile casuale uniformemente distribuita, media e mediana coincidono col punto medio
di (a, b).
che fornisce la soluzione x0 =
37
1.6 VARIABILI ALEATORIE BIDIMENSIONALI
In un esperimento, invece che ad un unico risultato numerico, possiamo essere interessati a più valori (ad esempio, per una persona, a peso, altezza, età, ecc.). Ciascuno
di tali valori è una variabile aleatoria, ma anche la n-upla di valori ottenuti può essere considerata come una variabile aleatoria multipla o n—dimensionale. Qui, per
semplicità, tratteremo solo, seppure brevemente, le variabili aleatorie bidimensionali.
Definizione
Dato uno spazio di probabilità (S, Ω, P ), si dice variabile aleatoria bidimensionale una coppia di funzioni (X, Y ) che ad ogni s 2 S associa un coppia di numeri
reali X(s), Y (s) , tali che ogni insieme fs : X(s) · a , Y (s) · bg sia un evento
contenuto in Ω.
Anche nel caso di variabili casuali bidimensionali lo strumento essenziale per il loro
utilizzo è la funzione distribuzione, la cui definizione si ottiene immediatamente generalizzando quella per variabili unidimensionali. Infatti, si ha
Definizione
Data una variabile aleatoria bidimensionale (X, Y ) definita sullo spazio di probabilità (S, Ω, P ), si chiama funzione di distribuzione o di ripartizione ad essa
associata la funzione F : R2 ! [0, 1] cosı̀ definita:
F (x, y) = P (X · x, Y · y) ,
(x, y) 2 R2 .
La virgola nella probabilità appena scritta equivale ad una intersezione. Per favorire la
comprensione del significato della F (x, y), ne ricordiamo tutte le possibili espressioni:
F (x, y) = P (X · x, Y · y) =
= P s 2 S : X(s) · x, Y (s) · y =
= P (X · x) \ (Y · y) =
= P s 2 S : X(s) · x \ s 2 S : Y (s) · y .
Ragionando sulla base del disegno riportato qui
accanto e utilizzando la proprietà additiva della
probabilità nel caso di eventi incompatibili, si dimostra che
P (x1 < X · x2 , y1 < Y · y2 ) = F (x2 , y2 ) ¡ F (x2 , y1 ) ¡ F (x1 , y2 ) + F (x1 , y1 ) .
Si dimostra inoltre che valgono le seguenti proprietà:
lim F (x, y) = 1 ,
x→+∞
y→+∞
lim F (x, y) = lim F (x, y) = 0 ,
x→−∞
y→−∞
lim F (x, y) = FY (y) = P (Y · y) ,
x→+∞
lim F (x, y) = FX (x) = P (X · x) .
y→+∞
38
Le funzioni di distribuzione FX (x) della X e FY (y) della Y sono dette funzioni di
distribuzione marginali della variabile congiunta (X, Y ).
Le variabili casuali bidimensionali, cosı̀ come quelle unidimensionali, possono essere
di tipo discreto o di tipo continuo.
Una variabile bidimensionale (X, Y ) è discreta se esiste un insieme finito o numerabile
di coppie di numeri reali (xr , ys ), r = 1, 2, . . . , s = 1, 2, . . . , tali che
P (X =xr , Y =ys ) = prs ¸ 0 ,
con
prs = 1 .
r,s
Eventuali coppie (xr , ys ) con prs =0 possono rappresentare coppie di valori mai assunti
dalla variabile casuale, che però per comodità sono presi ugualmente in considerazione
assegnando loro probabilità nulla.
Si chiama funzione di probabilità congiunta la funzione
prs
se (x, y) = (xr , ys ) r = 1, 2, . . . , s = 1, 2, . . .
,
f (x, y) =
0
altrove
mentre si chiamano funzioni di probabilità marginali le funzioni
pr• = s prs
se x = xr
fX (x) =
,
0
altrove
p•s = r prs
se y = ys
fY (y) =
.
0
altrove
Nel caso di una variabile aleatoria (X, Y ) discreta finita, supposto r = 1, 2, . . . , N e
s = 1, 2, . . . , M , le funzioni di probabilità congiunta e marginali vengono rappresentate
attraverso la seguente tabella:
y2
Y
.........
yM
p11
p21
...
...
pN 1
p12
p22
...
...
pN 2
.........
.........
.........
.........
.........
p1M
p2M
...
...
pNM
p•1
p•2
.........
p•M
y1
X
x1
x2
...
...
xN
p1•
p2•
...
...
pN•
Una variabile bidimensionale (X, Y ) è continua se esiste una funzione f (x, y), non
negativa, tale che
x y
F (x, y) =
f (u, v)dudv .
−∞
−∞
La funzione f (x, y) è detta funzione densità congiunta. Naturalmente si ha
+∞ +∞
f (u, v)dudv = 1 ,
−∞
−∞
39
che costituisce la condizione perché una funzione f (x, y)¸ 0 sia una funzione densità.
Si può poi dimostrare che le funzioni di distribuzione marginali sono date da
x +∞
FX (x) =
f (u, v)dv du ,
FY (y) =
−∞
−∞
y +∞
−∞
−∞
f (u, v)du dv ,
e quindi, per definizione di funzione densità, le densità marginali delle variabili X
e Y sono date da
+∞
+∞
fX (x) =
f (x, v)dv ,
fY (y) =
f (u, y)du .
−∞
−∞
Sia A un sottinsieme di R2 tale che l’insieme s : X(s), Y (s) 2 A sia un evento di
Ω. Un importante teorema riguardante la funzione densità congiunta è il seguente:
Teorema
(senza dimostrazione)
P (X, Y ) 2 A =
f (x, y) dx dy .
A
Un corollario, molto utile ai fini della risoluzione degli esercizi (come si vedrà nell’esercizio 1.6.4), segue in maniera immediata dal teorema appena enunciato:
Corollario Siano (X, Y ) una variabile casuale bidimensionale, f (x, y) la sua funzione densità congiunta, Φ(X, Y ) una variabile casuale funzione di X e Y , e B un
boreliano di R. Vale la relazione
P Φ(X, Y ) 2 B =
f (x, y) dx dy ,
con
A = (x, y) : Φ(x, y) 2 B .
A
La dimostrazione è immediata:
P Φ(X, Y ) 2 B = P s : Φ X(s), Y (s) 2 B =
= P s : X(s), Y (s) 2 (x, y) : Φ(x, y) 2 B
=
= P s : X(s), Y (s) 2 A .
Teorema ( senza dimostrazione) Se (X, Y ) è una variabile casuale bidimensionale e
Φ(X, Y ) una variabile casuale funzione di X e Y , si ha
E[Φ(X, Y )] =
E[Φ(X, Y )] =
N M
Φ(xr , ys ) prs
r=1 s=1
+∞ +∞
se X e Y sono discrete (e finite);
,
Φ(x, y) f (x, y) dxdy ,
−∞
−∞
Corollario
E[aX + bY ] = aE[X] + bE[Y ] .
Corollario
E
N
k=1
N
αk Xk = k=1 αk E[Xk ] .
40
se X e Y sono continue.
Definizione Si chiama covarianza delle variabili casuali X e Y , e la indicheremo
con σX,Y o Cov(X, Y ), il numero
σX,Y ´ Cov(X, Y ) := E (X ¡ µX )(Y ¡ µY ) .
In virtù del teorema precedente la covarianza risulta quindi cosı̀ definita:
σX,Y =
σX,Y =
N M
(xr ¡ µX )(ys ¡ µY )prs ,
r=1 s=1
+∞ +∞
−∞
−∞
Teorema
Dimostrazione
se X e Y sono discrete (e finite);
(x ¡ µX )(y ¡ µY )f (x, y)dxdy ,
se X e Y sono continue.
σX,Y = µXY ¡ µX µY .
σX,Y = E (X ¡ µX )(Y ¡ µY ) = E XY ¡ µX Y ¡ µY X + µX µY =
= E(XY ) ¡ µX E(Y ) ¡ µY E(X) + µX µY = µXY ¡ µX µY .
Teorema
2
2
σX±Y
= σX
+ σY2 § 2σX,Y .
Dimostrazione
2 2 2
= E (X ¡ µX ) § (Y ¡ µY )
=
σX±Y
= E (X § Y ) ¡ (µX § µY )
2
2
2
2
= E (X ¡ µX ) + (Y ¡ µY ) § 2(X ¡ µX )(Y ¡ µY ) = σX + σY § 2σX,Y .
Il teorema appena dimostrato per due variabili casuali, si può facilmente generalizzare
alla somma di n variabili Xi :
n
n
Teorema
V ar
Xi =
V ar Xi +2
Cov Xi , Xk .
(senza dimostrazione)
Teorema
i=1
i=1
i=1,...,n−1
k=i+1,...,n
2
2 2
σX,Y
· σX
σY .
(senza dimostrazione)
Introduciamo ora l’importante concetto di indipendenza fra variabili casuali.
Definizione Due variabili aleatorie X e Y sono indipendenti quando la funzione di
distribuzione congiunta F (x, y) è uguale al prodotto delle funzioni di distribuzioni
marginali FX (x) e FY (y), cioè quando
F (x, y) = FX (x) ¢ FY (y) ,
Teorema
8x, y 2 R .
(senza dimostrazione)
CNS perchè due variabili aleatorie X e Y siano indipendenti è che si abbia
P (X 2 A, Y 2 B) = P (X 2 A) ¢ P (Y 2 B) ,
Teorema
8 A , B Boreliani .
(senza dimostrazione)
CNS perchè due variabili aleatorie X e Y discrete siano indipendenti è che sia
P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) .
41
Teorema
(senza dimostrazione)
CNS perchè due variabili aleatorie X e Y continue siano indipendenti è che sia
f (x, y) = fX (x) ¢ fY (y) .
Teorema
Date due variabili casuali X e Y indipendenti, vale la relazione
µXY = µX ¢µY .
Dimostrazione
Facciamo la dimostrazione nel caso discreto. Sfruttando il teorema precedentemente
enunciato per variabili casuali discrete si può scrivere:
µXY =
r
=
r
xr ys P (X =xr , Y =ys ) =
s
xr P (X =xr ) ¢
s
r
xr ys P (X =xr ) P (Y =ys ) =
s
ys P (Y =ys ) = µX ¢µY .
Dalla relazione appena dimostrata, applicando i due teoremi dimostrati alla pagina
precedente, seguono immediatamente le due relazioni del corollario che segue.
Corollario Date due variabili casuali X e Y indipendenti, valgono le relazioni
i) σX,Y = 0 ;
2
2
ii) σX±Y
= σX
+ σY2 .
Definizione Si chiama coefficiente di correlazione fra le variabili casuali X e Y ,
e lo denotiamo con ρX,Y , il numero
σX,Y
ρX,Y =
.
σX σY
Il coefficiente di correlazione fra due variabili casuali è nullo se e solo se la loro covarianza è nulla. In questo caso diciamo che X e Y sono incorrelate. Ora, come
affermato nel precedente corollario, σX,Y è certamente nulla se X e Y sono indipendenti. Tuttavia, la covarianza può essere nulla anche se X e Y non sono indipendenti.
2
2 2
Se σX,Y 6
= 0, X e Y si dicono correlate. Essendo σX,Y
· σX
σY (teorema enunciato in
precedenza), si ha sempre jρX,Y j· 1. Ne consegue che X e Y sono tanto più correlate,
quanto più ρX,Y è in modulo prossimo ad uno. Nel caso di correlazione massima, cioè
jρX,Y j = 1, X e Y sono linearmente dipendenti, per cui Y = αX + β, con α < 0 se
ρX,Y =¡1 e α> 0 se ρX,Y =1.
In virtù della definizione di variabili incorrelate, dal teorema relativo alla varianza
della somma di n variabili casuali, segue immediatamente il seguente
Corollario Se X1 , X2 , . . . , Xn sono n variabili casuali incorrelate, allora la varianza
della loro somma è uguale alla somma delle loro varianze, vale a dire
V ar X1 + X2 + ¢ ¢ ¢ + Xn = V ar(X1 ) + V ar(X2 ) + ¢ ¢ ¢ + V ar(Xn ) .
42
In particolare, se le Xi hanno tutte la stessa varianza σ 2 , si ha
V ar X1 + X2 + ¢ ¢ ¢ + Xn = nσ 2 .
Inoltre, tenendo conto del fatto che V ar(aX) = a2 V ar(X), si ha anche
V ar a1 X1 + a2 X2 + ¢ ¢ ¢ + an Xn = a21 V ar(X1 ) + a22 V ar(X2 ) + ¢ ¢ ¢ + a2n V ar(Xn ) .
Esercizio 1.6.1 Da un’urna contenente due palline bianche, una nera e due rosse, si estraggono una dopo l’altra con reimmissione due palline. Sia X1 la variabile casuale che descrive
l’esito della prima estrazione e X2 quella che descrive l’esito della seconda estrazione. Ciascuna delle due variabili assume valore 1 se la pallina estratta è bianca, valore 0 se è nera
o rossa. Si chiede di descrivere le leggi di probabilità congiunta e marginali, calcolare la
covarianza e il coefficiente di correlazione.
Essendo l’estrazione con reimmissione, gli esiti delle due estrazioni sono eventi indipendenti
e quindi si ha
P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s ) ,
per r, s = 1, 2 e x11 = x21 = 0 , x12 = x22 = 1 . Questa relazione tra le probabilità assicura
l’indipendenza delle due variabili casuali X1 e X2 e permette immediatamente di rappresentarne la funzione di probabilità congiunta mediante la seguente tabella:
0
X1
X2
1
0
3 3
¢
5 5
3 2
¢
5 5
3
5
1
2 3
¢
5 5
2 2
¢
5 5
2
5
3
5
2
5
2
2
Andiamo ora a calcolare le medie µX1 , µX2 e µX1 X2 , le varianze σX
e σX
. Una volta
1
1
ottenuti questi valori, attraverso i teoremi visti calcoleremo immediatamente la covarianza
σX1 ,X2 e il coefficiente di correlazione ρX1 ,X2 .
3
2
2
µX1 = µX2 = 0¢ + 1¢ = ;
5
5
5
2 3 2
2 2 2
6
2
2
=
σ
=
0
¡
¢
+
1
¡
¢ =
;
σX
X2
1
5
5
5
5
25
9
6
6
4
4
µ X1 X2 =
x1r x2s prs = 0¢0¢
+ 0¢1¢
+ 1¢0¢
+ 1¢1¢
=
;
25
25
25
25
25
r,s
σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 =
4
2 2
¡ ¢ = 0;
25 5 5
ρX1 ,X2 =
σX1 ,X2
= 0.
σX1 σX2
Osserviamo che in virtù dell’indipendenza di X e Y sapevamo già, grazie ad un teorema che
abbiamo visto, che σX1 ,X2 era nulla. Il calcolo è stato fatto ugualmente per fare pratica.
43
Esercizio 1.6.2 Si risolva il problema dell’esercizio precedente senza reimmissione.
Non reimmettendo la pallina estratta per prima, l’esito della seconda estrazione viene a
dipendere dall’esito della prima. Di conseguenza le probabilità congiunte cambiano e si ha
P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s jX1 = x1r ) .
Le variabili casuali X e Y non sono indipendenti e la tabella che rappresenta la funzione di
probabilità congiunta risulta cosı̀ modificata:
X2
0
X1
1
0
3 2
5¢4
3 2
5¢4
3
5
1
2 3
5¢4
2 1
5¢4
2
5
3
5
2
5
Ripetendo i calcoli fatti per l’esercizio precedente otteniamo
3
2
2
µX1 = µX2 = 0¢ + 1¢ = ;
5
5
5
2 2 3 2 2 2
6
2
2
σX 1 = σX 2 = 0 ¡
¢ + 1¡
¢ =
;
5
5
5
5
25
6
6
2
1
6
µ X1 X2 =
+ 0¢1¢
+ 1¢0¢
+ 1¢1¢
=
;
x1r x2s prs = 0¢0¢
20
20
20
20
10
r,s
σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 =
ρX1 ,X2 =
1
2 2
3
¡ ¢ =¡ ;
10 5 5
50
σX1 ,X2
1
=¡ .
σX1 σX2
4
Il fatto che la media e la varianza delle variabili singole siano le stesse dell’esercizio precedente non deve sorprendere: le distribuzioni marginali non sono cambiate. Giova piuttosto
osservare che ora le variabili X e Y non sono indipendenti e, essendo ρX1 ,X2 6
= 0, neppure
incorrelate.
Esercizio 1.6.3 Un’urna contiene 112 dadi di cui 56 (cioè la metà) sono equi, mentre gli altri
sono stati manipolati in modo che, per ciascuno di essi, la probabilità di ottenere 1 sia 12 ,
1
mentre ogni altro risultato si verifica con probabilità 10
. Si chiede:
a) Un dado viene estratto a caso e lanciato; indichiamo con X la variabile aleatoria che
rappresenta il risultato del lancio. Qual è la probabilità di ottenere 3? Quanto vale E(X)?
b) Un dado viene estratto a caso e lanciato due volte. Indicato con X il risultato del primo
lancio e con Y quello del secondo, qual è la probabilità di ottenere X =2 e Y =3?
c) Sapendo che i due lanci hanno dato come risultato X =2 e Y =3, qual è la probabilità
che si tratti di uno dei dadi truccati?
d) Le variabili casuali X e Y sono indipendenti?
44
a) Le probabilità con cui la variabile aleatoria X assume i valori 1, 2, ..., 6 dipendono dal
fatto che il dado estratto sia oppure no equo. Indicato con A l’evento “il dado estratto è
equo” e quindi con AC l’evento “il dado estratto è alterato”, si ha
XjA :
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
C
,
XjA :
1
2
3
4
5
6
1
2
1
10
1
10
1
10
1
10
1
10
Applicando la formula della probabilità totale, per cui
.
P (X =k) = P (X =kjA) ¢ P (A) + P (X =kjAC ) ¢ P (AC ) ,
la variabile non condizionata X risulta cosı̀ definita:
X:
Si ha dunque P (X =3) =
2
15
1
2
3
4
5
6
1
3
2
15
2
15
2
15
2
15
2
15
e, facendo i calcoli, E(X) =
.
6
k=1
k ¢ P (X =k) = 3.
b) Consideriamo la variabile bidimensionale (X, Y ), con Y variabile identica alla X . La sua
funzione di probabilità congiunta sarà definita dalle relazioni
P (X =j, Y =k) = P (X =j, Y =k)jA ¢ P (A) + P (X =j, Y =k)jAC ¢ P (AC ) =
1
1
= P (X =jjA) ¢ P (Y =kjA) ¢ + P (X =jjAC ) ¢ P (Y =kjAC ) ¢ .
2
2
In particolare
1
1
P (X =2, Y =3) = P (X =2jA) ¢ P (Y =3jA) ¢ + P (X =2jAC ) ¢ P (Y =3jAC ) ¢ =
2
2
1 1 1
1 1 1
17
¢
¢ =
.
= ¢ ¢ +
6 6 2 10 10 2
900
Volendo, anche se non richiesto dall’esercizio, calcolare e mostrare la tabella completa che
rappresenta la funzione di probabilità congiunta della variabile aleatoria (X, Y ), abbiamo:
Y
X
1
2
3
4
5
6
1
5
36
7
180
7
180
7
180
7
180
7
180
1
3
2
7
180
17
900
17
900
17
900
17
900
17
900
2
15
3
7
180
17
900
17
900
17
900
17
900
17
900
2
15
4
7
180
17
900
17
900
17
900
17
900
17
900
2
15
5
7
180
17
900
17
900
17
900
17
900
17
900
2
15
6
7
180
17
900
17
900
17
900
17
900
17
900
2
15
1
3
2
15
2
15
2
15
2
15
2
15
c) Indicato con B l’evento fX =2, Y =3g, ci si chiede ora P (AC jB). Utilizzando la formula
di Bayes, otteniamo
P (AC jB) =
P (BjAC ) ¢ P (AC )
=
P (B)
45
1
10
1
10
17
900
¢
¢
1
2
=
9
.
34
d) Perchè due variabili aleatorie X e Y siano indipendenti (vedi pag. 36) deve essere
P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) ,
per ogni coppia (xr , ys ). Nel nostro caso, con xr =2 e ys =3, si ha
17
2
2
= P (X =2) ¢ P (Y =3) = 15
¢ 15
=
900 = P (X =2, Y =3) 6
Di conseguenza X e Y non sono indipendenti.
Esercizio 1.6.4
colare:
4
225
.
Due variabili casuali X e Y sono indipendenti ed uniformi su [0, 1]. Cal-
1 1
b) P XY < X >
.
4
2
Essendo X e Y uniformi ed indipendenti sull’intervallo [0, 1], la variabile congiunta (X, Y )
ha una funzione densità f (x, y) data dal prodotto delle funzioni densità di X e Y . Di
conseguenza, indicato con Q il ”quadrato” ´ (0, 1) £ (0, 1), si ha:
0 se (x, y) 2
/Q
f (x, y) =
.
1 se (x, y) 2 Q
1
a) P XY >
;
2
Ricordando poi un corollario sulle funzioni densità congiunte, sappiamo che
P Φ(X, Y ) 2 B =
f (x, y) dx dy ,
con
A
Di conseguenza, essendo Φ(X, Y ) = XY , abbiamo che
P (XY 2 B) =
A
f (x, y) dx dy =
dx dy ,
A∩Q
A = (x, y) : Φ(x, y) 2 B .
con
A = (x, y) : xy 2 B .
a) Dovendo essere XY > 12 , si ha B = z > 12 , e quindi A è la regione, tutta contenuta
in Q, costituita dai punti (x, y) tali che xy > 12 (vedi figura). Di conseguenza la probabilità
richiesta è
1 1
1
P XY >
=
dx dy =
dx
dy =
1
1
2
A∩Q
2
2x
1
1 1
=
1¡
dx = (1 ¡ loge 2) .
1
2x
2
2
b) Per calcolare la probabilità richiesta in questo punto, si procede analogamente a quanto
fatto per il punto a) tenendo però conto che si tratta di una probabilità condizionata:
1 1 P [XY < 14 , X > 12 ]
P XY < X >
=
.
4
2
P [X > 12 ]
Posto A′ = (x, y) : xy < 14 , x> 12 , si ha quindi
1
1 4x
1 1
A′ ∩Q dx dy
=
P XY < X >
=2
dx
dy =
1
1
4
2
0
2
2
1
1
1
=2
dx = loge 2 .
1 4x
2
2
46
1.7 DISTRIBUZIONI BINOMIALE, DI POISSON E DI GAUSS
DISTRIBUZIONE BINOMIALE
Consideriamo esperimenti con due soli risultati: ad esempio, il lancio di una moneta
produce come risultato o testa o croce; un individuo, scelto a caso da un gruppo,
possiede oppure no una data caratteristica; un dato prodotto, uscito da una linea di
produzione, è difettoso oppure no. Generalizzando, siano A (il “successo”) e B ´ AC
(“il fallimento”) i due possibili risultati del nostro esperimento, e siano p = P (A) e
q = P (B) = 1¡p le loro probabilità. Considerando ora una variabile casuale Y che
assume il valore 1 nel caso di successo e 0 nel caso di fallimento, essa risulta così
definita:
0
1
Y :
.
1¡p p
Una variabile casuale di questo tipo è detta di Bernoulli o bernoulliana. È immediato verificare che
E(Y ) = p ,
V ar(Y ) = pq .
Supponiamo poi che dell’esperimento in questione siano fatte n prove e sia X la variabile aleatoria che ne descrive il risultato: sarà X =k se si verificano esattamente k
successi. Ebbene, il teorema che segue, e che non dimostriamo, ci fornisce la probabilità P (X =k). (Si consiglia di rivedere gli esercizi 1.5.1 e 1.5.2 per una giustificazione
del teorema basata su due problemi specifici).
Teorema (di Bernoulli) La probabilità che in n prove indipendenti l’evento A
avvenga esattamente k volte vale
n k n−k
p q
, k = 0, 1, ..., n ,
k
dove p è la probabilità di A in una singola prova e q =1¡p.
Si dà quindi la seguente
Definizione Dati 0 < p < 1 e n 2 N , si chiama variabile aleatoria binomiale la
variabile aleatoria discreta (e finita) avente la seguente funzione di probabilità:
P (X =k) ´ f (k) = nk pk q n−k , q =1¡p , k = 0, 1, . . . , n .
n
n!
Ricordando che
=
, si può anche scrivere
k
k!(n ¡ k)!
X:
0
1
qn
npq n−1
2
n!
p2 qn−2
2!(n ¡ 2)!
...
...
n¡2
n!
pn−2 q 2
(n ¡ 2)!2!
n¡1
npn−1 q
n
pn
.
Spesso, piuttosto di dire che abbiamo una variabile aleatoria X binomiale, parleremo
di distribuzione binomiale. Qualche volta, poi, per indicare una variabile aleatoria
X binomiale di parametri n e p scriveremo X ' B(n, p).
47
Si noti che effettivamente la somma di tutte le probabilità P (X =k) è 1. Infatti, per
la formula binomiale di Newton, si ha
n n
pk q n−k = (p + q)n = 1n = 1 .
k
k=0
Teorema
(senza dimostrazione)
Una variabile casuale X binomiale ha media e varianza date da
2
σX
= npq .
µX = np ,
Per poter calcolare operativamente la funzione distribuzione F (k) = P (X · k) o la
funzione di probabilità f (k) è molto utile la seguente relazione:
P (X = k+1) =
p n¡k
P (X = k) .
1¡p k+1
Esercizio 1.7.1 Se la probabilità di avere un figlio maschio è
1
2
, per una famiglia con 5 figli,
qual è la probabilità di avere: (i) due maschi; (ii) almeno un maschio; (iii) almeno 3 femmine.
Sia X la variabile aleatoria binomiale che rappresenta il “numero di maschi fra n = 5 figli”:
1 5
5 1 2 1 3
5
P (X =2) =
= 10 ¢
=
;
2 2
2
2
16
31
5 1 0 1 5
=
P (X ¸ 1) = 1 ¡ P (X =0) = 1 ¡
;
0 2
2
32
2 k 5−k
1
1
1
1
1
5 1
=
+5¢
+ 10 ¢
= .
P (X · 2) =
2
32
32
32
2
k 2
k=0
Esercizio 1.7.2 Sia p = 98% la probabilità che un test diagnostico su una persona dia una
risposta corretta. Si chiede qual è la probabilità che eseguendo il test su un gruppo di 7
individui esso dia una risposta corretta per (i) tutti 7; (ii) almeno 6; (iii) meno della metà.
Indichiamo con X la variabile aleatoria binomiale che rappresenta il numero delle diagnosi
veritiere sulle 7 eseguite. Si ha
987 7
98 7 2 0
P (X =7) =
= 1¢
¼ 0.868 ;
100
1014
7 100
7
98 6 2 1
7
98 7 2 0
P (X ¸ 6) =
+
¼ 0.124 + 0.868 = 0.992 ;
6 100
100
7 100
100
3 7
98 k 2 7−k
P (X · 3) =
¼ 0.53¢10−5 .
k 100
100
k=0
48
Esempio 1.7.1
Si consideri ancora il test dell’esercizio precedente, questa volta con p=90%,
che supponiamo eseguito su una popolazione di n = 250 persone. Calcoliamo la media e la
deviazione standard della variabile aleatoria Y che rappresenta il numero dei test corretti.
In virtù del teorema precedente si ha
90
µY = np = 250¢ 100
= 225 ;
σY =
p
npq =
90
1
250¢ 100
¢ 10
=
p
22.5 ¼ 4.74 .
Questo esempio mostra come il concetto di media coincida col concetto intuitivo di “valore
più probabile”, e quindi di “valore atteso”. La deviazione standard (o scarto quadratico
medio) fornisce invece un indice (ce ne sono diversi) della dispersione dei risultati attorno al
valore atteso quando l’esperimento è compiuto tante volte.
Esercizio 1.7.3 (a) Due ristoranti sono in concorrenza avendo gli stessi 10 clienti. Si supponga che i clienti scelgano a caso ed indipendentemente uno dall’altro il ristorante, e che
arrivino al ristorante tutti alla stessa ora. Si chiede di determinare il numero di posti a sedere che ciascun ristorante dovrebbe avere perché ci sia almeno il 95% di probabilità di poter
servire tutti i clienti che arrivano. (b) Risolvere lo stesso problema per tre ristoranti.
(a) Se X è la variabile casuale che rappresenta il numero di clienti che arrivano ad uno stesso
ristorante, X ha chiaramente una distribuzione
binomiale, vale a dire si ha
P (X =i) =
10
i
pi (1 ¡ p)10−i .
Inoltre, nel caso in questione, poichè la scelta del ristorante da parte di ogni cliente è casuale,
si ha p = q = 12 . Il numero di posti che garantisce con una probabilità di almeno il 95% di
poter servire tutti i clienti che arrivano è dato dal minimo k tale che
1 i 1 10−i 1 10 k 10
= 2
P (X · k) = ki=0 10
i=0 i ¸ 0.95 .
i
2
2
Indicata con Sk la somma in questione dei coefficienti binomiali, si può quindi scrivere
10
Sk ´ ki=0 10
¢ 0.95 = 972.8 .
i ¸2
Di conseguenza, essendo
¢¢¢¢¢¢
S6 =758
S7 =968
il minimo k che soddisfa la relazione è 8.
S8 =1013
S9 =1023
S10 =1024 ,
(b) Se i ristoranti sono tre, si ha p= 13 e q = 23 . In questo caso si ha quindi
P (X · k) =
o, equivalentemente,
k
i=0
Σk ´
10 1 i 2 10−i
k
i=0
i
3
10−i
2
3
=
1 10 k
3
i=0
210−i
10
i
¸ 0.95 ,
10
¸ 310 ¢ 0.95 = 56096.55 .
i
Calcolati i termini Σk con un pò di lavoro, si ha:
¢¢¢¢¢¢
Σ4 =46464
Σ5 =54528
Σ6 =57888
Σ7 =58848
¢¢¢¢¢¢ .
Il minimo k per cui risulta soddisfatta la relazione è dunque 6. Nel caso di tre ristoranti
bastano quindi 6 posti a sedere per avere la probabilità di almeno il 95% di poter servire i
clienti che arrivano.
49
DISTRIBUZIONE DI POISSON
Definizione Una variabile aleatoria X è detta variabile aleatoria di Poisson con
parametro µ (µ> 0) se può assumere gli infiniti valori k = 0, 1, 2, ... con probabilità
P (X =k) = f (k) =
µk −µ
e ,
k!
Rappresentata in forma esplicita, una variabile aleatoria di Poisson è dunque del tipo
X:
0
e−µ
1
µe−µ
2
µ −µ
e
2!
3
µ −µ
e
3!
2
3
...
...
k
µ −µ
k! e
k
...
...
.
Si osservi che effettivamente la somma di tutte le probabilità vale 1. Infatti, si ha
+∞ k
µ
k=0
essendo
+∞
Teorema
k
x
k=0 k!
k!
−µ
e
−µ
=e
+∞ k
µ
k=0
k!
= e−µ ¢ e+µ = 1 ,
= ex (si tratta della ben nota serie esponenziale).
(senza dimostrazione)
La variabile aleatoria di Poisson di parametro µ ha media uguale a µ e varianza
pure uguale a µ.
2
= µ implica che, aumentando µ, aumenta di pari passo anche la
Il fatto che µX = σX
dispersione dei valori rispetto alla media.
La distribuzione di Poisson è tra le più importanti del calcolo delle probabilità. Essa è stata
ottenuta come limite della distribuzione binomiale, della quale è una buona approssimazione
quando n è molto grande e p molto piccolo; per questo è anche detta distribuzione degli
eventi rari. Per farne capire l’importanza nelle applicazioni e il gran numero di situazioni
in cui essa si applica, elenchiamo alcuni casi in cui la distribuzione di Poisson descrive assai
bene i dati osservati:
— il numero casuale delle particelle α emesse da un corpo radioattivo e rilevate in un intervallo
di tempo fissato; lo stesso vale per molte altre variabili aleatorie osservate in connessione con
la radioattività;
— il numero di refusi in una o più pagine di un libro;
— il numero di clienti che entrano in un ufficio postale in una giornata;
— il numero di persone, di una data categoria, con più di 100 anni;
— il numero delle chiamate in arrivo ad un centralino telefonico, cosı̀ come il numero di
collegamenti ad un numero sbagliato;
— il numero di transistor che si guastano nel primo giorno di utilizzo.
Come si può desumere dall’elenco di applicazioni appena proposto, la variabile aleatoria
di Poisson è adatta a descrivere il numero di fenomeni casuali distribuiti con una data
densità media µ nell’unità di tempo o nell’unità di volume o nell’unità di superficie... Gli
esempi che seguono illustrano operativamente quanto affermato.
50
Osservazione: Si può facilmente dimostrare che vale la seguente relazione:
µ
P (X =k + 1) =
P (X =k) .
k+1
Esempio 1.7.2
Nel 1910 Rutherford e Geiger provarono che il numero di particelle α emesse
al secondo da una sostanza radioattiva era una variabile aleatoria di Poisson con µ = 0.5.
Determiniamo la probabilità di osservare due o più particelle in un secondo?
P (X ¸ 2) =
+∞
(0.5)k
k=2
k!
e−0.5 = 1 ¡ P (X =0) ¡ P (X =1) =
= 1 ¡ e−0.5 ¡ 0.5¢e−0.5 ¼ 1 ¡ 0.91 = 9%
Una certa sospensione batterica contiene 5 batteri per cm3 (valor medio).
Qual è la probabilità che un campione causale di 1 cm3 contenga (i) nessun batterio; (ii)
al piú due batteri; (iii) almeno 5 batteri?
Esempio 1.7.3
P (X =0) = e−5 ¼ 0.007 ;
52 −5
P (X · 2) = 1 + 5 +
e ¼ .125 ;
2!
52
53
54 −5
P (X ¸ 5) = 1 ¡ P (X · 4) = 1 ¡ 1 + 5 +
+
+
e ¼ 0.560 .
2!
3!
4!
Esempio 1.7.4
Si desidera determinare la carica batterica di un campione di latte. Per valutare il numero
di batteri in una sospensione se ne cerca la diluizione limite alla quale si trova ancora almeno
un batterio capace di riprodursi. Supponiamo, ad esempio, di diluire 1 cm3 di latte prima
di un fattore 10−1 , poi 10−2 , quindi 10−3 e infine 10−4 , trovando in ogni caso, dopo
incubazione, sviluppo dei batteri. Supponiamo invece che diluendo di un fattore 10−5 , si
trovi che il campione di 1 cm3 risulti sterile. Ciò permette di concludere che nel campione
di 1 cm3 diluito 104 volte vi era almeno un germe capace di riprodursi, e quindi che quel
latte conteneva circa 104 germi per cm3 .
Volendo raffinare l’approssimazione della carica batterica presente nel latte in esame, inoculiamo la sospensione diluita di un fattore 10−4 in 20 provette, mettendone 1 cm3 in ciascuna.
Supponiamo di trovare che 8 di esse mostrano crescita, mentre le altre 12 risultano sterili.
La distribuzione di Poisson permette di prevedere che, se vi sono in media µ germi per
cm3 di diluito, il numero di provette che non riceveranno alcun germe (cioè sterili) risulterà
proporzionale a P (X =0) = e−µ . Avremo dunque
e−µ =
12
20
= 0.6 ,
da cui
µ = ¡loge (0.6) = ¡loge 10¢log10 (0.6) = ¡2.3026¢(¡0.222) = 0.51 .
Allora la concentrazione di germi nel latte è 0.51¢104 =5.1 ¢ 103 germi per cm3 .
51
Esercizio 1.7.4 Una compagnia di assicurazioni riceve in media 5 richieste di rimborso al
giorno. Assumendo che il numero delle richieste che arrivano in giorni successivi sia indipendente, si chiede: (a) che frazione delle giornate vedrà arrivare meno di 3 richieste?
(b) con quale probabilità in una settimana (di 5 giorni lavorativi) arrivano 4 richieste in
esattamente 3 giorni?
(a) Poichè il numero di assicurati è grande, ma la probabilità che essi mandino una richiesta
in un dato giorno è piuttosto piccola, il numero totale di richieste al giorno, che indichiamo
con X , è una variabile casuale approssimativamente Poissoniana con media E(X) = 5. Si
ha quindi
52 −5
P (X < 3) = P (X =0) + P (X =1) + P (X =2) = 1 + 5 +
e ¼ 0.1247 .
2
Siccome in una giornata arrivano meno di 3 richieste di risarcimento con probabilità 0.125
circa, in un arco lungo di tempo ciò avverrà grossomodo nel 12.5% delle giornate, cioè una
giornata ogni 8.
b) In virtù dell’indipendenza tra le richieste che arrivano giorno per giorno, il numero di
giorni, in una serie di 5, nei quali arriveranno 4 richieste è una variabile casuale binomiale
Y , di parametri n=5 e p = P (X =4). Essendo
p = P (X =4) =
la probabilità cercata è data da
P (Y =3) =
5
3
54 −5
e ¼ 0.1755 ,
4!
(0.176)3 (0.825)2 ¼ 0.037 = 3.7% .
DISTRIBUZIONE DI GAUSS o NORMALE
Definizione Una variabile aleatoria continua X è detta variabile aleatoria di
Gauss o normale con parametri µ e σ (µ 2 R , σ > 0), e si scrive X ' N (µ, σ 2 ),
se la funzione densità è
f (x) =
1
2
2
p
e−(x−µ) /2σ .
σ 2π
La funzione f (x) è detta funzione di Gauss. Si tratta di una funzione “a campana”
simmetrica rispetto ad x◦ = µ, che ha un massimo per x◦ , dove assume il valore
1
massimo f (µ) = p . Quest’ultimo ha il significato di fattore di normalizzazione,
σ 2π
cioè è quel numero tale che
+∞
f (x)dx = 1 .
−∞
Come già sappiamo, questa uguaglianza, la cui dimostrazione viene omessa, dice che
f (x) è effettivamente una densità di probabilità.
Teorema
E(X) = µ ,
V ar(X) = σ 2 .
Il fatto che la media di X sia µ è una ovvia conseguenza della simmetria del grafico
della densità rispetto ad x◦ = µ. Omettiamo, per semplicità, di dimostrare che la
52
varianza è σ 2 . A proposito di σ si può notare che più è piccolo, più è alto il picco
f (µ), e dunque la campana è più concentrata intorno alla media µ, il che concorda
perfettamente con il significato di varianza.
Dalla espressione della densità otteniamo la funzione distribuzione:
x
2
2
1
p
F (x) =
e−(t−µ) /2σ dt ,
−∞ σ 2π
da cui
P (a· X · b) = F (b) ¡ F (a) =
a
b
2
2
1
p
e−(t−µ) /2σ dt.
σ 2π
Naturalmente, trattandosi di una variabile casuale continua, si ha P (a · X · b) =
P (a· X < b)=P (a< X · b)=P (a< X < b).
La funzione integrale F (x) non si può calcolare coi metodi di integrazione elementari.
Tuttavia, indicata con
x
2
1
p
Φ(x) =
e−u /2 du ,
2π
−∞
la funzione distribuzione della variabile aleatoria normale standardizzata, cioè
la variabile aleatoria normale con media 0 e varianza 1, vale il seguente
La funzione distribuzione normale F (x) di media µ e varianza σ 2 si può
rappresentare in termini della funzione distribuzione normale Φ(x) di media 0 e
varianza 1 nel modo seguente:
Teorema
x ¡ µ
F (x) = Φ
.
σ
Dimostrazione. Essendo
x
x
2
2
1
1
−(t−µ)2 /2σ2
p
p
F (x) =
e
dt ´ lim
e−(t−µ) /2σ dt ,
R→−∞ R σ 2π
−∞ σ 2π
t¡µ
ponendo
= u, si ha dt = σdu , e quindi
σ
x−µ
x−µ
x ¡ µ
σ
σ
2
1
1
−u2 /2
p
p e−u /2 du ´ Φ
F (x) = lim
e
σdu =
.
R→−∞ R−µ σ 2π
σ
2π
−∞
σ
53
Questo teorema risulta di grande utilità pratica. Infatti, una volta tabulata la Φ(x),
il cui grafico ha l’andamento mostrato nella figura sottoriportata, attraverso le tavole ottenute è possibile ottenere anche i “corrispondenti” valori per una qualunque
variabile normale. Le tavole di Φ(x) sono fornite alla fine di queste dispense.
Essendo
P (a· X · b) = F (b) ¡ F (a) = Φ
si ha
b ¡ µ
σ
¡Φ
a ¡ µ
σ
,
P (µ ¡ σ < X < µ + σ) = Φ(1) ¡ Φ(¡1) ' 68.3% ;
P (µ ¡ 2σ < X < µ + 2σ) = Φ(2) ¡ Φ(¡2) ' 95.5% ;
P (µ ¡ 3σ < X < µ + 3σ) = Φ(3) ¡ Φ(¡3) ' 99.7% .
Queste probabilità sono molto indicative del comportamento di una variabile casuale
normale. La prima, ad esempio, ci dice che è ragionevole aspettarsi che più dei due
terzi dei valori osservati di X ' N (µ, σ 2 ) cadano nell’intervallo (µ ¡ σ, µ + σ). La
terza ci dice invece che fra mille osservazioni di X, mediamente solo tre cadono fuori
dall’intervallo (µ ¡ 3σ, µ + 3σ).
Data la variabile casuale X ' N (µ, σ 2 ), l’uso più diretto delle tavole relative
alla funzione Φ consiste nel determinare P (X · x) sapendo che è uguale a Φ x−µ
. Qualche
σ
volta, però, nelle applicazioni è data una probabilità α (spesso assegnata come percentuale) e si cerca il numero x tale che Φ(x)=α. Questo numero x è spesso denotato
n
con φα e chiamato quantile relativo ad α, ovvero percentile n¡esimo se α=
.
100
Nell’ambito di applicazioni in cui sono assegnate come dati le probabilità, può poi
essere utile ricordare le seguenti approssimazioni
P (µ ¡ 1.96σ < X < µ + 1.96σ) ¼ 95% ;
P (µ ¡ 2.58σ < X < µ + 2.58σ) ¼ 99% .
Nella determinazione di probabilità attraverso le tavole di N (0, 1), talvolta anche
considerazioni geometriche sulle aree sottese dal grafico della densità possono essere
di grande aiuto. Una relazione estremamente utile, che permette di limitare la tabulazione dei valori della funzione distribuzione Φ(x) ad x > 0, deducibile in modo
immediato dalla simmetria della funzione densità rispetto all’asse y, è la seguente:
Φ(¡x) = 1 ¡ Φ(x) .
54
Grazie a questa relazione, si può osservare che posto Φ(x) = α, si ha Φ(¡x) = 1 ¡ α.
Da qui, passando alla notazione precedentemente introdotta relativa ai quantili, segue
φ1−α = ¡φα . Ad esempio, φ0.95 = ¡φ0.05 . Il grafico qui sotto riportato rende evidente
sia la relazione che ci dà Φ(¡x) dato Φ(x), sia la relazione sui quantili.
Teorema (senza dimostrazione)
Se X ' N (µ, σ 2 ), allora la variabile aleatoria X ∗ = aX + b (a > 0) è normale con
media µ∗ = aµ + b e varianza (σ ∗ )2 = a2 σ 2 .
Esercizio
p 1.7.5 Consideriamo la variabile aleatoria X ' N (0.8; 4). Essendo µ = 0.8 e
σ = 4=2, andiamo a calcolare a modo di esempio alcune probabilità.
P (X · ¡1.16) = Φ[(¡1.16 ¡ 0.8)/2] = Φ(¡0.98) = 1 ¡ Φ(0.98) ¼ 16.35% ;
P (X ¸ 1) = 1 ¡ Φ[(1 ¡ 0.8)/2] = 1 ¡ Φ(0.1) ¼ 46.02% ;
P (2· X · 3) = Φ[(3 ¡ 0.8)/2] ¡ Φ[(2 ¡ 0.8)/2] = Φ(1.1) ¡ Φ(0.6) ¼ 13.86% .
Esercizio 1.7.6 Si consideri la variabile casuale X ' N (¡2; 0.25). Si chiede di determinare
c 2 R tale che
(a) P (X ¸ c) = 20% ;
(b)
Essendo µ=¡2 e σ =
(a)
(b)
p
P (¡2 ¡ c· X · ¡2 + c) = 90%.
0.25=0.5, si ha:
c + 2
= 0.2,
da cui
Φ 2(c + 2) = 0.8.
P (X ¸ c) = 1 ¡ F (c) = 1 ¡ Φ
0.5
Dalle tavole della legge N(0, 1) si ricava: 2(c + 2) ¼ 0.84
=) c ¼ ¡1.58.
¡2 + c + 2 ¡2 ¡ c + 2 P (¡2 ¡ c· X · ¡2 + c) = Φ
¡Φ
=
0.5
0.5
= Φ(2c) ¡ Φ(¡2c) = 0.9.
Essendo Φ(2c) ¡ Φ(¡2c) = Φ(2c) ¡ (1 ¡ Φ(2c)) = 2Φ(2c) ¡ 1,
Φ(2c)=0.95,
da cui, tramite le tavole,
55
2c ¼ 1.64,
e quindi:
deve essere
c ¼ 0.82.
Esercizio 1.7.7 Il voto ad una prova d’ingresso è distribuito normalmente. Solo il 10% dei
candidati, quelli con punteggio migliore, verrà assunto. Ad esame finito, il voto medio risulta
72 e la deviazione standard 9. Qual è il voto minimo c che un candidato deve ottenere per
essere assunto?
Essendo µ = 72 e σ = 9, deve essere
P (X ¸ c) = 1 ¡ Φ
c ¡ µ
σ
·
1
10
da cui
Φ
c ¡ 72 9
¸
9
.
10
Dalle tavole di N (0, 1) si ricava che questa relazione è soddisfatta se
c ¡ 72
¸ 1.29 ,
9
cioè
c ¸ 83.61 ,
che arrotondato fornisce come voto minimo c=84.
1.8 APPROSSIMAZIONE NORMALE
La nozione di indipendenza fra variabili casuali, e quella di convergenza in legge che
ora richiamiamo, permettono di enunciare l’importante teorema di limite centrale (di
cui ometteremo la dimostrazione).
Definizione Una successione di variabili aleatorie fXn gn converge in legge (o
in distribuzione) alla variabile aleatoria X se e solo se, dette Fn (x) ed F (x) le
rispettive funzioni distribuzione, si ha
limn→∞ Fn (x) = F (x) ,
per ogni punto x 2 R di continuità per F (x).
Osserviamo ora che data una successione di variabili aleatorie fXn gn indipendenti,
ciascuna di media µ e varianza σ 2 , in virtù di teoremi visti in precedenza, se consideriamo la variabile aleatoria Sn = X1 + X2 + ¢ ¢ ¢ + Xn , si ha
E(Sn ) = nµ ,
V ar(Sn ) = nσ 2 .
Teorema di limite centrale
Sia fXn gn una successione di variabili aleatorie indipendenti e identicamente distribuite, di media µ e varianza σ 2 > 0. Allora la loro somma n¡esima standardizzata
Sn∗ =
X1 + ... + Xn ¡ nµ
p
σ n
converge in legge ad una variabile aleatoria N (0, 1).
Questo teorema costituisce uno risultato notevole: la legge di Sn∗ , che in generale è
complicata da esprimere, si approssima, per n grande, con una legge N (0, 1), e questo
qualunque sia la legge delle variabili Xn . Sostanzialmente il teorema di limite centrale
56
afferma questo: un effetto casuale che sia la risultante di molti effetti aleatori, ciascuno
dei quali dia solo un piccolo contributo all’effetto finale, segue approssimativamente
una legge normale. Ad esempio, si assume spesso che un errore di misurazione segua
una legge normale. Infatti, in assenza di errore sistematico, è ragionevole pensare che
la discrepanza tra il valore vero e quello misurato sia la risultante di numerosi piccoli
errori che si sono sovrapposti. Spesso l’esperienza conferma la validità di questa
approssimazione.
Dunque, il teorema di limite centrale giustifica l’approssimazione nella pratica della
legge Sn∗ con una N (0, 1). Generalmente si considera che la soglia di applicabilità
(cioè il minimo n a partire dal quale l’approssimazione si può ritenere valida) sia
per n compreso tra 30 e 50. Occorre però osservare che questa soglia è da ritenersi
appropriata per la maggior parte delle distribuzioni che si incontrano nella pratica,
ma non per tutte indistintamente. Nel caso in cui si ha Xi ' B(1, p), l’esperienza
mostra che l’approssimazione è soddisfacente quando sono soddisfatte entrambe le
condizioni np ¸ 5 e n(1 ¡ p) ¸ 5. Quindi, nel caso di valori di p estremi, cioè molto
prossimi a 0 o 1, il valore necessario di n può essere molto grande.
L’approssimazione con la legge normale si basa sulla relazione seguente:
x ¡ nµ x ¡ nµ p
P X1 + X2 + ¢ ¢ ¢ + Xn · x = P Sn∗ · p
'Φ
,
σ n
σ n
dove Φ indica, come già visto, la funzione di distribuzione di N (0, 1). Facendo riferimento a questa relazione parleremo sempre di approssimazione normale.
Nel caso di variabili casuali Xi a valori interi, è naturale che il numero x che compare nella relazione appena scritta sia esso pure un intero. Denotandolo con k per
evidenziare questo fatto, in generale è conveniente riscrivere la relazione nel modo
seguente:
1
k−nµ+ 12
√
P X1 + X2 + ¢ ¢ ¢ + Xn · k +
'Φ
,
σ n
2
Il considerare x=k+ 12 rende, nella maggior parte dei casi, più corretta l’approssima
zione. A giustificazione
di questo fatto si supponga di voler approssimare P X1 +
X2 + ¢ ¢ ¢ + Xn =k mediante N (0, 1). Ovviamente, essendo questa una distribuzione
continua, la probabilità cercata sarebbe nulla. In realtà ha senso valutarla tenendo
conto che si approssima una distribuzione discreta con una continua:
ciò porta
ad
associare all’intero k l’intervallo di ampiezza 1 centrato in k, cioè k ¡ 12 , k + 12 . Di
qui si può ragionevolmente porre
1
1
P X1 + X2 + ¢ ¢ ¢ + Xn =k = P k ¡ < X1 + X2 + ¢ ¢ ¢ + Xn · k +
¼
2
2
k + 1 ¡ nµ k ¡ 1 ¡ nµ 2p
2p
¼Φ
¡Φ
.
σ n
σ n
Fra i casi in cui conviene applicare l’approssimazione normale in questo modo rientra
certamente il caso delle prove di Bernoulli. Infatti se Y è il numero di successi in n
prove indipendenti, si ha Y = X1 + ... + Xn , dove ciascun Xi ' B(1, p) è la variabile
aleatoria relativa alla singola i¡esima prova. In tal caso, essendo
57
E(Xi )=p ,
V ar(Xi ) = pq ,
l’approssimazione migliore in generale sarà
k + 1 ¡ np P (Y · k) ¼ Φ
.
p2
npq
Esercizio 1.8.1
Qual è la probabilità di ottenere almeno 29 teste in 50 lanci di una moneta
equilibrata?
Si tratta
di calcolare P (X1 + X2 + ¢ ¢ ¢ + X50 ) ¸ 29, con le Xi indipendenti e del tipo
B 1, 12 . Essendo µXi = 12 e σXi = 12 , si ha
P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼
28.5 ¡ 50¢0.5 3.5 p
¼1¡Φ
=1¡Φ p
¼
0.5¢ 50
12.5
¼ 1 ¡ Φ(0.99) ¼ 1 ¡ 0.84 = 0.16 .
Occorre osservare che questo risultato è assia preciso. Se avessimo fatto il calcolo utilizzando
la formula con k anzichè quella con k + 12 , avremmo ottenuto una approssimazione assai
peggiore. Infatti:
P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼
28 ¡ 50¢0.5 3 p
¼1¡Φ
=1¡Φ p
¼
0.5¢ 50
12.5
¼ 1 ¡ Φ(0.85) ¼ 1 ¡ 0.80 = 0.20 .
Esercizio 1.8.2 Determinare la probabilità di ottenere più di 25 ”sette” in 100 lanci di una
coppia di dadi equi.
La variabile aleatoria Y = “numero di ’sette’ nell’ambito di 100 lanci” può essere definita
6
come X1 + X2 + ¢ ¢ ¢ + X100 , con ciascuna Xi ' B(1, 16 ), essendo p= 36
, in quanto sono 6
i risultati che danno ’sette’ sui 36 possibili esiti del lancio di due dadi. Si ha dunque
µXi =p= 16 ,
5
2
σX
=pq = 36
.
i
Di conseguenza, approssimando con la normale, abbiamo:
P (Y ¸ 26) = 1 ¡ P (Y · 25) ¼ 1 ¡ Φ
25.5 ¡ 100¢ 16
√
5
6 ¢10
5.3 = 1 ¡ Φ p ¼ 1 ¡ Φ(2.37) ¼ 0.01 .
5
58
=
Esercizio 1.8.3 Un segnale consiste in una parola di 1000 bit, ciascuno dei quali può assumere i valori 0 oppure 1. Nel corso della trasmissione del segnale ogni bit può essere distorto
con probabilità p=0.01. Si chiede: qual è la probabilità che un segnale contenga almeno 10
bit distorti?
Sia Xi ' B(1, p) la variabile aleatoria che dice se l’i¡esimo bit del segnale è distorto
oppure no. Dobbiamo determinare P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10). Osservato che np=10,
per cui n è sufficientemente grande da rendere affidabile una approssimazione alla normale,
procediamo in tal senso.
P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X1000 · 9) ¼
9.5 ¡ 1000¢0.01 ¡0.5 ¼ 1¡Φ p
=1¡Φ p
¼
1000¢0.01¢0.99
9.9
¼ 1 ¡ Φ(¡0.159) = Φ(0.159) ¼ 0.564 = 56.4% .
Esercizio 1.8.4 Nella trasmissione di un’immagine ogni bit viene distorto con probabilità
0.0002. Ne consegue che il colore di un pixel, che è rappresentato da un byte, cioè da una
8-pla di bit, resta integro con probabilità q =0.9984 (in realtà, essendo q = (0.0002)8 , se si
fanno i calcoli, ci si accorge che questo è un valore approssimato). Sapendo che un’immagine
è composta da 512£256 = 131072 pixel, quali sono le probabilità che vi siano (a) almeno
190 pixel distorti; (b) almeno 210; (c) almeno 230?
Indicata con Xi ' B(1, p), p = 0.0016, la variabile che dice se l’i¡esimo pixel è oppure
no distorto, si deve approssimare P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ k), con k = 190, k = 210
e k =230. Poichè np ¼ 210, n è certamente tale da consentire una buona approssimazione
mediante la normale. Si ha quindi
P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 190) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 189) ¼
189.5 ¡ 131072¢0.0016 ¼ 1¡Φ p
¼
131072¢0.0016¢0.9984
¡20.215 ¼ 1¡Φ
¼ 1 ¡ Φ(¡1.398) ¼
14.464
¼ Φ(1.40) ¼ 0.919 = 91.9% ;
P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 210) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 209) ¼
209.5 ¡ 209.715 ¼ 1¡Φ
¼ 1 ¡ Φ(¡0.015) ¼
14.464
= Φ(0.015) ¼ 0.506 = 50.6% ;
P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 230) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 229) ¼
229.5 ¡ 209.715 p
¼ 1¡Φ
¼ 1 ¡ Φ(1.37) ¼
14.464
¼ 1 ¡ 0.915 = 0.085 = 8.5% .
59
Esercizio 1.8.5
Un calcolatore esegue la somma di un milione di numeri (il che implica
l’esecuzione di 106 somme). In ogni addizione il risultato prodotto è soggetto ad un errore di
arrotondamento. Supponiamo che i singoli errori
indipendenti
1 siano
uno dall’altro e che ab1
−10
−10
biano distribuzione uniforme nell’intervallo ¡ 2 10
, + 2 10
(il che significa supporre
che la decima cifra decimale sia significativa). Si chiede: (a) qual è la probabilità che la
settima cifra decimale della somma risultante sia significativa? qual è la probabilità che
l’ottava cifra sia significativa?
Introduciamo le variabili casuali Xi := “errore compiuto nella i¡esima addizione”. Si tratta
di 106 variabili casuali uniformemente distribuite nell’intervallo ¡ 12 10−10 , + 12 10−10 , per
le quali, come abbiamo visto nell’esempio 1.5.4, si ha
E(Xi ) =
a+b
= 0,
2
V ar(Xi ) =
(b ¡ a)2
10−20
=
.
12
12
Perché la k¡esima cifra decimale sia significativa occorre che
1
1
¡ 10−k · X1 + X2 + ¢ ¢ ¢ + X106 · 10−k .
2
2
106
Posto per comodità Y = i=1 Xi , la probabilità richiesta nella domanda (a), approssimata
con la normale, risulta quindi
−7
10−7
1
¡ 102
1 −7
−7
2
P ¡ 10 · Y · 10 ) ¼ Φ ¡Φ =
−20
2
2
10−20
6
10 ¢ 12
106 ¢ 1012
p p = Φ 3 ¡ Φ ¡ 3 ¼ Φ(1.73) ¡ Φ(¡1.73) ¼
¼ 2Φ(1.73) ¡ 1 ¼ 2¢0.958 ¡ 1 = 0.916 = 91.6% .
Per quanto riguarda poi la domanda (b), procedendo esattamente allo stesso modo, si ha
10−8
10−8
1
¡
1 −8
−8
2
P ¡ 10 · Y · 10 ) ¼ Φ 2
¡Φ =
−20
2
2
10−20
6
6
10 ¢ 12
10 ¢ 1012
p p 3
3
=Φ
¡Φ ¡
¼ Φ(0.173) ¡ Φ(¡0.173) ¼
10
10
¼ 2Φ(0.173) ¡ 1 ¼ 2¢0.568 ¡ 1 = 0.114 = 11.4% .
60
Esercizio 1.8.6 Si sa che esistono in circolazione dei dadi truccati in modo tale da produrre
il 6 con probabilità 29 . Ci si pone il problema di stabilire se un dato dado è truccato oppure
no. La procedura adottata è la seguente: il dado viene lanciato 900 volte, e se il 6 esce
almeno 180 volte, si decide che il dado è truccato. Ci si chiede: qual è la probabilità che un
dado che viene assunto come truccato lo sia effettivamente?
Sia Xi ' B(1, p = 29 ) la variabile aleatoria che dice se all’i¡esimo lancio esce il 6 oppure no.
La probabilità da calcolare, posto per comodità X = X1 + X2 + ¢ ¢ ¢ + X900 , è P (X ¸ 180).
Valutiamo tale probabilità approssimandola con la normale. Si ha:
179.5 ¡ 900¢ 29
P (X ¸ 180) = 1 ¡ P (X · 179) ¼ 1 ¡ Φ
=
900¢ 29 ¢ 79
¡20.5
= 1 ¡ Φ 10 p
¼ 1 ¡ Φ(¡1.64) = Φ(1.64) ¼
14
3
¼ 0.95 = 95% .
Dunque, è lecito aspettarsi che nel 95% dei casi il test adottato dia la risposta giusta.
Ci si potrebbe anche chiedere: qual è la probabilità che il 6 esca almeno 180 volte se il dado
non è truccato? In tal caso, indicata con Yi ' B(1, 16 ) la variabile aleatoria che descrive
l’esito dell’i¡esimo lancio di un dado “equo”, e posto Y = Y1 + Y2 + ¢ ¢ ¢ + Y900 , si ha
179.5 ¡ 900¢ 16
P (Y ¸ 180) = 1 ¡ P (Y · 179) ¼ 1 ¡ Φ
=
900¢ 16 ¢ 56
29.5
=1¡Φ p
¼ 1 ¡ Φ(2.64) ¼ 0.004 = 0.4% .
5 5
61
1.9 ALTRE DISTRIBUZIONI
DISTRIBUZIONE ESPONENZIALE
Definizione Una variabile aleatoria continua X ha una distribuzione esponenziale con parametro λ (λ > 0), se la sua funzione densità è
f (x) =
0
λe−λx
per x< 0
.
per x¸ 0
È facile verificare (si consiglia di farlo come esercizio) che f (x) è effettivamente una
densità e che la funzione distribuzione di X vale
0
per x< 0
F (x) =
.
−λx
1¡e
per x¸ 0
Teorema Una variabile aleatoria X a distribuzione esponenziale con parametro
λ ha media e varianza date da
1
1
µ= ,
σ2 = 2 .
λ
λ
Dimostrazione
Si ha infatti:
+∞
+∞
+∞ +∞
1
−λx
−λx
µ=
xf (x)dx =
λxe
dx = ¡xe
+
e−λx dx = ;
λ
0
−∞
0
0
+∞
+∞
1
1
x2 f (x)dx ¡ 2 =
λx2 e−λx dx ¡ 2 =
σ 2 = E(x2 ) ¡ µ2 =
λ
λ
−∞
0
+∞ +∞
1
1
1
1
= ¡x2 e−λx
+
2xe−λx dx ¡ 2 = 2 2 ¡ 2 = 2 .
λ
λ
λ
λ
0
0
Le variabili aleatorie con distribuzione esponenziale hanno notevole interesse applicativo in quanto utilizzabili per rappresentare diversi fenomeni che si incontrano nelle
osservazioni scientifiche o nelle applicazioni tecnologiche. Di solito esse rappresentano
62
i tempi d’attesa affinché un dato evento si verifichi. Ad esempio, se X indica il tempo
misurato a partire dall’inizio del funzionamento di un dato pezzo di una macchina,
ci si può chiedere qual è la probabilità che il pezzo non si rompa prima che sia
decorso un dato tempo x. Ebbene, la risposta è data da P (X ¸ x), ossia
P (X ¸ x) = 1 ¡ F (x) = e−λx .
Una proprietà caratteristica delle variabili casuali esponenziali è che non hanno
memoria. Questo fatto, che non dimostreremo, matematicamente è espresso dalla
seguente relazione fra probabilità:
P (X > s + t j X > s) = P (X > t) .
Ciò significa che se X è il tempo d’attesa fino al primo guasto di una data apparecchiatura, questo tempo non dipende dal fatto che l’apparecchiatura abbia già funzionato
per un dato tempo s. In altre parole, la distribuzione di probabilità di X non dipende
dall’istante iniziale.
Esercizio 1.9.1 Il numero di chilometri (misurato in migliaia) che un dato pneumatico può
percorrere prima di deteriorarsi è rappresentabile con una variabile aleatoria X avente distribuzione esponenziale con parametro λ=0.05. Determinare la probabilità che un pneumatico
di questo tipo duri (i) almeno 30 Km; (ii) tra i 35 e i 40 km.
Si ha
P (X ¸ 30) = 1 ¡ F (30) = e−30λ = e−0.05·30 = e−1.5 ¼ 0.223 ;
P (35· X · 40) = F (40) ¡ F (35) = e−1.75 ¡ e−2 ¼ 0.174 ¡ 0.135 = 0.039.
Esercizio 1.9.2 Un apparecchio elettronico è composto da due elementi in parallelo, l’uno
indipendente dall’altro e ciascuno con un tempo di vita esponenziale di media 8 giorni. Con
quale probabilità l’apparecchio durerà un tempo non superiore a 12 giorni, supposto che esso
funzioni se una almeno delle due componenti funziona?
Poiché una variabile aleatoria esponenziale ha media uguale all’inverso del parametro λ,
nel nostro caso si ha λ = 18 . Di conseguenza ciascuna componente ha un tempo di vita
Xi , i = 1, 2, avente densità
fXi =
0
per x< 0
1 − 18 x
8e
per x¸ 0
.
Indicato quindi con Y il tempo di vita dell’apparecchio, si ha Y = maxfX1 , X2 g. Sapendo
poi che X1 e X2 sono indipendenti, si ha
t
P (Y · t) = P (X1 · t, X2 · t) = P (X1 · t)¢P (X2 · t) = (1 ¡ e− 8 )2 ,
e quindi
12
3
P (Y · 12) = (1 ¡ e− 8 )2 = (1 ¡ e− 2 )2 ¼ (1 ¡ 0.223)2 ¼ 0.6035 .
63
Esercizio 1.9.3 Una lampada ha un tempo di vita che segue una legge esponenziale di media
µ uguale a 10 giorni. Non appena smette di funzionare essa viene sostituita con una nuova.
Qual è la probabilità che 40 lampade siano sufficienti per un anno?
Indicata con Xi la durata della lampada i¡esima, possiamo supporre le Xi indipendenti e
1
con legge esponenziale di parametro λ = 10
. Poiché nel caso di una variabile aleatoria di
tipo esponenziale si ha σ 2 = λ12 = µ2 , abbiamo dunque µ=σ =10. La probabilità richiesta,
approssimata mediante la normale, diventa quindi
P (X1 + X2 + ¢ ¢ ¢ + X40 ¸ 365) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X40 < 365) ¼
365 ¡ 40¢10 ¡35 p
p
¼1¡Φ
=1¡Φ
¼
10¢ 40
20 10
¼ 1 ¡ Φ(¡0.55) = 1 ¡ 1 ¡ Φ(0.55) =
= Φ(0.55) ¼ 0.71 .
DISTRIBUZIONE IPERGEOMETRICA
Definizione Una variabile aleatoria discreta X ha una distribuzione ipergeometrica di parametri (interi) N , M ed n, con n· M · N , se ha la seguente funzione
di probabilità:
P (X =k) = f (k) =
M N−M k
Nn−k
,
k = 0, 1, . . . , n .
n
Questa distribuzione è utile quando si effettua un’estrazione senza reimmissione da
un’urna che contiene N oggetti di cui M di un certo tipo, e si chiede la probabilità che
un campione di dimensione n ne contenga esattamente k di quel tipo. Tipicamente,
M rappresenta il numero degli oggetti difettosi fra gli N presi in considerazione.
Ricordiamo che nel caso di estrazione con reimmissione la distribuzione utile è quella
binomiale.
Sulla base del significato dei parametri è abbastanza immediato verificare che f (k) rappresenta la probabilità che un campione di n oggetti contenga esattamente k oggetti difettosi.
Infatti, mentre a denominatore c’è il numero di tutti i possibili campioni che è possibile
estrarre dall’urna (cioè le combinazioni di N oggetti presi n alla volta), a numeratore c’è
il numero dei possibili campioni che contengono esattamente k oggetti difettosi (cioè il numero delle combinazioni di M oggetti presi k alla volta, moltiplicato per il numero delle
combinazioni di N ¡M oggetti presi n¡k alla volta).
Teorema
(senza dimostrazione)
Una variabile aleatoria X a distribuzione ipergeometrica con parametri N , M ed
n, ha media e varianza date da
M
M N ¡M N ¡n
µ=n
,
σ2 = n
.
N
N
N
N ¡1
64
Esempio 1.9.1 Si consideri l’esperimento di estrarre un campione di 2 lampadine da una
scatola che ne contiene 10, 3 delle quali difettose. Si chiede di scrivere la funzione di probabilità della variabile casuale
X = numero di lampadine difettose estratte ,
nel caso di estrazione: (a) senza reimmissione; (b) con reimmissione.
(a) Abbiamo:
N =10 ;
M =3 ;
n=2 ;
k = 0, 1, 2 . E di conseguenza:
37
7
P (k =0) = f (0) = 0102 =
,
15
2
37
7
P (k =1) = f (1) = 1101 =
,
15
2
3
7
1
2 0
P (k =0) = f (2) = 10 =
.
15
2
3
(b) Ricordando la distribuzione binomiale, essendo p= M
N = 10 , q =
49
2 0 2 7 2
=
P (k =0) = f (0) =
p q =
,
0
10
100
42
2 1 1
3 7
=
,
P (k =1) = f (1) =
p q =2
10 10
100
1
2 2 0 3 2
9
P (k =0) = f (2) =
p q =
.
=
2
10
100
7
10 ,
si ha
Esempio 1.9.2
Da un lotto costituito di 800 pezzi si estrae un campione di 150 unità. Se il
campione contiene al più 2 pezzi difettosi, il lotto viene accettato; altrimenti viene rifiutato.
Qual è la probabilità che un lotto contenente il 5% di pezzi difettosi venga accettato?
Consideriamo una distribuzione ipergeometrica con parametri N = 800 , M = 800 ¢
40 , n=150 . La probabilità che il lotto sia accettato è data da
f (0) + f (1) + f (2) =
2
k=0
40800−40
k
150−k
800
150
5
100
=
¼ 0.0112 .
Questo esempio è interessante in quanto illustra come viene effettuato un controllo di
accettazione o collaudo statistico. Vengono determinati dei piani di campionamento
caratterizzati dalle cosiddette specifiche che, nel caso in questione, sono la numerosità n del
campione da estrarre e il numero massimo ammissibile di unità difettose. L’esempio mostra
come si calcola la probabilità che il lotto sia accettato pur avendo una data difettosità.
Esercizio 1.9.4 Una partita di 150 libri ne contiene 30 che presentano un difetto nella rilegatura. Se 10 libri vengono scelti a caso per un controllo, qual è la probabilità che 3 libri tra i 10
estratti siano difettosi? Effettuare il calcolo sia nell’ipotesi di estrazione senza reimmissione
che in quella di estrazione con reimmissione.
Applicando la formula della distribuzione ipergeometrica con parametri N = 150 , M =
30 , n=10 , abbiamo
f (3) =
30120
3
1507
10
65
¼ 0.2065 .
30
Se invece applichiamo la distribuzione binomiale B(10, p) con p= 150
=0.2, otteniamo
f (3) =
10
(0.2)3 (0.8)7 ¼ 0.2013 .
3
L’esercizio appena risolto mostra che in certi casi la distribuzione ipergeometrica e
quella binomiale producono risultati pressochè uguali (nel caso specifico differiscono
per meno dell’1%). La spiegazione sta nell’affermazione seguente (che non dimostriamo). Se N , M ed N ¡M sono grandi in confronto ad n, allora non è molto
rilevante se il campionamento viene effettuato con o senza reimmissione, in quanto
la distribuzione ipergeometrica può essere ben approssimata con la distribuzione binomiale (con p = M
N ), che in un certo senso è più semplice. In una ”popolazione
infinita” si usa sempre la distribuzione binomiale indifferentemente dal tipo di campionamento.
DISTRIBUZIONE GEOMETRICA
Definizione Una variabile aleatoria discreta X ha una distribuzione geometrica
di parametro p , 0< p· 1 , se ha la seguente funzione di probabilità:
P (X =k) = f (k) = p(1 ¡ p)k ,
k = 0, 1, . . . , n, . . . .
La distribuzione geometrica ha origine nella seguente
applicazione delle prove di Bernoulli: Sia A un evento di un esperimento con P A = p. Ripetiamo infinite volte
l’esperimento e denotiamo con X la variabile casuale che rappresenta il numero di
prove eseguite prima che si verifichi per la prima volta A. Chiaramente f (k) è la
probabilità che l’evento A si verifichi dopo k insuccessi consecutivi.
È facile dimostrare che la funzione f (k) è effettivamente una funzione di probabilità.
1
Infatti, ricordando che la somma di una serie geometrica di ragione p vale 1−p
, si ha
∞
k=0
f (k) =
∞
k=0
p (1 ¡ p)k = p
∞
(1 ¡ p)k = p
k=0
1
= 1.
1 ¡ (1 ¡ p)
Esercizio 1.9.5 Un dado viene lanciato finché non si presenta la faccia ”1”. Qual è la
probabilità che debba esser lanciato più di 6 volte?
Sia U7 l’evento “la faccia ”1” non si presenta prima del settimo lancio”. Si ha
P (U7 ) = f (6) + f (7) + ... =
∞
1 5 k
5
1 5 k
6 6
1
5 5 2 5 3 5 4 5 5 =1¡
1+ +
+
+
+
=
6
6
6
6
6
6
6
5 6
1 1 ¡ 56
=1¡
=
¼ 0.3349 .
6 1 ¡ 56
6
k=6
66
6 6
=1¡
k=0
=
CAPITOLO
2: STATISTICA DESCRITTIVA
2.1 INTRODUZIONE
Per statistica descrittiva o metodologica si intende il complesso di quelle norme utilizzate dallo sperimentatore per raccogliere, rappresentare ed elaborare insiemi di dati
osservati.
I dati raccolti riguardano solo un campione e non l’intera popolazione. L’elaborazione
statistica ha l’obiettivo di ricavare informazioni sulla popolazione estraendole dai (pochi) dati che sono stati osservati sul campione. Naturalmente le informazioni a cui
siamo interessati riguardano una o più caratteristiche della popolazione in questione.
Volendo dare una veste matematica a quanto appena detto, sia X una variabile aleatoria, di tipo discreto o continuo, definita su un insieme S (la popolazione). Sono noti
i valori che X assume in corrispondenza degli elementi di un sottinsieme C di S (il
campione). Sia N = jSj e n = jCj. Il campione è dunque una n—pla (x1 , x2 , . . . , xn ),
dove ciascun xi rappresenta il valore noto che X(s) assume per s= si 2 C. Essendo,
in generale, n ¿ N , la variabile aleatoria X è incognita in molti (moltissimi) elementi
su cui è definita. Il compito della statistica è quello di desumere dai dati del campione
il maggior numero di informazioni circa la distribuzione di X, avendo anche un’idea,
il più possibile precisa, del grado di affidabilità di queste informazioni. A questa variabile aleatoria ci riferiremo d’ora in poi come alla variabile aleatoria sottostante al
nostro esperimento.
Un’indagine statistica di tipo descrittivo può essere articolata nei seguenti quattro
passi:
1) rilevazione dei dati;
2 ) organizzazione dei dati;
3) presentazione dei dati organizzati;
4) interpretazione e conclusioni.
2.2 ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI
Rilevazione dei dati
La rilevazione, che è l’inizio del procedimento statistico, è l’insieme dei meccanismi
che permettono di ottenere le informazioni necessarie da elaborare. Strumenti basilari
di questo momento sono i questionari, i modelli di rilevazione, le inchieste telefoniche,
l’accesso e la consultazione di banche dati, etc.
Le modalità di rilevazione dei dati xi sono particolarmente importanti. Occorre infatti
aver chiaramente fissati gli obiettivi, valutata la fattibilità, definita l’estensione in
termini geografici, temporali, economici. Infine, è fondamentale aver scelto in modo
appropriato la tecnica di campionamento (che qui però non discutiamo).
67
Organizzazione dei dati
In genere i dati grezzi ottenuti dalla rilevazione sono difficilmente interpretabili: occorre organizzarli opportunamente. Quando i dati sono di tipo numerico, e lo sono
nella grande maggioranza dei casi, il modo più semplice di farlo consiste nell’ordinarli
in modo crescente o decrescente. Ciò permette immediatamente di stabilire il campo
di variazione degli xi (o rango), cioè il minimo intervallo che li contiene tutti. Questo indice ci dice già qualcosa (ad esempio i valori minimo e massimo della variabile
campionata); tuttavia esso può essere poco indicativo, soprattutto se n è grande. Può
dunque essere conveniente organizzare i dati in classi.
Come si formano le classi? Si tratta di un punto importante in quanto una cattiva
scelta delle classi può portare ad una cattiva interpretazione della distribuzione dei
dati. Proponiamo dunque alcuni criteri di formazione delle classi ritenuti ottimali.
Il numero delle classi è importante. Se le classi sono troppe, in ogni classe ci sarebbero
pochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentrati
molti elementi, potrebbe sfuggirci la globalità della distribuzione. In genere il numero
delle classi è compreso fra 6 e 20. Secondo Sturges il numero ottimale di classi è
nc = [1 + 1.443 lg n] ,
con lg n che indica il logaritmo naturale di n e [a] l’intero più vicino ad a.
È conveniente che le classi abbiano la stessa ampiezza. In questo caso, se r è l’ampiezza
del campo di variazione dei dati ed nc il numero delle classi in cui si è deciso di
organizzare i dati, se ne deduce per ciascuna classe un’ampiezza ℓ data da
r
ℓ=
.
nc
Tale ampiezza, tuttavia, in genere non è quella più conveniente; torna utile “aggiustarla” in modo che i punti di mezzo di ciascun intervallo siano della stessa grandezza,
come ordine di approssimazione, dei dati xi e che nessun xi cada su un estremo dell’intervallo. Ad esempio, se gli xi sono interi qualunque (cioè non sono dei multipli di
un intero k), allora conviene prendere ℓ intero e dispari, e ciascun intervallo del tipo
(h ¡ 12 , h + ℓ ¡ 12 ), dove h è un intero. Scelte analoghe possono essere fatte se gli xi
sono numeri decimali (tutti con lo stesso numero di decimali). I due esempi proposti
nel seguito saranno utili a chiarire il senso di quanto appena detto.
Funzioni di frequenza
Per avere altri tipi di informazione sempre più precisi ed esaurienti, si possono definire
altri indici statistici. Indicato con x il punto medio della generica classe, tali indici
sono i seguenti:
— la funzione di frequenza, che associa ad ogni classe il numero degli elementi che
la compongono; la indicheremo con ϕ(x);
— la funzione di frequenza relativa, che esprime il rapporto fra il numero degli
elementi della classe ed il numero totale n di elementi del campione; indicatala con
ϕr (x), si ha dunque ϕr (x) ´ ϕ(x)
n ;
— la funzione di frequenza cumulativa, cioè il numero degli elementi della classe e
68
delle classi precedenti; sarà rappresentata da ϕc (x);
— la funzione di frequenza cumulativa relativa, ovvero il rapporto tra il numero
degli elementi dato dalla frequenza cumulativa e il numero totale n di elementi del
campione; denotata con ϕcr (x), si ha perciò ϕcr (x) ´ ϕcn(x) .
Rappresentazioni grafiche
Nella statistica descrittiva la rappresentazione grafica dei dati riveste un ruolo molto
importante, in quanto serve a fornire in modo immediato una descrizione del fenomeno
oggetto di studio. Gli strumenti disponibili sono diversi, più o meno significativi, più
o meno adatti a seconda degli obiettivi che si intende conseguire mostrando in quel
modo i dati. Quelli più matematici e significativi sono l’istogramma, il grafico a
bastoni e i poligoni di frequenza.
L’istogramma costituisce probabilmente lo strumento più comune di rappresentazione
di dati statistici. Si ottiene nel modo seguente: prima si riportano sull’asse delle
ascisse le classi indicando per ciascuna il relativo punto di mezzo x; poi, in corrispondenza di ciascuna classe, si disegna un rettangolo avente area proporzionale a ϕ(x) o,
equivalentemente, a ϕr (x). Sull’asse delle ordinate si possono riportare i valori della
funzione ϕ(x) oppure quelli di ϕr (x). Se poi si riportano nel grafico sia ϕ(x) che
ϕr (x) (in opportuna scala), rispettivamente a sinistra e a destra del grafico, si ottiene
il duplice obiettivo di poter leggere entrambi i valori.
Osservazione: Nell’istogramma della pagina che segue le classi hanno la stessa ampiezza, e
quindi i rettangoli hanno tutti la stessa base. Ovviamente ciò non è più vero se si considerano,
come peraltro è lecito, classi di diversa ampiezza.
Un grafico a bastoni è del tutto equivalente ad un istogramma, e si costruisce in maniera del tutto analoga. Per quanto riguarda poi i poligoni di frequenza, l’esempio che
segue permetterà facilmente di capire come si costruiscono e qual è il loro significato.
Esempio 2.2.1
La tabella che segue riporta i pesi (in chilogrammi) di 50 studentesse, che per
brevità sono già stati ordinati (in ordine crescente). Naturalmente, ogni numero è ripetuto
tante volte quante sono le studentesse aventi quel peso.
53
55
56
57
57
58
58
59
59
60
60
60
61
61
61
61
62
62
62
62
63
63
63
63
63
64
64
64
64
64
64
65
65
65
65
65
66
66
66
66
67
67
67
68
68
69
70
71
71
73
Dalla tabella si deduce immediatamente che il campo di variazione è [53,73]. Applicando poi
la formula di Sturges per determinare il numero ottimale di classi, si ha
nc = [1 + 1.443 lg 50] = [1 + 5.64] = 7 ,
e quindi
ℓ=
20
7
¼ 2.86 .
In base a quanto detto in precedenza, essendo l’unità di misura adottata un numero intero (i
chili), è conveniente che ℓ sia un intero dispari e che gli intervalli abbiano come punto medio
69
un intero. Scegliamo dunque ℓ=3 e prendiamo gli intervalli di ampiezza 3 a partire da 52.5.
La tabella che segue riporta gli intervalli relativi a ciascuna classe, il loro punto di mezzo
x, il numero di elementi di ogni classe e le quattro funzioni di frequenza precedentemente
definite ϕ(x), ϕr (x), ϕc (x) e ϕcr (x).
Classi
Punto x
ϕ(x)
ϕr (x)
ϕc (x)
ϕcr (x)
di pesi
di mezzo
52.5 ¡ 55.5
54
2
0.04
2
0.04
55.5 ¡ 58.5
57
5
0.10
7
0.14
58.5 ¡ 61.5
60
9
0.18
16
0.32
61.5 ¡ 64.5
63
15
0.30
31
0.62
64.5 ¡ 67.5
66
12
0.24
43
0.86
67.5 ¡ 70.5
69
4
0.08
47
0.94
70.5 ¡ 73.5
72
3
0.06
50
1.00
Seguono nell’ordine l’istogramma, il grafico a bastoni, il poligono di frequenza ed il poligono
di frequenza relativa cumulativa.
70
Osserviamo che, in un certo senso, il poligono di frequenza (primo grafico di questa pagina)
“rappresenta” la funzione densità della variabile aleatoria X sottostante al fenomeno studiato; analogamente il poligono di frequenza cumulativa (secondo grafico) “rappresenta” la
funzione di distribuzione di X.
Esempio 2.2.2
La tabella che segue riporta le altezze (in centimetri) di 80 atleti, anche in
questo caso già ordinati (in modo crescente). Si chiede di organizzare questi dati in classi
e di calcolarne le quattro funzioni di frequenza, rappresentando poi il tutto con una tabella
del tipo di quella dell’esercizio precedente.
160
162
164
165
167
168
168
169
169
170
170
171
171
172
172
172
172
173
173
174
174
174
175
175
175
176
176
176
177
177
177
177
178
178
178
178
178
178
179
179
179
179
179
179
179
180
180
180
180
181
181
181
181
182
182
182
182
182
183
183
184
184
185
185
186
186
187
187
188
189
190
190
191
192
192
193
194
197
199
201
71
Dalla tabella si legge subito che il campo di variazione è [160,201]. Applicando poi la formula
di Sturges per determinare il numero ottimale di classi, si ha
nc = [1 + 1.443 lg 80] = [1 + 6.32] = 7 ,
ℓ=
e quindi
41
7
¼ 5.86
Volendo scegliere come ℓ un intero dispari, o si sceglie 5, che comporta poi di prendere nc =9,
oppure si sceglie 7, che comporta nc =6. Per non avere un numero di classi troppo piccolo,
scegliamo ℓ=5 e quindi nc = 9. I dati organizzati in classi portano dunque a questa tabella:
Classi di
Punto x
ϕ(x)
ϕr (x)
ϕc (x)
ϕcr (x)
altezze
di mezzo
158.5 ¡ 163.5
161
2
0.025
2
0.025
163.5 ¡ 168.5
166
5
0.063
7
0.088
168.5 ¡ 173.5
171
12
0.150
19
0.238
173.5 ¡ 178.5
176
19
0.237
38
0.475
178.5 ¡ 183.5
181
22
0.275
60
0.750
183.5 ¡ 188.5
186
9
0.113
69
0.863
188.5 ¡ 193.5
191
7
0.087
76
0.950
193.5 ¡ 198.5
196
2
0.025
78
0.975
198.5 ¡ 205.5
201
2
0.025
80
1.000
2.3 GRANDEZZE CHE SINTETIZZANO I DATI
Ci proponiamo ora di caratterizzare una distribuzione statistica, cioè un insieme di
dati xi , i = 1, 2, . . . , n, del tipo di quelli visti finora, attraverso misure che ne riassumano le principali proprietà. In tal modo si parla anche di misure di tendenza
centrale: si chiamano cosı̀ alcune caratterizzazioni sintetiche della distribuzione che
servono a dare un’idea di dove la distribuzione sia collocata e quanto sia concentrata.
Media
Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama media
aritmetica, o più semplicemente media, delle osservazioni il numero
1 n
x=
xi .
n i=1
Ai fini di collegare questa definizione a quella di media di una variabile casuale,
osserviamo che in generale tra i dati xi ce ne sono di quelli che sono ripetuti più
volte. Ebbene, supposto che gli xi distinti siano m (ovviamente m · n), indichiamo
questi numeri con z1 , z2 , . . . , zm . Denotata poi con αk la molteplicità (cioè il numero
di presenze) di zk , ovviamente con α1 + α2 + ¢ ¢ ¢ + αm =n, potremo scrivere
72
m αk
m
1 n
1 m
zk = k=1 pk zk .
i=1 xi =
k=1 αk zk =
k=1
n
n
n
αk
Il numero pk = n rappresenta la frequenza relativa del dato zk . Confrontando quest’ultima espressione di x con la definizione di media di una variabile aleatoria finita,
ne deduciamo che la media aritmetica appena definita altro non è che la media di
una variabile aleatoria che assume gli m valori zk con probabilità pk . La media x dei
dati xi può dunque essere vista come la media di una variabile aleatoria X finita, che
assume i valori xi con probabilità uguali alla loro frequenza relativa nel campione,
ossia
x=
P (X =xi ) = pi ,
pi =
αi
n
,
essendo αi il numero di volte in cui ciascun xi è presente nel campione.
La variabile aleatoria X costituisce una rozza approssimazione della vera variabile
aleatoria sottostante al problema. La media, che abbiamo appena definito, cosı̀ come
la mediana e la varianza che definiremo in seguito, sono indici coerenti con questa
approssimazione.
Ricordando le proprietà della media di una variabile aleatoria, si può affermare che
— se ogni osservazione di un campione è letta in una scala diversa, ovvero se ogni dato
è moltiplicato per una costante a, allora
ax = ax ;
— se (x1 , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) sono due serie di osservazioni di uno stesso
fenomeno, allora la media della somma è uguale alla somma delle medie, cioè
x+y = x+y;
— se due osservazioni sono legate da una relazione funzionale del tipo y = a + bx, con
a e b costanti, allora
y = a + bx .
Quando i dati sono forniti già organizzati in classi, la media può essere ugualmente
calcolata con la formula seguente:
nc
1
x=
xk ϕ(xk ) ,
n
k=1
dove xk è il punto medio dell’intervallo k¡esimo e ϕ(xk ) fornisce, come abbiamo già
visto, il numero degli xi appartenenti alla classe k¡esima.
Osserviamo che questa formula può essere utilizzata anche quando ci sono assegnate
tutte le n osservazioni xi e la loro organizzazione in classi viene fatta da noi solo
successivamente al fine di una rappresentazione più sintetica dei dati. In tal caso la
media cosı̀ calcolata è una approssimazione, in generale molto buona, di quella vera
(cioè di quella che si ottiene dalla definizione). Il vantaggio di quest’ultima formula
sta nel fatto che, utilizzando le classi, è richiesto un numero molto minore di calcoli.
73
Mediana
Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama mediana
delle osservazioni il valore “centrale” dell’insieme ordinato.
Quindi, a seconda che n sia pari o dispari, si ha

se n è dispari
 x n+1
2
xmed =
 1 x n + x n +1 se n è pari
2
2 2
.
Anche per la mediana, cosı̀ come abbiamo fatto per la media, ci si può porre il problema di come determinarla quando i dati xi non sono noti individualmente in quanto
forniti già organizzati in classi. In questo caso, per poter definire operativamente la
mediana, occorre introdurre alcune ulteriori notazioni.
Supposto che le classi si susseguano in ordine crescente, indichiamo con (λi−1 , λi )
l’intervallo associato alla classe i¡esima e con xi il suo punto medio. Allora ϕc (xi )
denota il valore della funzione di frequenza cumulativa della classe i¡esima, cioè
il numero complessivo di elementi contenuti nelle prime i classi. Chiamiamo classe
mediana, indicando con m il suo numero d’ordine, quella classe per cui
con
ϕc (xm−1 )< n2 .
ϕc (xm )¸ n2 ,
Ciò posto, la mediana xmed può essere cosı̀ definita:
xmed = λm−1 +
n
2
¡ ϕc (xm−1 )
ℓ = λm−1 +
ϕc (xm ) ¡ ϕc (xm−1 )
n
2
¡ ϕc (xm−1 )
ℓ.
ϕ(xm )
Osserviamo che xmed appartiene certamente alla classe mediana (cioè all’intervallo
(λm−1 , λm )) se ϕc (xm ) > n2 , mentre si ha xmed = λm se ϕc (xm ) = n2 (il che può
accadere solo se n è pari).
Moda
Molto spesso i dati sono divisi in classi che non sono di tipo numerico (ad esempio
sesso, gruppo sanguigno, professione, provincia di apppartenenza, etc...). In questo
caso non ha alcun senso parlare di media o mediana, per cui può tornare utile un’altra
misura di tendenza centrale, valida per qualunque tipologia di dati. Questa misura,
però, non esiste per tutte le distribuzioni, ma solo per quelle unimodali. La figura che
segue mostra una distribuzione unimodale assieme a due multimodali.
74
Definizione Si definisce moda di una distribuzione unimodale di dati il valore fra
questi più ripetuto. La moda, che può anche non essere unica, sarà indicata con
xmod .
Per definire la moda quando i dati sono forniti già divisi in classe, occorre determinare
preliminarmente la classe modale, cioè la classe nella quale si trova la moda. Di solito
la classe modale è quella in cui ϕ(x) è massima. Supposto che tale classe sia unica,
se (λj−1 , λj ) è l’intervallo associato e xj il suo punto medio, la moda è cosı̀ definita:
xmod = λj−1 +
jϕ(xj ) ¡ ϕ(xj−1 )j
ℓ.
jϕ(xj ) ¡ ϕ(xj−1 )j + jϕ(xj+1 ) ¡ ϕ(xj )j
Se la classe modale non è unica, si hanno più mode.
Ci si può chiedere come sono disposte l’una rispetto all’altra le tre misure di tendenza
centrale che abbiamo definito (quando esistono tutte tre). Ebbene, disegnata la distribuzione dei dati, la loro reciproca disposizione dipende dalla simmetria o asimmetria
di questo grafico. Supposto che la distribuzione sia unimodale (vedi figura), se il grafico è perfettamente simmetrico, allora media, mediana e moda coincidono. Se invece
il grafico è asimmetrico, allora la moda corriponde ovviamente al massimo del grafico,
mentre media e mediana sono sempre disposte con la mediana più vicina della media
alla moda come nelle figure che seguono.
75
Esempio 2.3.1
Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.1.
Per quanto riguarda la media, facendo uso della definizione, si ottiene
1 50
1
3163
(53 + 55 + ¢ ¢ ¢ + 73) =
= 63.26 .
i=1 xi =
50
50
50
Se invece si calcola la media utilizzando le classi, indicato con xk il punto medio dell’intervallo
corrispondente alla k¡classe, si ha
x=
n
x¼
c
1 1
(54¢2 + 57¢5 + 60¢9 + 63¢15 + 66¢12 + 69¢4 + 72¢3) =
xk ϕ(xk ) =
50
50
k=1
3162
=
= 63.24 .
50
Come si vede, per quanto approssimato, il valore della media cosı̀ ottenuto è molto prossimo
a quello corretto ottenuto in precedenza. Venendo alla mediana, il suo calcolo è immediato.
Infatti, essendo n=50, cioè pari, dalla tabella contenente i dati ordinati si legge che x25 =63
e x26 =64. Si ha quindi
xmed =
x25 + x26
63 + 64
=
= 63.5 .
2
2
Anche xmed può essere calcolato utilizzando la formula per i dati organizzati in classi; in tal
caso si ottiene
xmed = λm−1 +
n
2
¡ ϕc (xm−1 )
25 ¡ 16
ℓ = 61.5 +
3 = 63.3 .
ϕ(xm )
15
Per quanto riguarda invece la moda, si ha
xmod =64 ,
in quanto valore ripetuto più di ogni altro. D’altra parte, se xmod è calcolata sulla base
dell’organizzazione in classi, essendo la classe modale quella di centro xj =63, si ha
xmod = 61.5 +
Esempio 2.3.2
j15 ¡ 9j
3 = 63.5 .
j15 ¡ 9j + j12 ¡ 15j
Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.2.
Facendo uso della definizione per calcolare la media, si ottiene
80
1 1
14332
x=
xi =
(160 + 162 + ¢ ¢ ¢ + 201) =
= 179.15 .
80 i=1
80
80
Se invece calcoliamo la media utilizzando la formula per i dati organizzati in classi, abbiamo
n
c
1 1
x¼
xk ϕ(xk ) =
(161¢2 + 166¢5 + 171¢12 + 176¢19 + 181¢22+
80
80
k=1
+ 186¢9 + 191¢7 + 196¢2 + 201¢2) =
76
14335
¼ 179.19 .
80
Anche in questo caso il valore della media ottenuto utilizzando la formula per le classi è
molto prossimo a quello corretto ottenuto in precedenza.
Per quanto concerne la mediana, dalla tabella dei dati ordinati, essendo x40 = x41 = 179,
segue ovviamente xmed =179. Se poi si effettua il calcolo con la formula specifica per i dati
organizzati in classi, si ha
xmed = λm−1 +
n
2
¡ ϕc (xm−1 )
40 ¡ 38
ℓ = 178.5 +
5 ¼ 178.5 + 0.45 = 178.95 ,
ϕ(xm )
22
che costituisce certamente un’ottima approssimazione di 179, che è il valore esatto di xmed .
Infine, dalla tabella dei dati, si ha xmod = 179. Facendo invece il calcolo sulla base dell’organizzazione dei dati in classi, otteniamo:
xmod = 178.5 +
j22 ¡ 19j
5 ¼ 179.44 .
j22 ¡ 19j + j9 ¡ 22j
Abbiamo finora visto misure di tendenza centrale che servono ad individuare il“centro”
della distribuzione. Ciò però non vuol dire sapere come i dati siano distribuiti intorno
al centro. In certi casi i dati possono essere estremamente concentrati attorno a questo
valore centrale, in altri possono essere estremamente sparsi. Torna quindi utile avere
delle misure di dispersione. Ovviamente il caso limite di dispersione nulla si ha quando
tutti i dati coincidono.
Il primo indice di dispersione è il campo di variazione o rango, che abbiamo già definito.
Questo intervallo ci dà una prima, anche se spesso grossolana, idea di come stanno le
cose. Ad esempio, se i dati riguardano le temperature di un giorno in una data città,
conoscere le temperature minima e massima può essere già utile. È però evidente che
questo indice risente in maniera significativa di valori particolarmente alti o bassi.
Deviazione standard e varianza
La deviazione standard σ, o scarto quadratico medio, già introdotta per una variabile
casuale come radice quadrata della varianza, è l’indice di dispersione probabilmente
più usato. Nel caso di un campione di dati x1 , x2 , . . . , xn , la deviazione standard è
!
definita nel modo seguente:
" n
"1 σ=#
(xi ¡ x)2 .
n i=1
Anche la varianza σ 2 , definita come
n
1
σ =
(xi ¡ x)2 ,
n i=1
2
costituisce una misura di dispersione molto comune. Ad essa sono espressamente
rivolti alcuni capitoli della statistica matematica.
Come la media x e la mediana xmed , anche σ può essere associato alla variabile casuale
X definita in precedenza come quella variabile casuale finita per la quale P (X =xi ) è
uguale alla frequenza relativa di xi nel campione. Si ha infatti σ 2 =V ar(X).
77
Le quantità (xi ¡ x) rappresentano gli scarti dalla media dei dati. Di qui il nome di
“scarto quadratico medio” per σ e l’affermazione che la varianza è uguale alla media
dei quadrati degli scarti dalla media. Osserviamo che quando si fa la radice quadrata
per ottenere la deviazione standard, si ritorna alla “dimensione” dei nostri dati.
Due formule molto importanti viste per la varianza sono le seguenti:
2
2
σaX+b
= a2 σX
,
2
σX
= E(X 2 ) ¡ E 2 (X).
La prima formula torna utile quando ci sono dei cambiamenti di scala e/o delle traslazioni dei dati: se si moltiplicano tutti i dati per uno stesso fattore, allora anche la
deviazione standard risulterà moltiplicata per lo stesso fattore; se invece si traslano
tutti i dati, la deviazione standard non ne viene influenzata. Quest’ultimo fatto risulta perfettamente comprensibile se si pensa al significato di questo indicatore come
misura di dispersione: importa solo la posizione dei dati xi rispetto alla media, e non
la dislocazione dell’insieme di questi dati sull’asse x.
La seconda formula ci permette invece la possibilità di calcolare la varianza (e quindi
la deviazione standard) anche in questo modo:
n
σ2 =
1 2
x ¡ x2 .
n i=1 i
Anche per il calcolo della varianza σ 2 (e quindi della deviazione standard), se i dati
sono raggruppati in classi, si possono utilizzare i punti di mezzo xk degli intervalli
associati alle classi e le loro frequenze ϕ(xk ). La formula che dà σ 2 (in modo approssimato) è la seguente:
nc
1
2
σ =
(xk ¡ x)2 ϕ(xk ) .
n
k=1
Deviazioni medie
Altri due indici di dispersione sono la deviazione media dalla media e la deviazione media
dalla mediana, che indichiamo rispettivamente con Dmed (x) e Dmed (xmed ). Tali indici
sono dati dalla media aritmetica delle differenze in valore assoluto rispettivamente
dalla media x e dalla mediana xmed , ossia da
n
Dmed (x) =
n
1
jxi ¡ xj ,
n i=1
Dmed (xmed ) =
1
jxi ¡ xmed j .
n i=1
Esempio 2.3.3 Calcoliamo la varianza, la deviazione standard e le deviazioni medie
dalla media e dalla mediana dei dati dell’esempio 2.2.1.
2
= E(X 2 ) ¡ E 2 (X), sapendo che x =
Calcoliamo la varianza utilizzando la relazione σX
63.22 (vedi esempio 2.3.1):
n
σ2 =
50
1 2
1 2
xi ¡ x2 =
x ¡ (63.26)2 ¼ 17.13 .
n i=1
50 i=1 i
78
A questo punto per avere la deviazione standard basta calcolare la radice quadrata di σ 2 :
σ=
p
17.02 ¼ 4.14 .
Il calcolo della varianza poteva essere semplificato mediante la formula che utilizza i punti
di mezzo delle classi e le loro frequenze. In questo modo si ottiene:
σ2 ¼
n
7
k=1
k=1
c
1
1 (xk ¡ x)2 ϕ(xk ) =
(xk ¡ 63.22)2 ϕ(xk ) = (54 ¡ 63.22)2 ¢2+
n
50
+ (57 ¡ 63.22)2 ¢5 + (60 ¡ 63.22)2 ¢9 + (63 ¡ 63.22)2 ¢15 + (66 ¡ 63.22)2 ¢12+
+ (69 ¡ 63.22)2 ¢4 + (72 ¡ 63.22)2 ¢3 ¼ 18.30 ,
da cui σ ¼ 4.28. Di qui si vede come la formula basata sulla suddivisione in classi, essendo
ovviamente la distribuzione che ne deriva più grossolana rispetto a quella dei dati di partenza,
fornisca (in questo caso) un valore della deviazione standard con un errore di circa il 3.6%.
Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio
2.3.1 che xmed =63.5):
n
Dmed (x) =
50
1
1 jxi ¡ xj =
jxi ¡ 63.22j = 3.26 ;
n i=1
50 i=1
n
50
1
1 Dmed (xmed ) =
jxi ¡ xmed j =
jxi ¡ 63.5j = 3.26 .
n i=1
50 i=1
I calcoli sono ovviamente stati fatti con un programma di calcolo.
Esempio 2.3.4 Calcoliamo la varianza, la deviazione standard e le deviazioni medie
dalla media e dalla mediana dei dati dell’esempio 2.2.2.
Procedendo come nell’esempio precedente, essendo ora x = 179.15 e xmed = 179 (vedi
esempio 2.3.2), si ha
80
1 2
σ =
x ¡ (179.15)2 ¼ 67.05 ,
80 i=1 i
2
da cui
σ=
p
67.05 ¼ 8.19 .
Se poi si effettua il calcolo (approssimato) mediante la formula che usa i punti di mezzo degli
intervalli delle classi, si ha
σ2 ¼
nc
1
(xk ¡ x)2 ϕ(xk ) ¼ 68.90 ,
n
da cui
k=1
σ ¼ 8.30 ,
con un errore su σ di poco superiore all’1%. Calcoliamo infine le deviazioni medie dalla
media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed =63.5):
n
Dmed (x) =
80
1
1 jxi ¡ xj =
jxi ¡ 179.15j ¼ 6.24 ;
n i=1
80 i=1
n
80
1
1 Dmed (xmed ) =
jxi ¡ xmed j =
jxi ¡ 179j ¼ 6.22 .
n i=1
80 i=1
Come per l’esempio precedente, i calcoli sono stati fatti con un programma di calcolo.
79
Esercizio 2.3.5 Calcolare la media, la mediana, lo scarto quadratico medio e le deviazioni
medie dalla media e dalla mediana dei seguenti dati:
46 31 1 33 2 44 66 8 54 99 92 98 69 50
Innanzitutto ordiniamo i 14 dati in senso crescente:
1 2 8 31 33 44 46 50 54 66 69 92 98 99
Calcoliamo la media:
x=
1
693
(1 + 2 + 8 + ¢ ¢ ¢ + 98 + 99) =
= 49.5 .
14
14
Per quanto riguarda la mediana abbiamo
xmed =
x7 + x8
46 + 50
=
= 48 .
2
2
Dovendo poi calcolare lo scarto quadratico medio, ci serve la varianza:
σ2 =
da cui
1 2
1 + 22 + 82 + ¢ ¢ ¢ + 982 + 992 ) ¡ (49.5)2 = 1019.25 ,
14
σ=
p
Infine
1018.25 ¼ 31.93 .
14
1 363
Dmed (x) =
¼ 25.93 ;
jxi ¡ 49.5j =
14 i=1
14
14
Dmed (xmed ) =
1 363
jxi ¡ 47j =
¼ 25.93 .
14 i=1
14
Il fatto che queste due ultime medie siano uguali ha una facile spiegazione geometrica:
quando i dati sono in numero pari e anche la media è compresa fra i due dati di mezzo
(cioè x n2 e x n2 +1 ), si ha sempre Dmed (x) = Dmed (xmed ).
Esercizio 2.3.6 Calcolare la media, la mediana e le deviazioni medie dalla media e dalla
mediana dei dati dell’esercizio precedente sostituendo 91 a 1.
Sostituito il numero 1 con 91 il nuovo campione ordinato è il seguente:
2 8 31 33 44 46 50 54 66 69 91 92 98 99 .
Calcoliamo la nuova media e la nuova mediana
783
1
(2 + 8 + 31 + ¢ ¢ ¢ + 98 + 99) =
¼ 55.93 ;
14
14
x7 + x8
50 + 54
xmed =
=
= 52 .
2
2
x=
Calcoliamo ora le due deviazioni medie:
Dmed (x) =
1 14
jxi ¡ 55.93j ¼ 25.63 ;
14 i=1
80
1 14
355
¼ 25.36 .
i=1 jxi ¡ 52j =
14
14
Si può verificare che ora, essendo x esterno all’intervallo [x7 , x8 ] (di cui la mediana è il punto
medio), Dmed (x) e Dmed (xmed ) sono diversi.
Dmed (xmed ) =
Esercizio 2.3.7
Uno studente di ingegneria ha sostenuto 16 esami, ciascuno dei quali con
un dato numero di crediti formativi. I voti riportati dallo studente, ciascuno con a fianco il
numero dei crediti relativi a quell’esame, sono i seguenti:
28 (6)
27 (5)
21 (8)
27 (4)
22 (5)
27 (6)
24 (6)
19 (10)
24 (8)
28 (5)
25 (4)
29 (7)
25 (6)
30 (8)
26 (8)
30 (4)
Si chiede di calcolare: a) la media, la mediana e la deviazione standard dei voti; b) la
media, la mediana e la deviazione standard dei crediti; c) la media ponderata dei voti
assumendo come pesi i crediti.
a) Ordiniamo innanzitutto i 16 voti. Si ha
19 21 22 24 24 25 25 26 27 27 27 28 28 29 30 30
Indicati con v1 , v2 , . . . , v16 i voti cosı̀ ordinati e con v , vmed e σv rispettivamente la media,
la mediana e la deviazione standard, abbiamo
16
1 412
v8 + v9
vi =
= 25.75 ;
vmed =
= 26.5 ;
16 i=1
16
2
12
16
1 2
(vi ¡ 25.75)
σv =
¼ 3.07 .
16 i=1
v =
b) Ordiniamo anche i crediti:
4
4
4
5
5
5
6
6
6
6
7
8
8
8
8
10
Indicati con c1 , c2 , . . . , c16 i crediti cosı̀ ordinati e rispettivamente con c, cmed e σc le relative
media, mediana e deviazione standard, abbiamo
16
1 100
c8 + c9
c =
ci =
= 6.25 ;
cmed =
= 6;
16 i=1
16
2
12
16
1 (ci ¡ 6.25)2
¼ 1.71 .
σc =
16 i=1
c) Calcoliamo infine la media ponderata dei voti, vpond , assumendo come pesi i relativi
crediti. Riordinati i ci in modo che ci sia corrispondenza fra voti e crediti:
10
8
5
6
8
4
6
abbiamo
vpond =
8
16
4
i=1
16
vi ¢ci
i=1 ci
81
5
6
6
= 25.38 .
5
7
4
8
CAPITOLO
3: STATISTICA MATEMATICA
3.1 POPOLAZIONI E CAMPIONI
Definizione Si definisce popolazione un insieme i cui elementi hanno in comune
almeno una caratteristica (od attributo).
Esempi di popolazioni: gli ingegneri che si sono laureati in Italia dal 1950 al 1980; i
giorni con vento superiore ai 100 Km/h a Trieste nel mese di aprile dal 1900 al 1999;
gli italiani aventi diritto al voto per il senato alle elezioni politiche del 2001; i corpi
celesti dell’universo; gli alberi passati e presenti di tutte le foreste del mondo.
Esempi di caratteristiche nel caso degli ingegneri: l’età al momento della laurea; l’età
al momento del primo impiego come ingegnere; l’altezza; il peso; il sesso; il primo
stipendio; ecc.
Le popolazioni possono essere finite o infinite. In genere popolazioni molto numerose
sono considerate infinite anche se non lo sono (ad esempio i corpi celesti dell’universo).
Ogni caratteristica della popolazione, nella maggior parte dei casi, viene misurata da
un valore numerico per ciascuno degli N elementi che la compongono. Di conseguenza
uno studio completo della popolazione implicherebbe un insieme di N numeri. In
genere, però, N è cosı̀ grande da rendere impraticabile, per ovvi motivi, la misurazione
della caratteristica per l’intera popolazione. Ci si limita dunque a farlo solo per un suo
sottinsieme, spesso assai limitato, detto campione. Uno scopo delle ricerche statistiche
è quello di inferire (da cui il nome di inferenza statistica), cioè fare delle deduzioni o
delle previsioni sulla popolazione mediante l’esame di un campione.
Matematicamente la caratteristica oggetto di studio è una variabile aleatoria X la
cui distribuzione ci è più o meno sconosciuta. In ogni caso la variabile casuale X
sottostante alla popolazione in questione avrà una media ed una varianza, che nel
seguito indicheremo semplicemente con µ e σ 2 , ossia
2
µ = µX = E(X) ,
σ 2 = σX
= V ar(X) .
2
Nel seguito ci riferiremo spesso a µ e σ come alla media e alla varianza della popo2
.
lazione oggetto di indagine, sottintendendo ovviamente con ciò µX e σX
Definizione Si chiama campione casuale di dimensione n, estratto da una popolazione avente X come variabile aleatoria sottostante, una variabile n-dimensionale (X1 , X2 , . . . , Xn ), con le Xi indipendenti e aventi la stessa distribuzione di X .
Quando si misura la caratteristica della popolazione limitandosi ad un campione di
dimensione n, si ottengono n misure x1 , x2 , . . . , xn : ciò equivale ad una singola esecuzione dell’esperimento rappresentato dalla variabile n-dimensionale (X1 , X2 , . . . , Xn )
con risultato (x1 , x2 , . . . , xn ).
Sul problema della scelta del campione, che nella pratica consiste nell’estrarre n elementi da un insieme di N , con n ¿ N , ci limitiamo ad osservare l’importanza che ciò
venga realmente fatto a caso e che esistono diverse tecniche utili allo scopo.
82
3.2 STIMATORI
Sia (X1 , X2 , . . . , Xn ) un campione di una data popolazione la cui distribuzione è nota
in funzione di un parametro incognito θ. Uno degli obiettivi della statistica inferenziale
è quello di stimare θ mediante una appropriata funzione dei risultati campionari xi .
Definizione Si definisce statistica una funzione g(X1 , X2 , . . . , Xn ) delle variabili
casuali Xi (e quindi, a sua volta, una variabile casuale) che non contiene parametri.
Definizione Si definisce stimatore una statistica che viene utilizzata per stimare
un parametro incognito θ.
Sia f (X1 , X2 , . . . , Xn ) = θ uno stimatore e (x1 , x2 , . . . , xn ) un valore misurato del
campione. Ebbene, il valore θ̂ = f (x1 , x2 , . . . , xn ) è detto stima puntuale del
parametro θ. È convenzione molto seguita quella di indicare le stime puntuali con
l’accento circonflesso, ad esempio θ̂, σ̂ 2 , . . . . Nel caso della media stimata, tuttavia,
anzichè con µ̂, si continuerà ad indicarla con x, sia per conservare la notazione già
usata nella Statistica descrittiva, sia per coerenza col fatto che la media verrà stimata
con lo stimatore X che definiremo tra poco.
Definizione Uno stimatore T del parametro θ si dice corretto se la sua media
coincide con θ medesimo, ossia: E(T ) = θ.
MEDIA CAMPIONARIA
Il problema statistico che si presenta più frequentemente nelle applicazioni è il seguente: supposte la media vera µ e la varianza vera σ 2 ignote, si cerca di stimarle in
modo attendibile eseguendo un “gran” numero di esperimenti (ma non esageratamente
grande). La pratica corrente è quella di stimare µ calcolando la media aritmetica dei
valori misurati (osservati) xi , cioè
1 n
x=
xi .
n i=1
Volendo giustificare ciò, osserviamo che x coincide col valore misurato della variabile
aleatoria definita come media aritmetica delle n variabili aleatorie Xi .
Definizione Si chiama media campionaria di un campione (X1 , X2 , . . . , Xn ) la
variabile casuale X cosı̀ definita:
n
1
X=
Xi .
n i=1
Teorema
La media campionaria è uno stimatore corretto della media vera µ, ossia
E(X) = E(X) = µ .
Dimostrazione: Ricordando che E(Xi )=E(X)=µ, si ha
n
1
nµ
E(X) =
E(Xi ) =
= µ.
n i=1
n
83
Teorema
La varianza della media campionaria vale quella di X diviso n, ossia
V ar(X) =
Dimostrazione
1
σ2
V ar(X) =
.
n
n
1
V ar(X) = 2 V ar
Xi =
n
i=1
n
n
i=1
V ar(Xi )
nσ 2
σ2
.
=
=
n2
n2
n
I due teoremi appena visti ci dicono che la media campionaria X ha media coincidente
con la media µ della popolazione da cui proviene il campione e la sua dispersione
attorno a µ, misurata in termini di deviazione standard, è inversamente proporzionale
alla radice quadrata della dimensione n del campione. Questo significa che al crescere
di n i valori delle corrispondenti medie campionarie tendono a concentrarsi sempre
più attorno al loro valore medio, che altri non è che la media della popolazione, molto
spesso oggetto della nostra indagine statistica.
VARIANZA CAMPIONARIA
Definizione Si chiama varianza campionaria di un campione (X1 , X2 , . . . , Xn ),
n > 1, la variabile casuale S 2 cosı̀ definita
n
S2 =
1 Xi ¡ X)2 .
n ¡ 1 i=1
Lo stimatore S 2 viene utilizzato per stimare la varianza σ 2 di X (e l’esponente 2 che
compare in S 2 serve appunto a ricordarci questo). Il fatto che si usi questo stimatore
anzichè
1 n S̃ 2 =
Xi ¡ X)2 ,
n i=1
come potrebbe apparire più naturale, è dovuto al fatto che quest’ultimo non è un
estimatore corretto, mentre S 2 lo è. Si può infatti dimostrare (cosa che non facciamo)
che
n¡1 2
E(S 2 ) = σ 2 ,
E(S̃ 2 ) =
σ .
n
Dunque, volendo stimare la varianza vera σ 2 , lo faremo calcolando il numero
n
1 σ̂ =
xi ¡ x)2 .
n ¡ 1 i=1
2
Di qui si ottiene anche la stima σ̂ della deviazione standard:
p
σ̂ = σ̂ 2 .
p
Osserviamo che in questo modo per stimare σ si è usato lo stimatore S = S 2 , che
però non è uno stimatore corretto in quanto si può dimostrare che E(S) < σ.$Per
questa ragione qualche volta può essere conveniente utilizzare lo stimatore S̃ = S̃ 2 ,
per quanto anch’esso non corretto. Noi però negli esempi che seguiranno faremo
sempre uso dello stimatore S (cioè calcoleremo sempre l’approssimazione σ̂).
84
COVARIANZA CAMPIONARIA
Talvolta, per la stessa popolazione, sono oggetto di indagine due
diverse caratteristi
che, per cui il campione casuale considerato è bidimensionale: (Xi , Yi ), i = 1, . . . , n .
Ciò comporta ovviamente che ci siano due variabili casuali X e Y sottostanti al nostro
esperimento e che ciascuno degli n risultati (o osservazioni) consista in una coppia di
numeri (xi , yi ). Oltre all’interesse per ognuna delle due caratteristiche, e quindi dei
due campioni (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) presi singolarmente, ci può essere da
parte dello sperimentatore anche l’interesse a capire se fra X e Y c’è qualche forma
di dipendenza lineare o, detto altrimenti, qualche forma di correlazione. A tal fine
occorre stimare la covarianza σX,Y della variabile congiunta (X, Y ), il che può essere
fatto utilizzando lo stimatore definito come segue:
Definizione Si chiama covarianza campionaria del campione (Xi , Yi ), i = 1, . . . , n ,
la variabile aleatoria
n
SX,Y
1 =
(Xi ¡ X)(Yi ¡ Y ) .
n ¡ 1 i=1
La covarianza vera σX,Y viene dunque cosı̀ stimata:
n
n
n
n
1 1
1 σX,Y ¼ σ̂X,Y =
(xi ¡ x)(yi ¡ y) =
xi y i ¡
xi
yi
.
n ¡ 1 i=1
n ¡ 1 i=1
n i=1
i=1
Nella formula x e y sono ovviamente le medie aritmetiche degli xi e degli yi (e quindi i
valori osservati delle due medie campionarie “marginali” X e Y ). L’espressione alternativa data per ultima di σ̂X,Y , che si ottiene con semplici manipolazioni algebriche,
può essere comoda se il calcolo è fatto con una calcolatrice tascabile delle più semplici.
Come già visto nel x 1.6, per vedere se fra X e Y c’è una qualche correlazione, piuttosto
che utilizzare la covarianza, conviene far ricorso al coefficiente di correlazione ρX,Y .
Ricordandone la definizione già data, e denotate con σ̂X e σ̂Y le stime delle deviazioni
standard di X e Y , tale coefficiente può essere stimato nel modo seguente:
ρX,Y ¼ ρ̂X,Y =
σ̂X,Y
.
σ̂X σ̂Y
Esempio 3.2.1
20 lanci di due dadi (di colore diverso per distinguere l’ordine dei risultati)
hanno dato per risultato le seguenti coppie numeriche (xi , yi ):
xi :
yi :
4
2
5
2
3
2
2
3
2 5 3 4 6 6 4 5 3 3 4 1 5 4 2 1
6 4 4 1 6 1 4 1 5 5 3 1 4 1 2 1
Si considerino poi le coppie (ai , di ), con ai = xi + yi e di = xi ¡ yi , e (xi , zi ), con zi = 2xi .
Si chiede di calcolare:
a) le medie x, y , a, d e z ;
2
2
2
2
b) le varianze σ̂X
, σ̂Y2 , σ̂A
, σ̂D
e σ̂Z
;
c) le deviazioni standard σ̂X , σ̂Y , σ̂A , σ̂D e σ̂Z ;
d) le covarianze σ̂X,Y , σ̂A,D e σ̂X,Z ;
e) i coefficienti di correlazione ρ̂X,Y , ρ̂A,D e ρ̂X,Z .
85
Facendo i calcoli (nel nostro caso con un programma specifico fatto all’uopo) si ottengono i
seguenti risultati:
a)
x = 3.6 ,
y = 2.9 ,
a = 6.5 ,
d = 0.7 ,
z = 7.2 ;
b)
2
σ̂X
' 2.25 ,
σ̂Y2 ' 3.04 ,
2
σ̂A
' 5.74 ,
2
σ̂D
' 4.85 ,
2
σ̂Z
' 9.01 ;
c)
σ̂X ' 1.50 ,
σ̂Y ' 1.74 ,
σ̂A ' 2.40 ,
σ̂D ' 2.20 ,
σ̂Z ' 3.00 ;
d)
σ̂X,Y ' 0.221 ,
σ̂A,D ' ¡0.789 ,
σ̂X,Z ' 4.505 ;
e)
ρ̂X,Y ' 0.084 ,
ρ̂A,D ' ¡0.149 ,
ρ̂X,Z = 1 .
Nota Le covarianze vere valgono: σX,Y = σA,D = 0 e σX,Z = σX ¢σZ . Infatti le variabili
casuali X e Y sono chiaramente indipendenti, A e D sono fortemente dipendenti ma non
correlate, mentre X e Z sono linearmente dipendenti (i dati stanno sulla retta z = 2x) e
quindi con covarianza massima.
3.3 DISTRIBUZIONI CHI-QUADRO E DI STUDENT
Vediamo ora due distribuzioni campionarie di notevole importanza in Statistica, entrambe collegate alla distribuzione normale.
Definizione Date n variabili aleatorie Xi normali standardizzate indipendenti, la
variabile aleatoria somma dei loro quadrati è detta chi-quadro (o chi-quadrato)
con n gradi di libertà ed è indicata con χ2n . Si ha dunque
χ2n
=
n
Xi2 ,
Xi ' N (0, 1) .
i=1
Una distribuzione χ2n ha una funzione densità f (x) che è nulla per x < 0 e con l’andamento mostrato in figura per x ¸ 0 (per n = 2, 4, 6, 8, 10). Per n piccolo f (x) ha
il picco vicino all’origine, ed è sempre più dispersa e sempre più simmetrica per n
grande.
86
Dalla definizione di χ2n segue immediatamente che, se (X1 , X2 , . . . , Xn ) è un campione
casuale estratto da una popolazione distribuita normalmente con media µ e varianza σ 2 ,
n allora la variabile aleatoria
Xi ¡ µ 2
Z2 =
σ
i=1
segue una distribuzione χ2n . Si può poi dimostrare che la varianza campionaria S 2 è
proporzionale ad una distribuzione chi-quadro con n-1 gradi di libertà. Più precisamente
si ha
n¡1 2
S ' χ2n−1 .
σ2
Definizione Se Z è una variabile aleatoria normale standardizzata e χ2n è una
variabile aleatoria chi-quadro con n gradi di libertà, se Z e χ2n sono indipendenti,
allora la variabile aleatoria
Z
Tn = $
χ2n /n
segue una distribuzione t di Student con n gradi di libertà.
Come per la funzione densità della χ2n , anche nel caso di Tn non riportiamo esplicitamente la funzione densità, limitandoci a mostrarne i grafici per n = 1, 6, 20, 120. È
importante osservare come per n grande la distribuzione di Student tenda alla normale standardizzata. Già a partire da n = 30 i valori di Tn sono ben approssimati da
quelli di N (0, 1).
Alla fine sono riportate due tavole delle distribuzioni χ2n e Tn con i valori più significativi ai fini delle applicazioni. In analogia con una terminologia già introdotta per
la distribuzione N (0, 1), le soluzioni xα e tα delle equazioni
P χ2n · xα =α
e
P Tn · tα =α
saranno chiamate quantili relativi ad α (rispettivamente della distribuzione χ2n e della
distribuzione di Student Tn ). Nel seguito, per brevità, scriveremo le due equazioni
precedenti utilizzando i simboli χ2n e Tn per indicare le funzioni distribuzione anzichè
le variabili casuali. Si scriverà quindi
χ2n (xα )=α
e
87
Tn (tα )=α .
3.4 INTERVALLI DI FIDUCIA (o CONFIDENZA)
Come abbiamo già detto, uno stimatore è una variabile aleatoria che serve per stimare
un parametro incognito θ della nostra popolazione. Ovviamente i parametri che ci
interessa maggiormente stimare sono la media µ e la varianza σ 2 . In questo ambito di
problemi, un esempio di domanda molto comune è la seguente: dato un campione,
quale intervallo del tipo (x ¡ δ, x + δ) conterrà la media incognita µ con probabilità
del 95% ? oppure del 99% ? Di qui nasce la definizione che segue.
Definizione Si definisce intervallo di fiducia (o confidenza) di livello 100(1¡α)%
per il parametro θ un intervallo (θ1 , θ2 ) tale che
P (θ1 · θ · θ2 ) = 1 ¡ α ,
con θ1 = f1 (X1 , X2 , . . . , Xn ) e θ2 = f2 (X1 , X2 , . . . , Xn ) variabili aleatorie funzione
del campione casuale.
In genere interessano piccoli valori di α; tipicamente α = 0.05 oppure α = 0.01. Il
livello di fiducia nei due casi è quindi il 95% per α=0.05, il 99% per α=0.01.
Se P (θ < θ1 ) = P (θ > θ2 ) = α2 , l’intervallo di fiducia è detto bilaterale simmetrico
(omettendo però spesso l’attributo simmetrico). Se poi si ha P (θ > θ2 ) = α oppure
P (θ < θ1 ) = α, allora l’intervallo è detto unilaterale, sinistro o inferiore nel primo
caso, destro o superiore nel secondo. Nel seguito quasi tutte le stime proposte
saranno per intervalli bilaterali.
Eseguito l’esperimento, mediante il valore misurato (x1 , x2 , . . . , xn ) del campione si
ricava l’intervallo numerico (θ1∗ , θ2∗ ), θ1∗ = f1 (x1 , x2 , . . . , xn ), θ2∗ = f2 (x1 , x2 , . . . , xn ),
che costituisce una stima per intervalli del parametro θ al livello di fiducia 100(1¡α)%.
Nota: Spesso, nel seguito, per semplicità si dirà “al livello di fiducia 1¡α”.
3.5 STIMA DELLA MEDIA DI UNA POPOLAZIONE NORMALE
In questo paragrafo descriviamo i metodi per stimare la media µ di una popolazione che
supporremo avere una distribuzione normale. Tali metodi, ovviamente solo per una popolazione normale, nella pratica corrente sono usati con maggior generalità, supportati
in ciò, quando la dimensione del campione è sufficientemente grande, dal Teorema di
Limite Centrale.
La stima per intervalli di fiducia della media µ di una popolazione normale viene ora
affrontata considerando separatamente il caso in cui la varianza σ 2 è nota (anche se
poco frequente) e quello in cui è incognita.
a) caso di varianza nota
Come abbiamo già detto, lo stimatore che si usa per la media di una popolazione è
la media campionaria X. Sappiamo anche che
σ2
E(X) = µ ,
V ar(X) =
.
n
88
Inoltre, si può dimostrare che, essendo la popolazione distribuita normalmente, anche
X è normale. Di conseguenza la variabile casuale
Z=
X ¡µ
p
σ/ n
segue la distribuzione normale standardizzata, le cui probabilità possono essere desunte dalle tabelle statistiche della densità normale Φ(x). Diamo innanzitutto la stima
per intervalli bilaterali (simmetrici). A tal fine andiamo a determinare il quantile superiore u α2 , cioè la soluzione dell’equazione
α
Φ(u) = 1 ¡ ,
2 α
α
α
ed essendo Φ(¡u 2 ) = 1 ¡ Φ(u 2 ) = 2 , l’intervallo ¡u α2 , u α2 è tale che
σ
σ
P ¡u α2 · Z · u α2 = P X ¡ p u α2 · µ · X + p u α2 = 1 ¡ α .
n
n
Di conseguenza l’intervallo bilaterale
σ
σ
X ¡ p u α2 , X + p u α2 ,
n
n
che è aleatorio in quanto è tale il suo punto centrale X, contiene con probabilità 1¡α
il valore vero µ. Eseguito l’esperimento, l’intervallo osservato si ottiene dall’intervallo
aleatorio sostituendo alla media campionaria X la media aritmetica x dei valori osservati negli n esperimenti. Useremo quindi l’intervallo osservato per dare una stima di µ
di livello di fiducia 1¡α:
σ
σ
x ¡ p u α2 , x + p u α2 .
µ 2
n
n
Osserviamo che, se cresce il numero n degli esperimenti, l’ampiezza dell’intervallo
diminuisce, e dunque la stima si fa più informativa: fare esperimenti è costoso, ma poi
“ripaga”. Tuttavia, osserviamo anche che,
p poiché l’ampiezza dell’intervallo diminuisce
in modo inversamente proporzionale a n, il vantaggio che si ottiene aggiungendo via
via nuovi dati diventa gradualmente sempre meno significativo. D’altra parte, se
aumenta il grado di fiducia, diminuisce α e il quantile u cresce; di conseguenza cresce
l’ampiezza dell’intervallo e quindi la stima diventa meno informativa.
89
Diamo ora anche le due stime per intervalli unilaterali. Per ottenerla si deve risolvere
l’equazione Φ(u) = 1¡α , determinando cosı̀ il quantile uα tale che
P Z · uα = P Z ¸ ¡uα = 1 ¡ α ,
o, equivalentente,
σ
σ
P µ ¸ X ¡ p uα = P µ · X+ p uα = 1 ¡ α .
n
n
Gli intervallo aleatori, rispettivamente destro e sinistro,
σ
σ
X¡ p uα , +1
e
¡1 , X+ p uα
n
n
contengono la media µ con probabilità 1¡α, e quindi rappresentano la stima cercata
di µ mediante intervalli unilaterali al livello di fiducia 1¡α. Naturalmente, una volta
eseguito l’esperimento, tali intervalli saranno approssimati con
σ
σ
x¡ p uα , +1
e
¡1 , x+ p uα
n
n
Esempio 3.5.1 Per determinare la durata del cambio di un’auto vengono scelti casualmente
200 cambi dalla produzione, che supponiamo distribuita normalmente con scarto tipo uguale
a 4000 km. Essi vengono testati finché presentano un difetto serio. Se la durata media
dei 200 cambi sottoposti a test è 50000 km, quali sono gli intervalli di fiducia bilaterali e
unilaterali sinistri della durata media dell’intera produzione al 95%, al 97.5% e al 99% ?
I dati sono: n = 200 , x = 50000 , σ = 4000 . Osservato che i livelli di fiducia richiesti
corrispondono nell’ordine ad α=0.05, 0.025 e 0.01, indicando con u α2 il valore per cui
Φ(u α2 ) = 1 ¡
abbiamo
Φ(u0.0250 ) = 0.9750
Φ(u0.0125 ) = 0.9875
=)
=)
α
2
,
u0.0250 ' 1.96 ,
u0.0125 ' 2.24 ,
u0.0050 ' 2.57 .
σ
σ
x ¡ p u α2 , x+ p u α2 .
Gli intervalli di fiducia bilaterali di livello 1¡α, sono dati da
n
n
p
Essendo σ/ n ¼ 282.84, si ha
Φ(u0.0050 ) = 0.9950
α = 0.050
α = 0.025
=)
=)
α = 0.010
=)
=)
µ 2 [50000 ¡ 555, 50000 + 555] = [49445, 50555]
µ 2 [50000 ¡ 634, 50000 + 634] = [49366, 50634]
µ 2 [50000 ¡ 727, 50000 + 727] = [49273, 50727] .
Per quanto riguarda invece i corrispondenti intervalli unilaterali sinistri, procedendo analogamente, e mettendo 0 anziché ¡1 come estremo sinistro degli intervalli (si tratta della
durata di un cambio, che ovviamente non può essere negativa), si ottiene
α = 0.050
=)
α = 0.025
α = 0.010
=)
=)
µ 2 (0 , 50000 + 464] = (0 , 50464]
µ 2 (0 , 50000 + 555] = (0 , 50555]
µ 2 (0 , 50000 + 659] = (0 , 50659] .
I tre casi considerati evidenziano come all’aumentare del livello di fiducia, cioè alla richiesta
di maggior attendibilità della stima, aumenti l’ampiezza dell’intervallo.
90
b) caso di varianza incognita
Supponiamo ora, come di norma accade nella pratica, che la varianza σ 2 non sia nota.
In tal caso si procede come nel caso precedente sostituendo a σ 2 lo stimatore corretto
della varianza campionaria
n
S2 =
1 Xi ¡ X)2 ,
n ¡ 1 i=1
X ¡µ
p , che si dimostra essere
S/ n
una variabile di Student con n¡1 gradi di libertà. Posto quindi
e sostituendo poi alla variabile casuale Z la variabile
Tn−1 =
X ¡µ
p ,
S/ n
indicato con t α2 il quantile superiore fornito dalla soluzione dell’equazione
α
P (Tn−1 · t) = 1 ¡ ,
2
o, equivalentemente, considerata la simmetria della distribuzione di Student, il quanα
tile t α2 per cui P (Tn−1 · ¡t) = , si ha
2
S
S
P X ¡ p t α2 · µ · X + p t α2 = 1 ¡ α .
n
n
Di conseguenza l’intervallo aleatorio
S
S
X ¡ p t α2 , X + p t α2 ,
n
n
conterrà con probabilità 1¡α la media vera µ. Utilizzandone il valore osservato daremo una stima di µ di livello di fiducia 1¡α:
µ 2
σ̂
σ̂
x ¡ p t α2 , x + p t α2 ,
n
n
dove σ̂ è il valore di S ottenuto dagli n esperimenti.
Osservazione 1: la non conoscenza della varianza della popolazione fa si che l’ampiezza dell’intervallo di fiducia per piccole dimensioni del campione (diciamo n ¿ 30)
risulti assai più ampia di quella che si avrebbe se σ 2 fosse nota.
Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la media quando
la varianza non è nota, è sufficiente che del campione siano note la dimensione n, la
media campionaria x e la varianza campionaria σ̂ 2 (in altre parole non è necessario
conoscere uno per uno gli n dati xi ).
Esempio 3.5.2
Durante 8 prove su strada un prototipo di furgone ha consumato rispettivamente 14,12,11,13,15,12,16,13 litri di gasolio per 100 km di percorrenza. Supponendo che
la distribuzione dei consumi segua approssimativamente la distribuzione normale, costruire
gli intervalli di fiducia al 95% e al 99% della media vera del consumo di quel prototipo.
91
Calcoliamo la media e la varianza campionaria:
n
1
106
x=
xi =
= 13.25 ;
n i=1
8
n
1 19.5
¼ 2.79
σ̂ =
(xi ¡ x)2 =
n ¡ 1 i=1
7
2
=)
σ̂ =
p
2.79 ¼ 1.67 .
Come abbiamo appena visto, indicato con t α2 il quantile per cui si ha P (Tn−1 · t α2 ) =
1¡
α
, l’intervallo di fiducia di livello 1¡α è il seguente:
2
σ̂
σ̂
x ¡ p t α2 , x + p t α2 .
n
n
Dalle tavole della distribuzione di Student (con 7 gradi di libertà) si ottiene:
T7 (t0.025 ) = 0.975
T7 (t0.005 ) = 0.995
=)
=)
t0.025 ' 2.365
t0.005 ' 3.499
=)
=)
µ 2 [11.85, 14.65] ,
µ 2 [11.18, 15.32] .
Esempio 3.5.3
Ripetere i calcoli dell’esercizio precedente con il campione che si ottiene aggiungendo ai dati precedenti i seguenti consumi ottenuti con 12 prove aggiuntive: 15,14,12,13,
11,16,14,15,12,14,12,13.
Calcoliamo la media e la varianza con il campione (ora di dimensione n=20) ottenuto con
l’aggiunta dei nuovi dati.
x=
20
106 + 161
1
106 +
xi =
= 13.35 ;
20
20
i=9
20
1 44.55
(xi ¡ x)2 =
¼ 2.35
σ̂ =
19 i=1
19
2
=)
σ̂ =
p
2.35 ¼ 1.53 .
Si ha quindi
T19 (t0.025 ) = 0.975
=)
T19 (t0.005 ) = 0.995
=)
t0.025 ' 2.093
t0.005 ' 2.861
=)
=)
µ 2 [12.63, 14.07] ,
µ 2 [12.37, 14.33] .
Confrontando queste stime con quelle dell’esempio precedente si può osservare come, quando
la dimensione del campione è piccola, aumentandola le stime diventino molto migliori.
3.6 STIMA DELLA VARIANZA DI UNA POPOLAZIONE NORMALE
Affrontiamo ora il problema di fornire una stima della varianza di una popolazione
avente in prima approssimazione una distribuzione normale. Lo faremo utilizzando
gli intervalli di fiducia e, come nel caso della media, le stime che otterremo saranno
rigorose nel caso di una popolazione esattamente normale.
92
Consideriamo dunque un campione (X1 , X2 , . . . , Xn ) estratto da una popolazione normale avente media µ e varianza σ 2 . Abbiamo già detto che la variabile aleatoria
n n¡1 2
Xi ¡ X 2
V =
S
=
σ2
σ
i=1
segue una distribuzione χ2n−1 . Indicato con x1 il valore per cui l’area alla sua sinistra
sottesa dalla curva di densità di probabilità χ2n−1 vale α2 e con x2 il valore per cui
pure l’area alla destra vale α2 (vedi figura), si ha
P x1 · V · x2 = 1 ¡ α .
Sostituendo V con la sua espressione si ottiene
n¡1 2
P x1 ·
S
·
x
2 = 1¡α,
σ2
da cui, con alcuni passaggi algebrici,
(n ¡ 1)S 2
(n ¡ 1)S 2 · σ2 ·
= 1¡α.
P
x2
x1
Possiano dunque affermare che, a livello di fiducia 1¡α, l’intervallo
(n ¡ 1)σ̂ 2
x2
,
(n ¡ 1)σ̂ 2 x1
contiene la varianza vera σ 2 della popolazione. Ricordiamo che σ̂ 2 denota la varianza
campionaria osservata e, per quanto precedentemante detto, x1 e x2 sono le soluzioni
delle equazioni
α
α
χ2n−1 (x1 )= ,
χ2n−1 (x2 )=1 ¡ .
2
2
Osservazione 1: essendo x1 e x2 rispettivamente a denominatore del secondo estremo
e del primo estremo dell’intervallo di fiducia cercato, x1 va calcolato per difetto e
x2 per eccesso.
Osservazione 2:
ai fini del calcolo di un intervallo di fiducia per la varianza, del
campione è sufficiente conoscere la dimensione n e la varianza campionaria σ̂ 2 (e
quindi non è essenziale conoscere la media campionaria e tantomeno gli n dati xi ).
Osservazione 3: se la media µ della popolazione fosse nota, allora si può sostituire
X con µ, avendo cosı̀ a che fare con la variabile casuale
93
V =
n Xi ¡ µ 2
σ
i=1
,
che segue la distribuzione χ2 con n (anzichè n¡1) gradi di libertà. In questo caso,
indicati con x1 e x2 le soluzioni delle equazioni
α
α
χ2n (x1 )= ,
χ2n (x2 )=1 ¡ ,
2
2
2
2
e con ŝ il valore osservato della somma i (Xi ¡ µ) , l’intervallo di fiducia per σ 2 al
livello considerato sarebbe
ŝ2 ŝ2 ,
.
x2 x1
Esempio 3.6.1
Un campione di dimensione 7 di una popolazione normale ha varianza
campionaria σ̂ 2 =0.098. Si chiede di calcolarne gli intervalli di fiducia ai livelli 90% e 95%.
Supposto poi che gli stessi dati si riferiscano ad un campione di dimensione 36, si chiede di
calcolarne anche in questo caso gli intervalli di fiducia suddetti.
Per n=7, per α=0.10 ed α=0.05 abbiamo:
χ26 (x1 ) = P χ26
χ26 (x2 ) = P χ26
χ26 (x1 ) = P χ26
χ26 (x2 ) = P χ26
· x1 = 0.050
· x2 = 0.950
· x1 = 0.025
· x2 = 0.975
=)
=)
=)
=)
x1 ¼ 1.63 ,
x2 ¼ 12.60 ;
x1 ¼ 1.23 ,
x2 ¼ 14.45 .
Di conseguenza, gli intervalli di fiducia richiesti sono:
α = 0.10
=)
α = 0.05
=)
6 ¢ 0.098 6 ¢ 0.098 ,
¼ [0.046, 0.361] ;
12.6
1.63
6 ¢ 0.098 6 ¢ 0.098 ,
¼ [0.040, 0.479] .
14.45
1.23
Per n=36 si ha:
χ235 (x1 ) = P χ235
χ235 (x2 ) = P χ235
χ235 (x1 ) = P χ235
χ235 (x2 ) = P χ235
· x1 = 0.050
· x2 = 0.950
· x1 = 0.025
· x2 = 0.975
=)
=)
=)
=)
x1 ¼ 22.46 ,
x2 ¼ 49.81 ;
x1 ¼ 20.56 ,
x2 ¼ 53.21 .
In questo secondo caso gli intervalli di fiducia richiesti sono dunque i seguenti:
α = 0.10
=)
α = 0.05
=)
35 ¢ 0.098 35 ¢ 0.098 ,
¼ [0.068, 0.153] ;
49.81
22.46
35 ¢ 0.098 35 ¢ 0.098 ,
¼ [0.064, 0.167] .
53.21
20.56
94
3.7 STIMA DELLA DIFFERENZA DELLE MEDIE
DI DUE POPOLAZIONI NORMALI
Un problema che si pone spesso nella realtà industriale, ma non solo, è quello di
confrontare le medie di due popolazioni, di solito per poter fare delle affermazioni con
un certo grado di fiducia sulla loro differenza. L’obiettivo è una modifica del processo
produttivo al fine di migliorare il valore medio di una catteristica del prodotto.
Consideriamo dunque due campioni casuali (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ), che
supporremo indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni con media µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Il
miglior estimatore per la differenza delle medie µ1 ¡µ2 è il seguente:
n
X ¡Y =
m
1
1 Xi ¡
Yi .
n i=1
m i=1
Supposto che le due popolazioni abbiano una distribuzione normale, daremo una stima di
µ1 ¡µ2 nei seguenti casi:
a) σ12 e σ22 sono note;
b) σ12 e σ22 non sono note, ma sono uguali;
c) σ12 e σ22 non sono note e non sono uguali.
a) Le varianze σ12 e σ22 sono note
Essendo i due campioni indipendenti, la varianza di X¡Y è data da
2
2
2
σ∆
= σX−Y
= σX
+ σY2 =
σ2
σ12
+ 2,
n
m
e la variabile casuale Z cosı̀ definita
Z=
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
σ∆
è distribuita normalmente con media 0 e varianza 1. Riprendendo ora il quantile
superiore u α2 , si può scrivere
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
P ¡u α2 < Z < u α2 = P ¡u α2 <
< u α2 = 1 ¡ α ,
σ∆
o, equivalentemente,
P (X ¡ Y ) ¡ σ∆ u α2 < µ1 ¡ µ2 < (X ¡ Y ) + σ∆ u α2 = 1 ¡ α .
Esplicitato il valore di σ∆ , l’intervallo bilaterale che contiene µ1 ¡µ2 con probabilità
1¡α quando le varianze σ12 e σ22 sono note, è dunque il seguente:
·
&
σ12
σ22
σ12
σ22
(X ¡ Y ) ¡ u α2
+
, (X ¡ Y ) + u α2
+
.
n
m
n
m
Eseguito l’esperimento, sostituendo i valori misurati x e y al posto delle corrispondenti
variabili casuali X e Y , si ottiene una stima per µ1¡µ2 al livello di fiducia 100(1¡α)%.
95
Esercizio 3.7.1 Due diversi tipi di guaine isolanti per cavi elettrici vengono testati per determinare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari a livelli crescenti
di tensione si registrano i guasti alle tensioni seguenti:
Tipo Y 52 64 38 68 66 52 60 44 48 46 70 62
Tipo X 36 44 41 53 38 36 34 54 52 37 51 44 35 44
Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: con
media incognita µ1 e varianza σ12 =40 per il tipo X, media µ2 e varianza σ22 =100 per il tipo
Y. Si chiede di determinare: i) un intervallo bilaterale con il 95% di confidenza per µ1 ¡ µ2 ;
ii) un valore che permetta di affermare che µ1 ¡ µ2 gli è superiore con il 95% di confidenza.
i)
Calcoliamo innanzitutto le medie x e y dei due campioni, che hanno dimensione rispettivamente n=14 e m=12. Si ha
12
x=
14
1 xk ¼ 42.78
12
y=
k=1
1 yk ¼ 55.83
14
k=1
Come abbiamo appena visto dalla teoria, la stima di un intervallo di fiducia bilaterale al
livello 1¡α è la seguente:
·
(x ¡ y) ¡ u α2
σ12
σ2
+ 2 , (x ¡ y) + u α2
n
m
σ12
σ2
+ 2
n
m
&
.
Essendo α = 0.005, si ha u α2 = u0.025 ¼ 1.96 (come già visto nell’esercizio 3.5.1). L’intervallo di fiducia richiesto risulta dunque cosı̀ stimato:
¡13.05 ¡ 1.96 ¢
p
11.191 , ¡13.05 + 1.96 ¢
p
11.191 ¼ [¡19.61, ¡6.49] .
ii) La domanda è equivalente alla richiesta di determinare l’intervallo destro al livello di
fiducia 95%. Per quanto detto nel x 3.5, la stima di tale intervallo sarà data da
(x ¡ y) ¡ uα
Essendo u0.05 ¼ 1.645 si ottiene
¡13.05 ¡ 1.65 ¢
σ2
σ12
+ 2 , +1 .
n
m
p
11.191 , +1 ¼ [¡18.53 , +1) .
b) Le varianze σ12 e σ22 non sono note, ma possono ritenersi uguali
Posto σ 2 =σ12 = σ22 , il problema è innanzitutto quello di ottenere una stima per σ 2 . I
due stimatori corretti per σ12 e σ22 sono rispettivamente
n
S12
m
1 =
(Xi ¡ X)2 ,
n ¡ 1 i=1
S22
1 =
(Yi ¡ Y )2 .
m ¡ 1 i=1
Per un teorema enunciato in precedenza sappiamo che
n¡1 2
S1 » χ2n−1
σ2
e
96
m¡1 2
S2 » χ2m−1 .
σ2
Inoltre, essendo le due distribuzioni indipendenti, anche le due chi-quadro ora scritte
lo sono. Di conseguenza pure la loro somma ha una distribuzione di tipo chi-quadro,
con un numero di gradi di libertà uguale alla somma di quelli delle due distribuzioni
di partenza. Si ha cioè
n¡1 2 m¡1 2
S1 +
S2 » χ2n+m−2 .
σ2
σ2
Ciò premesso, una migliore stima per σ 2 è data dalla seguente ”pooled variance”
(varianza ponderata):
Sp2 =
Essendo poi
n¡1
(n ¡ 1)S12 + (m ¡ 1)S22
m¡1
=
S12 +
S2 .
n+m¡2
n+m¡2
n+m¡2 2
1
σ12
σ2
1 2
+ 2 =
+
σ ,
n
m
n m
2
la miglior stima per σ∆
è rappresentata da
1
1 2
2
S∆
=
+
S .
n m p
Ne consegue che la variabile casuale
2
2
= σX−Y
=
σ∆
T =
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
1
1
+
Sp
n m
segue una distribuzione di Student con n + m ¡ 2 gradi di libertà. Indicando ora con
t α2 il quantile superiore fornito dalla soluzione dell’equazione
α
P (Tn+m−2 · t) = 1 ¡ ,
2
si ha
'
(
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
P ¡t α2 ·
· t α2 ,
1
1
+
Sp
n m
e quindi, operando con semplici passaggi algebrici, si ottiene
P (X ¡ Y ) ¡ t α2 S∆ · µ1 ¡ µ2 · (X ¡ Y ) + t α2 S∆ = 1 ¡ α .
Pertanto l’intervallo di fiducia all’(1 ¡ α)% per la differenza delle medie delle due
popolazioni è
(X ¡ Y ) ¡ t α2 S∆ , (X ¡ Y ) + t α2 S∆ .
Effettuato l’esperimento, la stima ottenuta per questo intervallo sarà quindi
(x ¡ y) ¡ t α2 σ̂∆ , (x ¡ y) + t α2 σ̂∆ ,
con σ̂∆ dato, in virtù delle precedenti posizioni, da
)
1
1 (n ¡ 1)σ̂12 + (m ¡ 1)σ̂22
σ̂∆ =
+
=
n m
n+m¡2
)
n
m
1
1 i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2
=
+
.
n m
n+m¡2
97
Osservazione. Spesso ci si trova nella situazione in cui la numerosità di un campione
è molto maggiore dell’altro. In tal caso, supposto n À m, conviene stimare la varianza
incognita con l’estimatore
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
T =
.
S
p1
m
Essendo poi n molto grande, è lecito supporre n + m ¡ 2 > 30 , il che permette di
approssimare la distribuzione di Student con la distribuzione normale standardizzata.
È quindi lecito utilizzare u α2 anzichè t α2 . L’intervallo di fiducia precedentemente
trovato diventa quindi
S1
S1 (X ¡ Y ) ¡ u α2 p , (X ¡ Y ) + u α2 p
,
m
m
che sarà poi stimato con
σ̂1
σ̂1 (x ¡ y) ¡ u α2 p , (x ¡ y) + u α2 p
.
m
m
Esercizio 3.7.2 Un produttore di batterie dispone di due tecniche di fabbricazione differenti.
Due gruppi di batterie scelti a caso, 12 prodotte con la tecnica I e 14 con la tecnica II, sono
risultate avere le seguenti capacità (in ampere-ora):
Tecnica I 140 136 138 150 152 144 132 142 150 154 136 142
Tecnica II 144 132 136 140 128 150 130 134 130 146 128 131
137 135
Ipotizzando che le varianze delle due popolazioni siano uguali, si chiede di determinare: i)
un intervallo di confidenza al 90%, bilaterale, per la differenza delle medie; ii) un intervallo
unilaterale sinistro per µ1 ¡µ2 al livello di confidenza 95%.
i)
Indicato con (X1 , X2 , . . . , X12 ) il campione relativo alla tecnica I, e con (Y1 , Y2 , . . . , Y14 )
quello relativo alla tecnica II, per cui n = 12 e m = 14, calcoliamo le loro medie misurate x
e y . Si ha
14
x=
12
1 xk = 143
14
y=
k=1
1 yk ¼ 135.786
12
k=1
Come abbiamo appena visto dalla teoria, la stima dell’intervallo bilaterale al livello di fiducia
1¡α è la seguente:
(x ¡ y) ¡ t α2 σ̂∆ , (x ¡ y) + t α2 σ̂∆ ,
Dovendo calcolare σ̂∆ occorre prima calcolare la somma degli scarti quadratici. Si ha:
12
(xi ¡ x)2 = 556 ;
14
(yi ¡ y)2 = 622.357 .
i=1
i=1
Si ha quindi
)
12
14
1
1 i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2
556 + 622.36
σ̂∆ =
+
¼ 0.1548
¼ 2.757 .
12 14
24
24
98
Essendo α = 0.10 ed avendo a che fare con la distribuzione di Student a 24 gradi di libertà
(n + m ¡ 2=24), si ha t α2 = t0.05 ¼ 1.711. L’intervallo di fiducia richiesto risulta dunque
cosı̀ stimato:
(143 ¡ 135.79) ¡ 1.71 ¢ 2.76 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ 2.49, 11.93 .
ii) Determiniamo ora un intervallo unilaterale sinistro per µ1 ¡µ2 al livello di confidenza
95%. La stima di tale intervallo sarà data da
Essendo t0.05 ¼ 1.711 si ottiene
¡1 , (x ¡ y) + tα σ̂∆ .
¡1 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ (¡1 , 11.93] .
c) Le varianze σ12 e σ22 non sono note, né possono ritenersi uguali
In questo caso la variabile casuale da utilizzare per costruire l’intervallo di fiducia è
la seguente:
(X ¡ Y ) ¡ (µ1 ¡ µ2 )
,
Tℓ =
S12
S22
+
n
m
dove Tℓ segue approssimativamente la distribuzione t di Student con ℓ gradi di libertà,
con ℓ che si può calcolare, ad esempio, con la formula di Smith-Satterthwaite:
σ̂22 2
m
ℓ = 2n
σ̂ 2 2 ¢
σ̂1 2
2
n
m
+
n¡1
m¡1
σ̂ 2
1
+
Si può anche aggiungere il suggerimento di approssimare per difetto ℓ, il che corrisponde ad una logica di tipo conservativo nell’esecuzione di un test d’ipotesi. Cerchiamo di spiegare cosa significa questa affermazione, anche se richiede argomentazioni
che risulteranno chiare solo più avanti (x3.10). Supposto che l’approssimazione per
difetto dia ℓ=10 e che questa porti a rigettare l’ipotesi nulla H0 , anche ℓ=11, comportando una regione di accettazione contenuta in quella relativa ad ℓ=10, implicherebbe
il rigetto di H0 . Il contrario non necessariamente vale.
Esercizio 3.7.3 Determinare l’intervallo di cui alla domanda i) dell’esercizio precedente nell’ipotesi che le due varianze σ12 e σ12 non siano uguali.
L’intervallo richiesto è formalmente lo stesso dell’esercizio precedente con la differenza che
ora t α2 è determinato dalla distribuzione di Student ad ℓ gradi di libertà, con ℓ dato dalla
formula precedente, e
σ̂∆ =
σ̂12
σ̂ 2
+ 2.
n
m
Calcoliamo innanzitutto σ̂12 e σ̂22 utilizzando i conti già fatti nell’esercizio precedente.
99
σ̂12 =
σ̂22
Si ha quindi
n
12
m
14
1 1 556
¼ 50.545
(xi ¡x)2 =
(xi ¡143)2 =
n¡1 i=1
11 i=1
11
1 1 622.78
=
(yi ¡y)2 ¼
(yi ¡135.786)2 ¼
¼ 47.874 .
m¡1 i=1
13 i=1
13
50.545 47.874 p
+
¼ 4.212 + 3.420 ¼ 2.763 .
12
14
Calcoliamo ora la dimensione ℓ della distribuzione di Student. Abbiamo:
σ̂∆ ¼
50.545
47.874 2
4.212 + 3.420)2
12
14
ℓ¼ ¼
¼ 23.83
50.545 2
47.874 2
(4.1212)2
(3.420)2
+
12
14
11
13
+
11
13
+
Siccome ℓ deve essere un intero, sembra naturale arrotondarlo assumendo cosı̀ ℓ = 23.
Di conseguenza, avendo la distribuzione di Student lo stesso numero di gradi di libertà
dell’esercizio precedente ed essendo σ̂∆ praticamente lo stesso, anche l’intervallo risulterà
praticamente lo stesso. Ciò è probabilmente dovuto a due fatti concomitanti: sia le varianze
che le dimensioni dei due campioni differiscono di poco.
3.8 STIMA DI UNA PROPORZIONE
Consideriamo una popolazione di elementi, ognuno dei quali può soddisfare oppure no,
indipendentemente uno dall’altro, un dato requisito. Si vuole stimare la proporzione
p dei membri della popolazione che posseggono il requisito in questione.
Considerato un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n, avremo
1
se l’i¡esimo elemento del campione ha il requisito
Xi =
0
se l’i¡esimo elemento del campione non ha il requisito .
n
Indicata quindi con Y = i=1 Xi la variabile casuale che denota quanti elementi
del campione posseggono il requisito, la statistica Y = Y /n dà la proporzione del
campione con il requisito. Questa statistica, chiamata proporzione del campione, è il
naturale stimatore per p. Essendo poi ciascuna Xi una variabile di Bernoulli, si ha
Xi ' B(1, p) e quindi E(Y ) = np , V ar(Y ) = n p q = n p (1 ¡ p).
In virtù del teorema di limite centrale, Y è approssimativamente normale con media
p e varianza p(1¡p)/n, ossia
p (1¡p) Y » N p,
.
n
Ciò, a sua volta, implica
Y ¡p
$
» N (0, 1) .
p(1¡p)/n
Volendo determinare un intervallo di fiducia per p di livello 1¡α, indicato
come al
α
α
solito con u 2 il quantile della normale standardizzata tale che Φ u 2 = 1 ¡ α2 , si ha
100
Y ¡p
P ¡u α2 · $
· u α2 ¼ 1 ¡ α ,
p(1 ¡ p)/n
da cui, isolando p nel mezzo della disuguaglianza, si ottiene
$
$
P Y ¡ u α2 p(1 ¡ p)/n · p · Y + u α2 p(1 ¡ p)/n ¼ 1 ¡ α .
Si è cosı̀ ottenuta una regione che contiene p con livello di fiducia 1¡ α. C’è però
un problema che incontriamo per la prima volta: gli estremi di un intervallo di fiducia debbono essere delle statistiche, cioè non debbono contenere alcun parametro
incognito. In questo caso gli estremi contengono infatti il parametro p, per cui ci
troviamo nell’anomala situazione di tentare di usare p per stimare p. Il problema
può però facilmente essere superato stimando p con con l’estimatore Y . Indicato
quindi con p̂ ´ y la stima puntuale di p ottenuta utilizzando Y , l’intervallo di fiducia
(approssimato) per p al livello 1¡α è il seguente:
$
$
p̂ ¡ u α2 p̂(1 ¡ p̂)/n , p̂ + u α2 p̂(1 ¡ p̂)/n .
Esercizio 3.8.1 Un campione di 100 transistor viene estratto da una grossa fornitura e testato. In tutto 80 pezzi hanno i requisiti adeguati. Si chiede di determinare gli intervalli di
fiducia di livelli 95% e 99% per la percentuale p di transistor accettabili.
I quantili della normale standardizzata che interessano sono i seguenti:
u0.025 ' 1.96 ,
u0.005 ' 2.57 .
Essendo n=100 e p̂=0.80, si ha
livello 95%
=)
livello 99%
=)
$
0.8 ¢ 0.2/100 , 0.80 + 1.96 0.8 ¢ 0.2/100]
$
$
p 2 [0.80 ¡ 2.57 0.8 ¢ 0.2/100 , 0.80 + 2.57 0.8 ¢ 0.2/100] .
p 2 [0.80 ¡ 1.96
$
Gli intervalli di fiducia richiesti sono dunque approssimativamente i seguenti:
livello 95%
livello 99%
=)
=)
p 2 [0.80 ¡ 0.0784 , 0.80 + 0.0784] = [0.7216 , 0.8784]
p 2 [0.80 ¡ 0.1028 , 0.80 + 0.1028] = [0.6972 , 0.9028] .
Esercizio 3.8.2 Un sondaggio su un giornale riporta che il 52% della popolazione, con un
margine d’errore di §4%, è soddisfatto dell’operato dell’amministrazione. Cosa significa
ciò? È possibile stabilire quante persone sono state intervistate?
È pratica comune per i mezzi d’informazione fornire intervalli di fiducia al 95%. Ciò premesso,
l’intervallo di fiducia in questione, essendo p̂=0.52 e u0.975 ' 1.96, ed essendo non nota la
dimensione del campione, è approssimativamente il seguente:
$
$
p̂ § 1.96 p̂(1 ¡ p̂)/n = 0.52 § 1.96 0.52 ¢ 0.48/n .
Siccome il margine d’errore è del 4%, ciò significa che
1.96
$
0.52 ¢ 0.48/n ¼ 0.04 ,
da cui, tenendo conto che n è intero, si ricava n ¼ 599 .
101
Un problema di un certo interesse concerne una stima della dimensione del campione
che permetta di ottenere un intervallo di fiducia per p al livello 1¡α non più ampio di
una lunghezza d assegnata. Il problema può presentarsi con queste due varianti: a)
è disponibile a priori una stima puntuale p̂; b) una tale stima non è disponibile.
Caso a).
L’ampiezza dell’intervallo di fiducia per p ha ampiezza
$
2 u α2 p̂(1 ¡ p̂)/n .
Si dovrà quindi avere
$
2 u α2 p̂(1 ¡ p̂)/n · d ,
da cui
4u2α
2
p̂(1 ¡ p̂) .
n ¸
d2
Caso b). Siccome la funzione p(1¡p) ha come valore massimo 14 (assunto per p= 12 ),
qualunque sia il valore di p, scegliendo
u2α
n = 22 ,
d
sarà sempre garantita un’ampiezza dell’intervallo non superiore a d.
Esercizio 3.8.3 Un’azienda produce circuiti integrati, ciascuno dei quali risulta accettabile
indipendentemente da tutti gli altri con probabilità incognita p. Si vuole ottenere un intervallo di fiducia per p ad un livello 99%, la cui ampiezza sia approssimativamente 0.05. Si
raccoglie allora un primo campione di 30 chip, 26 dei quali risultano accettabili, fornendo
una prima, grossolana, stima puntuale di p, data da p̂= 26
30 . Si chiede di determinare:
a) la dimensione n1 del campione che si ottiene utilizzando la stima p̂;
b) l’intervallo di fiducia utilizzando un campione di dimensione n1 ottenuto aggiungendo
n1 ¡30 chip a quelli già verificati (fissando a piacere il numero dei chip accettabili);
c) determinare la dimensione n2 del campione necessaria a garantire un’ampiezza non
superiore a 0.05 se non fosse stata determinata preventivamente p̂.
a) Essendo u0.005 ¼ 2.58, si ha
n1 =
4u2α
2
d2
p̂(1 ¡ p̂) ¼ 4
2.582 26 4
¼ 1231 .
0.052 30 30
b) Dobbiamo dunque testare altri 1201 chip. Fra questi supponiamo che 1040 siano accettabili. L’intervallo di fiducia che si ottiene è pertanto dato da
ovvero
1066
1066 165 1
§ 2.58
,
1231
1231 1231 1231
(0.8409, 0.8910) .
c) Se non avessimo predeterminato (seppur grossolanamente) p, la dimensione n2 del campione atta a garantire l’ampiezza richiesta per l’intervallo di fiducia sarebbe stata
n2 =
u2α
2
d2
¼
2.582
¼ 2663 .
0.052
Dunque, se non avessimo predeterminato una stima puntuale per p, per avere la certezza di
un intervallo di fiducia con l’ampiezza richiesta, avremmo dovuto adottare un campione di
dimensione più che doppia!
102
3.9 BASI LOGICHE DEI TEST
Ci poniamo questo problema: i tecnici di una ditta produttrice di nastri dichiarano di
aver messo a punto un nuovo trattamento per il materiale utilizzato tale da rendere più
resistente il nastro, portandone il carico di rottura a trazione a 80 N. Come valutare la
loro affermazione?
È chiaro che un qualunque controllo (test) va fatto su un campione e sulla base del
risultato si decide se la produzione deve continuare con le vecchie o con le nuove
tecniche di trattamento del materiale. Il processo decisionale scelto è il seguente: si
considera un campione casuale costituito di 49 nastri estratto dalla popolazione dei nastri
prodotti col nuovo trattamento e si sottopone ciascuno di questi 49 nastri alla prova di
rottura fatta con l’apposita attrezzatura. Se il carico di rottura medio osservato è inferiore
a 78.5 N, la nuova tecnica viene rifiutata, mentre se risulta maggiore si ritiene dimostrata
la maggior resistenza e quindi accettata la nuova tecnica.
Indicata con x la media campionaria misurata del campione, sono possibili i seguenti
4 casi:
1) x > 78.5N e il nuovo trattamento è effettivamente tale da rendere il nastro più
resistente. In questo caso l’accettazione della nuova tecnica è una scelta corretta.
2) x< 78.5N benchè il nuovo trattamento sia effettivamente tale da rendere il nastro
più resistente. In questo caso il rifiuto della nuova tecnica è una scelta sbagliata.
Questo tipo di errore è detto errore o rischio di I a specie.
3) x > 78.5N benchè il nuovo trattamento non sia effettivamente tale da rendere il
nastro più resistente. In questo caso l’accettazione della nuova tecnica è una scelta
sbagliata. Questo tipo di errore è detto errore o rischio di II a specie.
4) x < 78.5N e il nuovo trattamento non è effettivamente tale da rendere il nastro
più resistente. In questo caso il rifiuto della nuova tecnica è una scelta corretta.
Facendo delle ipotesi sulla distribuzione della popolazione e assumendo che la varianza
di questa distribuzione non cambi per effetto del nuovo trattamento, si possono valutare le probabilità degli errori di I a e II a specie.
Ipotizziamo dunque che nel problema considerato la distribuzione sia normale e che
si abbia σ 2 = 21.4N 2 . Ciò implica che la media campionaria X, relativa al nostro
campione di dimensione n=49,
abbia media µ=µ0 =80N (se i tecnici dicono il vero)
e deviazione standard σ =
21.4
49
' 0.661N .
103
Il rischio di errore di I a specie è rappresentato dall’area sottesa dalla curva normale a
sinistra del valore 78.5 N (vedi figura), il che equivale alla probabilità che X per n=49
sia minore di 78.5 N . Indicata di nuovo con Z la media campionaria standardizzata,
'
(
si ha
X
¡
µ
78.5 ¡ 80 78.5
¡
µ
p <
p
P [X < 78.5µ0 = 80] = P
=P Z<
'
σ/ n
σ/ n
0.661
' Φ(¡2.27) = 1 ¡ Φ(2.27) ' 0.012 .
Dunque, c’è una probabilità di poco superiore all’1% di commettere l’errore di I a
specie, cioè di rifiutare l’affermazione fatta quando questa è vera.
Volendo valutare il rischio di II a specie, occorre
supporre che il carico di rottura medio vero per
quel tipo di nastro non sia quello indicato dai
tecnici, ma un altro. Ipotizziamo dunque, ad
esempio, che sia 78 N anzichè 80 N . In questo
caso la media campionaria X avrebbe distribuzione normale con media µ = µ1 = 78. Supponendo che la deviazione standard rimanga la
stessa, la probabilità dell’errore di II a specie è
quella di avere delle medie di campioni di dimensione 49 maggiori di 78.5 N .
Calcoliamo tale probabilità, che è rappresentata dall’area evidenziata nella figura.
'
(
78.5 ¡ 78 X
¡
µ
78.5
¡
µ
p >
p
P [X > 78.5µ1 = 78] = P
=P Z>
'
0.661
σ/ n
σ/ n
' 1 ¡ Φ(0.756) ' 0.225 = 22.5% .
In definitiva, avendo stabilito quel criterio decisionale, siamo riusciti a quantificare i
rischi di errore, cioè le probabilità di scelte errate a seconda della situazione vera che
è e rimane ovviamente incognita. L’aver scelto una simile strategia per accettare o
rifiutare l’affermazione dei tecnici significa fare un test di ipotesi.
Rimane il dubbio che l’aver fissato il limite di 78.5 N per quelle medie campionarie
possa risultare troppo favorevole all’accettazione dell’affermazione fatta. Nella pratica,
dovendo decidere se accettare oppure no l’ipotesi che la media (incognita) di una data
popolazione abbia un dato valore, si procede nel modo seguente: si stabilisce il rischio α di
errore di I a specie ed in base ad esso si determina un intervallo; se la media campionaria
osservata cade esternamente a tale intervallo, l’ipotesi viene rifiutata. Nel caso specifico
visto in precedenza l’intervallo in questione è [78.5, +1) che corrisponderebbe, come
il calcolo fatto in precedenza mostra, ad un rischio α di I a specie circa uguale a 0.012.
Il criterio descritto, cosı̀ come formulato, è risolutivo solo nel caso di rifiuto. Se accettare o no l’ipotesi nel caso in cui la media osservata cada internamente all’intervallo,
dipende da chi deve prendere la decisione e dai suoi obiettivi. Ovviamente, come
nel caso del problema appena considerato, si può anche decidere di accettarlo immediatamente. Oppure si può decidere di fare ulteriori “verifiche” (ovviamente di
tipo statistico). Ad esempio, si può valutare anche il rischio di II a specie assumendo
come valore vero per la media campionaria un valore µ1 < µ0 e decidere in base alla
probabilità di tale rischio se accettare oppure no H0 . La scelta di un µ1 minore di µ0
104
è ovviamente legata al fatto che il rischio di una scelta sbagliata si ha solo nel caso in
cui il valore vero di µ è minore di µ0 .
3.10 FORMULAZIONE DI UN TEST DI IPOTESI
Molto spesso vengono formulate delle ipotesi di lavoro che riguardano un parametro
θ di una popolazione. Per decidere se accettare oppure respingere una tale ipotesi ci
si può servire dei risultati di un test statistico, che può essere formulato seguendo i
passi che seguono.
1) Definire l’ipotesi di lavoro, che chiameremo ipotesi nulla e indicheremo con H0 .
Nel caso più semplice, e più comune, ciò sarà fatto attribuendo al parametro θ un
valore θ0 : H0 : θ =θ0 .
Ad esempio, se il parametro sotto indagine è la media, si pone µ=µ0 , essendo µ0 un valore
prefissato; se invece il parametro è la varianza, si pone σ 2 = σ02 , con σ02 valore prefissato.
L’indagine potrebbe riguardare anche la differenza fra due medie µ1 e µ2 : in tal caso si
ipotizza che µ1 ¡µ2 =0, ossia che µ1 =µ2 . Si sono cosı̀ individuati tre possibili ipotesi nulle:
H0 : µ=µ0 ; H0 : σ 2 =σ02 ; H0 : µ1 =µ2 ). Nell’esempio del paragrafo precedente l’ipotesi
nulla è: H0 : µ=80 N .
In contrapposizione all’ipotesi nulla si può formulare un’ipotesi alternativa HA . Ad
esempio, ipotesi alternative per l’ipotesi nulla H0 : θ = θ0 sono le seguenti: HA : θ 6
=
θ0 ; HA : θ < θ0 ; HA : θ > θ0 . Se l’ipotesi nulla H0 è vera, automaticamente l’ipotesi
alternativa HA è falsa. Se accettiamo H0 , dobbiamo automaticamente rifiutare HA .
Nell’esempio del paragrafo precedente si ha HA : µ< 80 N .
2) Scegliere una statistica appropriata ed identificarne la distribuzione campionaria. Nell’esempio del paragrafo precedente si è assunto che la distribuzione delle medie
campionarie fosse normale.
3) Precisare il rischio α di errore di prima specie che si è disposti a correre (o
equivalentemente specificare il livello di fiducia 1¡α). Spesso la probabilità α di
commettere un errore di prima specie viene detta livello di significatività del test
(tanto più piccolo è α, tanto più è significativo il test). In molti casi la scelta di tale
livello non riveste solo aspetti statistici, ma sopratutto tecnici ed economici.
Livelli di significatività non troppo fini (cioè con valori di α abbastanza grandi) possono
portare a scelte che poi risultano errate, con conseguenze a volte disastrose. Si pensi, ad
esempio, ad una scelta di un nuovo medicinale a scapito di uno preesistente che si dimostra
sbagliata in quanto il nuovo, alla prova dei fatti, risulta meno efficace di quello che ha
sostituito, con conseguenze negative per la casa farmaceutica e, soprattutto, per i pazienti.
4) Precisare, se lo si ritiene opportuno, anche il massimo rischio di seconda specie
∗
. Osserviamo che in questo caso, come abbiamo
βmax per un’ipotesi alternativa HA
∗
visto nell’esempio del paragrafo precedente, HA
consiste nell’ipotizzare che il para∗
metro θ assuma un valore specifico θ all’interno dell’ipotesi HA di cui al punto 1).
5) Decidere la dimensione n del campione.
105
6) Determinare, in base a quanto precedentemente stabilito, la regione di accettazione dell’ipotesi nulla H0 . Tale regione, che indichiamo con A , deve essere tale
che
P θ 2 A = 1¡α.
In molti casi (fra cui l’importante caso θ = µ), essa viene determinata in modo che
risulti cosiffatta:

se HA : θ 6
= θ0 ;

 [θ0 ¡ δα , θ0 + δα ]
A=


[θ0 ¡ δα′ , +1)
(¡1 , θ0 + δα′′ ]
se HA : θ < θ0 ;
se HA : θ > θ0 .
Indicato poi con Θ l’insieme dei numeri reali sul quale il parametro θ assume i propri
valori, si chiama regione critica o di rifiuto la regione complementare di A rispetto
a Θ. Posto pertanto
R = Θ ¡ A,
ne consegue che, se un valore misurato θ̂ non sta in A, allora necessariamente sta in
R, e viceversa. Nel caso di ipotesi alternativa HA : θ 6
= θ0 si parla di test bilaterale e
la regione critica è detta a due code, mentre nel caso di HA : θ < θ0 oppure HA : θ > θ0
abbiamo un test unilaterale e una regione critica ad una coda.
7) Si estrae un campione della dimensione stabilita e con i valori osservati del
campione si determina la stima puntuale θ̂ del parametro. Si hanno quindi le seguenti
implicazioni:
θ̂ 2 R =) l’ipotesi nulla H0 viene rigettata
θ̂ 2 A =) l’ipotesi nulla H0 non può essere rigettata.
Osserviamo che, nel caso in cui θ̂ cade in R, il test è risolutivo in quanto l’ipotesi nulla
viene respinta in favore dell’ipotesi alternativa HA . Al contrario, se θ̂ cade in A, il
test non è risolutivo. In tal caso infatti esso ci dice che l’ipotesi nulla non può essere
rifiutata, la qual cosa non significa automatica accettazione: sta allo sperimentatore
decidere se accettare oppure no l’ipotesi nulla solo sulla base del fatto che non è stata
smentita al livello di fiducia 1¡α prefissato.
Volendo supportare l’accettazione di H0 con altri riscontri, lo sperimentatore può
procedere andando a valutare anche il rischio di II a specie per un’ipotesi alternativa
∗
HA
. Viene dunque calcolata la probabilità β di accettare come vera l’ipotesi H0
∗
quando, essendo vera HA
, essa è falsa:
∗
β = P θ 2 A j HA
.
Ebbene, supposto che lo sperimentatore abbia in precedenza fissato un βmax , se
β · βmax , ciò può costituire l’elemento risolutivo ai fini della decisione finale circa
l’accettazione o no dell’ipotesi nulla H0 .
La probabilità di rifiutare H0 quando H0 è falsa, che vale 1¡β, viene detta potenza
∗
∗
∗
del test. Sottoponendo il nostro test a diverse ipotesi alternative HA
, HA
, HA
,...,
1
2
3
si ottengono diversi valori di β: β1 , β2 , β3 ,..., che individuano una curva β = β(θ) ,
detta curva operativa caratteristica del test. Di questa riparleremo più avanti.
L’ideale sarebbe un test che minimizza contemporaneamente entrambi i rischi di I a
e II a specie, ma ciò è impossibile. Al decrescere dell’uno, l’altro cresce. Il solo modo
106
di abbassarli entrambi è aumentare la dimensione n del campione, e quindi, in parole
povere, spendere di più in prove ed analisi dei risultati.
Va comunque notato che, indipendentemente da come si opera, un errore è sempre
possibile. Ogni volta che H0 viene rifiutata, può aver luogo un errore di I specie; ogni
volta che H0 non viene rifiutata, può verificarsi un errore di II specie. Non c’è alcun
modo di evitare questo dilemma. Il mestiere dello statistico è quello di adottare metodi
per decidere se rifiutare oppure no l’ipotesi H0 che mantengono ragionevolmente piccole
le probabilità di fare l’uno o l’altro errore.
Considerazioni sulla scelta di H0 e HA
Diversamente da quanto assunto nella definizione dei passi utili alla formulazione di un
test, molto spesso l’interesse reale suggerirebbe un’ipotesi nulla basata su una disuguaglianza: H0 : θ · θ0 (oppure H0 : θ ¸ θ0 ), con conseguente ipotesi alternativa
HA : θ > θ0 ) (oppure HA : θ < θ0 ). Nel linguaggio proprio della statistica si parla di
ipotesi nulla semplice o composta a seconda che H0 esprima un’uguaglianza o una
disuguaglianza.
Poiché con H0 composta la trattazione matematica del problema risulta assai più
complicata, nel seguito considereremo sempre ipotesi nulle semplici. A questo proposito occorre osservare che se, ad esempio, l’ipotesi nulla fosse H0 : θ · θ0 (ovviamente
in contrapposizione a HA : θ > θ0 ), essa può essere ragionevolmente sostituita da
H0 : θ = θ0 sulla base delle considerazioni che seguono. L’esecuzione del test porta a
rigettatare H0 se la stima puntuale θ̂ del parametro θ risulta maggiore di un certo
θ1 a sua volta maggiore di θ0 . Più semplicemente: H0 viene rigettata se θ̂ è “abbastanza più grande” di θ0 . Di norma, se ciò porta a rigettare l’ipotesi nulla θ = θ0 , a
maggior ragione si deve rifiutare ogni ipotesi θ =θ∗ con θ ∗ < θ0 , e quindi l’ipotesi nulla
composta H0 : θ · θ0 . Diverso è il discorso nel caso in cui il test porti all’accettazione
di H0 : θ = θ0 : ciò non comporta affatto l’accettazione di H0 : θ · θ0 . (Nell’esempio
3.11.2 si mostra come si può procedere con un’ipotesi nulla composta).
Un fatto significativo che probabilmente non è emerso da quanto detto finora è il
seguente. Uno sperimentatore quando compie un test tende ad avvalorare un’ipotesi
di lavoro che in generale si traduce in una relazione di disuguaglianza. Ebbene,
questa relazione può essere assunta sia come ipotesi nulla H0 (composta) sia come
ipotesi alternativa HA . In altre parole, un’ipotesi nulla H0 composta e la sua ipotesi
alternativa sono intercambiabili. Anzi, spesso l’ipotesi da avvalorare viene assunta come
ipotesi alternativa HA con l’obiettivo di avvalorarla rigettando H0 . Di qui si può quindi
capire come, per uno stesso problema, la scelta delle due ipotesi, quella nulla e quella
alternativa, possono essere diverse a seconda degli interessi di chi esegue il test.
Quando l’ipotesi nulla è semplice, ovviamente essa non può essere scambiata con
l’ipotesi alternativa. Anche in questo caso però gli interessi di chi effettua il test
possono portare a scegliere un’ipotesi alternativa piuttosto che un’altra. L’esempio
che segue chiarirà, se ce ne fosse bisogno, quanto appena affermato.
Esempio 3.10.1 Un dato vino è in vendita in bottiglie contenenti, sulla base di quanto dichiarato dall’etichetta, 720 millilitri. Si vuole verificare che l’effettivo contenuto corrisponda
a quanto dichiarato mediante un test d’ipotesi di livello di fiducia 1¡α.
107
In questo problema il parametro θ che interessa è la media della variabile casuale X che
rappresenta la quantità di vino contenuto in una bottiglia. Si ha dunque θ = µ e l’ipotesi
nulla è H0 : µ = 720 . Le possibili ipotesi alternative sono pertanto HA : µ 6
= 720 oppure
HA : µ< 720 oppure HA : µ> 720 .
Supponiamo che sia un’associazione di consumatori ad effettuare il test. In questo caso c’è
tutto l’interesse a evidenziare un eventuale riempimento delle bottiglie per difetto. Viene
dunque scelta l’ipotesi alternativa HA : µ < 720. L’ipotesi nulla sarà da rigettare in favore
di HA nel caso in cui la stima puntuale µ̂ della media calcolata mediante i valori osservati
del campione non cada internamente alla regione di accettazione A, cioè se
µ̂ 2
/ [720 ¡ δα′ , +1) .
Supponiamo ora che sia il produttore ad effettuare il test di verifica. Quale ipotesi alternativa sceglierà? Certamente non sceglierà HA : µ < 720, perchè se cosı̀ facesse potrebbe
avvalorare l’ipotesi che egli mette nelle bottiglie meno vino di quanto dichiara. D’altra parte,
se l’ipotesi alternativa scelta fosse HA : µ> 720, potrebbe apparire un pò troppo sfacciato.
Non rimane dunque che la scelta ”neutra” HA : µ 6
= 720. Tenendo conto della struttura di
A, H0 verrebbe rigettata in favore di HA se
Dovendo essere
µ̂ 2
/ [720 ¡ δα , 720 + δα ] .
P µ 2 [720 ¡ δα , 720 + δα ] =P µ 2 [720 ¡ δα′ , +1) =1 ¡ α ,
′
è evidente che δα
< δα . Di conseguenza, dando per scontato che il produttore sia stato molto
attento a non riempire troppo le bottiglie, è certamente più probabile che sia il test effettuato
dall’associazione dei consumatori a smentire l’ipotesi nulla piuttosto che il test fatto dal
produttore stesso. Osserviamo che il rifiuto di H0 nel test dell’associazione confermerebbe
l’eventuale sospetto di una quantità di vino minore di quanto dichiarato.
3.11 TEST DI SIGNIFICATIVITÀ
Esiste un altro metodo, un pò più sbrigativo, per decidere se accettare o no l’ipotesi
nulla H0 . Tale metodo, che è detto test di significatività, sta diventando di uso
sempre più ampio, anche in virtù dell’uso crescente di pacchetti software nell’analisi
di dati statistici.
Indicata con T la statistica del test, il metodo in questione consiste nell’osservare dal
campione casuale il valore numerico t̂ di T e nel determinare quindi la probabilità che
T assuma un valore che ”eccede” t̂, supposta vera l’ipotesi nulla. Il significato preciso
di ”eccede” dipende dal tipo di test. Nel caso di test unilaterale la probabilità p da
determinare è la seguente:
se HA : θ > θ0 ,
p = P T ¸ t̂ H0
se HA : θ < θ0 .
p = P T · t̂ H0
Se invece il test è bilaterale simmetrico, cioè basato su una statistica T con una
distribuzione simmetrica (come Z e Tn ), allora la probabilità p è data da
p = 2 P T ¸ jt̂j H0
se HA : θ 6
= θ0 .
108
Al numero p ci si riferisce con diversi nomi; i più comuni sono valore p o p-dei-dati.
Come risulterà evidente dagli esempi proposti nel seguito, se si eseguisse un test
di ipotesi con livello di significatività α, se α < p, il valore osservato θ̂ cadrebbe
internamente alla regione di accettazione e H0 non potrebbe essere rigettata; d’altra
parte, se α> p, θ̂ cadrebbe esternamente e l’ipotesi nulla sarebbe da rigettare. Questa
considerazione suggerisce la seguente definizione di carattere generale:
Definizione Si chiama valore p (o p-dei-dati) il minimo α per cui l’ipotesi nulla
deve essere rigettata con un test d’ipotesi di livello di fiducia 1¡α.
Esempio 3.11.1
Ingegneri addetti alla costruzione di automobili stanno usando sempre
più l’alluminio nella speranza di ridurre il costo delle auto e aumentare il numero di miglia
percorse con un gallone di benzina. Per un particolare modello di auto, il numero medio
di miglia su autostrada ottenuto per gallone è 26 con una deviazione standard σ = 5mpg.
Si spera che un nuovo design, che utilizza più alluminio, incrementi la media, dando per
scontato che σ non cambi. Gli ingegneri, volendo testare la loro ipotesi, eseguono un test di
significatività nel modo seguente.
H0 : µ · 26 ,
HA : µ > 26 .
Assunta naturalmente come statistica del test la media campionaria X , si concorda di rifiutare l’ipotesi H0 in favore di HA se il valore osservato x di X risulterà ”alquanto maggiore”
Si assumono le seguenti ipotesi:
di 26. Con ”alquanto maggiore” intendiamo troppo grande perchè ciò possa essere avvenuto
solo per caso se il valore medio vero è ancora 26.
Da un test con un campione di 36 dati risulta una media x = 28.04 mpg. Per vedere se x
è abbastanza più grande di 26 da poter rigettare H0 , calcoliamo il valore p del test, cioè
calcoliamo la probabilità di osservare un valore di X maggiore od uguale a 28.04 se µ=26 e
σ =5. In virtù del teorema di limite centrale lo stimatore
p X è (almeno) approssimativamente
normale con media µ=26 e deviazione standard σ/ n=5/6. Si ha quindi
p = P (X ¸ 28.04 j µ=26 , σ =5) = P
X ¡ 26
28.04 ¡ 26 ¸
=
5/6
5/6
¼ P [Z ¸ 2.45] = 1 ¡ P [Z · 2.45] ¼ 1 ¡ 0.9929 = 0.0071 .
La probabilità che X assuma un valore maggiore di 28.04 è dunque molto piccola. Ci sono
due possibili spiegazioni per questo fatto. O l’ipotesi nulla è vera e noi abbiamo osservato
un campione veramente raro che per caso ha una media grande, oppure l’ipotesi nulla è
falsa e il nuovo processo di costruzione delle auto ha effettivamente portato ad un aumento
delle miglia percorse per gallone di benzina. La seconda spiegazione è di gran lunga quella
più ragionevole! Infatti il valore p trovato rappresenta la probabilità dell’errore di I specie
che si commette rifiutando H0 a favore di HA quando si assume come regione di rifiuto
R = [28.04 , +1). E nel caso specifico p è minore dell’1%.
L’esempio proposto permette di capire meglio il significato del valore p. Più piccolo è
p, più fortemente il test suggerisce il rigetto dell’ipotesi nulla a favore di quella alternativa.
109
3.12 TEST RIGUARDANTI LA MEDIA DI UNA POPOLAZIONE
NORMALE
Tratteremo ora i test riguardanti la media affrontando dapprima il caso in cui la
varianza è nota e poi il caso in cui è incognita.
a) Test nel caso di varianza nota
Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da
una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una
popolazione di media µ = µ0 , usiamo la statistica Z ' N (0, 1) che si ottiene, come
abbiamo già visto, normalizzando la media campionaria X, ossia
X ¡ µ0 p
Z=
n,
σ
dove σ 2 è la varianza della popolazione che assumiamo nota.
Il problema è quello di testare l’ipotesi nulla H0 : µ = µ0 contro l’ipotesi alternativa
HA : µ6
= µ0 : l’ipotesi nulla è da rifiutare se il valore osservato di Z è “troppo grande”
o “troppo piccolo”, dove “troppo grande” e “troppo piccolo” sono quantificati dal
valore del rischio di prima specie che si intende correre. Più precisamente, fissata
uguale ad α la probabilità di tale rischio, e indicato con u α2 il quantile soluzione
dell’equazione
α
Φ(u) = 1 ¡ ,
2
per il rischio di errore di prima specie si ha
P
X ¡ µ p
X ¡ µ p
0
0
=P
= α.
Z < ¡u α2 [ Z > u α2
n < ¡u α2 [
n > u α2
σ
σ
Questa formula esprime la probabilità di rifiutare l’ipotesi nulla H0 : µ = µ0 quando
essa è vera. Pertanto la regione di rifiuto per questo test bilaterale è costituita da
tutti i valori di Z (o equivalentemente di X) per cui
X ¡ µ p 0
Z < u α
ossia
n < u α2 .
2
σ
Risolvendo rispetto a X si ottiene
σ
X < µ0 ¡ p u α2
n
Posto
oppure
σ
x1 = µ0 ¡ p u α2 ,
n
σ
X > µ0 + p u α2 .
n
σ
x2 = µ0 + p u α2 ,
n
abbiamo dunque determinato l’intervallo [x1 , x2 ], detto intervallo di accettazione. Se
il valore osservato x di X cade esternamente ad esso, l’ipotesi nulla H0 : µ=µ0 sarà
da rifiutare in favore dell’ipotesi alternativa HA : µ 6
= µ0 . Se invece x 2 [x1 , x2 ],
allora l’ipotesi nulla non sarà da rifiutare, il che non equivale a dire che sia da
accettare (come nell’esempio introduttivo del x 3.9).
110
Oltre al test bilaterale, esiste la possibilità di eseguire anche dei test unilaterali a
seconda di esigenze tecniche specifiche. In questo caso si possono avere due ipotesi
alternative: HA : µ< µ0 oppure HA : µ> µ0 . Indicato con uα il quantile soluzione
dell’equazione
Φ(u) = 1 ¡ α,
valgono le seguenti relazioni:
'
(
X ¡ µ0 p
P Z < ¡uα = P
n < ¡uα = α ;
σ
'
(
X ¡ µ0 p
P Z > +uα = P
n > +uα = α .
σ
Posto quindi
σ
σ
ξ1 = µ0 ¡ p uα ,
ξ2 = µ0 + p uα ,
n
n
le due precedenti probabilità diventano
P (X < ξ1 ) = α ;
P (X > ξ2 ) = α .
La prima delle due probabilità ci assicura che, nel caso HA : µ < µ0 , se rigettiamo
l’ipotesi nulla a favore di quella alternativa quando il valore di x è minore di ξ1 ,
l’errore di I a specie commesso è uguale ad α. La seconda probabilità ci garantisce
invece un errore dello stessa entità nel caso si rifiuti l’ipotesi nulla a favore dell’ipotesi
alternativa HA : µ > µ0 se la media calcolata x risulta maggiore di ξ2 .
Pertanto, nel caso di test unilaterale per la media (nota la varianza) si procede nel
modo seguente: nel caso HA : µ < µ0 , l’ipotesi H0 si rigetta se x < ξ1 ; nel caso
HA : µ > µ0 , H0 si rigetta se x > ξ2 .
La tabella che segue riassume i casi considerati.
111
Osservazione. Gli intervalli di accettazione [x1 , x2 ] (nel caso di test bilaterale),
[ξ1 , +1) e (¡1 , ξ2 ] (nel caso di test unilaterale) sono espressi nell’unità di misura
dei dati del campione. Se la media osservata vi cade dentro, allora l’ipotesi nulla non
può essere rigettata. Le conclusioni del test possono però essere tratte, in maniera
più immediata, anche utilizzando la media osservata “standardizzata”, vale a dire
x ¡ µ0 p
z=
n.
σ
Se questa cade all’interno dell’intervallo di accettazione per Z, allora l’ipotesi nulla
non può essere rigettata. Per quanto detto precedentemente gli intervalli di accettazione di Z, che per comodità chiameremo “intervalli standardizzati”, sono i seguenti:
[¡u α2 , u α2 ]
se
H A : µ = µ0 ;
[¡uα , +1)
se
HA : µ < µ0 ;
(¡1 , +uα ]
se
HA : µ > µ0 .
b) Test nel caso di varianza incognita (test t)
Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da
una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una
popolazione di media µ = µ0 , si usa la statistica Tn−1 , cioè
X ¡ µ0 p
Tn−1 =
n,
S
con S varianza campionaria. Come già sappiamo, questa variabile casuale segue la
distribuzione di Student con n¡1 gradi di libertà. In questo caso il test viene spesso
indicato come test t.
Volendo testare l’ipotesi nulla H0 : µ=µ0 in contrapposizione con l’ipotesi alternativa
HA : µ 6
= µ0 , in analogia con quanto appena fatto nel caso di varianza nota, fissata
uguale ad α la probabilità del rischio di prima specie, si ha
α
α
P Tn−1 < ¡t 2 [ Tn−1 > t 2 =
'
( '
(
X ¡ µ0 p
X ¡ µ0 p
=P
n < ¡t α2 [
n > t α2
= α,
S
S
con t α2 soluzione dell’equazione
α
.
2
Di conseguenza la regione aleatoria di rifiuto della ipotesi nulla diventa
Tn−1 (t) = 1 ¡
S
X < µ0 ¡ p t α2
n
oppure
S
X > µ0 + p t α2 .
n
Eseguito l’esperimento e indicato come in precedenza con σ̂ il valore osservato di S,
risulta dunque determinato il seguente intervallo di accettazione:
σ̂
σ̂
[x1 , x2 ] = µ0 ¡ p t α2 , µ0 + p t α2 .
n
n
112
Se il valore osservato x di X cade esternamente a questo intervallo, l’ipotesi nulla
H0 : µ = µ0 è da rifiutare in favore dell’ipotesi alternativa HA : µ 6
= µ0 . Se invece
x 2 [x1 , x2 ], allora l’ipotesi nulla non potrà essere rifiutata.
Quando l’ipotesi alternativa è HA : µ< µ0 oppure HA : µ> µ0 , si deve eseguire un test
unilaterale. In tal caso, indicata con tα la soluzione dell’equazione: Tn−1 (t) = 1¡α ,
posto
σ̂
σ̂
ξ1 = µ0 ¡ p tα ,
ξ 2 = µ 0 + p tα ,
n
n
si ha
P (X > ξ2 ) = α .
P (X < ξ1 ) = α ;
La prima delle due probabilità ci suggerisce di rifiutare l’ipotesi nulla H0 a favore
dell’ipotesi alternativa HA : µ< µ0 se la media x, calcolata approssimando σ con σ̂,
risulta minore di ξ1 ; a sua volta la seconda probabilità suggerisce, nel caso HA : µ >
µ0 , di rifiutare H0 se si ha x > ξ2 . Quanto affermato può essere sintetizzato dicendo
che, nel caso di test unilaterale, gli intervalli di accettazione sono:
[ξ1 , +1)
se
HA : µ < µ0 ;
(¡1 , ξ2 ]
se HA : µ > µ0 .
La tabella data in precedenza per il caso “varianza nota” rimane quindi valida anche
nel caso “varianza incognita” fatto salvo il fatto che ora l’intervallo [x1 , x2 ] e i valori
ξ1 e ξ2 sono calcolati utilizzando i quantili della distribuzione di Student (ad N¡1
gradi di libertà) anzichè quelli della normale standardizzata.
Osservazione. Analogamente a quanto osservato in precedenza nel caso di varianza
nota, le conclusioni del test ora proposto possono essere tratte in maniera più immediata ragionando direttamente sugli intervalli di accettazione per Tn−1 , che anche in
questo caso chiameremo “intervalli standardizzati”:
[¡t α2 , t α2 ]
se
HA : µ = µ0 ;
[¡tα , +1)
(¡1 , +tα ]
se
se
HA : µ < µ0 ;
HA : µ > µ0 .
Se il valore osservato della statistica Tn−1 , cioè
x ¡ µ0 p
t=
n,
σ̂
cade esternamente all’intervallo di accettazione standardizzato, l’ipotesi nulla è da
rigettare.
Esempio 3.12.1 Si supponga di avere un campione di 200 cambi per autovetture, supposti
provenire da una popolazione distribuita normalmente avente σ = 3250 Km. a) Possiamo
assumere con un rischio di prima specie pari al 5% che la durata media della popolazione
costituita da tutti i cambi di quel tipo sia di 44800 Km, se la durata media del campione
analizzato è stata di 44500 Km ? b) Calcolare il valore p.
a) Omettendo l’unità di misura (il Km), i dati che abbiamo sono i seguenti:
n = 200 ,
x = 44500
µ0 = 44800 ,
113
σ = 3250 .
Seguiamo ora la procedura indicata precedentemente passo per passo:
1.
I dati del campione sono assunti come provenienti da una popolazione normale (o
approssimativamente tale) con varianza nota σ 2 .
2.
L’ipotesi nulla è H0 : µ=µ0 =44800 contro l’ipotesi alternativa HA : µ6
= µ0 .
3.
La statistica da testare è:
4.
Il rischio α di prima specie per questo test bilaterale è uguale al 5%.
5.
Dalle tavole della normale standard ricaviamo: u α2 = u0.025 ¼ 1.96.
Z=
X ¡ µ0
X ¡ 44800
p '
.
σ/ n
230
X 2
/ [x1 , x2 ], con x1 = µ0 ¡ δ e x2 = µ0 + δ . Essendo
σ
δ = p u α2 =230¢1.96 ¼ 450 , tale regione corrisponde a
n
6.
La regione di rifiuto è:
X2
/ [44350 , 45250] .
Poichè il valore calcolato di X , cioè x, vale 44500, e quindi è interno a questo intervallo,
l’ipotesi nulla non può essere rigettata.
6’. La regione di rifiuto può essere espressa in modo più immediato in forma “standardizzata”, nel qual caso è data da:
jZj > u α2 = u0.025 ¼ 1.96. Standardizzando quindi il
valore osservato di X , si ottiene
z=
44500 ¡ 44800
x ¡ µ0
p =
¼ ¡1.305 .
σ/ n
230
Essendo jzj < 1.96, come in precedenza arriviamo alla conclusione che l’ipotesi nulla non
può essere rifiutata.
Osservazione. Se avessimo avuto x = 44300, l’ipotesi nulla, per la quale la durata media
della popolazione costituita dai cambi è 44800 Km, sarebbe stata da respingere a favore
= 44800 km.
dell’ipotesi alternativa HA : µ6
p = 2 P (Z ¸ jzj) = 2P (Z ¸ 1.305) = 2 1¡ P (Z · 1.305) ¼ 2(1 ¡ 0.904) = 0.192 .
Essendo p assai grande, risulta significativamente confermata la ”non rigettabilità” di H0 .
b)
Esempio 3.12.2
Riprendiamo l’esempio 3.5.2. I consumi di un motore sperimentale registrati durante 8 prove, per 100 Km di percorrenza, sono stati: 14, 12, 11, 13, 15, 12, 16, 13.
Possiamo affermare che il consumo medio di benzina per quel tipo di motore non supera 12
litri per ogni 100 Km di percorrenza con un livello di significatività α=0.01 ?
Come abbiamo già visto nell’esempio 3.5.2, dai dati rilevati nelle prove si ottiene
σ̂ ¼ 1.67 .
x = 13.25 ;
La procedura da seguire è la seguente:
1.
I dati del campione sono assunti come provenienti da una popolazione normale (o
approssimativamente tale) con varianza incognita.
2. L’ipotesi nulla corretta sarebbe H0 : µ · 12 contro l’ipotesi alternativa HA : µ > 12.
Questo caso tuttavia, avendo a che fare con un’ipotesi nulla composta sarebbe di difficile
trattazione. Conviene pertanto assumere l’ipotesi nulla semplice H0 : µ = µ0 = 12 e
ragionare poi sui risultati ottenuti per trarre conclusioni sull’ipotesi nulla composta.
114
X ¡ µ0 p
X ¡ 12 p
n=
8.
S
S
4. Il rischio di prima specie che siamo disposti a correre è: α = 1%.
3.
La statistica da testare è:
5.
La regione di rifiuto è:
T7 =
T7 > tα = t0.01 ¼ 2.998, da cui
σ̂
1.67
X > ξ2 = µ0 + p tα = 12 + p ¢2.998 ¼ 12 + 1.77 = 13.77 .
n
8
6. Essendo x (valore calcolato di X ) uguale a 13.25, l’ipotesi nulla H0 : µ = 12 non può
essere rigettata con un errore di prima specie dell’1%.
6’.
Il valore della statistica Tn−1 osservato dal campione vale:
x ¡ µ0 p
13.25 ¡ 12 p
n=
8 ' 2.117 .
σ̂
1.67
Essendo t minore di t0.01 =2.998, l’ipotesi nulla H0 : µ=12 non può essere rigettata.
t=
7. Consideriamo ora il caso in cui l’ipotesi nulla è composta, cioè H0 : µ· 12. Osserviamo
innanzitutto che il valore ξ2 della relazione di cui al punto 5) può scriversi in funzione di µ0 :
ξ2 (µ0 ) ¼ µ0 + 1.77 .
Ciò premesso, si può ragionare in questo modo: ogni ipotesi nulla semplice H0 : µ=µ∗ con
µ∗ < 12 non potrà essere rifiutata per ogni µ∗ tale che
X < ξ2 (µ∗ ) ¼ µ∗ + 1.77 ,
ossia
µ∗ > X ¡ 1.77 .
Tenendo conto del fatto che il valore osservato di X è x = 13.25, ne consegue che l’ipotesi
nulla semplice H0 : µ=µ∗ , contrapposta all’ipotesi alternativa HA : µ> 12, non può essere
rifiutata con un errore di prima specie dell’1% per
µ∗ 2 [13.25 ¡ 1.77 , 12] = [11.48 , 12].
Al contrario, se avessimo avuto H0 : µ=11.4, doveva essere rifiutata in favore di HA .
Esempio 3.12.3
In una clinica si vuole sperimentare un nuovo farmaco che dovrebbe servire
per ridurre il tasso di colesterolo nel sangue. A tal fine vengono cercati 50 volontari tra quei
pazienti che hanno un livello di colesterolo medio-alto (cioè maggiore di 220), e a ciascuno
viene somministrato il farmaco per un mese. Alla fine si riscontra una riduzione media di
14.8, con una deviazione standard campionaria di 6.4. Verificare, se è possibile, che tale
riduzione è dovuta esclusivamente ad un fatto fortuito.
Se la riduzione è totalmente fortuita, le variazioni riscontrate sono distribuite normalmente
con media nulla. Testiamo dunque l’ipotesi nulla H0 : µ=µ0 =0 contro l’ipotesi alternativa
= 0. Procediamo rapidamente senza seguire passo per passo la procedura.
HA : µ6
I dati sono i seguenti:
n=50 ,
x=14.8 ,
σ̂ =6.4 ,
µ0 =0 .
Sappiamo che l’intervallo
di fiducia bilaterale al livello 1¡α, espresso in forma standardizzata,
è dato da ¡t α2 , +t α2 . Il problema è che nessun α è assegnato. Tuttavia, se si calcola la
media standardizzata utilizzando la deviazione standard campionaria puntuale, si ottiene
t=
x ¡ µ0 p
14.8 p
n=
50 ¼ 16.35 .
σ̂
6.4
Dalla tabella dei quantili della legge di Student (non essendo riportato n=49 basta guardare
T50 ), si vede subito che t è esterno all’intervallo di fiducia per qualunque ragionevole livello
115
di significatività α. Dunque, in ogni caso, l’ipotesi nulla deve essere rigettata, il che esclude
che la riduzione di colesterolo sia un fatto puramente fortuito.
L’esempio che segue è storico; esso riprende esperimenti eseguiti da Student per confrontare le tecniche di trattamento dell’orzo utilizzate nella preparazione della birra,
più precisamente per valutare gli effetti dell’essicazione in forno prima della semina. A
parte l’interesse storico, esso risulta utile ad illustrare come il problema di avvalorare
oppure no una tesi di lavoro possa essere affrontato in due modi diversi, il primo “neutrale” rispetto alla scelta che il test potrà suggerire, il secondo invece “sbilanciato” in
favore dell’accettazione dell’ipotesi di lavoro.
Esempio 3.12.4
Sono oggetto di indagine 11 varietà d’orzo; per ciascuna si riporta la
differenza di redditività fra la variante essicata e quella non essicata, misurata in libbre per
acro:
di : +106
¡20
+101
¡33
¡36
+72
+62
+38
¡70
+127
+24
Supposto che la differenza di redditività abbia una distribuzione normale (di varianza incognita), si chiede di verificare l’ipotesi nulla H0 : µ = µ0 = 0, secondo la quale l’essicazione
preliminare non avrebbe nessun effetto.
Affronteremo il problema in due modi diversi: a) assumendo come ipotesi alternativa HA :
µ6
= 0; b) assumendo come ipotesi alternativa HA : µ > 0. In ciascun caso lo faremo per
α=10% , α=5% e α=1% . Essendo la varianza incognita, dovremo utilizzare la statistica
di Student a 10 gradi di libertà (essendo n=11). È facile verificare che i dati del campione
hanno media x ¼ 33.7 e scarto quadratico medio σ̂ ¼ 66.2.
Derogando per semplicità dalla regola di svolgere l’esercizio seguendo passo per passo seguendo la procedura data per un test, si ha:
a) Essendo HA : µ6
= 0, il test è bilaterale. La regione di accettazione è data da
66.2
σ̂
σ̂
66.2 µ0 ¡ p t α2 , µ0 + p t α2 = ¡ p t α2 , p t α2 = ¡19.95 t α2 , 19.95 t α2 .
n
n
11
11
Ora, essendo
t0.05 = 1.812 ,
t0.025 = 2.228 ,
t0.005 = 3.169 ,
le regioni di accettazione, nell’unità di misura dei dati del campione, sono
per α = 0.10
per α = 0.05
per α = 0.01
)
)
)
[¡36.15 , 36.15] ;
[¡44.54 , 44.54] ;
[¡63.35 , 63.35] .
Essendo x = 33.7, l’ipotesi nulla non può essere rigettata per nessuno dei tre livelli di
significatività presi in considerazione.
Invece di determinare le regioni di accettazione nell’unità di misura dei dati del campione e
verificare quindi se la media osservata x cadeva oppure no internamente a queste, avremmo
potuto, in maniera più rapida, ottenere t standardizzando x e verificare se jtj < t α2 oppure
jtj¸ t α2 . In questo modo si sarebbe ottenuto
t=
x ¡ µ0 p
33.7 p
n=
11 ¼ 1.688 ,
σ̂
66.2
116
che risulta all’interno dell’intervallo di accettazione ¡ t α2 , t α2 per tutti tre i valori di α
considerati. Abbiamo cosı̀ trovato conferma del fatto che per nessuno dei tre livelli di fiducia
l’ipotesi nulla è rigettabile.
Il test fatto non smentisce l’ipotesi di lavoro µ = 0: ciò indirizza verso la conclusione che
l’essicazione pre-semina sia inutile.
Ora affrontiamo il problema in maniera più filologica: l’ipotesi alternativa sia HA :
µ > 0, il che esclude a priori che possa essere µ< 0 (Student era sicuro che l’essicazione era
b)
vantaggiosa). Il test è unilaterale. La regione di accettazione è data da
Essendo
σ̂
66.2 ¡1 , µ0 + p tα = ¡1 , p tα = ¡1 , 19.95 tα .
n
11
t0.10 = 1.372 ,
t0.05 = 1.812 ,
t0.01 = 2.764 ,
le regioni di accettazione sono
per α = 0.10
per α = 0.05
per α = 0.01
)
)
)
(¡1 , 27.37] ;
(¡1 , 36.15] ;
(¡1 , 55.14] .
La media calcolata, che vale 33.7, cade internamente alla zona di rifiuto relativa ad α =
0.10 ed esternamente a quelle relative agli altri due livelli di significatività. Ora pertanto,
diversamente dal caso a), per α = 10% l’ipotesi nulla è da rigettare in favore dell’ipotesi
alternativa (che rappresenta quanto desiderato da Student).
Ovviamente si giunge alle stesse conclusioni anche ragionando con gli intervalli di fiducia
espressi attraverso la media standardizzata e quindi, essendo la varianza incognita, attraverso
i quantili della distribuzione di Student. Nel caso di test unilaterale, con ipotesi alternativa
HA : µ> µ0 , la regione di accettazione è data da (¡1, tα ]. Essendo t=1.688, esso risulta
maggiore di t0.10 e minore di t0.05 e t0.01 , col che ritorniamo (ovviamente) alle conclusioni
precedenti.
Dunque, passando da un test bilaterale ad uno unilaterale, e con un alto livello di significatività (in realtà basso), il test può portare a conclusioni più favorevoli ai propri desideri.
Questo esempio mostra che impostando il test in un modo o in un altro si possono anche
assumere posizioni non del tutto imparziali rispetto alle ipotesi da rifiutare o avvalorare.
A titolo d’esercizio si può andare a calcolare il valore p del test. Chiaramente, essendo
p il minimo α per cui l’ipotesi nulla deve essere rigettata, e sapendo già che al livello di
significatività α = 0.1 H0 deve essere rigettata, mentre non può esserlo per α = 0.05,
dovremo trovare un valore di p compreso fra 0.05 e 0.1. Nel caso in questione per definizione
si ha: p = 1 ¡ P (T10 · t). Utilizzando un opportuno software contenente le funzioni
distribuzione più significative, indicata con t10 (x) la funzione distribuzione di T10 , si ricava
t10 (1.688) ¼ 0.939 ,
e quindi
p ¼ 0.061 .
Se avessimo calcolato il valore p anche nel caso del test bilaterale, avremmo avuto
p = 2 1¡P (T10 · t = 2 1 ¡ t10 (1.688) ¼ 0.122 ,
con conferma della non rigettabilità di H0 per tutti tre i livelli di significatività considerati.
117
3.13 TEST RIGUARDANTI LA DIFFERENZA DELLE MEDIE
DI DUE POPOLAZIONI NORMALI
Una situazione che si presenta frequentemente nella statistica applicata all’ingegneria
è quella per cui occorre decidere se due diversi approcci allo stesso problema hanno
portato allo stesso risultato oppure no. Una tale problematica viene spesso affrontata
mediante un test dell’ipotesi che due popolazioni normali abbiano la stessa media.
Ciò considerando, l’argomento sarà trattato in analogia con il x 3.7 e sfruttando le
nozioni ivi introdotte.
Siano dunque (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ) due campioni casuali indipendenti,
di dimensioni n ed m rispettivamente, estratti da due popolazioni normali con media
µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Come abbiamo visto
nel paragrafo appena citato, il miglior estimatore per la differenza delle medie µ1¡µ2
è il seguente:
n
m
1
1 X ¡Y =
Xi ¡
Yi .
n i=1
m i=1
Caso a)
Le varianze σ12 e σ22 sono note
Si vuole eseguire un test d’ipotesi con
H0 : µ1 =µ2 ,
HA : µ1 6
= µ2 .
Riscritta l’ipotesi nulla come H0 : µ1 ¡µ2 , essa verrà rigettata quando la differenza
X ¡Y è lontana da zero. In altre parole, la forma del test è la seguente:
se jX¡Y j > c
se jX¡Y j · c
si rifiuta H0
non si rifiuta H0
per un opportuno valore di c. Dal x 3.7 sappiamo che
σ2 σ2 X ¡Y » N µ1 ¡µ2 , 1 + 2
n m
=)
X ¡Y ¡ (µ1 ¡µ2 )
» N (0, 1) .
σ12 σ22
+
n m
Dunque, dato H0 vero, per cui µ1 ¡µ2 = 0 , la statistica del test
$
X ¡Y
σ12 /n
+ σ22 /m
ha distribuzione normale standard, e quindi, assegnato un livello di significatività α,
si ha
X ¡Y
P ¡u α2 · $ 2
· u α2 = 1¡α ,
σ1 /n + σ22 /m
con u α2 quantile della normale standardizzata soluzione dell’equazione Φ(u) = 1¡ α2 .
La regione di accettazione per la statistica del test è dunque [¡u α2 , u α2 ], mentre per
lo stimatore X¡Y è la seguente
¡u α2 σ12 /n + σ22 /m , u α2 σ12 /n + σ22 /m .
118
Volendo invece fare un test unilaterale, con ipotesi nulla H0 : µ1 = µ2 (oppure H0 :
µ1 · µ2 ) ed ipotesi alternativa HA : µ1 > µ2 , l’intervallo di accettazione per X ¡ Y è
$
¡1, uα σ12 /n + σ22 /m ,
con uα tale che Φ(uα ) = 1¡α. Naturalmente per la statistica del test l’intervallo di
accettazione è (¡1, uα ].
Caso b)
Le varianze σ12 e σ22 non sono note, ma sono supposte uguali
Il test che si vuole eseguire è lo stesso del punto a). Ora, però, abbiamo σ12 =σ22 =σ 2 ,
con σ incognita. La statistica usata in precedenza diventa
X¡Y
.
σ 2 1/n + 1/m
Come abbiamo visto nel x 3.7, la varianza σ 2 può essere stimata dai dati utilizzando
la varianza ponderata Sp2 cosı̀ definita:
Sp2 =
ove
(n ¡ 1)S12 + (m ¡ 1)S22
,
n+m¡2
n
S12 =
m
1 (Xi ¡ X)2 ,
n ¡ 1 i=1
S22 =
1 (Yi ¡ Y )2 .
m ¡ 1 i=1
La statistica del test risulta quindi la seguente:
Sp
$
X ¡Y
1/n + 1/m
» Tn+m−2 ,
che, come già visto, segue una distribuzione di Student con n + m ¡ 2 gradi di libertà.
Assunto ancora α come livello di significatività del test ed indicato con t α2 il quantile
soluzione dell’equazione Tn+m−2 (t) = 1¡ α2 , l’intervallo di accettazione bilaterale per
lo stimatore X¡Y risulta
$
$
¡t α2 Sp 1/n + 1/m , t α2 Sp 1/n + 1/m ,
mentre quello unilaterale sinistro è
$
¡1, tα Sp 1/n + 1/m .
Ricordando poi la notazione già introdotta nel punto b) del x3.7,
2 = 1 + 1
S∆
S2 ,
n m p
2
indicato con σ̂∆ il valore di S∆
ricavato dal campione, i suddetti intervalli sono approssimati da
¡t α2 σ̂∆ , t α2 σ̂∆
e
¡1, tα σ̂∆ .
Naturalmente, se ci si limita agli intervalli di accettazione per la statistica del test,
quello per il test bilaterale è [¡t α2 , t α2 ], mentre quello per il test unilaterale è (¡1, tα ].
119
Caso c)
Le varianze σ12 e σ22 sono ignote e diverse
Essendo questa situazione facilmente affrontabile sulla base di quanto appena visto
e delle nozioni già introdotte nel x 3.7 (punto c), la tratteremo rapidamente. La
statistica da utilizzare è
σ̂ 2
σ̂22 2
1
+
(X ¡ Y )
n
m
= Tℓ ,
ℓ = 2
σ̂ 2 2 , ¢
2
2
2
σ̂
S1
S2
1
2
+
n
m
n
m
+
n¡1
m¡1
essendo σ̂12 e σ̂22 i valori di S12 e S22 calcolati tramite il campione. Indicati quindi con
t α2 e tα i quantili soluzioni, nell’ordine, delle equazioni
α
Tℓ (t) = 1 ¡
e
Tℓ (t) = 1 ¡ α ,
2
le regioni di accettazione per i test bilaterale e unilaterale sinistro sono approssimate
da
'
(
(
σ̂12
σ̂12
σ̂12
σ̂22
σ̂22
σ̂22
¡t α2
+
, t α2
+
,
¡1, tα
+
.
n
m
n
m
n
m
Caso d)
Campioni appaiati
Esaminiamo ora un caso di differenza di due medie particolare, ma assai interessante
e frequente. Siano (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) due campioni casuali con la
stessa numerosità n, non indipendenti. Un test su due campioni siffatti riguarda quelle
analisi sperimentali in cui occorre verificare una variazione di valore medio prima e
dopo un certo trattamento (oppure in presenza e assenza di una certa circostanza,
con e senza un certo dispositivo, etc..). Essendo Xi e Yi variabili casuali associate
alla stessa unità statistica, i due campioni non sono indipendenti.
Un possibile approccio per verificare che le medie dei due campioni sono uguali consiste nel considerare le differenze Di = Xi ¡Yi , per i = 1, 2, ..., n, che sono tra loro
indipendenti. L’analisi del campione casuale (D1 , D2 , ..., Dn ) riconduce il test che interessa ad un test sulla media di un campione casuale proveniente da una popolazione
2
. Le ipotesi nulla ed alternativa per un
normale di media µD e varianza incognita σD
test bilaterale sono ovviamente le seguenti:
H0 : µD = 0 ,
HA : µD 6
= 0.
Per quanto già visto nel x 3.12 la statistica del test, tenuto anche conto dell’ipotesi
nulla, è
p D
n
» Tn−1 .
SD
L’esercizio 3.12.4 rappresenta un esempio di test per ”campioni appaiati”.
120
3.14 CURVE CARATTERISTICHE OPERATIVE DEI TEST
Vediamo ora il procedimento per il calcolo del rischio β di errore di seconda specie,
una volta che siano stati specificati l’ipotesi nulla H0 : µ=µ0 ed il rischio α di errore
di prima specie, in funzione di ipotesi alternative diverse.
Prendiamo come riferimento l’esempio 3.11.1, che riguardava la durata dei cambi. Il
problema è stato affrontato utilizzando un test bilaterale con l’ipotesi nulla H0 : µ=
= 44800, con un rischio di prima specie
µ0 =44800 contro l’ipotesi alternativa HA : µ6
(o livello di significatività) del 5%. Ipotizziamo ora che che l’ipotesi nulla H0 : µ=44800
non sia vera, ma lo sia invece un’ipotesi alternativa HA : µ = µA = 44900. Il rischio di
seconda specie rappresenta la probabilità di accettare, a torto, l’ipotesi nulla, cioè la
probabilità di osservare medie campionarie entro la regione di accettazione del test
pur essendo µ=44900.
Come abbiamo visto nell’esempio in questione, la regione di accettazione (o, meglio,
di non rifiuto) è l’intervallo
[x1 , x2 ] = [µ0 ¡ δ , µ0 + δ] = [44800 ¡ 450 , 44800 + 450] = [44350 , 45250] .
Tale intervallo è dunque centrato in µ0 ed ha ampiezza 2δ data da
σ
α
δ = p u α2
con u α2 soluzione dell’equazione Φ(u) = 1 ¡ .
n
2
I valori estremi x1 =44350 e x2 =45250 rapresentano rispettivamente il valore minimo
e il valore massimo delle medie (dei campioni con n=200) oltre i quali l’ipotesi nulla va
rifiutata. Il rischio di seconda specie β è quindi dato dalla probabilità di osservare(ovviamente
per campioni della stessa dimensione) medie comprese fra x1 e x2 quando sia vera l’ipotesi
altenativa HA : µ=µA =44900, o equivalentemente
β = P x1 · X · x2 HA : µA =44900 .
Standardizzando questa relazione si ottiene:
x ¡ µ
X ¡ µA
x ¡µ 1
p A ·
p · 2 p A = P z1 · Z · z2 = Φ(z2 ) ¡ Φ(z1 ) ,
β=P
σ/ n
σ/ n
σ/ n
essendo
x1 ¡ µ A
x2 ¡ µ A
p ,
p .
z1 =
z2 =
σ/ n
σ/ n
Per µA =44900, ricordando che n=200 e σ =3250 (da cui
¡Φ
44350 ¡ 44900 ¼ 230), si ha
350 550 ¡Φ ¡
¼
230
230
230
230
¼ Φ(1.52) ¡ Φ(¡2.39) = Φ(1.52) + Φ(2.39) ¡ 1 ¼ 0.936 + 0.992 ¡ 1 = 0.928
β¼Φ
45250 ¡ 44900 √σ
n
=Φ
È evidente che il rischio di seconda specie β dipende da µA ; in altre parole β = β(µA ).
Per avere un’idea di questa funzione si può calcolare β per diversi valori di µA . Ne
risulta la tabella riportata alla pagina che segue.
Il grafico riportato accanto alla tabella è ottenuto ponendo in ascissa µA ed in ordinata
β. Esso costituisce la curva caratteristica operativa. In alternativa si poteva porre
in ordinata 1¡β: in questo caso avremmo ottenuto la curva di potenza.
121
Va fatto notare che che la scelta in alternativa tra un test unilaterale o bilaterale
dipende dallo specifico quesito posto e dalle caratteristiche del problema esaminato.
In ogni caso si può affermare che la potenza di un test bilaterale, cioè la probabilità
di rifiutare H0 quando H0 è falsa, a parità di dimensione del campione e di livello
di fiducia, è minore rispetto a quella del corrispondente test unilaterale. Ciò risulta
evidente dalla figura che segue, dove sono messe a confronto le curve caratteristiche
operative per il test bilaterale HA : µ6
= 44800 e per il test unilaterale HA : µ< 44800.
È importante notare che per i principali test statistici le curve caratteristiche sono disponibili già tabulate in funzione della differenza o del rapporto tra il valore ipotizzato
nell’ipotesi nulla e quello nell’ipotesi alternativa, naturalmente in forma standardizzata. I grafici che seguono l’Esempio 11.9 mostrano le curve caratteristiche operative
X ¡ µ0 p
n, con rischio di prima specie α = 0.05, per test
relative alla statistica Z =
σ
unilaterali e test bilaterali. In ascissa ci sono i valori assunti dal rapporto jµ0 ¡ µA j/σ,
dove µ0 è il valore della media ipotizzato nell’ipotesi nulla H0 e µA è un preciso valore
tra quelli considerati nelle ipotesi alternative, con σ scarto quadratico medio supposto
noto.
122
Le curve caratteristiche operative si avvicinano all’asse delle ordinate e diventano
più ripide al crescere della dimensione n del campione, in quanto cosı̀ il test diventa
più potente ed in sostanza aumenta la sua capacità di discriminazione tra ipotesi,
anche in base a scarti di piccola entità. Le curve caratteristiche operative consentono
quindi la determinazione razionale della dimensione del campione da utilizzare per un
determinato test per rischi di errore di prima specie α e di seconda specie β specificati
o, in alternativa, come modificare tali livelli per renderli compatibili con il numero di
prove consentito da limiti di tempo e di spesa. Naturalmente i rischi devono essere
valutati caso per caso in base alle implicazioni: le conseguenze di una rottura sono ben
diverse a seconda che si tratti dello sterzo o del portacenere di un’auto. Nell’esempio
che segue si vedrà, fra l’altro, come si procede per la determinazione della dimensione
del campione.
Esempio 3.14.1
Un tecnico vuole determinare se un gruppo di 26 fili di rame proveniente
da una ditta rispetta la specifica nominale di avere un diametro prefissato, pari a 1.54 mm.
a) cosa può affermare con un livello di fiducia del 95% se il diametro medio dei fili esaminati
è di 1.6 mm, supposto che le misure dei diametri siano distribuite normalmente con varianza
σ 2 =0.0529 mm2 ? b) qual è l’errore di seconda specie che il tecnico commette se la media
del processo produttivo ha subito uno slittamento ed ora è pari a 1.62 mm ? c) quale deve
essere la dimensione del campione se si vuole testare l’ipotesi nulla H0 : µ=1.54 mm contro
l’ipotesi alternativa HA : µ> 1.54 mm con un errore di prima specie del 5% se si volesse un
errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ=1.65 mm ?
Tenendo presente i requisiti tecnici specifici, faremo uso anche per la prima parte di un test
unilaterale superiore, rendendo cosı̀ confrontabili i risultati dei tre quesiti posti. Procediamo
secondo la sequenza di passi visti in precedenza (omettendo per semplicità, come abbiamo
già fatto negli esempi prededenti, le unità di misura).
a) I dati del campione, che ha dimensione n=26, provengono da una popolazione normale
con varianza σ 2 =0.0529 , da cui σ =0.23 . Inoltre, x=1.6.
a1 ) L’ipotesi nulla è H0 : µ = µ0 = 1.54 contro l’ipotesi alternativa HA : µ > 1.54 . La
statistica da testare è
Z=
X ¡ µ0
X ¡ 1.54 X ¡ 1.54
p =
p =
;
0.0451
σ/ n
0.23/ 26
a2 ) il rischio di prima specie è α=0.05 ;
a3 ) la regione di rifiuto è Z > u0.05 ¼ 1.645 o, equivalentemente,
σ
X > ξ2 = µ0 + p uα ¼ 1.54 + 0.0451¢1.645 ¼ 1.614 ;
n
a4 ) l’intervallo di fiducia è dunque [¡1, 1.614]. Poichè la media calcolata x vale 1.6 e
quindi vi cade internamente, l’ipotesi nulla H0 : µ0 = 1.54 non può essere rifiutata. E
questa è la risposta alla prima domanda.
b) Ora si sa che la media vale 1.62. Ci si chiede dunque qual è il rischio β di seconda specie
quando l’ipotesi alternativa è HA : µA =1.62. Ci si chiede cioè quanto vale β essendo
β = P X · ξ2 j HA : µ = 1.62 .
123
Standardizzando si ha
X ¡ 1.62
ξ2 ¡ 1.62 ·
¼ P Z · ¡0.133] =
0.0451
0.0451
= 1 ¡ P [Z · 0.133] ¼ 1 ¡ 0.553 = 0.447 ¼ 45% .
β=P
Vi è dunque una probabilità di circa il 45% di non rifiutare l’ipotesi che i fili di rame
provengano da un processo produttivo con media 1.54 quando in realtà tale media è 1.62.
c) Si deve ora determinare la dimensione n che dovrebbe avere il campione perchè si abbia
un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ = 1.65,
fermo restando l’errore di prima specie del 5% per testare l’ipotesi nulla H0 : µ = 1.54
contro l’ipotesi alternativa HA : µ> 1.54. Il rischio β di seconda specie è con quest’ultima
ipotesi alternativa è dato da
β = P X · ξ2 (n) j HA : µ = 1.65 ,
dove ξ2 (n), che ora dipende da n, vale
0.3784
σuα
.
ξ2 (n) = µ0 + p ¼ 1.54 + p
n
n
Essendo β noto ed uguale a 0.1, mediante standardizzazione la relazione scritta sopra porta
alla seguente equazione in n:
'
X ¡ 1.65 p
ξ2 (n) ¡ 1.65 p P
n·
n =P Z·
0.23
0.23
0.3784
√
n
¡ 0.11 p
0.23
(
n = 0.1 ,
da cui, essendo φ0.1 = ¡φ0.9 ¼ ¡1.281, segue
0.3784
√
n
¡ 0.11 p
0.23
n = ¡1.281
p p
p
(0.3784 ¡ 0.11 n) n = ¡0.2946 n ,
da cui
e quindi
p
0.11 n = 0.673
ossia
n=
0.673 2
0.11
¼ (6.12)2 ¼ 37.4 .
Dunque, la dimensione del campione che soddisfa alle condizioni poste nella domanda è 38.
Se avessimo voluto determinare n mediante le curve caratteristiche, avremmo dovuto procedere nel modo seguente. Calcolata l’ascissa
d=
jµ0 ¡ µA j
j1.54 ¡ 1.65j
=
¼ 0.48 ,
σ
0.23
essendo l’ordinata β uguale a 0.1, si individua la curva caratteristica, fra quelle per test
unilaterali relative ad α=0.05, che “contiene” il punto (d, β) ¼ (0.48, 0.1). Dai grafici che
seguono, per quanto un po’ grossolani, il valore che che si desume è del tutto compatibile
con n=38.
124
Curve caratteristiche operative per test unilaterali per la media della popolazione
(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.
Curve caratteristiche operative per test bilaterali per la media della popolazione
(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.
125
QUANTILI DELLA LEGGE NORMALE STANDARD:
x
P [N (0, 1)] · x
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.0
.5000
.5040
.5080
.5120
.5160
.5199
.5239
.5279
.5319
.5359
.1
.5398
.5438
.5478
.5517
.5557
.5596
.5636
.5675
.5714
.5753
.2
.5793
.5832
.5871
.5910
.5948
.5987
.6026
.6064
.6103
.6141
.3
.6179
.6217
.6255
.6293
.6331
.6368
.6406
.6443
.6480
.6517
.4
.6554
.6591
.6628
.6664
.6700
.6736
.6772
.6808
.6844
.6879
.5
.6915
.6950
.6985
.7019
.7054
.7088
.7123
.7157
.7190
.7224
.6
.7257
.7291
.7324
.7357
.7389
.7422
.7454
.7486
.7517
.7549
.7
.7580
.7611
.7642
.7673
.7704
.7734
.7764
.7794
.7823
.7852
.8
.7881
.7910
.7939
.7967
.7995
.8023
.8051
.8078
.8106
.8133
.9
.8159
.8186
.8212
.8238
.8264
.8289
.8315
.8340
.8365
.8389
1.0
.8413
.8438
.8461
.8485
.8508
.8531
.8554
.8577
.8599
.8621
1.1
.8643
.8665
.8686
.8708
.8729
.8749
.8770
.8790
.8810
.8830
1.2
.8849
.8869
.8888
.8907
.8925
.8944
.8962
.8980
.8997
.9015
1.3
.9032
.9049
.9066
.9082
.9099
.9115
.9131
.9147
.9162
.9177
1.4
.9192
.9207
.9222
.9236
.9251
.9265
.9279
.9292
.9306
.9319
1.5
.9332
.9345
.9357
.9370
.9382
.9394
.9406
.9418
.9429
.9441
1.6
.9452
.9463
.9474
.9484
.9495
.9505
.9515
.9525
.9535
.9545
1.7
.9554
.9564
.9573
.9582
.9591
.9599
.9608
.9616
.9625
.9633
1.8
.9641
.9649
.9656
.9664
.9671
.9678
.9686
.9693
.9699
.9706
1.9
.9713
.9719
.9726
.9732
.9738
.9744
.9750
.9756
.9761
.9767
2.0
.9772
.9778
.9783
.9788
.9793
.9798
.9803
.9808
.9812
.9817
2.1
.9821
.9826
.9830
.9834
.9838
.9842
.9846
.9850
.9854
.9857
2.2
.9861
.9864
.9868
.9871
.9875
.9878
.9881
.9884
.9887
.9890
2.3
.9893
.9896
.9898
.9901
.9904
.9906
.9909
.9911
.9913
.9916
2.4
.9918
.9920
.9922
.9925
.9927
.9929
.9931
.9932
.9934
.9936
2.5
.9938
.9940
.9941
.9943
.9945
.9946
.9948
.9949
.9951
.9952
2.6
.9953
.9955
.9956
.9957
.9959
.9960
.9961
.9962
.9963
.9964
2.7
.9965
.9966
.9967
.9968
.9969
.9970
.9971
.9972
.9973
.9974
2.8
.9974
.9975
.9976
.9977
.9977
.9978
.9979
.9979
.9980
.9981
2.9
.9981
.9982
.9982
.9983
.9984
.9984
.9985
.9985
.9986
.9986
3.0
.9987
.9987
.9987
.9988
.9988
.9989
.9989
.9989
.9990
.9990
3.1
.9990
.9991
.9991
.9991
.9992
.9992
.9992
.9992
.9993
.9993
3.2
.9993
.9993
.9994
.9994
.9994
.9994
.9994
.9995
.9995
.9995
3.3
.9995
.9995
.9995
.9996
.9996
.9996
.9996
.9996
.9996
.9997
125
QUANTILI DELLA LEGGE
t
DI STUDENT:
P [Tn (x)] · α
n
α=0.90
α=0.95
α=0.975
α=0.98
α=0.99
α=0.995
1
3.078
6.314
12.71
15.894
31.821
63.66
2
1.886
2.920
4.303
4.849
6.965
9.925
3
1.638
2.353
3.182
3.482
4.541
5.841
4
1.533
2.132
2.776
2.999
3.747
4.604
5
1.476
2.015
2.571
2.757
3.365
4.032
6
1.440
1.943
2.447
2.612
3.143
3.707
7
1.415
1.895
2.365
2.517
2.998
3.499
8
1.397
1.860
2.306
2.449
2.896
3.355
9
1.383
1.833
2.262
2.398
2.821
3.250
10
1.372
1.812
2.228
2.359
2.764
3.169
11
1.363
1.796
2.201
2.328
2.718
3.106
12
1.356
1.782
2.179
2.303
2.681
3.055
13
1.350
1.771
2.160
2.282
2.650
3.012
14
1.345
1.761
2.145
2.264
2.624
2.977
15
1.341
1.753
2.131
2.249
2.602
2.947
16
1.337
1.746
2.120
2.235
2.583
2.921
17
1.333
1.740
2.110
2.224
2.567
2.898
18
1.330
1.734
2.101
2.214
2.552
2.878
19
1.328
1.729
2.093
2.205
2.539
2.861
20
1.325
1.725
2.086
2.197
2.528
2.845
21
1.323
1.721
2.080
2.189
2.518
2.831
22
1.321
1.717
2.074
2.183
2.508
2.919
23
1.319
1.714
2.069
2.177
2.500
2.807
24
1.318
1.711
2.064
2.172
2.492
2.797
25
1.316
1.708
2.060
2.167
2.485
2.787
26
1.315
1.706
2.056
2.162
2.479
2.779
28
1.313
1.701
2.048
2.154
2.467
2.763
30
1.310
1.697
2.042
2.147
2.457
2.750
32
1.309
1.694
2.037
2.141
2.449
2.738
35
1.306
1.690
2.030
2.133
2.438
2.724
40
1.303
1.684
2.021
2.123
2.423
2.704
50
1.299
1.676
2.009
2.109
2.403
2.678
60
1.296
1.671
2.000
2.099
2.390
2.660
1
1.282
1.645
1.960
2.054
2.326
2.576
126
QUANTILI DELLA LEGGE CHI-QUADRO:
n
0.005
0.01
0.025
0.05
1
.00004
.00016
.00098
2
0.0100
0.0201
0.0506
3
0.0717
0.115
4
0.207
0.297
5
0.412
0.554
6
0.676
0.872
7
0.989
8
1.344
P [χ2n (x)] · α
0.10
0.90
0.95
0.975
0.99
0.995
.0039
.015
2.706
3.841
5.024
6.635
7.879
0.103
0.211
4.605
5.991
7.378
9.210
10.597
0.216
0.352
0.584
6.251
7.815
9.348
11.345
12.838
0.484
0.711
1.064
7.779
9.488
11.143
13.277
14.860
0.831
1.145
1.610
9.236
11.070
12.832
15.086
16.750
1.237
1.635
2.204
10.645
12.592
14.449
16.812
18.548
1.239
1.690
2.167
2.833
12.017
14.067
16.013
18.475
20.278
1.647
2.180
2.733
3.490
13.362
15.507
17.535
20.090
21.955
9
1.735
2.088
2.700
3.325
4.168
14.684
16.919
19.023
21.666
23.589
10
2.156
2.558
3.247
3.940
4.865
15.987
18.307
20.483
23.209
25.188
11
2.603
3.053
3.816
4.575
5.578
17.275
19.675
21.920
24.725
26.757
12
3.074
3.571
4.404
5.226
6.304
18.549
21.026
23.337
26.217
28.300
13
3.565
4.107
5.009
5.892
7.041
19.812
22.362
24.736
27.688
29.819
14
4.075
4.660
5.629
6.571
7.790
21.064
23.685
26.119
29.141
31.319
15
4.601
5.229
6.262
7.261
8.547
22.307
24.996
27.488
30.578
32.801
16
5.142
5.812
6.908
7.962
9.312
23.542
26.296
28.845
32.000
34.267
17
5.697
6.408
7.564
8.672
10.085
24.769
27.587
30.191
33.409
35.718
18
6.265
7.015
8.231
9.390
10.865
25.989
28.869
31.526
34.805
37.156
19
6.844
7.633
8.907
10.117
11.651
27.204
30.144
32.852
36.191
38.582
20
7.434
8.260
9.591
10.851
12.443
28.412
31.410
34.170
37.566
39.997
21
8.034
8.897
10.283
11.591
13.240
29.615
32.671
35.479
38.932
41.401
22
8.643
9.542
19.982
12.338
14.041
30.813
33.924
36.781
40.289
42.796
23
9.260
10.196
11.689
13.091
14.848
32.007
35.172
38.076
41.638
44.181
24
9.886
10.856
12.401
13.848
15.659
33.196
36.415
39.364
42.980
45.558
25
10.520
11.524
13.120
14.611
16.473
34.382
37.652
40.646
44.314
46.928
26
11.160
12.198
13.844
15.379
17.292
35.563
38.885
41.923
45.642
48.290
27
11.808
12.878
14.573
16.151
18.114
36.741
40.113
43.195
46.963
49.645
28
12.461
13.565
15.308
16.928
18.939
37.916
41.337
44.461
48.278
50.994
29
13.121
14.256
16.047
17.708
19.768
39.087
42.557
45.722
49.588
52.335
30
13.787
14.953
16.791
18.493
20.599
40.256
43.773
46.979
50.892
53.672
32
15.134
16.362
18.291
20.072
22.271
42.585
46.194
49.480
53.486
56.328
34
16.501
17.789
19.806
21.664
23.952
44.903
48.602
51.966
56.061
58.964
36
17.887
19.233
21.336
23.269
25.643
47.212
50.998
54.437
58.619
61.581
38
19.289
20.691
22.878
24.884
27.343
49.513
53.384
56.895
61.162
64.181
40
20.707
22.164
24.433
26.509
29.051
51.805
55.758
59.342
63.691
66.766
45
24.311
25.901
28.366
30.612
33.350
57.505
61.656
65.410
69.957
73.166
50
27.991
29.707
32.357
34.764
37.689
63.167
67.505
71.420
76.154
79.490
60
35.534
37.485
40.482
43.188
46.459
74.397
79.082
83.298
88.379
91.952
70
43.275
45.442
48.758
51.739
55.329
85.527
90.531
95.023
100.425 104.215
80
51.172
53.140
57.153
60.391
64.278
96.578
101.879 106.629 112.329 116.321
90
59.196
61.754
65.647
69.126
73.291
107.565 113.145 118.136 124.116 128.299
100
67.328
70.065
74.222
77.929
82.358
118.498 124.342 129.561 135.807 140.170
127
BIBLIOGRAFIA
Anichini Giuseppe, Calcolo 4, Parte Prima, Elementi di calcolo delle probabilità
e di inferenza statististica, Pitagora (Bologna), 1995.
Ross Sheldon M., Probabilità e Statistica per L’Ingegneria e le scienze, Apogeo
(Milano), 2003.
Vicario Grazia, Raffaello Levi, Calcolo delle probabilità e statistica per ingegneri,
Esculapio (Bologna), 2000.
William Navidi, Probabilità e statistica per l’ingegneria e le scienze, McGraw-Hill,
2006.
— Ultime modifiche apportate il 16/4/2009 —
128