Capitolo 5 Variabili casuali discrete

Transcript

Capitolo 5 Variabili casuali discrete
Capitolo 5
Variabili casuali discrete
Come già anticipato nel paragrafo 3, nella teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)
può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Ad esempio,
il risultato del lancio di un dado a sei facce può essere matematicamente
modellato come una variabile casuale che può assumere uno dei sei possibili
valori: 1, 2, 3, 4, 5, 6.
A causa degli inevitabili errori, la misura di una grandezza fisica può
essere considerata un evento casuale, mentre il numero reale ottenuto in
conseguenza della misura stessa può essere considerato una variabile casuale
definita sull’insieme di tutti i possibili risultati.
Un insieme finito di operazioni di misura, i cui risultati costituiscono
quello che in linguaggio statistico si dice campione, si può pensare come un
particolare sottoinsieme formato da elementi estratti a caso dall’insieme di
tutte le infinite possibili operazioni di misura che potrebbero essere effettuate
sulla stessa grandezza fisica, eseguite col medesimo strumento e sfruttando
le medesime procedure.
Quest’ultimo insieme nella terminologia della statistica si dice universo o
popolazione.
In questo capitolo esamineremo il comportamento delle variabili casuali
in generale (ed in particolare quello dei risultati delle misure). Metteremo in
evidenza i rapporti tra grandezze statistiche che si riferiscano ad un campione
limitato e grandezze analoghe che siano invece riferite all’intera popolazione
(teoria del campionamento).
39
40
CAPITOLO 5. VARIABILI CASUALI DISCRETE
5.1
Generalità
Riprendiamo ora il concetto di variabile casuale già introdotto in precedenza
nel paragrafo 3. Si definisce come variabile casuale ogni grandezza che può
assumere nel corso della prova un valore sconosciuto a priori, ovvero è legata
al verificarsi di un evento casuale. Più rigorosamente, una variabile casuale X è definita come una funzione che associa ad ogni punto dello spazio
campionario E = {E1 , E2 , · · · En } (insieme di tutti i possibili risultati di una
prova) un numero reale: X(Ei ) = xi .
Il risultato di una misura affetta da errori accidentali è un esempio di
variabile causale. In generale una variabile casuale può assumere i valori
reali x1 , x2 , · · · xn a seconda che si presenti uno degli eventi E1 , E2 , · · · En
dello spazio
Pn campionario, incompatibili tra loro, con probabilità p1 , p2 , · · · pn ,
tali che i=1 pi = 1.
Consideriamo il seguente esempio. Sia la prova il lancio di 2 monete.
Allora, indicando con T l’apparizione della testa e con C l’apparizione della
croce (evento complemetare), lo spazio dei risultati è rappresentato dall’insieme: TT,TC,CT,CC. Scegliamo di definire come variabile aleatoria associata,
e.g.: X = numero di teste= 2, 1, 1, 0. La variabile casuale è rappresenta nelle
tabella seguente:
E x
TT 2
TC 1
CT 1
CC 0
e, come si può notare, la corrispondenza tra la variabile casuale e l’insieme
dei possibili risultati non è in questo caso biunivoca. Infatti, in questo caso
gli eventi incompatibili sono tre: E1 = T T , E2 = T C o CT, E3 = CC, con
probabilità: p1 = 1/4, p2 = 1/4 + 1/4 = 1/2, p3 = 1/4.
Le variabili casuali possono essere distinte in 2 classi principali:
• variabili casuali dicrete: possono assumere valori entro un insieme
numerabile.
• variabili casuali continue: possono assumere valori che non possono
essere enumerati in anticipo, riempendo “ densamente” ogni intervallo
del campo di esistenza.
Questa seconda categoria è il caso più frequente nella fisica, ad esempio
per le misure: ma anche in tal caso, a causa della sensibilità limitata degli
5.2. DISTRIBUZIONI DI PROBABILITÀ
41
strumenti, l’intervallo continuo di definizione della variabile x viene in pratica
suddiviso in un numero finito M di intervalli, che vengono rappresentati dai
valori centrali xj della variabile casuale.
Detta nj la frequenza assoluta con cui si è presentato il risultato xj nelle
N prove complessive, sarà
M
X
nj = N
j=1
(potendo alcune frequenze nj risultare nulle perché i corrispondenti valori xj
non sono stati osservati nelle prove). Indicata con
fj =
nj
N
la frequenza relativa del valore xj nelle N prove, dalla prima relazione segue
M
X
j=1
fj =
M
1 X
nj ≡ 1
=
N
N j=1
M
X
nj
j=1
esaurendo gli M valori xj tutti i possibili risultati della misura.
Se il numero delle prove N è molto grande e viene fatto crescere a piacere,
ciascuna fj deve tendere statisticamente al valore pj (probabilità di osservare
il valore xj ), e sarà ancora
M
X
pj ≡ 1
j=1
come dovevamo ovviamente attenderci ricordando l’equazione (3.3).
5.2
Distribuzioni di probabilità
Da quanto detto risulta chiaro che ad ogni valore di una variabile casuale
è associato un valore di probabilità. Si definisce come distribuzione di probabilità P (X), di una variabile casuale X, la relazione che stabilisce una
corrispondenza tra i valori di tale variabile e la lora probabilità.
A seconda che la variabile casuale sia discreta o contina, la corrispondente distrubuzione di probabilità sarà di tipo discreto (e.g., distribuzione
binomiale, distribuzione di Poisson), o di tipo continuo (e.g. distribuzione di
Gauss).
Riprendiamo l’esempio della prova rappresentata dal lancio di 2 monete,
discusso nella sezione precedente. La distribuzione di probabilità della variabile casuale X = numero di teste è di tipo discreto ed è rappresentata in
Fig. 5.1.
42
CAPITOLO 5. VARIABILI CASUALI DISCRETE
Figura 5.1: Esempio di distribuzione di probabilità discreta, riferita alla
variabile casuale X = numero di teste e associata all’evento lancio di due
monete.
Analogamente, considerando come prova 2 lanci consecutivi di un dado, la
variabile casuale X =somma dei punti dopo i due lanci sarà di tipo discreto
e avente come campo di esistenza: i numeri interi compresi tra 2 e 12. Lo
spazio dei risultati sarà costituito dal numero di tutte le possibili coppie,
ovvero 62 = 36. La distribuzione di probabilità corrispondente è illustrata in
Fig. 5.2.
5.3
Valore di aspettazione
Come sappiamo dal paragrafo 4.4.1, il valore medio della variabile x su di un
campione finito è dato dall’equazione
X
x̄ =
fi xi
i
dove la sommatoria si intende estesa a tutti i valori che la x può assumere,
essendo nulle le frequenze di quelli che non si sono effettivamente presentati.
Definiamo in maniera analoga una nuova grandezza E(x), relativa all’intera
popolazione, mediante la
X
E(x) =
pi xi .
(5.1)
i
E(x) (che si chiama valore di aspettazione o speranza matematica della variabile casuale x) ci appare quindi come una generalizzazione alla popolazione del concetto di media aritmetica. Infatti, assumendo come definizione
43
5.3. VALORE DI ASPETTAZIONE
Figura 5.2: Esempio di distribuzione di probabilità discreta, riferita alla
variabile casuale X =somma dei punteggi e associata all’evento 2 lanci di un
dado.
di probabilità quella empirica, in base al Teorema di Bernoulli, il valore di
aspettazione rappresenta il limite (statistico) del valore medio del campione
all’aumentare della sua dimensione.
È da notare come non ci sia alcuna garanzia dell’esistenza di E(x) se
l’insieme dei possibili valori xi non è finito (in particolare se x è una variabile
continua); in effetti esistono delle distribuzioni di probabilità usate anche in
fisica per le quali la serie della (5.1) non converge, e che non ammettono
quindi speranza matematica.
2
Il valore di aspettazione per la variabile casuale x − E(x) (ossia la
generalizzazione alla popolazione della varianza di un campione) si indica
poi col simbolo Var(x):
Var(x) = E
n
X 2 o
2
=
x − E(x)
pi xi − E(x) ,
i
e ad essa ci riferiremo come varianza della popolazione della variabile casuale
x; come E(x), e per gli stessi motivi, anch’essa potrebbe non esistere per
quelle variabili che assumono un numero infinito di possibili valori.
44
CAPITOLO 5. VARIABILI CASUALI DISCRETE
5.4
Il valore di aspettazione delle combinazioni lineari
Consideriamo due variabili casuali x e y, aventi speranza matematica E(x) ed
E(y) rispettivamente; ed una loro qualsiasi combinazione lineare a coefficienti
costanti z = ax + by. Vogliamo dimostrare ora che la speranza matematica
della nuova variabile z esiste, ed è data dalla combinazione lineare delle
speranze matematiche di x e di y con gli stessi coefficienti a e b.
Indichiamo con xj i possibili valori della prima variabile, e con yk quelli
della seconda; indichiamo poi con pj e qk le probabilità di ottenere un determinato valore rispettivamente per la x e per la y. Chiamiamo poi Pjk la
probabilità che simultaneamente si abbia x = xj ed y = yk ; un particolare
valore per la x potrà essere associato ad uno qualsiasi dei diversi valori della
y, che sono tra loro incompatibili: in definitiva, applicando la legge della
probabilità totale (equazione 3.2) risulterà
X
X
pj =
Pjk
e
qk =
Pjk .
k
j
Per il valore di aspettazione E(z) di z avremo poi
X
E(ax + by) =
Pjk (a xj + b yk )
jk
=
X
=a
=a
jk
a Pjk xj +
X X
j
X
j
k
X
jk
b Pjk yk
X X
Pjk xj + b
Pjk yk
pj xj + b
k
X
k
j
qk yk
= a E(x) + b E(y) .
È immediato poi estendere, per induzione completa, questa dimostrazione alla combinazione lineare di un numero qualsiasi di variabili casuali: se
abbiamo
F = ax + by + cz + · · ·
allora
E(F ) = a E(x) + b E(y) + c E(z) + · · · .
(5.2)
Una importante conseguenza può subito essere ricavata applicando l’equazione (5.2) alla media aritmetica x̄ di un campione di N misure: essa
5.5. LA VARIANZA DELLE COMBINAZIONI LINEARI
45
infatti si può considerare come una particolare combinazione lineare delle
misure stesse, con coefficienti tutti uguali tra loro e pari ad 1/N.
Prendendo dalla popolazione un differente campione di N misure, la loro
media aritmetica x̄ sarà anch’essa in generale diversa: quale sarà la speranza
matematica di x̄, ovverosia il valore di aseptttazione delle varie x̄ su un numero molto elevato di campioni di N misure estratti a caso dalla popolazione
— e, al limite, su tutti i campioni (aventi la stessa dimensione fissa N) che
dalla popolazione è possibile ricavare?
!
N
X
1
E (x̄) = E
xi
N i=1
N
1 X
=
E (xi )
N i=1
=
1
· N E(x)
N
ed infine
E (x̄) = E(x)
(5.3)
cioè:
Il valore di aspettazione della popolazione delle medie aritmetiche
dei campioni di dimensione finita N estratti da una popolazione
coincide con il valore di aspettazione della popolazione stessa.
5.5
La varianza delle combinazioni lineari
Dimostriamo ora un altro teorema generale che riguarda la varianza di una
combinazione lineare di più variabili casuali, che supporremo però statisticamente indipendenti. Usando gli stessi simboli già introdotti nel paragrafo 5.4,
e dette x ed y due variabili casuali che godano di tale proprietà, sappiamo
dall’equazione (3.5) che la probabilità Pjk che contemporaneamente risulti
sia x = xj che y = yk è data dal prodotto delle probabilità rispettive pj e qk .
Per semplificare i calcoli, dimostriamo questo teorema dapprima nel caso particolare di due popolazioni x e y che abbiano speranza matematica
nulla; estenderemo poi il risultato a due variabili (sempre statisticamente indipendenti) aventi speranza matematica qualunque. Ciò premesso, la
combinazione lineare
z = ax + by
46
CAPITOLO 5. VARIABILI CASUALI DISCRETE
ha anch’essa speranza matematica zero: infatti applicando l’equazione (5.2)
risulta
E(z) = E(ax + by) = a E(x) + b E(y) = 0
e si può allora ricavare (indicando con i simboli σx 2 , σy 2 e σz 2 le varianze di
x, y e z rispettivamente):
n
2 o
2
σz = E z − E(z)
= E z2
= E (ax + by)2
X
=
Pjk (a xj + b yk )2
jk
=
X
= a2
jk
X
= a2 σx 2
ed infine
pj qk a2 xj 2 + b2 yk 2 + 2a b xj yk
k
qk
X
X
k
j
pj xj 2 + b2
qk + b2 σy 2
X
X
j
j
pj
X
k
qk yk 2 + 2ab
pj + 2ab E(x) E(y)
X
j
pj xj
X
k
σz 2 = a2 σx 2 + b2 σy 2 .
qk yk
(5.4)
Allo scopo di estendere la validità dell’equazione (5.4) appena dimostrata
a due variabili casuali x e y aventi speranza matematica anche differente da
zero, dimostriamo ora il seguente
Teorema: due variabili casuali che differiscano per un fattore
costante hanno la stessa varianza.
Infatti, se le due variabili casuali x e ξ soddisfano questa ipotesi, allora
deve risultare:
ξ =x+K
E(ξ) = E(x) + K
n
2 o
σξ 2 = E ξ − E(ξ)
n
2 o
= E x + K − E(x) − K
n
2 o
= E x − E(x)
= σx 2 .
47
5.6. L’ERRORE QUADRATICO MEDIO DELLA MEDIA
Ora, date due variabili casuali x e y qualsiasi, ed una loro generica combinazione lineare z = ax + by, basta definire altre due variabili casuali
ausiliarie
ξ = x − E(x)
ed
η = y − E(y)
(che ovviamente soddisfano l’ipotesi di avere speranza matematica zero):
pertanto la loro combinazione lineare ζ = aξ + bη, che differisce anch’essa
da z per un fattore costante e pari ad aE(x) + bE(y), avrà varianza che, in
conseguenza della (5.4), sarà data dalla
σζ 2 = a2 σξ 2 + b2 ση 2 .
Ma per quanto detto, x e ξ hanno la stessa varianza; cosı̀ y ed η, e z e
ζ. Ne consegue come per qualsiasi coppia di variabili casuali (purché però
statisticamente indipendenti) vale la relazione (5.4), che possiamo enunciare
nel modo seguente:
Una combinazione lineare, a coefficienti costanti, di due variabili
casuali statisticamente indipendenti ha varianza uguale alla combinazione lineare delle rispettive varianze, con coefficienti pari ai
quadrati dei coefficienti rispettivi 1 .
È ovvio poi estendere (per induzione completa) questo risultato alla combinazione lineare di un numero finito qualsivoglia di variabili casuali, che
siano però sempre tra loro tutte statisticamente indipendenti: se
F = ax + by + cz + · · ·
allora
σF 2 = a2 σx 2 + b2 σy 2 + c2 σz 2 + · · · .
5.6
(5.5)
L’errore quadratico medio della media
Torniamo ora ad occuparci dello studio delle proprietà statistiche della media aritmetica di un campione di N misure indipendenti estratto da una
popolazione,
N
1 X
xi ;
x̄ =
N i=1
1
O, come si usa dire in sintesi, gli errori si combinano quadraticamente.
48
CAPITOLO 5. VARIABILI CASUALI DISCRETE
e cerchiamo in particolare di determinarne la varianza. Applicando l’equazione (5.5) appena dimostrata, risulta
σx̄
2
N
1 X 2
= 2
σx
N i=1 i
=
1
· Nσx 2
2
N
ed infine
σx̄ 2 =
σx 2
N
In definitiva abbiamo dimostrato che
• Le medie aritmetiche di campioni di N misure hanno varianza pari alla varianza della popolazione da cui le misure
provengono, divisa per la dimensione dei campioni.
e conseguentemente
• L’errore quadratico medio della media di un campione è minore dell’analogo errore delle singole misure, e tende a zero
al crescere del numero di misure effettuato.
(5.6)