Capitolo 5 Variabili casuali discrete
Transcript
Capitolo 5 Variabili casuali discrete
Capitolo 5 Variabili casuali discrete Come già anticipato nel paragrafo 3, nella teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable) può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Ad esempio, il risultato del lancio di un dado a sei facce può essere matematicamente modellato come una variabile casuale che può assumere uno dei sei possibili valori: 1, 2, 3, 4, 5, 6. A causa degli inevitabili errori, la misura di una grandezza fisica può essere considerata un evento casuale, mentre il numero reale ottenuto in conseguenza della misura stessa può essere considerato una variabile casuale definita sull’insieme di tutti i possibili risultati. Un insieme finito di operazioni di misura, i cui risultati costituiscono quello che in linguaggio statistico si dice campione, si può pensare come un particolare sottoinsieme formato da elementi estratti a caso dall’insieme di tutte le infinite possibili operazioni di misura che potrebbero essere effettuate sulla stessa grandezza fisica, eseguite col medesimo strumento e sfruttando le medesime procedure. Quest’ultimo insieme nella terminologia della statistica si dice universo o popolazione. In questo capitolo esamineremo il comportamento delle variabili casuali in generale (ed in particolare quello dei risultati delle misure). Metteremo in evidenza i rapporti tra grandezze statistiche che si riferiscano ad un campione limitato e grandezze analoghe che siano invece riferite all’intera popolazione (teoria del campionamento). 39 40 CAPITOLO 5. VARIABILI CASUALI DISCRETE 5.1 Generalità Riprendiamo ora il concetto di variabile casuale già introdotto in precedenza nel paragrafo 3. Si definisce come variabile casuale ogni grandezza che può assumere nel corso della prova un valore sconosciuto a priori, ovvero è legata al verificarsi di un evento casuale. Più rigorosamente, una variabile casuale X è definita come una funzione che associa ad ogni punto dello spazio campionario E = {E1 , E2 , · · · En } (insieme di tutti i possibili risultati di una prova) un numero reale: X(Ei ) = xi . Il risultato di una misura affetta da errori accidentali è un esempio di variabile causale. In generale una variabile casuale può assumere i valori reali x1 , x2 , · · · xn a seconda che si presenti uno degli eventi E1 , E2 , · · · En dello spazio Pn campionario, incompatibili tra loro, con probabilità p1 , p2 , · · · pn , tali che i=1 pi = 1. Consideriamo il seguente esempio. Sia la prova il lancio di 2 monete. Allora, indicando con T l’apparizione della testa e con C l’apparizione della croce (evento complemetare), lo spazio dei risultati è rappresentato dall’insieme: TT,TC,CT,CC. Scegliamo di definire come variabile aleatoria associata, e.g.: X = numero di teste= 2, 1, 1, 0. La variabile casuale è rappresenta nelle tabella seguente: E x TT 2 TC 1 CT 1 CC 0 e, come si può notare, la corrispondenza tra la variabile casuale e l’insieme dei possibili risultati non è in questo caso biunivoca. Infatti, in questo caso gli eventi incompatibili sono tre: E1 = T T , E2 = T C o CT, E3 = CC, con probabilità: p1 = 1/4, p2 = 1/4 + 1/4 = 1/2, p3 = 1/4. Le variabili casuali possono essere distinte in 2 classi principali: • variabili casuali dicrete: possono assumere valori entro un insieme numerabile. • variabili casuali continue: possono assumere valori che non possono essere enumerati in anticipo, riempendo “ densamente” ogni intervallo del campo di esistenza. Questa seconda categoria è il caso più frequente nella fisica, ad esempio per le misure: ma anche in tal caso, a causa della sensibilità limitata degli 5.2. DISTRIBUZIONI DI PROBABILITÀ 41 strumenti, l’intervallo continuo di definizione della variabile x viene in pratica suddiviso in un numero finito M di intervalli, che vengono rappresentati dai valori centrali xj della variabile casuale. Detta nj la frequenza assoluta con cui si è presentato il risultato xj nelle N prove complessive, sarà M X nj = N j=1 (potendo alcune frequenze nj risultare nulle perché i corrispondenti valori xj non sono stati osservati nelle prove). Indicata con fj = nj N la frequenza relativa del valore xj nelle N prove, dalla prima relazione segue M X j=1 fj = M 1 X nj ≡ 1 = N N j=1 M X nj j=1 esaurendo gli M valori xj tutti i possibili risultati della misura. Se il numero delle prove N è molto grande e viene fatto crescere a piacere, ciascuna fj deve tendere statisticamente al valore pj (probabilità di osservare il valore xj ), e sarà ancora M X pj ≡ 1 j=1 come dovevamo ovviamente attenderci ricordando l’equazione (3.3). 5.2 Distribuzioni di probabilità Da quanto detto risulta chiaro che ad ogni valore di una variabile casuale è associato un valore di probabilità. Si definisce come distribuzione di probabilità P (X), di una variabile casuale X, la relazione che stabilisce una corrispondenza tra i valori di tale variabile e la lora probabilità. A seconda che la variabile casuale sia discreta o contina, la corrispondente distrubuzione di probabilità sarà di tipo discreto (e.g., distribuzione binomiale, distribuzione di Poisson), o di tipo continuo (e.g. distribuzione di Gauss). Riprendiamo l’esempio della prova rappresentata dal lancio di 2 monete, discusso nella sezione precedente. La distribuzione di probabilità della variabile casuale X = numero di teste è di tipo discreto ed è rappresentata in Fig. 5.1. 42 CAPITOLO 5. VARIABILI CASUALI DISCRETE Figura 5.1: Esempio di distribuzione di probabilità discreta, riferita alla variabile casuale X = numero di teste e associata all’evento lancio di due monete. Analogamente, considerando come prova 2 lanci consecutivi di un dado, la variabile casuale X =somma dei punti dopo i due lanci sarà di tipo discreto e avente come campo di esistenza: i numeri interi compresi tra 2 e 12. Lo spazio dei risultati sarà costituito dal numero di tutte le possibili coppie, ovvero 62 = 36. La distribuzione di probabilità corrispondente è illustrata in Fig. 5.2. 5.3 Valore di aspettazione Come sappiamo dal paragrafo 4.4.1, il valore medio della variabile x su di un campione finito è dato dall’equazione X x̄ = fi xi i dove la sommatoria si intende estesa a tutti i valori che la x può assumere, essendo nulle le frequenze di quelli che non si sono effettivamente presentati. Definiamo in maniera analoga una nuova grandezza E(x), relativa all’intera popolazione, mediante la X E(x) = pi xi . (5.1) i E(x) (che si chiama valore di aspettazione o speranza matematica della variabile casuale x) ci appare quindi come una generalizzazione alla popolazione del concetto di media aritmetica. Infatti, assumendo come definizione 43 5.3. VALORE DI ASPETTAZIONE Figura 5.2: Esempio di distribuzione di probabilità discreta, riferita alla variabile casuale X =somma dei punteggi e associata all’evento 2 lanci di un dado. di probabilità quella empirica, in base al Teorema di Bernoulli, il valore di aspettazione rappresenta il limite (statistico) del valore medio del campione all’aumentare della sua dimensione. È da notare come non ci sia alcuna garanzia dell’esistenza di E(x) se l’insieme dei possibili valori xi non è finito (in particolare se x è una variabile continua); in effetti esistono delle distribuzioni di probabilità usate anche in fisica per le quali la serie della (5.1) non converge, e che non ammettono quindi speranza matematica. 2 Il valore di aspettazione per la variabile casuale x − E(x) (ossia la generalizzazione alla popolazione della varianza di un campione) si indica poi col simbolo Var(x): Var(x) = E n X 2 o 2 = x − E(x) pi xi − E(x) , i e ad essa ci riferiremo come varianza della popolazione della variabile casuale x; come E(x), e per gli stessi motivi, anch’essa potrebbe non esistere per quelle variabili che assumono un numero infinito di possibili valori. 44 CAPITOLO 5. VARIABILI CASUALI DISCRETE 5.4 Il valore di aspettazione delle combinazioni lineari Consideriamo due variabili casuali x e y, aventi speranza matematica E(x) ed E(y) rispettivamente; ed una loro qualsiasi combinazione lineare a coefficienti costanti z = ax + by. Vogliamo dimostrare ora che la speranza matematica della nuova variabile z esiste, ed è data dalla combinazione lineare delle speranze matematiche di x e di y con gli stessi coefficienti a e b. Indichiamo con xj i possibili valori della prima variabile, e con yk quelli della seconda; indichiamo poi con pj e qk le probabilità di ottenere un determinato valore rispettivamente per la x e per la y. Chiamiamo poi Pjk la probabilità che simultaneamente si abbia x = xj ed y = yk ; un particolare valore per la x potrà essere associato ad uno qualsiasi dei diversi valori della y, che sono tra loro incompatibili: in definitiva, applicando la legge della probabilità totale (equazione 3.2) risulterà X X pj = Pjk e qk = Pjk . k j Per il valore di aspettazione E(z) di z avremo poi X E(ax + by) = Pjk (a xj + b yk ) jk = X =a =a jk a Pjk xj + X X j X j k X jk b Pjk yk X X Pjk xj + b Pjk yk pj xj + b k X k j qk yk = a E(x) + b E(y) . È immediato poi estendere, per induzione completa, questa dimostrazione alla combinazione lineare di un numero qualsiasi di variabili casuali: se abbiamo F = ax + by + cz + · · · allora E(F ) = a E(x) + b E(y) + c E(z) + · · · . (5.2) Una importante conseguenza può subito essere ricavata applicando l’equazione (5.2) alla media aritmetica x̄ di un campione di N misure: essa 5.5. LA VARIANZA DELLE COMBINAZIONI LINEARI 45 infatti si può considerare come una particolare combinazione lineare delle misure stesse, con coefficienti tutti uguali tra loro e pari ad 1/N. Prendendo dalla popolazione un differente campione di N misure, la loro media aritmetica x̄ sarà anch’essa in generale diversa: quale sarà la speranza matematica di x̄, ovverosia il valore di aseptttazione delle varie x̄ su un numero molto elevato di campioni di N misure estratti a caso dalla popolazione — e, al limite, su tutti i campioni (aventi la stessa dimensione fissa N) che dalla popolazione è possibile ricavare? ! N X 1 E (x̄) = E xi N i=1 N 1 X = E (xi ) N i=1 = 1 · N E(x) N ed infine E (x̄) = E(x) (5.3) cioè: Il valore di aspettazione della popolazione delle medie aritmetiche dei campioni di dimensione finita N estratti da una popolazione coincide con il valore di aspettazione della popolazione stessa. 5.5 La varianza delle combinazioni lineari Dimostriamo ora un altro teorema generale che riguarda la varianza di una combinazione lineare di più variabili casuali, che supporremo però statisticamente indipendenti. Usando gli stessi simboli già introdotti nel paragrafo 5.4, e dette x ed y due variabili casuali che godano di tale proprietà, sappiamo dall’equazione (3.5) che la probabilità Pjk che contemporaneamente risulti sia x = xj che y = yk è data dal prodotto delle probabilità rispettive pj e qk . Per semplificare i calcoli, dimostriamo questo teorema dapprima nel caso particolare di due popolazioni x e y che abbiano speranza matematica nulla; estenderemo poi il risultato a due variabili (sempre statisticamente indipendenti) aventi speranza matematica qualunque. Ciò premesso, la combinazione lineare z = ax + by 46 CAPITOLO 5. VARIABILI CASUALI DISCRETE ha anch’essa speranza matematica zero: infatti applicando l’equazione (5.2) risulta E(z) = E(ax + by) = a E(x) + b E(y) = 0 e si può allora ricavare (indicando con i simboli σx 2 , σy 2 e σz 2 le varianze di x, y e z rispettivamente): n 2 o 2 σz = E z − E(z) = E z2 = E (ax + by)2 X = Pjk (a xj + b yk )2 jk = X = a2 jk X = a2 σx 2 ed infine pj qk a2 xj 2 + b2 yk 2 + 2a b xj yk k qk X X k j pj xj 2 + b2 qk + b2 σy 2 X X j j pj X k qk yk 2 + 2ab pj + 2ab E(x) E(y) X j pj xj X k σz 2 = a2 σx 2 + b2 σy 2 . qk yk (5.4) Allo scopo di estendere la validità dell’equazione (5.4) appena dimostrata a due variabili casuali x e y aventi speranza matematica anche differente da zero, dimostriamo ora il seguente Teorema: due variabili casuali che differiscano per un fattore costante hanno la stessa varianza. Infatti, se le due variabili casuali x e ξ soddisfano questa ipotesi, allora deve risultare: ξ =x+K E(ξ) = E(x) + K n 2 o σξ 2 = E ξ − E(ξ) n 2 o = E x + K − E(x) − K n 2 o = E x − E(x) = σx 2 . 47 5.6. L’ERRORE QUADRATICO MEDIO DELLA MEDIA Ora, date due variabili casuali x e y qualsiasi, ed una loro generica combinazione lineare z = ax + by, basta definire altre due variabili casuali ausiliarie ξ = x − E(x) ed η = y − E(y) (che ovviamente soddisfano l’ipotesi di avere speranza matematica zero): pertanto la loro combinazione lineare ζ = aξ + bη, che differisce anch’essa da z per un fattore costante e pari ad aE(x) + bE(y), avrà varianza che, in conseguenza della (5.4), sarà data dalla σζ 2 = a2 σξ 2 + b2 ση 2 . Ma per quanto detto, x e ξ hanno la stessa varianza; cosı̀ y ed η, e z e ζ. Ne consegue come per qualsiasi coppia di variabili casuali (purché però statisticamente indipendenti) vale la relazione (5.4), che possiamo enunciare nel modo seguente: Una combinazione lineare, a coefficienti costanti, di due variabili casuali statisticamente indipendenti ha varianza uguale alla combinazione lineare delle rispettive varianze, con coefficienti pari ai quadrati dei coefficienti rispettivi 1 . È ovvio poi estendere (per induzione completa) questo risultato alla combinazione lineare di un numero finito qualsivoglia di variabili casuali, che siano però sempre tra loro tutte statisticamente indipendenti: se F = ax + by + cz + · · · allora σF 2 = a2 σx 2 + b2 σy 2 + c2 σz 2 + · · · . 5.6 (5.5) L’errore quadratico medio della media Torniamo ora ad occuparci dello studio delle proprietà statistiche della media aritmetica di un campione di N misure indipendenti estratto da una popolazione, N 1 X xi ; x̄ = N i=1 1 O, come si usa dire in sintesi, gli errori si combinano quadraticamente. 48 CAPITOLO 5. VARIABILI CASUALI DISCRETE e cerchiamo in particolare di determinarne la varianza. Applicando l’equazione (5.5) appena dimostrata, risulta σx̄ 2 N 1 X 2 = 2 σx N i=1 i = 1 · Nσx 2 2 N ed infine σx̄ 2 = σx 2 N In definitiva abbiamo dimostrato che • Le medie aritmetiche di campioni di N misure hanno varianza pari alla varianza della popolazione da cui le misure provengono, divisa per la dimensione dei campioni. e conseguentemente • L’errore quadratico medio della media di un campione è minore dell’analogo errore delle singole misure, e tende a zero al crescere del numero di misure effettuato. (5.6)