Lezioni di STATISTICA MATEMATICA
Transcript
Lezioni di STATISTICA MATEMATICA
Università di Modena e Reggio Emilia Facoltà di Ingegneria - sede di Modena Lezioni di STATISTICA MATEMATICA Docente: Prof. Valter Franceschini per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali - a.a. 2008/09 - INDICE 1 CALCOLO DELLE PROBABILITÀ 1 1.1 Calcolo combinatorio 1 1.2 La probabilità matematica Spazi di probabilità finiti Spazi finiti equiprobabili 5 8 9 1.3 Probabilità condizionata Eventi indipendenti Formula di Bayes 14 16 19 1.4 Variabili aleatorie Variabili aleatorie discrete Variabili aleatorie continue 23 25 26 1.5 Media e varianza 31 1.6 Variabili aleatorie bidimensionali 37 1.7 Distribuzioni binomiale, di Poisson e di Gauss Distribuzione binomiale Distribuzione di Poisson Distribuzione di Gauss 46 46 49 51 1.8 Approssimazione normale 55 1.9 Altre distribuzioni Distribuzione esponenziale Distribuzione ipergeometrica Distribuzione geometrica 61 61 63 65 2 STATISTICA DESCRITTIVA 66 2.1 2.2 2.3 Introduzione Organizzazione e rappresentazione dei dati Grandezze che sintetizzano i dati 66 66 71 3 STATISTICA MATEMATICA 81 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 Popolazioni e campioni Stimatori Distribuzioni chi-quadro e di Student Intervalli di fiducia (o di confidenza) Stima della media di una popolazione normale Stima della varianza di una popolazione normale Stima della differenza delle medie di due popolazioni normali Stima di una proporzione Basi logiche dei test Formulazione di un test di ipotesi Test di significatività Test riguardanti la media di una popolazione normale Test riguardanti la differenza delle medie di due popolazioni normali Curve caratteristiche operative dei test 81 82 85 87 87 91 94 99 102 104 107 109 117 120 Tavole delle leggi N (0, 1), χ2n e Tn 125 Bibliografia 128 CAPITOLO 1: CALCOLO DELLE PROBABILITÀ 1.1 CALCOLO COMBINATORIO DISPOSIZIONI Definizione Una disposizione semplice di n oggetti dati presi k alla volta è una k¡upla ordinata di k oggetti distinti scelti tra gli n (ovviamente k · n) . Esempio 1.1.1 Le disposizioni semplici dei 3 oggetti dati a, b, c presi a coppie (per cui k = 2, n = 3), sono (a, b), (b, c), (c, a), (b, a), (c, b), (a, c) . Proposizione Il numero di disposizioni semplici di n oggetti presi k alla volta, che indichiamo con D(k; n), è il prodotto dei k numeri naturali decrescenti a partire da n: D(k; n) = n(n ¡ 1) ¢ ¢ ¢ (n ¡ k + 1) = n! . (n ¡ k)! Infatti, se riempio k caselle in ordine, nella prima ho n possibilità di scelta, nella seconda (n ¡ 1) possibilità, ..., nella k¡esima (n ¡ k + 1). Definizione Una disposizione con ripetizione di n oggetti dati presi k alla volta è una k¡upla ordinata i cui elementi, non necessariamente distinti, sono scelti fra gli n. Osservazione: differentemente dal caso delle disposizioni semplici, k può anche essere maggiore di n. Esempio 1.1.2 Le diposizioni con ripetizione dei tre oggetti a, b, c a due a due (per cui n = 3, k = 2) sono (a, a), (a, b), (b, a), (b, b), (b, c), (c, b), (a, c), (c, a), (c, c) . Proposizione Il numero di disposizioni con ripetizione di n oggetti presi k alla volta è D R (k; n) = nk . Infatti, se riempio k caselle in ordine, nella prima casella ho n possibilità di scelta, nella seconda ho ancora n possibilità, e cosı̀ per tutte le altre caselle. Ottengo quindi il numero di oggetti elevato al numero di caselle. Il numero delle possibile schedine del totocalcio è 313 ; questo è infatti il numero di disposizioni con ripetizione dei 3 simboli 1, 2, x, in 13 caselle ordinate. Esempio 1.1.3 Osservazione: Come si deduce da quanto appena visto, in questo contesto l’aggettivo 1 ”semplice” significa ”senza ripetizioni”. 2 PERMUTAZIONI Definizione Una permutazione di n oggetti dati è una n¡upla ordinata i cui elementi sono tutti gli n oggetti. Detto altrimenti, una permutazione è una disposizione semplice degli n oggetti dati quando sono presi tutti n (si tratta del caso k = n). Di conseguenza il numero P (n) delle possibili permutazioni di n oggetti vale P (n) = n(n ¡ 1) ¢ ¢ ¢ 3 ¢ 2 ¢ 1 ´ n! Il simbolo n! si legge “n fattoriale” e designa il prodotto dei primi n numeri naturali. Per convenzione si pone 0! = 1. Si è dunque trovato che vale la seguente Proposizione Il numero P (n) delle permutazioni di n oggetti è uguale a n! . Esempio 1.1.4 Le permutazioni di 5 clienti di banca (che rappresentano i possibili modi di metterli in ordine di attesa a uno sportello) sono 5!, ossia = 5 ¢ 4 ¢ 3 ¢ 2 ¢ 1 = 120. COMBINAZIONI Definizione Una combinazione semplice di n oggetti dati presi k alla volta, k · n, è un sottoinsieme non ordinato di k oggetti distinti scelti tra gli n. Esempio 1.1.5 Le combinazioni dei 3 oggetti a, b, c, presi 2 alla volta sono fa, bg, fb, cg, fa, cg . Si noti che fa, bg ´ fb, ag. Per gli insiemi astratti (per i quali si usa la parentesi graffa) non vige alcuna struttura d’ordine. Proposizione Il numero di combinazioni semplici di n oggetti presi k alla volta, che indichiamo con C(k; n), vale C(k; n) = Ricordato che n . k n n(n ¡ 1)...(n ¡ k + 1) n! := = , k k! k!(n ¡ k)! dimostriamo la proposizione enunciata. Per ciascuna combinazione in cui sono presi k oggetti alla volta, esistono P (k) modi di metterli in ordine. Di conseguenza, fra il numero D(k; n) delle disposizioni e il numero C(k; n) delle combinazioni vale la seguente relazione D(k; n) = C(k; n) ¢ P (k) , da cui C(k; n) = D(k; n) . P (k) Da questa segue immediatamente la tesi della proposizione. 3 Esempio 1.1.6 Il numero di comitati di 4 persone che si possono formare da un gruppo di 9 è 9¢8¢7¢6 9 C(4; 9) = = 9!/[4!(9 ¡ 4)!] = = 126 . 4 4¢3¢2¢1 Definizione Una combinazione con ripetizione di n oggetti dati presi k alla volta è un insieme non ordinato di k oggetti, non necessariamente distinti, scelti tra gli n. Osservazione: come per le disposizioni con ripetizione, e differentemente dal caso delle combinazioni semplici, k può anche essere maggiore di n. Esempio 1.1.7 Le combinazioni con ripetizione dei 3 oggetti a, b, c, presi a coppie sono fa, ag, fa, bg, fa, cg, fb, bg, fb, cg, fc, cg . Analogamente, le combinazioni con ripetizione dei 2 oggetti a e b presi a terne sono fa, a, ag, fa, a, bg, fa, b, bg, fb, b, bg . Proposizione Il numero di combinazioni con ripetizione di n oggetti presi k alla volta è C R (k; n) = n+k¡1 . k Dimostrazione Si tratta di contare il numero di soluzioni (a1 , a2 , . . . , ak ), con gli ai numeri interi, soddisfacenti la relazione 1 · a1 · a2 · ¢ ¢ ¢ · ak · n . Questa relazione equivale alla seguente 0 < a1 < a2 + 1 < a3 + 2 < ¢ ¢ ¢ < ak + k ¡ 1 < n + k , che a sua volta equivale a 0 < b1 < b2 < ¢ ¢ ¢ < bk < n + k , con i bi interi. Ne consegue che il numero cercato è uguale al numero di possibili scelte di k oggetti distinti presi dall’insieme f1, 2, . . . , n + k ¡ 1g, e quindi è uguale a C(k; n + k ¡ 1). Applichiamo la formula che ci dà C R (k; n) per verificare che il numero di combinazioni con ripetizione nei due casi visti nell’esempio 1.1.7 è rispettivamente 6 e 4. Dobbiamo ovviamente calcolare C R (2, 3) e C R (3, 2). Si ha Esempio 1.1.8 3+2¡1 4 C (2, 3) = = = 6; 2 2 2+3¡1 4 C R (3, 2) = = = 4. 3 3 R 4 Esercizio 1.1.1 Si consideri un gruppo costituito da 20 persone. Ci si pone il seguente problema: qual è la probabilità che queste persone compiano gli anni in giorni tutti diversi? Com’è facilmente intuibile, la probabilità che ci interessa è data dal rapporto fra il numero Ndist dei casi possibili di 20 compleanni tutti distinti e il numero totale Ntot dei casi possibili di 20 compleanni anche con coincidenze. Volendo formalizzare il problema in termini matematici, indichiamo con (c1 , c2 , ..., c20 ) la 20¡upla definita dai 20 compleanni, con ci giorno di compleanno della i-esima persona. Allora Ndist corrisponde al numero delle possibili 20¡uple di ci tutti distinti, con 1 · ci · 365, il che implica Ndist = D(20; 365). D’altra parte Ntot corrisponde al numero di tutte le possibili 20¡uple con 1 · ci · 365, ossia Ntot = D R (20; 365). Indicando con P la probabilità cercata si ha P= 346 D(20; 365) 365 ¢ 364 ¢ ¢ ¢ ¢ ¢ 346 365 364 Ndist = ¢ ¢ ¢ ¼ 59% . = R = Ntot D (20, 365) (365)20 365 365 365 Proposizione Vale la seguente formula, detta formula binomiale di Newton: n n n n n n n−1 n−1 (a + b) = a + a b + ... + ab + b 0 1 n¡1 n n ovvero, in notazione compatta, (a + b)n = n n k=0 Dimostrazione k an−k bk . (a + b)n = (a + b)(a + b)...(a + b) [n volte] è una lunga somma che contiene più volte l’addendo generico an−k bk . Fissiamo k, con k · n. Quante volte appare tale addendo? Tante quante le possibili scelte di k parentesi tra le n date, prendendo da ciascuna il fattore b (ottenendo cosı̀ bk ), e conseguentemente prendendo da ciascuna delle rimanenti n ¡ k parentesi il fattore a (ottenendo cosı̀ an−k ). In altre parole: il fattore an−k bk compare tante volte quante n sono le combinazioni semplici di k oggetti tra gli n dati. Cioè volte. Quindi tale k n addendo va moltiplicato per e la somma va fatta rispetto a k come enunciato. k Esercizio 1.1.2 Provare la proprietà dei coefficienti binomiali n¡1 n¡1 n + = . k¡1 k k Procediamo con calcolo diretto: n¡1 n¡1 (n ¡ 1)! (n ¡ 1)! + = + = k¡1 k (k ¡ 1)! (n ¡ k)! k! (n ¡ 1 ¡ k)! (n ¡ 1)! k + (n ¡ 1)! (n ¡ k) (n ¡ 1)! (k + n ¡ k) n = = = . k! (n ¡ k)! k! (n ¡ k)! k Osserviamo che è grazie a questa relazione che si costruisce il famoso “triangolo di Tartaglia”. 5 1.2 LA PROBABILITÀ MATEMATICA Definizione Si chiama spazio campionario l’insieme S di tutti i possibili esiti di un dato esperimento. Un evento è un insieme di esiti, cioè un sottinsieme dello spazio campionario S. Si dice poi classe di eventi, e la denoteremo con Ω, ogni insieme non vuoto di eventi che risulti essere chiuso rispetto alle operazioni insiemistiche elementari, vale a dire: i) dati due eventi A, B 2 Ω, allora anche A [ B 2 Ω (A [ B è l’evento che si verifica se si verifica almeno uno fra gli eventi A e B); ii) data una successione numerabile di eventi Ai 2 Ω, allora anche la loro unione è un evento, cioè ∞ i=1 Ai 2 Ω; iii) dato un evento A 2 Ω, allora anche il suo complementare AC ´ S ¡ A 2 Ω (AC è l’evento che si verifica quando A non si verifica). Dai tre assiomi che caratterizzano una classe di eventi Ω seguono queste altre proprietà: — Dati due eventi A e B , anche A \ B è un evento; A \ B = (AC [ B C )C A \ AC = ; =) A\ B 2 Ω; =) — L’insieme vuoto ; e lo spazio S sono eventi; ; 2 Ω, infatti: infatti, preso A 2 Ω, si ha A [ AC = S =) S 2 Ω. L’evento ; è detto evento impossibile e S è detto evento certo. Definizione Due eventi A e B sono detti incompatibili se sono disgiunti, cioè se A \ B = ;. A parole: due eventi sono incompatibili se non si possono mai verificare simultaneamente. Esempio 1.2.1 Si consideri il seguente esperimento: si getta un dado e si guarda il risultato della prova, vale a dire il numero che si presenta. Lo spazio campionario consiste nei sei numeri possibili: S = f1, 2, 3, 4, 5, 6g . Consideriamo i seguenti eventi: A:“il risultato è un numero pari”; B :“il risultato è un numero dispari”; C :“il risultato è un numero primo”. In termini si sottinsiemi di S : A = f2, 4, 6g , Si ha quindi, ad esempio: B = f1, 3, 5g , C = f2, 3, 5g . AC = f1, 3, 5g = B ; C C = f1, 4, 6g: è l’evento “il risultato non è un numero primo”; B \ C = f3, 5g: è l’evento “il risultato è un numero dispari e primo”; A [ C = f2, 3, 4, 5, 6g: è l’evento “il risultato è un numero pari o primo”. Si noti che gli eventi A e B , essendo A \ B = ;, sono incompatibili. 6 Osservazione: Come si evince dall’esempio, gli eventi sono definiti mediante proposizioni fatte nel linguaggio comune, e poi identificati con sottinsiemi di S . Sulla base di questa considerazione risulta molto più appropriato parlare di eventi incompatibili piuttosto che di eventi disgiunti, e di sottinsiemi disgiunti piuttosto che di sottinsiemi incompatibili. Accade però spesso che i due aggettivi siano usati indifferentemente. Definizione Sia S uno spazio campionario ed Ω una classe di eventi in S. Sia poi P una funzione definita su Ω a valori in [0, 1]: P : Ω ¡! [0, 1] . Allora (S, Ω, P ) è detto spazio di probabilità e P (A) è detta probabilità dell’evento A 2 Ω se valgono i seguenti tre assiomi: 1) P (S) = 1 ; 2) se A e B sono due eventi incompatibili, allora 3) P (A [ B) = P (A) + P (B) ; se fAn , n 2 N g è una successione numerabile di eventi incompatibili, si ha ∞ P [∞ A = P (An ) . n n=1 n=1 Gli assiomi 2) e 3) esprimono il fatto che le probabilità di eventi incompatibili si sommano. In particolare l’assioma 3), che ovviamente ha significato solo nel caso in cui Ω è un insieme infinito, si esprime sinteticamente dicendo che P è numerabilmente additiva. Teorema P (;) = 0 . (La probabilità dell’evento impossibile è nulla) Dimostrazione Sia A un qualunque evento di Ω. Poiché anche ; 2 Ω, segue che A [ ; 2 Ω. Inoltre, A ed ; sono eventi incompatibili essendo A \ ; = ;. In virtù dell’assioma 2) si ha quindi P (A) = P (A [ ;) = P (A) + P (;) =) P (;) = 0 . Teorema (regola di complementazione) Sia A 2 Ω un evento ed AC il suo comple- mentare. Allora si ha P (AC ) = 1 ¡ P (A) . Dimostrazione Essendo A \ AC = ;, A ed AC sono eventi incompatibili. Di conseguenza, applicando l’assioma 2) ad S, si ottiene P (S) = P (A [ AC ) = P (A) + P (AC ) = 1 , da cui consegue banalmente la tesi. 7 Teorema Se A e B sono due eventi tali che A µ B , allora P (A) · P (B) . Dimostrazione Essendo A µ B si può decomporre B negli eventi incompatibili A e B ¡ A = B \ AC . Si può quindi scrivere P (B) = P (A [ (B ¡ A)) = P (A) + P (B ¡ A) ¸ P (A) , esssendo P (B ¡ A) ¸ 0. Teorema Se A e B sono due eventi qualun- que, allora P (A ¡ B) = P (A) ¡ P (A \ B) . Dimostrazione L’evento A può essere decomposto negli eventi incompatibili A ¡ B e A \ B, per cui, in virtù dell’assioma 2), si ha P (A) = P (A ¡ B) [ (A \ B) = P (A ¡ B) + P (A \ B) . La tesi segue immediatamente. Teorema (regola di addizione per eventi arbitrari) Se A, B sono eventi arbitrari di uno spazio di probabilità, allora P (A [ B) = P (A) + P (B) ¡ P (A \ B) . Dimostrazione Scriviamo A [ B come unione dei due eventi incompatibili A ¡ B e B. Applicando quindi l’assioma 2) e il teorema precedente si ottiene la tesi. P (A [ B) = P (A ¡ B) [ B = P (A ¡ B) + P (B) = P (A) + P (B) ¡ P (A \ B) . 8 Spazi di probabilità finiti Sia S uno spazio campionario finito: S = fa1 , a2 , . . . , aN g ed Ω l’insieme di tutti i sottinsiemi di S (inclusi S e ;). Si ottiene uno spazio di probabilità finito assegnando a ciascun elemento ai di S un numero reale pi , detto probabilità di ai e indicato come P (fai g), tale che i) ii) pi ¸ 0 per ogni i = 1, 2, . . . , N ; la somma delle singole probabilità è uguale a 1, ossia N i=1 pi = 1 . La probabilità P (A) di un qualsiasi evento A µ S viene quindi definita come la somma delle probabilità degli eventi elementari fai g contenuti in A: P (A) = P fai g = P fai g = pi . i:ai ∈A i:ai ∈A i:ai ∈A Dimostriamo che la funzione P : Ω ! [0, 1] è una funzione di probabilità facendo vedere che valgono gli assiomi 1) e 2). Per quanto riguarda la validità dell’assioma 1), si ha P (S) = P N N N fai g = P fai g = P fai g = pi = 1 . i=1 i:ai ∈S i=1 i=1 D’altra parte, se A e B sono eventi incompatibili, abbiamo P (A [ B) = P = i:ai ∈A∪B i:ai ∈A pi + fai g = i:ai ∈A∪B P fai g = pi = P (A) + P (B) , i:ai ∈B per cui vale anche l’assioma 2). Valgono dunque tutti gli assiomi richiesti perché P sia una probabilità (essendo lo spazio finito, l’assioma 3) non ha significato). Dal punto di vista pratico ci sono diversi modi di assegnare le probabilità pi agli eventi elementari fai g. Uno dei possibili modi è il seguente: se ripetiamo lo stesso esperimento n volte e chiamiamo si il numero di volte che si verifica fai g, si osserva che il rapporto si , n detto frequenza relativa, a lungo andare tende a stabilizzarsi, cioè tende ad un limite pi (compreso, ovviamente, tra 0 ed 1). Questo valore limite pi , cosı̀ calcolato empiricamente, viene assunto come la probabilità dell’evento elementare fai g. 9 Spazi finiti equiprobabili Definizione Si dice spazio equiprobabile (o uniforme) uno spazio di probabilità finito dove ciascun elemento dello spazio campionario S (o, equivalentemente, ciascun evento elementare) ha la stessa probabilità. Dalla definizione e dagli assiomi della probabilità segue immediatamente che, se lo spazio campionario S consta di N elementi, la probabilità di ciascun elemento di S 1 vale p = . Avremo inoltre che, dato un qualunque evento A, la sua probabilità sarà N da numero degli elementi di A jAj = . P (A) = N N A parole: in uno spazio finito equiprobabile, la probabilità di un evento vale il numero dei casi favorevoli diviso il numero dei casi possibili. Nota bene: jAj denota la cardinalità di A, cioè il numero degli eventi elementari che costituiscono A. Questa notazione sarà utizzata anche in seguito. Esempio 1.2.2 Consideriamo un dado non truccato: avremo S = f1, 2, 3, 4, 5, 6g, P (1) = P (2) = ¢ ¢ ¢ = P (6) = N = 6, 1 6 . Vogliamo calcolare, ad esempio, la probabilità degli eventi A : esce un numero pari, B : esce un numero minore di 3. Si avrà P (A) = 1 jf2, 4, 6gj = , 6 2 P (B) = jf1, 2gj 1 = . 6 3 Esercizio 1.2.1 Si scelga a caso una carta da un mazzo ben mescolato di 52 carte da ramino. Ci si chiede la probabilità di ottenere: 1) un asso; 2) una carta di fiori; 3) una figura; 4) una figura non di cuori. Lo spazio campionario S è ovviamente l’insieme delle 52 carte, per cui N =52. Siano poi A1 , A2 , A3 e A4 gli eventi di cui si chiede, nell’ordine, la probabilità. Essendo lo spazio equiprobabile (la carta è scelta a caso!), avremo: jA1 j N jA2 j P (A2 ) = N jA3 j P (A3 ) = N jA4 j P (A4 ) = N P (A1 ) = 4 1 = ; 52 13 numero delle carte di fiori 13 1 = = = ; N 52 4 numero delle figure 12 3 = = = ; N 52 13 numero delle figure non di cuori 9 = = . N 52 = numero degli assi N 10 = Esercizio 1.2.2 Si effettuano cinque lanci successivi di una moneta non truccata. Ci si chiede: qual è la probabilità che in cinque lanci esca “testa” almeno una volta? Introduciamo l’appropriato spazio di probabilità: S = (a1 , a2 , a3 , a4 , a5 ), con ai = T o ai = C, i = 1, ..., 5 , dove ai indica il risultato del lancio i-esimo, e T e C stanno ovviamente per “testa” e “croce”. Siccome il numero delle possibili cinquine che costituiscono S è 25 , abbiamo N = 32, e quindi 1 p = 32 . L’evento che ci interessa è A = “esce almeno una testa” , che è il complementare dell’evento elementare f(C, C, C, C, C)g, la cui probabilità è ovviamente p. Si ha quindi P (A) = 1 ¡ P (AC ) = 1 ¡ 1 31 = . 32 32 Esercizio 1.2.3 Problema: qual è la probabilità che fra M persone ce ne siano almeno due con lo stesso compleanno? Il problema, nella sostanza, è già stato affrontato nell’esercizio 1.1.1. Assunto che tutti gli anni siano di 365 giorni (considerare anche gli anni bisestili complicherebbe considerevolmente il problema), e che tutti i giorni siano equiprobabili, lo spazio di probabilità è S = (a1 , a2 , . . . , aM ), ai 2 [1, 2, . . . , 365] . Siccome il numero degli eventi elementari è N = DR (M ; 365) = 365M , ogni evento ele- 1 . 365M Indicato con AM l’evento “gli M compleanni avvengono tutti in giorni diversi”, l’evento di cui interessa la probabilità è il complementare di AM , cioè AC M . Ricordando quanto visto mentare ha probabilità p = nell’esercizio 1.1.1, generalizzandone il risultato si ottiene P (AM ) = jAM j D(M ; 365) 365 ¢ 364 ¢ ¢ ¢ ¢ ¢ (365 ¡ M + 1) = R = , jSj D (M ; 365) 365M e quindi, in virtù della regola di complementazione, P (AC M) =1¡ M i=1 (366 365M ¡ i) . C C Facendo il calcolo, si ottiene, ad esempio, P (AC 10 ) ¼ 12%, P (A20 ) ¼ 41%, P (A30 ) ¼ 71%, C P (A50 ) ¼ 97%. 11 Esercizio 1.2.4 Carlo e Giorgio sono due amici che ogni giorno scommettono sul risultato del lancio di un dado. Carlo punta sempre su un risultato dispari, Giorgio su un risultato pari. Giorgio crede che i numeri riportati sulle facce del dado (ovviamente gli interi da 1 a 6) siano equiprobabili. In realtà non è cosı̀ in quanto Carlo, di nascosto, ha “truccato” il dado facendo in modo che il numero 1 abbia probabilità 15 , lasciando però che gli altri numeri siano equiprobabili. Quali sono le probabilità di vincere di Carlo e Giorgio rispettivamente? Lo spazio campionario è ovviamente S = f1, 2, 3, 4, 5, 6g . Sia pi = P fig . Siccome sappiamo che p1 = 15 e che p2 =p3 =p4 =p5 =p6 , dovendo essere 6 4 i=1 pi = 1, si ricava pi = 25 , per i = 2, . . . , 6. L’evento per cui vince Carlo è A = “il risultato è dispari” = f1, 3, 5g . Ovviamente l’evento per cui vince Giorgio è AC . Si ha dunque P (A) = P f1, 3, 5g = P f1g + P f3g + P f5g = 1 5 + 4 25 + 4 25 = 13 25 , e quindi P (AC ) = 1 ¡ P (A) = 12 25 . In fin dei conti, Carlo è stato sleale, ma poteva esserlo molto di più. Esercizio 1.2.5 Le probabilità che tre giocatori G1 , G2 e G3 colpiscano il bersaglio sono rispettivamente p1 = 16 , p2 = 14 , p3 = 13 . Ciascuno spara una volta al bersaglio. Trovare la probabilità degli eventi: a) A: “un solo giocatore colpisce il bersaglio”; b) B : “uno o due giocatori colpiscono il bersaglio”. Sia S ´ (s1 , s2 , s3 ) , con si = Y oppure si = N a seconda che il giocatore Gi colpisca oppure no il bersaglio. E quindi S ´ (Y,Y,Y), (Y,Y,N), (Y,N,Y), (Y,N,N), (N,Y,Y), (N,Y,N), (N,N,Y), (N,N,N) . Sappiamo che P (fsi = Yg) = pi e di conseguenza P (fsi = Ng) = 1 ¡ pi . Essendo il risultato di ciascun sparo indipendente dagli altri (il concetto di “eventi indipendenti” sarà definito in maniera rigorosa più avanti), si ha P (s1 , s2 , s3 ) = P (fs1 g) ¢ P (fs2 g) ¢ P (fs3 g) . Avremo perciò P (A) = P 1 = 6 (Y,N,N) + P (N,Y,N) + P (N,N,Y) = 3 2 5 1 2 5 3 1 31 ¢ ¢ + ¢ ¢ + ¢ ¢ = 4 3 6 4 3 6 4 3 72 C P (B) = P f(Y, Y, Y ), (N, N, N )g = 1 ¡ P (Y, Y, Y ) + P (N, N, N ) = 1 1 1 5 3 2 41 ¢ ¢ + ¢ ¢ = . =1¡ 6 4 3 6 4 3 72 12 Esercizio 1.2.6 Un dado “equo” a 4 facce riportanti i numeri 1, 2, 3 e 4 è lanciato tre volte. Si chiede la probabilità di ottenere: i) almeno un tre; ii) nessun uno e nessun due. Lo spazio campionario è S = f(a1 , a2 , a3 ) , ai 2 [1, 2, 3, 4] , i = 1, 2, 3 .g Sia A l’evento “si è ottenuto almeno un 3”. Indicando con Qk l’evento “il risultato del C C k-esimo lancio è 3”, si ha AC = QC 1 \ Q2 \ Q3 . Essendo poi gli eventi Q1 , Q2 e Q3 indipendenti uno dall’altro (in quanto il risultato di ciascuno non dipende da quello degli altri due), anche gli eventi complementari QC k sono indipendenti. Tenendo conto di ciò e del 3 C C fatto che P (Q1 ) = P (Q2 ) = P (Q3 ) = 14 , per cui P (QC 1 ) = P (Q2 ) = P (Q3 ) = 4 , si ha C C C C C P (A) = 1 ¡ P (AC ) = 1 ¡ P QC 1 \ Q2 \ Q3 = 1 ¡ P (Q1 ) ¢ P (Q2 ) ¢ P (Q3 ) = 3 3 37 =1¡ = ¼ 57.8% . 4 64 Sia ora B l’evento “non si è ottenuto nessun uno e nessun due”. Indicando con Rk l’evento “il risultato del k -esimo lancio è 3 o 4”, si ha B = R1 \ R2 \ R3 . Anche in questo caso i tre eventi Rk sono indipendenti; inoltre P (R1 ) = P (R2 ) = P (R3 ) = 12 . Ne consegue 1 3 1 P (B) = P (R1 \ R2 \ R3 ) = P (R1 ) ¢ P (R2 ) ¢ P (R3 ) = = = 12.5% . 2 8 Esercizio 1.2.7 Un’urna contiene 20 palline numerate progressivamente. a) Vengono estratte in blocco 4 palline: qual è la probabilità che venga estratta la pallina numero 1? b) Vengono estratte una dopo l’altra 4 palline ogni volta con reimmissione: qual è la probabilità che venga estratta la pallina numero 1? Sia A l’evento ”fra le 4 palline estratte c’è anche la numero 1”. L’evento complementare AC è dunque ”fra le 4 palline estratte non c’è la numero 1”. Calcoleremo P (A) come 1¡P (AC ), essendo P (AC ) molto semplice. a) Assumiamo come spazio S l’insieme di tutte le possibili disposizioni (p1 , p2 , p3 , p4 ) dei numeri da 1 a 20 presi quattro alla volta (senza ripetizioni). Essendo tali quaterne equiprobabili, avremo P (A) = 1 ¡ jAC j D(4; 19) 19 ¢ 18 ¢ 17 ¢ 16 16 1 =1¡ =1¡ =1¡ = . jSj D(4; 20) 20 ¢ 19 ¢ 18 ¢ 17 20 5 Allo stesso risultato si poteva pervenire anche per altra via. Come spazio S, infatti, si può assumere l’insieme di tutte le possibili combinazioni di 4 numeri interi (distinti) presi tra 1 e 20. Anche le combinazioni sono equiprobabili, per cui si ha 19 jAC j C(4; 19) 19! 16! 4! 4 1 4 =1¡ P (A) = 1 ¡ =1¡ = 1 ¡ 20 =1¡ = . jSj C(4; 20) 15! 4! 20! 5 5 4 b) In questo caso, affinchè lo spazio campionario sia equiprobabile, bisogna assumere S costituito da tutte le possibili disposizioni con ripetizione di 4 interi presi tra 1 e 20. Si ha dunque P (A) = 1 ¡ 19 4 D R (4; 19) 194 = 1 ¡ = 1 ¡ ¼ 1 ¡ 0.815 = 18.5% . D R (4; 20) 204 20 13 Esercizio 1.2.8 Da un mazzo ben mescolato di 52 carte da ramino se ne estraggono 5 a caso. Si chiede la probabilità di: 1) un poker (PO); 2) un full (FU); 3) una doppia coppia (CC); 4) una coppia (C). Lo spazio campionario S è costituito da tutte le possibili cinquine (non ordinate) di carte ottenute combinando senza ripetizioni le 52 carte di un mazzo, ossia S = f(c1 , c2 , c3 , c4 , c5 ) , ci 6 = cj g , N= 52 5 = 2· 598· 960 . La probabilità di ciascun evento si ottiene calcolando il numero degli eventi favorevoli e dividendolo per N . Volendo calcolare la probabilità di un poker, contiamo quante sono le possibili cinquine con quattro carte “uguali”. Scelte 4 carte “uguali”, e ci sono 13 possibili scelte, la quinta carta può essere una qualunque fra le rimanenti 48. Avremo dunque P (P O) = 13¢48 ¼ 0.024% . N Volendo poi un full, cioè una cinquina del tipo aaabb, osserviamo che ogni tris aaa può essere 4 ottenuto con 13 diverse carte “a” e che per ciascun “a” se ne possono poi ottenere una volta scelto il tris, la si può ottenere con 3 = 4; per quanto riguarda poi la coppia bb, 12 diverse carte “b”, e per ciascun “b” ci sono 42 = 6 possibilità. Si ha quindi P (F U ) = 13¢ 4 3 ¢12¢ N 4 2 = 13¢4¢12¢6 ¼ 0.14% . N La domanda 3) concerne le doppie coppie, cioè le cinquine del tipo aabbc. Ragionando in modo analogo a quanto fatto per le precedenti domande, si ha P (CC) = 13¢ 4 2 ¢12¢ 42 ¢11¢ 41 13¢6¢12¢6¢11¢4 = ¼ 4.75% , 2¢N 2¢N dove il 2 a denominatore tiene conto del fatto che sono state conteggiate sia le ”quaterne” del tipo aabb che quelle del tipo bbaa. La domanda 4) richiede di calcolare la probabilità di una semplice coppia, vale a dire una cinquina del tipo aabcd. In questo casi si ha P (C) = 13¢ 4 2 ¢12¢ 4 ¢11¢ 6¢N 1 4 1 ¢10¢ 4 1 = 13¢6¢12¢4¢11¢4¢10¢4 ¼ 42.3% , 6¢N dove il 6 a denominatore tiene conto del fatto che per la formazione di una coppia del tipo aabcd sono state conteggiate tutte le possibili terne bcd, bdc, cbd, cdb, dbc e dcb (cioè le possibili permutazioni dei tre ogetti a, b, c). 14 1.3 PROBABILITÀ CONDIZIONATA Definizione Dato uno spazio di probabilità (S, Ω, P ) e due eventi A e B di Ω con P (B) > 0, si chiama probabilità condizionata di A dato B il numero P (A \ B)/P (B). Tale numero, che esprime la probabilità che avvenga A una volta che sia avvenuto B , sarà indicato con P (AjB). Si ha dunque, per definizione, P (AjB) = P (A \ B) . P (B) Nel caso di uno spazio S finito ed equiprobabile, indicato con jEj il numero degli elementi di un evento E 2 S, si ha P (A \ B) = e quindi jA \ Bj , jSj P (AjB) = P (B) = jBj , jSj jA \ Bj . jBj Esercizio 1.3.1 Si lanci una coppia di dadi. Se la loro somma è 6, si determini la probabilità che almeno uno dei dadi abbia dato come risultato 2. Lo spazio campionario è S = f(h, k), h, k = 1, 2, 3, 4, 5, 6g , per cui, indicati con A e B i due eventi B = “la somma è 6” = f(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)g , A = “almeno un 2” = f(2, 2), (2, k), (h, 2), h, k = 1, 3, 4, 5, 6g , si ha A \ B = f(2, 4), (4, 2)g. Essendo lo spazio equiprobabile, ne consegue P (AjB) = jA \ Bj 2 = . jBj 5 Esercizio 1.3.2 In una popolazione i genotipi AA, Aa e aa (che rappresentano in questo problema gli eventi elementari) abbiano probabilità rispettivamente P (AA) = 49 42 9 , P (Aa) = , P (aa) = . 100 100 100 Supponiamo che dopo un certo tempo muoiano sistematicamente gli individui di tipo aa, sicchè gli adulti sono o AA o Aa. Ci si chiede: qual è la probabilità di AA fra gli adulti? Bisogna calcolare la probabilità condizionata di AA dato l’evento B = AA [ Aa : P (AAj AA[Aa) = P (AA \ [AA [ Aa]) P (AA) 0.49 0.49 = = = ¼ 54% . P (AA [ Aa) P (AA [ Aa) 0.49 + 0.42 0.91 15 Teorema (o legge) delle probabilità composte Dati gli eventi A e B , con P (B) > 0, vale la relazione P (A \ B) = P (B)¢P (AjB) . La dimostrazione segue banalmente dalla definizione di probabilità condizionata. La legge appena formulata, che permette di calcolare la probabilità dell’intersezione di due eventi note la probabilità di uno e la probabilità condizionata dell’altro dato il primo, si può facilmente estendere a più eventi. Riscritta la legge nel caso di due eventi A1 e A2 , P (A1 \ A2 ) = P (A1 )¢P (A2 jA1 ) , quella per tre eventi A1 , A2 e A3 si ricava immediatamente P (A1 \ A2 \ A3 ) = P ([A1 \ A2 ] \ A3 ) = P (A1 \ A2 )¢P (A3 jA1 \ A2 ) = = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) . Generalizzando al caso di n eventi A1 , A2 , . . . , An si ottiene P \ni=1 Ai = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) ¢ ¢ ¢ P (An jA1 \ A2 \ ¢ ¢ ¢ \ An−1 ) . Esercizio 1.3.3 Un’urna contiene 9 palline rosse e 6 gialle. Una dopo l’altra vengono estratte a caso, senza reimmissione, tre palline. Calcolare la probabilità che siano tutte rosse. Denotiamo con Ak , con k = 1, 2, 3, l’evento “la k -esima pallina è rossa”. L’evento di cui ci interessa la probabilità è A1 \ A2 \ A3 . Dal teorema delle probabilità composte segue che P (A1 \ A2 \ A3 ) = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) = Proposizione 9 8 7 12 ¢ ¢ = . 15 14 13 65 Dati due eventi A e B , con P (A) > 0 e P (B) > 0, vale la relazione P (AjB) = P (A) ¢P (BjA) . P (B) Questa relazione consegue immediatamente dalla legge della probabilità composta scrivendo P (A \ B) = P (B)¢P (AjB) = P (A)¢P (BjA) . È una formula di grande utilità in quanto permette di ricavare la probabilità condizionata di un evento A dato B, sapendo la probabilità condizionata di B dato A. Ciò aiuta, ad esempio, nelle diagnosi delle malattie, come si vede nell’esercizio che segue. Esempio 1.3.1 Se la probabilità teorica del sintomo B , data la malattia A, è il 30%, posso calcolare la probabilità che un paziente affetto dal sintomo B abbia la malattia A. Se, ad esempio, in Emilia la percentuale delle persone affette dalla malattia A è il 15% e quella delle persone che manifestano il sintomo B è il 5%, per cui P (A) = 0.15 e P (B) = 0.05, la probabilità della malattia A dato il sintomo B è P (AjB) = P (A) 0.15 ¢P (BjA) = ¢ 0.30 = 90% . P (B) 0.05 16 EVENTI INDIPENDENTI Definizione Due eventi A e B si dicono indipendenti se P (A \ B) = P (A)¢P (B) . Il significato di questa definizione, che vale qualunque siano gli eventi A e B, appare chiaro se si considerano eventi di probabilità non nulla. Infatti, se P (B) > 0, dalla definizione di probabilità condizionata, segue P (A) = P (AjB) , e analogamente, supposto P (A) > 0, si ha P (B) = P (BjA) . A parole: la probabilità di A non dipende dal verificarsi oppure no di B, e viceversa. Ciò giustifica la terminologia. Teorema Se A e B sono indipendenti, lo sono anche A e B C , AC e B , AC e B C . Dimostrazione Dimostriamo dapprima l’indipendenza di A e B C . Essendo P (B C ) = 1 ¡ P (B) , si ha P (A) = P (A \ B) + P (A \ B C ) , P (A \ B C ) = P (A) ¡ P (A \ B) = P (A) ¡ P (A)¢P (B) = = P (A)¢[(1 ¡ P (B)] = P (A)¢P (B C ) . Quindi, se A e B sono indipendenti, lo sono anche A e B C . Scambiando l’ordine, si può dedurre che lo sono anche AC e B, e quindi anche AC e B C . Esercizio 1.3.4 Un test diagnostico di una malattia è corretto nel 98% dei casi. Ci si chiede: ripetendo due volte il test sullo stesso soggetto, qual è la probabilità di un doppio errore? Sia A = “errore nel primo test”, B = “errore nel secondo test”. Essendo i due eventi indipendenti, si ha P (A \ B) = P (A)¢P (B) = 2 2 4 ¢ = = 0.04% . 100 100 10000 Esercizio 1.3.5 Aldo e Bruno sparano ad un bersaglio. Siano A e B rispettivamente l’evento “Aldo fa centro” e “Bruno fa centro”. Modello la situazione con una funzione di probabilità P tale che P (A) = 14 e P (B) = 25 , e supponendo che A e B siano indipendenti. Supposto che Aldo e Bruno sparino contemporaneamente contro il bersaglio, qual è la probabilità che 1) almeno uno dei due centri il bersaglio? 2) uno solo dei due centri il bersaglio? 17 L’evento “almeno uno fa centro” è A [ B . Siccome A e B sono indipendenti, avremo P (A [ B) = P (A) + P (B) ¡ P (A \ B) = P (A) + P (B) ¡ P (A)¢P (B) = 1 2 1 2 11 = + ¡ ¢ = . 4 5 4 5 20 Per quanto riguarda invece l’evento “uno solo fa centro”, esso è dato da (A\B C )[(AC \B). Tenendo conto che A ed B C sono indipendenti, cosı̀ come AC e B , e che gli eventi A \ B C e (AC \ B) sono incompatibili, si ha P (A \ B C ) [ (AC \ B) = P (A \ B C ) + P (AC \ B) = = P (A)¢P (B C ) + P (AC )¢P (B) = 1 3 3 2 9 = ¢ + ¢ = . 4 5 4 5 20 Definizione Dato uno spazio di probabilità (S, Ω, P ) si chiama partizione di S un insieme di eventi incompatibili A1 , A2 , . . . , Ai , ¢ ¢ ¢ 2 Ω tali che Ai = S . i Nel seguito considereremo partizioni finite, cioè partizioni formate da un numero finito n di eventi. In tal caso l’indice i assumerà ovviamente i valori da 1 a n. Teorema (o formula) della probabilità totale (o di fattorizzazione) Dato un evento B e una partizione finita A1 , A2 , ...An di S, con P (Ai ) > 0 per ogni i, si ha n P (B) = P (Ai )¢P (BjAi ) . i=1 Dimostrazione In virtù della definizione della legge delle probabilità composte, per ogni i possiamo scrivere P (Ai \ B) = P (Ai )¢P (BjAi ) . Sommando per i che va da 1 ad n, si ha n n i=1 P (Ai \ B) = i=1 P (Ai )¢P (BjAi ) , da cui, essendo n n n i=1 P (Ai \ B) = P i=1 (Ai \ B) = P ( i=1 Ai ) \ B = P (S \ B) = P (B) , consegue la tesi. Esercizio 1.3.6 Una fabbrica di autovetture riceve da tre fornitori i cambi da installare sulle auto nelle seguenti percentuali: 65%, 25% e 10%. Sapendo che i tre fornitori producono i cambi con una difettosità rispettivamente del 5%, 10% e 25%, si vuole conoscere la probabilità che la fabbrica di auto ha di ricevere un cambio difettoso. 18 In questo caso l’esperimento consiste nell’arrivo di un cambio. I possibili eventi elementari (e quindi incompatibili) sono i Bk , k = 1, 2, 3, essendo Bk l’evento ”il cambio arriva dal fornitore k -esimo”. Chiaramente i Bk costituiscono una partizione di S. Indicato poi con A l’evento ”il cambio ricevuto è difettoso”, si richiede P (A). I dati dell’esercizio sono i seguenti: P (B1 ) = 65% , P (B2 ) = 25% , P (B3 ) = 10% ; P (AjB1 ) = 5% , P (AjB2 ) = 10% , P (AjB3 ) = 25% . Utilizzando la formula di fattorizzazione si ha immediatamente P (A) = 3 P (Bi )¢P (AjBi ) = 0.65¢0.05 + 0.25¢0.10 + 0.10¢0.25 = 0.0825 = 8.25% . i=1 Esercizio 1.3.7 Com’è noto, le trasfusioni di sangue possono avvenire con le modalità seguenti: dal gruppo 0 a tutti i gruppi; da A ai gruppi A e AB ; da B ai gruppi B e AB ; da AB al solo gruppo AB . Supposto che le frequenze dei gruppi sanguigni siano P (0) = 52%, P (A) = 32%, P (B) = 10%, P (AB) = 6% , ci si chiede: qual è la probabilità che un individuo x, scelto a caso, possa donare sangue a un individuo y pure scelto a caso? Sia S l’insieme delle coppie (x, y) in cui sia x che y possono essere uguali a 0, A, B o AB . L’evento di cui vogliamo calcolare la probabilità è “x è donatore per y ” e lo indichiamo con [x ) y]. Introduciamo poi gli eventi [x=0] = f(0, 0), (0, A), (0, B), (0, AB)g , [x=A] = f(A, 0), (A, A), (A, B), (A, AB)g , [x=B] = f(B, 0), (B, A), (B, B), (B, AB)g , [x=AB] = f(AB, 0), (AB, A), (AB, B), (AB, AB)g , e analogamente gli eventi [y =0], [y =A], [y =B],[y =AB]. Per calcolare P ([x ) y]) si può usare il teorema della probabilità totale in due modi diversi: in un caso considereremo come partizione di S gli eventi [x = 0], [x = A], [x = B] e [x = AB], nell’altro gli eventi [y = 0], [y =A], [y =B] e [y =AB]. Modo 1 P ([x ) y]) = P ([x=0])¢P ([x ) y][x=0]) + P ([x=A])¢P ([x ) y][x=A])+ + P ([x=B])¢P ([x ) y][x=B]) + P ([x=AB])¢P ([x ) y][x=AB]) = 52 32 32 6 10 10 6 6 6 = ¢1 + ¢ + + ¢ + + ¢ ' 66% . 100 100 100 100 100 100 100 100 100 Modo 2 P ([x ) y]) = P ([y =0])¢P ([x ) y][y =0]) + P ([y =A])¢P ([x ) y][y =A])+ + P ([y =B])¢P ([x ) y][y =B]) + P ([y =A]B)¢P ([x ) y][y =AB]) = 52 52 32 52 32 10 52 10 6 = ¢ + ¢ + + ¢ + + ¢1 ' 66% . 100 100 100 100 100 100 100 100 100 19 Modo 3 L’esercizio può essere risolto anche senza ricorrere al teorema della probabilità totale, e ciò in virtù del fatto che l’evento [x ) y] può essere visto come unione di eventi elementari (x, y); più precisamente [x ) y] ´ f(0, 0), (0, A), (0, B), (0, AB), (A, A), (A, AB), (B, B), (B, AB), (AB, AB)g . Poiché gli per cui individui sono scelti a caso, x e y sono indipendenti uno dall’altro, 32 6 P (x, y) = P (x)¢P (y). Ad esempio, P (A, AB) = P (A)¢P (AB) = 100 ¢ 100 . Si ha quindi P [x ) y] = P (0, 0) + P (0, A) + P (0, B) + P (0, AB) + P (A, A) + + P (A, AB) + P (B, B) + P (B, AB) + P (AB, AB) = = P (0)¢P (0) + P (0)¢P (A) + P (0)¢P (B) + P (0)¢P (AB) + P (A)¢P (A)+ + P (A)¢P (AB) + P (B)¢P (B) + P (B)¢P (AB) + P (AB)¢P (AB) = 52 52 32 10 6 32 32 6 = ¢ + + + + ¢ + + 100 100 100 100 100 100 100 100 10 10 6 6 6 + ¢ + + ¢ ' 66% . 100 100 100 100 100 Teorema (o formula) di Bayes Dato un evento B con P (B) > 0, e data una partizione finita A1 , A2 , ...An di S con P (Ai ) > 0 per ogni i, vale la relazione P (BjAi )¢P (Ai ) P (Ai jB) = . k P (BjAk )¢P (Ak ) Dimostrazione In virtù del teorema della probabilità composta si può scrivere P (Ai jB) = P (B|Ai )·P (Ai ) P (B) . Sostituendo a denominatore P (B) con la sua espressione fornita dalla formula della probabilità totale, si ottiene immediatamente la tesi. Gli eventi Ai possono essere considerati come possibili cause dell’evento B, o ipotesi che lo spiegano. Il fatto che costituiscano una partizione di S, per cui certamente B ½ [i Ai , comporta che se si verifica B, necessariamente si verifica anche uno (ed uno solo in virtù della incompatibilità) degli eventi Ai . In altre parole, l’insieme delle “cause” Ai è esaustivo: se si verifica B, una di esse deve aver agito. Una volta osservato l’evento B, ci si può chiedere quale sia la causa che ha effettivamente agito, e il teorema di Bayes risponde, naturalmente in senso probabilistico, a questa domanda. La probabilità P (Ai ) è la probabilità che si verifichi Ai indipendentemente dal verificarsi o meno dell’evento B; viene detta probabilità a priori. La probabilità condizionata P (Ai jB) è la probabilità di Ai valutata sapendo che si è verificato B, e viene chiamata probabilità a posteriori. 20 Gli esercizi che seguono, in particolare il primo, sono utili ad illustrare il significato di probabilità a priori e posteriori, e come si applica il teorema di Bayes. Esercizio 1.3.8 Si abbiano tre scatole, indistinguibili una dall’altra, contenenti ciascuna due palline: una contiene due palline bianche (scatola 1), un’altra una pallina bianca ed una rossa (scatola 2), la terza due palline rosse (scatola 3). Scelta una scatola a caso, si estrae una pallina. La pallina è bianca. Ci si chiede: qual è la probabilità che la pallina sia stata estratta dalla scatola i? Indicato con B l’evento “la pallina estratta è bianca” e con Ai l’evento “la pallina è stata estratta dalla scatola i”, ci interessa calcolare le probabilità P (Ai jB). Osserviamo che si ha P (A1 ) = P (A2 ) = P (A3 ) = 1 ; 3 P (BjA1 ) = 1 , P (BjA2 ) = 1 , 2 P (BjA3 ) = 0 . Il fatto che le probabilità non condizionate P (Ai ) (probabilità a priori) siano tutte uguali a 1 3 consegue ovviamente dal fatto che le tre scatole sono indistinguibili. Applicando il teorema di Bayes si ha quindi P (BjA1 )¢P (A1 ) = P (BjA1 )¢P (A1 ) + P (BjA2 )¢P (A2 ) + P (BjA3 )¢P (A3 ) 1 1¢ 1 2 3 = 1 1 31 = 1 1 = 3; 1¢ 3 + 2 ¢ 3 + 0¢ 3 2 P (A1 jB) = P (A2 jB) = P (A3 jB) = P (BjA2 )¢P (A2 ) 1 2 P (BjA3 )¢P (A3 ) 1 2 = = 1 1 2¢3 1 2 0¢ 13 1 2 = 1 . 3 = 0. Osserviamo che si trova confermato il fatto ovvio che P (A3 jB) = 0. Osserviamo anche come il verificarsi dell’evento B influisca sulle probabilità degli eventi Ai modificandone le probabilità. Nota bene: dato un evento A, con 0 < P (A) < 1, gli eventi A e AC costituiscono la più semplice partizione di S utilizzabile nell’applicazione del teorema di Bayes. Gli esempi che seguono utilizzano tutti una partizione di questo tipo. Esercizio 1.3.9 In una scuola il 4% dei maschi e l’1% delle femmine sono più alti di 1.80 metri. Inoltre, il 60% sono femmine. Fra la totalità degli studenti ne viene scelto a caso uno che risulta essere più alto di 1.80 metri. Si chiede: qual è la probabilità che sia femmina? Sia S l’insieme di tutti gli studenti. Siano poi F l’evento “lo studente scelto è femmina” ed A l’evento “l’altezza dello studente è maggiore di 1.80”. Si deve determinare P (F jA). Osservato che F C coincide con l’evento “lo studente è maschio”, i dati del problema sono P (F ) = 0.60 , P (F C ) = 0.40 , P (AjF ) = 0.01 , 21 P (AjF C ) = 0.04 . Utilizzando il teorema di Bayes con la partizione di S data da F e F C , si ottiene P (AjF )¢P (F ) = P (AjF )¢P (F ) + P (AjF C )¢P (F C ) 0.01¢0.60 0.006 3 = = = ¼ 27.3% . 0.01¢0.60 + 0.04¢0.40 0.022 11 P (F jA) = Esercizio 1.3.10 Si sa che lo 0,5% dei soggetti di una città è ammalato di AIDS. Si sa che i test diagnostici danno una diagnosi corretta nell’80% dei sani e nel 98% dei malati. Qual è la probabilità di un individuo, scelto a caso fra quelli sottoposti a test, di esser sano posto che sia stato diagnosticato malato? Sia S l’insieme degli individui sottoposti ai test per l’AIDS. Consideriamo gli eventi: A = “l’individuo scelto è sano”, AC = “l’individuo è malato”, B = “la diagnosi dell’individuo è: sano”, B C = “la diagnosi è: malato”. Le statistiche sopra riportate implicano che P (AC ) = 0.005 , P (BjA) = 0.80 , Determiniamo con la formula di Bayes P (AjB C ). Si ha P (B C jAC ) = 0.98 . P (B C jA)¢P (A) = P (B C jA)¢P (A) + P (B C jAC )¢P (AC ) (0.995)(0.20) = ' 0.976 (0.20)(0.995) + (0.98)(0.005) P (AjB C ) = (probabilità molto alta; se fossimo però dentro una categoria a rischio, avremmo una incidenza di malattia P (AC ) più elevata, per cui questa probabilità sarebbe più contenuta). Esercizio 1.3.11 Una fabbrica che produce lampadine ha due linee di produzione A e B: dalla A esce il 60% delle lampadine prodotte e dalla B il rimanente 40%. Sappiamo inoltre che un 2% delle lampadine prodotte dalla linea A è difettoso, mentre la percentuale di difetti per l’altra linea è il 3.8%. Ci si chiede: qual è la probabilità che una lampadina difettosa, scelta a caso fra tutte le lampadine prodotte in un dato periodo, sia uscita dalla linea A? Sia S l’insieme di tutte le lampadine prodotte dalla fabbrica in un dato periodo. Se A è l’evento “la lampadina scelta è uscita dalla linea A”, AC è l’evento “la lampadina è uscita dalla linea B”. Indicato poi con D l’evento “la lampadina è difettosa”, i dati del problema sono P (DjA) = 0.02 , P (DjAC ) = 0.038, P (A) = 0.6 . Il numero che cerchiamo è la probabilità condizionata di A dato per avvenuto D , cioè P (AjD). Utilizzando la formula di Bayes, si ottiene P (DjA) ¢ P (A) (0.02)(0.6) = = C C P (DjA) ¢ P (A) + P (DjA ) ¢ P (A ) (0.02)(0.6) + (0.038)(0.4) 0.012 = ¼ 0.441 = 44.1% 0.012 + 0.0152 P (AjD) = 22 Esercizio 1.3.12 In un cappello ci sono 10 monete, 9 normali ed una truccata con due teste. Se ne estrae una a caso, che lanciata k volte consecutive dà k teste. Qual è la probabilità che la moneta estratta sia quella truccata? Sia A l’evento “la moneta estratta dal cappello è quella truccata”. Chiaramente ne consegue che AC rappresenta l’evento “la moneta estratta è normale”. Indicato poi con Tk l’evento “k consecutivi lanci della moneta danno k teste”, i dati del problema sono P (A) = 1 10 P (AC ) = ; 9 10 ; Applicando la formula di Bayes si ha quindi P (AjTk ) = P (Tk jAC ) = P (Tk jA) = 1 ; 1 2) k . 1 1¢ 10 P (Tk jA)¢P (A) 2k = = k 9 1 P (Tk jA)¢P (A) + P (Tk jAC )¢P (AC ) 9 + 2k 1¢ 10 + 12 ¢ 10 Ad esempio, per k =2, 4, 6, 8 si ha P (AjT2 ) = 4 13 ; P (AjT4 ) = 16 25 ; P (AjT6 ) = 64 73 ; P (AjT8 ) = 256 265 . Osserviamo che 8 teste consecutive danno già una probabilità del 96.6% che la moneta estratta sia quella truccata. Come ultima osservazione, notiamo che ci sono due modi di fare un campionamento, cioè di “scegliere a caso” un certo numero di elementi da una popolazione: 1) con reimmissione; 2) senza reimmissione. Rimarchiamo il fatto seguente, peraltro molto intuitivo: se il numero N di individui della popolazione é infinito o molto grande, non c’è differenza apprezzabile tra estrarre con reimmissione ed estrarre senza reimmisione. In questo caso, pertanto, conviene per semplicità calcolare ogni cosa “come se” si estraesse con reimmissione. L’esercizio che segue illustra le due diverse modalità di campionamento e mostra, per quanto sia solo N =10, il fatto precedentemente rimarcato. Esercizio 1.3.13 Una scatola contiene 10 viti, di cui tre difettose. Si estraggono due viti a caso. Con quale probabilità nessuna delle due è difettosa? Considerati gli eventi A = “prima vite estratta non difettosa”, B = “seconda vite estratta non difettosa”, l’evento di cui ci interessa la probabilità è A \ B . Estraendo con reimmissione, prima di estrarre la seconda volta abbiamo nella scatola l’i7 dentica situazione di 10 viti di cui tre difettose; si ha pertanto P (A) = P (B) = 10 e quindi P (A \ B) = P (A)¢P (B) = 7 7 ¢ = 49% . 10 10 Estraendo invece senza reimmissione, l’evento B non è più indipendente da A, per cui si ha 7 P (A) = 10 , P (BjA) = 69 . Di conseguenza P (A \ B) = P (A)¢P (BjA) = 23 7 6 10 ¢ 9 ' 47% . 1.4 VARIABILI ALEATORIE Definizione Dato uno spazio di probabilità (S, Ω, P ), si dice variabile aleatoria (o casuale) una funzione X che ad ogni s 2 S associa un numero X(s) 2 R, in modo che ogni insieme fs : X(s) · ag sia un evento contenuto in Ω. L’evento fs : X(s) · ag si chiama immagine inversa o contro-immagine dell’intervallo −1 (¡1, a] e viene indicato con X (¡1, a] o, adottando una forma più concisa ed esplicita, con X · a. Più in generale, se B è un sottinsieme di numeri reali, si indica con X −1 (B) l’evento fs : X(s) 2 Bg. È facile far vedere che, 8a 2 R, gli insiemi di numeri reali X−1 (a, +1) , X −1 (a, b] , X −1 fag , X −1 (a, b) , X −1 (¡1, a) e X −1 [a, +1) sono eventi. Ad esempio, il fatto che X −1 (a, +1) sia un evento consegue banalmente dal fatto che l’insieme fs : X(s) > ag è il complementare dell’evento fs : X(s) · ag. Anche gli eventi appena elencati sono denotati in forma concisa con X > a , a< X · b , X =a , etc... Dunque, l’immagine inversa di un qualunque intervallo è un evento di Ω. Ci sono però altri sottinsiemi B di numeri reali tali che X −1 (B) è un evento. Definizione Si chiama classe dei Boreliani la più piccola classe di sottinsiemi di numeri reali che comprende tutti gli intervalli ed è chiusa rispetto alle operazioni di unione (finita e numerabile) e complementazione. Proposizione Ogni Boreliano B è tale che X −1 (B) è un evento. I Boreliani rappresentano dunque i sottinsiemi di numeri reali che possono essere associati attraverso X −1 agli eventi di Ω. Ciò porta alla seguente definizione: Definizione Data una variabile aleatoria X , si chiama distribuzione o legge di X l’applicazione che ad ogni Boreliano B associa la probabilità della sua immagine inversa: B ¡! P X −1 (B) . Sia S = f1, 2, ..., 6g lo spazio campionario relativo all’esperimento del lancio di un dado (non truccato). Definiamo X := ”numero uscente da un lancio”, cioè Esempio 1.4.1 X(1) := 1, X(2) := 2 ... X(6) := 6 . Potremo allora calcolare la probabilità di eventi del tipo X · 2.5, 1 < X · 4 oppure X ¸ 3. Ricordando che P (X =k) = P (fkg) = 16 , per k = 1, 2, . . . , 6, si ha P (X · 2.5) = P (X =1) + P (X =2) = 13 , P (1< X · 4) = P (X =2) + P (X =3) + P (X =4) = 12 , P (X ¸ 3) = P (X =3) + P (X =4) + P (X =5) + P (X =6) = 2 3 . Su uno stesso spazio di probabilità possono essere definite più variabili casuali. Ad esempio, una seconda variabile casuale può essere definita nel modo seguente: Y := 0 Y := 1 se l’esito del lancio è pari; 24 se l’esito del lancio è dispari. Si ha cosı̀ : P (Y =0) = P (f2g) + P (f4g) + P (f6g) = 12 , P (Y =1) = P (f1g) + P (f3g) + P (f5g) = 12 , P (1< Y · 4) = P (;) = 0 , P (Y < 0) = P (;) = 0 ecc. Definizione Data una variabile aleatoria X definita sullo spazio di probabilità (S, Ω, P ), si chiama funzione di distribuzione o di ripartizione di X la funzione F : R ! [0, 1] cosı̀ definita: F (x) = P (X · x) , x 2 R . Esempio 1.4.2 Consideriamo la variabile casuale Y definita nell’esempio precedente. Indicata con FY (x) la funzione di distribuzione ad essa associata, avremo per x < 0 P (;) = 0 1 FY (x) = P (Y · x) = P (Y =0) = 2 per 0 · x < 1 1 1 per x ¸ 1 . P (Y =0) + P (Y =1) = 2 + 2 = 1 La funzione di distribuzione gode di alcune proprietà che sono formalizzate nelle cinque proposizioni che seguono. Di queste dimostriamo solo la prima. Proposizione Vale la relazione P (a< X · b) = F (b) ¡ F (a) . Dimostrazione L’evento X · b è l’unione dei due eventi X · a e a< X · b, cioè degli eventi fs 2 S : X(s)· ag e fs 2 S : a< X(s)· bg, che chiaramente sono incompatibili. Di conseguenza si ha P (X · b) = P (X · a) + P (a< X · b) , da cui segue banalmente la relazione che si voleva dimostrare. Proposizione La funzione di distribuzione è monotona non decrescente, cioè F (a) · F (b) Proposizione a · b. Valgono i due limiti seguenti: lim F (x) = 0 , lim F (x) = 1 . x→−∞ Proposizione se x→+∞ La funzione di distribuzione è continua da destra, si ha cioè lim F (x + h) = F (x) . h→0+ Essendo F (x) definita in ogni punto, ogni eventuale discontinuità è del tipo del salto, e per effetto della proposizione appena enunciata, vale anche la seguente Proposizione L’ampiezza ∆F (x) del salto della funzione di distribuzione in un punto x di discontinuità vale ∆F (x) = P (X =x) . 25 VARIABILI ALEATORIE DISCRETE Definizione Una variabile aleatoria X è discreta se 1) c’è un insieme finito o numerabile di valori xj , tali che P (X =xj ) > 0 ; 2) j P (X =xj ) = 1 . Ovviamente, j = 1, ..., n nel caso finito e j 2 N nel caso numerabile. Una variabile aleatoria discreta, essendo individuata dai valori xj e dalle corrispondenti probabilità pj ´ P (X =xj ), può essere cosı̀ rappresentata: x1 , x2 , ... X: p1 , p2 , ... In maniera equivalente essa è poi rappresentabile mediante la relativa funzione di probabilità f (x) definita come se x = xj (j = 1, 2, ...) pj , f (x) = 0 altrove oppure mediante la relativa funzione di distribuzione F (x) già definita per una qualunque variabile aleatoria , che nel caso discreto diventa F (x) = f (xj ) . j: xj · x Più esplicitamente, come peraltro già visto nell’esempio 1.4.2, F (x) è la seguente funzione a gradini 0 se x < x1 p1 se x1 · x < x2 p +p se x2 · x < x3 1 2 F (x) = ¢¢¢¢¢¢¢¢¢ ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢ se xn−1 · x < xn p1 + ¢ ¢ ¢ + pn−1 ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢ ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢ Esempio 1.4.3 Nel caso di un dado non truccato, la variabile casuale X definita nell’esempio 1.4.1 e la relativa funzione di probabilità sono date da X: 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 , f (x) = 1 6 per x = 1, 2, 3, 4, 5, 6 0 altrimenti . La funzione distribuzione di X e il relativo grafico sono riportati qui sotto. F (x) = 0 1 6 1 3 1 2 2 3 5 6 1 per x < 1 per 1 · x < 2 per 2 · x < 3 per 3 · x < 4 . per 4 · x < 5 per 5 · x < 6 per x ¸ 6 26 Esempio 1.4.4 Si consideri l’esperimento del lancio simultaneo di due dadi non truccati. In questo caso lo spazio compionario S è costituito dai 36 eventi elementari (i, j), con i, j = 1, 2, 3, 4, 5, 6. Consideriamo la variabile aleatoria discreta Z , con Z := somma dei due numeri estratti. Si ha quindi Z: 2 3 4 5 6 7 8 9 10 11 12 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Il grafico sottoriportato mostra la funzione di distribuzione relativa a Z . VARIABILI ALEATORIE CONTINUE Definizione Una variabile aleatoria X si dice assolutamente continua se esiste una funzione f : R !R+ 0 che permette di rappresentare la funzione distribuzione F (x) di X come funzione integrale, cioè tale che F (x) = x 8x 2 R . f (t)dt , −∞ La funzione f (¢), che è assunta continua eccetto al più che in un numero finito di punti,è detta densità di probabilità (o, più semplicemente, densità) della variabile aleatoria X . Nel seguito (come peraltro già fatto nel titolare il paragrafo), per semplicità, ci riferiremo alle variabili casuali ”assolutamente continue” con il solo aggettivo ”continue”. Osservazione: Qui e altrove si usano integrali ”impropri”, cioè integrali definiti su un intervallo con un estremo di integrazione infinito (qualche volta entrambi). Senza approfondire l’argomento, ricordiamo che x −∞ f (t)dt := lim a→−∞ x f (t)dt , a +∞ f (t)dt := lim a→+∞ x a f (t)dt . x Per quanto riguarda poi l’integrale su tutto l’asse reale, una possibile definizione è la seguente: +∞ −∞ f (t)dt := 0 f (t)dt + −∞ 27 0 +∞ f (t)dt . La funzione densità gode di alcune proprietà che adesso elenchiamo. 1) Vale la relazione P (a < X · b) = b a f (t)dt . Essa consegue immediatamente dal fatto che P (a< X · b) = F (b) ¡ F (a) e costituisce lo strumento standard per il calcolo delle probabilità nel caso di variabili casuali continue. Si noti che la formula in questione esprime l’uguaglianza fra la probabilità P (a< X · b) e l’area sottesa dalla curva f (x) tra gli estremi x=a ed x=b. 2) Per ogni funzione densità si ha che +∞ −∞ f (t)dt = 1 . Consegue direttamente dalla relazione di cui al punto precedente, tenendo conto che P (¡1< X < +1) = P (S) = 1. 3) La funzione densità f (x), per ogni x dove è continua, soddisfa la relazione F ′ (x) = f (x) . Ciò risulta direttamente dalla derivazione di F (x) scritta in forma integrale. Osservazione: Nel caso di una variabile aleatoria continua si ha sempre P (X =a) = a f (x)dx = 0, mentre nel caso di variabile X discreta può benissimo essere P (X = a a) > 0. Analogamente, se X è continua si ha P (a< X < b) = P (a· X < b) = P (a< X · b) = P (a· X · b) . Queste stesse probabilità possono differire tra loro nel caso di X discreta. Definizione Una variabile casuale X continua si dice uniformemente distribuita o equidistribuita se la sua funzione densità f (x) o, equivalentemente, la sua funzione di distribuzione F (x) sono cosı̀ definite: 0 per x· a 0 per x· a 1 x¡a f (x) = F (x) = per a< x< b . per a< x< b ; b¡a b¡a 1 per x¸ b 0 per x¸ b 28 Esempio 1.4.5 Si consideri la variabile casuale continua di densità f (x) = 1 2x se 0· x· 2 0 altrove . Si chiede di verificare che f (x) è effettivamente una densità, calcolarne la funzione di distribuzione F (x) e quindi disegnarla assieme alla f (x). Si chiede anche di calcolare P ( 12 < X < 1). Essendo +∞ −∞ f (t)dt = 2 1 tdt 0 2 = t 2 2 4 0 = 1, siamo certi di aver a che fare con una densità. Per quanto concerne la sua funzione di distribuzione si ha 0 x x 1 F (x) = f (t)dt = 2 tdt = 0 −∞ 1 I grafici di f (x) e F (x) sono dunque i seguenti: per x· 0 x2 4 per 0· x· 2 per x¸ 2 . La probabilità richiesta è P ( 12 < X < 1), che è uguale all’area sottesa da f (x) per 12 · x· 1. Trattandosi di un trapezio di altezza 12 e basi 14 e 12 , la sua area, e quindi la probabilità 3 richiesta, è 16 . L’area suddetta è tratteggiata nel grafico di f (x). Esercizio 1.4.1 Si consideri la variabile casuale continua di densità 1 ¡ jxj se jxj · 1 f (x) = 0 altrove . Si chiede di verificare che f (x) è una densità, di calcolare la funzione di distribuzione F (x) e di disegnare sia f (x) che F (x). Si chiede anche di calcolare P (X · ¡0.5). Calcoliamo subito la funzione distribuzione. F (x) = x −∞ f (t)dt = 0 x −1 0 −1 1 (1 + t)dt (1 + t)dt 2 = x2 + x + 12 x + 0 (1 ¡ t)dt 29 per x· ¡1 = 1 2 ¡ 2 x 2 per ¡ 1· x · 0 + x per 0· x· 1 per x¸ 1 . I grafici di f (x) e F (x) sono dunque i seguenti: +∞ Essendo limx→+∞ F (x) = 1, ne consegue −∞ f (x)dx = 1, e quindi risulta verificato che f (x) è una densità. Per quanto concerne infine il calcolo di P (X · ¡0.5), si ha P (X · ¡0.5) = F (¡0.5) = 1 8 . Questa probabilità corrisponde all’area sottesa da f (x) fra ¡1 e ¡ 12 , ossia, come si vede dal grafico, all’area di un triangolo di base 12 e altezza 12 . Esercizio 1.4.2 Si consideri una variabile casuale X zione: 0 1 x2 50 F (x) = 1 2 ¡ x + 25 x ¡ 1 50 1 a) quali sono i possibili valori della X ? avente la seguente funzione di distribuper x· 0 per 0· x· 5 per 5· x· 10 per x¸ 10 . b) qual è la funzione densità della X ? a) La variabile aleatoria X assume, con probabilità 1, i valori compresi tra 0 e 10. Infatti: P (0· X · 10) = F (10) ¡ F (0) = 1 . b) Poichè nei punti di continuità di f (x) vale la relazione F ′ (x)=f (x), si ha f (x) = 0 1 25 x 1 ¡ 25 x per x· 0 per 0· x· 5 + 2 5 0 per 5· x· 10 per x¸ 10 . Riportiamo qui sotto i grafici della funzione di distribuzione e della funzione densità della variabile casuale X . Osserviamo che dal grafico di f (x) risulta evidente la simmetria della distruibuzione rispetto ad x=5. 30 FUNZIONI DI VARIABILE ALEATORIA Spesso, data una variabile casuale X, interessa una sua funzione g(X), che a sua volta è una variabile casuale. Negli esempi che seguono si considerano appunto variabili casuali di questo tipo. L’ultimo esempio, per quanto semplice, è forse quello più significativo in quanto mostra come si ricava la funzione di probabilità (nel caso di un variabile casuale discreta). Esercizio 1.4.3 In un processo automatico si riempiono bottigliette di sciroppo. Il contenuto di ciascuna bottiglietta risulta Y = 100+X ml (millilitri), dove X è la variabile casuale definita nell’esercizio 1.4.1. Si chiede: in una partita di 1000 confezioni, quante approssimativamente conterranno meno di 99.5 ml? Il numero di bottigliette cercato è uguale a 1000 moltiplicato per P (Y · 99.5), cioè per P (X + 100 · 99.5) = P (X · ¡0.5) . Questa probabilità è già stata calcolata nell’esercizio 1.4.1 e vale 18 . Il numero approssimativo delle bottiglie aventi contenuto inferiore a quanto richiesto è dunque 1 8 ¢1000 = 125 . p Esercizio 1.4.4 Si considerino le variabili casuali Y = 3X , Q = X 2 e R = X , dove X è la variabile casuale dell’esercizio 1.4.2. Calcolare: Si ha: a) P (3· Y · 21) ; b) P (Q¸ 64) ; c) P (2· R· 3) . 4 ; 5 a) P (3· Y · 21) = P (3· 3X · 21) = P (1· X · 7) = F (7) ¡ F (1) = b) P (Q¸ 64) = P (X 2 ¸ 64) = P [(X · ¡8) [ (X ¸ 8)] = P (X ¸ 8) = 1 ¡ F (8) = c) p 33 . P (2· R· 3) = P (2· X · 3) = P (4· X · 9) = F (9) ¡ F (4) = 50 2 ; 25 Esercizio 1.4.5 Si consideri la variabile casuale X sotto definita e si ricavi la funzione di probabilità della variabile Y := X 2 . ¡2 ¡1 0 1 2 X: 1 1 1 1 1 5 5 5 5 5 Osservato che mentre X assume il valore xi la variabile Y assume il valore x2i , ne consegue che Y può assumere solo i valori 0, 1 e 4. Più precisamente Y assume il valore 0 quando X assume il valore 0, il valore 1 quando X assume il valore -1 oppure 1, il valore 4 quando X assume il valore -2 oppure 2. Per quanto riguarda, ad esempio, la probabilità che Y assuma il valore 1, essa sarà data dalla somma delle probabilità che X assuma i valori -1 e 1, ossia: P (Y =1) = P (X =¡1) + P (X =1). La variabile casuale X 2 sarà dunque la seguente: 2 Y =X : 0 1 4 1 5 2 5 2 5 31 1.5 MEDIA E VARIANZA Definizione Si chiama media (o valor medio o valore atteso o aspettazione matematica o speranza matematica) della variabile aleatoria X il numero, che indicheremo indifferentemente con µX o E(X), cosı̀ definito: µX ´ E(X) := xi f (xi ) , se X è discreta , µX ´ E(X) := i +∞ se X è continua . xf (x)dx , −∞ Nel caso discreto numerabile, per garantire la convergenza della serie, si assume che essa sia assolutamente convergente, cioè che sia i jxi jf (xi ) < +1. Osservazione: Nel caso discreto la media è la somma dei valori xi moltiplicati per le rispettive probabilità f (xi ) ´ P (X =xi ). Essa rappresenta dunque la media ponderata dei possibili valori di X, ciascuno pesato con la sua probabilità. Esempio 1.5.1 Si consideri l’esperimento del lancio simultaneo di una coppia di dadi non truccati. Abbiamo già visto che lo spazio campionario S è S = f(i, j), i, j = 1, 2, 3, 4, 5, 6g . Sia X la variabile aleatoria che assegna a ciascun evento elementare (i, j) il massimo fra i e j . Allora l’insieme immagine di X , cioè l’insieme di tutti i possibili valori che la X può assumere, è il seguente X(S) = f1, 2, 3, 4, 5, 6g . Tenendo conto che 1 P (X =1)=P f(1, 1)g = 36 , 3 P (X =2)=P f(1, 2)g + P f(2, 1)g + P f(2, 2)g = 36 , e, generalizzando, essendo 2k —1 il numero degli eventi elementari f(i, j)g che hanno come valore massimo k , 2k ¡ 1 , k = 3, 4, 5, 6 , 36 la variabile aleatoria X risulta cosı̀ definita: 1 2 3 X: 1 3 5 P (X =k)= 36 36 36 4 5 6 7 36 9 36 11 36 . La media di X si calcola dunque nel modo seguente: µX = 6 k=1 xk f (xk ) = 1¢ 1 3 5 7 9 11 161 + 2¢ + 3¢ + 4¢ + 5¢ + 6¢ = ¼ 4.47 . 36 36 36 36 36 36 36 32 Proposizione Data la variabile casuale X , la media della variabile casuale g(X) è la seguente: E[g(X)] = E[g(X)] = g(xi )f (xi ) , se X è discreta , i +∞ g(x)f (x)dx , se X è continua. −∞ La proposizione consegue direttamente dalle definizione di media. Ad esempio, se g(X)=X 2 , si ha E[X 2 ] = x2i f (xi ) , se X è discreta , E[X 2 ] = i +∞ x2 f (x)dx , se X è continua. −∞ Nel seguito vedremo che il calcolo di E[X 2 ] è estremamente utile. Definizione Si chiama varianza (o variazione standard) della variabile aleatoria X il numero, 2 che indicheremo con σX o V ar(X), cosı̀ definito: 2 ´ V ar(X) := E (X ¡ µX )2 . σX Quindi, tenendo conto della definizione di µX , 2 ´ V ar(X) := σX 2 σX ´ V ar(X) := i (xi ¡ µX )2 f (xi ) , +∞ −∞ (x ¡ µX )2 f (x)dx , se X è discreta , se X è continua . 2 La varianza σX è sempre non negativa. Esiste un unico caso in cui è nulla. Questo caso, che è privo di interesse probabilistico, si ha se e solo se la variabile X è degenere, cioè se la sua funzione di probabilità vale 1 in un punto x1 e 0 in ogni altro punto x. Definizione La radice quadrata della varianza si chiama deviazione standard (o scarto quadratico medio) e si indica con σX . La varianza (e quindi anche la deviazione standard) misura la “dispersione” dei valori 2 assunti da X rispetto al suo valor medio µX : tanto più grande è σX , tanto più i valori 2 di X saranno lontani dal valor medio; per contro, tanto più σX è piccola, tanto più i valori di X saranno raccolti attorno a µX . Si può anche dire che la media di una variabile casuale è tanto più attendibile quanto più piccola è la sua varianza. Teorema 2 σX = E(X 2 ) ¡ µ2X . Facciamo la dimostrazione nel caso discreto. Nel caso continuo si procederà in maniera del tutto analoga con integrali al posto di sommatorie. Ricordando la definizione di 33 µX e che i f (xi )=1, 2 σX = i = i = i si ottiene (xi ¡ µX )2 f (xi ) = x2i f (xi ) ¡ 2µX (x2i ¡ 2xi µX + µ2X )f (xi ) = i xi f (xi ) + µ2X i f (xi ) = i x2i f (xi ) ¡ 2µ2X + µ2X = E(X 2 ) ¡ µ2X . Teorema (trasformazione lineare di una variabile aleatoria) Data una variabile aleatoria X , si consideri la variabile aleatoria aX + b, con a e b reali qualunque, a 6 = 0. Valgono allora le seguenti relazioni: 2 2 σaX+b = a2 σX . µaX+b = aµX + b , Dimostrazione Come nel caso del precedente teorema, proviamo anche questo nel caso discreto. La variabile aleatoria aX + b è la seguente: ax1 + b ax2 + b ... axn + b ... f (x1 ) f (x2 ) ... f (xn ) ... Ricordando che i f (xi ) = 1, si ha immediatamente µaX+b = (axi + b)f (xi ) = a xi f (xi ) + b f (xi ) = aµX + b . i i i Ora, sfruttando questo risultato, calcoliamo la varianza: 2 σaX+b = (axi + b ¡ µaX+b )2 f (xi ) = (axi + b ¡ aµX ¡ b)2 f (xi ) = i 2 =a i i 2 (xi ¡ µX ) f (xi ) = 2 a2 σX . Corollario E(X ¡ µX ) = 0 . Si ottiene immediatamente dall’ultimo teorema ponendo a=1 e b=¡µX . 2 2 Corollario σaX = a2 σX . Si ottiene immediatamente dall’ultimo teorema ponendo b=0. 2 2 Corollario σX+b = σX . Si ottiene immediatamente dall’ultimo teorema ponendo a=1. 2 Definizione Sia X una variabile casuale con varianza σX > 0. Si chiama variabile casuale standardizzata associata ad X la variabile casuale X ∗ cosı̀ definita: X ¡ µX X∗ = . σX 34 Proposizione Ogni variabile casuale standardizzata ha media nulla e varianza uguale ad 1, ossia 2 µX ∗ = 0 , σX ∗ = 1. Queste proprietà di X ∗ seguono immediatamente dai teoremi e dai corollari precedenti. Infatti: X ¡ µ X µ 1 X X µX ∗ = E =E ¡ = E(X) ¡ µX = 0 , σX σX σX σX X ¡ µ X µX 1 2 X 2 σX = V ar ¡ = 2 σX = 1. ∗ = V ar σX σX σX σX Definizione Data una variabile aleatoria X , si chiama mediana di X un valore x0 tale che 1 P (X < x0 ) · · P (X · x0 ) . 2 Dalla definizione consegue immediatamente che, se F (x) è la funzione distribuzione di X, la mediana è un punto x0 tale che F (x0 ) = 12 se un tale x0 esiste. In caso contrario x0 è un punto di discontinuità di F (x) tale che F (x) < 12 per x < x0 e F (x) > 12 per x ¸ x0 . È anche facile constatare che vi possono essere più mediane; più precisamente le mediane costituiscono un intervallo chiuso (che eventualmente si riduce ad un punto). I tre grafici proposti qui sotto illustrano le tre situazioni più comuni: a) F (x) è continua in ogni x (e quindi associata ad una variabile casuale X continua con f (x) continua 8x): esiste un unico x0 tale che F (x0 ) = 12 ; b) F (x) è costante a tratti (e quindi associata ad una variabile casuale X discreta), con F (x) 6 = 12 , 8x. In questo caso, se F (x) assume i valori α e β con α < 12 < β, saltando da α a β nel punto x∗ , allora x0 = x∗ . c) F (x) è costante a tratti , con F (x) = 12 , per x1 · x < x2 : ogni x 2 [x1 , x2 ] può essere assunto come x0 . Esempio 1.5.2 Consideriamo di nuovo l’esperimento dell’esempio 1.5.1. Calcoliamo la va2 rianza di X mediante la relazione σX =E(X 2 )¡µ2X . A tal fine andiamo a calcolare E(X 2 ). 6 1 3 5 7 9 11 791 + 22 + 32 + 42 + 52 + 62 = ¼ 21.97 . 36 36 36 36 36 36 36 Ora, applicando il risultato precedentemente ricordato e utilizzando il valore di µX trovato E(X 2 ) = i=1 x2i f (xi ) = 12 nell’esempio 1.5.1, si ottiene 2 σX = E(X 2 ) ¡ µ2X ¼ 21.97 ¡ (4.47)2 ¼ 21.97 ¡ 19.98 = 1.99 , e quindi la deviazione standard σX ¼ p 1.99 ¼ 1.41 . 35 Esempio 1.5.3 Sia X la variabile aleatoria continua (già considerata nell’esempio 1.4.5) la cui funzione densità è 1 se 0· x· 2 2x f (x) = 0 altrove . Calcoliamo media e varianza (quest’ultima in due modi: sia applicando la definizione che attraverso il calcolo di E(X 2 )). 3 2 x = = 43 , 6 −∞ 0 2 4 2 +∞ 2 = −∞ (x ¡ µX )2 f (x)dx = 0 x ¡ 43 ¢ 12 xdx = x8 ¡ 49 (x3 ¡ x2 ) = 29 , 0 4 2 +∞ 2 x 2 = E(X 2 ) ¡ µ2X = −∞ x2 f (x)dx ¡ µ2X = 0 12 x3 dx ¡ 16 ¡ 16 9 = 8 9 = 9 . µX = 2 σX 2 σX +∞ xf (x)dx = 2 1 x¢xdx 0 2 0 Esercizio 1.5.1 Si eseguano tre lanci consecutivi di una moneta truccata in modo tale che P (T ) = 34 . Sia X la variabile casuale che rappresenta il numero di teste ottenute nei tre lanci. Si chiede di calcolarne la media, la varianza e la deviazione standard. La variabile X può assumere i valori 0,1,2,3. Le probabilità che X assuma ciascuno di questi valori sono le seguenti: P (X =0) = P (CCC) = 1 3 4 = 1 64 , 2 9 P (X =1) = P (T CC) + P (CT C) + P (CCT ) = 3 34 14 = 64 , 2 P (X =2) = P (T T C) + P (T CT ) + P (CT T ) = 3 34 14 = 27 64 , 3 3 P (X =3) = P (T T T ) = 4 = 27 64 , 0 1 2 La funzione di probabilità di X è dunque la seguente: X : 9 27 1 64 Avremo quindi: 64 64 3 27 64 . 1 9 27 27 9 µX = 0¢ + 1¢ + 2¢ + 3¢ = ; 64 64 64 64 4 2 1 2 9 9 9 9 2 27 9 2 27 9 2 σX = 0¡ ¢ + 1¡ ¢ + 2¡ ¢ + 3¡ ¢ = ; 64 4 64 4 64 4 64 16 4 9 3 σX = = . 16 4 2 Per il calcolo della varianza si sarebbe potuto procedere anche utilizzando la relazione σX = 2 2 2 E(X ) ¡ µx . In tal caso si sarebbe dovuto calcolare E(X ) ottenendo E(X 2 ) = 02 ¢ 1 9 27 27 45 + 12 ¢ + 22 ¢ + 32 ¢ = , 64 64 64 64 8 e quindi, come prima, 2 σX = E(X 2 ) ¡ µ2x = 36 45 81 9 ¡ = . 8 16 16 Esercizio 1.5.2 Si consideri la variabile aleatoria X definita nell’esercizio 1.4.2. Si chiede di calcolarne la media, la varianza e la mediana. La funzione densità e di distribuzione di X sono le seguenti: f (x) = 0 1 per x· 0 25 x 1 x ¡ 25 per 0· x· 5 + 2 5 0 F (x) = per 5· x· 10 per x¸ 10 . La media e la varianza sono date da µX = +∞ xf (x)dx = −∞ 2 σX = E(X 2 ) ¡ µ2X = 5 0 5 0 0 1 per x· 0 2 50 x 1 2 x ¡ 50 per 0· x· 5 + 2 x 5 1 ¡ 1 per 5· x· 10 per x¸ 10 . x3 5 x3 x2 2x x2 10 + ¡ + = 5; + dx = 25 5 75 0 75 5 5 5 10 3 x 2x2 25 x3 dx + ¡ + dx ¡ 25 = . 25 25 5 6 5 x2 dx + 25 10 ¡ Per calcolare la mediana occorre determinare un x0 tale che F (x0 ) = 12 . Chiaramente si ricava x0 = 5. Il fatto che µX ed x0 coincidano e valgano 5 è un’ovvia conseguenza della simmetria della distribuzione rispetto ad x=5 (si riveda il grafico di f (x) precedentemente riportato). Esercizio 1.5.3 Calcolare media, varianza e mediana di una generica variabile aleatoria uniformemente distribuita. Sia [a, b] l’intervallo in cui la variabile aleatoria ha densità non nulla. Ricordiamo che 0 0 x¡a F (x) = b¡a 1 per x· a 1 f (x) = b¡a 0 per a< x< b ; per x¸ b per x· a per a< x< b . per x¸ b Andiamo a calcolarne media e varianza. Procedendo come nell’esercizio precedente, abbiamo: µX = +∞ xf (x)dx = −∞ 2 σX = E(X 2 ) ¡ µ2X = b x a+b dx = ; b¡a 2 a +∞ −∞ x2 f (x)dx ¡ (a + b)2 = 4 b a x2 (a + b)2 (b ¡ a)2 dx ¡ = . b¡a 4 12 Per calcolare la mediana x0 dobbiamo risolvere l’equazione F (x) = x¡a 1 = , b¡a 2 1 2, cioè l’equazione a+b . Dunque, come peraltro facilmente intuibile, per ogni 2 variabile casuale uniformemente distribuita, media e mediana coincidono col punto medio di (a, b). che fornisce la soluzione x0 = 37 1.6 VARIABILI ALEATORIE BIDIMENSIONALI In un esperimento, invece che ad un unico risultato numerico, possiamo essere interessati a più valori (ad esempio, per una persona, a peso, altezza, età, ecc.). Ciascuno di tali valori è una variabile aleatoria, ma anche la n-upla di valori ottenuti può essere considerata come una variabile aleatoria multipla o n—dimensionale. Qui, per semplicità, tratteremo solo, seppure brevemente, le variabili aleatorie bidimensionali. Definizione Dato uno spazio di probabilità (S, Ω, P ), si dice variabile aleatoria bidimensionale una coppia di funzioni (X, Y ) che ad ogni s 2 S associa un coppia di numeri reali X(s), Y (s) , tali che ogni insieme fs : X(s) · a , Y (s) · bg sia un evento contenuto in Ω. Anche nel caso di variabili casuali bidimensionali lo strumento essenziale per il loro utilizzo è la funzione distribuzione, la cui definizione si ottiene immediatamente generalizzando quella per variabili unidimensionali. Infatti, si ha Definizione Data una variabile aleatoria bidimensionale (X, Y ) definita sullo spazio di probabilità (S, Ω, P ), si chiama funzione di distribuzione o di ripartizione ad essa associata la funzione F : R2 ! [0, 1] cosı̀ definita: F (x, y) = P (X · x, Y · y) , (x, y) 2 R2 . La virgola nella probabilità appena scritta equivale ad una intersezione. Per favorire la comprensione del significato della F (x, y), ne ricordiamo tutte le possibili espressioni: F (x, y) = P (X · x, Y · y) = = P s 2 S : X(s) · x, Y (s) · y = = P (X · x) \ (Y · y) = = P s 2 S : X(s) · x \ s 2 S : Y (s) · y . Ragionando sulla base del disegno riportato qui accanto e utilizzando la proprietà additiva della probabilità nel caso di eventi incompatibili, si dimostra che P (x1 < X · x2 , y1 < Y · y2 ) = F (x2 , y2 ) ¡ F (x2 , y1 ) ¡ F (x1 , y2 ) + F (x1 , y1 ) . Si dimostra inoltre che valgono le seguenti proprietà: lim F (x, y) = 1 , x→+∞ y→+∞ lim F (x, y) = lim F (x, y) = 0 , x→−∞ y→−∞ lim F (x, y) = FY (y) = P (Y · y) , x→+∞ lim F (x, y) = FX (x) = P (X · x) . y→+∞ 38 Le funzioni di distribuzione FX (x) della X e FY (y) della Y sono dette funzioni di distribuzione marginali della variabile congiunta (X, Y ). Le variabili casuali bidimensionali, cosı̀ come quelle unidimensionali, possono essere di tipo discreto o di tipo continuo. Una variabile bidimensionale (X, Y ) è discreta se esiste un insieme finito o numerabile di coppie di numeri reali (xr , ys ), r = 1, 2, . . . , s = 1, 2, . . . , tali che P (X =xr , Y =ys ) = prs ¸ 0 , con prs = 1 . r,s Eventuali coppie (xr , ys ) con prs =0 possono rappresentare coppie di valori mai assunti dalla variabile casuale, che però per comodità sono presi ugualmente in considerazione assegnando loro probabilità nulla. Si chiama funzione di probabilità congiunta la funzione prs se (x, y) = (xr , ys ) r = 1, 2, . . . , s = 1, 2, . . . , f (x, y) = 0 altrove mentre si chiamano funzioni di probabilità marginali le funzioni pr• = s prs se x = xr fX (x) = , 0 altrove p•s = r prs se y = ys fY (y) = . 0 altrove Nel caso di una variabile aleatoria (X, Y ) discreta finita, supposto r = 1, 2, . . . , N e s = 1, 2, . . . , M , le funzioni di probabilità congiunta e marginali vengono rappresentate attraverso la seguente tabella: y2 Y ......... yM p11 p21 ... ... pN 1 p12 p22 ... ... pN 2 ......... ......... ......... ......... ......... p1M p2M ... ... pNM p•1 p•2 ......... p•M y1 X x1 x2 ... ... xN p1• p2• ... ... pN• Una variabile bidimensionale (X, Y ) è continua se esiste una funzione f (x, y), non negativa, tale che x y F (x, y) = f (u, v)dudv . −∞ −∞ La funzione f (x, y) è detta funzione densità congiunta. Naturalmente si ha +∞ +∞ f (u, v)dudv = 1 , −∞ −∞ 39 che costituisce la condizione perché una funzione f (x, y)¸ 0 sia una funzione densità. Si può poi dimostrare che le funzioni di distribuzione marginali sono date da x +∞ FX (x) = f (u, v)dv du , FY (y) = −∞ −∞ y +∞ −∞ −∞ f (u, v)du dv , e quindi, per definizione di funzione densità, le densità marginali delle variabili X e Y sono date da +∞ +∞ fX (x) = f (x, v)dv , fY (y) = f (u, y)du . −∞ −∞ Sia A un sottinsieme di R2 tale che l’insieme s : X(s), Y (s) 2 A sia un evento di Ω. Un importante teorema riguardante la funzione densità congiunta è il seguente: Teorema (senza dimostrazione) P (X, Y ) 2 A = f (x, y) dx dy . A Un corollario, molto utile ai fini della risoluzione degli esercizi (come si vedrà nell’esercizio 1.6.4), segue in maniera immediata dal teorema appena enunciato: Corollario Siano (X, Y ) una variabile casuale bidimensionale, f (x, y) la sua funzione densità congiunta, Φ(X, Y ) una variabile casuale funzione di X e Y , e B un boreliano di R. Vale la relazione P Φ(X, Y ) 2 B = f (x, y) dx dy , con A = (x, y) : Φ(x, y) 2 B . A La dimostrazione è immediata: P Φ(X, Y ) 2 B = P s : Φ X(s), Y (s) 2 B = = P s : X(s), Y (s) 2 (x, y) : Φ(x, y) 2 B = = P s : X(s), Y (s) 2 A . Teorema ( senza dimostrazione) Se (X, Y ) è una variabile casuale bidimensionale e Φ(X, Y ) una variabile casuale funzione di X e Y , si ha E[Φ(X, Y )] = E[Φ(X, Y )] = N M Φ(xr , ys ) prs r=1 s=1 +∞ +∞ se X e Y sono discrete (e finite); , Φ(x, y) f (x, y) dxdy , −∞ −∞ Corollario E[aX + bY ] = aE[X] + bE[Y ] . Corollario E N k=1 N αk Xk = k=1 αk E[Xk ] . 40 se X e Y sono continue. Definizione Si chiama covarianza delle variabili casuali X e Y , e la indicheremo con σX,Y o Cov(X, Y ), il numero σX,Y ´ Cov(X, Y ) := E (X ¡ µX )(Y ¡ µY ) . In virtù del teorema precedente la covarianza risulta quindi cosı̀ definita: σX,Y = σX,Y = N M (xr ¡ µX )(ys ¡ µY )prs , r=1 s=1 +∞ +∞ −∞ −∞ Teorema Dimostrazione se X e Y sono discrete (e finite); (x ¡ µX )(y ¡ µY )f (x, y)dxdy , se X e Y sono continue. σX,Y = µXY ¡ µX µY . σX,Y = E (X ¡ µX )(Y ¡ µY ) = E XY ¡ µX Y ¡ µY X + µX µY = = E(XY ) ¡ µX E(Y ) ¡ µY E(X) + µX µY = µXY ¡ µX µY . Teorema 2 2 σX±Y = σX + σY2 § 2σX,Y . Dimostrazione 2 2 2 = E (X ¡ µX ) § (Y ¡ µY ) = σX±Y = E (X § Y ) ¡ (µX § µY ) 2 2 2 2 = E (X ¡ µX ) + (Y ¡ µY ) § 2(X ¡ µX )(Y ¡ µY ) = σX + σY § 2σX,Y . Il teorema appena dimostrato per due variabili casuali, si può facilmente generalizzare alla somma di n variabili Xi : n n Teorema V ar Xi = V ar Xi +2 Cov Xi , Xk . (senza dimostrazione) Teorema i=1 i=1 i=1,...,n−1 k=i+1,...,n 2 2 2 σX,Y · σX σY . (senza dimostrazione) Introduciamo ora l’importante concetto di indipendenza fra variabili casuali. Definizione Due variabili aleatorie X e Y sono indipendenti quando la funzione di distribuzione congiunta F (x, y) è uguale al prodotto delle funzioni di distribuzioni marginali FX (x) e FY (y), cioè quando F (x, y) = FX (x) ¢ FY (y) , Teorema 8x, y 2 R . (senza dimostrazione) CNS perchè due variabili aleatorie X e Y siano indipendenti è che si abbia P (X 2 A, Y 2 B) = P (X 2 A) ¢ P (Y 2 B) , Teorema 8 A , B Boreliani . (senza dimostrazione) CNS perchè due variabili aleatorie X e Y discrete siano indipendenti è che sia P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) . 41 Teorema (senza dimostrazione) CNS perchè due variabili aleatorie X e Y continue siano indipendenti è che sia f (x, y) = fX (x) ¢ fY (y) . Teorema Date due variabili casuali X e Y indipendenti, vale la relazione µXY = µX ¢µY . Dimostrazione Facciamo la dimostrazione nel caso discreto. Sfruttando il teorema precedentemente enunciato per variabili casuali discrete si può scrivere: µXY = r = r xr ys P (X =xr , Y =ys ) = s xr P (X =xr ) ¢ s r xr ys P (X =xr ) P (Y =ys ) = s ys P (Y =ys ) = µX ¢µY . Dalla relazione appena dimostrata, applicando i due teoremi dimostrati alla pagina precedente, seguono immediatamente le due relazioni del corollario che segue. Corollario Date due variabili casuali X e Y indipendenti, valgono le relazioni i) σX,Y = 0 ; 2 2 ii) σX±Y = σX + σY2 . Definizione Si chiama coefficiente di correlazione fra le variabili casuali X e Y , e lo denotiamo con ρX,Y , il numero σX,Y ρX,Y = . σX σY Il coefficiente di correlazione fra due variabili casuali è nullo se e solo se la loro covarianza è nulla. In questo caso diciamo che X e Y sono incorrelate. Ora, come affermato nel precedente corollario, σX,Y è certamente nulla se X e Y sono indipendenti. Tuttavia, la covarianza può essere nulla anche se X e Y non sono indipendenti. 2 2 2 Se σX,Y 6 = 0, X e Y si dicono correlate. Essendo σX,Y · σX σY (teorema enunciato in precedenza), si ha sempre jρX,Y j· 1. Ne consegue che X e Y sono tanto più correlate, quanto più ρX,Y è in modulo prossimo ad uno. Nel caso di correlazione massima, cioè jρX,Y j = 1, X e Y sono linearmente dipendenti, per cui Y = αX + β, con α < 0 se ρX,Y =¡1 e α> 0 se ρX,Y =1. In virtù della definizione di variabili incorrelate, dal teorema relativo alla varianza della somma di n variabili casuali, segue immediatamente il seguente Corollario Se X1 , X2 , . . . , Xn sono n variabili casuali incorrelate, allora la varianza della loro somma è uguale alla somma delle loro varianze, vale a dire V ar X1 + X2 + ¢ ¢ ¢ + Xn = V ar(X1 ) + V ar(X2 ) + ¢ ¢ ¢ + V ar(Xn ) . 42 In particolare, se le Xi hanno tutte la stessa varianza σ 2 , si ha V ar X1 + X2 + ¢ ¢ ¢ + Xn = nσ 2 . Inoltre, tenendo conto del fatto che V ar(aX) = a2 V ar(X), si ha anche V ar a1 X1 + a2 X2 + ¢ ¢ ¢ + an Xn = a21 V ar(X1 ) + a22 V ar(X2 ) + ¢ ¢ ¢ + a2n V ar(Xn ) . Esercizio 1.6.1 Da un’urna contenente due palline bianche, una nera e due rosse, si estraggono una dopo l’altra con reimmissione due palline. Sia X1 la variabile casuale che descrive l’esito della prima estrazione e X2 quella che descrive l’esito della seconda estrazione. Ciascuna delle due variabili assume valore 1 se la pallina estratta è bianca, valore 0 se è nera o rossa. Si chiede di descrivere le leggi di probabilità congiunta e marginali, calcolare la covarianza e il coefficiente di correlazione. Essendo l’estrazione con reimmissione, gli esiti delle due estrazioni sono eventi indipendenti e quindi si ha P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s ) , per r, s = 1, 2 e x11 = x21 = 0 , x12 = x22 = 1 . Questa relazione tra le probabilità assicura l’indipendenza delle due variabili casuali X1 e X2 e permette immediatamente di rappresentarne la funzione di probabilità congiunta mediante la seguente tabella: 0 X1 X2 1 0 3 3 ¢ 5 5 3 2 ¢ 5 5 3 5 1 2 3 ¢ 5 5 2 2 ¢ 5 5 2 5 3 5 2 5 2 2 Andiamo ora a calcolare le medie µX1 , µX2 e µX1 X2 , le varianze σX e σX . Una volta 1 1 ottenuti questi valori, attraverso i teoremi visti calcoleremo immediatamente la covarianza σX1 ,X2 e il coefficiente di correlazione ρX1 ,X2 . 3 2 2 µX1 = µX2 = 0¢ + 1¢ = ; 5 5 5 2 3 2 2 2 2 6 2 2 = σ = 0 ¡ ¢ + 1 ¡ ¢ = ; σX X2 1 5 5 5 5 25 9 6 6 4 4 µ X1 X2 = x1r x2s prs = 0¢0¢ + 0¢1¢ + 1¢0¢ + 1¢1¢ = ; 25 25 25 25 25 r,s σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 = 4 2 2 ¡ ¢ = 0; 25 5 5 ρX1 ,X2 = σX1 ,X2 = 0. σX1 σX2 Osserviamo che in virtù dell’indipendenza di X e Y sapevamo già, grazie ad un teorema che abbiamo visto, che σX1 ,X2 era nulla. Il calcolo è stato fatto ugualmente per fare pratica. 43 Esercizio 1.6.2 Si risolva il problema dell’esercizio precedente senza reimmissione. Non reimmettendo la pallina estratta per prima, l’esito della seconda estrazione viene a dipendere dall’esito della prima. Di conseguenza le probabilità congiunte cambiano e si ha P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s jX1 = x1r ) . Le variabili casuali X e Y non sono indipendenti e la tabella che rappresenta la funzione di probabilità congiunta risulta cosı̀ modificata: X2 0 X1 1 0 3 2 5¢4 3 2 5¢4 3 5 1 2 3 5¢4 2 1 5¢4 2 5 3 5 2 5 Ripetendo i calcoli fatti per l’esercizio precedente otteniamo 3 2 2 µX1 = µX2 = 0¢ + 1¢ = ; 5 5 5 2 2 3 2 2 2 6 2 2 σX 1 = σX 2 = 0 ¡ ¢ + 1¡ ¢ = ; 5 5 5 5 25 6 6 2 1 6 µ X1 X2 = + 0¢1¢ + 1¢0¢ + 1¢1¢ = ; x1r x2s prs = 0¢0¢ 20 20 20 20 10 r,s σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 = ρX1 ,X2 = 1 2 2 3 ¡ ¢ =¡ ; 10 5 5 50 σX1 ,X2 1 =¡ . σX1 σX2 4 Il fatto che la media e la varianza delle variabili singole siano le stesse dell’esercizio precedente non deve sorprendere: le distribuzioni marginali non sono cambiate. Giova piuttosto osservare che ora le variabili X e Y non sono indipendenti e, essendo ρX1 ,X2 6 = 0, neppure incorrelate. Esercizio 1.6.3 Un’urna contiene 112 dadi di cui 56 (cioè la metà) sono equi, mentre gli altri sono stati manipolati in modo che, per ciascuno di essi, la probabilità di ottenere 1 sia 12 , 1 mentre ogni altro risultato si verifica con probabilità 10 . Si chiede: a) Un dado viene estratto a caso e lanciato; indichiamo con X la variabile aleatoria che rappresenta il risultato del lancio. Qual è la probabilità di ottenere 3? Quanto vale E(X)? b) Un dado viene estratto a caso e lanciato due volte. Indicato con X il risultato del primo lancio e con Y quello del secondo, qual è la probabilità di ottenere X =2 e Y =3? c) Sapendo che i due lanci hanno dato come risultato X =2 e Y =3, qual è la probabilità che si tratti di uno dei dadi truccati? d) Le variabili casuali X e Y sono indipendenti? 44 a) Le probabilità con cui la variabile aleatoria X assume i valori 1, 2, ..., 6 dipendono dal fatto che il dado estratto sia oppure no equo. Indicato con A l’evento “il dado estratto è equo” e quindi con AC l’evento “il dado estratto è alterato”, si ha XjA : 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 C , XjA : 1 2 3 4 5 6 1 2 1 10 1 10 1 10 1 10 1 10 Applicando la formula della probabilità totale, per cui . P (X =k) = P (X =kjA) ¢ P (A) + P (X =kjAC ) ¢ P (AC ) , la variabile non condizionata X risulta cosı̀ definita: X: Si ha dunque P (X =3) = 2 15 1 2 3 4 5 6 1 3 2 15 2 15 2 15 2 15 2 15 e, facendo i calcoli, E(X) = . 6 k=1 k ¢ P (X =k) = 3. b) Consideriamo la variabile bidimensionale (X, Y ), con Y variabile identica alla X . La sua funzione di probabilità congiunta sarà definita dalle relazioni P (X =j, Y =k) = P (X =j, Y =k)jA ¢ P (A) + P (X =j, Y =k)jAC ¢ P (AC ) = 1 1 = P (X =jjA) ¢ P (Y =kjA) ¢ + P (X =jjAC ) ¢ P (Y =kjAC ) ¢ . 2 2 In particolare 1 1 P (X =2, Y =3) = P (X =2jA) ¢ P (Y =3jA) ¢ + P (X =2jAC ) ¢ P (Y =3jAC ) ¢ = 2 2 1 1 1 1 1 1 17 ¢ ¢ = . = ¢ ¢ + 6 6 2 10 10 2 900 Volendo, anche se non richiesto dall’esercizio, calcolare e mostrare la tabella completa che rappresenta la funzione di probabilità congiunta della variabile aleatoria (X, Y ), abbiamo: Y X 1 2 3 4 5 6 1 5 36 7 180 7 180 7 180 7 180 7 180 1 3 2 7 180 17 900 17 900 17 900 17 900 17 900 2 15 3 7 180 17 900 17 900 17 900 17 900 17 900 2 15 4 7 180 17 900 17 900 17 900 17 900 17 900 2 15 5 7 180 17 900 17 900 17 900 17 900 17 900 2 15 6 7 180 17 900 17 900 17 900 17 900 17 900 2 15 1 3 2 15 2 15 2 15 2 15 2 15 c) Indicato con B l’evento fX =2, Y =3g, ci si chiede ora P (AC jB). Utilizzando la formula di Bayes, otteniamo P (AC jB) = P (BjAC ) ¢ P (AC ) = P (B) 45 1 10 1 10 17 900 ¢ ¢ 1 2 = 9 . 34 d) Perchè due variabili aleatorie X e Y siano indipendenti (vedi pag. 36) deve essere P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) , per ogni coppia (xr , ys ). Nel nostro caso, con xr =2 e ys =3, si ha 17 2 2 = P (X =2) ¢ P (Y =3) = 15 ¢ 15 = 900 = P (X =2, Y =3) 6 Di conseguenza X e Y non sono indipendenti. Esercizio 1.6.4 colare: 4 225 . Due variabili casuali X e Y sono indipendenti ed uniformi su [0, 1]. Cal- 1 1 b) P XY < X > . 4 2 Essendo X e Y uniformi ed indipendenti sull’intervallo [0, 1], la variabile congiunta (X, Y ) ha una funzione densità f (x, y) data dal prodotto delle funzioni densità di X e Y . Di conseguenza, indicato con Q il ”quadrato” ´ (0, 1) £ (0, 1), si ha: 0 se (x, y) 2 /Q f (x, y) = . 1 se (x, y) 2 Q 1 a) P XY > ; 2 Ricordando poi un corollario sulle funzioni densità congiunte, sappiamo che P Φ(X, Y ) 2 B = f (x, y) dx dy , con A Di conseguenza, essendo Φ(X, Y ) = XY , abbiamo che P (XY 2 B) = A f (x, y) dx dy = dx dy , A∩Q A = (x, y) : Φ(x, y) 2 B . con A = (x, y) : xy 2 B . a) Dovendo essere XY > 12 , si ha B = z > 12 , e quindi A è la regione, tutta contenuta in Q, costituita dai punti (x, y) tali che xy > 12 (vedi figura). Di conseguenza la probabilità richiesta è 1 1 1 P XY > = dx dy = dx dy = 1 1 2 A∩Q 2 2x 1 1 1 = 1¡ dx = (1 ¡ loge 2) . 1 2x 2 2 b) Per calcolare la probabilità richiesta in questo punto, si procede analogamente a quanto fatto per il punto a) tenendo però conto che si tratta di una probabilità condizionata: 1 1 P [XY < 14 , X > 12 ] P XY < X > = . 4 2 P [X > 12 ] Posto A′ = (x, y) : xy < 14 , x> 12 , si ha quindi 1 1 4x 1 1 A′ ∩Q dx dy = P XY < X > =2 dx dy = 1 1 4 2 0 2 2 1 1 1 =2 dx = loge 2 . 1 4x 2 2 46 1.7 DISTRIBUZIONI BINOMIALE, DI POISSON E DI GAUSS DISTRIBUZIONE BINOMIALE Consideriamo esperimenti con due soli risultati: ad esempio, il lancio di una moneta produce come risultato o testa o croce; un individuo, scelto a caso da un gruppo, possiede oppure no una data caratteristica; un dato prodotto, uscito da una linea di produzione, è difettoso oppure no. Generalizzando, siano A (il “successo”) e B ´ AC (“il fallimento”) i due possibili risultati del nostro esperimento, e siano p = P (A) e q = P (B) = 1¡p le loro probabilità. Considerando ora una variabile casuale Y che assume il valore 1 nel caso di successo e 0 nel caso di fallimento, essa risulta così definita: 0 1 Y : . 1¡p p Una variabile casuale di questo tipo è detta di Bernoulli o bernoulliana. È immediato verificare che E(Y ) = p , V ar(Y ) = pq . Supponiamo poi che dell’esperimento in questione siano fatte n prove e sia X la variabile aleatoria che ne descrive il risultato: sarà X =k se si verificano esattamente k successi. Ebbene, il teorema che segue, e che non dimostriamo, ci fornisce la probabilità P (X =k). (Si consiglia di rivedere gli esercizi 1.5.1 e 1.5.2 per una giustificazione del teorema basata su due problemi specifici). Teorema (di Bernoulli) La probabilità che in n prove indipendenti l’evento A avvenga esattamente k volte vale n k n−k p q , k = 0, 1, ..., n , k dove p è la probabilità di A in una singola prova e q =1¡p. Si dà quindi la seguente Definizione Dati 0 < p < 1 e n 2 N , si chiama variabile aleatoria binomiale la variabile aleatoria discreta (e finita) avente la seguente funzione di probabilità: P (X =k) ´ f (k) = nk pk q n−k , q =1¡p , k = 0, 1, . . . , n . n n! Ricordando che = , si può anche scrivere k k!(n ¡ k)! X: 0 1 qn npq n−1 2 n! p2 qn−2 2!(n ¡ 2)! ... ... n¡2 n! pn−2 q 2 (n ¡ 2)!2! n¡1 npn−1 q n pn . Spesso, piuttosto di dire che abbiamo una variabile aleatoria X binomiale, parleremo di distribuzione binomiale. Qualche volta, poi, per indicare una variabile aleatoria X binomiale di parametri n e p scriveremo X ' B(n, p). 47 Si noti che effettivamente la somma di tutte le probabilità P (X =k) è 1. Infatti, per la formula binomiale di Newton, si ha n n pk q n−k = (p + q)n = 1n = 1 . k k=0 Teorema (senza dimostrazione) Una variabile casuale X binomiale ha media e varianza date da 2 σX = npq . µX = np , Per poter calcolare operativamente la funzione distribuzione F (k) = P (X · k) o la funzione di probabilità f (k) è molto utile la seguente relazione: P (X = k+1) = p n¡k P (X = k) . 1¡p k+1 Esercizio 1.7.1 Se la probabilità di avere un figlio maschio è 1 2 , per una famiglia con 5 figli, qual è la probabilità di avere: (i) due maschi; (ii) almeno un maschio; (iii) almeno 3 femmine. Sia X la variabile aleatoria binomiale che rappresenta il “numero di maschi fra n = 5 figli”: 1 5 5 1 2 1 3 5 P (X =2) = = 10 ¢ = ; 2 2 2 2 16 31 5 1 0 1 5 = P (X ¸ 1) = 1 ¡ P (X =0) = 1 ¡ ; 0 2 2 32 2 k 5−k 1 1 1 1 1 5 1 = +5¢ + 10 ¢ = . P (X · 2) = 2 32 32 32 2 k 2 k=0 Esercizio 1.7.2 Sia p = 98% la probabilità che un test diagnostico su una persona dia una risposta corretta. Si chiede qual è la probabilità che eseguendo il test su un gruppo di 7 individui esso dia una risposta corretta per (i) tutti 7; (ii) almeno 6; (iii) meno della metà. Indichiamo con X la variabile aleatoria binomiale che rappresenta il numero delle diagnosi veritiere sulle 7 eseguite. Si ha 987 7 98 7 2 0 P (X =7) = = 1¢ ¼ 0.868 ; 100 1014 7 100 7 98 6 2 1 7 98 7 2 0 P (X ¸ 6) = + ¼ 0.124 + 0.868 = 0.992 ; 6 100 100 7 100 100 3 7 98 k 2 7−k P (X · 3) = ¼ 0.53¢10−5 . k 100 100 k=0 48 Esempio 1.7.1 Si consideri ancora il test dell’esercizio precedente, questa volta con p=90%, che supponiamo eseguito su una popolazione di n = 250 persone. Calcoliamo la media e la deviazione standard della variabile aleatoria Y che rappresenta il numero dei test corretti. In virtù del teorema precedente si ha 90 µY = np = 250¢ 100 = 225 ; σY = p npq = 90 1 250¢ 100 ¢ 10 = p 22.5 ¼ 4.74 . Questo esempio mostra come il concetto di media coincida col concetto intuitivo di “valore più probabile”, e quindi di “valore atteso”. La deviazione standard (o scarto quadratico medio) fornisce invece un indice (ce ne sono diversi) della dispersione dei risultati attorno al valore atteso quando l’esperimento è compiuto tante volte. Esercizio 1.7.3 (a) Due ristoranti sono in concorrenza avendo gli stessi 10 clienti. Si supponga che i clienti scelgano a caso ed indipendentemente uno dall’altro il ristorante, e che arrivino al ristorante tutti alla stessa ora. Si chiede di determinare il numero di posti a sedere che ciascun ristorante dovrebbe avere perché ci sia almeno il 95% di probabilità di poter servire tutti i clienti che arrivano. (b) Risolvere lo stesso problema per tre ristoranti. (a) Se X è la variabile casuale che rappresenta il numero di clienti che arrivano ad uno stesso ristorante, X ha chiaramente una distribuzione binomiale, vale a dire si ha P (X =i) = 10 i pi (1 ¡ p)10−i . Inoltre, nel caso in questione, poichè la scelta del ristorante da parte di ogni cliente è casuale, si ha p = q = 12 . Il numero di posti che garantisce con una probabilità di almeno il 95% di poter servire tutti i clienti che arrivano è dato dal minimo k tale che 1 i 1 10−i 1 10 k 10 = 2 P (X · k) = ki=0 10 i=0 i ¸ 0.95 . i 2 2 Indicata con Sk la somma in questione dei coefficienti binomiali, si può quindi scrivere 10 Sk ´ ki=0 10 ¢ 0.95 = 972.8 . i ¸2 Di conseguenza, essendo ¢¢¢¢¢¢ S6 =758 S7 =968 il minimo k che soddisfa la relazione è 8. S8 =1013 S9 =1023 S10 =1024 , (b) Se i ristoranti sono tre, si ha p= 13 e q = 23 . In questo caso si ha quindi P (X · k) = o, equivalentemente, k i=0 Σk ´ 10 1 i 2 10−i k i=0 i 3 10−i 2 3 = 1 10 k 3 i=0 210−i 10 i ¸ 0.95 , 10 ¸ 310 ¢ 0.95 = 56096.55 . i Calcolati i termini Σk con un pò di lavoro, si ha: ¢¢¢¢¢¢ Σ4 =46464 Σ5 =54528 Σ6 =57888 Σ7 =58848 ¢¢¢¢¢¢ . Il minimo k per cui risulta soddisfatta la relazione è dunque 6. Nel caso di tre ristoranti bastano quindi 6 posti a sedere per avere la probabilità di almeno il 95% di poter servire i clienti che arrivano. 49 DISTRIBUZIONE DI POISSON Definizione Una variabile aleatoria X è detta variabile aleatoria di Poisson con parametro µ (µ> 0) se può assumere gli infiniti valori k = 0, 1, 2, ... con probabilità P (X =k) = f (k) = µk −µ e , k! Rappresentata in forma esplicita, una variabile aleatoria di Poisson è dunque del tipo X: 0 e−µ 1 µe−µ 2 µ −µ e 2! 3 µ −µ e 3! 2 3 ... ... k µ −µ k! e k ... ... . Si osservi che effettivamente la somma di tutte le probabilità vale 1. Infatti, si ha +∞ k µ k=0 essendo +∞ Teorema k x k=0 k! k! −µ e −µ =e +∞ k µ k=0 k! = e−µ ¢ e+µ = 1 , = ex (si tratta della ben nota serie esponenziale). (senza dimostrazione) La variabile aleatoria di Poisson di parametro µ ha media uguale a µ e varianza pure uguale a µ. 2 = µ implica che, aumentando µ, aumenta di pari passo anche la Il fatto che µX = σX dispersione dei valori rispetto alla media. La distribuzione di Poisson è tra le più importanti del calcolo delle probabilità. Essa è stata ottenuta come limite della distribuzione binomiale, della quale è una buona approssimazione quando n è molto grande e p molto piccolo; per questo è anche detta distribuzione degli eventi rari. Per farne capire l’importanza nelle applicazioni e il gran numero di situazioni in cui essa si applica, elenchiamo alcuni casi in cui la distribuzione di Poisson descrive assai bene i dati osservati: — il numero casuale delle particelle α emesse da un corpo radioattivo e rilevate in un intervallo di tempo fissato; lo stesso vale per molte altre variabili aleatorie osservate in connessione con la radioattività; — il numero di refusi in una o più pagine di un libro; — il numero di clienti che entrano in un ufficio postale in una giornata; — il numero di persone, di una data categoria, con più di 100 anni; — il numero delle chiamate in arrivo ad un centralino telefonico, cosı̀ come il numero di collegamenti ad un numero sbagliato; — il numero di transistor che si guastano nel primo giorno di utilizzo. Come si può desumere dall’elenco di applicazioni appena proposto, la variabile aleatoria di Poisson è adatta a descrivere il numero di fenomeni casuali distribuiti con una data densità media µ nell’unità di tempo o nell’unità di volume o nell’unità di superficie... Gli esempi che seguono illustrano operativamente quanto affermato. 50 Osservazione: Si può facilmente dimostrare che vale la seguente relazione: µ P (X =k + 1) = P (X =k) . k+1 Esempio 1.7.2 Nel 1910 Rutherford e Geiger provarono che il numero di particelle α emesse al secondo da una sostanza radioattiva era una variabile aleatoria di Poisson con µ = 0.5. Determiniamo la probabilità di osservare due o più particelle in un secondo? P (X ¸ 2) = +∞ (0.5)k k=2 k! e−0.5 = 1 ¡ P (X =0) ¡ P (X =1) = = 1 ¡ e−0.5 ¡ 0.5¢e−0.5 ¼ 1 ¡ 0.91 = 9% Una certa sospensione batterica contiene 5 batteri per cm3 (valor medio). Qual è la probabilità che un campione causale di 1 cm3 contenga (i) nessun batterio; (ii) al piú due batteri; (iii) almeno 5 batteri? Esempio 1.7.3 P (X =0) = e−5 ¼ 0.007 ; 52 −5 P (X · 2) = 1 + 5 + e ¼ .125 ; 2! 52 53 54 −5 P (X ¸ 5) = 1 ¡ P (X · 4) = 1 ¡ 1 + 5 + + + e ¼ 0.560 . 2! 3! 4! Esempio 1.7.4 Si desidera determinare la carica batterica di un campione di latte. Per valutare il numero di batteri in una sospensione se ne cerca la diluizione limite alla quale si trova ancora almeno un batterio capace di riprodursi. Supponiamo, ad esempio, di diluire 1 cm3 di latte prima di un fattore 10−1 , poi 10−2 , quindi 10−3 e infine 10−4 , trovando in ogni caso, dopo incubazione, sviluppo dei batteri. Supponiamo invece che diluendo di un fattore 10−5 , si trovi che il campione di 1 cm3 risulti sterile. Ciò permette di concludere che nel campione di 1 cm3 diluito 104 volte vi era almeno un germe capace di riprodursi, e quindi che quel latte conteneva circa 104 germi per cm3 . Volendo raffinare l’approssimazione della carica batterica presente nel latte in esame, inoculiamo la sospensione diluita di un fattore 10−4 in 20 provette, mettendone 1 cm3 in ciascuna. Supponiamo di trovare che 8 di esse mostrano crescita, mentre le altre 12 risultano sterili. La distribuzione di Poisson permette di prevedere che, se vi sono in media µ germi per cm3 di diluito, il numero di provette che non riceveranno alcun germe (cioè sterili) risulterà proporzionale a P (X =0) = e−µ . Avremo dunque e−µ = 12 20 = 0.6 , da cui µ = ¡loge (0.6) = ¡loge 10¢log10 (0.6) = ¡2.3026¢(¡0.222) = 0.51 . Allora la concentrazione di germi nel latte è 0.51¢104 =5.1 ¢ 103 germi per cm3 . 51 Esercizio 1.7.4 Una compagnia di assicurazioni riceve in media 5 richieste di rimborso al giorno. Assumendo che il numero delle richieste che arrivano in giorni successivi sia indipendente, si chiede: (a) che frazione delle giornate vedrà arrivare meno di 3 richieste? (b) con quale probabilità in una settimana (di 5 giorni lavorativi) arrivano 4 richieste in esattamente 3 giorni? (a) Poichè il numero di assicurati è grande, ma la probabilità che essi mandino una richiesta in un dato giorno è piuttosto piccola, il numero totale di richieste al giorno, che indichiamo con X , è una variabile casuale approssimativamente Poissoniana con media E(X) = 5. Si ha quindi 52 −5 P (X < 3) = P (X =0) + P (X =1) + P (X =2) = 1 + 5 + e ¼ 0.1247 . 2 Siccome in una giornata arrivano meno di 3 richieste di risarcimento con probabilità 0.125 circa, in un arco lungo di tempo ciò avverrà grossomodo nel 12.5% delle giornate, cioè una giornata ogni 8. b) In virtù dell’indipendenza tra le richieste che arrivano giorno per giorno, il numero di giorni, in una serie di 5, nei quali arriveranno 4 richieste è una variabile casuale binomiale Y , di parametri n=5 e p = P (X =4). Essendo p = P (X =4) = la probabilità cercata è data da P (Y =3) = 5 3 54 −5 e ¼ 0.1755 , 4! (0.176)3 (0.825)2 ¼ 0.037 = 3.7% . DISTRIBUZIONE DI GAUSS o NORMALE Definizione Una variabile aleatoria continua X è detta variabile aleatoria di Gauss o normale con parametri µ e σ (µ 2 R , σ > 0), e si scrive X ' N (µ, σ 2 ), se la funzione densità è f (x) = 1 2 2 p e−(x−µ) /2σ . σ 2π La funzione f (x) è detta funzione di Gauss. Si tratta di una funzione “a campana” simmetrica rispetto ad x◦ = µ, che ha un massimo per x◦ , dove assume il valore 1 massimo f (µ) = p . Quest’ultimo ha il significato di fattore di normalizzazione, σ 2π cioè è quel numero tale che +∞ f (x)dx = 1 . −∞ Come già sappiamo, questa uguaglianza, la cui dimostrazione viene omessa, dice che f (x) è effettivamente una densità di probabilità. Teorema E(X) = µ , V ar(X) = σ 2 . Il fatto che la media di X sia µ è una ovvia conseguenza della simmetria del grafico della densità rispetto ad x◦ = µ. Omettiamo, per semplicità, di dimostrare che la 52 varianza è σ 2 . A proposito di σ si può notare che più è piccolo, più è alto il picco f (µ), e dunque la campana è più concentrata intorno alla media µ, il che concorda perfettamente con il significato di varianza. Dalla espressione della densità otteniamo la funzione distribuzione: x 2 2 1 p F (x) = e−(t−µ) /2σ dt , −∞ σ 2π da cui P (a· X · b) = F (b) ¡ F (a) = a b 2 2 1 p e−(t−µ) /2σ dt. σ 2π Naturalmente, trattandosi di una variabile casuale continua, si ha P (a · X · b) = P (a· X < b)=P (a< X · b)=P (a< X < b). La funzione integrale F (x) non si può calcolare coi metodi di integrazione elementari. Tuttavia, indicata con x 2 1 p Φ(x) = e−u /2 du , 2π −∞ la funzione distribuzione della variabile aleatoria normale standardizzata, cioè la variabile aleatoria normale con media 0 e varianza 1, vale il seguente La funzione distribuzione normale F (x) di media µ e varianza σ 2 si può rappresentare in termini della funzione distribuzione normale Φ(x) di media 0 e varianza 1 nel modo seguente: Teorema x ¡ µ F (x) = Φ . σ Dimostrazione. Essendo x x 2 2 1 1 −(t−µ)2 /2σ2 p p F (x) = e dt ´ lim e−(t−µ) /2σ dt , R→−∞ R σ 2π −∞ σ 2π t¡µ ponendo = u, si ha dt = σdu , e quindi σ x−µ x−µ x ¡ µ σ σ 2 1 1 −u2 /2 p p e−u /2 du ´ Φ F (x) = lim e σdu = . R→−∞ R−µ σ 2π σ 2π −∞ σ 53 Questo teorema risulta di grande utilità pratica. Infatti, una volta tabulata la Φ(x), il cui grafico ha l’andamento mostrato nella figura sottoriportata, attraverso le tavole ottenute è possibile ottenere anche i “corrispondenti” valori per una qualunque variabile normale. Le tavole di Φ(x) sono fornite alla fine di queste dispense. Essendo P (a· X · b) = F (b) ¡ F (a) = Φ si ha b ¡ µ σ ¡Φ a ¡ µ σ , P (µ ¡ σ < X < µ + σ) = Φ(1) ¡ Φ(¡1) ' 68.3% ; P (µ ¡ 2σ < X < µ + 2σ) = Φ(2) ¡ Φ(¡2) ' 95.5% ; P (µ ¡ 3σ < X < µ + 3σ) = Φ(3) ¡ Φ(¡3) ' 99.7% . Queste probabilità sono molto indicative del comportamento di una variabile casuale normale. La prima, ad esempio, ci dice che è ragionevole aspettarsi che più dei due terzi dei valori osservati di X ' N (µ, σ 2 ) cadano nell’intervallo (µ ¡ σ, µ + σ). La terza ci dice invece che fra mille osservazioni di X, mediamente solo tre cadono fuori dall’intervallo (µ ¡ 3σ, µ + 3σ). Data la variabile casuale X ' N (µ, σ 2 ), l’uso più diretto delle tavole relative alla funzione Φ consiste nel determinare P (X · x) sapendo che è uguale a Φ x−µ . Qualche σ volta, però, nelle applicazioni è data una probabilità α (spesso assegnata come percentuale) e si cerca il numero x tale che Φ(x)=α. Questo numero x è spesso denotato n con φα e chiamato quantile relativo ad α, ovvero percentile n¡esimo se α= . 100 Nell’ambito di applicazioni in cui sono assegnate come dati le probabilità, può poi essere utile ricordare le seguenti approssimazioni P (µ ¡ 1.96σ < X < µ + 1.96σ) ¼ 95% ; P (µ ¡ 2.58σ < X < µ + 2.58σ) ¼ 99% . Nella determinazione di probabilità attraverso le tavole di N (0, 1), talvolta anche considerazioni geometriche sulle aree sottese dal grafico della densità possono essere di grande aiuto. Una relazione estremamente utile, che permette di limitare la tabulazione dei valori della funzione distribuzione Φ(x) ad x > 0, deducibile in modo immediato dalla simmetria della funzione densità rispetto all’asse y, è la seguente: Φ(¡x) = 1 ¡ Φ(x) . 54 Grazie a questa relazione, si può osservare che posto Φ(x) = α, si ha Φ(¡x) = 1 ¡ α. Da qui, passando alla notazione precedentemente introdotta relativa ai quantili, segue φ1−α = ¡φα . Ad esempio, φ0.95 = ¡φ0.05 . Il grafico qui sotto riportato rende evidente sia la relazione che ci dà Φ(¡x) dato Φ(x), sia la relazione sui quantili. Teorema (senza dimostrazione) Se X ' N (µ, σ 2 ), allora la variabile aleatoria X ∗ = aX + b (a > 0) è normale con media µ∗ = aµ + b e varianza (σ ∗ )2 = a2 σ 2 . Esercizio p 1.7.5 Consideriamo la variabile aleatoria X ' N (0.8; 4). Essendo µ = 0.8 e σ = 4=2, andiamo a calcolare a modo di esempio alcune probabilità. P (X · ¡1.16) = Φ[(¡1.16 ¡ 0.8)/2] = Φ(¡0.98) = 1 ¡ Φ(0.98) ¼ 16.35% ; P (X ¸ 1) = 1 ¡ Φ[(1 ¡ 0.8)/2] = 1 ¡ Φ(0.1) ¼ 46.02% ; P (2· X · 3) = Φ[(3 ¡ 0.8)/2] ¡ Φ[(2 ¡ 0.8)/2] = Φ(1.1) ¡ Φ(0.6) ¼ 13.86% . Esercizio 1.7.6 Si consideri la variabile casuale X ' N (¡2; 0.25). Si chiede di determinare c 2 R tale che (a) P (X ¸ c) = 20% ; (b) Essendo µ=¡2 e σ = (a) (b) p P (¡2 ¡ c· X · ¡2 + c) = 90%. 0.25=0.5, si ha: c + 2 = 0.2, da cui Φ 2(c + 2) = 0.8. P (X ¸ c) = 1 ¡ F (c) = 1 ¡ Φ 0.5 Dalle tavole della legge N(0, 1) si ricava: 2(c + 2) ¼ 0.84 =) c ¼ ¡1.58. ¡2 + c + 2 ¡2 ¡ c + 2 P (¡2 ¡ c· X · ¡2 + c) = Φ ¡Φ = 0.5 0.5 = Φ(2c) ¡ Φ(¡2c) = 0.9. Essendo Φ(2c) ¡ Φ(¡2c) = Φ(2c) ¡ (1 ¡ Φ(2c)) = 2Φ(2c) ¡ 1, Φ(2c)=0.95, da cui, tramite le tavole, 55 2c ¼ 1.64, e quindi: deve essere c ¼ 0.82. Esercizio 1.7.7 Il voto ad una prova d’ingresso è distribuito normalmente. Solo il 10% dei candidati, quelli con punteggio migliore, verrà assunto. Ad esame finito, il voto medio risulta 72 e la deviazione standard 9. Qual è il voto minimo c che un candidato deve ottenere per essere assunto? Essendo µ = 72 e σ = 9, deve essere P (X ¸ c) = 1 ¡ Φ c ¡ µ σ · 1 10 da cui Φ c ¡ 72 9 ¸ 9 . 10 Dalle tavole di N (0, 1) si ricava che questa relazione è soddisfatta se c ¡ 72 ¸ 1.29 , 9 cioè c ¸ 83.61 , che arrotondato fornisce come voto minimo c=84. 1.8 APPROSSIMAZIONE NORMALE La nozione di indipendenza fra variabili casuali, e quella di convergenza in legge che ora richiamiamo, permettono di enunciare l’importante teorema di limite centrale (di cui ometteremo la dimostrazione). Definizione Una successione di variabili aleatorie fXn gn converge in legge (o in distribuzione) alla variabile aleatoria X se e solo se, dette Fn (x) ed F (x) le rispettive funzioni distribuzione, si ha limn→∞ Fn (x) = F (x) , per ogni punto x 2 R di continuità per F (x). Osserviamo ora che data una successione di variabili aleatorie fXn gn indipendenti, ciascuna di media µ e varianza σ 2 , in virtù di teoremi visti in precedenza, se consideriamo la variabile aleatoria Sn = X1 + X2 + ¢ ¢ ¢ + Xn , si ha E(Sn ) = nµ , V ar(Sn ) = nσ 2 . Teorema di limite centrale Sia fXn gn una successione di variabili aleatorie indipendenti e identicamente distribuite, di media µ e varianza σ 2 > 0. Allora la loro somma n¡esima standardizzata Sn∗ = X1 + ... + Xn ¡ nµ p σ n converge in legge ad una variabile aleatoria N (0, 1). Questo teorema costituisce uno risultato notevole: la legge di Sn∗ , che in generale è complicata da esprimere, si approssima, per n grande, con una legge N (0, 1), e questo qualunque sia la legge delle variabili Xn . Sostanzialmente il teorema di limite centrale 56 afferma questo: un effetto casuale che sia la risultante di molti effetti aleatori, ciascuno dei quali dia solo un piccolo contributo all’effetto finale, segue approssimativamente una legge normale. Ad esempio, si assume spesso che un errore di misurazione segua una legge normale. Infatti, in assenza di errore sistematico, è ragionevole pensare che la discrepanza tra il valore vero e quello misurato sia la risultante di numerosi piccoli errori che si sono sovrapposti. Spesso l’esperienza conferma la validità di questa approssimazione. Dunque, il teorema di limite centrale giustifica l’approssimazione nella pratica della legge Sn∗ con una N (0, 1). Generalmente si considera che la soglia di applicabilità (cioè il minimo n a partire dal quale l’approssimazione si può ritenere valida) sia per n compreso tra 30 e 50. Occorre però osservare che questa soglia è da ritenersi appropriata per la maggior parte delle distribuzioni che si incontrano nella pratica, ma non per tutte indistintamente. Nel caso in cui si ha Xi ' B(1, p), l’esperienza mostra che l’approssimazione è soddisfacente quando sono soddisfatte entrambe le condizioni np ¸ 5 e n(1 ¡ p) ¸ 5. Quindi, nel caso di valori di p estremi, cioè molto prossimi a 0 o 1, il valore necessario di n può essere molto grande. L’approssimazione con la legge normale si basa sulla relazione seguente: x ¡ nµ x ¡ nµ p P X1 + X2 + ¢ ¢ ¢ + Xn · x = P Sn∗ · p 'Φ , σ n σ n dove Φ indica, come già visto, la funzione di distribuzione di N (0, 1). Facendo riferimento a questa relazione parleremo sempre di approssimazione normale. Nel caso di variabili casuali Xi a valori interi, è naturale che il numero x che compare nella relazione appena scritta sia esso pure un intero. Denotandolo con k per evidenziare questo fatto, in generale è conveniente riscrivere la relazione nel modo seguente: 1 k−nµ+ 12 √ P X1 + X2 + ¢ ¢ ¢ + Xn · k + 'Φ , σ n 2 Il considerare x=k+ 12 rende, nella maggior parte dei casi, più corretta l’approssima zione. A giustificazione di questo fatto si supponga di voler approssimare P X1 + X2 + ¢ ¢ ¢ + Xn =k mediante N (0, 1). Ovviamente, essendo questa una distribuzione continua, la probabilità cercata sarebbe nulla. In realtà ha senso valutarla tenendo conto che si approssima una distribuzione discreta con una continua: ciò porta ad associare all’intero k l’intervallo di ampiezza 1 centrato in k, cioè k ¡ 12 , k + 12 . Di qui si può ragionevolmente porre 1 1 P X1 + X2 + ¢ ¢ ¢ + Xn =k = P k ¡ < X1 + X2 + ¢ ¢ ¢ + Xn · k + ¼ 2 2 k + 1 ¡ nµ k ¡ 1 ¡ nµ 2p 2p ¼Φ ¡Φ . σ n σ n Fra i casi in cui conviene applicare l’approssimazione normale in questo modo rientra certamente il caso delle prove di Bernoulli. Infatti se Y è il numero di successi in n prove indipendenti, si ha Y = X1 + ... + Xn , dove ciascun Xi ' B(1, p) è la variabile aleatoria relativa alla singola i¡esima prova. In tal caso, essendo 57 E(Xi )=p , V ar(Xi ) = pq , l’approssimazione migliore in generale sarà k + 1 ¡ np P (Y · k) ¼ Φ . p2 npq Esercizio 1.8.1 Qual è la probabilità di ottenere almeno 29 teste in 50 lanci di una moneta equilibrata? Si tratta di calcolare P (X1 + X2 + ¢ ¢ ¢ + X50 ) ¸ 29, con le Xi indipendenti e del tipo B 1, 12 . Essendo µXi = 12 e σXi = 12 , si ha P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼ 28.5 ¡ 50¢0.5 3.5 p ¼1¡Φ =1¡Φ p ¼ 0.5¢ 50 12.5 ¼ 1 ¡ Φ(0.99) ¼ 1 ¡ 0.84 = 0.16 . Occorre osservare che questo risultato è assia preciso. Se avessimo fatto il calcolo utilizzando la formula con k anzichè quella con k + 12 , avremmo ottenuto una approssimazione assai peggiore. Infatti: P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼ 28 ¡ 50¢0.5 3 p ¼1¡Φ =1¡Φ p ¼ 0.5¢ 50 12.5 ¼ 1 ¡ Φ(0.85) ¼ 1 ¡ 0.80 = 0.20 . Esercizio 1.8.2 Determinare la probabilità di ottenere più di 25 ”sette” in 100 lanci di una coppia di dadi equi. La variabile aleatoria Y = “numero di ’sette’ nell’ambito di 100 lanci” può essere definita 6 come X1 + X2 + ¢ ¢ ¢ + X100 , con ciascuna Xi ' B(1, 16 ), essendo p= 36 , in quanto sono 6 i risultati che danno ’sette’ sui 36 possibili esiti del lancio di due dadi. Si ha dunque µXi =p= 16 , 5 2 σX =pq = 36 . i Di conseguenza, approssimando con la normale, abbiamo: P (Y ¸ 26) = 1 ¡ P (Y · 25) ¼ 1 ¡ Φ 25.5 ¡ 100¢ 16 √ 5 6 ¢10 5.3 = 1 ¡ Φ p ¼ 1 ¡ Φ(2.37) ¼ 0.01 . 5 58 = Esercizio 1.8.3 Un segnale consiste in una parola di 1000 bit, ciascuno dei quali può assumere i valori 0 oppure 1. Nel corso della trasmissione del segnale ogni bit può essere distorto con probabilità p=0.01. Si chiede: qual è la probabilità che un segnale contenga almeno 10 bit distorti? Sia Xi ' B(1, p) la variabile aleatoria che dice se l’i¡esimo bit del segnale è distorto oppure no. Dobbiamo determinare P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10). Osservato che np=10, per cui n è sufficientemente grande da rendere affidabile una approssimazione alla normale, procediamo in tal senso. P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X1000 · 9) ¼ 9.5 ¡ 1000¢0.01 ¡0.5 ¼ 1¡Φ p =1¡Φ p ¼ 1000¢0.01¢0.99 9.9 ¼ 1 ¡ Φ(¡0.159) = Φ(0.159) ¼ 0.564 = 56.4% . Esercizio 1.8.4 Nella trasmissione di un’immagine ogni bit viene distorto con probabilità 0.0002. Ne consegue che il colore di un pixel, che è rappresentato da un byte, cioè da una 8-pla di bit, resta integro con probabilità q =0.9984 (in realtà, essendo q = (0.0002)8 , se si fanno i calcoli, ci si accorge che questo è un valore approssimato). Sapendo che un’immagine è composta da 512£256 = 131072 pixel, quali sono le probabilità che vi siano (a) almeno 190 pixel distorti; (b) almeno 210; (c) almeno 230? Indicata con Xi ' B(1, p), p = 0.0016, la variabile che dice se l’i¡esimo pixel è oppure no distorto, si deve approssimare P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ k), con k = 190, k = 210 e k =230. Poichè np ¼ 210, n è certamente tale da consentire una buona approssimazione mediante la normale. Si ha quindi P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 190) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 189) ¼ 189.5 ¡ 131072¢0.0016 ¼ 1¡Φ p ¼ 131072¢0.0016¢0.9984 ¡20.215 ¼ 1¡Φ ¼ 1 ¡ Φ(¡1.398) ¼ 14.464 ¼ Φ(1.40) ¼ 0.919 = 91.9% ; P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 210) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 209) ¼ 209.5 ¡ 209.715 ¼ 1¡Φ ¼ 1 ¡ Φ(¡0.015) ¼ 14.464 = Φ(0.015) ¼ 0.506 = 50.6% ; P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 230) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 229) ¼ 229.5 ¡ 209.715 p ¼ 1¡Φ ¼ 1 ¡ Φ(1.37) ¼ 14.464 ¼ 1 ¡ 0.915 = 0.085 = 8.5% . 59 Esercizio 1.8.5 Un calcolatore esegue la somma di un milione di numeri (il che implica l’esecuzione di 106 somme). In ogni addizione il risultato prodotto è soggetto ad un errore di arrotondamento. Supponiamo che i singoli errori indipendenti 1 siano uno dall’altro e che ab1 −10 −10 biano distribuzione uniforme nell’intervallo ¡ 2 10 , + 2 10 (il che significa supporre che la decima cifra decimale sia significativa). Si chiede: (a) qual è la probabilità che la settima cifra decimale della somma risultante sia significativa? qual è la probabilità che l’ottava cifra sia significativa? Introduciamo le variabili casuali Xi := “errore compiuto nella i¡esima addizione”. Si tratta di 106 variabili casuali uniformemente distribuite nell’intervallo ¡ 12 10−10 , + 12 10−10 , per le quali, come abbiamo visto nell’esempio 1.5.4, si ha E(Xi ) = a+b = 0, 2 V ar(Xi ) = (b ¡ a)2 10−20 = . 12 12 Perché la k¡esima cifra decimale sia significativa occorre che 1 1 ¡ 10−k · X1 + X2 + ¢ ¢ ¢ + X106 · 10−k . 2 2 106 Posto per comodità Y = i=1 Xi , la probabilità richiesta nella domanda (a), approssimata con la normale, risulta quindi −7 10−7 1 ¡ 102 1 −7 −7 2 P ¡ 10 · Y · 10 ) ¼ Φ ¡Φ = −20 2 2 10−20 6 10 ¢ 12 106 ¢ 1012 p p = Φ 3 ¡ Φ ¡ 3 ¼ Φ(1.73) ¡ Φ(¡1.73) ¼ ¼ 2Φ(1.73) ¡ 1 ¼ 2¢0.958 ¡ 1 = 0.916 = 91.6% . Per quanto riguarda poi la domanda (b), procedendo esattamente allo stesso modo, si ha 10−8 10−8 1 ¡ 1 −8 −8 2 P ¡ 10 · Y · 10 ) ¼ Φ 2 ¡Φ = −20 2 2 10−20 6 6 10 ¢ 12 10 ¢ 1012 p p 3 3 =Φ ¡Φ ¡ ¼ Φ(0.173) ¡ Φ(¡0.173) ¼ 10 10 ¼ 2Φ(0.173) ¡ 1 ¼ 2¢0.568 ¡ 1 = 0.114 = 11.4% . 60 Esercizio 1.8.6 Si sa che esistono in circolazione dei dadi truccati in modo tale da produrre il 6 con probabilità 29 . Ci si pone il problema di stabilire se un dato dado è truccato oppure no. La procedura adottata è la seguente: il dado viene lanciato 900 volte, e se il 6 esce almeno 180 volte, si decide che il dado è truccato. Ci si chiede: qual è la probabilità che un dado che viene assunto come truccato lo sia effettivamente? Sia Xi ' B(1, p = 29 ) la variabile aleatoria che dice se all’i¡esimo lancio esce il 6 oppure no. La probabilità da calcolare, posto per comodità X = X1 + X2 + ¢ ¢ ¢ + X900 , è P (X ¸ 180). Valutiamo tale probabilità approssimandola con la normale. Si ha: 179.5 ¡ 900¢ 29 P (X ¸ 180) = 1 ¡ P (X · 179) ¼ 1 ¡ Φ = 900¢ 29 ¢ 79 ¡20.5 = 1 ¡ Φ 10 p ¼ 1 ¡ Φ(¡1.64) = Φ(1.64) ¼ 14 3 ¼ 0.95 = 95% . Dunque, è lecito aspettarsi che nel 95% dei casi il test adottato dia la risposta giusta. Ci si potrebbe anche chiedere: qual è la probabilità che il 6 esca almeno 180 volte se il dado non è truccato? In tal caso, indicata con Yi ' B(1, 16 ) la variabile aleatoria che descrive l’esito dell’i¡esimo lancio di un dado “equo”, e posto Y = Y1 + Y2 + ¢ ¢ ¢ + Y900 , si ha 179.5 ¡ 900¢ 16 P (Y ¸ 180) = 1 ¡ P (Y · 179) ¼ 1 ¡ Φ = 900¢ 16 ¢ 56 29.5 =1¡Φ p ¼ 1 ¡ Φ(2.64) ¼ 0.004 = 0.4% . 5 5 61 1.9 ALTRE DISTRIBUZIONI DISTRIBUZIONE ESPONENZIALE Definizione Una variabile aleatoria continua X ha una distribuzione esponenziale con parametro λ (λ > 0), se la sua funzione densità è f (x) = 0 λe−λx per x< 0 . per x¸ 0 È facile verificare (si consiglia di farlo come esercizio) che f (x) è effettivamente una densità e che la funzione distribuzione di X vale 0 per x< 0 F (x) = . −λx 1¡e per x¸ 0 Teorema Una variabile aleatoria X a distribuzione esponenziale con parametro λ ha media e varianza date da 1 1 µ= , σ2 = 2 . λ λ Dimostrazione Si ha infatti: +∞ +∞ +∞ +∞ 1 −λx −λx µ= xf (x)dx = λxe dx = ¡xe + e−λx dx = ; λ 0 −∞ 0 0 +∞ +∞ 1 1 x2 f (x)dx ¡ 2 = λx2 e−λx dx ¡ 2 = σ 2 = E(x2 ) ¡ µ2 = λ λ −∞ 0 +∞ +∞ 1 1 1 1 = ¡x2 e−λx + 2xe−λx dx ¡ 2 = 2 2 ¡ 2 = 2 . λ λ λ λ 0 0 Le variabili aleatorie con distribuzione esponenziale hanno notevole interesse applicativo in quanto utilizzabili per rappresentare diversi fenomeni che si incontrano nelle osservazioni scientifiche o nelle applicazioni tecnologiche. Di solito esse rappresentano 62 i tempi d’attesa affinché un dato evento si verifichi. Ad esempio, se X indica il tempo misurato a partire dall’inizio del funzionamento di un dato pezzo di una macchina, ci si può chiedere qual è la probabilità che il pezzo non si rompa prima che sia decorso un dato tempo x. Ebbene, la risposta è data da P (X ¸ x), ossia P (X ¸ x) = 1 ¡ F (x) = e−λx . Una proprietà caratteristica delle variabili casuali esponenziali è che non hanno memoria. Questo fatto, che non dimostreremo, matematicamente è espresso dalla seguente relazione fra probabilità: P (X > s + t j X > s) = P (X > t) . Ciò significa che se X è il tempo d’attesa fino al primo guasto di una data apparecchiatura, questo tempo non dipende dal fatto che l’apparecchiatura abbia già funzionato per un dato tempo s. In altre parole, la distribuzione di probabilità di X non dipende dall’istante iniziale. Esercizio 1.9.1 Il numero di chilometri (misurato in migliaia) che un dato pneumatico può percorrere prima di deteriorarsi è rappresentabile con una variabile aleatoria X avente distribuzione esponenziale con parametro λ=0.05. Determinare la probabilità che un pneumatico di questo tipo duri (i) almeno 30 Km; (ii) tra i 35 e i 40 km. Si ha P (X ¸ 30) = 1 ¡ F (30) = e−30λ = e−0.05·30 = e−1.5 ¼ 0.223 ; P (35· X · 40) = F (40) ¡ F (35) = e−1.75 ¡ e−2 ¼ 0.174 ¡ 0.135 = 0.039. Esercizio 1.9.2 Un apparecchio elettronico è composto da due elementi in parallelo, l’uno indipendente dall’altro e ciascuno con un tempo di vita esponenziale di media 8 giorni. Con quale probabilità l’apparecchio durerà un tempo non superiore a 12 giorni, supposto che esso funzioni se una almeno delle due componenti funziona? Poiché una variabile aleatoria esponenziale ha media uguale all’inverso del parametro λ, nel nostro caso si ha λ = 18 . Di conseguenza ciascuna componente ha un tempo di vita Xi , i = 1, 2, avente densità fXi = 0 per x< 0 1 − 18 x 8e per x¸ 0 . Indicato quindi con Y il tempo di vita dell’apparecchio, si ha Y = maxfX1 , X2 g. Sapendo poi che X1 e X2 sono indipendenti, si ha t P (Y · t) = P (X1 · t, X2 · t) = P (X1 · t)¢P (X2 · t) = (1 ¡ e− 8 )2 , e quindi 12 3 P (Y · 12) = (1 ¡ e− 8 )2 = (1 ¡ e− 2 )2 ¼ (1 ¡ 0.223)2 ¼ 0.6035 . 63 Esercizio 1.9.3 Una lampada ha un tempo di vita che segue una legge esponenziale di media µ uguale a 10 giorni. Non appena smette di funzionare essa viene sostituita con una nuova. Qual è la probabilità che 40 lampade siano sufficienti per un anno? Indicata con Xi la durata della lampada i¡esima, possiamo supporre le Xi indipendenti e 1 con legge esponenziale di parametro λ = 10 . Poiché nel caso di una variabile aleatoria di tipo esponenziale si ha σ 2 = λ12 = µ2 , abbiamo dunque µ=σ =10. La probabilità richiesta, approssimata mediante la normale, diventa quindi P (X1 + X2 + ¢ ¢ ¢ + X40 ¸ 365) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X40 < 365) ¼ 365 ¡ 40¢10 ¡35 p p ¼1¡Φ =1¡Φ ¼ 10¢ 40 20 10 ¼ 1 ¡ Φ(¡0.55) = 1 ¡ 1 ¡ Φ(0.55) = = Φ(0.55) ¼ 0.71 . DISTRIBUZIONE IPERGEOMETRICA Definizione Una variabile aleatoria discreta X ha una distribuzione ipergeometrica di parametri (interi) N , M ed n, con n· M · N , se ha la seguente funzione di probabilità: P (X =k) = f (k) = M N−M k Nn−k , k = 0, 1, . . . , n . n Questa distribuzione è utile quando si effettua un’estrazione senza reimmissione da un’urna che contiene N oggetti di cui M di un certo tipo, e si chiede la probabilità che un campione di dimensione n ne contenga esattamente k di quel tipo. Tipicamente, M rappresenta il numero degli oggetti difettosi fra gli N presi in considerazione. Ricordiamo che nel caso di estrazione con reimmissione la distribuzione utile è quella binomiale. Sulla base del significato dei parametri è abbastanza immediato verificare che f (k) rappresenta la probabilità che un campione di n oggetti contenga esattamente k oggetti difettosi. Infatti, mentre a denominatore c’è il numero di tutti i possibili campioni che è possibile estrarre dall’urna (cioè le combinazioni di N oggetti presi n alla volta), a numeratore c’è il numero dei possibili campioni che contengono esattamente k oggetti difettosi (cioè il numero delle combinazioni di M oggetti presi k alla volta, moltiplicato per il numero delle combinazioni di N ¡M oggetti presi n¡k alla volta). Teorema (senza dimostrazione) Una variabile aleatoria X a distribuzione ipergeometrica con parametri N , M ed n, ha media e varianza date da M M N ¡M N ¡n µ=n , σ2 = n . N N N N ¡1 64 Esempio 1.9.1 Si consideri l’esperimento di estrarre un campione di 2 lampadine da una scatola che ne contiene 10, 3 delle quali difettose. Si chiede di scrivere la funzione di probabilità della variabile casuale X = numero di lampadine difettose estratte , nel caso di estrazione: (a) senza reimmissione; (b) con reimmissione. (a) Abbiamo: N =10 ; M =3 ; n=2 ; k = 0, 1, 2 . E di conseguenza: 37 7 P (k =0) = f (0) = 0102 = , 15 2 37 7 P (k =1) = f (1) = 1101 = , 15 2 3 7 1 2 0 P (k =0) = f (2) = 10 = . 15 2 3 (b) Ricordando la distribuzione binomiale, essendo p= M N = 10 , q = 49 2 0 2 7 2 = P (k =0) = f (0) = p q = , 0 10 100 42 2 1 1 3 7 = , P (k =1) = f (1) = p q =2 10 10 100 1 2 2 0 3 2 9 P (k =0) = f (2) = p q = . = 2 10 100 7 10 , si ha Esempio 1.9.2 Da un lotto costituito di 800 pezzi si estrae un campione di 150 unità. Se il campione contiene al più 2 pezzi difettosi, il lotto viene accettato; altrimenti viene rifiutato. Qual è la probabilità che un lotto contenente il 5% di pezzi difettosi venga accettato? Consideriamo una distribuzione ipergeometrica con parametri N = 800 , M = 800 ¢ 40 , n=150 . La probabilità che il lotto sia accettato è data da f (0) + f (1) + f (2) = 2 k=0 40800−40 k 150−k 800 150 5 100 = ¼ 0.0112 . Questo esempio è interessante in quanto illustra come viene effettuato un controllo di accettazione o collaudo statistico. Vengono determinati dei piani di campionamento caratterizzati dalle cosiddette specifiche che, nel caso in questione, sono la numerosità n del campione da estrarre e il numero massimo ammissibile di unità difettose. L’esempio mostra come si calcola la probabilità che il lotto sia accettato pur avendo una data difettosità. Esercizio 1.9.4 Una partita di 150 libri ne contiene 30 che presentano un difetto nella rilegatura. Se 10 libri vengono scelti a caso per un controllo, qual è la probabilità che 3 libri tra i 10 estratti siano difettosi? Effettuare il calcolo sia nell’ipotesi di estrazione senza reimmissione che in quella di estrazione con reimmissione. Applicando la formula della distribuzione ipergeometrica con parametri N = 150 , M = 30 , n=10 , abbiamo f (3) = 30120 3 1507 10 65 ¼ 0.2065 . 30 Se invece applichiamo la distribuzione binomiale B(10, p) con p= 150 =0.2, otteniamo f (3) = 10 (0.2)3 (0.8)7 ¼ 0.2013 . 3 L’esercizio appena risolto mostra che in certi casi la distribuzione ipergeometrica e quella binomiale producono risultati pressochè uguali (nel caso specifico differiscono per meno dell’1%). La spiegazione sta nell’affermazione seguente (che non dimostriamo). Se N , M ed N ¡M sono grandi in confronto ad n, allora non è molto rilevante se il campionamento viene effettuato con o senza reimmissione, in quanto la distribuzione ipergeometrica può essere ben approssimata con la distribuzione binomiale (con p = M N ), che in un certo senso è più semplice. In una ”popolazione infinita” si usa sempre la distribuzione binomiale indifferentemente dal tipo di campionamento. DISTRIBUZIONE GEOMETRICA Definizione Una variabile aleatoria discreta X ha una distribuzione geometrica di parametro p , 0< p· 1 , se ha la seguente funzione di probabilità: P (X =k) = f (k) = p(1 ¡ p)k , k = 0, 1, . . . , n, . . . . La distribuzione geometrica ha origine nella seguente applicazione delle prove di Bernoulli: Sia A un evento di un esperimento con P A = p. Ripetiamo infinite volte l’esperimento e denotiamo con X la variabile casuale che rappresenta il numero di prove eseguite prima che si verifichi per la prima volta A. Chiaramente f (k) è la probabilità che l’evento A si verifichi dopo k insuccessi consecutivi. È facile dimostrare che la funzione f (k) è effettivamente una funzione di probabilità. 1 Infatti, ricordando che la somma di una serie geometrica di ragione p vale 1−p , si ha ∞ k=0 f (k) = ∞ k=0 p (1 ¡ p)k = p ∞ (1 ¡ p)k = p k=0 1 = 1. 1 ¡ (1 ¡ p) Esercizio 1.9.5 Un dado viene lanciato finché non si presenta la faccia ”1”. Qual è la probabilità che debba esser lanciato più di 6 volte? Sia U7 l’evento “la faccia ”1” non si presenta prima del settimo lancio”. Si ha P (U7 ) = f (6) + f (7) + ... = ∞ 1 5 k 5 1 5 k 6 6 1 5 5 2 5 3 5 4 5 5 =1¡ 1+ + + + + = 6 6 6 6 6 6 6 5 6 1 1 ¡ 56 =1¡ = ¼ 0.3349 . 6 1 ¡ 56 6 k=6 66 6 6 =1¡ k=0 = CAPITOLO 2: STATISTICA DESCRITTIVA 2.1 INTRODUZIONE Per statistica descrittiva o metodologica si intende il complesso di quelle norme utilizzate dallo sperimentatore per raccogliere, rappresentare ed elaborare insiemi di dati osservati. I dati raccolti riguardano solo un campione e non l’intera popolazione. L’elaborazione statistica ha l’obiettivo di ricavare informazioni sulla popolazione estraendole dai (pochi) dati che sono stati osservati sul campione. Naturalmente le informazioni a cui siamo interessati riguardano una o più caratteristiche della popolazione in questione. Volendo dare una veste matematica a quanto appena detto, sia X una variabile aleatoria, di tipo discreto o continuo, definita su un insieme S (la popolazione). Sono noti i valori che X assume in corrispondenza degli elementi di un sottinsieme C di S (il campione). Sia N = jSj e n = jCj. Il campione è dunque una n—pla (x1 , x2 , . . . , xn ), dove ciascun xi rappresenta il valore noto che X(s) assume per s= si 2 C. Essendo, in generale, n ¿ N , la variabile aleatoria X è incognita in molti (moltissimi) elementi su cui è definita. Il compito della statistica è quello di desumere dai dati del campione il maggior numero di informazioni circa la distribuzione di X, avendo anche un’idea, il più possibile precisa, del grado di affidabilità di queste informazioni. A questa variabile aleatoria ci riferiremo d’ora in poi come alla variabile aleatoria sottostante al nostro esperimento. Un’indagine statistica di tipo descrittivo può essere articolata nei seguenti quattro passi: 1) rilevazione dei dati; 2 ) organizzazione dei dati; 3) presentazione dei dati organizzati; 4) interpretazione e conclusioni. 2.2 ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI Rilevazione dei dati La rilevazione, che è l’inizio del procedimento statistico, è l’insieme dei meccanismi che permettono di ottenere le informazioni necessarie da elaborare. Strumenti basilari di questo momento sono i questionari, i modelli di rilevazione, le inchieste telefoniche, l’accesso e la consultazione di banche dati, etc. Le modalità di rilevazione dei dati xi sono particolarmente importanti. Occorre infatti aver chiaramente fissati gli obiettivi, valutata la fattibilità, definita l’estensione in termini geografici, temporali, economici. Infine, è fondamentale aver scelto in modo appropriato la tecnica di campionamento (che qui però non discutiamo). 67 Organizzazione dei dati In genere i dati grezzi ottenuti dalla rilevazione sono difficilmente interpretabili: occorre organizzarli opportunamente. Quando i dati sono di tipo numerico, e lo sono nella grande maggioranza dei casi, il modo più semplice di farlo consiste nell’ordinarli in modo crescente o decrescente. Ciò permette immediatamente di stabilire il campo di variazione degli xi (o rango), cioè il minimo intervallo che li contiene tutti. Questo indice ci dice già qualcosa (ad esempio i valori minimo e massimo della variabile campionata); tuttavia esso può essere poco indicativo, soprattutto se n è grande. Può dunque essere conveniente organizzare i dati in classi. Come si formano le classi? Si tratta di un punto importante in quanto una cattiva scelta delle classi può portare ad una cattiva interpretazione della distribuzione dei dati. Proponiamo dunque alcuni criteri di formazione delle classi ritenuti ottimali. Il numero delle classi è importante. Se le classi sono troppe, in ogni classe ci sarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentrati molti elementi, potrebbe sfuggirci la globalità della distribuzione. In genere il numero delle classi è compreso fra 6 e 20. Secondo Sturges il numero ottimale di classi è nc = [1 + 1.443 lg n] , con lg n che indica il logaritmo naturale di n e [a] l’intero più vicino ad a. È conveniente che le classi abbiano la stessa ampiezza. In questo caso, se r è l’ampiezza del campo di variazione dei dati ed nc il numero delle classi in cui si è deciso di organizzare i dati, se ne deduce per ciascuna classe un’ampiezza ℓ data da r ℓ= . nc Tale ampiezza, tuttavia, in genere non è quella più conveniente; torna utile “aggiustarla” in modo che i punti di mezzo di ciascun intervallo siano della stessa grandezza, come ordine di approssimazione, dei dati xi e che nessun xi cada su un estremo dell’intervallo. Ad esempio, se gli xi sono interi qualunque (cioè non sono dei multipli di un intero k), allora conviene prendere ℓ intero e dispari, e ciascun intervallo del tipo (h ¡ 12 , h + ℓ ¡ 12 ), dove h è un intero. Scelte analoghe possono essere fatte se gli xi sono numeri decimali (tutti con lo stesso numero di decimali). I due esempi proposti nel seguito saranno utili a chiarire il senso di quanto appena detto. Funzioni di frequenza Per avere altri tipi di informazione sempre più precisi ed esaurienti, si possono definire altri indici statistici. Indicato con x il punto medio della generica classe, tali indici sono i seguenti: — la funzione di frequenza, che associa ad ogni classe il numero degli elementi che la compongono; la indicheremo con ϕ(x); — la funzione di frequenza relativa, che esprime il rapporto fra il numero degli elementi della classe ed il numero totale n di elementi del campione; indicatala con ϕr (x), si ha dunque ϕr (x) ´ ϕ(x) n ; — la funzione di frequenza cumulativa, cioè il numero degli elementi della classe e 68 delle classi precedenti; sarà rappresentata da ϕc (x); — la funzione di frequenza cumulativa relativa, ovvero il rapporto tra il numero degli elementi dato dalla frequenza cumulativa e il numero totale n di elementi del campione; denotata con ϕcr (x), si ha perciò ϕcr (x) ´ ϕcn(x) . Rappresentazioni grafiche Nella statistica descrittiva la rappresentazione grafica dei dati riveste un ruolo molto importante, in quanto serve a fornire in modo immediato una descrizione del fenomeno oggetto di studio. Gli strumenti disponibili sono diversi, più o meno significativi, più o meno adatti a seconda degli obiettivi che si intende conseguire mostrando in quel modo i dati. Quelli più matematici e significativi sono l’istogramma, il grafico a bastoni e i poligoni di frequenza. L’istogramma costituisce probabilmente lo strumento più comune di rappresentazione di dati statistici. Si ottiene nel modo seguente: prima si riportano sull’asse delle ascisse le classi indicando per ciascuna il relativo punto di mezzo x; poi, in corrispondenza di ciascuna classe, si disegna un rettangolo avente area proporzionale a ϕ(x) o, equivalentemente, a ϕr (x). Sull’asse delle ordinate si possono riportare i valori della funzione ϕ(x) oppure quelli di ϕr (x). Se poi si riportano nel grafico sia ϕ(x) che ϕr (x) (in opportuna scala), rispettivamente a sinistra e a destra del grafico, si ottiene il duplice obiettivo di poter leggere entrambi i valori. Osservazione: Nell’istogramma della pagina che segue le classi hanno la stessa ampiezza, e quindi i rettangoli hanno tutti la stessa base. Ovviamente ciò non è più vero se si considerano, come peraltro è lecito, classi di diversa ampiezza. Un grafico a bastoni è del tutto equivalente ad un istogramma, e si costruisce in maniera del tutto analoga. Per quanto riguarda poi i poligoni di frequenza, l’esempio che segue permetterà facilmente di capire come si costruiscono e qual è il loro significato. Esempio 2.2.1 La tabella che segue riporta i pesi (in chilogrammi) di 50 studentesse, che per brevità sono già stati ordinati (in ordine crescente). Naturalmente, ogni numero è ripetuto tante volte quante sono le studentesse aventi quel peso. 53 55 56 57 57 58 58 59 59 60 60 60 61 61 61 61 62 62 62 62 63 63 63 63 63 64 64 64 64 64 64 65 65 65 65 65 66 66 66 66 67 67 67 68 68 69 70 71 71 73 Dalla tabella si deduce immediatamente che il campo di variazione è [53,73]. Applicando poi la formula di Sturges per determinare il numero ottimale di classi, si ha nc = [1 + 1.443 lg 50] = [1 + 5.64] = 7 , e quindi ℓ= 20 7 ¼ 2.86 . In base a quanto detto in precedenza, essendo l’unità di misura adottata un numero intero (i chili), è conveniente che ℓ sia un intero dispari e che gli intervalli abbiano come punto medio 69 un intero. Scegliamo dunque ℓ=3 e prendiamo gli intervalli di ampiezza 3 a partire da 52.5. La tabella che segue riporta gli intervalli relativi a ciascuna classe, il loro punto di mezzo x, il numero di elementi di ogni classe e le quattro funzioni di frequenza precedentemente definite ϕ(x), ϕr (x), ϕc (x) e ϕcr (x). Classi Punto x ϕ(x) ϕr (x) ϕc (x) ϕcr (x) di pesi di mezzo 52.5 ¡ 55.5 54 2 0.04 2 0.04 55.5 ¡ 58.5 57 5 0.10 7 0.14 58.5 ¡ 61.5 60 9 0.18 16 0.32 61.5 ¡ 64.5 63 15 0.30 31 0.62 64.5 ¡ 67.5 66 12 0.24 43 0.86 67.5 ¡ 70.5 69 4 0.08 47 0.94 70.5 ¡ 73.5 72 3 0.06 50 1.00 Seguono nell’ordine l’istogramma, il grafico a bastoni, il poligono di frequenza ed il poligono di frequenza relativa cumulativa. 70 Osserviamo che, in un certo senso, il poligono di frequenza (primo grafico di questa pagina) “rappresenta” la funzione densità della variabile aleatoria X sottostante al fenomeno studiato; analogamente il poligono di frequenza cumulativa (secondo grafico) “rappresenta” la funzione di distribuzione di X. Esempio 2.2.2 La tabella che segue riporta le altezze (in centimetri) di 80 atleti, anche in questo caso già ordinati (in modo crescente). Si chiede di organizzare questi dati in classi e di calcolarne le quattro funzioni di frequenza, rappresentando poi il tutto con una tabella del tipo di quella dell’esercizio precedente. 160 162 164 165 167 168 168 169 169 170 170 171 171 172 172 172 172 173 173 174 174 174 175 175 175 176 176 176 177 177 177 177 178 178 178 178 178 178 179 179 179 179 179 179 179 180 180 180 180 181 181 181 181 182 182 182 182 182 183 183 184 184 185 185 186 186 187 187 188 189 190 190 191 192 192 193 194 197 199 201 71 Dalla tabella si legge subito che il campo di variazione è [160,201]. Applicando poi la formula di Sturges per determinare il numero ottimale di classi, si ha nc = [1 + 1.443 lg 80] = [1 + 6.32] = 7 , ℓ= e quindi 41 7 ¼ 5.86 Volendo scegliere come ℓ un intero dispari, o si sceglie 5, che comporta poi di prendere nc =9, oppure si sceglie 7, che comporta nc =6. Per non avere un numero di classi troppo piccolo, scegliamo ℓ=5 e quindi nc = 9. I dati organizzati in classi portano dunque a questa tabella: Classi di Punto x ϕ(x) ϕr (x) ϕc (x) ϕcr (x) altezze di mezzo 158.5 ¡ 163.5 161 2 0.025 2 0.025 163.5 ¡ 168.5 166 5 0.063 7 0.088 168.5 ¡ 173.5 171 12 0.150 19 0.238 173.5 ¡ 178.5 176 19 0.237 38 0.475 178.5 ¡ 183.5 181 22 0.275 60 0.750 183.5 ¡ 188.5 186 9 0.113 69 0.863 188.5 ¡ 193.5 191 7 0.087 76 0.950 193.5 ¡ 198.5 196 2 0.025 78 0.975 198.5 ¡ 205.5 201 2 0.025 80 1.000 2.3 GRANDEZZE CHE SINTETIZZANO I DATI Ci proponiamo ora di caratterizzare una distribuzione statistica, cioè un insieme di dati xi , i = 1, 2, . . . , n, del tipo di quelli visti finora, attraverso misure che ne riassumano le principali proprietà. In tal modo si parla anche di misure di tendenza centrale: si chiamano cosı̀ alcune caratterizzazioni sintetiche della distribuzione che servono a dare un’idea di dove la distribuzione sia collocata e quanto sia concentrata. Media Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama media aritmetica, o più semplicemente media, delle osservazioni il numero 1 n x= xi . n i=1 Ai fini di collegare questa definizione a quella di media di una variabile casuale, osserviamo che in generale tra i dati xi ce ne sono di quelli che sono ripetuti più volte. Ebbene, supposto che gli xi distinti siano m (ovviamente m · n), indichiamo questi numeri con z1 , z2 , . . . , zm . Denotata poi con αk la molteplicità (cioè il numero di presenze) di zk , ovviamente con α1 + α2 + ¢ ¢ ¢ + αm =n, potremo scrivere 72 m αk m 1 n 1 m zk = k=1 pk zk . i=1 xi = k=1 αk zk = k=1 n n n αk Il numero pk = n rappresenta la frequenza relativa del dato zk . Confrontando quest’ultima espressione di x con la definizione di media di una variabile aleatoria finita, ne deduciamo che la media aritmetica appena definita altro non è che la media di una variabile aleatoria che assume gli m valori zk con probabilità pk . La media x dei dati xi può dunque essere vista come la media di una variabile aleatoria X finita, che assume i valori xi con probabilità uguali alla loro frequenza relativa nel campione, ossia x= P (X =xi ) = pi , pi = αi n , essendo αi il numero di volte in cui ciascun xi è presente nel campione. La variabile aleatoria X costituisce una rozza approssimazione della vera variabile aleatoria sottostante al problema. La media, che abbiamo appena definito, cosı̀ come la mediana e la varianza che definiremo in seguito, sono indici coerenti con questa approssimazione. Ricordando le proprietà della media di una variabile aleatoria, si può affermare che — se ogni osservazione di un campione è letta in una scala diversa, ovvero se ogni dato è moltiplicato per una costante a, allora ax = ax ; — se (x1 , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) sono due serie di osservazioni di uno stesso fenomeno, allora la media della somma è uguale alla somma delle medie, cioè x+y = x+y; — se due osservazioni sono legate da una relazione funzionale del tipo y = a + bx, con a e b costanti, allora y = a + bx . Quando i dati sono forniti già organizzati in classi, la media può essere ugualmente calcolata con la formula seguente: nc 1 x= xk ϕ(xk ) , n k=1 dove xk è il punto medio dell’intervallo k¡esimo e ϕ(xk ) fornisce, come abbiamo già visto, il numero degli xi appartenenti alla classe k¡esima. Osserviamo che questa formula può essere utilizzata anche quando ci sono assegnate tutte le n osservazioni xi e la loro organizzazione in classi viene fatta da noi solo successivamente al fine di una rappresentazione più sintetica dei dati. In tal caso la media cosı̀ calcolata è una approssimazione, in generale molto buona, di quella vera (cioè di quella che si ottiene dalla definizione). Il vantaggio di quest’ultima formula sta nel fatto che, utilizzando le classi, è richiesto un numero molto minore di calcoli. 73 Mediana Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama mediana delle osservazioni il valore “centrale” dell’insieme ordinato. Quindi, a seconda che n sia pari o dispari, si ha se n è dispari x n+1 2 xmed = 1 x n + x n +1 se n è pari 2 2 2 . Anche per la mediana, cosı̀ come abbiamo fatto per la media, ci si può porre il problema di come determinarla quando i dati xi non sono noti individualmente in quanto forniti già organizzati in classi. In questo caso, per poter definire operativamente la mediana, occorre introdurre alcune ulteriori notazioni. Supposto che le classi si susseguano in ordine crescente, indichiamo con (λi−1 , λi ) l’intervallo associato alla classe i¡esima e con xi il suo punto medio. Allora ϕc (xi ) denota il valore della funzione di frequenza cumulativa della classe i¡esima, cioè il numero complessivo di elementi contenuti nelle prime i classi. Chiamiamo classe mediana, indicando con m il suo numero d’ordine, quella classe per cui con ϕc (xm−1 )< n2 . ϕc (xm )¸ n2 , Ciò posto, la mediana xmed può essere cosı̀ definita: xmed = λm−1 + n 2 ¡ ϕc (xm−1 ) ℓ = λm−1 + ϕc (xm ) ¡ ϕc (xm−1 ) n 2 ¡ ϕc (xm−1 ) ℓ. ϕ(xm ) Osserviamo che xmed appartiene certamente alla classe mediana (cioè all’intervallo (λm−1 , λm )) se ϕc (xm ) > n2 , mentre si ha xmed = λm se ϕc (xm ) = n2 (il che può accadere solo se n è pari). Moda Molto spesso i dati sono divisi in classi che non sono di tipo numerico (ad esempio sesso, gruppo sanguigno, professione, provincia di apppartenenza, etc...). In questo caso non ha alcun senso parlare di media o mediana, per cui può tornare utile un’altra misura di tendenza centrale, valida per qualunque tipologia di dati. Questa misura, però, non esiste per tutte le distribuzioni, ma solo per quelle unimodali. La figura che segue mostra una distribuzione unimodale assieme a due multimodali. 74 Definizione Si definisce moda di una distribuzione unimodale di dati il valore fra questi più ripetuto. La moda, che può anche non essere unica, sarà indicata con xmod . Per definire la moda quando i dati sono forniti già divisi in classe, occorre determinare preliminarmente la classe modale, cioè la classe nella quale si trova la moda. Di solito la classe modale è quella in cui ϕ(x) è massima. Supposto che tale classe sia unica, se (λj−1 , λj ) è l’intervallo associato e xj il suo punto medio, la moda è cosı̀ definita: xmod = λj−1 + jϕ(xj ) ¡ ϕ(xj−1 )j ℓ. jϕ(xj ) ¡ ϕ(xj−1 )j + jϕ(xj+1 ) ¡ ϕ(xj )j Se la classe modale non è unica, si hanno più mode. Ci si può chiedere come sono disposte l’una rispetto all’altra le tre misure di tendenza centrale che abbiamo definito (quando esistono tutte tre). Ebbene, disegnata la distribuzione dei dati, la loro reciproca disposizione dipende dalla simmetria o asimmetria di questo grafico. Supposto che la distribuzione sia unimodale (vedi figura), se il grafico è perfettamente simmetrico, allora media, mediana e moda coincidono. Se invece il grafico è asimmetrico, allora la moda corriponde ovviamente al massimo del grafico, mentre media e mediana sono sempre disposte con la mediana più vicina della media alla moda come nelle figure che seguono. 75 Esempio 2.3.1 Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.1. Per quanto riguarda la media, facendo uso della definizione, si ottiene 1 50 1 3163 (53 + 55 + ¢ ¢ ¢ + 73) = = 63.26 . i=1 xi = 50 50 50 Se invece si calcola la media utilizzando le classi, indicato con xk il punto medio dell’intervallo corrispondente alla k¡classe, si ha x= n x¼ c 1 1 (54¢2 + 57¢5 + 60¢9 + 63¢15 + 66¢12 + 69¢4 + 72¢3) = xk ϕ(xk ) = 50 50 k=1 3162 = = 63.24 . 50 Come si vede, per quanto approssimato, il valore della media cosı̀ ottenuto è molto prossimo a quello corretto ottenuto in precedenza. Venendo alla mediana, il suo calcolo è immediato. Infatti, essendo n=50, cioè pari, dalla tabella contenente i dati ordinati si legge che x25 =63 e x26 =64. Si ha quindi xmed = x25 + x26 63 + 64 = = 63.5 . 2 2 Anche xmed può essere calcolato utilizzando la formula per i dati organizzati in classi; in tal caso si ottiene xmed = λm−1 + n 2 ¡ ϕc (xm−1 ) 25 ¡ 16 ℓ = 61.5 + 3 = 63.3 . ϕ(xm ) 15 Per quanto riguarda invece la moda, si ha xmod =64 , in quanto valore ripetuto più di ogni altro. D’altra parte, se xmod è calcolata sulla base dell’organizzazione in classi, essendo la classe modale quella di centro xj =63, si ha xmod = 61.5 + Esempio 2.3.2 j15 ¡ 9j 3 = 63.5 . j15 ¡ 9j + j12 ¡ 15j Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.2. Facendo uso della definizione per calcolare la media, si ottiene 80 1 1 14332 x= xi = (160 + 162 + ¢ ¢ ¢ + 201) = = 179.15 . 80 i=1 80 80 Se invece calcoliamo la media utilizzando la formula per i dati organizzati in classi, abbiamo n c 1 1 x¼ xk ϕ(xk ) = (161¢2 + 166¢5 + 171¢12 + 176¢19 + 181¢22+ 80 80 k=1 + 186¢9 + 191¢7 + 196¢2 + 201¢2) = 76 14335 ¼ 179.19 . 80 Anche in questo caso il valore della media ottenuto utilizzando la formula per le classi è molto prossimo a quello corretto ottenuto in precedenza. Per quanto concerne la mediana, dalla tabella dei dati ordinati, essendo x40 = x41 = 179, segue ovviamente xmed =179. Se poi si effettua il calcolo con la formula specifica per i dati organizzati in classi, si ha xmed = λm−1 + n 2 ¡ ϕc (xm−1 ) 40 ¡ 38 ℓ = 178.5 + 5 ¼ 178.5 + 0.45 = 178.95 , ϕ(xm ) 22 che costituisce certamente un’ottima approssimazione di 179, che è il valore esatto di xmed . Infine, dalla tabella dei dati, si ha xmod = 179. Facendo invece il calcolo sulla base dell’organizzazione dei dati in classi, otteniamo: xmod = 178.5 + j22 ¡ 19j 5 ¼ 179.44 . j22 ¡ 19j + j9 ¡ 22j Abbiamo finora visto misure di tendenza centrale che servono ad individuare il“centro” della distribuzione. Ciò però non vuol dire sapere come i dati siano distribuiti intorno al centro. In certi casi i dati possono essere estremamente concentrati attorno a questo valore centrale, in altri possono essere estremamente sparsi. Torna quindi utile avere delle misure di dispersione. Ovviamente il caso limite di dispersione nulla si ha quando tutti i dati coincidono. Il primo indice di dispersione è il campo di variazione o rango, che abbiamo già definito. Questo intervallo ci dà una prima, anche se spesso grossolana, idea di come stanno le cose. Ad esempio, se i dati riguardano le temperature di un giorno in una data città, conoscere le temperature minima e massima può essere già utile. È però evidente che questo indice risente in maniera significativa di valori particolarmente alti o bassi. Deviazione standard e varianza La deviazione standard σ, o scarto quadratico medio, già introdotta per una variabile casuale come radice quadrata della varianza, è l’indice di dispersione probabilmente più usato. Nel caso di un campione di dati x1 , x2 , . . . , xn , la deviazione standard è ! definita nel modo seguente: " n "1 σ=# (xi ¡ x)2 . n i=1 Anche la varianza σ 2 , definita come n 1 σ = (xi ¡ x)2 , n i=1 2 costituisce una misura di dispersione molto comune. Ad essa sono espressamente rivolti alcuni capitoli della statistica matematica. Come la media x e la mediana xmed , anche σ può essere associato alla variabile casuale X definita in precedenza come quella variabile casuale finita per la quale P (X =xi ) è uguale alla frequenza relativa di xi nel campione. Si ha infatti σ 2 =V ar(X). 77 Le quantità (xi ¡ x) rappresentano gli scarti dalla media dei dati. Di qui il nome di “scarto quadratico medio” per σ e l’affermazione che la varianza è uguale alla media dei quadrati degli scarti dalla media. Osserviamo che quando si fa la radice quadrata per ottenere la deviazione standard, si ritorna alla “dimensione” dei nostri dati. Due formule molto importanti viste per la varianza sono le seguenti: 2 2 σaX+b = a2 σX , 2 σX = E(X 2 ) ¡ E 2 (X). La prima formula torna utile quando ci sono dei cambiamenti di scala e/o delle traslazioni dei dati: se si moltiplicano tutti i dati per uno stesso fattore, allora anche la deviazione standard risulterà moltiplicata per lo stesso fattore; se invece si traslano tutti i dati, la deviazione standard non ne viene influenzata. Quest’ultimo fatto risulta perfettamente comprensibile se si pensa al significato di questo indicatore come misura di dispersione: importa solo la posizione dei dati xi rispetto alla media, e non la dislocazione dell’insieme di questi dati sull’asse x. La seconda formula ci permette invece la possibilità di calcolare la varianza (e quindi la deviazione standard) anche in questo modo: n σ2 = 1 2 x ¡ x2 . n i=1 i Anche per il calcolo della varianza σ 2 (e quindi della deviazione standard), se i dati sono raggruppati in classi, si possono utilizzare i punti di mezzo xk degli intervalli associati alle classi e le loro frequenze ϕ(xk ). La formula che dà σ 2 (in modo approssimato) è la seguente: nc 1 2 σ = (xk ¡ x)2 ϕ(xk ) . n k=1 Deviazioni medie Altri due indici di dispersione sono la deviazione media dalla media e la deviazione media dalla mediana, che indichiamo rispettivamente con Dmed (x) e Dmed (xmed ). Tali indici sono dati dalla media aritmetica delle differenze in valore assoluto rispettivamente dalla media x e dalla mediana xmed , ossia da n Dmed (x) = n 1 jxi ¡ xj , n i=1 Dmed (xmed ) = 1 jxi ¡ xmed j . n i=1 Esempio 2.3.3 Calcoliamo la varianza, la deviazione standard e le deviazioni medie dalla media e dalla mediana dei dati dell’esempio 2.2.1. 2 = E(X 2 ) ¡ E 2 (X), sapendo che x = Calcoliamo la varianza utilizzando la relazione σX 63.22 (vedi esempio 2.3.1): n σ2 = 50 1 2 1 2 xi ¡ x2 = x ¡ (63.26)2 ¼ 17.13 . n i=1 50 i=1 i 78 A questo punto per avere la deviazione standard basta calcolare la radice quadrata di σ 2 : σ= p 17.02 ¼ 4.14 . Il calcolo della varianza poteva essere semplificato mediante la formula che utilizza i punti di mezzo delle classi e le loro frequenze. In questo modo si ottiene: σ2 ¼ n 7 k=1 k=1 c 1 1 (xk ¡ x)2 ϕ(xk ) = (xk ¡ 63.22)2 ϕ(xk ) = (54 ¡ 63.22)2 ¢2+ n 50 + (57 ¡ 63.22)2 ¢5 + (60 ¡ 63.22)2 ¢9 + (63 ¡ 63.22)2 ¢15 + (66 ¡ 63.22)2 ¢12+ + (69 ¡ 63.22)2 ¢4 + (72 ¡ 63.22)2 ¢3 ¼ 18.30 , da cui σ ¼ 4.28. Di qui si vede come la formula basata sulla suddivisione in classi, essendo ovviamente la distribuzione che ne deriva più grossolana rispetto a quella dei dati di partenza, fornisca (in questo caso) un valore della deviazione standard con un errore di circa il 3.6%. Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed =63.5): n Dmed (x) = 50 1 1 jxi ¡ xj = jxi ¡ 63.22j = 3.26 ; n i=1 50 i=1 n 50 1 1 Dmed (xmed ) = jxi ¡ xmed j = jxi ¡ 63.5j = 3.26 . n i=1 50 i=1 I calcoli sono ovviamente stati fatti con un programma di calcolo. Esempio 2.3.4 Calcoliamo la varianza, la deviazione standard e le deviazioni medie dalla media e dalla mediana dei dati dell’esempio 2.2.2. Procedendo come nell’esempio precedente, essendo ora x = 179.15 e xmed = 179 (vedi esempio 2.3.2), si ha 80 1 2 σ = x ¡ (179.15)2 ¼ 67.05 , 80 i=1 i 2 da cui σ= p 67.05 ¼ 8.19 . Se poi si effettua il calcolo (approssimato) mediante la formula che usa i punti di mezzo degli intervalli delle classi, si ha σ2 ¼ nc 1 (xk ¡ x)2 ϕ(xk ) ¼ 68.90 , n da cui k=1 σ ¼ 8.30 , con un errore su σ di poco superiore all’1%. Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed =63.5): n Dmed (x) = 80 1 1 jxi ¡ xj = jxi ¡ 179.15j ¼ 6.24 ; n i=1 80 i=1 n 80 1 1 Dmed (xmed ) = jxi ¡ xmed j = jxi ¡ 179j ¼ 6.22 . n i=1 80 i=1 Come per l’esempio precedente, i calcoli sono stati fatti con un programma di calcolo. 79 Esercizio 2.3.5 Calcolare la media, la mediana, lo scarto quadratico medio e le deviazioni medie dalla media e dalla mediana dei seguenti dati: 46 31 1 33 2 44 66 8 54 99 92 98 69 50 Innanzitutto ordiniamo i 14 dati in senso crescente: 1 2 8 31 33 44 46 50 54 66 69 92 98 99 Calcoliamo la media: x= 1 693 (1 + 2 + 8 + ¢ ¢ ¢ + 98 + 99) = = 49.5 . 14 14 Per quanto riguarda la mediana abbiamo xmed = x7 + x8 46 + 50 = = 48 . 2 2 Dovendo poi calcolare lo scarto quadratico medio, ci serve la varianza: σ2 = da cui 1 2 1 + 22 + 82 + ¢ ¢ ¢ + 982 + 992 ) ¡ (49.5)2 = 1019.25 , 14 σ= p Infine 1018.25 ¼ 31.93 . 14 1 363 Dmed (x) = ¼ 25.93 ; jxi ¡ 49.5j = 14 i=1 14 14 Dmed (xmed ) = 1 363 jxi ¡ 47j = ¼ 25.93 . 14 i=1 14 Il fatto che queste due ultime medie siano uguali ha una facile spiegazione geometrica: quando i dati sono in numero pari e anche la media è compresa fra i due dati di mezzo (cioè x n2 e x n2 +1 ), si ha sempre Dmed (x) = Dmed (xmed ). Esercizio 2.3.6 Calcolare la media, la mediana e le deviazioni medie dalla media e dalla mediana dei dati dell’esercizio precedente sostituendo 91 a 1. Sostituito il numero 1 con 91 il nuovo campione ordinato è il seguente: 2 8 31 33 44 46 50 54 66 69 91 92 98 99 . Calcoliamo la nuova media e la nuova mediana 783 1 (2 + 8 + 31 + ¢ ¢ ¢ + 98 + 99) = ¼ 55.93 ; 14 14 x7 + x8 50 + 54 xmed = = = 52 . 2 2 x= Calcoliamo ora le due deviazioni medie: Dmed (x) = 1 14 jxi ¡ 55.93j ¼ 25.63 ; 14 i=1 80 1 14 355 ¼ 25.36 . i=1 jxi ¡ 52j = 14 14 Si può verificare che ora, essendo x esterno all’intervallo [x7 , x8 ] (di cui la mediana è il punto medio), Dmed (x) e Dmed (xmed ) sono diversi. Dmed (xmed ) = Esercizio 2.3.7 Uno studente di ingegneria ha sostenuto 16 esami, ciascuno dei quali con un dato numero di crediti formativi. I voti riportati dallo studente, ciascuno con a fianco il numero dei crediti relativi a quell’esame, sono i seguenti: 28 (6) 27 (5) 21 (8) 27 (4) 22 (5) 27 (6) 24 (6) 19 (10) 24 (8) 28 (5) 25 (4) 29 (7) 25 (6) 30 (8) 26 (8) 30 (4) Si chiede di calcolare: a) la media, la mediana e la deviazione standard dei voti; b) la media, la mediana e la deviazione standard dei crediti; c) la media ponderata dei voti assumendo come pesi i crediti. a) Ordiniamo innanzitutto i 16 voti. Si ha 19 21 22 24 24 25 25 26 27 27 27 28 28 29 30 30 Indicati con v1 , v2 , . . . , v16 i voti cosı̀ ordinati e con v , vmed e σv rispettivamente la media, la mediana e la deviazione standard, abbiamo 16 1 412 v8 + v9 vi = = 25.75 ; vmed = = 26.5 ; 16 i=1 16 2 12 16 1 2 (vi ¡ 25.75) σv = ¼ 3.07 . 16 i=1 v = b) Ordiniamo anche i crediti: 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 Indicati con c1 , c2 , . . . , c16 i crediti cosı̀ ordinati e rispettivamente con c, cmed e σc le relative media, mediana e deviazione standard, abbiamo 16 1 100 c8 + c9 c = ci = = 6.25 ; cmed = = 6; 16 i=1 16 2 12 16 1 (ci ¡ 6.25)2 ¼ 1.71 . σc = 16 i=1 c) Calcoliamo infine la media ponderata dei voti, vpond , assumendo come pesi i relativi crediti. Riordinati i ci in modo che ci sia corrispondenza fra voti e crediti: 10 8 5 6 8 4 6 abbiamo vpond = 8 16 4 i=1 16 vi ¢ci i=1 ci 81 5 6 6 = 25.38 . 5 7 4 8 CAPITOLO 3: STATISTICA MATEMATICA 3.1 POPOLAZIONI E CAMPIONI Definizione Si definisce popolazione un insieme i cui elementi hanno in comune almeno una caratteristica (od attributo). Esempi di popolazioni: gli ingegneri che si sono laureati in Italia dal 1950 al 1980; i giorni con vento superiore ai 100 Km/h a Trieste nel mese di aprile dal 1900 al 1999; gli italiani aventi diritto al voto per il senato alle elezioni politiche del 2001; i corpi celesti dell’universo; gli alberi passati e presenti di tutte le foreste del mondo. Esempi di caratteristiche nel caso degli ingegneri: l’età al momento della laurea; l’età al momento del primo impiego come ingegnere; l’altezza; il peso; il sesso; il primo stipendio; ecc. Le popolazioni possono essere finite o infinite. In genere popolazioni molto numerose sono considerate infinite anche se non lo sono (ad esempio i corpi celesti dell’universo). Ogni caratteristica della popolazione, nella maggior parte dei casi, viene misurata da un valore numerico per ciascuno degli N elementi che la compongono. Di conseguenza uno studio completo della popolazione implicherebbe un insieme di N numeri. In genere, però, N è cosı̀ grande da rendere impraticabile, per ovvi motivi, la misurazione della caratteristica per l’intera popolazione. Ci si limita dunque a farlo solo per un suo sottinsieme, spesso assai limitato, detto campione. Uno scopo delle ricerche statistiche è quello di inferire (da cui il nome di inferenza statistica), cioè fare delle deduzioni o delle previsioni sulla popolazione mediante l’esame di un campione. Matematicamente la caratteristica oggetto di studio è una variabile aleatoria X la cui distribuzione ci è più o meno sconosciuta. In ogni caso la variabile casuale X sottostante alla popolazione in questione avrà una media ed una varianza, che nel seguito indicheremo semplicemente con µ e σ 2 , ossia 2 µ = µX = E(X) , σ 2 = σX = V ar(X) . 2 Nel seguito ci riferiremo spesso a µ e σ come alla media e alla varianza della popo2 . lazione oggetto di indagine, sottintendendo ovviamente con ciò µX e σX Definizione Si chiama campione casuale di dimensione n, estratto da una popolazione avente X come variabile aleatoria sottostante, una variabile n-dimensionale (X1 , X2 , . . . , Xn ), con le Xi indipendenti e aventi la stessa distribuzione di X . Quando si misura la caratteristica della popolazione limitandosi ad un campione di dimensione n, si ottengono n misure x1 , x2 , . . . , xn : ciò equivale ad una singola esecuzione dell’esperimento rappresentato dalla variabile n-dimensionale (X1 , X2 , . . . , Xn ) con risultato (x1 , x2 , . . . , xn ). Sul problema della scelta del campione, che nella pratica consiste nell’estrarre n elementi da un insieme di N , con n ¿ N , ci limitiamo ad osservare l’importanza che ciò venga realmente fatto a caso e che esistono diverse tecniche utili allo scopo. 82 3.2 STIMATORI Sia (X1 , X2 , . . . , Xn ) un campione di una data popolazione la cui distribuzione è nota in funzione di un parametro incognito θ. Uno degli obiettivi della statistica inferenziale è quello di stimare θ mediante una appropriata funzione dei risultati campionari xi . Definizione Si definisce statistica una funzione g(X1 , X2 , . . . , Xn ) delle variabili casuali Xi (e quindi, a sua volta, una variabile casuale) che non contiene parametri. Definizione Si definisce stimatore una statistica che viene utilizzata per stimare un parametro incognito θ. Sia f (X1 , X2 , . . . , Xn ) = θ uno stimatore e (x1 , x2 , . . . , xn ) un valore misurato del campione. Ebbene, il valore θ̂ = f (x1 , x2 , . . . , xn ) è detto stima puntuale del parametro θ. È convenzione molto seguita quella di indicare le stime puntuali con l’accento circonflesso, ad esempio θ̂, σ̂ 2 , . . . . Nel caso della media stimata, tuttavia, anzichè con µ̂, si continuerà ad indicarla con x, sia per conservare la notazione già usata nella Statistica descrittiva, sia per coerenza col fatto che la media verrà stimata con lo stimatore X che definiremo tra poco. Definizione Uno stimatore T del parametro θ si dice corretto se la sua media coincide con θ medesimo, ossia: E(T ) = θ. MEDIA CAMPIONARIA Il problema statistico che si presenta più frequentemente nelle applicazioni è il seguente: supposte la media vera µ e la varianza vera σ 2 ignote, si cerca di stimarle in modo attendibile eseguendo un “gran” numero di esperimenti (ma non esageratamente grande). La pratica corrente è quella di stimare µ calcolando la media aritmetica dei valori misurati (osservati) xi , cioè 1 n x= xi . n i=1 Volendo giustificare ciò, osserviamo che x coincide col valore misurato della variabile aleatoria definita come media aritmetica delle n variabili aleatorie Xi . Definizione Si chiama media campionaria di un campione (X1 , X2 , . . . , Xn ) la variabile casuale X cosı̀ definita: n 1 X= Xi . n i=1 Teorema La media campionaria è uno stimatore corretto della media vera µ, ossia E(X) = E(X) = µ . Dimostrazione: Ricordando che E(Xi )=E(X)=µ, si ha n 1 nµ E(X) = E(Xi ) = = µ. n i=1 n 83 Teorema La varianza della media campionaria vale quella di X diviso n, ossia V ar(X) = Dimostrazione 1 σ2 V ar(X) = . n n 1 V ar(X) = 2 V ar Xi = n i=1 n n i=1 V ar(Xi ) nσ 2 σ2 . = = n2 n2 n I due teoremi appena visti ci dicono che la media campionaria X ha media coincidente con la media µ della popolazione da cui proviene il campione e la sua dispersione attorno a µ, misurata in termini di deviazione standard, è inversamente proporzionale alla radice quadrata della dimensione n del campione. Questo significa che al crescere di n i valori delle corrispondenti medie campionarie tendono a concentrarsi sempre più attorno al loro valore medio, che altri non è che la media della popolazione, molto spesso oggetto della nostra indagine statistica. VARIANZA CAMPIONARIA Definizione Si chiama varianza campionaria di un campione (X1 , X2 , . . . , Xn ), n > 1, la variabile casuale S 2 cosı̀ definita n S2 = 1 Xi ¡ X)2 . n ¡ 1 i=1 Lo stimatore S 2 viene utilizzato per stimare la varianza σ 2 di X (e l’esponente 2 che compare in S 2 serve appunto a ricordarci questo). Il fatto che si usi questo stimatore anzichè 1 n S̃ 2 = Xi ¡ X)2 , n i=1 come potrebbe apparire più naturale, è dovuto al fatto che quest’ultimo non è un estimatore corretto, mentre S 2 lo è. Si può infatti dimostrare (cosa che non facciamo) che n¡1 2 E(S 2 ) = σ 2 , E(S̃ 2 ) = σ . n Dunque, volendo stimare la varianza vera σ 2 , lo faremo calcolando il numero n 1 σ̂ = xi ¡ x)2 . n ¡ 1 i=1 2 Di qui si ottiene anche la stima σ̂ della deviazione standard: p σ̂ = σ̂ 2 . p Osserviamo che in questo modo per stimare σ si è usato lo stimatore S = S 2 , che però non è uno stimatore corretto in quanto si può dimostrare che E(S) < σ.$Per questa ragione qualche volta può essere conveniente utilizzare lo stimatore S̃ = S̃ 2 , per quanto anch’esso non corretto. Noi però negli esempi che seguiranno faremo sempre uso dello stimatore S (cioè calcoleremo sempre l’approssimazione σ̂). 84 COVARIANZA CAMPIONARIA Talvolta, per la stessa popolazione, sono oggetto di indagine due diverse caratteristi che, per cui il campione casuale considerato è bidimensionale: (Xi , Yi ), i = 1, . . . , n . Ciò comporta ovviamente che ci siano due variabili casuali X e Y sottostanti al nostro esperimento e che ciascuno degli n risultati (o osservazioni) consista in una coppia di numeri (xi , yi ). Oltre all’interesse per ognuna delle due caratteristiche, e quindi dei due campioni (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) presi singolarmente, ci può essere da parte dello sperimentatore anche l’interesse a capire se fra X e Y c’è qualche forma di dipendenza lineare o, detto altrimenti, qualche forma di correlazione. A tal fine occorre stimare la covarianza σX,Y della variabile congiunta (X, Y ), il che può essere fatto utilizzando lo stimatore definito come segue: Definizione Si chiama covarianza campionaria del campione (Xi , Yi ), i = 1, . . . , n , la variabile aleatoria n SX,Y 1 = (Xi ¡ X)(Yi ¡ Y ) . n ¡ 1 i=1 La covarianza vera σX,Y viene dunque cosı̀ stimata: n n n n 1 1 1 σX,Y ¼ σ̂X,Y = (xi ¡ x)(yi ¡ y) = xi y i ¡ xi yi . n ¡ 1 i=1 n ¡ 1 i=1 n i=1 i=1 Nella formula x e y sono ovviamente le medie aritmetiche degli xi e degli yi (e quindi i valori osservati delle due medie campionarie “marginali” X e Y ). L’espressione alternativa data per ultima di σ̂X,Y , che si ottiene con semplici manipolazioni algebriche, può essere comoda se il calcolo è fatto con una calcolatrice tascabile delle più semplici. Come già visto nel x 1.6, per vedere se fra X e Y c’è una qualche correlazione, piuttosto che utilizzare la covarianza, conviene far ricorso al coefficiente di correlazione ρX,Y . Ricordandone la definizione già data, e denotate con σ̂X e σ̂Y le stime delle deviazioni standard di X e Y , tale coefficiente può essere stimato nel modo seguente: ρX,Y ¼ ρ̂X,Y = σ̂X,Y . σ̂X σ̂Y Esempio 3.2.1 20 lanci di due dadi (di colore diverso per distinguere l’ordine dei risultati) hanno dato per risultato le seguenti coppie numeriche (xi , yi ): xi : yi : 4 2 5 2 3 2 2 3 2 5 3 4 6 6 4 5 3 3 4 1 5 4 2 1 6 4 4 1 6 1 4 1 5 5 3 1 4 1 2 1 Si considerino poi le coppie (ai , di ), con ai = xi + yi e di = xi ¡ yi , e (xi , zi ), con zi = 2xi . Si chiede di calcolare: a) le medie x, y , a, d e z ; 2 2 2 2 b) le varianze σ̂X , σ̂Y2 , σ̂A , σ̂D e σ̂Z ; c) le deviazioni standard σ̂X , σ̂Y , σ̂A , σ̂D e σ̂Z ; d) le covarianze σ̂X,Y , σ̂A,D e σ̂X,Z ; e) i coefficienti di correlazione ρ̂X,Y , ρ̂A,D e ρ̂X,Z . 85 Facendo i calcoli (nel nostro caso con un programma specifico fatto all’uopo) si ottengono i seguenti risultati: a) x = 3.6 , y = 2.9 , a = 6.5 , d = 0.7 , z = 7.2 ; b) 2 σ̂X ' 2.25 , σ̂Y2 ' 3.04 , 2 σ̂A ' 5.74 , 2 σ̂D ' 4.85 , 2 σ̂Z ' 9.01 ; c) σ̂X ' 1.50 , σ̂Y ' 1.74 , σ̂A ' 2.40 , σ̂D ' 2.20 , σ̂Z ' 3.00 ; d) σ̂X,Y ' 0.221 , σ̂A,D ' ¡0.789 , σ̂X,Z ' 4.505 ; e) ρ̂X,Y ' 0.084 , ρ̂A,D ' ¡0.149 , ρ̂X,Z = 1 . Nota Le covarianze vere valgono: σX,Y = σA,D = 0 e σX,Z = σX ¢σZ . Infatti le variabili casuali X e Y sono chiaramente indipendenti, A e D sono fortemente dipendenti ma non correlate, mentre X e Z sono linearmente dipendenti (i dati stanno sulla retta z = 2x) e quindi con covarianza massima. 3.3 DISTRIBUZIONI CHI-QUADRO E DI STUDENT Vediamo ora due distribuzioni campionarie di notevole importanza in Statistica, entrambe collegate alla distribuzione normale. Definizione Date n variabili aleatorie Xi normali standardizzate indipendenti, la variabile aleatoria somma dei loro quadrati è detta chi-quadro (o chi-quadrato) con n gradi di libertà ed è indicata con χ2n . Si ha dunque χ2n = n Xi2 , Xi ' N (0, 1) . i=1 Una distribuzione χ2n ha una funzione densità f (x) che è nulla per x < 0 e con l’andamento mostrato in figura per x ¸ 0 (per n = 2, 4, 6, 8, 10). Per n piccolo f (x) ha il picco vicino all’origine, ed è sempre più dispersa e sempre più simmetrica per n grande. 86 Dalla definizione di χ2n segue immediatamente che, se (X1 , X2 , . . . , Xn ) è un campione casuale estratto da una popolazione distribuita normalmente con media µ e varianza σ 2 , n allora la variabile aleatoria Xi ¡ µ 2 Z2 = σ i=1 segue una distribuzione χ2n . Si può poi dimostrare che la varianza campionaria S 2 è proporzionale ad una distribuzione chi-quadro con n-1 gradi di libertà. Più precisamente si ha n¡1 2 S ' χ2n−1 . σ2 Definizione Se Z è una variabile aleatoria normale standardizzata e χ2n è una variabile aleatoria chi-quadro con n gradi di libertà, se Z e χ2n sono indipendenti, allora la variabile aleatoria Z Tn = $ χ2n /n segue una distribuzione t di Student con n gradi di libertà. Come per la funzione densità della χ2n , anche nel caso di Tn non riportiamo esplicitamente la funzione densità, limitandoci a mostrarne i grafici per n = 1, 6, 20, 120. È importante osservare come per n grande la distribuzione di Student tenda alla normale standardizzata. Già a partire da n = 30 i valori di Tn sono ben approssimati da quelli di N (0, 1). Alla fine sono riportate due tavole delle distribuzioni χ2n e Tn con i valori più significativi ai fini delle applicazioni. In analogia con una terminologia già introdotta per la distribuzione N (0, 1), le soluzioni xα e tα delle equazioni P χ2n · xα =α e P Tn · tα =α saranno chiamate quantili relativi ad α (rispettivamente della distribuzione χ2n e della distribuzione di Student Tn ). Nel seguito, per brevità, scriveremo le due equazioni precedenti utilizzando i simboli χ2n e Tn per indicare le funzioni distribuzione anzichè le variabili casuali. Si scriverà quindi χ2n (xα )=α e 87 Tn (tα )=α . 3.4 INTERVALLI DI FIDUCIA (o CONFIDENZA) Come abbiamo già detto, uno stimatore è una variabile aleatoria che serve per stimare un parametro incognito θ della nostra popolazione. Ovviamente i parametri che ci interessa maggiormente stimare sono la media µ e la varianza σ 2 . In questo ambito di problemi, un esempio di domanda molto comune è la seguente: dato un campione, quale intervallo del tipo (x ¡ δ, x + δ) conterrà la media incognita µ con probabilità del 95% ? oppure del 99% ? Di qui nasce la definizione che segue. Definizione Si definisce intervallo di fiducia (o confidenza) di livello 100(1¡α)% per il parametro θ un intervallo (θ1 , θ2 ) tale che P (θ1 · θ · θ2 ) = 1 ¡ α , con θ1 = f1 (X1 , X2 , . . . , Xn ) e θ2 = f2 (X1 , X2 , . . . , Xn ) variabili aleatorie funzione del campione casuale. In genere interessano piccoli valori di α; tipicamente α = 0.05 oppure α = 0.01. Il livello di fiducia nei due casi è quindi il 95% per α=0.05, il 99% per α=0.01. Se P (θ < θ1 ) = P (θ > θ2 ) = α2 , l’intervallo di fiducia è detto bilaterale simmetrico (omettendo però spesso l’attributo simmetrico). Se poi si ha P (θ > θ2 ) = α oppure P (θ < θ1 ) = α, allora l’intervallo è detto unilaterale, sinistro o inferiore nel primo caso, destro o superiore nel secondo. Nel seguito quasi tutte le stime proposte saranno per intervalli bilaterali. Eseguito l’esperimento, mediante il valore misurato (x1 , x2 , . . . , xn ) del campione si ricava l’intervallo numerico (θ1∗ , θ2∗ ), θ1∗ = f1 (x1 , x2 , . . . , xn ), θ2∗ = f2 (x1 , x2 , . . . , xn ), che costituisce una stima per intervalli del parametro θ al livello di fiducia 100(1¡α)%. Nota: Spesso, nel seguito, per semplicità si dirà “al livello di fiducia 1¡α”. 3.5 STIMA DELLA MEDIA DI UNA POPOLAZIONE NORMALE In questo paragrafo descriviamo i metodi per stimare la media µ di una popolazione che supporremo avere una distribuzione normale. Tali metodi, ovviamente solo per una popolazione normale, nella pratica corrente sono usati con maggior generalità, supportati in ciò, quando la dimensione del campione è sufficientemente grande, dal Teorema di Limite Centrale. La stima per intervalli di fiducia della media µ di una popolazione normale viene ora affrontata considerando separatamente il caso in cui la varianza σ 2 è nota (anche se poco frequente) e quello in cui è incognita. a) caso di varianza nota Come abbiamo già detto, lo stimatore che si usa per la media di una popolazione è la media campionaria X. Sappiamo anche che σ2 E(X) = µ , V ar(X) = . n 88 Inoltre, si può dimostrare che, essendo la popolazione distribuita normalmente, anche X è normale. Di conseguenza la variabile casuale Z= X ¡µ p σ/ n segue la distribuzione normale standardizzata, le cui probabilità possono essere desunte dalle tabelle statistiche della densità normale Φ(x). Diamo innanzitutto la stima per intervalli bilaterali (simmetrici). A tal fine andiamo a determinare il quantile superiore u α2 , cioè la soluzione dell’equazione α Φ(u) = 1 ¡ , 2 α α α ed essendo Φ(¡u 2 ) = 1 ¡ Φ(u 2 ) = 2 , l’intervallo ¡u α2 , u α2 è tale che σ σ P ¡u α2 · Z · u α2 = P X ¡ p u α2 · µ · X + p u α2 = 1 ¡ α . n n Di conseguenza l’intervallo bilaterale σ σ X ¡ p u α2 , X + p u α2 , n n che è aleatorio in quanto è tale il suo punto centrale X, contiene con probabilità 1¡α il valore vero µ. Eseguito l’esperimento, l’intervallo osservato si ottiene dall’intervallo aleatorio sostituendo alla media campionaria X la media aritmetica x dei valori osservati negli n esperimenti. Useremo quindi l’intervallo osservato per dare una stima di µ di livello di fiducia 1¡α: σ σ x ¡ p u α2 , x + p u α2 . µ 2 n n Osserviamo che, se cresce il numero n degli esperimenti, l’ampiezza dell’intervallo diminuisce, e dunque la stima si fa più informativa: fare esperimenti è costoso, ma poi “ripaga”. Tuttavia, osserviamo anche che, p poiché l’ampiezza dell’intervallo diminuisce in modo inversamente proporzionale a n, il vantaggio che si ottiene aggiungendo via via nuovi dati diventa gradualmente sempre meno significativo. D’altra parte, se aumenta il grado di fiducia, diminuisce α e il quantile u cresce; di conseguenza cresce l’ampiezza dell’intervallo e quindi la stima diventa meno informativa. 89 Diamo ora anche le due stime per intervalli unilaterali. Per ottenerla si deve risolvere l’equazione Φ(u) = 1¡α , determinando cosı̀ il quantile uα tale che P Z · uα = P Z ¸ ¡uα = 1 ¡ α , o, equivalentente, σ σ P µ ¸ X ¡ p uα = P µ · X+ p uα = 1 ¡ α . n n Gli intervallo aleatori, rispettivamente destro e sinistro, σ σ X¡ p uα , +1 e ¡1 , X+ p uα n n contengono la media µ con probabilità 1¡α, e quindi rappresentano la stima cercata di µ mediante intervalli unilaterali al livello di fiducia 1¡α. Naturalmente, una volta eseguito l’esperimento, tali intervalli saranno approssimati con σ σ x¡ p uα , +1 e ¡1 , x+ p uα n n Esempio 3.5.1 Per determinare la durata del cambio di un’auto vengono scelti casualmente 200 cambi dalla produzione, che supponiamo distribuita normalmente con scarto tipo uguale a 4000 km. Essi vengono testati finché presentano un difetto serio. Se la durata media dei 200 cambi sottoposti a test è 50000 km, quali sono gli intervalli di fiducia bilaterali e unilaterali sinistri della durata media dell’intera produzione al 95%, al 97.5% e al 99% ? I dati sono: n = 200 , x = 50000 , σ = 4000 . Osservato che i livelli di fiducia richiesti corrispondono nell’ordine ad α=0.05, 0.025 e 0.01, indicando con u α2 il valore per cui Φ(u α2 ) = 1 ¡ abbiamo Φ(u0.0250 ) = 0.9750 Φ(u0.0125 ) = 0.9875 =) =) α 2 , u0.0250 ' 1.96 , u0.0125 ' 2.24 , u0.0050 ' 2.57 . σ σ x ¡ p u α2 , x+ p u α2 . Gli intervalli di fiducia bilaterali di livello 1¡α, sono dati da n n p Essendo σ/ n ¼ 282.84, si ha Φ(u0.0050 ) = 0.9950 α = 0.050 α = 0.025 =) =) α = 0.010 =) =) µ 2 [50000 ¡ 555, 50000 + 555] = [49445, 50555] µ 2 [50000 ¡ 634, 50000 + 634] = [49366, 50634] µ 2 [50000 ¡ 727, 50000 + 727] = [49273, 50727] . Per quanto riguarda invece i corrispondenti intervalli unilaterali sinistri, procedendo analogamente, e mettendo 0 anziché ¡1 come estremo sinistro degli intervalli (si tratta della durata di un cambio, che ovviamente non può essere negativa), si ottiene α = 0.050 =) α = 0.025 α = 0.010 =) =) µ 2 (0 , 50000 + 464] = (0 , 50464] µ 2 (0 , 50000 + 555] = (0 , 50555] µ 2 (0 , 50000 + 659] = (0 , 50659] . I tre casi considerati evidenziano come all’aumentare del livello di fiducia, cioè alla richiesta di maggior attendibilità della stima, aumenti l’ampiezza dell’intervallo. 90 b) caso di varianza incognita Supponiamo ora, come di norma accade nella pratica, che la varianza σ 2 non sia nota. In tal caso si procede come nel caso precedente sostituendo a σ 2 lo stimatore corretto della varianza campionaria n S2 = 1 Xi ¡ X)2 , n ¡ 1 i=1 X ¡µ p , che si dimostra essere S/ n una variabile di Student con n¡1 gradi di libertà. Posto quindi e sostituendo poi alla variabile casuale Z la variabile Tn−1 = X ¡µ p , S/ n indicato con t α2 il quantile superiore fornito dalla soluzione dell’equazione α P (Tn−1 · t) = 1 ¡ , 2 o, equivalentemente, considerata la simmetria della distribuzione di Student, il quanα tile t α2 per cui P (Tn−1 · ¡t) = , si ha 2 S S P X ¡ p t α2 · µ · X + p t α2 = 1 ¡ α . n n Di conseguenza l’intervallo aleatorio S S X ¡ p t α2 , X + p t α2 , n n conterrà con probabilità 1¡α la media vera µ. Utilizzandone il valore osservato daremo una stima di µ di livello di fiducia 1¡α: µ 2 σ̂ σ̂ x ¡ p t α2 , x + p t α2 , n n dove σ̂ è il valore di S ottenuto dagli n esperimenti. Osservazione 1: la non conoscenza della varianza della popolazione fa si che l’ampiezza dell’intervallo di fiducia per piccole dimensioni del campione (diciamo n ¿ 30) risulti assai più ampia di quella che si avrebbe se σ 2 fosse nota. Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la media quando la varianza non è nota, è sufficiente che del campione siano note la dimensione n, la media campionaria x e la varianza campionaria σ̂ 2 (in altre parole non è necessario conoscere uno per uno gli n dati xi ). Esempio 3.5.2 Durante 8 prove su strada un prototipo di furgone ha consumato rispettivamente 14,12,11,13,15,12,16,13 litri di gasolio per 100 km di percorrenza. Supponendo che la distribuzione dei consumi segua approssimativamente la distribuzione normale, costruire gli intervalli di fiducia al 95% e al 99% della media vera del consumo di quel prototipo. 91 Calcoliamo la media e la varianza campionaria: n 1 106 x= xi = = 13.25 ; n i=1 8 n 1 19.5 ¼ 2.79 σ̂ = (xi ¡ x)2 = n ¡ 1 i=1 7 2 =) σ̂ = p 2.79 ¼ 1.67 . Come abbiamo appena visto, indicato con t α2 il quantile per cui si ha P (Tn−1 · t α2 ) = 1¡ α , l’intervallo di fiducia di livello 1¡α è il seguente: 2 σ̂ σ̂ x ¡ p t α2 , x + p t α2 . n n Dalle tavole della distribuzione di Student (con 7 gradi di libertà) si ottiene: T7 (t0.025 ) = 0.975 T7 (t0.005 ) = 0.995 =) =) t0.025 ' 2.365 t0.005 ' 3.499 =) =) µ 2 [11.85, 14.65] , µ 2 [11.18, 15.32] . Esempio 3.5.3 Ripetere i calcoli dell’esercizio precedente con il campione che si ottiene aggiungendo ai dati precedenti i seguenti consumi ottenuti con 12 prove aggiuntive: 15,14,12,13, 11,16,14,15,12,14,12,13. Calcoliamo la media e la varianza con il campione (ora di dimensione n=20) ottenuto con l’aggiunta dei nuovi dati. x= 20 106 + 161 1 106 + xi = = 13.35 ; 20 20 i=9 20 1 44.55 (xi ¡ x)2 = ¼ 2.35 σ̂ = 19 i=1 19 2 =) σ̂ = p 2.35 ¼ 1.53 . Si ha quindi T19 (t0.025 ) = 0.975 =) T19 (t0.005 ) = 0.995 =) t0.025 ' 2.093 t0.005 ' 2.861 =) =) µ 2 [12.63, 14.07] , µ 2 [12.37, 14.33] . Confrontando queste stime con quelle dell’esempio precedente si può osservare come, quando la dimensione del campione è piccola, aumentandola le stime diventino molto migliori. 3.6 STIMA DELLA VARIANZA DI UNA POPOLAZIONE NORMALE Affrontiamo ora il problema di fornire una stima della varianza di una popolazione avente in prima approssimazione una distribuzione normale. Lo faremo utilizzando gli intervalli di fiducia e, come nel caso della media, le stime che otterremo saranno rigorose nel caso di una popolazione esattamente normale. 92 Consideriamo dunque un campione (X1 , X2 , . . . , Xn ) estratto da una popolazione normale avente media µ e varianza σ 2 . Abbiamo già detto che la variabile aleatoria n n¡1 2 Xi ¡ X 2 V = S = σ2 σ i=1 segue una distribuzione χ2n−1 . Indicato con x1 il valore per cui l’area alla sua sinistra sottesa dalla curva di densità di probabilità χ2n−1 vale α2 e con x2 il valore per cui pure l’area alla destra vale α2 (vedi figura), si ha P x1 · V · x2 = 1 ¡ α . Sostituendo V con la sua espressione si ottiene n¡1 2 P x1 · S · x 2 = 1¡α, σ2 da cui, con alcuni passaggi algebrici, (n ¡ 1)S 2 (n ¡ 1)S 2 · σ2 · = 1¡α. P x2 x1 Possiano dunque affermare che, a livello di fiducia 1¡α, l’intervallo (n ¡ 1)σ̂ 2 x2 , (n ¡ 1)σ̂ 2 x1 contiene la varianza vera σ 2 della popolazione. Ricordiamo che σ̂ 2 denota la varianza campionaria osservata e, per quanto precedentemante detto, x1 e x2 sono le soluzioni delle equazioni α α χ2n−1 (x1 )= , χ2n−1 (x2 )=1 ¡ . 2 2 Osservazione 1: essendo x1 e x2 rispettivamente a denominatore del secondo estremo e del primo estremo dell’intervallo di fiducia cercato, x1 va calcolato per difetto e x2 per eccesso. Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la varianza, del campione è sufficiente conoscere la dimensione n e la varianza campionaria σ̂ 2 (e quindi non è essenziale conoscere la media campionaria e tantomeno gli n dati xi ). Osservazione 3: se la media µ della popolazione fosse nota, allora si può sostituire X con µ, avendo cosı̀ a che fare con la variabile casuale 93 V = n Xi ¡ µ 2 σ i=1 , che segue la distribuzione χ2 con n (anzichè n¡1) gradi di libertà. In questo caso, indicati con x1 e x2 le soluzioni delle equazioni α α χ2n (x1 )= , χ2n (x2 )=1 ¡ , 2 2 2 2 e con ŝ il valore osservato della somma i (Xi ¡ µ) , l’intervallo di fiducia per σ 2 al livello considerato sarebbe ŝ2 ŝ2 , . x2 x1 Esempio 3.6.1 Un campione di dimensione 7 di una popolazione normale ha varianza campionaria σ̂ 2 =0.098. Si chiede di calcolarne gli intervalli di fiducia ai livelli 90% e 95%. Supposto poi che gli stessi dati si riferiscano ad un campione di dimensione 36, si chiede di calcolarne anche in questo caso gli intervalli di fiducia suddetti. Per n=7, per α=0.10 ed α=0.05 abbiamo: χ26 (x1 ) = P χ26 χ26 (x2 ) = P χ26 χ26 (x1 ) = P χ26 χ26 (x2 ) = P χ26 · x1 = 0.050 · x2 = 0.950 · x1 = 0.025 · x2 = 0.975 =) =) =) =) x1 ¼ 1.63 , x2 ¼ 12.60 ; x1 ¼ 1.23 , x2 ¼ 14.45 . Di conseguenza, gli intervalli di fiducia richiesti sono: α = 0.10 =) α = 0.05 =) 6 ¢ 0.098 6 ¢ 0.098 , ¼ [0.046, 0.361] ; 12.6 1.63 6 ¢ 0.098 6 ¢ 0.098 , ¼ [0.040, 0.479] . 14.45 1.23 Per n=36 si ha: χ235 (x1 ) = P χ235 χ235 (x2 ) = P χ235 χ235 (x1 ) = P χ235 χ235 (x2 ) = P χ235 · x1 = 0.050 · x2 = 0.950 · x1 = 0.025 · x2 = 0.975 =) =) =) =) x1 ¼ 22.46 , x2 ¼ 49.81 ; x1 ¼ 20.56 , x2 ¼ 53.21 . In questo secondo caso gli intervalli di fiducia richiesti sono dunque i seguenti: α = 0.10 =) α = 0.05 =) 35 ¢ 0.098 35 ¢ 0.098 , ¼ [0.068, 0.153] ; 49.81 22.46 35 ¢ 0.098 35 ¢ 0.098 , ¼ [0.064, 0.167] . 53.21 20.56 94 3.7 STIMA DELLA DIFFERENZA DELLE MEDIE DI DUE POPOLAZIONI NORMALI Un problema che si pone spesso nella realtà industriale, ma non solo, è quello di confrontare le medie di due popolazioni, di solito per poter fare delle affermazioni con un certo grado di fiducia sulla loro differenza. L’obiettivo è una modifica del processo produttivo al fine di migliorare il valore medio di una catteristica del prodotto. Consideriamo dunque due campioni casuali (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ), che supporremo indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni con media µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Il miglior estimatore per la differenza delle medie µ1 ¡µ2 è il seguente: n X ¡Y = m 1 1 Xi ¡ Yi . n i=1 m i=1 Supposto che le due popolazioni abbiano una distribuzione normale, daremo una stima di µ1 ¡µ2 nei seguenti casi: a) σ12 e σ22 sono note; b) σ12 e σ22 non sono note, ma sono uguali; c) σ12 e σ22 non sono note e non sono uguali. a) Le varianze σ12 e σ22 sono note Essendo i due campioni indipendenti, la varianza di X¡Y è data da 2 2 2 σ∆ = σX−Y = σX + σY2 = σ2 σ12 + 2, n m e la variabile casuale Z cosı̀ definita Z= (X ¡ Y ) ¡ (µ1 ¡ µ2 ) σ∆ è distribuita normalmente con media 0 e varianza 1. Riprendendo ora il quantile superiore u α2 , si può scrivere (X ¡ Y ) ¡ (µ1 ¡ µ2 ) P ¡u α2 < Z < u α2 = P ¡u α2 < < u α2 = 1 ¡ α , σ∆ o, equivalentemente, P (X ¡ Y ) ¡ σ∆ u α2 < µ1 ¡ µ2 < (X ¡ Y ) + σ∆ u α2 = 1 ¡ α . Esplicitato il valore di σ∆ , l’intervallo bilaterale che contiene µ1 ¡µ2 con probabilità 1¡α quando le varianze σ12 e σ22 sono note, è dunque il seguente: · & σ12 σ22 σ12 σ22 (X ¡ Y ) ¡ u α2 + , (X ¡ Y ) + u α2 + . n m n m Eseguito l’esperimento, sostituendo i valori misurati x e y al posto delle corrispondenti variabili casuali X e Y , si ottiene una stima per µ1¡µ2 al livello di fiducia 100(1¡α)%. 95 Esercizio 3.7.1 Due diversi tipi di guaine isolanti per cavi elettrici vengono testati per determinare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari a livelli crescenti di tensione si registrano i guasti alle tensioni seguenti: Tipo Y 52 64 38 68 66 52 60 44 48 46 70 62 Tipo X 36 44 41 53 38 36 34 54 52 37 51 44 35 44 Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: con media incognita µ1 e varianza σ12 =40 per il tipo X, media µ2 e varianza σ22 =100 per il tipo Y. Si chiede di determinare: i) un intervallo bilaterale con il 95% di confidenza per µ1 ¡ µ2 ; ii) un valore che permetta di affermare che µ1 ¡ µ2 gli è superiore con il 95% di confidenza. i) Calcoliamo innanzitutto le medie x e y dei due campioni, che hanno dimensione rispettivamente n=14 e m=12. Si ha 12 x= 14 1 xk ¼ 42.78 12 y= k=1 1 yk ¼ 55.83 14 k=1 Come abbiamo appena visto dalla teoria, la stima di un intervallo di fiducia bilaterale al livello 1¡α è la seguente: · (x ¡ y) ¡ u α2 σ12 σ2 + 2 , (x ¡ y) + u α2 n m σ12 σ2 + 2 n m & . Essendo α = 0.005, si ha u α2 = u0.025 ¼ 1.96 (come già visto nell’esercizio 3.5.1). L’intervallo di fiducia richiesto risulta dunque cosı̀ stimato: ¡13.05 ¡ 1.96 ¢ p 11.191 , ¡13.05 + 1.96 ¢ p 11.191 ¼ [¡19.61, ¡6.49] . ii) La domanda è equivalente alla richiesta di determinare l’intervallo destro al livello di fiducia 95%. Per quanto detto nel x 3.5, la stima di tale intervallo sarà data da (x ¡ y) ¡ uα Essendo u0.05 ¼ 1.645 si ottiene ¡13.05 ¡ 1.65 ¢ σ2 σ12 + 2 , +1 . n m p 11.191 , +1 ¼ [¡18.53 , +1) . b) Le varianze σ12 e σ22 non sono note, ma possono ritenersi uguali Posto σ 2 =σ12 = σ22 , il problema è innanzitutto quello di ottenere una stima per σ 2 . I due stimatori corretti per σ12 e σ22 sono rispettivamente n S12 m 1 = (Xi ¡ X)2 , n ¡ 1 i=1 S22 1 = (Yi ¡ Y )2 . m ¡ 1 i=1 Per un teorema enunciato in precedenza sappiamo che n¡1 2 S1 » χ2n−1 σ2 e 96 m¡1 2 S2 » χ2m−1 . σ2 Inoltre, essendo le due distribuzioni indipendenti, anche le due chi-quadro ora scritte lo sono. Di conseguenza pure la loro somma ha una distribuzione di tipo chi-quadro, con un numero di gradi di libertà uguale alla somma di quelli delle due distribuzioni di partenza. Si ha cioè n¡1 2 m¡1 2 S1 + S2 » χ2n+m−2 . σ2 σ2 Ciò premesso, una migliore stima per σ 2 è data dalla seguente ”pooled variance” (varianza ponderata): Sp2 = Essendo poi n¡1 (n ¡ 1)S12 + (m ¡ 1)S22 m¡1 = S12 + S2 . n+m¡2 n+m¡2 n+m¡2 2 1 σ12 σ2 1 2 + 2 = + σ , n m n m 2 la miglior stima per σ∆ è rappresentata da 1 1 2 2 S∆ = + S . n m p Ne consegue che la variabile casuale 2 2 = σX−Y = σ∆ T = (X ¡ Y ) ¡ (µ1 ¡ µ2 ) 1 1 + Sp n m segue una distribuzione di Student con n + m ¡ 2 gradi di libertà. Indicando ora con t α2 il quantile superiore fornito dalla soluzione dell’equazione α P (Tn+m−2 · t) = 1 ¡ , 2 si ha ' ( (X ¡ Y ) ¡ (µ1 ¡ µ2 ) P ¡t α2 · · t α2 , 1 1 + Sp n m e quindi, operando con semplici passaggi algebrici, si ottiene P (X ¡ Y ) ¡ t α2 S∆ · µ1 ¡ µ2 · (X ¡ Y ) + t α2 S∆ = 1 ¡ α . Pertanto l’intervallo di fiducia all’(1 ¡ α)% per la differenza delle medie delle due popolazioni è (X ¡ Y ) ¡ t α2 S∆ , (X ¡ Y ) + t α2 S∆ . Effettuato l’esperimento, la stima ottenuta per questo intervallo sarà quindi (x ¡ y) ¡ t α2 σ̂∆ , (x ¡ y) + t α2 σ̂∆ , con σ̂∆ dato, in virtù delle precedenti posizioni, da ) 1 1 (n ¡ 1)σ̂12 + (m ¡ 1)σ̂22 σ̂∆ = + = n m n+m¡2 ) n m 1 1 i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2 = + . n m n+m¡2 97 Osservazione. Spesso ci si trova nella situazione in cui la numerosità di un campione è molto maggiore dell’altro. In tal caso, supposto n À m, conviene stimare la varianza incognita con l’estimatore (X ¡ Y ) ¡ (µ1 ¡ µ2 ) T = . S p1 m Essendo poi n molto grande, è lecito supporre n + m ¡ 2 > 30 , il che permette di approssimare la distribuzione di Student con la distribuzione normale standardizzata. È quindi lecito utilizzare u α2 anzichè t α2 . L’intervallo di fiducia precedentemente trovato diventa quindi S1 S1 (X ¡ Y ) ¡ u α2 p , (X ¡ Y ) + u α2 p , m m che sarà poi stimato con σ̂1 σ̂1 (x ¡ y) ¡ u α2 p , (x ¡ y) + u α2 p . m m Esercizio 3.7.2 Un produttore di batterie dispone di due tecniche di fabbricazione differenti. Due gruppi di batterie scelti a caso, 12 prodotte con la tecnica I e 14 con la tecnica II, sono risultate avere le seguenti capacità (in ampere-ora): Tecnica I 140 136 138 150 152 144 132 142 150 154 136 142 Tecnica II 144 132 136 140 128 150 130 134 130 146 128 131 137 135 Ipotizzando che le varianze delle due popolazioni siano uguali, si chiede di determinare: i) un intervallo di confidenza al 90%, bilaterale, per la differenza delle medie; ii) un intervallo unilaterale sinistro per µ1 ¡µ2 al livello di confidenza 95%. i) Indicato con (X1 , X2 , . . . , X12 ) il campione relativo alla tecnica I, e con (Y1 , Y2 , . . . , Y14 ) quello relativo alla tecnica II, per cui n = 12 e m = 14, calcoliamo le loro medie misurate x e y . Si ha 14 x= 12 1 xk = 143 14 y= k=1 1 yk ¼ 135.786 12 k=1 Come abbiamo appena visto dalla teoria, la stima dell’intervallo bilaterale al livello di fiducia 1¡α è la seguente: (x ¡ y) ¡ t α2 σ̂∆ , (x ¡ y) + t α2 σ̂∆ , Dovendo calcolare σ̂∆ occorre prima calcolare la somma degli scarti quadratici. Si ha: 12 (xi ¡ x)2 = 556 ; 14 (yi ¡ y)2 = 622.357 . i=1 i=1 Si ha quindi ) 12 14 1 1 i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2 556 + 622.36 σ̂∆ = + ¼ 0.1548 ¼ 2.757 . 12 14 24 24 98 Essendo α = 0.10 ed avendo a che fare con la distribuzione di Student a 24 gradi di libertà (n + m ¡ 2=24), si ha t α2 = t0.05 ¼ 1.711. L’intervallo di fiducia richiesto risulta dunque cosı̀ stimato: (143 ¡ 135.79) ¡ 1.71 ¢ 2.76 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ 2.49, 11.93 . ii) Determiniamo ora un intervallo unilaterale sinistro per µ1 ¡µ2 al livello di confidenza 95%. La stima di tale intervallo sarà data da Essendo t0.05 ¼ 1.711 si ottiene ¡1 , (x ¡ y) + tα σ̂∆ . ¡1 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ (¡1 , 11.93] . c) Le varianze σ12 e σ22 non sono note, né possono ritenersi uguali In questo caso la variabile casuale da utilizzare per costruire l’intervallo di fiducia è la seguente: (X ¡ Y ) ¡ (µ1 ¡ µ2 ) , Tℓ = S12 S22 + n m dove Tℓ segue approssimativamente la distribuzione t di Student con ℓ gradi di libertà, con ℓ che si può calcolare, ad esempio, con la formula di Smith-Satterthwaite: σ̂22 2 m ℓ = 2n σ̂ 2 2 ¢ σ̂1 2 2 n m + n¡1 m¡1 σ̂ 2 1 + Si può anche aggiungere il suggerimento di approssimare per difetto ℓ, il che corrisponde ad una logica di tipo conservativo nell’esecuzione di un test d’ipotesi. Cerchiamo di spiegare cosa significa questa affermazione, anche se richiede argomentazioni che risulteranno chiare solo più avanti (x3.10). Supposto che l’approssimazione per difetto dia ℓ=10 e che questa porti a rigettare l’ipotesi nulla H0 , anche ℓ=11, comportando una regione di accettazione contenuta in quella relativa ad ℓ=10, implicherebbe il rigetto di H0 . Il contrario non necessariamente vale. Esercizio 3.7.3 Determinare l’intervallo di cui alla domanda i) dell’esercizio precedente nell’ipotesi che le due varianze σ12 e σ12 non siano uguali. L’intervallo richiesto è formalmente lo stesso dell’esercizio precedente con la differenza che ora t α2 è determinato dalla distribuzione di Student ad ℓ gradi di libertà, con ℓ dato dalla formula precedente, e σ̂∆ = σ̂12 σ̂ 2 + 2. n m Calcoliamo innanzitutto σ̂12 e σ̂22 utilizzando i conti già fatti nell’esercizio precedente. 99 σ̂12 = σ̂22 Si ha quindi n 12 m 14 1 1 556 ¼ 50.545 (xi ¡x)2 = (xi ¡143)2 = n¡1 i=1 11 i=1 11 1 1 622.78 = (yi ¡y)2 ¼ (yi ¡135.786)2 ¼ ¼ 47.874 . m¡1 i=1 13 i=1 13 50.545 47.874 p + ¼ 4.212 + 3.420 ¼ 2.763 . 12 14 Calcoliamo ora la dimensione ℓ della distribuzione di Student. Abbiamo: σ̂∆ ¼ 50.545 47.874 2 4.212 + 3.420)2 12 14 ℓ¼ ¼ ¼ 23.83 50.545 2 47.874 2 (4.1212)2 (3.420)2 + 12 14 11 13 + 11 13 + Siccome ℓ deve essere un intero, sembra naturale arrotondarlo assumendo cosı̀ ℓ = 23. Di conseguenza, avendo la distribuzione di Student lo stesso numero di gradi di libertà dell’esercizio precedente ed essendo σ̂∆ praticamente lo stesso, anche l’intervallo risulterà praticamente lo stesso. Ciò è probabilmente dovuto a due fatti concomitanti: sia le varianze che le dimensioni dei due campioni differiscono di poco. 3.8 STIMA DI UNA PROPORZIONE Consideriamo una popolazione di elementi, ognuno dei quali può soddisfare oppure no, indipendentemente uno dall’altro, un dato requisito. Si vuole stimare la proporzione p dei membri della popolazione che posseggono il requisito in questione. Considerato un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n, avremo 1 se l’i¡esimo elemento del campione ha il requisito Xi = 0 se l’i¡esimo elemento del campione non ha il requisito . n Indicata quindi con Y = i=1 Xi la variabile casuale che denota quanti elementi del campione posseggono il requisito, la statistica Y = Y /n dà la proporzione del campione con il requisito. Questa statistica, chiamata proporzione del campione, è il naturale stimatore per p. Essendo poi ciascuna Xi una variabile di Bernoulli, si ha Xi ' B(1, p) e quindi E(Y ) = np , V ar(Y ) = n p q = n p (1 ¡ p). In virtù del teorema di limite centrale, Y è approssimativamente normale con media p e varianza p(1¡p)/n, ossia p (1¡p) Y » N p, . n Ciò, a sua volta, implica Y ¡p $ » N (0, 1) . p(1¡p)/n Volendo determinare un intervallo di fiducia per p di livello 1¡α, indicato come al α α solito con u 2 il quantile della normale standardizzata tale che Φ u 2 = 1 ¡ α2 , si ha 100 Y ¡p P ¡u α2 · $ · u α2 ¼ 1 ¡ α , p(1 ¡ p)/n da cui, isolando p nel mezzo della disuguaglianza, si ottiene $ $ P Y ¡ u α2 p(1 ¡ p)/n · p · Y + u α2 p(1 ¡ p)/n ¼ 1 ¡ α . Si è cosı̀ ottenuta una regione che contiene p con livello di fiducia 1¡ α. C’è però un problema che incontriamo per la prima volta: gli estremi di un intervallo di fiducia debbono essere delle statistiche, cioè non debbono contenere alcun parametro incognito. In questo caso gli estremi contengono infatti il parametro p, per cui ci troviamo nell’anomala situazione di tentare di usare p per stimare p. Il problema può però facilmente essere superato stimando p con con l’estimatore Y . Indicato quindi con p̂ ´ y la stima puntuale di p ottenuta utilizzando Y , l’intervallo di fiducia (approssimato) per p al livello 1¡α è il seguente: $ $ p̂ ¡ u α2 p̂(1 ¡ p̂)/n , p̂ + u α2 p̂(1 ¡ p̂)/n . Esercizio 3.8.1 Un campione di 100 transistor viene estratto da una grossa fornitura e testato. In tutto 80 pezzi hanno i requisiti adeguati. Si chiede di determinare gli intervalli di fiducia di livelli 95% e 99% per la percentuale p di transistor accettabili. I quantili della normale standardizzata che interessano sono i seguenti: u0.025 ' 1.96 , u0.005 ' 2.57 . Essendo n=100 e p̂=0.80, si ha livello 95% =) livello 99% =) $ 0.8 ¢ 0.2/100 , 0.80 + 1.96 0.8 ¢ 0.2/100] $ $ p 2 [0.80 ¡ 2.57 0.8 ¢ 0.2/100 , 0.80 + 2.57 0.8 ¢ 0.2/100] . p 2 [0.80 ¡ 1.96 $ Gli intervalli di fiducia richiesti sono dunque approssimativamente i seguenti: livello 95% livello 99% =) =) p 2 [0.80 ¡ 0.0784 , 0.80 + 0.0784] = [0.7216 , 0.8784] p 2 [0.80 ¡ 0.1028 , 0.80 + 0.1028] = [0.6972 , 0.9028] . Esercizio 3.8.2 Un sondaggio su un giornale riporta che il 52% della popolazione, con un margine d’errore di §4%, è soddisfatto dell’operato dell’amministrazione. Cosa significa ciò? È possibile stabilire quante persone sono state intervistate? È pratica comune per i mezzi d’informazione fornire intervalli di fiducia al 95%. Ciò premesso, l’intervallo di fiducia in questione, essendo p̂=0.52 e u0.975 ' 1.96, ed essendo non nota la dimensione del campione, è approssimativamente il seguente: $ $ p̂ § 1.96 p̂(1 ¡ p̂)/n = 0.52 § 1.96 0.52 ¢ 0.48/n . Siccome il margine d’errore è del 4%, ciò significa che 1.96 $ 0.52 ¢ 0.48/n ¼ 0.04 , da cui, tenendo conto che n è intero, si ricava n ¼ 599 . 101 Un problema di un certo interesse concerne una stima della dimensione del campione che permetta di ottenere un intervallo di fiducia per p al livello 1¡α non più ampio di una lunghezza d assegnata. Il problema può presentarsi con queste due varianti: a) è disponibile a priori una stima puntuale p̂; b) una tale stima non è disponibile. Caso a). L’ampiezza dell’intervallo di fiducia per p ha ampiezza $ 2 u α2 p̂(1 ¡ p̂)/n . Si dovrà quindi avere $ 2 u α2 p̂(1 ¡ p̂)/n · d , da cui 4u2α 2 p̂(1 ¡ p̂) . n ¸ d2 Caso b). Siccome la funzione p(1¡p) ha come valore massimo 14 (assunto per p= 12 ), qualunque sia il valore di p, scegliendo u2α n = 22 , d sarà sempre garantita un’ampiezza dell’intervallo non superiore a d. Esercizio 3.8.3 Un’azienda produce circuiti integrati, ciascuno dei quali risulta accettabile indipendentemente da tutti gli altri con probabilità incognita p. Si vuole ottenere un intervallo di fiducia per p ad un livello 99%, la cui ampiezza sia approssimativamente 0.05. Si raccoglie allora un primo campione di 30 chip, 26 dei quali risultano accettabili, fornendo una prima, grossolana, stima puntuale di p, data da p̂= 26 30 . Si chiede di determinare: a) la dimensione n1 del campione che si ottiene utilizzando la stima p̂; b) l’intervallo di fiducia utilizzando un campione di dimensione n1 ottenuto aggiungendo n1 ¡30 chip a quelli già verificati (fissando a piacere il numero dei chip accettabili); c) determinare la dimensione n2 del campione necessaria a garantire un’ampiezza non superiore a 0.05 se non fosse stata determinata preventivamente p̂. a) Essendo u0.005 ¼ 2.58, si ha n1 = 4u2α 2 d2 p̂(1 ¡ p̂) ¼ 4 2.582 26 4 ¼ 1231 . 0.052 30 30 b) Dobbiamo dunque testare altri 1201 chip. Fra questi supponiamo che 1040 siano accettabili. L’intervallo di fiducia che si ottiene è pertanto dato da ovvero 1066 1066 165 1 § 2.58 , 1231 1231 1231 1231 (0.8409, 0.8910) . c) Se non avessimo predeterminato (seppur grossolanamente) p, la dimensione n2 del campione atta a garantire l’ampiezza richiesta per l’intervallo di fiducia sarebbe stata n2 = u2α 2 d2 ¼ 2.582 ¼ 2663 . 0.052 Dunque, se non avessimo predeterminato una stima puntuale per p, per avere la certezza di un intervallo di fiducia con l’ampiezza richiesta, avremmo dovuto adottare un campione di dimensione più che doppia! 102 3.9 BASI LOGICHE DEI TEST Ci poniamo questo problema: i tecnici di una ditta produttrice di nastri dichiarano di aver messo a punto un nuovo trattamento per il materiale utilizzato tale da rendere più resistente il nastro, portandone il carico di rottura a trazione a 80 N. Come valutare la loro affermazione? È chiaro che un qualunque controllo (test) va fatto su un campione e sulla base del risultato si decide se la produzione deve continuare con le vecchie o con le nuove tecniche di trattamento del materiale. Il processo decisionale scelto è il seguente: si considera un campione casuale costituito di 49 nastri estratto dalla popolazione dei nastri prodotti col nuovo trattamento e si sottopone ciascuno di questi 49 nastri alla prova di rottura fatta con l’apposita attrezzatura. Se il carico di rottura medio osservato è inferiore a 78.5 N, la nuova tecnica viene rifiutata, mentre se risulta maggiore si ritiene dimostrata la maggior resistenza e quindi accettata la nuova tecnica. Indicata con x la media campionaria misurata del campione, sono possibili i seguenti 4 casi: 1) x > 78.5N e il nuovo trattamento è effettivamente tale da rendere il nastro più resistente. In questo caso l’accettazione della nuova tecnica è una scelta corretta. 2) x< 78.5N benchè il nuovo trattamento sia effettivamente tale da rendere il nastro più resistente. In questo caso il rifiuto della nuova tecnica è una scelta sbagliata. Questo tipo di errore è detto errore o rischio di I a specie. 3) x > 78.5N benchè il nuovo trattamento non sia effettivamente tale da rendere il nastro più resistente. In questo caso l’accettazione della nuova tecnica è una scelta sbagliata. Questo tipo di errore è detto errore o rischio di II a specie. 4) x < 78.5N e il nuovo trattamento non è effettivamente tale da rendere il nastro più resistente. In questo caso il rifiuto della nuova tecnica è una scelta corretta. Facendo delle ipotesi sulla distribuzione della popolazione e assumendo che la varianza di questa distribuzione non cambi per effetto del nuovo trattamento, si possono valutare le probabilità degli errori di I a e II a specie. Ipotizziamo dunque che nel problema considerato la distribuzione sia normale e che si abbia σ 2 = 21.4N 2 . Ciò implica che la media campionaria X, relativa al nostro campione di dimensione n=49, abbia media µ=µ0 =80N (se i tecnici dicono il vero) e deviazione standard σ = 21.4 49 ' 0.661N . 103 Il rischio di errore di I a specie è rappresentato dall’area sottesa dalla curva normale a sinistra del valore 78.5 N (vedi figura), il che equivale alla probabilità che X per n=49 sia minore di 78.5 N . Indicata di nuovo con Z la media campionaria standardizzata, ' ( si ha X ¡ µ 78.5 ¡ 80 78.5 ¡ µ p < p P [X < 78.5µ0 = 80] = P =P Z< ' σ/ n σ/ n 0.661 ' Φ(¡2.27) = 1 ¡ Φ(2.27) ' 0.012 . Dunque, c’è una probabilità di poco superiore all’1% di commettere l’errore di I a specie, cioè di rifiutare l’affermazione fatta quando questa è vera. Volendo valutare il rischio di II a specie, occorre supporre che il carico di rottura medio vero per quel tipo di nastro non sia quello indicato dai tecnici, ma un altro. Ipotizziamo dunque, ad esempio, che sia 78 N anzichè 80 N . In questo caso la media campionaria X avrebbe distribuzione normale con media µ = µ1 = 78. Supponendo che la deviazione standard rimanga la stessa, la probabilità dell’errore di II a specie è quella di avere delle medie di campioni di dimensione 49 maggiori di 78.5 N . Calcoliamo tale probabilità, che è rappresentata dall’area evidenziata nella figura. ' ( 78.5 ¡ 78 X ¡ µ 78.5 ¡ µ p > p P [X > 78.5µ1 = 78] = P =P Z> ' 0.661 σ/ n σ/ n ' 1 ¡ Φ(0.756) ' 0.225 = 22.5% . In definitiva, avendo stabilito quel criterio decisionale, siamo riusciti a quantificare i rischi di errore, cioè le probabilità di scelte errate a seconda della situazione vera che è e rimane ovviamente incognita. L’aver scelto una simile strategia per accettare o rifiutare l’affermazione dei tecnici significa fare un test di ipotesi. Rimane il dubbio che l’aver fissato il limite di 78.5 N per quelle medie campionarie possa risultare troppo favorevole all’accettazione dell’affermazione fatta. Nella pratica, dovendo decidere se accettare oppure no l’ipotesi che la media (incognita) di una data popolazione abbia un dato valore, si procede nel modo seguente: si stabilisce il rischio α di errore di I a specie ed in base ad esso si determina un intervallo; se la media campionaria osservata cade esternamente a tale intervallo, l’ipotesi viene rifiutata. Nel caso specifico visto in precedenza l’intervallo in questione è [78.5, +1) che corrisponderebbe, come il calcolo fatto in precedenza mostra, ad un rischio α di I a specie circa uguale a 0.012. Il criterio descritto, cosı̀ come formulato, è risolutivo solo nel caso di rifiuto. Se accettare o no l’ipotesi nel caso in cui la media osservata cada internamente all’intervallo, dipende da chi deve prendere la decisione e dai suoi obiettivi. Ovviamente, come nel caso del problema appena considerato, si può anche decidere di accettarlo immediatamente. Oppure si può decidere di fare ulteriori “verifiche” (ovviamente di tipo statistico). Ad esempio, si può valutare anche il rischio di II a specie assumendo come valore vero per la media campionaria un valore µ1 < µ0 e decidere in base alla probabilità di tale rischio se accettare oppure no H0 . La scelta di un µ1 minore di µ0 104 è ovviamente legata al fatto che il rischio di una scelta sbagliata si ha solo nel caso in cui il valore vero di µ è minore di µ0 . 3.10 FORMULAZIONE DI UN TEST DI IPOTESI Molto spesso vengono formulate delle ipotesi di lavoro che riguardano un parametro θ di una popolazione. Per decidere se accettare oppure respingere una tale ipotesi ci si può servire dei risultati di un test statistico, che può essere formulato seguendo i passi che seguono. 1) Definire l’ipotesi di lavoro, che chiameremo ipotesi nulla e indicheremo con H0 . Nel caso più semplice, e più comune, ciò sarà fatto attribuendo al parametro θ un valore θ0 : H0 : θ =θ0 . Ad esempio, se il parametro sotto indagine è la media, si pone µ=µ0 , essendo µ0 un valore prefissato; se invece il parametro è la varianza, si pone σ 2 = σ02 , con σ02 valore prefissato. L’indagine potrebbe riguardare anche la differenza fra due medie µ1 e µ2 : in tal caso si ipotizza che µ1 ¡µ2 =0, ossia che µ1 =µ2 . Si sono cosı̀ individuati tre possibili ipotesi nulle: H0 : µ=µ0 ; H0 : σ 2 =σ02 ; H0 : µ1 =µ2 ). Nell’esempio del paragrafo precedente l’ipotesi nulla è: H0 : µ=80 N . In contrapposizione all’ipotesi nulla si può formulare un’ipotesi alternativa HA . Ad esempio, ipotesi alternative per l’ipotesi nulla H0 : θ = θ0 sono le seguenti: HA : θ 6 = θ0 ; HA : θ < θ0 ; HA : θ > θ0 . Se l’ipotesi nulla H0 è vera, automaticamente l’ipotesi alternativa HA è falsa. Se accettiamo H0 , dobbiamo automaticamente rifiutare HA . Nell’esempio del paragrafo precedente si ha HA : µ< 80 N . 2) Scegliere una statistica appropriata ed identificarne la distribuzione campionaria. Nell’esempio del paragrafo precedente si è assunto che la distribuzione delle medie campionarie fosse normale. 3) Precisare il rischio α di errore di prima specie che si è disposti a correre (o equivalentemente specificare il livello di fiducia 1¡α). Spesso la probabilità α di commettere un errore di prima specie viene detta livello di significatività del test (tanto più piccolo è α, tanto più è significativo il test). In molti casi la scelta di tale livello non riveste solo aspetti statistici, ma sopratutto tecnici ed economici. Livelli di significatività non troppo fini (cioè con valori di α abbastanza grandi) possono portare a scelte che poi risultano errate, con conseguenze a volte disastrose. Si pensi, ad esempio, ad una scelta di un nuovo medicinale a scapito di uno preesistente che si dimostra sbagliata in quanto il nuovo, alla prova dei fatti, risulta meno efficace di quello che ha sostituito, con conseguenze negative per la casa farmaceutica e, soprattutto, per i pazienti. 4) Precisare, se lo si ritiene opportuno, anche il massimo rischio di seconda specie ∗ . Osserviamo che in questo caso, come abbiamo βmax per un’ipotesi alternativa HA ∗ visto nell’esempio del paragrafo precedente, HA consiste nell’ipotizzare che il para∗ metro θ assuma un valore specifico θ all’interno dell’ipotesi HA di cui al punto 1). 5) Decidere la dimensione n del campione. 105 6) Determinare, in base a quanto precedentemente stabilito, la regione di accettazione dell’ipotesi nulla H0 . Tale regione, che indichiamo con A , deve essere tale che P θ 2 A = 1¡α. In molti casi (fra cui l’importante caso θ = µ), essa viene determinata in modo che risulti cosiffatta: se HA : θ 6 = θ0 ; [θ0 ¡ δα , θ0 + δα ] A= [θ0 ¡ δα′ , +1) (¡1 , θ0 + δα′′ ] se HA : θ < θ0 ; se HA : θ > θ0 . Indicato poi con Θ l’insieme dei numeri reali sul quale il parametro θ assume i propri valori, si chiama regione critica o di rifiuto la regione complementare di A rispetto a Θ. Posto pertanto R = Θ ¡ A, ne consegue che, se un valore misurato θ̂ non sta in A, allora necessariamente sta in R, e viceversa. Nel caso di ipotesi alternativa HA : θ 6 = θ0 si parla di test bilaterale e la regione critica è detta a due code, mentre nel caso di HA : θ < θ0 oppure HA : θ > θ0 abbiamo un test unilaterale e una regione critica ad una coda. 7) Si estrae un campione della dimensione stabilita e con i valori osservati del campione si determina la stima puntuale θ̂ del parametro. Si hanno quindi le seguenti implicazioni: θ̂ 2 R =) l’ipotesi nulla H0 viene rigettata θ̂ 2 A =) l’ipotesi nulla H0 non può essere rigettata. Osserviamo che, nel caso in cui θ̂ cade in R, il test è risolutivo in quanto l’ipotesi nulla viene respinta in favore dell’ipotesi alternativa HA . Al contrario, se θ̂ cade in A, il test non è risolutivo. In tal caso infatti esso ci dice che l’ipotesi nulla non può essere rifiutata, la qual cosa non significa automatica accettazione: sta allo sperimentatore decidere se accettare oppure no l’ipotesi nulla solo sulla base del fatto che non è stata smentita al livello di fiducia 1¡α prefissato. Volendo supportare l’accettazione di H0 con altri riscontri, lo sperimentatore può procedere andando a valutare anche il rischio di II a specie per un’ipotesi alternativa ∗ HA . Viene dunque calcolata la probabilità β di accettare come vera l’ipotesi H0 ∗ quando, essendo vera HA , essa è falsa: ∗ β = P θ 2 A j HA . Ebbene, supposto che lo sperimentatore abbia in precedenza fissato un βmax , se β · βmax , ciò può costituire l’elemento risolutivo ai fini della decisione finale circa l’accettazione o no dell’ipotesi nulla H0 . La probabilità di rifiutare H0 quando H0 è falsa, che vale 1¡β, viene detta potenza ∗ ∗ ∗ del test. Sottoponendo il nostro test a diverse ipotesi alternative HA , HA , HA ,..., 1 2 3 si ottengono diversi valori di β: β1 , β2 , β3 ,..., che individuano una curva β = β(θ) , detta curva operativa caratteristica del test. Di questa riparleremo più avanti. L’ideale sarebbe un test che minimizza contemporaneamente entrambi i rischi di I a e II a specie, ma ciò è impossibile. Al decrescere dell’uno, l’altro cresce. Il solo modo 106 di abbassarli entrambi è aumentare la dimensione n del campione, e quindi, in parole povere, spendere di più in prove ed analisi dei risultati. Va comunque notato che, indipendentemente da come si opera, un errore è sempre possibile. Ogni volta che H0 viene rifiutata, può aver luogo un errore di I specie; ogni volta che H0 non viene rifiutata, può verificarsi un errore di II specie. Non c’è alcun modo di evitare questo dilemma. Il mestiere dello statistico è quello di adottare metodi per decidere se rifiutare oppure no l’ipotesi H0 che mantengono ragionevolmente piccole le probabilità di fare l’uno o l’altro errore. Considerazioni sulla scelta di H0 e HA Diversamente da quanto assunto nella definizione dei passi utili alla formulazione di un test, molto spesso l’interesse reale suggerirebbe un’ipotesi nulla basata su una disuguaglianza: H0 : θ · θ0 (oppure H0 : θ ¸ θ0 ), con conseguente ipotesi alternativa HA : θ > θ0 ) (oppure HA : θ < θ0 ). Nel linguaggio proprio della statistica si parla di ipotesi nulla semplice o composta a seconda che H0 esprima un’uguaglianza o una disuguaglianza. Poiché con H0 composta la trattazione matematica del problema risulta assai più complicata, nel seguito considereremo sempre ipotesi nulle semplici. A questo proposito occorre osservare che se, ad esempio, l’ipotesi nulla fosse H0 : θ · θ0 (ovviamente in contrapposizione a HA : θ > θ0 ), essa può essere ragionevolmente sostituita da H0 : θ = θ0 sulla base delle considerazioni che seguono. L’esecuzione del test porta a rigettatare H0 se la stima puntuale θ̂ del parametro θ risulta maggiore di un certo θ1 a sua volta maggiore di θ0 . Più semplicemente: H0 viene rigettata se θ̂ è “abbastanza più grande” di θ0 . Di norma, se ciò porta a rigettare l’ipotesi nulla θ = θ0 , a maggior ragione si deve rifiutare ogni ipotesi θ =θ∗ con θ ∗ < θ0 , e quindi l’ipotesi nulla composta H0 : θ · θ0 . Diverso è il discorso nel caso in cui il test porti all’accettazione di H0 : θ = θ0 : ciò non comporta affatto l’accettazione di H0 : θ · θ0 . (Nell’esempio 3.11.2 si mostra come si può procedere con un’ipotesi nulla composta). Un fatto significativo che probabilmente non è emerso da quanto detto finora è il seguente. Uno sperimentatore quando compie un test tende ad avvalorare un’ipotesi di lavoro che in generale si traduce in una relazione di disuguaglianza. Ebbene, questa relazione può essere assunta sia come ipotesi nulla H0 (composta) sia come ipotesi alternativa HA . In altre parole, un’ipotesi nulla H0 composta e la sua ipotesi alternativa sono intercambiabili. Anzi, spesso l’ipotesi da avvalorare viene assunta come ipotesi alternativa HA con l’obiettivo di avvalorarla rigettando H0 . Di qui si può quindi capire come, per uno stesso problema, la scelta delle due ipotesi, quella nulla e quella alternativa, possono essere diverse a seconda degli interessi di chi esegue il test. Quando l’ipotesi nulla è semplice, ovviamente essa non può essere scambiata con l’ipotesi alternativa. Anche in questo caso però gli interessi di chi effettua il test possono portare a scegliere un’ipotesi alternativa piuttosto che un’altra. L’esempio che segue chiarirà, se ce ne fosse bisogno, quanto appena affermato. Esempio 3.10.1 Un dato vino è in vendita in bottiglie contenenti, sulla base di quanto dichiarato dall’etichetta, 720 millilitri. Si vuole verificare che l’effettivo contenuto corrisponda a quanto dichiarato mediante un test d’ipotesi di livello di fiducia 1¡α. 107 In questo problema il parametro θ che interessa è la media della variabile casuale X che rappresenta la quantità di vino contenuto in una bottiglia. Si ha dunque θ = µ e l’ipotesi nulla è H0 : µ = 720 . Le possibili ipotesi alternative sono pertanto HA : µ 6 = 720 oppure HA : µ< 720 oppure HA : µ> 720 . Supponiamo che sia un’associazione di consumatori ad effettuare il test. In questo caso c’è tutto l’interesse a evidenziare un eventuale riempimento delle bottiglie per difetto. Viene dunque scelta l’ipotesi alternativa HA : µ < 720. L’ipotesi nulla sarà da rigettare in favore di HA nel caso in cui la stima puntuale µ̂ della media calcolata mediante i valori osservati del campione non cada internamente alla regione di accettazione A, cioè se µ̂ 2 / [720 ¡ δα′ , +1) . Supponiamo ora che sia il produttore ad effettuare il test di verifica. Quale ipotesi alternativa sceglierà? Certamente non sceglierà HA : µ < 720, perchè se cosı̀ facesse potrebbe avvalorare l’ipotesi che egli mette nelle bottiglie meno vino di quanto dichiara. D’altra parte, se l’ipotesi alternativa scelta fosse HA : µ> 720, potrebbe apparire un pò troppo sfacciato. Non rimane dunque che la scelta ”neutra” HA : µ 6 = 720. Tenendo conto della struttura di A, H0 verrebbe rigettata in favore di HA se Dovendo essere µ̂ 2 / [720 ¡ δα , 720 + δα ] . P µ 2 [720 ¡ δα , 720 + δα ] =P µ 2 [720 ¡ δα′ , +1) =1 ¡ α , ′ è evidente che δα < δα . Di conseguenza, dando per scontato che il produttore sia stato molto attento a non riempire troppo le bottiglie, è certamente più probabile che sia il test effettuato dall’associazione dei consumatori a smentire l’ipotesi nulla piuttosto che il test fatto dal produttore stesso. Osserviamo che il rifiuto di H0 nel test dell’associazione confermerebbe l’eventuale sospetto di una quantità di vino minore di quanto dichiarato. 3.11 TEST DI SIGNIFICATIVITÀ Esiste un altro metodo, un pò più sbrigativo, per decidere se accettare o no l’ipotesi nulla H0 . Tale metodo, che è detto test di significatività, sta diventando di uso sempre più ampio, anche in virtù dell’uso crescente di pacchetti software nell’analisi di dati statistici. Indicata con T la statistica del test, il metodo in questione consiste nell’osservare dal campione casuale il valore numerico t̂ di T e nel determinare quindi la probabilità che T assuma un valore che ”eccede” t̂, supposta vera l’ipotesi nulla. Il significato preciso di ”eccede” dipende dal tipo di test. Nel caso di test unilaterale la probabilità p da determinare è la seguente: se HA : θ > θ0 , p = P T ¸ t̂ H0 se HA : θ < θ0 . p = P T · t̂ H0 Se invece il test è bilaterale simmetrico, cioè basato su una statistica T con una distribuzione simmetrica (come Z e Tn ), allora la probabilità p è data da p = 2 P T ¸ jt̂j H0 se HA : θ 6 = θ0 . 108 Al numero p ci si riferisce con diversi nomi; i più comuni sono valore p o p-dei-dati. Come risulterà evidente dagli esempi proposti nel seguito, se si eseguisse un test di ipotesi con livello di significatività α, se α < p, il valore osservato θ̂ cadrebbe internamente alla regione di accettazione e H0 non potrebbe essere rigettata; d’altra parte, se α> p, θ̂ cadrebbe esternamente e l’ipotesi nulla sarebbe da rigettare. Questa considerazione suggerisce la seguente definizione di carattere generale: Definizione Si chiama valore p (o p-dei-dati) il minimo α per cui l’ipotesi nulla deve essere rigettata con un test d’ipotesi di livello di fiducia 1¡α. Esempio 3.11.1 Ingegneri addetti alla costruzione di automobili stanno usando sempre più l’alluminio nella speranza di ridurre il costo delle auto e aumentare il numero di miglia percorse con un gallone di benzina. Per un particolare modello di auto, il numero medio di miglia su autostrada ottenuto per gallone è 26 con una deviazione standard σ = 5mpg. Si spera che un nuovo design, che utilizza più alluminio, incrementi la media, dando per scontato che σ non cambi. Gli ingegneri, volendo testare la loro ipotesi, eseguono un test di significatività nel modo seguente. H0 : µ · 26 , HA : µ > 26 . Assunta naturalmente come statistica del test la media campionaria X , si concorda di rifiutare l’ipotesi H0 in favore di HA se il valore osservato x di X risulterà ”alquanto maggiore” Si assumono le seguenti ipotesi: di 26. Con ”alquanto maggiore” intendiamo troppo grande perchè ciò possa essere avvenuto solo per caso se il valore medio vero è ancora 26. Da un test con un campione di 36 dati risulta una media x = 28.04 mpg. Per vedere se x è abbastanza più grande di 26 da poter rigettare H0 , calcoliamo il valore p del test, cioè calcoliamo la probabilità di osservare un valore di X maggiore od uguale a 28.04 se µ=26 e σ =5. In virtù del teorema di limite centrale lo stimatore p X è (almeno) approssimativamente normale con media µ=26 e deviazione standard σ/ n=5/6. Si ha quindi p = P (X ¸ 28.04 j µ=26 , σ =5) = P X ¡ 26 28.04 ¡ 26 ¸ = 5/6 5/6 ¼ P [Z ¸ 2.45] = 1 ¡ P [Z · 2.45] ¼ 1 ¡ 0.9929 = 0.0071 . La probabilità che X assuma un valore maggiore di 28.04 è dunque molto piccola. Ci sono due possibili spiegazioni per questo fatto. O l’ipotesi nulla è vera e noi abbiamo osservato un campione veramente raro che per caso ha una media grande, oppure l’ipotesi nulla è falsa e il nuovo processo di costruzione delle auto ha effettivamente portato ad un aumento delle miglia percorse per gallone di benzina. La seconda spiegazione è di gran lunga quella più ragionevole! Infatti il valore p trovato rappresenta la probabilità dell’errore di I specie che si commette rifiutando H0 a favore di HA quando si assume come regione di rifiuto R = [28.04 , +1). E nel caso specifico p è minore dell’1%. L’esempio proposto permette di capire meglio il significato del valore p. Più piccolo è p, più fortemente il test suggerisce il rigetto dell’ipotesi nulla a favore di quella alternativa. 109 3.12 TEST RIGUARDANTI LA MEDIA DI UNA POPOLAZIONE NORMALE Tratteremo ora i test riguardanti la media affrontando dapprima il caso in cui la varianza è nota e poi il caso in cui è incognita. a) Test nel caso di varianza nota Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una popolazione di media µ = µ0 , usiamo la statistica Z ' N (0, 1) che si ottiene, come abbiamo già visto, normalizzando la media campionaria X, ossia X ¡ µ0 p Z= n, σ dove σ 2 è la varianza della popolazione che assumiamo nota. Il problema è quello di testare l’ipotesi nulla H0 : µ = µ0 contro l’ipotesi alternativa HA : µ6 = µ0 : l’ipotesi nulla è da rifiutare se il valore osservato di Z è “troppo grande” o “troppo piccolo”, dove “troppo grande” e “troppo piccolo” sono quantificati dal valore del rischio di prima specie che si intende correre. Più precisamente, fissata uguale ad α la probabilità di tale rischio, e indicato con u α2 il quantile soluzione dell’equazione α Φ(u) = 1 ¡ , 2 per il rischio di errore di prima specie si ha P X ¡ µ p X ¡ µ p 0 0 =P = α. Z < ¡u α2 [ Z > u α2 n < ¡u α2 [ n > u α2 σ σ Questa formula esprime la probabilità di rifiutare l’ipotesi nulla H0 : µ = µ0 quando essa è vera. Pertanto la regione di rifiuto per questo test bilaterale è costituita da tutti i valori di Z (o equivalentemente di X) per cui X ¡ µ p 0 Z < u α ossia n < u α2 . 2 σ Risolvendo rispetto a X si ottiene σ X < µ0 ¡ p u α2 n Posto oppure σ x1 = µ0 ¡ p u α2 , n σ X > µ0 + p u α2 . n σ x2 = µ0 + p u α2 , n abbiamo dunque determinato l’intervallo [x1 , x2 ], detto intervallo di accettazione. Se il valore osservato x di X cade esternamente ad esso, l’ipotesi nulla H0 : µ=µ0 sarà da rifiutare in favore dell’ipotesi alternativa HA : µ 6 = µ0 . Se invece x 2 [x1 , x2 ], allora l’ipotesi nulla non sarà da rifiutare, il che non equivale a dire che sia da accettare (come nell’esempio introduttivo del x 3.9). 110 Oltre al test bilaterale, esiste la possibilità di eseguire anche dei test unilaterali a seconda di esigenze tecniche specifiche. In questo caso si possono avere due ipotesi alternative: HA : µ< µ0 oppure HA : µ> µ0 . Indicato con uα il quantile soluzione dell’equazione Φ(u) = 1 ¡ α, valgono le seguenti relazioni: ' ( X ¡ µ0 p P Z < ¡uα = P n < ¡uα = α ; σ ' ( X ¡ µ0 p P Z > +uα = P n > +uα = α . σ Posto quindi σ σ ξ1 = µ0 ¡ p uα , ξ2 = µ0 + p uα , n n le due precedenti probabilità diventano P (X < ξ1 ) = α ; P (X > ξ2 ) = α . La prima delle due probabilità ci assicura che, nel caso HA : µ < µ0 , se rigettiamo l’ipotesi nulla a favore di quella alternativa quando il valore di x è minore di ξ1 , l’errore di I a specie commesso è uguale ad α. La seconda probabilità ci garantisce invece un errore dello stessa entità nel caso si rifiuti l’ipotesi nulla a favore dell’ipotesi alternativa HA : µ > µ0 se la media calcolata x risulta maggiore di ξ2 . Pertanto, nel caso di test unilaterale per la media (nota la varianza) si procede nel modo seguente: nel caso HA : µ < µ0 , l’ipotesi H0 si rigetta se x < ξ1 ; nel caso HA : µ > µ0 , H0 si rigetta se x > ξ2 . La tabella che segue riassume i casi considerati. 111 Osservazione. Gli intervalli di accettazione [x1 , x2 ] (nel caso di test bilaterale), [ξ1 , +1) e (¡1 , ξ2 ] (nel caso di test unilaterale) sono espressi nell’unità di misura dei dati del campione. Se la media osservata vi cade dentro, allora l’ipotesi nulla non può essere rigettata. Le conclusioni del test possono però essere tratte, in maniera più immediata, anche utilizzando la media osservata “standardizzata”, vale a dire x ¡ µ0 p z= n. σ Se questa cade all’interno dell’intervallo di accettazione per Z, allora l’ipotesi nulla non può essere rigettata. Per quanto detto precedentemente gli intervalli di accettazione di Z, che per comodità chiameremo “intervalli standardizzati”, sono i seguenti: [¡u α2 , u α2 ] se H A : µ = µ0 ; [¡uα , +1) se HA : µ < µ0 ; (¡1 , +uα ] se HA : µ > µ0 . b) Test nel caso di varianza incognita (test t) Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una popolazione di media µ = µ0 , si usa la statistica Tn−1 , cioè X ¡ µ0 p Tn−1 = n, S con S varianza campionaria. Come già sappiamo, questa variabile casuale segue la distribuzione di Student con n¡1 gradi di libertà. In questo caso il test viene spesso indicato come test t. Volendo testare l’ipotesi nulla H0 : µ=µ0 in contrapposizione con l’ipotesi alternativa HA : µ 6 = µ0 , in analogia con quanto appena fatto nel caso di varianza nota, fissata uguale ad α la probabilità del rischio di prima specie, si ha α α P Tn−1 < ¡t 2 [ Tn−1 > t 2 = ' ( ' ( X ¡ µ0 p X ¡ µ0 p =P n < ¡t α2 [ n > t α2 = α, S S con t α2 soluzione dell’equazione α . 2 Di conseguenza la regione aleatoria di rifiuto della ipotesi nulla diventa Tn−1 (t) = 1 ¡ S X < µ0 ¡ p t α2 n oppure S X > µ0 + p t α2 . n Eseguito l’esperimento e indicato come in precedenza con σ̂ il valore osservato di S, risulta dunque determinato il seguente intervallo di accettazione: σ̂ σ̂ [x1 , x2 ] = µ0 ¡ p t α2 , µ0 + p t α2 . n n 112 Se il valore osservato x di X cade esternamente a questo intervallo, l’ipotesi nulla H0 : µ = µ0 è da rifiutare in favore dell’ipotesi alternativa HA : µ 6 = µ0 . Se invece x 2 [x1 , x2 ], allora l’ipotesi nulla non potrà essere rifiutata. Quando l’ipotesi alternativa è HA : µ< µ0 oppure HA : µ> µ0 , si deve eseguire un test unilaterale. In tal caso, indicata con tα la soluzione dell’equazione: Tn−1 (t) = 1¡α , posto σ̂ σ̂ ξ1 = µ0 ¡ p tα , ξ 2 = µ 0 + p tα , n n si ha P (X > ξ2 ) = α . P (X < ξ1 ) = α ; La prima delle due probabilità ci suggerisce di rifiutare l’ipotesi nulla H0 a favore dell’ipotesi alternativa HA : µ< µ0 se la media x, calcolata approssimando σ con σ̂, risulta minore di ξ1 ; a sua volta la seconda probabilità suggerisce, nel caso HA : µ > µ0 , di rifiutare H0 se si ha x > ξ2 . Quanto affermato può essere sintetizzato dicendo che, nel caso di test unilaterale, gli intervalli di accettazione sono: [ξ1 , +1) se HA : µ < µ0 ; (¡1 , ξ2 ] se HA : µ > µ0 . La tabella data in precedenza per il caso “varianza nota” rimane quindi valida anche nel caso “varianza incognita” fatto salvo il fatto che ora l’intervallo [x1 , x2 ] e i valori ξ1 e ξ2 sono calcolati utilizzando i quantili della distribuzione di Student (ad N¡1 gradi di libertà) anzichè quelli della normale standardizzata. Osservazione. Analogamente a quanto osservato in precedenza nel caso di varianza nota, le conclusioni del test ora proposto possono essere tratte in maniera più immediata ragionando direttamente sugli intervalli di accettazione per Tn−1 , che anche in questo caso chiameremo “intervalli standardizzati”: [¡t α2 , t α2 ] se HA : µ = µ0 ; [¡tα , +1) (¡1 , +tα ] se se HA : µ < µ0 ; HA : µ > µ0 . Se il valore osservato della statistica Tn−1 , cioè x ¡ µ0 p t= n, σ̂ cade esternamente all’intervallo di accettazione standardizzato, l’ipotesi nulla è da rigettare. Esempio 3.12.1 Si supponga di avere un campione di 200 cambi per autovetture, supposti provenire da una popolazione distribuita normalmente avente σ = 3250 Km. a) Possiamo assumere con un rischio di prima specie pari al 5% che la durata media della popolazione costituita da tutti i cambi di quel tipo sia di 44800 Km, se la durata media del campione analizzato è stata di 44500 Km ? b) Calcolare il valore p. a) Omettendo l’unità di misura (il Km), i dati che abbiamo sono i seguenti: n = 200 , x = 44500 µ0 = 44800 , 113 σ = 3250 . Seguiamo ora la procedura indicata precedentemente passo per passo: 1. I dati del campione sono assunti come provenienti da una popolazione normale (o approssimativamente tale) con varianza nota σ 2 . 2. L’ipotesi nulla è H0 : µ=µ0 =44800 contro l’ipotesi alternativa HA : µ6 = µ0 . 3. La statistica da testare è: 4. Il rischio α di prima specie per questo test bilaterale è uguale al 5%. 5. Dalle tavole della normale standard ricaviamo: u α2 = u0.025 ¼ 1.96. Z= X ¡ µ0 X ¡ 44800 p ' . σ/ n 230 X 2 / [x1 , x2 ], con x1 = µ0 ¡ δ e x2 = µ0 + δ . Essendo σ δ = p u α2 =230¢1.96 ¼ 450 , tale regione corrisponde a n 6. La regione di rifiuto è: X2 / [44350 , 45250] . Poichè il valore calcolato di X , cioè x, vale 44500, e quindi è interno a questo intervallo, l’ipotesi nulla non può essere rigettata. 6’. La regione di rifiuto può essere espressa in modo più immediato in forma “standardizzata”, nel qual caso è data da: jZj > u α2 = u0.025 ¼ 1.96. Standardizzando quindi il valore osservato di X , si ottiene z= 44500 ¡ 44800 x ¡ µ0 p = ¼ ¡1.305 . σ/ n 230 Essendo jzj < 1.96, come in precedenza arriviamo alla conclusione che l’ipotesi nulla non può essere rifiutata. Osservazione. Se avessimo avuto x = 44300, l’ipotesi nulla, per la quale la durata media della popolazione costituita dai cambi è 44800 Km, sarebbe stata da respingere a favore = 44800 km. dell’ipotesi alternativa HA : µ6 p = 2 P (Z ¸ jzj) = 2P (Z ¸ 1.305) = 2 1¡ P (Z · 1.305) ¼ 2(1 ¡ 0.904) = 0.192 . Essendo p assai grande, risulta significativamente confermata la ”non rigettabilità” di H0 . b) Esempio 3.12.2 Riprendiamo l’esempio 3.5.2. I consumi di un motore sperimentale registrati durante 8 prove, per 100 Km di percorrenza, sono stati: 14, 12, 11, 13, 15, 12, 16, 13. Possiamo affermare che il consumo medio di benzina per quel tipo di motore non supera 12 litri per ogni 100 Km di percorrenza con un livello di significatività α=0.01 ? Come abbiamo già visto nell’esempio 3.5.2, dai dati rilevati nelle prove si ottiene σ̂ ¼ 1.67 . x = 13.25 ; La procedura da seguire è la seguente: 1. I dati del campione sono assunti come provenienti da una popolazione normale (o approssimativamente tale) con varianza incognita. 2. L’ipotesi nulla corretta sarebbe H0 : µ · 12 contro l’ipotesi alternativa HA : µ > 12. Questo caso tuttavia, avendo a che fare con un’ipotesi nulla composta sarebbe di difficile trattazione. Conviene pertanto assumere l’ipotesi nulla semplice H0 : µ = µ0 = 12 e ragionare poi sui risultati ottenuti per trarre conclusioni sull’ipotesi nulla composta. 114 X ¡ µ0 p X ¡ 12 p n= 8. S S 4. Il rischio di prima specie che siamo disposti a correre è: α = 1%. 3. La statistica da testare è: 5. La regione di rifiuto è: T7 = T7 > tα = t0.01 ¼ 2.998, da cui σ̂ 1.67 X > ξ2 = µ0 + p tα = 12 + p ¢2.998 ¼ 12 + 1.77 = 13.77 . n 8 6. Essendo x (valore calcolato di X ) uguale a 13.25, l’ipotesi nulla H0 : µ = 12 non può essere rigettata con un errore di prima specie dell’1%. 6’. Il valore della statistica Tn−1 osservato dal campione vale: x ¡ µ0 p 13.25 ¡ 12 p n= 8 ' 2.117 . σ̂ 1.67 Essendo t minore di t0.01 =2.998, l’ipotesi nulla H0 : µ=12 non può essere rigettata. t= 7. Consideriamo ora il caso in cui l’ipotesi nulla è composta, cioè H0 : µ· 12. Osserviamo innanzitutto che il valore ξ2 della relazione di cui al punto 5) può scriversi in funzione di µ0 : ξ2 (µ0 ) ¼ µ0 + 1.77 . Ciò premesso, si può ragionare in questo modo: ogni ipotesi nulla semplice H0 : µ=µ∗ con µ∗ < 12 non potrà essere rifiutata per ogni µ∗ tale che X < ξ2 (µ∗ ) ¼ µ∗ + 1.77 , ossia µ∗ > X ¡ 1.77 . Tenendo conto del fatto che il valore osservato di X è x = 13.25, ne consegue che l’ipotesi nulla semplice H0 : µ=µ∗ , contrapposta all’ipotesi alternativa HA : µ> 12, non può essere rifiutata con un errore di prima specie dell’1% per µ∗ 2 [13.25 ¡ 1.77 , 12] = [11.48 , 12]. Al contrario, se avessimo avuto H0 : µ=11.4, doveva essere rifiutata in favore di HA . Esempio 3.12.3 In una clinica si vuole sperimentare un nuovo farmaco che dovrebbe servire per ridurre il tasso di colesterolo nel sangue. A tal fine vengono cercati 50 volontari tra quei pazienti che hanno un livello di colesterolo medio-alto (cioè maggiore di 220), e a ciascuno viene somministrato il farmaco per un mese. Alla fine si riscontra una riduzione media di 14.8, con una deviazione standard campionaria di 6.4. Verificare, se è possibile, che tale riduzione è dovuta esclusivamente ad un fatto fortuito. Se la riduzione è totalmente fortuita, le variazioni riscontrate sono distribuite normalmente con media nulla. Testiamo dunque l’ipotesi nulla H0 : µ=µ0 =0 contro l’ipotesi alternativa = 0. Procediamo rapidamente senza seguire passo per passo la procedura. HA : µ6 I dati sono i seguenti: n=50 , x=14.8 , σ̂ =6.4 , µ0 =0 . Sappiamo che l’intervallo di fiducia bilaterale al livello 1¡α, espresso in forma standardizzata, è dato da ¡t α2 , +t α2 . Il problema è che nessun α è assegnato. Tuttavia, se si calcola la media standardizzata utilizzando la deviazione standard campionaria puntuale, si ottiene t= x ¡ µ0 p 14.8 p n= 50 ¼ 16.35 . σ̂ 6.4 Dalla tabella dei quantili della legge di Student (non essendo riportato n=49 basta guardare T50 ), si vede subito che t è esterno all’intervallo di fiducia per qualunque ragionevole livello 115 di significatività α. Dunque, in ogni caso, l’ipotesi nulla deve essere rigettata, il che esclude che la riduzione di colesterolo sia un fatto puramente fortuito. L’esempio che segue è storico; esso riprende esperimenti eseguiti da Student per confrontare le tecniche di trattamento dell’orzo utilizzate nella preparazione della birra, più precisamente per valutare gli effetti dell’essicazione in forno prima della semina. A parte l’interesse storico, esso risulta utile ad illustrare come il problema di avvalorare oppure no una tesi di lavoro possa essere affrontato in due modi diversi, il primo “neutrale” rispetto alla scelta che il test potrà suggerire, il secondo invece “sbilanciato” in favore dell’accettazione dell’ipotesi di lavoro. Esempio 3.12.4 Sono oggetto di indagine 11 varietà d’orzo; per ciascuna si riporta la differenza di redditività fra la variante essicata e quella non essicata, misurata in libbre per acro: di : +106 ¡20 +101 ¡33 ¡36 +72 +62 +38 ¡70 +127 +24 Supposto che la differenza di redditività abbia una distribuzione normale (di varianza incognita), si chiede di verificare l’ipotesi nulla H0 : µ = µ0 = 0, secondo la quale l’essicazione preliminare non avrebbe nessun effetto. Affronteremo il problema in due modi diversi: a) assumendo come ipotesi alternativa HA : µ6 = 0; b) assumendo come ipotesi alternativa HA : µ > 0. In ciascun caso lo faremo per α=10% , α=5% e α=1% . Essendo la varianza incognita, dovremo utilizzare la statistica di Student a 10 gradi di libertà (essendo n=11). È facile verificare che i dati del campione hanno media x ¼ 33.7 e scarto quadratico medio σ̂ ¼ 66.2. Derogando per semplicità dalla regola di svolgere l’esercizio seguendo passo per passo seguendo la procedura data per un test, si ha: a) Essendo HA : µ6 = 0, il test è bilaterale. La regione di accettazione è data da 66.2 σ̂ σ̂ 66.2 µ0 ¡ p t α2 , µ0 + p t α2 = ¡ p t α2 , p t α2 = ¡19.95 t α2 , 19.95 t α2 . n n 11 11 Ora, essendo t0.05 = 1.812 , t0.025 = 2.228 , t0.005 = 3.169 , le regioni di accettazione, nell’unità di misura dei dati del campione, sono per α = 0.10 per α = 0.05 per α = 0.01 ) ) ) [¡36.15 , 36.15] ; [¡44.54 , 44.54] ; [¡63.35 , 63.35] . Essendo x = 33.7, l’ipotesi nulla non può essere rigettata per nessuno dei tre livelli di significatività presi in considerazione. Invece di determinare le regioni di accettazione nell’unità di misura dei dati del campione e verificare quindi se la media osservata x cadeva oppure no internamente a queste, avremmo potuto, in maniera più rapida, ottenere t standardizzando x e verificare se jtj < t α2 oppure jtj¸ t α2 . In questo modo si sarebbe ottenuto t= x ¡ µ0 p 33.7 p n= 11 ¼ 1.688 , σ̂ 66.2 116 che risulta all’interno dell’intervallo di accettazione ¡ t α2 , t α2 per tutti tre i valori di α considerati. Abbiamo cosı̀ trovato conferma del fatto che per nessuno dei tre livelli di fiducia l’ipotesi nulla è rigettabile. Il test fatto non smentisce l’ipotesi di lavoro µ = 0: ciò indirizza verso la conclusione che l’essicazione pre-semina sia inutile. Ora affrontiamo il problema in maniera più filologica: l’ipotesi alternativa sia HA : µ > 0, il che esclude a priori che possa essere µ< 0 (Student era sicuro che l’essicazione era b) vantaggiosa). Il test è unilaterale. La regione di accettazione è data da Essendo σ̂ 66.2 ¡1 , µ0 + p tα = ¡1 , p tα = ¡1 , 19.95 tα . n 11 t0.10 = 1.372 , t0.05 = 1.812 , t0.01 = 2.764 , le regioni di accettazione sono per α = 0.10 per α = 0.05 per α = 0.01 ) ) ) (¡1 , 27.37] ; (¡1 , 36.15] ; (¡1 , 55.14] . La media calcolata, che vale 33.7, cade internamente alla zona di rifiuto relativa ad α = 0.10 ed esternamente a quelle relative agli altri due livelli di significatività. Ora pertanto, diversamente dal caso a), per α = 10% l’ipotesi nulla è da rigettare in favore dell’ipotesi alternativa (che rappresenta quanto desiderato da Student). Ovviamente si giunge alle stesse conclusioni anche ragionando con gli intervalli di fiducia espressi attraverso la media standardizzata e quindi, essendo la varianza incognita, attraverso i quantili della distribuzione di Student. Nel caso di test unilaterale, con ipotesi alternativa HA : µ> µ0 , la regione di accettazione è data da (¡1, tα ]. Essendo t=1.688, esso risulta maggiore di t0.10 e minore di t0.05 e t0.01 , col che ritorniamo (ovviamente) alle conclusioni precedenti. Dunque, passando da un test bilaterale ad uno unilaterale, e con un alto livello di significatività (in realtà basso), il test può portare a conclusioni più favorevoli ai propri desideri. Questo esempio mostra che impostando il test in un modo o in un altro si possono anche assumere posizioni non del tutto imparziali rispetto alle ipotesi da rifiutare o avvalorare. A titolo d’esercizio si può andare a calcolare il valore p del test. Chiaramente, essendo p il minimo α per cui l’ipotesi nulla deve essere rigettata, e sapendo già che al livello di significatività α = 0.1 H0 deve essere rigettata, mentre non può esserlo per α = 0.05, dovremo trovare un valore di p compreso fra 0.05 e 0.1. Nel caso in questione per definizione si ha: p = 1 ¡ P (T10 · t). Utilizzando un opportuno software contenente le funzioni distribuzione più significative, indicata con t10 (x) la funzione distribuzione di T10 , si ricava t10 (1.688) ¼ 0.939 , e quindi p ¼ 0.061 . Se avessimo calcolato il valore p anche nel caso del test bilaterale, avremmo avuto p = 2 1¡P (T10 · t = 2 1 ¡ t10 (1.688) ¼ 0.122 , con conferma della non rigettabilità di H0 per tutti tre i livelli di significatività considerati. 117 3.13 TEST RIGUARDANTI LA DIFFERENZA DELLE MEDIE DI DUE POPOLAZIONI NORMALI Una situazione che si presenta frequentemente nella statistica applicata all’ingegneria è quella per cui occorre decidere se due diversi approcci allo stesso problema hanno portato allo stesso risultato oppure no. Una tale problematica viene spesso affrontata mediante un test dell’ipotesi che due popolazioni normali abbiano la stessa media. Ciò considerando, l’argomento sarà trattato in analogia con il x 3.7 e sfruttando le nozioni ivi introdotte. Siano dunque (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ) due campioni casuali indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni normali con media µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Come abbiamo visto nel paragrafo appena citato, il miglior estimatore per la differenza delle medie µ1¡µ2 è il seguente: n m 1 1 X ¡Y = Xi ¡ Yi . n i=1 m i=1 Caso a) Le varianze σ12 e σ22 sono note Si vuole eseguire un test d’ipotesi con H0 : µ1 =µ2 , HA : µ1 6 = µ2 . Riscritta l’ipotesi nulla come H0 : µ1 ¡µ2 , essa verrà rigettata quando la differenza X ¡Y è lontana da zero. In altre parole, la forma del test è la seguente: se jX¡Y j > c se jX¡Y j · c si rifiuta H0 non si rifiuta H0 per un opportuno valore di c. Dal x 3.7 sappiamo che σ2 σ2 X ¡Y » N µ1 ¡µ2 , 1 + 2 n m =) X ¡Y ¡ (µ1 ¡µ2 ) » N (0, 1) . σ12 σ22 + n m Dunque, dato H0 vero, per cui µ1 ¡µ2 = 0 , la statistica del test $ X ¡Y σ12 /n + σ22 /m ha distribuzione normale standard, e quindi, assegnato un livello di significatività α, si ha X ¡Y P ¡u α2 · $ 2 · u α2 = 1¡α , σ1 /n + σ22 /m con u α2 quantile della normale standardizzata soluzione dell’equazione Φ(u) = 1¡ α2 . La regione di accettazione per la statistica del test è dunque [¡u α2 , u α2 ], mentre per lo stimatore X¡Y è la seguente ¡u α2 σ12 /n + σ22 /m , u α2 σ12 /n + σ22 /m . 118 Volendo invece fare un test unilaterale, con ipotesi nulla H0 : µ1 = µ2 (oppure H0 : µ1 · µ2 ) ed ipotesi alternativa HA : µ1 > µ2 , l’intervallo di accettazione per X ¡ Y è $ ¡1, uα σ12 /n + σ22 /m , con uα tale che Φ(uα ) = 1¡α. Naturalmente per la statistica del test l’intervallo di accettazione è (¡1, uα ]. Caso b) Le varianze σ12 e σ22 non sono note, ma sono supposte uguali Il test che si vuole eseguire è lo stesso del punto a). Ora, però, abbiamo σ12 =σ22 =σ 2 , con σ incognita. La statistica usata in precedenza diventa X¡Y . σ 2 1/n + 1/m Come abbiamo visto nel x 3.7, la varianza σ 2 può essere stimata dai dati utilizzando la varianza ponderata Sp2 cosı̀ definita: Sp2 = ove (n ¡ 1)S12 + (m ¡ 1)S22 , n+m¡2 n S12 = m 1 (Xi ¡ X)2 , n ¡ 1 i=1 S22 = 1 (Yi ¡ Y )2 . m ¡ 1 i=1 La statistica del test risulta quindi la seguente: Sp $ X ¡Y 1/n + 1/m » Tn+m−2 , che, come già visto, segue una distribuzione di Student con n + m ¡ 2 gradi di libertà. Assunto ancora α come livello di significatività del test ed indicato con t α2 il quantile soluzione dell’equazione Tn+m−2 (t) = 1¡ α2 , l’intervallo di accettazione bilaterale per lo stimatore X¡Y risulta $ $ ¡t α2 Sp 1/n + 1/m , t α2 Sp 1/n + 1/m , mentre quello unilaterale sinistro è $ ¡1, tα Sp 1/n + 1/m . Ricordando poi la notazione già introdotta nel punto b) del x3.7, 2 = 1 + 1 S∆ S2 , n m p 2 indicato con σ̂∆ il valore di S∆ ricavato dal campione, i suddetti intervalli sono approssimati da ¡t α2 σ̂∆ , t α2 σ̂∆ e ¡1, tα σ̂∆ . Naturalmente, se ci si limita agli intervalli di accettazione per la statistica del test, quello per il test bilaterale è [¡t α2 , t α2 ], mentre quello per il test unilaterale è (¡1, tα ]. 119 Caso c) Le varianze σ12 e σ22 sono ignote e diverse Essendo questa situazione facilmente affrontabile sulla base di quanto appena visto e delle nozioni già introdotte nel x 3.7 (punto c), la tratteremo rapidamente. La statistica da utilizzare è σ̂ 2 σ̂22 2 1 + (X ¡ Y ) n m = Tℓ , ℓ = 2 σ̂ 2 2 , ¢ 2 2 2 σ̂ S1 S2 1 2 + n m n m + n¡1 m¡1 essendo σ̂12 e σ̂22 i valori di S12 e S22 calcolati tramite il campione. Indicati quindi con t α2 e tα i quantili soluzioni, nell’ordine, delle equazioni α Tℓ (t) = 1 ¡ e Tℓ (t) = 1 ¡ α , 2 le regioni di accettazione per i test bilaterale e unilaterale sinistro sono approssimate da ' ( ( σ̂12 σ̂12 σ̂12 σ̂22 σ̂22 σ̂22 ¡t α2 + , t α2 + , ¡1, tα + . n m n m n m Caso d) Campioni appaiati Esaminiamo ora un caso di differenza di due medie particolare, ma assai interessante e frequente. Siano (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) due campioni casuali con la stessa numerosità n, non indipendenti. Un test su due campioni siffatti riguarda quelle analisi sperimentali in cui occorre verificare una variazione di valore medio prima e dopo un certo trattamento (oppure in presenza e assenza di una certa circostanza, con e senza un certo dispositivo, etc..). Essendo Xi e Yi variabili casuali associate alla stessa unità statistica, i due campioni non sono indipendenti. Un possibile approccio per verificare che le medie dei due campioni sono uguali consiste nel considerare le differenze Di = Xi ¡Yi , per i = 1, 2, ..., n, che sono tra loro indipendenti. L’analisi del campione casuale (D1 , D2 , ..., Dn ) riconduce il test che interessa ad un test sulla media di un campione casuale proveniente da una popolazione 2 . Le ipotesi nulla ed alternativa per un normale di media µD e varianza incognita σD test bilaterale sono ovviamente le seguenti: H0 : µD = 0 , HA : µD 6 = 0. Per quanto già visto nel x 3.12 la statistica del test, tenuto anche conto dell’ipotesi nulla, è p D n » Tn−1 . SD L’esercizio 3.12.4 rappresenta un esempio di test per ”campioni appaiati”. 120 3.14 CURVE CARATTERISTICHE OPERATIVE DEI TEST Vediamo ora il procedimento per il calcolo del rischio β di errore di seconda specie, una volta che siano stati specificati l’ipotesi nulla H0 : µ=µ0 ed il rischio α di errore di prima specie, in funzione di ipotesi alternative diverse. Prendiamo come riferimento l’esempio 3.11.1, che riguardava la durata dei cambi. Il problema è stato affrontato utilizzando un test bilaterale con l’ipotesi nulla H0 : µ= = 44800, con un rischio di prima specie µ0 =44800 contro l’ipotesi alternativa HA : µ6 (o livello di significatività) del 5%. Ipotizziamo ora che che l’ipotesi nulla H0 : µ=44800 non sia vera, ma lo sia invece un’ipotesi alternativa HA : µ = µA = 44900. Il rischio di seconda specie rappresenta la probabilità di accettare, a torto, l’ipotesi nulla, cioè la probabilità di osservare medie campionarie entro la regione di accettazione del test pur essendo µ=44900. Come abbiamo visto nell’esempio in questione, la regione di accettazione (o, meglio, di non rifiuto) è l’intervallo [x1 , x2 ] = [µ0 ¡ δ , µ0 + δ] = [44800 ¡ 450 , 44800 + 450] = [44350 , 45250] . Tale intervallo è dunque centrato in µ0 ed ha ampiezza 2δ data da σ α δ = p u α2 con u α2 soluzione dell’equazione Φ(u) = 1 ¡ . n 2 I valori estremi x1 =44350 e x2 =45250 rapresentano rispettivamente il valore minimo e il valore massimo delle medie (dei campioni con n=200) oltre i quali l’ipotesi nulla va rifiutata. Il rischio di seconda specie β è quindi dato dalla probabilità di osservare(ovviamente per campioni della stessa dimensione) medie comprese fra x1 e x2 quando sia vera l’ipotesi altenativa HA : µ=µA =44900, o equivalentemente β = P x1 · X · x2 HA : µA =44900 . Standardizzando questa relazione si ottiene: x ¡ µ X ¡ µA x ¡µ 1 p A · p · 2 p A = P z1 · Z · z2 = Φ(z2 ) ¡ Φ(z1 ) , β=P σ/ n σ/ n σ/ n essendo x1 ¡ µ A x2 ¡ µ A p , p . z1 = z2 = σ/ n σ/ n Per µA =44900, ricordando che n=200 e σ =3250 (da cui ¡Φ 44350 ¡ 44900 ¼ 230), si ha 350 550 ¡Φ ¡ ¼ 230 230 230 230 ¼ Φ(1.52) ¡ Φ(¡2.39) = Φ(1.52) + Φ(2.39) ¡ 1 ¼ 0.936 + 0.992 ¡ 1 = 0.928 β¼Φ 45250 ¡ 44900 √σ n =Φ È evidente che il rischio di seconda specie β dipende da µA ; in altre parole β = β(µA ). Per avere un’idea di questa funzione si può calcolare β per diversi valori di µA . Ne risulta la tabella riportata alla pagina che segue. Il grafico riportato accanto alla tabella è ottenuto ponendo in ascissa µA ed in ordinata β. Esso costituisce la curva caratteristica operativa. In alternativa si poteva porre in ordinata 1¡β: in questo caso avremmo ottenuto la curva di potenza. 121 Va fatto notare che che la scelta in alternativa tra un test unilaterale o bilaterale dipende dallo specifico quesito posto e dalle caratteristiche del problema esaminato. In ogni caso si può affermare che la potenza di un test bilaterale, cioè la probabilità di rifiutare H0 quando H0 è falsa, a parità di dimensione del campione e di livello di fiducia, è minore rispetto a quella del corrispondente test unilaterale. Ciò risulta evidente dalla figura che segue, dove sono messe a confronto le curve caratteristiche operative per il test bilaterale HA : µ6 = 44800 e per il test unilaterale HA : µ< 44800. È importante notare che per i principali test statistici le curve caratteristiche sono disponibili già tabulate in funzione della differenza o del rapporto tra il valore ipotizzato nell’ipotesi nulla e quello nell’ipotesi alternativa, naturalmente in forma standardizzata. I grafici che seguono l’Esempio 11.9 mostrano le curve caratteristiche operative X ¡ µ0 p n, con rischio di prima specie α = 0.05, per test relative alla statistica Z = σ unilaterali e test bilaterali. In ascissa ci sono i valori assunti dal rapporto jµ0 ¡ µA j/σ, dove µ0 è il valore della media ipotizzato nell’ipotesi nulla H0 e µA è un preciso valore tra quelli considerati nelle ipotesi alternative, con σ scarto quadratico medio supposto noto. 122 Le curve caratteristiche operative si avvicinano all’asse delle ordinate e diventano più ripide al crescere della dimensione n del campione, in quanto cosı̀ il test diventa più potente ed in sostanza aumenta la sua capacità di discriminazione tra ipotesi, anche in base a scarti di piccola entità. Le curve caratteristiche operative consentono quindi la determinazione razionale della dimensione del campione da utilizzare per un determinato test per rischi di errore di prima specie α e di seconda specie β specificati o, in alternativa, come modificare tali livelli per renderli compatibili con il numero di prove consentito da limiti di tempo e di spesa. Naturalmente i rischi devono essere valutati caso per caso in base alle implicazioni: le conseguenze di una rottura sono ben diverse a seconda che si tratti dello sterzo o del portacenere di un’auto. Nell’esempio che segue si vedrà, fra l’altro, come si procede per la determinazione della dimensione del campione. Esempio 3.14.1 Un tecnico vuole determinare se un gruppo di 26 fili di rame proveniente da una ditta rispetta la specifica nominale di avere un diametro prefissato, pari a 1.54 mm. a) cosa può affermare con un livello di fiducia del 95% se il diametro medio dei fili esaminati è di 1.6 mm, supposto che le misure dei diametri siano distribuite normalmente con varianza σ 2 =0.0529 mm2 ? b) qual è l’errore di seconda specie che il tecnico commette se la media del processo produttivo ha subito uno slittamento ed ora è pari a 1.62 mm ? c) quale deve essere la dimensione del campione se si vuole testare l’ipotesi nulla H0 : µ=1.54 mm contro l’ipotesi alternativa HA : µ> 1.54 mm con un errore di prima specie del 5% se si volesse un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ=1.65 mm ? Tenendo presente i requisiti tecnici specifici, faremo uso anche per la prima parte di un test unilaterale superiore, rendendo cosı̀ confrontabili i risultati dei tre quesiti posti. Procediamo secondo la sequenza di passi visti in precedenza (omettendo per semplicità, come abbiamo già fatto negli esempi prededenti, le unità di misura). a) I dati del campione, che ha dimensione n=26, provengono da una popolazione normale con varianza σ 2 =0.0529 , da cui σ =0.23 . Inoltre, x=1.6. a1 ) L’ipotesi nulla è H0 : µ = µ0 = 1.54 contro l’ipotesi alternativa HA : µ > 1.54 . La statistica da testare è Z= X ¡ µ0 X ¡ 1.54 X ¡ 1.54 p = p = ; 0.0451 σ/ n 0.23/ 26 a2 ) il rischio di prima specie è α=0.05 ; a3 ) la regione di rifiuto è Z > u0.05 ¼ 1.645 o, equivalentemente, σ X > ξ2 = µ0 + p uα ¼ 1.54 + 0.0451¢1.645 ¼ 1.614 ; n a4 ) l’intervallo di fiducia è dunque [¡1, 1.614]. Poichè la media calcolata x vale 1.6 e quindi vi cade internamente, l’ipotesi nulla H0 : µ0 = 1.54 non può essere rifiutata. E questa è la risposta alla prima domanda. b) Ora si sa che la media vale 1.62. Ci si chiede dunque qual è il rischio β di seconda specie quando l’ipotesi alternativa è HA : µA =1.62. Ci si chiede cioè quanto vale β essendo β = P X · ξ2 j HA : µ = 1.62 . 123 Standardizzando si ha X ¡ 1.62 ξ2 ¡ 1.62 · ¼ P Z · ¡0.133] = 0.0451 0.0451 = 1 ¡ P [Z · 0.133] ¼ 1 ¡ 0.553 = 0.447 ¼ 45% . β=P Vi è dunque una probabilità di circa il 45% di non rifiutare l’ipotesi che i fili di rame provengano da un processo produttivo con media 1.54 quando in realtà tale media è 1.62. c) Si deve ora determinare la dimensione n che dovrebbe avere il campione perchè si abbia un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ = 1.65, fermo restando l’errore di prima specie del 5% per testare l’ipotesi nulla H0 : µ = 1.54 contro l’ipotesi alternativa HA : µ> 1.54. Il rischio β di seconda specie è con quest’ultima ipotesi alternativa è dato da β = P X · ξ2 (n) j HA : µ = 1.65 , dove ξ2 (n), che ora dipende da n, vale 0.3784 σuα . ξ2 (n) = µ0 + p ¼ 1.54 + p n n Essendo β noto ed uguale a 0.1, mediante standardizzazione la relazione scritta sopra porta alla seguente equazione in n: ' X ¡ 1.65 p ξ2 (n) ¡ 1.65 p P n· n =P Z· 0.23 0.23 0.3784 √ n ¡ 0.11 p 0.23 ( n = 0.1 , da cui, essendo φ0.1 = ¡φ0.9 ¼ ¡1.281, segue 0.3784 √ n ¡ 0.11 p 0.23 n = ¡1.281 p p p (0.3784 ¡ 0.11 n) n = ¡0.2946 n , da cui e quindi p 0.11 n = 0.673 ossia n= 0.673 2 0.11 ¼ (6.12)2 ¼ 37.4 . Dunque, la dimensione del campione che soddisfa alle condizioni poste nella domanda è 38. Se avessimo voluto determinare n mediante le curve caratteristiche, avremmo dovuto procedere nel modo seguente. Calcolata l’ascissa d= jµ0 ¡ µA j j1.54 ¡ 1.65j = ¼ 0.48 , σ 0.23 essendo l’ordinata β uguale a 0.1, si individua la curva caratteristica, fra quelle per test unilaterali relative ad α=0.05, che “contiene” il punto (d, β) ¼ (0.48, 0.1). Dai grafici che seguono, per quanto un po’ grossolani, il valore che che si desume è del tutto compatibile con n=38. 124 Curve caratteristiche operative per test unilaterali per la media della popolazione (varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05. Curve caratteristiche operative per test bilaterali per la media della popolazione (varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05. 125 QUANTILI DELLA LEGGE NORMALE STANDARD: x P [N (0, 1)] · x .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 .1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 .2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 .3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 .4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 .5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 .6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 .7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852 .8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 .9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 125 QUANTILI DELLA LEGGE t DI STUDENT: P [Tn (x)] · α n α=0.90 α=0.95 α=0.975 α=0.98 α=0.99 α=0.995 1 3.078 6.314 12.71 15.894 31.821 63.66 2 1.886 2.920 4.303 4.849 6.965 9.925 3 1.638 2.353 3.182 3.482 4.541 5.841 4 1.533 2.132 2.776 2.999 3.747 4.604 5 1.476 2.015 2.571 2.757 3.365 4.032 6 1.440 1.943 2.447 2.612 3.143 3.707 7 1.415 1.895 2.365 2.517 2.998 3.499 8 1.397 1.860 2.306 2.449 2.896 3.355 9 1.383 1.833 2.262 2.398 2.821 3.250 10 1.372 1.812 2.228 2.359 2.764 3.169 11 1.363 1.796 2.201 2.328 2.718 3.106 12 1.356 1.782 2.179 2.303 2.681 3.055 13 1.350 1.771 2.160 2.282 2.650 3.012 14 1.345 1.761 2.145 2.264 2.624 2.977 15 1.341 1.753 2.131 2.249 2.602 2.947 16 1.337 1.746 2.120 2.235 2.583 2.921 17 1.333 1.740 2.110 2.224 2.567 2.898 18 1.330 1.734 2.101 2.214 2.552 2.878 19 1.328 1.729 2.093 2.205 2.539 2.861 20 1.325 1.725 2.086 2.197 2.528 2.845 21 1.323 1.721 2.080 2.189 2.518 2.831 22 1.321 1.717 2.074 2.183 2.508 2.919 23 1.319 1.714 2.069 2.177 2.500 2.807 24 1.318 1.711 2.064 2.172 2.492 2.797 25 1.316 1.708 2.060 2.167 2.485 2.787 26 1.315 1.706 2.056 2.162 2.479 2.779 28 1.313 1.701 2.048 2.154 2.467 2.763 30 1.310 1.697 2.042 2.147 2.457 2.750 32 1.309 1.694 2.037 2.141 2.449 2.738 35 1.306 1.690 2.030 2.133 2.438 2.724 40 1.303 1.684 2.021 2.123 2.423 2.704 50 1.299 1.676 2.009 2.109 2.403 2.678 60 1.296 1.671 2.000 2.099 2.390 2.660 1 1.282 1.645 1.960 2.054 2.326 2.576 126 QUANTILI DELLA LEGGE CHI-QUADRO: n 0.005 0.01 0.025 0.05 1 .00004 .00016 .00098 2 0.0100 0.0201 0.0506 3 0.0717 0.115 4 0.207 0.297 5 0.412 0.554 6 0.676 0.872 7 0.989 8 1.344 P [χ2n (x)] · α 0.10 0.90 0.95 0.975 0.99 0.995 .0039 .015 2.706 3.841 5.024 6.635 7.879 0.103 0.211 4.605 5.991 7.378 9.210 10.597 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955 9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589 10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188 11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757 12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300 13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819 14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319 15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801 16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267 17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718 18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156 19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582 20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997 21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401 22 8.643 9.542 19.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796 23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181 24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558 25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928 26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290 27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645 28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994 29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335 30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672 32 15.134 16.362 18.291 20.072 22.271 42.585 46.194 49.480 53.486 56.328 34 16.501 17.789 19.806 21.664 23.952 44.903 48.602 51.966 56.061 58.964 36 17.887 19.233 21.336 23.269 25.643 47.212 50.998 54.437 58.619 61.581 38 19.289 20.691 22.878 24.884 27.343 49.513 53.384 56.895 61.162 64.181 40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766 45 24.311 25.901 28.366 30.612 33.350 57.505 61.656 65.410 69.957 73.166 50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490 60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952 70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215 80 51.172 53.140 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321 90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299 100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170 127 BIBLIOGRAFIA Anichini Giuseppe, Calcolo 4, Parte Prima, Elementi di calcolo delle probabilità e di inferenza statististica, Pitagora (Bologna), 1995. Ross Sheldon M., Probabilità e Statistica per L’Ingegneria e le scienze, Apogeo (Milano), 2003. Vicario Grazia, Raffaello Levi, Calcolo delle probabilità e statistica per ingegneri, Esculapio (Bologna), 2000. William Navidi, Probabilità e statistica per l’ingegneria e le scienze, McGraw-Hill, 2006. — Ultime modifiche apportate il 16/4/2009 — 128