Appunti su probabilità e statistica

Transcript

Probabilità e statistica
(appunti di Paolo Gronchi)
1
An unsophisticated forecaster uses statistics
as a drunken man uses lamp-posts:
For support rather than for illumination.
Andrew Lang
Indice
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Probabilità
Spazi di probabilità discreti
Probabilità condizionata
Variabili aleatorie e funzioni distribuzioni
Media e varianza di una variabile aleatoria
Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale
Statistica
Test di ipotesi
Indipendenza, correlazione e regressione
Tavole numeriche di alcune distribuzioni
2
3
5
9
12
17
20
23
26
34
AT X un software libero, coperto dalla LAT X Project Public License (LPPL).
Appunti composti utilizzando L
E
E
2
1. Probabilità
Spesso nella pratica si ha a che fare con circostanze o esperimenti dei quali è impossibile
predire con certezza l’esito. Il lancio di una moneta è il tipico esempio. Sono possibili due
diversi esiti: o esce testa o esce croce. Ma ce ne sono di più complessi e allo stesso tempo
usuali. Esperimenti con esiti casuali sono:
- il risultato di una partita di calcio della prossima giornata di campionato. Esiti possibili:
1, X, 2;
- il sesso di un nascituro al momento del suo concepimento. Esiti possibili: M, F;
- i cinque numeri estratti al lotto nella ruota di Napoli. Esiti possibili: tutte le cinquine
ordinate di numeri compresi tra 1 e 90;
- l’altezza di un individuo. Esiti possibili: numeri (interi?) compresi tra un minimo ed un
massimo.
Il calcolo delle probabilità si propone di quantificare l’incertezza propria di queste situazioni
aleatorie. In altre parole, stabilisce opportune regole per esprimere il grado di fiducia che
si attribuisce al verificarsi di un evento (a partire da ipotesi o conoscenze su eventi meno
complicati).
Per parlare di probabilità è necessario chiarire l’ambiente nel quale operiamo.
Lo spazio campione può essere definito come l’insieme di tutti gli esiti possibili di un
esperimento dipendente dal caso. Usualmente è indicato con Ω ed i suoi elementi sono detti
punti campione o esiti possibili.
Qualche autore chiama spazio degli eventi lo spazio campione ed eventi elementari i punti
campione.
Un evento può essere visto come un sottoinsieme dello spazio campione, cioè come l’insieme
dei possibili esiti dell’esperimento che indicano il verificarsi dell’evento. Per questo motivo le
operazioni booleane definite tra gli insiemi si traducono in operazioni tra eventi.
L’unione di due eventi A ∪ B è l’evento accade A o accade B o entrambi.
L’intersezione di due eventi A ∩ B è l’evento accadono entrambi A e B.
Il complemento di un evento Ac è l’evento non accade A.
Esempi di spazi campione.
Lancio di un dado. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}. I punti campione o eventi
elementari sono i sei elementi di Ω definibili a parole con il risultato del lancio è il numero
n. L’evento D = il risultato del lancio è un numero dispari non è un evento elementare e
possiamo scrivere D = {1, 3, 5}.
Misurazione con cronometro del tempo di caduta di un grave. Lo spazio campione Ω può
essere pensato discreto in quanto composto di tutti i numeri interi positivi compresi tra
due valori di riferimento (esprimendo il tempo in un’opportuna unità di misura). I punti
campione sono i singoli valori temporali. Un evento potrebbe essere il tempo di caduta è
superiore ai 15 secondi.
Lancio ripetuto di una moneta (Processo di Bernoulli). Lo spazio campione Ω è l’insieme
delle successioni di due simboli o numeri (uno per testa e l’altro per croce). I matematici
preferiscono usare i numeri 0 e 1 a simboleggiare il numero di testa uscito all’ennesimo
lancio. I punti campione o eventi elementari sono le successioni di 0 e 1. L’evento è uscita
testa al quinto lancio non è un evento elementare e non è proponibile descriverlo come
sottoinsieme di Ω. Gli eventi è uscita testa all’n-esimo lancio sono detti eventi generatori
e sono di fondamentale importanza per descrivere eventi più complessi e stabilire quindi la
loro probabilità.
3
Per restare nell’ambito più generale possibile è bene introdurre il concetto di σ-algebra di
insiemi. Dato un insieme Ω, una famiglia = non vuota di sottoinsiemi di Ω si dice una σ-algebra
se verifica gli assiomi
S
(A1) se An ∈ = per n = 1, 2, . . . , allora
An ∈ =
n≥1
(A2) se A ∈ = allora Ac ∈ =.
È semplice verificare che ogni σ-algebra contiene l’insieme Ω e l’insieme vuoto ∅. Inoltre
è chiusa rispetto alla intersezione numerabile. Nel caso in cui l’insieme Ω contiene solo un
numero finito di elementi, allora la (A1) può essere riformulata chiedendo che l’unione di due
sottoinsiemi in = sia ancora in =.
A questo punto possiamo introdurre il concetto di probabilità. Seguiremo il cosiddetto metodo assiomatico. Fissato uno spazio campione Ω ed una σ-algebra = di parti di Ω, una probabilità
è una funzione P che assegna un numero reale P (A) ad ogni evento A appartenente a = con le
seguenti proprietà:
(P1) P (A) ≥ 0
(P2) P (Ω) = 1
(P3) se A1 , A2 , . . . è una successione di eventi di = a due a due disgiunti, allora
P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . . .
Osserviamo che la probabilità risulta cosı̀ definita soltanto sui sottoinsiemi di Ω che appartengono a =.
La terna (Ω, =, P ) si chiama spazio di probabilità.
La proprietà (P3) si chiama additività completa; se il numero di eventi che vi compaiono è
finito, allora si parla di additività finita e la sua necessità è abbastanza evidente.
Le principali proprietà di una probabilità sono le seguenti:
(P4) per ogni evento A è 0 ≤ P (A) ≤ 1
(P5) per ogni evento A risulta P (Ac ) = 1 − P (A)
(P6) per l’evento impossibile ∅ risulta P (∅) = 0
(P7) se A e B sono eventi incompatibili allora P (A ∪ B) = P (A) + P (B)
(P8) se A è un sottoevento di B allora P (A) ≤ P (B)
(P9) se A e B sono eventi allora P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(P10) gli eventi A e B sono indipendenti se e solo se P (A ∩ B) = P (A)P (B)
La (P10) è una definizione più che una proprietà. Il concetto di indipendenza tra due eventi
è intuitivo e traduce il fatto che due eventi non abbiano effetto l’uno sull’altro. L’esempio
classico è il lancio ripetuto di una moneta: i risultati in lanci diversi devono essere indipendenti!
Siccome l’indipendenza tra eventi è molto importante nel calcolo della probabilità, è giusto
darne una definizione rigorosa. Per non confonderla con il concetto intuitivo di indipendenza a
volte si preferisce parlare esplicitamente di indipendenza stocastica. La (P10) sarà quindi
uno strumento utile per verificare la presunta indipendenza di eventi complessi e per svelare
l’indipendenza stocastica di eventi apparentemente correlati.
2. Spazi di probabilità discreti
La teoria della probabilità nasce nel 1654 da una corrispondenza tra Pascal e Fermat su
alcuni giochi d’azzardo in uso a quel tempo, giochi che prevedevano soltanto un numero finito
di esiti possibili. Cominciare il nostro studio dagli spazi di probabilità discreti (cioè con un
numero finito di punti campione) è dovuto comunque ad esigenze didattiche più che a influenze
storicistiche.
Dato uno spazio campione finito Ω = {ω1 , ω2 , . . . , ωn }, possiamo scegliere come σ-algebra
l’insieme delle parti di Ω, cioè la famiglia costituita da tutti i sottoinsiemi di Ω.
Ogni evento A avrà quindi solo un numero finito di casi favorevoli, cioè di punti campione che implicano il verificarsi di A. Se A = {ωi1 , ωi2 , . . . , ωir }, allora dall’additività di P e
4
dall’incompatibilità di esiti diversi ricaviamo
P (A) = P (ωi1 ) + P (ωi2 ) + · · · + P (ωir ) .
Vediamo pertanto che ogni misura di probabilità P su uno spazio campione finito è determinata
dai suoi valori sui punti. Con un po’ di abuso delle notazioni, confondendo cioè eventi e
sottoinsiemi dello spazio campione, possiamo scrivere la formula
(1)
P (A) =
X
P (ω)
ω∈A
che permette di esprimere la probabilità di ogni evento in termini delle probabilità degli eventi
elementari.
Un esempio semplice e nello stesso tempo fondamentale è quello della equiprobabilità,
quando cioè si suppone che ognuno degli esiti possibili abbia la stessa probabilità di accadere.
Si deduce che per ogni punto campione ω deve essere
1
P (ω) =
,
|Ω|
dove |Ω| indica la cardinalità di Ω. Quindi ritroviamo la definizione classica di probabilità
(2)
P (A) =
|A|
casi favorevoli
=
.
|Ω|
casi possibili
La semplicità della formula (2) non deve indurre a credere che sia facile calcolare la probabilità
di ogni evento. In ultima analisi, questa formula riconduce il calcolo della probabilità su spazi
discreti a problemi di conteggio e quindi alla combinatoria.
Una situazione tipica per un processo finito è quella del campionamento, cioè l’estrazione
di un certo numero di unità o campioni da una popolazione fissata. L’esempio classico è
l’estrazione di palline da un’urna (gioco del lotto, lancio di n dadi, ecc.). I possibili esiti della
prima estrazione sono tanti quanti i campioni presenti nella popolazione. Se analizziamo invece
la seconda estrazione ci rendiamo conto che vi sono differenze, ad esempio se pensiamo al
gioco del lotto o al lancio di n dadi. Nel primo caso siamo in presenza di estrazione senza
reimbussolamento (detto anche campionamento senza rimessa) nel secondo di estrazione
con reimbussolamento o campionamento con rimessa.
Facciamo un esempio. Sia Ω = {x, y, z} e consideriamo, per brevità, il caso di due estrazioni
successive. Indichiamo con Ωr lo spazio campione con rimessa e con Ωs lo spazio campione
senza rimessa. Abbiamo allora
Ωr = {xx, xy, xz, yx, yy, yz, zx, zy, zz} ,
Ωs = {xy, xz, yx, yz, zx, zy} .
A questo punto cerchiamo di calcolare la cardinalità degli spazi Ωr e Ωs nel caso generale
di k estrazioni da una popolazione di n unità. Lo strumento più consono a questo scopo e la
regola fondamentale del calcolo combinatorio:
se un oggetto si forma facendo una successione di k scelte tali che ci siano n1 possibilità per la
prima scelta, n2 possibilità per la seconda scelta, . . . , nk possibilità per la k-esima scelta, allora
il numero totale di oggetti che si possono cosı̀ formare è il prodotto
n1 n2 . . . nk .
Ne segue facilmente che, nel caso di campionamenti di dimensione k (cioè con k estrazioni)
da una popolazione di n unità, si ha
n!
,
|Ωr | = nk , |Ωs | = n(n − 1)(n − 2) . . . (n − k + 1) =
(n − k)!
dove n! = n · (n − 1) · (n − 2)· . . . · 3 · 2 · 1 è l’usuale notazione per il fattoriale di n.
5
Esercizi.
Menu al ristorante. Un ristorante offre una scelta tra tre antipasti, cinque primi, quattro
secondi, tre contorni e tre dolci. Quanti pranzi completi (senza bis) distinti possono essere
ordinati?
[540]
Insieme delle parti. Quanti sono i sottoinsiemi di un insieme con n elementi?
Cinquine al lotto. Quante sono le possibili cinquine su una ruota del lotto?
[2n ]
[43 949 268]
Il problema dei compleanni. In un’aula ci sono n studenti. Qual è la probabilità che almeno
365!
due abbiano lo stesso compleanno?
[1 − (365−n)!365
n]
Scomposizione di numeri. In quanti modi possiamo scrivere il numero n come somma di k
(n−1)!
numeri interi positivi ordinati?
[ (k−1)!(n−k)!
]
Estrazioni indipendenti. Considerati i due eventi A = { i-esimo esito alla j-esima estrazione}
e B = { h-esimo esito alla k-esima estrazione}, verificare la loro indipendenza o dipendenza
stocastica nel caso di campionamenti con o senza rimessa.
3. Probabilità condizionata
Spesso nella vita reale vogliamo valutare la probabilità di un evento avvantaggiandosi della
conoscenza parziale dell’esito dell’esperimento.
Un esempio è valutare la probabilità di fare 10 lanciando tre dadi. Semplici calcoli ci mostrano
che tale probabilità (nel caso di un dado non truccato) è 1/8. Supponiamo di aver lanciato i
dadi e di vedere che un dado si ferma indicando il numero 3. Nel breve attimo che precede
l’arresto degli altri dadi possiamo sfruttare questa informazione e rivalutare la probabilità di
fare 10. Questa è pari alla probabilità di fare 7 con due dadi e quindi è pari a 1/6. Quindi
l’informazione avuta ha modificato la probabilità dell’evento in questione.
Non sempre è cosı̀ semplice decidere quale cambiamento sia prodotto dall’informazione acquisita. A tal proposito citiamo il cosiddetto paradosso del carceriere.
Tre condannati a morte A, B e C vengono informati che due di loro sono stati graziati ed
uno solo sarà giustiziato. Comunque conosceranno il loro destino soltanto il giorno successivo,
fissato per l’esecuzione. Il condannato A tornando nella sua cella chiede al carceriere di rivelargli
il nome del compagno di prigionia che sarà graziato. Il carceriere si rifiuta di dare questa
informazione perché altrimenti la sua probabilità di essere giustiziato aumenterebbe, passando
da 1/3 a 1/2. Il condannato A ribatte che, siccome almeno uno dei due suoi compagni sarà
sicuramente graziato, venire a conoscenza di un nome non può alterare la sua probabilità di
essere giustiziato. Chi dei due ha ragione?
Lo strumento ottimale per rispondere a questa domanda è la probabilità condizionata.
Dato uno spazio di probabilità (Ω, =, P ) ed un evento H con probabilità non nulla, cerchiamo
di valutare la probabilità di un evento A nell’ipotesi (o con la condizione) che H sia accaduto.
Nell’esempio del lancio dei tre dadi H è l’evento un dado indica il numero 3. Ci aspettiamo che in
generale la probabilità degli eventi cambi e quindi troviamo un nuovo nome a ciò che vogliamo
definire. Chiamiamo PH la probabilità condizionata da H. Se pensiamo alla probabilità su
Ω come all’area di un sottoinsieme, allora siamo immediatamente spinti a riconoscere che la
probabilità condizionata di A dato H dipende dall’area di A ∩ H. Potremmo anche essere
più rigorosi, osservando che PH (H c ) = 0 e quindi che PH (A) = PH (A ∩ H) ed anche che
6
PH (A)P (H) = P (A ∩ H). Comunque sia si può arrivare a concludere che deve valere la formula
PH (A) =
P (A ∩ H)
,
P (H)
P (H) 6= 0 .
La notazione usuale per PH (A) è P (A|H), dove la stanghetta verticale separa l’evento di cui
valutare la probabilità dalla condizione assunta.
La regola per calcolare la probabilità condizionata di A dato H è
(3)
P (A|H) =
P (A ∩ H)
,
P (H)
P (H) 6= 0 .
La probabilità condizionata permette di dare definizioni alternative dell’indipendenza stocastica. Le seguenti tre affermazioni sono equivalenti:
(PC1) A e B sono indipendenti, cioè P (A ∩ B) = P (A)P (B)
(PC2) P (A|B) = P (A)
(PC3) P (B|A) = P (B).
In altre parole, l’informazione che un evento si è verificato non altera (chiaramente) la probabilità che si verifichi un evento indipendente.
Dalla (3) ricaviamo la formula P (A ∩ H) = P (A|H)P (H) e pertanto, considerando l’evento
H c e la probabilità condizionata dato H c , otteniamo facilmente la relazione
P (A) = P (A ∩ H) + P (A ∩ H c ) = P (A|H)P (H) + P (A|H c )P (H c ) .
Questa può essere generalizzata per arrivare ad una formula molto utile in varie applicazioni
concrete. Supponiamo di avere diverse alternative Hi , cioè eventi Hi che verificano
(LA1) H
Si ∩ Hj = ∅, per i 6= j (incompatibilità)
(LA2)
i Hi = Ω (esaustività)
(LA3) P (Hi ) 6= 0 per ogni indice i.
Allora la legge delle alternative afferma che
X
(4)
P (A) = P (A|H1 )P (H1 ) + P (A|H2 )P (H2 ) + · · · =
P (A|Hi )P (Hi ) .
i
Supponiamo adesso di aver sottoposto uno studente ad un test a risposta multipla (m risposte
possibili di cui solo una corretta). Immaginiamo che lo studente abbia probabilità p di conoscere
la risposta esatta e non la conosca con probabilità 1 − p. Chiaramente possiamo assumere che
conoscendo la risposta azzeccherà certamente quella esatta mentre, nel caso che non la conosca,
abbia probabilità 1/m di indovinare (completamente a caso). Nell’ipotesi che abbia risposto
esattamente al test, qual è la probabilità che conosca la risposta?
Questo è un semplice esempio in cui si vuole invertire quello che appare il naturale susseguirsi
delle scelte. Spieghiamoci meglio. In questo problema compaiono due scelte casuali: sapere o
non sapere la risposta e indovinare o non indovinare la risposta. Nel formulare le ipotesi fatte
abbiamo, più o meno esplicitamente, dato una valenza di causa e effetto alle singole scelte. Ci è
parso naturale assumere la probabilità di indovinare data la conoscenza dello studente, mentre
la domanda chiede esattamente l’opposto, cioè determinare la probabilità della conoscenza data
la correttezza della risposta al test.
In termini semplificativi, chiediamo la probabilità di una causa sapendo l’effetto prodotto.
Facciamo un altro esempio. Tre artigiani confezionano in un giorno n1 , n2 e n3 borse delle
quali, rispettivamente, d1 , d2 e d3 difettose. Scelta una borsa a caso, scopriamo che è difettosa.
Qual è la probabilità che sia stata confezionata dal primo artigiano?
Anche qui, è naturale definire la probabilità che una delle borse confezionate dal singolo artigiano sia difettosa, mentre chiedere la probabilità che una borsa difettosa sia stata confezionata
da un certo artigiano ci appare un ragionamento inverso.
7
Analizziamo bene quest’ultimo esempio. Il nostro spazio campione è composto dalle n borse,
con n = n1 + n2 + n3 . L’esperimento consiste nello sceglierne una a caso (ipotesi di equiprobabilità) ed abbiamo a che fare con i seguenti eventi:
Ai = { la borsa è stata confezionata dall’i-esimo artigiano},
D = { la borsa è difettosa}.
Sappiamo che P (Ai ) = nni , per i = 1, 2, 3 ed inoltre P (D|Ai ) = ndii . Ciò che cerchiamo invece
è P (A1 |D). Nel gergo tecnico, P (A1 ) è detta probabilità a priori mentre P (A1 |D) è detta
probabilità a posteriori.
Dalla definizione di probabilità condizionata ricaviamo
P (A1 ∩ D)
P (D|A1 )P (A1 )
P (A1 |D) =
=
.
P (D)
P (D)
Utilizzando la legge delle alternative arriviamo alla conclusione
P (D|A1 )P (A1 )
d1
.
P (A1 |D) = P
=
P (D|Ai )P (Ai )
d1 + d2 + d3
i
Questo è un esempio molto semplice, in cui potevamo arrivare alla soluzione senza scomodare
troppe regole e definizioni.
Nel caso generale il ragionamento è del tutto analogo ed il risultato è una formula che va
sotto il nome di legge di Bayes:
P (A|Hi )P (Hi )
(5)
P (Hi |A) = P
,
P (A|Hj )P (Hj )
j
dove le Hi sono alternative e quindi incompatibili ed esaustive (vedi legge delle alternative).
Vediamo a questo punto come si risolve il problema dello studente davanti ad un test a
risposta multipla.
Consideriamo i due eventi:
C = { lo studente conosce la risposta} ,
R = { lo studente risponde esattamente} .
Abbiamo P (C) = p, P (R|C) = 1 e P (R|C c ) = 1/m. Per calcolare P (C|R) applichiamo la
legge di Bayes e scopriamo
P (R|C)P (C)
p
mp
P (C|R) =
=
=
.
c
c
P (R|C)P (C) + P (R|C )P (C )
p + (1 − p)/m
mp − p + 1
Nel caso di un test con 5 risposte possibili (di cui una sola corretta), se p = 1/2, cioè lo studente
conosce la metà degli argomenti del test, allora P (C|R) = 5/6, che a parole significa che una
risposta giusta su sei è in media dovuta al caso. Se p = 3/4 allora, in media, soltanto una
risposta esatta su 16 è dovuta al caso.
Torniamo adesso al paradosso del carceriere. La vera difficoltà sta nel tradurre correttamente
l’enunciato un po’ vago del problema in termini probabilistici. Un primo passo utile può essere
quello di complicare le cose, anche se pare assurdo. Supponiamo che i condannati fossero 50
(non stiamo ad assegnare un nome ciascuno per ovvi motivi) e che uno solo verrà giustiziato. Il
prigioniero A poteva in questo caso chiedere il nome di 49 suoi compagni che avevano ricevuto
la grazia. Sarebbe salita ad 1/2 la sua probabilità di essere giustiziato? Chi di noi nei panni di
A avrebbe avuto il coraggio di chiedere lo scambio con quell’unico prigioniero non nominato?
Appare più naturale credere che l’informazione ricevuta non alteri le probabilità di A. Eppure, a
ben vedere, potremmo pensare che il carceriere cominci ad elencare i graziati in ordine alfabetico
(o di numero di matricola). Se salta un unico nome, allora anche noi, nei panni di A avremmo
forse un sospiro di sollievo. Quindi istintivamente l’informazione ricevuta potrebbe cambiare le
8
probabilità precedenti. Questo esempio con molti condannati chiarisce meglio un punto che si
rivela fondamentale e che nella formulazione iniziale è del tutto vago. Supponiamo che B e C
siano entrambi graziati. Quale nome pronuncerebbe il carceriere?
Per tradurre in termini probabilistici corretti, si possono considerare i seguenti eventi:
GA = {A sarà giustiziato},
GB = {B sarà giustiziato},
GC = {C sarà giustiziato},
NB = { il carceriere rivelerà il nome di B},
NC = { il carceriere rivelerà il nome di C}.
Per ipotesi, ribadita anche dalle parole del carceriere, P (GA ) = P (GB ) = P (GC ) = 1/3.
Per quanto concerne invece le probabilità degli ultimi due eventi, nulla si può evincere dal
testo del problema nel caso che A venga giustiziato. Supponiamo dunque che P (NB |GA ) = p
e P (NC |GA ) = 1 − p , cioè che, nel caso che B e C siano entrambi graziati, il carceriere riveli
il nome di B con probabilità p.
Vogliamo valutare la probabilità condizionata di GA dati rispettivamente gli eventi NB e NC .
Dalla (5) segue facilmente:
P (GA |NB ) =
P (NB |GA )P (GA )
.
P (NB |GA )P (GA ) + P (NB |GB )P (GB ) + P (NB |GC )P (GC )
Osservando che P (NB |GB ) = 0 e P (NB |GC ) = 1 ricaviamo
P (GA |NB ) =
p
p+1
P (GA |NC ) =
1−p
.
2−p
ed analogamente
Osserviamo che ognuna delle due probabilità è 1/3 solo nel caso p = 1/2. Il ragionamento di
A era quindi giusto nell’ipotesi p = 1/2. A suo favore potremmo dire che, non conoscendo p,
la valutazione migliore è proprio 1/2. Invece per p = 0 oppure per p = 1, il ragionamento del
carceriere acquista di significato e la probabilità a posteriori di GA risulta 0 o 1/2 a seconda
della risposta.
Un esempio che sorprende spesso gli studenti è il seguente. Un test antitumorale, come
quasi tutti i test diagnostici, non è infallibile e commette due tipi di errori: i cosiddetti falsi
positivi e falsi negativi. I primi sono esiti positivi per pazienti sani mentre i secondi sono esiti
negativi per pazienti affetti dalla malattia in esame. La probabilità che un test azzecchi la
giusta diagnosi è detta accuratezza. La probabilità di errore è in generale diversa tra pazienti
sani e pazienti malati. Si chiama sensibilità del test la probabilità che fornisca esito positivo in
presenza di malattia e specificità del test la probabilità che dia esito negativo su un soggetto
sano. Supponiamo adesso che un test antitumorale con sensibilità del 98% e specificità del
99% dia esito positivo sul paziente X. Sapendo che la malattia ha un’incidenza dello 0,2% sulla
popolazione, che probabilità ha X di essere affatto dalla malattia?
Indichiamo con E l’evento il test ha dato esito positivo e con T l’evento il paziente ha il
tumore.
Le nostre informazioni sono: P (T ) = 2/1000, P (E|T ) = 98/100 e P (E|T c ) = 1/100.
Vogliamo calcolare P (T |E). Dalla (5) otteniamo
P (T |E) =
P (E|T )P (T )
0, 98 · 0, 002
=
= 0, 1641 .
c
c
P (E|T )P (T ) + P (E|T )P (T )
0, 98 · 0, 002 + 0, 01 · 0, 998
Quindi il paziente risultato positivo al test ha una probabilità pari circa al 16,41% di avere
un tumore.
9
4. Variabili aleatorie e funzioni distribuzioni
Introduciamo un nuovo concetto, quello di variabile aleatoria. Come sempre accade in matematica, i concetti vengono introdotti per semplificare ragionamenti usuali in certi campi, anche
se inizialmente allo studente appare solo la difficoltà ad incamerare nuove definizioni.
Abbiamo già discusso dell’esempio del lancio di un dado. I sei esiti possibili li abbiamo
chiamati eventi, vi abbiamo definito una probabilità e ci siamo più o meno abituati a questa
terminologia. Possiamo rileggere questo esempio dando un nome X al numero ottenuto lanciando il dado. Quindi X è un numero, compreso tra 1 e 6, ma non sappiamo quale. Chiamiamo X
una variabile aleatoria (intera) e diciamo di conoscerla una volta che abbiamo deciso non solo
i suoi valori possibili ma anche la probabilità che essa assuma i singoli valori.
In questo esempio non appare nessuna grande novità. Procediamo per gradi. Analizziamo
il lancio di due dadi. Gli esiti possibili sono le coppie di numeri interi compresi tra 1 e 6, in
tutto 36 eventi elementari. Abbiamo visto che con un po’ di calcoli è semplice determinare
la probabilità che la somma dei due numeri usciti sia un certo numero fissato (pensiamo a
dadi non truccati, per semplicità). Chiamiamo X tale somma. La variabile aleatoria X non
è più equivalente all’esito del lancio, cioè esiti diversi possono produrre lo stesso valore di X.
Presentare X vuol dire elencare tutti i valori che può assumere con la relativa probabilità che
ciò avvenga. Anche in questo caso la variabile aleatoria si dice intera, perché assume solo valori
interi. Un modo di esibire X potrebbe essere la matrice
µ
2
3
4
5
6
7
8
9 10 11 12
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
¶
1
36
in cui ogni colonna riporta un valore possibile e la corrispondente probabilità dell’evento, dando
per scontato che valori diversi hanno probabilità nulla.
Un modo più compatto ed efficace è quello di ricorrere ad un grafico. Nel caso della variabile
aleatoria X abbiamo il seguente grafico, dove l’unità di misura sulle ordinate è espressa in
trentaseiesimi.
Vediamo di generalizzare. Sia (Ω, =, P ) uno spazio di probabilità; una variabile aleatoria
è una funzione X : Ω → R. Indichiamo con {X ≤ k} l’evento definito come l’insieme di tutti
i punti campione ω ∈ Ω per i quali X(ω) ≤ k. Per la precisione il nome di variabile aleatoria
spetta soltanto a quelle funzioni tali che eventi di questo tipo appartengono a =. Comunque
noi ci occuperemo sempre di funzioni che hanno questa proprietà e quindi possiamo pensare ad
una variabile aleatoria come ad una qualsiasi funzione a valori reali.
10
Diremo che una variabile aleatoria X è intera o positiva quando è tale come funzione. Nel
caso del punteggio ottenuto col lancio di due dadi, ad esempio, la funzione è sia positiva che
intera.
Abbiamo detto in precedenza che conoscere la variabile aleatoria X significa non solo sapere
quali numeri reali sono possibili valori di X, ma anche conoscere la probabilità che ciò avvenga.
Supponiamo che X assuma i valori 1, 2, . . . , n: conoscere la variabile aleatoria X vuol dire
sapere la probabilità degli eventi {X = k}, per ogni k = 1, 2, . . . , n.
Posto
pk = P (X = k)
la successione delle coppie di numeri {(k, pk )} costituisce la distribuzione di probabilità di
X e possiamo rappresentarla tramite una tabella o matrice oppure tramite
Pun grafico simile a
pk = 1.
quello visto nel caso del lancio di due dadi. Osserviamo che dovrà valere
k
In seguito saremo interessati anche a variabili aleatorie non intere ma continue, che possono
assumere cioè tutti i valori reali. Un esempio potrebbe essere dato dal lancio del giavellotto.
Anche se le misurazioni sono espresse in centimetri (e quindi possiamo considerarla una variabile
aleatoria intera) i risultati possibili sono talmente tanti che conviene utilizzare le notazioni (e
tecniche) delle variabili continue. Indichiamo con L la variabile aleatoria che esprime il risultato
di un singolo lancio. Come possiamo esprimere la probabilità che L assuma un certo valore?
Nell’ipotesi di valori reali, la probabilità di azzeccare esattamente il risultato è evidentemente
bassissima, anzi nulla. Cosa significa allora in questo caso conoscere la variabile aleatoria?
Per le variabili aleatorie continue, e quindi anche per L, gli eventi da prendere in esame non
sono quelli del tipo {L = x} ma quelli esprimibili come {L ≤ x}, per ogni x ∈ R.
Al variare di x consideriamo la funzione
F (x) = P (L ≤ x) ,
che chiamiamo la funzione di distribuzione di probabilità di L. Il grafico della funzione F
ci fornisce tutte le informazioni che si possono desiderare sulla variabile aleatoria L. Osserviamo
che dovrà valere
lim F (x) = 1 e lim F (x) = 0 .
x→+∞
x→−∞
Supponiamo che il grafico a fianco rappresenti la funzione di distribuzione di probabilità nel lancio del giavellotto da parte di una
persona. Potremmo pensare di aver chiesto
ad un numero enorme di persone di lanciare
il giavellotto ed aver quindi stimato le probabilità in questione in base alle frequenze
del campione statisticamente rappresentativo. Il record mondiale del lancio del giavellotto è di 98,48 metri e quindi la probabilità
che un lancio sia inferiore ai 100 metri deve
necessariamente essere 1 se si basa su lanci
già effettuati. In figura sono evidenziati due
segmenti correlati alla domanda: quale distanza è irraggiungibile nel 90% dei lanci? Si parte
orizzontalmente dallo 0,9 segnato sull’asse delle ordinate e, raggiunto il grafico, si scende fino
a leggere circa 17 metri.
Pertanto la funzione di distribuzione di probabilità di una variabile aleatoria continua garantisce lo stesso tipo di informazioni fornite dalla distribuzione di probabilità di una variabile
aleatoria intera (o discreta). Ciononostante i due grafici ci appaiono ben diversi. Da un punto
di vista matematico il legame tra le due funzioni è molto chiaro: analizziamolo.
11
Nel definire la funzione di distribuzione di probabilità di una variabile aleatoria continua, ad
esempio L, abbiamo evitato di definire la probabilità che un lancio sia esattamente di 84,60 metri
(record italiano dal 1989). L’idea che abbiamo enfatizzato è che praticamente nessun lancio
percorrerà esattamente quella distanza se prendiamo in considerazione i millimetri o addirittura
i millesimi di millimetro. Quindi è la domanda stessa che non ha molto senso. Invece è naturale
chiedere la probabilità che un lancio sia poi registrato pari a 84,60 metri da un giudice di gara.
In altre parole ci disinteressiamo dell’errore che il giudice commette nell’approssimare il numero.
Quindi la domanda potrebbe essere formulata meglio considerando l’evento che L sia compreso
tra 84,595 e 84,605 metri. Questo ci porta ad utilizzare la variazione della funzione F più che la
funzione stessa, cioè F (84, 605) − F (84, 595). Infatti l’evento {L ≤ b} = {a ≤ L ≤ b} ∪ {L ≤ a}
e quindi P (a ≤ L ≤ b) = P (L ≤ b) − P (L ≤ a) = F (b) − F (a).
Quando si parla di variazioni di una funzione il concetto di derivata dovrebbe saltare in mente
anche agli studenti. Definita dalla formula
F (x + h) − F (x)
f (x) = F 0 (x) = lim
,
h→0
h
si introduce la densità di probabilità della variabile aleatoria L. Dunque potremo scrivere
Rb
F (b) − F (a) = f (x) dx.
a
Osserviamo che risulta
+∞
R
f (x) dx = 1.
−∞
Questa funzione assume un significato molto
simile a quello visto per le variabili aleatorie intere nel caso dei grafici a barra. Ad
esempio, qui a fianco è riportato il grafico
della densità di probabilità della variabile L,
la cui distribuzione è rappresentata nella pagina precedente. Il picco in corrispondenza
dei lanci di 10-15 metri rivela che i dati non
sono reali oppure, volendo cercare una giustificazione, che il campione statistico preso
in esame per valutare la funzione F non era certo rappresentativo di atleti della disciplina.
La densità di probabilità f conserva ancora tutte le informazioni necessarie per rispondere a
domande sulla probabilità di eventi espressi in termini della variabile aleatoria L. Ad esempio, la probabilità che un lancio sia compreso tra 10 e 15 metri si legge valutando l’integrale
della funzione f sul corrispondente intervallo, cioè calcolando l’area della regione racchiusa dal
grafico della f , dall’asse delle ascisse e dalle due rette x = 10 e x = 15. In formule
Z15
P (10 ≤ L ≤ 15) = f (x) dx = F (15) − F (10) (= 0, 6598) ,
10
cioè quasi 2 lanci su 3 mandano il giavellotto ad una distanza di soli 10-15 metri dalla pedana.
Torniamo ad un altro tipo di lancio, il lancio di una moneta o di un dado. Analizziamo la
variabile aleatoria X che conta il numero di successi (di teste con una moneta o di pari alla
roulette o altro ancora) in n lanci. Ogni lancio è indipendente dagli altri e, per mantenere
maggiore generalità, immaginiamo che la probabilità di successo in un singolo lancio sia p (e
quella di insuccesso sia q, con p + q = 1). Conoscere X significa capire i suoi valori possibili e le
corrispondenti probabilità. I valori possibili sono chiaramente tutti i numeri interi compresi tra
0 e n. Valutiamo adesso la probabilità di avere k successi negli n lanci e conseguentemente n−k
insuccessi. Qualsiasi sequenza a noi favorevole ha probabilità pk q n−k di accadere; il numero di
n!
.
tali sequenze si conta facilmente e risulta pari a k!(n−k)!
12
Quindi la variabile aleatoria X è rappresentata dalla successione
pk = P (X = k) =
n!
pk (1 − p)n−k .
k!(n − k)!
Questa distribuzione di probabilità prende il nome di distribuzione binomiale o di Bernoulli.
Data la generalità del processo, questa distribuzione è molto comune. Quando il numero di
lanci n è molto grande, non è agevole calcolare tutti i pk e certi ragionamenti si semplificano
pensando la variabile aleatoria X una variabile aleatoria continua. Praticamente il passaggio
che facciamo è quello di sostituire il grafico ad istogrammi della distribuzione con il grafico di
una funzione f , cioè di una densità di probabilità. Questo passaggio va definito meglio e ci
torneremo quando parleremo della legge dei grandi numeri, uno dei capisaldi della statistica
moderna, formulata per la prima volta da J. Bernoulli (1654-1705) nella sua opera postuma del
1713, Ars conjectandi.
Per il momento ricordiamo soltanto che il fattoriale, definito soltanto sui numeri naturali,
può essere esteso ad ogni numero reale positivo tramite la funzione Γ(x) data dalla formula
Z ∞
Γ(x) =
tx−1 e−t dt .
0
Infatti risulta (facilmente ricavabile dalla regola di integrazione per parti) Γ(x + 1) = xΓ(x) e
quindi, verificato che Γ(1) = 1, vale la relazione Γ(n + 1) = n!, per ogni n ≥ 0.
Una seconda relazione concernente il fattoriale è la cosiddetta formula di Stirling che ne
fornisce un’approssimazione asintotica:
√
nn e−n 2πn
lim
= 1.
n→∞
n!
5. Media e varianza di una variabile aleatoria
Continuiamo a considerare il processo di Bernoulli, cioè il lancio di una moneta. Supponiamo
di aver assistito a 20 lanci e di aver visto uscire testa una sola volta. Siamo spinti a credere
che la moneta sia truccata, cioè che la probabilità di ottenere testa in un singolo lancio non
sia 1/2 come pensavamo. Vedremo in seguito che questo esperimento può essere visto come
un test di ipotesi, ma per il momento occupiamoci solo della nostra aspettativa o previsione.
Immaginando di avere a che fare con una moneta equa, ci aspettiamo che esca testa circa nella
metà dei lanci. Siamo disposti a credere che la casualità provochi un qualche discostamento dal
valore preciso (10 in questo caso) ma ci insospettiamo se l’allontanamento è troppo evidente.
Come abbiamo calcolato il valore preciso 10? Come possiamo distinguere un discostamento
casuale da una truffa?
Proprio per rispondere a queste domande introduciamo nuovi concetti. Come calcolare quel
valore 10. Tradotto in termini matematici, il problema è risolto da quella che viene chiamata
media o speranza matematica o valore atteso di una variabile aleatoria.
Per darne una definizione precisa conviene distinguere le variabili aleatorie continue da quelle
discrete. Se X è una variabile aleatoria (intera o discreta) che assume solo i valori x1 , x2 , . . . ,
xn ed inoltre pk = P (X = xk ), allora il valore atteso di X è dato da
(6)
E(X) =
n
X
xk pk .
k=1
Se invece X è una variabile aleatoria continua con densità di probabilità f (x), allora il valore
atteso di X è dato da
Z +∞
(7)
E(X) =
xf (x) dx ,
−∞
se l’integrale improprio è convergente (cosa che noi supporremo sempre verificata).
13
Formalmente il valore atteso è una media ponderata dei valori assunti da X con pesi pari
alla probabilità del singolo valore.
Teorema fondamentale della media. Date due variabili aleatorie X e Y risulta
(8)
E(X + Y ) = E(X) + E(Y ) .
Dimostrazione. Limitiamoci a considerare il caso di variabili aleatorie intere per non complicare
inutilmente i ragionamenti. La variabile aleatoria X + Y ha una sua distribuzione di probabilità:
indichiamo con qk la probabilità che X + Y prenda il valore k. Non è semplicissimo vedere come la
successione {qk } salti fuori a partire dalle distribuzioni di X e di Y . Conviene introdurre la cosiddetta
distribuzione congiunta di X e Y , cioè la successione a due indici (come le matrici)
ca,b = P ({X = a} ∩ {Y = b}) .
Adesso possiamo scrivere
qk = P (X + Y = k) =
X
ca,b ,
a+b=k
dove l’ultima sommatoria è estesa a tutte le coppie di numeri interi a e b tali che la loro somma sia k.
Pertanto, dalla definizione di media di una variabile aleatoria, risulta
E(X + Y ) =
X
kqk =
X
k
k
k
X
ca,b =
XX
(a + b)ca,b
a
a+b=k
b
X
X
X X
X X
bP (Y = b) = E(X) + E(Y ) .
aP (X = a) +
ca,b =
b
ca,b +
a
=
a
b
b
a
a
b
Per giustificare l’aggettivo fondamentale dato a questo teorema dobbiamo vederne qualche
applicazione.
Sia X il numero di successi su n lanci di moneta. Supponiamo che la probabilità di successo
in ogni singolo lancio sia p. Abbiamo visto che X assume i valori tra 0 e n ed inoltre che
n!
P (X = k) = pk =
pk (1 − p)n−k .
k!(n − k)!
n
P
kpk . Svolgere questo calcolo non è affatto semplice.
Pertanto possiamo scrivere E(X) =
k=0
Ragioniamo in modo diverso. Indichiamo con Xk la variabile aleatoria che conta i successi
al k-esimo lancio. Chiaramente Xk può assumere soltanto i valori 0 e 1. Sappiamo anche che
il valore 1 è assunto con probabilità p. Quindi
E(Xk ) = 0 · (1 − p) + 1 · p = p , per ogni k ,
ossia il valore atteso di Xk è proprio p. Cogliamo l’occasione per sottolineare che il valore atteso
non è il valore più probabile! Adesso, osservando che X = X1 + X2 + · · · + Xn , il teorema della
media ci garantisce che
E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np ,
confermando il risultato immaginabile: su n lanci ci aspettiamo np successi.
Il concetto di media è abbastanza intuitivo ed inoltre è cosı̀ usuale che sappiamo bene quali
indicazioni ci fornisce a proposito di una variabile aleatoria. La nostra esperienza ci suggerisce
anche che variabili diverse possono avere la stessa media e ciononostante caratteristiche diverse.
Ad esempio, la media del consumo annuo procapite di acqua potabile può essere la stessa in due
regioni diverse e non di meno queste stesse regioni possono presentare problemi diversi circa la
distribuzione delle risorse idriche tra la popolazione. Ad esempio, la percentuale di abitazioni
non raggiunte dalla rete idrica può essere notevolmente diversa.
Quindi la conoscenza della media di una variabile aleatoria non svela ciò che potremmo
chiamare la dispersione dei valori intorno alla media stessa. Insomma, stiamo cercando di
14
rispondere alla domanda precedentemente posta. Come possiamo distinguere uno scostamento
dalla media dovuto al caso da uno dovuto ad una truffa, cioè ad una distribuzione di probabilità
diversa da quella immaginata?
La misura di dispersione maggiormente utilizzata è la varianza. La varianza di X è definita
come il valore atteso del quadrato della distanza di X dalla sua media. In formule
¡
¢
(9)
V ar(X) = E (X − µ)2 , con µ = E(X) .
La radice quadrata della varianza è la cosiddetta deviazione standard o scarto quadratico medio della variabile X e si scrive generalmente ricorrendo al simbolo σ
p
(10)
σ(X) = V ar(X) .
Le formule per calcolare la varianza in termini della distribuzione di probabilità nel caso discreto e della densità di probabilità nel caso continuo sono semplici conseguenze della
definizione. Se X è discreta, E(X) = µ e P (X = xk ) = pk , allora
X
(11)
V ar(X) =
(xk − µ)2 pk .
k
Se X ha densità di probabilità f (x) e E(X) = µ, allora vale
Z +∞
(12)
V ar(X) =
(x − µ)2 f (x) dx .
−∞
Una formula (detta anche Teorema di König) utile in molti casi è la seguente
(13)
V ar(X) = E(X 2 ) − E(X)2 .
La dimostrazione è molto semplice
¡
¢
V ar(X) = E (X − µ)2 = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − µ2 .
Tornando al nostro esempio dei 20 lanci di una moneta, possiamo calcolare la varianza del
numero di successi X dalle formule appena viste.
20
20
X
X
2
V ar(X) =
(k − 10) pk =
k 2 pk − 102 .
k=0
k=0
Ancora una volta abbiamo qualche difficoltà a svolgere i calcoli.
Potremmo cercare di ripetere il ragionamento fatto per calcolare il valore atteso, cioè utilizzare la scrittura X = X1 + X2 + · · · + X20 , ma ci manca una formula per la varianza di una
somma di variabili aleatorie. Vedremo che questa formula esiste, è semplice, ma vale soltanto
se le variabili aleatorie sono indipendenti.
Due variabili aleatorie X e Y si dicono indipendenti quando sono indipendenti gli eventi
{X ≤ a} e {Y ≤ b}, per ogni coppia di numeri reali a e b. In altri termini, la probabilità che
X sia minore (o uguale o maggiore) di un certo numero è indipendente dal valore assunto da
Y.
Date due variabili aleatorie X e Y , si definisce la covarianza di X e Y tramite la formula
(14)
Cov(X, Y ) = E(XY ) − E(X)E(Y ) .
Teorema della covarianza. Se X e Y sono variabili aleatorie indipendenti, allora
Cov(X, Y ) = 0 , ovvero E(XY ) = E(X)E(Y ) .
Dimostrazione. Limitiamoci a considerare variabili aleatorie discrete, dato che nel caso continuo
dovremmo utilizzare qualche tecnicismo degli integrali. L’evento {XY = n} è una unione disgiunta
15
degli eventi {X = a} ∩ {Y = b} al variare dei numeri a e b tali che ab = n. Poiché X e Y sono
indipendenti possiamo scrivere
X
P (XY = n) =
P (X = a)P (Y = b) .
ab=n
Adesso passando alle medie otteniamo
E(XY ) =
X
nP (XY = n) =
n
=
XX
X
n
n
X
P (X = a)P (Y = b)
ab=n
aP (X = a)bP (Y = b) =
n ab=n
X
aP (X = a)
a
X
bP (Y = b)
b
= E(X)E(Y ) .
Teorema della varianza. Se X e Y sono variabili aleatorie indipendenti, allora
V ar(X + Y ) = V ar(X) + V ar(Y ) .
Dimostrazione. Questa è una banale conseguenza del risultato precedente. Infatti
¡
¢
V ar(X + Y ) = E (X + Y )2 − E(X + Y )2 = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2Cov(X, Y ) = V ar(X) + V ar(Y ) .
Altre semplici proprietà della varianza sono
(15)
V ar(X + k) = V ar(X)
V ar(kX) = k 2 V ar(X) ,
per ogni numero k.
Continuiamo la nostra analisi dei 20 lanci di moneta. La variabile aleatoria X definita dal
numero di successi ottenuti nei 20 lanci la vediamo come somma delle variabili aleatorie Xk che
contano i successi (0 o 1) al k-esimo lancio. Le Xk sono chiaramente indipendenti e quindi il
teorema della varianza ci assicura che V ar(X) = 20 V ar(X1 ). Essendo
V ar(Xk ) = (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p) ,
ricaviamo V ar(X) = 20p(1 − p). Nel caso di una moneta equa è p = 1/2 e quindi V ar(X) = 5.
Se vogliamo confrontare lo scostamento sperimentale dallapmedia, l’unità di misura da utilizzare
è lo scarto quadratico medio; in questo esempio σ(X) = V ar(X) ' 2, 23. Dato che 2,23 è lo
scarto quadratico medio, possiamo aspettarci che uno scostamento minore o uguale a 2σ sia del
tutto normale, mentre differenze maggiori possono insospettirci. Come rendere rigorosi questi
ragionamenti sarà l’argomento del prossimo capitolo.
Introduciamo adesso la più nota funzione di distribuzione di probabilità di una variabile
aleatoria: la distribuzione normale o Gaussiana.
Una variabile aleatoria X ha distribuzione normale con media µ e varianza σ 2 se la sua
densità di probabilità è data da
(16)
(x−µ)2
1
f (x) = √
e− 2σ2 .
σ 2π
16
La figura sopra riporta i grafici della funzione f per µ = 0 e per tre diversi valori della
varianza σ 2 . Valori diversi di µ comportano soltanto una traslazione della figura: il valore
massimo della funzione è sempre assunto nel valore atteso µ.
Per prima cosa dovremmo verificare che la funzione data è una densità di probabilità e che
realmente la media e la varianza sono quelle volute. Queste affermazioni equivalgono ad espliciti
calcoli che fanno intervenire integrali impropri. Alla base di tutto sta l’identità
Z+∞
√
2
e−x dx = π ,
−∞
che qualcuno avrà forse incontrato in precedenti corsi di matematica.
La distribuzione normale è usualmente utilizzata per modelizzare l’errore commesso in una
qualsiasi misurazione. La media µ rappresenta la misura esatta. Il fatto che la densità sia
simmetrica rispetto a µ corrisponde all’osservazione sperimentale che l’errore è per eccesso o
per difetto con la medesima probabilità. La varianza, o meglio la sua radice quadrata, cioè la
deviazione standard, modula l’errore medio commesso. Al diminuire della varianza, il grafico
della f diventa più ripido ed aumenta il valore puntuale in µ.
Nella figura a lato è rappresentata la
distribuzione di probabilità della variabile aleatoria somma dei risultati di sei
dadi. La somiglianza con la densità della distribuzione normale è notevole. Nel
prossimo capitolo vedremo che questa
somiglianza è cosı̀ comune da dirsi appunto normale! Proprio questa particolarità rende la distribuzione Gaussiana
fondamentale per la statistica.
Vedremo che sarà molto importante conoscere la probabilità di eventi del tipo {|X −µ| ≤ tσ}.
17
Qui a fianco sono evidenziate le regioni le cui
aree misurano tali probabilità per t = 1 e
t = 2.
La probabilità che X differisca dalla media
per meno di σ è 0, 6827, cioè il 68,27%.
per meno di due deviazioni standard è 0, 9545.
per meno di tre deviazioni standard è 0, 9973.
Altri numeri utili sono: il 95% dell’area del
sottografico si trova a distanza inferiore di
1,96 deviazioni standard dalla media; il 99%
si trova a distanza minore di 2,58 deviazioni standard dalla media. Una tabella che riporta i
principali valori della distribuzione normale è riportata nell’ultima di queste pagine.
6. Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale
Come abbiamo visto, è naturale aspettarsi che i valori di una variabile aleatoria X si
dispongano intorno alla media µ(X) e che una unità di misura appropriata a X per valutare il
discostamento dalla media sia la deviazione standard σ(X). Vorremmo a questo punto stimare
la probabilità che X ha di differire dalla media per più di k volte σ(X).
Lo strumento adatto è la cosiddetta disuguaglianza di Chebyshev. Testi diversi riportano
scritture diverse del nome Chebyshev. Ciò è dovuto a scelte diverse di traslitterazione dal cirillico e non di attribuzione del risultato. P.L. Chebyshev (1821-1894) dette un enorme contributo
allo sviluppo della teoria della probabilità e fu il fondatore della scuola di Pietroburgo, scuola
che annoverò tra i suoi aderenti matematici come Liapunov e Markov.
Disuguaglianza di Chebyshev. Sia X una variabile aleatoria e siano E(X) = µ
V ar(X) = σ 2 . Allora, per ogni t > 0, risulta
1
(17)
P (|X − µ| ≥ tσ) ≤ 2 .
t
e
Dimostrazione. Supponiamo che X sia una variabile aleatoria continua con densità di probabilità
f (x). Allora
Z +∞
Z
2
2
σ =
(x − µ) f (x) dx ≥
(x − µ)2 f (x) dx
−∞
|x−µ|≥tσ
Z
≥
t2 σ 2 f (x) dx = t2 σ 2 P (|X − µ| ≥ tσ) ,
|x−µ|≥tσ
da cui segue la tesi. Nel caso in cui X sia una variabile aleatoria discreta si può procedere in modo
analogo.
2
Sostituendo t nella (17) con k/σ otteniamo la versione equivalente P (|X − µ| ≥ k) ≤ σk2 .
Quest’ultima implica la ben nota legge dei grandi numeri, spesso utilizzata a sproposito.
Legge dei grandi numeri. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa
distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora,
per ogni ε > 0, risulta
¯
¶
µ¯
¯
¯ X1 + X2 + · · · + Xn
¯
¯
− µ¯ ≥ ε = 0 .
(18)
lim P ¯
n→∞
n
Dimostrazione. Consideriamo la variabile aleatoria Sn = X1 +X2n+···+Xn . Per il teorema fondamentale
2
della media e per il teorema della varianza, abbiamo che E(Sn ) = µ e V ar(Sn ) = σn .
La tesi segue adesso dalla disuguaglianza di Chebyshev.
18
La legge dei grandi numeri permette di affermare, ad esempio, che la probabilità di successo
nel lancio di una moneta è pari alla frequenza dei successi in n prove ripetute, cioè al rapporto
tra il numero di successi ed il numero di prove effettuate, quando n tende all’infinito. Ciò che
non indica è il numero di prove necessarie per avere una buona approssimazione.
Supponiamo che la probabilità di successo in ogni singolo lancio sia p. La frequenza dei
successi in n lanci è la variabile aleatoria Sn = X1 +X2n+···+Xn dove, come al solito, Xk conta
. La
i successi al k-esimo lancio. Abbiamo visto che Sn ha valore atteso p e varianza p(1−p)
n
disuguaglianza di Chebyshev ci dice che, volendo ad esempio essere sicuri al 99% (cioè disposti
a sbagliare
con probabilità 1/100), possiamo affermare che la differenza tra Sn e p è minore di
p
√
10 p(1 − p)/ n. Se vogliamo
p con un errore massimo di 0, 05, cioè 1/20, dovremo
p valutare √
prendere n cosı̀ grande che 10 p(1 − p)/ n ≤ 1/20. Tale stima dipende da p, ma se osserviamo
che p(1 − p) vale al più 1/4, troviamo che è sufficiente prendere n ≥ 10 000.
Questa stima può essere notevolmente migliorata. Ciò non dovrebbe stupire se si tiene conto
del tipo di ragionamenti utilizzati nel dimostrare la disuguaglianza di Chebyshev. L’ulteriore
passo è rappresentato dal teorema centrale che, nel caso di esperimenti ripetuti, mostra la
funzione di distribuzione di probabilità che si ottiene al crescere del numero degli esperimenti:
la distribuzione normale.
Teorema centrale. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora
vale
µ
¶
Zt 2
x
X1 + X2 + · · · + Xn − nµ
1
√
(19)
lim P
≤t = √
e 2 dx .
n→∞
σ n
2π
−∞
La stima fatta in precedenza
che
√ può essere migliorata nel seguente modo. La variabile
1
1
compare nella (19) è (Sn − µ) n/σ. Volendo trovare n tale che P (|Sn − p| > 20
) ≤ 100
, è
sufficiente scrivere
µ
√ ¶
√
n
1
P (|Sn − p| > ) = P |Sn − p| n/σ >
20
20σ
n
Ã
!
Z10 2
x
X1 + X2 + · · · + Xn − nµ
n
1
√
= P
> p
→1− √
e 2 dx
σ n
2π
20 p(1 − p)
n
− 10
dove abbiamo utilizzato E(Sn ) = p , V ar(Sn ) = p(1−p)
e p(1 − p) ≤ 1/4. Osservando adesso la
n
tabella in fondo a queste note troviamo che è sufficiente prendere n/10 ≥ 2, 58, cioè n ≥ 26.
A dire il vero non abbiamo affatto tenuto conto del limite che compare nel teorema centrale.
Il teorema non afferma che per ogni n vale una certa cosa ma che questa vale al tendere di
n all’infinito. Nella pratica si osserva che già dopo pochi lanci di una moneta equa la distribuzione di probabilità si adatta benissimo alla forma a campana della distribuzione normale.
L’approssimazione è peggiore per valori di p diversi da 1/2.
Nell’esempio appena fatto, la probabilità con cui eravamo disposti a sbagliare era fissata
all’1%. Questo si chiama il livello di significatività del nostro test. Se il nostro test lo
avevamo portato avanti per controllare l’equità di una moneta utilizzata da un amico, fissare il
livello di significatività vuol dire decidere con quale probabilità siamo disposti ad accusare di
truffa l’amico nel caso che la moneta sia equa. Tale numero dipende quindi dall’amicizia, dalla
rilevanza del test o quant’altro: comunque sia dipende da fattori che non hanno niente a che
vedere con la probabilità o la statistica.
19
I test del tipo descritto sono cosı̀ comuni che gli statistici utilizzano una terminologia particolare per due livelli di significatività specifici: 1% e 5%. Un esperimento è detto significativo
se ci permette di rifiutare il modello congetturato avendo posto il livello di significatività pari
al 5%; è detto molto significativo se ci permette il rifiuto con il livello di significatività pari
all’1%.
Un altro concetto simile al livello di significatività è quello dell’intervallo di confidenza.
Tutti abbiamo sentito parlare di intervalli di confidenza quando ascoltiamo il susseguirsi di
proiezioni dopo una tornata elettorale. Per chiarire il significato facciamo un esempio diverso,
dove ancora interviene un processo di Bernoulli.
Supponiamo che due compagnie aeree in competizione abbiano in programma un volo su
una stessa tratta allo stesso orario. Entrambe sanno che il numero di passeggeri sulla tratta è
costantemente 1000 e che la scelta di ogni passeggero è completamente casuale, indipendente
dalle scelte altrui e che privilegia ogni compagnia con probabilità 1/2. Nessuna compagnia ha
interesse a rifiutare passeggeri per mancanza di posti ma, allo stesso tempo, utilizzare aerei con
un elevato numero di posti aumenta i costi per la compagnia. Per avere la certezza di non dover
mai rifiutare passeggeri, l’unica possibilità è prevedere 1000 posti a sedere. Se sono disposte
ad accettare una certa probabilità di rifiutare clienti, di quanto può essere ridotto il numero di
posti?
Per ogni compagnia il numero di richieste di biglietti per un singolo volo è una variabile
aleatoria X la cui distribuzione di probabilità è quella che abbiamo già analizzato in precedenza
e che abbiamo immaginato come somma di 1000 variabili Xk , ognuna con valori 0 e 1, con
media p = 1/2 e varianza p(1 − p) = 1/4. Ne segue che X ha media 500 e varianza 1000/4,√cioè
deviazione standard 15, 81 circa. Per il teorema centrale, la variabile aleatoria (X − 500)/ 250
ha una distribuzione di probabilità molto simile alla distribuzione normale. Se siamo interessati
all’intervallo di confidenza del 95% (cioè siamo disposti a rifiutare passeggeri con la probabilità
del 5%) allora dobbiamo cercare nella tabella della N (0, 1) quale è il più piccolo valore di z che
fornisce un numero maggiore di 0, 45 (al valore della tabella dobbiamo aggiungere l’integrale
tra −∞ e 0, che è 1/2); troviamo 1, 65 e quindi possiamo affermare che
µ
¶
X − 500
95
√
P
≤ 1, 65 ≥
100
250
e quindi
95
P (X ≤ 526, 08) ≥
.
100
Dunque è sufficiente che ogni compagnia predisponga aerei con soli 527 posti per non dover
rifiutare passeggeri più del 5% delle volte. Se esigiamo una confidenza maggiore, ad esempio
il 99%, allora cerchiamo il più piccolo numero che supera
1, 49 nella tabella (trovando 2, 33) e
√
possiamo concludere che sono sufficienti 500 + 2, 33 250 posti a sedere sull’aereo, cioè soli 537
posti.
In questo esempio l’intervallo di confidenza è [0, 537].
La confidenza è la probabilità di non sbagliare una previsione, dove la previsione è espressa
dall’affermazione che la variabile X cade in un certo intervallo, detto intervallo di confidenza.
Gli intervalli di confidenza possono essere unilateri (come nel nostro esempio) o bilateri (come
avviene nelle proiezioni elettorali).
20
7. Statistica
Il termine statistica fu introdotto da Gerolamo Ghislini nel 1647 per indicare la scienza
descrittiva delle qualità ed elementi caratterizzanti degli Stati. Da allora molto è cambiato e
non è affatto semplice caratterizzare oggi la statistica.
Una definizione ricorrente afferma che la statistica si occupa dell’analisi quantitativa dei
fenomeni collettivi, fenomeni cioè composti da un grande numero di unità elementari.
Per cercare di essere più espliciti, potremmo dire che la statistica è la scienza che appronta
metodi, fondati sul calcolo delle probabilità, per la raccolta, la sintesi, l’analisi, l’elaborazione
e l’interpretazione di dati numerici.
Con lo sviluppo dell’informatica verso la metà del secolo scorso è stato possibile gestire
quantità di dati sempre più rilevanti diminuendo altresı̀ il tempo necessario per l’elaborazione.
Ciò ha reso accessibili a tutti gli strumenti fondamentali della statistica ed onnipresenti i risultati
di elaborazioni più o meno sofisticate di dati.
Questa è la principale ragione della necessità di conoscere i metodi e strumenti basilari della
statistica per ogni individuo che voglia consapevolmente partecipare alla realtà attuale.
Il linguaggio della statistica è rappresentativo della sua storia: affonda le sue radici nell’analisi
di fabbisogni e caratteristiche di popolazioni, si sovrappone sovente con quello della probabilità
ed infine si intreccia con quello delle scienze sperimantali.
Il punto di partenza di un’indagine è una popolazione (o collettivo statistico) composta di
singoli individui o unità statistiche (ma anche elemento o caso) ed alcune caratteristiche
o variabili (o caratteri) associate agli elementi della popolazione in esame.
Una variabile si realizza in corrispondenza di ogni unità statistica in una modalità. Le
modalità di un carattere devono essere
• esaustive, cioè devono rappresentare tutte le possibilità
• incompatibili, quando ad ogni unità è associabile una sola modalità
(come le alternative in probabilità).
Le variabili si dividono in qualitative, espresse da aggettivi o attributi, e quantitative se
espresse da numeri. Le variabili qualitative si dividono in ordinali, quando esiste un ordine
naturale e preciso tra le modalità, e nominali in caso contrario. Tra le variabili quantitative si
distinguono quelle discrete e quelle continue.
Una volta raccolti i dati relativi ad alcune caratteristiche di una popolazione numerosa, ci
sono vari modi di presentarli. Se una variabile qualitativa o quantitativa discreta X assume le
modalità x1 , x2 , . . . , xk , allora indichiamo con n1 , n2 , . . . , nk le rispettive frequenze assolute,
cioè il numero di volte con cui la singola modalità viene osservata nella popolazione.
Ad esempio, i dati forniti dall’ISTAT sull’età
Età
Maschi Femmine Totale
della popolazione italiana nel 2006 vengono
0
281997
265162
547159
divulgati attraverso una tabella che riporta le
1
285961
271258
557219
frequenze assolute delle singole età, simile a
2
282708
268157
550865
quella abbozzata a fianco. Il numero 550865
3
279183
265925
545108
nella stessa riga del numero 2 indica che sono
4
280041
265457
545498
stati rilevati più di mezzo milione di abitan5
284193
268410
552603
ti con età di 2 anni. Osserviamo che l’IS..
..
..
..
.
.
.
.
TAT nella colonna delle età dopo il numero
99
1250
5400
6650
99 pone una sola casella con l’indicazione 100
100 e più
1729
8425
10154
e più. Probabilmente dovrà presto rivedere
Totale
28526888 30224823 58751711
questa convenzione, dato che già nel 2006 gli
ultracentenari erano 10154.
Come abbiamo visto per la probabilità degli eventi, un modo efficace per rappresentare i dati
è quello di un grafico ad istogrammi. Riportiamo di seguito il grafico relativo all’esempio.
21
Se avessimo un analogo grafico per la popolazione di un’altra nazione potremmo voler confrontare le due distribuzioni di frequenze, per affermare ad esempio che una è più anziana
dell’altra. Chiaramente i singoli valori non forniscono nessuna informazione in proposito: si
devono almeno normalizzare. Si considerano quindi le frequenze relative, ottenute dividendo
la frequenza assoluta per il numero totale di individui della popolazione. Spesso si preferiscono
le frequenze percentuali, che sono le precedenti moltiplicate per 100. Le frequenze relative
sono ovviamente legate al concetto di probabilità. Infatti esprimono la probabilità che un
individuo scelto a caso dalla popolazione realizzi quella particolare modalità (in ipotesi di
equiprobabilità).
Ancora più significative per un confronto sono
le cosiddette frequenze cumulative. Queste
possono essere definite per caratteristiche qualitative ordinali o quantitative come le frequenze
di eventi che non prescrivono la modalità ma
ne danno un limite (superiore o inferiore). Nel
nostro esempio possiamo considerare il numero
di abitanti con età maggiore o uguale a k: la
distribuzione delle frequenze cumulative corrispondenti è schematizzata qui a fianco.
Torniamo ad analizzare la tabella della pagina precedente. Possiamo osservare che età e sesso
del singolo individuo sono variabili diverse e che quindi quella tabella non riporta soltanto le
frequenze delle due variabili (sarebbero state sufficienti l’ultima colonna e l’ultima riga), ma
qualcosa di più. Vengono mantenute distinte non solo le singole modalità delle due variabili ma
tutte le possibili coppie di modalità. La variabile età ha 101 modalità diverse, cioè 101 possibili
valori; la variabile sesso ha solo due modalità. La tabella in questione fornisce le frequenze di
tutte le possibili accoppiate (e, s) e quindi 101 × 2 frequenze. Se avessimo analizzato la variabile
età e la variabile regione di residenza, avremmo dovuto riportare 101 × 20 frequenze. In casi
analoghi si parla di distribuzione doppia di frequenze o di distribuzione congiunta di
due variabili statistiche. La rappresentazione completa può essere fornita da una opportuna
matrice o da un grafico a istogrammi con più serie come quello della pagina precedente.
22
Un problema consueto in statistica è quello di cercare di descrivere la distribuzione di frequenze di una variabile su una popolazione ampia partendo dai dati ottenuti su un campione,
cioè su un sottoinsieme relativamente piccolo della popolazione totale. Il campionamento, per
certi versi simile a quello incontrato in probabilità, può essere effettuato in vari modi (casuale,
stratificato, per quote, ecc.). Non entreremo nel merito e supporremo di avere già fissato il
campione.
Il problema adesso può essere diviso in due parti. Prima cercare di sintetizzare i dati raccolti
in modo da evidenziare quelli più interessanti (caratteristica puramente soggettiva) e poi utilizzare i dati (o i soli indicatori di sintesi scelti) per fare delle previsioni sull’intera popolazione.
Gli indicatori sintetici o caratteristici più utilizzati sono:
• campo di variazione o range: quando la variabile è ordinale o quantitativa, cioè
quando è possibile ordinare le possibili modalità e quindi parlare di maggiore e minore, il
campo di variazione è dato dall’intervallo determinato dalla modalità minima e massima
osservata sul campione;
• moda o valore tipico: è definita come la modalità osservata nel maggior numero dei
casi e quindi non dipende dalle altre modalità;
• media: anche se solo per variabili quantitative, esistono diverse definizioni di media
(aritmetica, geometrica, armonica, quadrata, ecc.); la più utilizzata in statistica è la
media aritmetica;
• mediana: solo per variabili ordinali o quantitative è definita come la modalità che
bipartisce la distribuzione, cioè tale che una metà dei dati osservati sono maggiori o
uguali e l’altra metà sono minori o uguali della mediana stessa;
• percentili o quantili o centili: possono essere visti come una generalizzazione della
mediana; invece di dividere i dati osservati a metà (una volta ordinati) il k-esimo percentile li divide in un k% e (100 − k)%. Il 25◦ percentile è detto primo quartile, il 50◦
percentile è la mediana o secondo quartile, il 75◦ è detto terzo quartile;
• differenza interquantilica: definito per le variabili quantitative, è esattamente la
differenza tra il terzo ed il primo quartile;
• varianza: è definita per caratteristiche quantitative con la stessa formula incontrata
per le variabili aleatorie discrete e quindi misura la differenza dalla media;
• scarto quadratico medio: è la radice quadrata della varianza.
La relazione tra statistica e probabilità è cosı̀ evidente che non serve giustificare l’interesse
particolare che avremo nello stimare la media e la varianza delle variabili sulla popolazione. La
media su un campione si chiama media campionaria e si calcola con la formula (6), dove le
probabilità pk vanno sostituite con le frequenze relative, cioè con le frequenze assolute nk divise
per la cardinalità del campione, oppure direttamente con la formula
n
(20)
µ=
1X
xk ,
n k=1
dove n indica il numero di elementi nel campione, xk le singole modalità registrate.
Il teorema centrale garantisce che, all’aumentare della numerosità del campione, la media
campionaria tende alla media della variabile in esame con probabilità 1.
La varianza campionaria invece si definisce tramite la formula
n
(21)
1 X
σ =
(xk − µ)2 ,
n − 1 k=1
2
dove n indica il numero di elementi nel campione, xk le singole modalità registrate e µ la media
campionaria. Osserviamo che non si divide per n, come potremmo aspettarci, ma per n − 1;
chiaramente la differenza è trascurabile quando n è molto grande ma rilevante per piccoli valori
di n. Ciò è dovuto al fatto che stiamo stimando contemporaneamente la media e la varianza.
23
Come conseguenza del teorema centrale abbiamo il seguente principio.
Principio fondamentale della statica. Fatti n rilevamenti indipendenti di una stessa
quantità X, per n abbastanza grande (n ≥ 30) la migliore previsione statistica di ogni ulteriore
rilevamento si ottiene considerando X come una variabile aleatoria normale con media µ e
deviazione standard σ.
8. Test di ipotesi
Abbiamo già avuto modo di analizzare un test di ipotesi quando abbiamo immaginato di
verificare l’equità di una moneta provando a lanciarla un certo numero di volte. Cerchiamo
adesso di inquadrare l’esempio in un contesto più generale.
I test riguardano la distribuzione di probabilità di una variabile aleatoria o semplicemente
qualche parametro che dipende da questa (quali la media o la varianza).
Inizialmente si assume che tale distribuzione (o parametro) ricalchi una previsione teorica
o sperimentata precedentemente. Il test statistico mira ad accettare o rifiutare questa assunzione. Nel linguaggio statistico stiamo formulando la cosiddetta ipotesi nulla: i dati raccolti
dall’indagine possono avere distribuzione (o parametro) diversa da quella assunta, ma le differenze sono imputabili alla casualità del risultato stesso, a fluttuazioni campionarie.
Rifiutare l’ipotesi nulla vuol dire accettare l’ipotesi alternativa: le differenze non sono
imputabili al caso e quindi la distribuzione di probabilità non è quella assunta.
Nell’esempio della moneta, avevamo assunto come ipotesi nulla l’equità della moneta, da
cui l’affermazione che la media dei successi su 20 lanci è 10. Abbiamo anche osservato che
pretendere 10 successi su 20 lanci è molto esigente. Ci siamo quindi preoccupati di determinare
se il numero di successi ottenuti era significativamente diverso da 10.
Per poter prendere una decisione sulla base di un test abbiamo sempre bisogno di fissare
un livello di significatività soggettivamente opportuno. Come abbiamo già detto, tale livello
esprime la probabilità di rifiutare l’ipotesi nulla nel caso che sia vera.
Nel caso della moneta abbiamo utilizzato la media campionaria (sul campione di 20 lanci)
per stimare il valor medio della variabile numero di successi e quindi la probabilità p di successo in ogni singolo lancio. L’analisi teorica dell’esperimento ci ha portato a considerare la
distribuzione binomiale con parametro p = 1/2 (che poi per semplicità abbiamo approssimato con la distribuzione normale) e conseguentemente ad individuare un intervallo ([5, 15] nel
nostro esempio) in modo che la decisione se accettare o rifiutare l’ipotesi nulla con il livello di
significatività prescelto è presa a seconda che la media campionaria sia contenuta o no in tale
intervallo.
In generale potremo utilizzare una funzione
diversa dalla media campionaria che chiameremo test o statistica; l’aspetto fondamentale è
che se ne conosca la distribuzione nel caso in
cui l’ipotesi nulla sia vera. E proprio grazie a
questa distribuzione dividiamo i valori possibili
del test in due regioni: la regione di rifiuto e
la regione di accettazione, con ovvio riferimento alla scelta finale. La regola di decisione
del test dipende quindi dal livello di significatività e dalla distribuzione di probabilità della
statistica utilizzata.
Nel linguaggio statistico, un esperimento o
campione che ci permette di rifiutare l’ipotesi
nulla con livello di significatività del 5% (o 1%)
è detto statisticamente significativo (o molto significativo).
24
Uno dei test più utilizzati è proprio quello che abbiamo già discusso: l’ipotesi nulla assegna
un determinato valore alla media di una variabile aleatoria X ed il test prescelto è la media
campionaria µ su successive realizzazioni di X.
Nel caso in cui la distribuzione di probabilità di µ sia teoricamente nota (nell’esempio della
moneta quella binomiale) le regioni di rifiuto e accettazione sono più o meno facilmente ottenibili una volta fissato il livello di significatività e l’ipotesi alternativa, che potrebbe essere
unidirezionale o bidirezionale. In particolare la regione di accettazione è definita come un intervallo di confidenza (unilatero o bilatero) con livello di confidenza pari a 1 meno il livello di
significatività.
Basandoci sul teorema centrale, anche se la distribuzione di probabilità di µ è ignota, quando
il campione in esame è sufficientemente ampio (> 100) possiamo approssimarla con una distribuzione normale con media determinata dall’ipotesi nulla (i valori medi di X e di µ sono uguali)
e varianza pari alla varianza campionaria.
Se invece il campione è limitato, allora si utilizza come riferimento un’altra distribuzione di
probabilità: la distribuzione di Student di ordine g. La densità di probabilità di questa
distribuzione è la seguente:
(22)
f (x) =
C(g)
(1 +
x2 g+1
) 2
g
,
dove g è un parametro detto ordine o numero dei gradi di libertà della distribuzione e C(g)
è la costante giusta affinché l’integrale della f esteso a tutta la retta reale sia 1.
Questa distribuzione, spesso chiamata t di Student o semplicemente t, prende il nome dallo
pseudonimo usato da William Sealy Gosset nell’articolo del 1908 in cui fu introdotta. Gosset
era un chimico impiegato nella famosa ditta Guinness di Dublino ed era costretto a pubblicare
sotto pseudonimo a causa dell’esclusiva nel contratto con la birreria. Fu il primo a notare
che, date n variabili aleatorie con la stessa distribuzione di probabilità, la variabile aleatoria
normalizzata
X1 + X2 + · · · + Xn − nµ
√
(23)
,
σ n
dove µ è la media e σ è la deviazione standard campionaria, può avere una distribuzione di
probabilità molto diversa dalla normale standard quando n è piccolo. Il teorema centrale
può essere utilizzato per dimostrare che al tendere di n all’infinito la normalizzata tende ad
uniformarsi alla distribuzione normale standard ma, come abbiamo già notato, non quantifica
la vicinanza per specifici valori di n.
Supponendo che le variabili Xk siano tutte
normali standard è possibile dimostrare che la
variabile normalizzata (23) ha densità di probabilità data dalla (22) con n − 1 gradi di libertà,
cioè con g = n − 1. Una variabile con distribuzione di probabilità t di Student di ordine g ha
g
.
media nulla e varianza pari a g−2
A fianco sono riportati i grafici della densità
(22) per g pari a 1, 3 e 30. La forma del grafico è molto simile ad una Gaussiana ma la funzione tende a zero molto più lentamente per x
che tende all’infinito. Il valore della funzione in 0 aumenta al variare di g. Per g = 30 il grafico
è indistinguibile da quello della Gaussiana standard, cioè con varianza 1.
In fondo a questi appunti trovate varie tabelle, tra cui quella con i principali valori della t di
Student per diversi gradi di libertà.
25
Un altro tipo di test abbastanza frequente è quello che riguarda la varianza anziché la media.
Ad esempio, supponiamo di avere un certo strumento per effettuare una misurazione. La ditta
fornitrice garantisce una specifica precisione. Una misura è inevitabilmente accompagnata da
incertezza e quindi dovrebbe essere sempre corredata dall’indicazione dell’intervallo di indeterminazione. Pertanto la misura fornita da ogni strumento è una variabile aleatoria. Indichiamo
con X la misura dello strumento in esame. L’accuratezza di uno strumento quantifica la differenza tra la media di X e la misura reale, mentre la precisione riguarda lo scostamento dalla
media (da non confondere con la sensibilità e la portata di uno strumento che rappresentano il
minimo e il massimo valore misurabile). Se lo strumento è accurato, ci aspettiamo che il valore
medio di un discreto numero di misure ottenute sia sostanzialmente esatto. Come misura della
precisione possiamo prendere lo scarto quadratico medio di X.
Supponiamo adesso di avere una serie di 10 misurazioni
X : 216,82 216,93 216,95 216,99 217,00 217,02 217,04 217,05 217,08 217,13
e di voler sottoporre a verifica l’ipotesi nulla: V ar(X) = 0,005 . La media campionaria della
serie è 217,001, mentre la varianza campionaria è 0,00752. Quindi la deviazione standard nel
campione è 0,08671 e quella ipotizzata è 0,0707.
Dobbiamo decidere se la differenza riscontrata (0,00752 − 0,005 = 0,00252) è imputabile
alle cosiddette fluttuazioni campionarie, oppure se è rivelatrice di una precisione dichiarata
maggiore di quella reale. La decisione, come in ogni test statistico, dipenderà dal livello di
significatività prescelto (e questa è la parte facile) e dalla distribuzione di probabilità del test
che, nel caso specifico, è la varianza campionaria.
Questo è un caso in cui possiamo dare anche una dimostrazione della scelta della distribuzione. Se l’ipotesi nulla è verificata, allora la variabile X − µ, dove µ rappresenta la media di
X, può essere vista come una variabile aleatoria normale con media 217,001 e varianza 0,005.
Ciò che dobbiamo determinare è la distribuzione della variabile (X − µ)2 .
Indichiamo con N (x) e f (x) rispettivamente la densità di probabilità di X − µ e di (X − µ)2 .
Per definizione di densità, sfruttando la regolarità di N (x) (uniforme continuità), abbiamo
P (x − h ≤ X − µ ≤ x + h)
.
h→0
2h
Analogamente, ipotizzando che anche f (x) sia una funzione regolare, possiamo scrivere
√
¡√
¢
x−h≤X −µ≤ x+h
2P
P (x − h ≤ (X − µ)2 ≤ x + h)
f (x) = lim
= lim
,
h→0
h→0
2h
2h
dove √
abbiamo tenuto conto della simmetria
di X − µ rispetto allo 0 (e che {a ≤ t2 ≤ b} equivale
√
√
√
a {− b ≤ t ≤ − a} ∪ { a ≤ t ≤ b}). Dunque
√
¡√
¢√
√
√
P
x−h≤X −µ≤ x+h
N ( x)
x+h− x−h
√
√
= √
f (x) = lim
.
h→0
h
x
x+h− x−h
N (x) = lim
Pertanto, dalla formula N (x) =
√ 1
2πσ 2
x2
e− 2σ2 ricaviamo
x
e− 2σ2
f (x) = √
.
2πσ 2 x
Per σ = 1, la densità di probabilità appena introdotta (e la corrispondente distribuzione) è
molto utilizzata nei test statistici ed è comunemente chiamata distribuzione χ2 di ordine 1 o
con 1 grado di libertà.
In generale si definisce la distribuzione χ2 di ordine g o con g gradi di libertà tramite
la sua densità di probabilità:
g−2
(24)
x 2 e−x/2
.
χ (x) = g/2
2 Γ(g/2)
2
26
Una variabile aleatoria con distribuzione χ2 si dice semplicemente una variabile χ2 . La
frequente apparizione di variabili χ2 è in parte giustificata dai seguenti risultati:
(R1) Se X1 , X2 , . . . , Xn sono n variabili χ2 indipendenti con g1 , g2 , . . . , gn gradi di libertà
rispettivamente, allora la loro somma è una variabile χ2 con g = g1 + g2 + · · · + gn gradi
di libertà;
(R2) Se X1 , X2 , . . . , Xn sono n normali standard indipendenti, allora la somma dei loro
quadrati è una variabile χ2 con n gradi di libertà;
(R3) Fatti n rilevamenti indipendenti di una stessa variabile normale con media µ e varianza
σ 2 , la variabile (n − 1)σ 2 /σ 2 , dove σ è la varianza campionaria, è χ2 con (n − 1) gradi
di libertà.
A fianco sono rappresentate le densità (24) per g
pari a 3, 5 e 10. Il valore massimo della funzione è
assunto in g − 2. La media è g e la varianza è 2g. Al
tendere di g all’infinito la funzione diventa Gaussiana.
I percentili di queste distribuzioni si trovano tra le
tabelle in fondo a queste pagine.
Torniamo adesso al nostro test. Per il risultato (R3)
citato sopra, la statistica più conveniente è il rapporto tra varianza campionaria e varianza ipotizzata moltiplicato per l’ampiezza del campione
diminuita di 1, che nel nostro caso specifico diventa
0,00752
9
= 13,536 .
0,005
Questo valore va relazionato alla distribuzione χ2 con 9 gradi di libertà. Nella tabella del χ2 ,
alla riga corrispondente ai 9 gradi di libertà, il primo numero inferiore al valore ottenuto si
trova nella colonna della significatività del 14%. Ciò indica che se il livello di significatività
prescelto è inferiore al 14%, allora non dobbiamo rifiutare l’ipotesi che lo strumento abbia una
precisione pari a quella dichiarata dalla ditta fornitrice.
In letteratura si trovano molti altri test di ipotesi, basati su altrettante distribuzioni teoriche,
che qui non tratteremo. Nel prossimo capitolo incontreremo test statistici di diverso tipo.
9. Indipendenza, correlazione e regressione
Occupiamoci ora di un altro aspetto fondamentale della statistica: l’analisi dell’associazione
tra due caratteristiche di una popolazione.
Uno dei concetti principali di questa analisi lo abbiamo già incontrato ed è l’indipendenza
tra variabili. In statistica si trovano altri concetti di indipendenza e quello che qui analizzeremo
va sotto il nome di indipendenza assoluta. Due variabili o caratteri di una popolazione sono
assolutamente indipendenti quando la conoscenza della modalità con cui si manifesta una delle
due variabili non fornisce alcuna informazione sulle possibili modalità della seconda.
Un metodo statistico per verificare l’indipendenza assoluta di due caratteri si basa sulla
distribuzione congiunta o distribuzione doppia di frequenze. Come abbiamo già visto, la distribuzione doppia di due variabili può essere rappresentata graficamente oppure con una tabella,
detta tabella a doppia entrata o tabella di correlazione.
Facciamo un esempio. Consideriamo come popolazione gli studenti delle scuole elementari
italiane che hanno partecipato al progetto Censimento a scuola promosso dall’ISTAT nel 2001.
Come caratteri scegliamo il sesso X (due possibili modalità: maschio e femmina) e la zona
geografica di appartenenza Y (cinque possibili modalità: nord ovest, nord est, centro, sud e
isole). La corrispondente tabella a doppia entrata ha 6 righe e 3 colonne, dato che abbiamo
aggiunto alle modalità previste anche una riga ed una colonna finale con i totali. L’ultima
27
colonna ci indica il numero di individui della popolazione divisi per aree geografiche e quindi
rappresenta la distribuzione delle frequenze assolute della variabile Y . Questa, come parte di
una distribuzione congiunta, prende il nome di distribuzione marginale del carattere Y .
Analogamente l’ultima riga rappresenta la distribuzione marginale di X.
Maschio Femmina Totale
Nord Ovest
1355
1350
2705
Nord Est
192
188
380
Centro
484
462
946
Sud
876
814
1690
Isole
743
741
1484
Totale
3650
3555
7205
Tabella a doppia entrata delle frequenze assolute.
Se invece analizziamo una colonna o riga diversa, possiamo ancora vederla come una distribuzione. Ad esempio, la terza riga fornisce le frequenze assolute del carattere X relativamente
agli studenti del centro Italia. Questa distribuzione si chiama distribuzione condizionata di
X alla modalità centro della variabile Y .
Se le variabili X e Y fossero assolutamente indipendenti, allora le distribuzioni condizionate
di X alle singole modalità di Y sarebbero tutte uguali e quindi tutte uguali alla distribuzione
marginale di X.
Il modo più semplice per verificare l’indipendenza assoluta di due variabili è dunque quello
di osservare una tabella a doppia entrata con le frequenze relative (o percentuali) anziché le
frequenze assolute. Nel caso della rilevazione precedente otterremmo distribuzioni condizionate
che si avvicinano abbastanza alla distribuzione marginale di X, ma non sono esattamente
uguali.
Nord Ovest 50,09%
49,91% 100%
Nord Est
50,53%
49,47% 100%
Centro
51,16%
48,84% 100%
Sud
51,83%
48,17% 100%
Isole
50,07%
49,93% 100%
Totale
50,66%
49,34% 100%
Tabella a doppia entrata delle frequenze percentuali.
Quindi le due variabili dell’esempio non sono assolutamente indipendenti.
Siamo nuovamente di fronte ad un risultato contrastante la nostra aspettativa e possiamo pertanto chiederci se la variazione osservata sia imputabile alle ormai note fluttuazioni
statistiche oppure riveli una distribuzione del carattere sesso tra gli studenti del campione
realmente dipendente dall’area geografica. In termini statistici abbiamo formulato l’ipotesi
nulla le due variabili sono indipendenti e l’ipotesi alternativa esiste un legame tra le due variabili
e vorremmo programmare un test di ipotesi.
In questo caso il test più utilizzato è il cosidetto test del Chi-quadrato introdotto nel 1900
da Karl Pearson (1857-1936). Vediamo come è definito.
Indichiamo con nij la frequenza assoluta rilevata congiuntamente per la i-esima modalità di
X e per la j-esima modalità di Y , in altri termini il numero della tabella scritto nella riga
e colonna corrispondenti alle modalità considerate. Indichiamo con ni ∗ la frequenza assoluta
della i-esima modalità di X che si trova quindi nella riga del totale. Analogamente con n∗j
indicheremo le frequenze della distribuzione marginale di Y . Sia infine n la cardinalità del
campione (7205 nel nostro caso). Dividiamo il compito in passi successivi.
28
1◦ ) Si costruisce la tabella delle frequenze assolute teoriche d’indipendenza a partire
dalle distribuzioni marginali. Indicate con n0ij tali frequenze si osserva che verificano la
proporzione n0ij : n∗j = ni∗ : n e risultano quindi definite dalla formula
ni ∗ n∗j
n0ij =
.
n
2◦ ) Si calcolano le contingenze, cioè le differenze (nij − n0ij ) tra le frequenze osservate e
quelle teoriche d’indipendenza per ogni cella della tabella.
3◦ ) Si calcola per ogni cella il quadrato della contingenza diviso per la frequenza teorica
d’indipendenza.
4◦ ) Sommando i valori ottenuti per tutte le celle si ottiene il test χ2 della distribuzione
congiunta in esame. Esplicitamente si ha
X X (nij − n0ij )2
2
χ =
.
n0ij
i
j
Come distribuzione teorica del test χ2 possiamo assumere la distribuzione χ2 di ordine 4; il
numero di gradi di libertà da considerare è dato dalla formula
(numero di righe − 1) × (numero di colonne − 1) .
Scelto quindi il livello di significatività desiderato, osservando l’opportuna tabella in fondo a
queste pagine, possiamo determinare le regole di decisione. In questo caso è naturale prendere
in considerazione intervalli unilateri e pertanto la decisione sarà presa confrontando il χ2 della
distribuzione congiunta in esame con il percentile (determinato dalla significatività richiesta)
della distribuzione χ2 di ordine 4.
Svolgiamo tutti i calcoli nel caso dell’esempio proposto. Scelto il livello di significatività del 5%,
la tabella della distribuzione χ2 di ordine 4 indica come valore limite 9, 48773. Quindi decideremo di
imputare al caso le discrepanze tra frequenze osservate e frequenze teoriche se l’indice χ2 della nostra
tabella è inferiore a 9, 48773. Il calcolo esplicito del nostro test prevede i seguenti passaggi:
Nord Ovest 1370,33
1334,67
2705
Nord Est
192,51
187,49
380
Centro
479,24
466,76
946
Sud
856,14
833,86
1690
Isole
751,78
732,22
1484
Totale
3650
3555
7205
Tabella delle frequenze teoriche.
Nord Ovest
-15,33
15,33
0
Nord Est
-0,51
0,51
0
Centro
4,76
-4,76
0
Sud
19,86
-19,86
0
Isole
-8,78
8,78
0
Totale
0
0
0
Tabella delle contingenze.
(−15, 33)2 (−0, 51)2 (4, 76)2
(−19, 86)2 (8, 78)2
+
+
+ ··· +
+
= 1, 5879 .
1370, 33
192, 51
479, 24
833, 86
732, 22
Pertanto l’ipotesi nulla è accettata al livello di significatività del 5%.
La tabella riportata in queste pagine non è completa e termina al livello di significatività del 15%.
Anche per tale livello l’ipotesi sarebbe stata accettata. Il primo percentile al di sotto del valore di χ2
trovato è l’ottanduesimo.
χ2 =
Un metodo più sbrigativo, anche se meno accurato, per verificare il grado di indipendenza
assoluta tra due variabili si basa sull’indice V di Cramer. Indicati con r e c rispettivamente il
numero di righe e di colonne nella tabella (totali esclusi e quindi il numero di modalità possibili
delle due variabili), si definisce
s
χ2
.
(25)
V=
n min{r − 1, c − 1}
29
L’indice V di Cramer è sempre compreso tra 0 e 1; vale 0 quando si ha indipendenza assoluta
e vale 1 quando una delle due variabili determina univocamente la modalità dell’altra. Cioè
i valori estremi sono assunti per comportamenti opposti della relazione tra due variabili. Se
il valore è intermedio allora possiamo ricavarne solo un’indicazione sul comportamento più
appropriato e non una presunta probabilità.
Quando l’indice V di Cramer non è nullo o addirittura è vicino
a 1, si parla di una più o meno evidente correlazione tra le
due variabili in oggetto. Altri termini utilizzati sono quelli di
covariazione e interrelazione. Gli esempi a tutti noti sono
quelli in cui interviene un rapporto di causa-effetto, ma è bene
osservare che l’eventuale interpretazione in senso causale di una
correlazione prescinde comunque dai compiti della statistica.
Se le due variabili considerate sono quantitative allora entrano
in campo anche altri strumenti della statistica usati frequentemente nelle scienze sperimentali. Il primo per semplicità di realizzazione ed interpretazione è rappresentato dai grafici di dispersione,
di cui la figura qui a lato è un esempio.
X
0,36
0,14
0,73
0,49
0,84
0,91
0,56
0,17
0,66
0,33
0,40
0,95
0,63
0,01
0,46
0,87
0,88
0,89
0,36
0,02
0,36
0,81
0,01
0,74
0,71
0,56
0,75
Y
0,86
0,32
1,06
0,51
1,14
1,02
0,73
0,37
1,03
0,61
0,57
1,20
0,69
0,49
0,78
1,00
1,19
1,28
0,47
0,15
0,84
0,99
0,12
0,98
0,93
0,72
0,79
I valori assunti dalle variabili X e Y sul singolo individuo o caso del campione in esame vengono interpretati come coordinate in un sistema di riferimento ortogonale del piano. Il grafico di dispersione riporta i punti aventi queste
coordinate. L’aspetto negativo di questo tipo di rappresentazione è la perdita
dell’informazione sulle frequenze con cui i singoli valori sono rilevati. Tale difetto è statisticamente inesistente se le variabili sono continue. L’aspetto positivo
è invece la propensione ad evindenziare leggi matematiche che collegano le due
variabili.
Immaginiamo ad esempio di disporre di 27 campioni di un certo materiale e di
misurare su ognuno di essi due caratteristiche fisiche che chiameremo X ed Y
per semplicità. La tabella a lato riporta le misurazioni ottenute, dove ogni riga
contiene le informazioni su un singolo campione.
Il grafico di dispersione corrispondente è quello sopra riportato. È del tutto
intuitivo immaginare una relazione forte tra queste due variabili, cioè una legge
matematica che per ogni valore osservato di X fornisce un ipotetico valore di Y
sufficientemente vicino ai valori eventualmente osservati.
A seconda della funzione matematica chiamata in causa si potranno effettuare
calcoli diversi. Per ora limitiamoci al caso in cui la legge desiderata sia lineare. In
altri termini immaginiamo di vedere i punti del grafico di dispersione addensati
intorno ad una retta particolare. Tra tutte le rette del piano, cerchiamo quella
che meglio si dispone nella nuvola di punti. Cerchiamo di essere più precisi.
Indichiamo con xi e yi i dati ottenuti sull’i-esimo campione e con y = mx + q
la generica retta del piano (ovviamente stiamo assumendo che tale retta non sia
verticale). Se valesse yi = mxi + q per ogni i, allora tutti i punti del grafico di
dispersione sarebbero proprio sulla retta. In generale tali equazioni non saranno
verificate esattamente, ma solo con un certo scarto o errore.
La retta che meglio approssima i dati raccolti è quella determinata dai valori m e q che
minimizzano la funzione
27
1 X
S(m, q) =
(yi − mxi − q)2 ,
27 i=1
cioè lo scarto quadratico medio. Questo è noto come il metodo dei minimi quadrati.
30
Per trovare gli eventuali punti di minimo della funzione di due variabili S, cerchiamo i punti
critici, cioè quei valori di m e q che verificano il sistema
( ∂
S(m, q) = 0
∂m
.
∂
S(m, q) = 0
∂q
Otteniamo le equazioni

27
P



xi (yi − mxi − q) = 0

i=1




27
P
(yi − mxi − q) = 0
i=1
da cui ricaviamo facilmente
(26)
q=
27
X
yi − mxi
i=1
27
= y − mx ,
dove y e x indicano le medie campionarie di Y e X rispettivamente e da questa, sostituita nella
prima equazione del sistema,
27
P
(27)
m=
xi yi − 27x y
i=1
27
P
i=1
=
x2i − 27x2
Cov(X, Y )
,
V ar(X)
dove, ricordando le formule (13) e (14), abbiamo indicato con Cov(X, Y ) e V ar(X) la covarianza
e la varianza, calcolate non per le variabili X e Y ma per i dati presi in esame. Queste
vengono dette covarianza empirica e varianza empirica. In particolare, la varianza empirica differisce dalla varianza campionaria per il solo fatto che qui si divide per il numero di dati,
mentre nella varianza campionaria si divide per quel numero diminuito di 1.
La retta y = mx + q, con m e q che verificano le (26) e (27), è detta retta di regressione
di Y rispetto a X.
Consideriamo il punto di coordinate (x, y), cioè l’ipotetico baricentro di un sistema di pesi
identici disposti sui punti del grafico di dispersione; per la (26) la retta di regressione passa per
tale punto.
Scambiando il ruolo di X e Y , cioè prendendo in esame come scarti le differenze xi −(yi −q)/m
tra le ascisse osservate e quelle teoriche ad ordinata fissata, si ottiene la retta di regressione di
X rispetto ad Y . Riscritta nella forma x = m0 y + q 0 ricaviamo formule analoghe alle precedenti
per i due coefficienti:
Cov(X, Y )
.
q 0 = x − m0 y
con
m0 =
V ar(Y )
Osserviamo che la retta di regressione di Y rispetto a X è generalmente diversa da quella di
X rispetto a Y . Le due rette risultano coincidenti se e solo se il prodotto dei due coefficienti
angolari è 1, cioè se vale ±1 il numero
(28)
rxy = p
Cov(X, Y )
V ar(X) V ar(Y )
detto coefficiente di correlazione lineare o coefficiente di correlazione di Bravais-Pearson.
Per quantificare la bontà dell’approssimazione ottenuta con la retta di regressione potremmo
calcolare il valore della funzione S(m, q) nel punto di minimo. Il numero trovato dipende chiaramente dall’unità di misura utilizzata per Y ; se per normalizzare dividiamo per V ar(Y ), allora
2
. Questo è un altro modo di introdurre il coefficiente
semplici calcoli conducono al valore 1 − rxy
di correlazione lineare ed inoltre chiarisce meglio il suo significato e la sua utilizzazione come
misura di interrelazione (lineare) tra due variabili.
31
Si potrebbe dimostrare che il coefficiente di correlazione lineare è sempre compreso nell’intervallo [−1, 1] ed inoltre
• se il suo valore è 0 allora non vi è certamente dipendenza lineare tra i due caratteri (ma
non possiamo parlare di indipendenza assoluta!);
• se il suo valore è positivo e relativamente vicino a 1, allora si è in presenza di una più o
meno evidente correlazione diretta;
• se il suo valore è negativo allora si parla di correlazione inversa.
Alcuni esempi di grafici di dispersione con i corrispondenti valori del coefficiente di correlazione
lineare sono riportati qui sotto.
Nel grafico in alto a destra si può notare come, a dispetto del coefficiente di correlazione
lineare quasi nullo, sia evidente una correlazione tra le due variabili. La funzione che può
venire in mente è quadratica, cioè del tipo y = ax2 + bx + c. Quindi, per cercare la parabola che
più si avvicina ai punti del grafico, il metodo precedente deve essere modificato. Questo tipo
di problema è riportato su molti manuali di statistica e già implementato in diversi software.
Esistono comunque classi di funzioni non lineari per le quali è possibile applicare esattamente
lo stesso metodo delle funzioni lineari. Alcune di queste hanno un’importanza tale che è bene
32
analizzarle separatamente.
A volte accade che il grafico di dispersione relativo a due variabili metta in evidenza una
netta correlazione tra di esse con i punti che si addensano intorno ad una curva molto simile a
mezza parabola. In questi casi, eventualmente dopo aver effettuato qualche cambiamento nelle
unità di misura, si può congetturare una relazione del tipo
y = axp .
Sostituendo ad X e Y i corrispondenti logaritmi (in base e o diversa) possiamo scrivere
ỹ = ln y = ln(axp ) = ln a + p ln x = c + px̃ .
I calcoli precedenti ci assicurano che la scelta migliore dei parametri p e c è data da
c = x̃ − pỹ
con
p=
Cov(ln X, ln Y )
,
V ar(ln X)
dove x̃ e ỹ sono definiti da
n
1X
x̃ =
ln xi
n i=1
n
1X
ỹ =
ln yi ,
n i=1
e dunque sono il logaritmo delle corrispondenti medie geometriche.
Prendiamo come esempio i dati contenuti nella seguente tabella.
Pianeta
Mer Ven
Ter Mar Gio
Sat
Ura
Net
Plu
distanza media dal sole 57,9 108,2 149,6 227,9 778,3 1429,4 2871,0 4504,3 5913,5
periodo di rivoluzione 7,6 19,4 31,6 59,4 374,3 929,7 2651,2 5200,4 7816,7
Questi forniscono per ogni pianeta del sistema solare la distanza media dal sole (in milioni di
chilometri) ed il periodo di rivoluzione (in milioni di secondi). La relazione esistente tra queste
due caratteristiche dei pianeti è collegata alla terza legge di Keplero (1619): il quadrato del
periodo di rivoluzione di un pianeta intorno al sole è direttamente proporzionale al cubo del
semiasse maggiore della sua orbita (che è un’ellisse per la prima legge di Keplero). La differenza
tra distanza media dal sole e semiasse maggiore dell’orbita è molto piccola, data la lieve eccentricità delle orbite di ogni pianeta. Pertanto ci aspettiamo che, con buona approssimazione, il
periodo di rivoluzione T sia relazionato alla distanza media dal sole D da una funzione del tipo
T = aDp .
Mostriamo, con l’aiuto di una tabella, i calcoli per determinare il coefficiente di correlazione
lineare e l’equazione della retta di regressione.
D
T x = ln D y = ln T
x2
y2
xy
Mer
57,9
7,6
4,0587
2,0281 16,4732
4,1134
8,2317
Ven
108,2
19,4
4,6840
2,9653 21,9397
8,7928 13,8893
Ter
149,6
31,6
5,0080
3,4532 25,0797 11,9243 17,2933
Mar
227,9
59,4
5,4289
4,0843 29,4730 16,6815 22,1733
Gio
778,3
374,3
6,6571
5,9251 44,3171 35,1063 39,4438
Sat
1429,4
929,7
7,2650
6,8349 52,7804 46,7153 49,6553
Ura
2871,0
2651,2
7,9624
7,8828 63,4001 62,1380 62,7659
Net
4504,3
5200,4
8,4128
8,5565 70,7750 73,2135 71,9839
Plu
5913,5
7816,7
8,6850
8,9640 75,4291 80,3536 77,8524
medie 1782,2333 1898,9222 6,4624 5,6327 44,4075 37,6710 40,3654
Indicati con x e y i logaritmi delle distanze e dei periodi di ogni pianeta, abbiamo aggiunto
tre colonne con i valori x2 , y 2 e xy. Le celle dell’ultima riga contengono la media aritmetica dei
nove numeri nella loro colonna; indichiamo con E(x) la media della colonna corrispondente a
33
x e similmente per le altre colonne. Dalla formula (13), valida anche per la varianza empirica,
ricaviamo
V ar(x) = E(x2 ) − E(x)2 = 44, 4075 − (6, 4624)2 = 2, 6444 ,
V ar(y) = E(y 2 ) − E(y)2 = 37, 6710 − (5, 6327)2 = 5, 9440 ,
Cov(x, y) = E(xy) − E(x)E(y) = 40, 3654 − 6, 4624 · 5, 6327 = 3, 9647 .
Da queste otteniamo immediatamente il coefficiente di correlazione lineare
Cov(x, y)
3, 9647
rxy = p
=√
= 0, 99999993 ,
2, 6444 · 5, 9440
V ar(x) V ar(y)
il coefficiente angolare della retta di regressione
Cov(x, y)
3, 9647
m=
=
= 1, 4992 ,
V ar(x)
2, 6444
da cui possiamo dedurre
q = E(y) − mE(x) = 5, 6327 − 1, 4992 · 6, 4624 = −4, 0560 .
Qui sotto sono rappresentati i grafici di dispersione di T e D a sinistra (con la curva del tipo
congetturato T = D1,4992 /57,7429 che meglio approssima i dati) e di ln T e ln D a destra.
Nel grafico a destra è evidenziata anche la retta di regressione con la relativa equazione.
I punti del grafico sono vicinissimi alla retta di regressione ed infatti, come abbiamo appena
visto, il coefficiente di correlazione lineare risulta essere praticamente 1.
34
Distribuzione t di Student
Nella prima colonna di entrambe le tabella sono indicati i gradi
di libertà della corrispondente distribuzione, mentre nella prima
riga sono indicati i livelli di significatività. Il numero 2, 22814
della tabella qui sopra nella riga corrispondente a 10 gradi di
libertà e nella colonna relativa alla significatività del 5% indica
che, per la distribuzione di Student di ordine 10, l’intervallo da
−2, 22814 a 2, 22814 è un intervallo di confidenza al 95%.
L’ultima riga della tabella qui sopra corrisponde ad infiniti
gradi di libertà e quindi alla distribuzione normale standard.
Nella tabella relativa alla distribuzione χ2 gli intervalli di confidenza sono invece unilateri. Il numero 9, 83659 nella sesta riga
e decima colonna indica che per la distribuzione χ2 l’intervallo
da 0 a 9, 83659 è un intervallo di confidenza al 92%.
Distribuzione χ2
35
Distribuzione normale standard
La tabella mostra i valori, approssimati alla quinta cifra decimale, della probabilità degli eventi
{0 ≤ X ≤ z} se X ha distribuzione normale standard (media 0 e varianza 1), cioè l’area della regione
evidenziata in figura. L’estremo z è la somma dei numeri in grassetto all’inizio delle corrispondenti
righe e colonne.
Indicato con T (z) il valore fornito dalla tabella per l’estremo z, sfruttando la simmetria della
funzione Gaussiana G(x) possiamo calcolare l’integrale esteso ad un qualsiasi intervallo. Ad esempio
avremo:
1,24
Z
Z0
G(x) dx = T (1, 24) = 0, 39251 =
G(x) dx
0
2,37
Z
−1,24
G(x) dx = T (1, 1) + T (2, 37) = 0, 36433 + 0, 49111 = 0, 85544
−1,1
1,67
Z
G(x) dx = T (1, 67) − T (1, 32) = 0, 45254 − 0, 40658 = 0, 04596 .
1,32

Appunti su probabilità e statistica

Transcript

Documenti analoghi

Esame 2012-06-06 (soluzioni)

1 PREVISIONI E PREVISIONI SUBORDINATE (1) Si lancino due

3 - UniFI

Indipendenza Indipendenza probabilistica o stocastica A

1 RACCOLTA DI ESERCIZI SUL TEOREMA DI BAYES DA

Esercitazione # 3 Binomiale:

L`EQUAZIONE DI FOKKER-PLANCK Seminario bAd del 01/12/2009

Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene

Pi greco e la probabilità

PROBABILIT`A