Appunti su probabilità e statistica

Transcript

Appunti su probabilità e statistica
Probabilità e statistica
(appunti di Paolo Gronchi)
1
An unsophisticated forecaster uses statistics
as a drunken man uses lamp-posts:
For support rather than for illumination.
Andrew Lang
Indice
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Probabilità
Spazi di probabilità discreti
Probabilità condizionata
Variabili aleatorie e funzioni distribuzioni
Media e varianza di una variabile aleatoria
Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale
Statistica
Test di ipotesi
Indipendenza, correlazione e regressione
Tavole numeriche di alcune distribuzioni
2
3
5
9
12
17
20
23
26
34
AT X un software libero, coperto dalla LAT X Project Public License (LPPL).
Appunti composti utilizzando L
E
E
2
1. Probabilità
Spesso nella pratica si ha a che fare con circostanze o esperimenti dei quali è impossibile
predire con certezza l’esito. Il lancio di una moneta è il tipico esempio. Sono possibili due
diversi esiti: o esce testa o esce croce. Ma ce ne sono di più complessi e allo stesso tempo
usuali. Esperimenti con esiti casuali sono:
- il risultato di una partita di calcio della prossima giornata di campionato. Esiti possibili:
1, X, 2;
- il sesso di un nascituro al momento del suo concepimento. Esiti possibili: M, F;
- i cinque numeri estratti al lotto nella ruota di Napoli. Esiti possibili: tutte le cinquine
ordinate di numeri compresi tra 1 e 90;
- l’altezza di un individuo. Esiti possibili: numeri (interi?) compresi tra un minimo ed un
massimo.
Il calcolo delle probabilità si propone di quantificare l’incertezza propria di queste situazioni
aleatorie. In altre parole, stabilisce opportune regole per esprimere il grado di fiducia che
si attribuisce al verificarsi di un evento (a partire da ipotesi o conoscenze su eventi meno
complicati).
Per parlare di probabilità è necessario chiarire l’ambiente nel quale operiamo.
Lo spazio campione può essere definito come l’insieme di tutti gli esiti possibili di un
esperimento dipendente dal caso. Usualmente è indicato con Ω ed i suoi elementi sono detti
punti campione o esiti possibili.
Qualche autore chiama spazio degli eventi lo spazio campione ed eventi elementari i punti
campione.
Un evento può essere visto come un sottoinsieme dello spazio campione, cioè come l’insieme
dei possibili esiti dell’esperimento che indicano il verificarsi dell’evento. Per questo motivo le
operazioni booleane definite tra gli insiemi si traducono in operazioni tra eventi.
L’unione di due eventi A ∪ B è l’evento accade A o accade B o entrambi.
L’intersezione di due eventi A ∩ B è l’evento accadono entrambi A e B.
Il complemento di un evento Ac è l’evento non accade A.
Esempi di spazi campione.
Lancio di un dado. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}. I punti campione o eventi
elementari sono i sei elementi di Ω definibili a parole con il risultato del lancio è il numero
n. L’evento D = il risultato del lancio è un numero dispari non è un evento elementare e
possiamo scrivere D = {1, 3, 5}.
Misurazione con cronometro del tempo di caduta di un grave. Lo spazio campione Ω può
essere pensato discreto in quanto composto di tutti i numeri interi positivi compresi tra
due valori di riferimento (esprimendo il tempo in un’opportuna unità di misura). I punti
campione sono i singoli valori temporali. Un evento potrebbe essere il tempo di caduta è
superiore ai 15 secondi.
Lancio ripetuto di una moneta (Processo di Bernoulli). Lo spazio campione Ω è l’insieme
delle successioni di due simboli o numeri (uno per testa e l’altro per croce). I matematici
preferiscono usare i numeri 0 e 1 a simboleggiare il numero di testa uscito all’ennesimo
lancio. I punti campione o eventi elementari sono le successioni di 0 e 1. L’evento è uscita
testa al quinto lancio non è un evento elementare e non è proponibile descriverlo come
sottoinsieme di Ω. Gli eventi è uscita testa all’n-esimo lancio sono detti eventi generatori
e sono di fondamentale importanza per descrivere eventi più complessi e stabilire quindi la
loro probabilità.
3
Per restare nell’ambito più generale possibile è bene introdurre il concetto di σ-algebra di
insiemi. Dato un insieme Ω, una famiglia = non vuota di sottoinsiemi di Ω si dice una σ-algebra
se verifica gli assiomi
S
(A1) se An ∈ = per n = 1, 2, . . . , allora
An ∈ =
n≥1
(A2) se A ∈ = allora Ac ∈ =.
È semplice verificare che ogni σ-algebra contiene l’insieme Ω e l’insieme vuoto ∅. Inoltre
è chiusa rispetto alla intersezione numerabile. Nel caso in cui l’insieme Ω contiene solo un
numero finito di elementi, allora la (A1) può essere riformulata chiedendo che l’unione di due
sottoinsiemi in = sia ancora in =.
A questo punto possiamo introdurre il concetto di probabilità. Seguiremo il cosiddetto metodo assiomatico. Fissato uno spazio campione Ω ed una σ-algebra = di parti di Ω, una probabilità
è una funzione P che assegna un numero reale P (A) ad ogni evento A appartenente a = con le
seguenti proprietà:
(P1) P (A) ≥ 0
(P2) P (Ω) = 1
(P3) se A1 , A2 , . . . è una successione di eventi di = a due a due disgiunti, allora
P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . . .
Osserviamo che la probabilità risulta cosı̀ definita soltanto sui sottoinsiemi di Ω che appartengono a =.
La terna (Ω, =, P ) si chiama spazio di probabilità.
La proprietà (P3) si chiama additività completa; se il numero di eventi che vi compaiono è
finito, allora si parla di additività finita e la sua necessità è abbastanza evidente.
Le principali proprietà di una probabilità sono le seguenti:
(P4) per ogni evento A è 0 ≤ P (A) ≤ 1
(P5) per ogni evento A risulta P (Ac ) = 1 − P (A)
(P6) per l’evento impossibile ∅ risulta P (∅) = 0
(P7) se A e B sono eventi incompatibili allora P (A ∪ B) = P (A) + P (B)
(P8) se A è un sottoevento di B allora P (A) ≤ P (B)
(P9) se A e B sono eventi allora P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(P10) gli eventi A e B sono indipendenti se e solo se P (A ∩ B) = P (A)P (B)
La (P10) è una definizione più che una proprietà. Il concetto di indipendenza tra due eventi
è intuitivo e traduce il fatto che due eventi non abbiano effetto l’uno sull’altro. L’esempio
classico è il lancio ripetuto di una moneta: i risultati in lanci diversi devono essere indipendenti!
Siccome l’indipendenza tra eventi è molto importante nel calcolo della probabilità, è giusto
darne una definizione rigorosa. Per non confonderla con il concetto intuitivo di indipendenza a
volte si preferisce parlare esplicitamente di indipendenza stocastica. La (P10) sarà quindi
uno strumento utile per verificare la presunta indipendenza di eventi complessi e per svelare
l’indipendenza stocastica di eventi apparentemente correlati.
2. Spazi di probabilità discreti
La teoria della probabilità nasce nel 1654 da una corrispondenza tra Pascal e Fermat su
alcuni giochi d’azzardo in uso a quel tempo, giochi che prevedevano soltanto un numero finito
di esiti possibili. Cominciare il nostro studio dagli spazi di probabilità discreti (cioè con un
numero finito di punti campione) è dovuto comunque ad esigenze didattiche più che a influenze
storicistiche.
Dato uno spazio campione finito Ω = {ω1 , ω2 , . . . , ωn }, possiamo scegliere come σ-algebra
l’insieme delle parti di Ω, cioè la famiglia costituita da tutti i sottoinsiemi di Ω.
Ogni evento A avrà quindi solo un numero finito di casi favorevoli, cioè di punti campione che implicano il verificarsi di A. Se A = {ωi1 , ωi2 , . . . , ωir }, allora dall’additività di P e
4
dall’incompatibilità di esiti diversi ricaviamo
P (A) = P (ωi1 ) + P (ωi2 ) + · · · + P (ωir ) .
Vediamo pertanto che ogni misura di probabilità P su uno spazio campione finito è determinata
dai suoi valori sui punti. Con un po’ di abuso delle notazioni, confondendo cioè eventi e
sottoinsiemi dello spazio campione, possiamo scrivere la formula
(1)
P (A) =
X
P (ω)
ω∈A
che permette di esprimere la probabilità di ogni evento in termini delle probabilità degli eventi
elementari.
Un esempio semplice e nello stesso tempo fondamentale è quello della equiprobabilità,
quando cioè si suppone che ognuno degli esiti possibili abbia la stessa probabilità di accadere.
Si deduce che per ogni punto campione ω deve essere
1
P (ω) =
,
|Ω|
dove |Ω| indica la cardinalità di Ω. Quindi ritroviamo la definizione classica di probabilità
(2)
P (A) =
|A|
casi favorevoli
=
.
|Ω|
casi possibili
La semplicità della formula (2) non deve indurre a credere che sia facile calcolare la probabilità
di ogni evento. In ultima analisi, questa formula riconduce il calcolo della probabilità su spazi
discreti a problemi di conteggio e quindi alla combinatoria.
Una situazione tipica per un processo finito è quella del campionamento, cioè l’estrazione
di un certo numero di unità o campioni da una popolazione fissata. L’esempio classico è
l’estrazione di palline da un’urna (gioco del lotto, lancio di n dadi, ecc.). I possibili esiti della
prima estrazione sono tanti quanti i campioni presenti nella popolazione. Se analizziamo invece
la seconda estrazione ci rendiamo conto che vi sono differenze, ad esempio se pensiamo al
gioco del lotto o al lancio di n dadi. Nel primo caso siamo in presenza di estrazione senza
reimbussolamento (detto anche campionamento senza rimessa) nel secondo di estrazione
con reimbussolamento o campionamento con rimessa.
Facciamo un esempio. Sia Ω = {x, y, z} e consideriamo, per brevità, il caso di due estrazioni
successive. Indichiamo con Ωr lo spazio campione con rimessa e con Ωs lo spazio campione
senza rimessa. Abbiamo allora
Ωr = {xx, xy, xz, yx, yy, yz, zx, zy, zz} ,
Ωs = {xy, xz, yx, yz, zx, zy} .
A questo punto cerchiamo di calcolare la cardinalità degli spazi Ωr e Ωs nel caso generale
di k estrazioni da una popolazione di n unità. Lo strumento più consono a questo scopo e la
regola fondamentale del calcolo combinatorio:
se un oggetto si forma facendo una successione di k scelte tali che ci siano n1 possibilità per la
prima scelta, n2 possibilità per la seconda scelta, . . . , nk possibilità per la k-esima scelta, allora
il numero totale di oggetti che si possono cosı̀ formare è il prodotto
n1 n2 . . . nk .
Ne segue facilmente che, nel caso di campionamenti di dimensione k (cioè con k estrazioni)
da una popolazione di n unità, si ha
n!
,
|Ωr | = nk , |Ωs | = n(n − 1)(n − 2) . . . (n − k + 1) =
(n − k)!
dove n! = n · (n − 1) · (n − 2)· . . . · 3 · 2 · 1 è l’usuale notazione per il fattoriale di n.
5
Esercizi.
Menu al ristorante. Un ristorante offre una scelta tra tre antipasti, cinque primi, quattro
secondi, tre contorni e tre dolci. Quanti pranzi completi (senza bis) distinti possono essere
ordinati?
[540]
Insieme delle parti. Quanti sono i sottoinsiemi di un insieme con n elementi?
Cinquine al lotto. Quante sono le possibili cinquine su una ruota del lotto?
[2n ]
[43 949 268]
Il problema dei compleanni. In un’aula ci sono n studenti. Qual è la probabilità che almeno
365!
due abbiano lo stesso compleanno?
[1 − (365−n)!365
n]
Scomposizione di numeri. In quanti modi possiamo scrivere il numero n come somma di k
(n−1)!
numeri interi positivi ordinati?
[ (k−1)!(n−k)!
]
Estrazioni indipendenti. Considerati i due eventi A = { i-esimo esito alla j-esima estrazione}
e B = { h-esimo esito alla k-esima estrazione}, verificare la loro indipendenza o dipendenza
stocastica nel caso di campionamenti con o senza rimessa.
3. Probabilità condizionata
Spesso nella vita reale vogliamo valutare la probabilità di un evento avvantaggiandosi della
conoscenza parziale dell’esito dell’esperimento.
Un esempio è valutare la probabilità di fare 10 lanciando tre dadi. Semplici calcoli ci mostrano
che tale probabilità (nel caso di un dado non truccato) è 1/8. Supponiamo di aver lanciato i
dadi e di vedere che un dado si ferma indicando il numero 3. Nel breve attimo che precede
l’arresto degli altri dadi possiamo sfruttare questa informazione e rivalutare la probabilità di
fare 10. Questa è pari alla probabilità di fare 7 con due dadi e quindi è pari a 1/6. Quindi
l’informazione avuta ha modificato la probabilità dell’evento in questione.
Non sempre è cosı̀ semplice decidere quale cambiamento sia prodotto dall’informazione acquisita. A tal proposito citiamo il cosiddetto paradosso del carceriere.
Tre condannati a morte A, B e C vengono informati che due di loro sono stati graziati ed
uno solo sarà giustiziato. Comunque conosceranno il loro destino soltanto il giorno successivo,
fissato per l’esecuzione. Il condannato A tornando nella sua cella chiede al carceriere di rivelargli
il nome del compagno di prigionia che sarà graziato. Il carceriere si rifiuta di dare questa
informazione perché altrimenti la sua probabilità di essere giustiziato aumenterebbe, passando
da 1/3 a 1/2. Il condannato A ribatte che, siccome almeno uno dei due suoi compagni sarà
sicuramente graziato, venire a conoscenza di un nome non può alterare la sua probabilità di
essere giustiziato. Chi dei due ha ragione?
Lo strumento ottimale per rispondere a questa domanda è la probabilità condizionata.
Dato uno spazio di probabilità (Ω, =, P ) ed un evento H con probabilità non nulla, cerchiamo
di valutare la probabilità di un evento A nell’ipotesi (o con la condizione) che H sia accaduto.
Nell’esempio del lancio dei tre dadi H è l’evento un dado indica il numero 3. Ci aspettiamo che in
generale la probabilità degli eventi cambi e quindi troviamo un nuovo nome a ciò che vogliamo
definire. Chiamiamo PH la probabilità condizionata da H. Se pensiamo alla probabilità su
Ω come all’area di un sottoinsieme, allora siamo immediatamente spinti a riconoscere che la
probabilità condizionata di A dato H dipende dall’area di A ∩ H. Potremmo anche essere
più rigorosi, osservando che PH (H c ) = 0 e quindi che PH (A) = PH (A ∩ H) ed anche che
6
PH (A)P (H) = P (A ∩ H). Comunque sia si può arrivare a concludere che deve valere la formula
PH (A) =
P (A ∩ H)
,
P (H)
P (H) 6= 0 .
La notazione usuale per PH (A) è P (A|H), dove la stanghetta verticale separa l’evento di cui
valutare la probabilità dalla condizione assunta.
La regola per calcolare la probabilità condizionata di A dato H è
(3)
P (A|H) =
P (A ∩ H)
,
P (H)
P (H) 6= 0 .
La probabilità condizionata permette di dare definizioni alternative dell’indipendenza stocastica. Le seguenti tre affermazioni sono equivalenti:
(PC1) A e B sono indipendenti, cioè P (A ∩ B) = P (A)P (B)
(PC2) P (A|B) = P (A)
(PC3) P (B|A) = P (B).
In altre parole, l’informazione che un evento si è verificato non altera (chiaramente) la probabilità che si verifichi un evento indipendente.
Dalla (3) ricaviamo la formula P (A ∩ H) = P (A|H)P (H) e pertanto, considerando l’evento
H c e la probabilità condizionata dato H c , otteniamo facilmente la relazione
P (A) = P (A ∩ H) + P (A ∩ H c ) = P (A|H)P (H) + P (A|H c )P (H c ) .
Questa può essere generalizzata per arrivare ad una formula molto utile in varie applicazioni
concrete. Supponiamo di avere diverse alternative Hi , cioè eventi Hi che verificano
(LA1) H
Si ∩ Hj = ∅, per i 6= j (incompatibilità)
(LA2)
i Hi = Ω (esaustività)
(LA3) P (Hi ) 6= 0 per ogni indice i.
Allora la legge delle alternative afferma che
X
(4)
P (A) = P (A|H1 )P (H1 ) + P (A|H2 )P (H2 ) + · · · =
P (A|Hi )P (Hi ) .
i
Supponiamo adesso di aver sottoposto uno studente ad un test a risposta multipla (m risposte
possibili di cui solo una corretta). Immaginiamo che lo studente abbia probabilità p di conoscere
la risposta esatta e non la conosca con probabilità 1 − p. Chiaramente possiamo assumere che
conoscendo la risposta azzeccherà certamente quella esatta mentre, nel caso che non la conosca,
abbia probabilità 1/m di indovinare (completamente a caso). Nell’ipotesi che abbia risposto
esattamente al test, qual è la probabilità che conosca la risposta?
Questo è un semplice esempio in cui si vuole invertire quello che appare il naturale susseguirsi
delle scelte. Spieghiamoci meglio. In questo problema compaiono due scelte casuali: sapere o
non sapere la risposta e indovinare o non indovinare la risposta. Nel formulare le ipotesi fatte
abbiamo, più o meno esplicitamente, dato una valenza di causa e effetto alle singole scelte. Ci è
parso naturale assumere la probabilità di indovinare data la conoscenza dello studente, mentre
la domanda chiede esattamente l’opposto, cioè determinare la probabilità della conoscenza data
la correttezza della risposta al test.
In termini semplificativi, chiediamo la probabilità di una causa sapendo l’effetto prodotto.
Facciamo un altro esempio. Tre artigiani confezionano in un giorno n1 , n2 e n3 borse delle
quali, rispettivamente, d1 , d2 e d3 difettose. Scelta una borsa a caso, scopriamo che è difettosa.
Qual è la probabilità che sia stata confezionata dal primo artigiano?
Anche qui, è naturale definire la probabilità che una delle borse confezionate dal singolo artigiano sia difettosa, mentre chiedere la probabilità che una borsa difettosa sia stata confezionata
da un certo artigiano ci appare un ragionamento inverso.
7
Analizziamo bene quest’ultimo esempio. Il nostro spazio campione è composto dalle n borse,
con n = n1 + n2 + n3 . L’esperimento consiste nello sceglierne una a caso (ipotesi di equiprobabilità) ed abbiamo a che fare con i seguenti eventi:
Ai = { la borsa è stata confezionata dall’i-esimo artigiano},
D = { la borsa è difettosa}.
Sappiamo che P (Ai ) = nni , per i = 1, 2, 3 ed inoltre P (D|Ai ) = ndii . Ciò che cerchiamo invece
è P (A1 |D). Nel gergo tecnico, P (A1 ) è detta probabilità a priori mentre P (A1 |D) è detta
probabilità a posteriori.
Dalla definizione di probabilità condizionata ricaviamo
P (A1 ∩ D)
P (D|A1 )P (A1 )
P (A1 |D) =
=
.
P (D)
P (D)
Utilizzando la legge delle alternative arriviamo alla conclusione
P (D|A1 )P (A1 )
d1
.
P (A1 |D) = P
=
P (D|Ai )P (Ai )
d1 + d2 + d3
i
Questo è un esempio molto semplice, in cui potevamo arrivare alla soluzione senza scomodare
troppe regole e definizioni.
Nel caso generale il ragionamento è del tutto analogo ed il risultato è una formula che va
sotto il nome di legge di Bayes:
P (A|Hi )P (Hi )
(5)
P (Hi |A) = P
,
P (A|Hj )P (Hj )
j
dove le Hi sono alternative e quindi incompatibili ed esaustive (vedi legge delle alternative).
Vediamo a questo punto come si risolve il problema dello studente davanti ad un test a
risposta multipla.
Consideriamo i due eventi:
C = { lo studente conosce la risposta} ,
R = { lo studente risponde esattamente} .
Abbiamo P (C) = p, P (R|C) = 1 e P (R|C c ) = 1/m. Per calcolare P (C|R) applichiamo la
legge di Bayes e scopriamo
P (R|C)P (C)
p
mp
P (C|R) =
=
=
.
c
c
P (R|C)P (C) + P (R|C )P (C )
p + (1 − p)/m
mp − p + 1
Nel caso di un test con 5 risposte possibili (di cui una sola corretta), se p = 1/2, cioè lo studente
conosce la metà degli argomenti del test, allora P (C|R) = 5/6, che a parole significa che una
risposta giusta su sei è in media dovuta al caso. Se p = 3/4 allora, in media, soltanto una
risposta esatta su 16 è dovuta al caso.
Torniamo adesso al paradosso del carceriere. La vera difficoltà sta nel tradurre correttamente
l’enunciato un po’ vago del problema in termini probabilistici. Un primo passo utile può essere
quello di complicare le cose, anche se pare assurdo. Supponiamo che i condannati fossero 50
(non stiamo ad assegnare un nome ciascuno per ovvi motivi) e che uno solo verrà giustiziato. Il
prigioniero A poteva in questo caso chiedere il nome di 49 suoi compagni che avevano ricevuto
la grazia. Sarebbe salita ad 1/2 la sua probabilità di essere giustiziato? Chi di noi nei panni di
A avrebbe avuto il coraggio di chiedere lo scambio con quell’unico prigioniero non nominato?
Appare più naturale credere che l’informazione ricevuta non alteri le probabilità di A. Eppure, a
ben vedere, potremmo pensare che il carceriere cominci ad elencare i graziati in ordine alfabetico
(o di numero di matricola). Se salta un unico nome, allora anche noi, nei panni di A avremmo
forse un sospiro di sollievo. Quindi istintivamente l’informazione ricevuta potrebbe cambiare le
8
probabilità precedenti. Questo esempio con molti condannati chiarisce meglio un punto che si
rivela fondamentale e che nella formulazione iniziale è del tutto vago. Supponiamo che B e C
siano entrambi graziati. Quale nome pronuncerebbe il carceriere?
Per tradurre in termini probabilistici corretti, si possono considerare i seguenti eventi:
GA = {A sarà giustiziato},
GB = {B sarà giustiziato},
GC = {C sarà giustiziato},
NB = { il carceriere rivelerà il nome di B},
NC = { il carceriere rivelerà il nome di C}.
Per ipotesi, ribadita anche dalle parole del carceriere, P (GA ) = P (GB ) = P (GC ) = 1/3.
Per quanto concerne invece le probabilità degli ultimi due eventi, nulla si può evincere dal
testo del problema nel caso che A venga giustiziato. Supponiamo dunque che P (NB |GA ) = p
e P (NC |GA ) = 1 − p , cioè che, nel caso che B e C siano entrambi graziati, il carceriere riveli
il nome di B con probabilità p.
Vogliamo valutare la probabilità condizionata di GA dati rispettivamente gli eventi NB e NC .
Dalla (5) segue facilmente:
P (GA |NB ) =
P (NB |GA )P (GA )
.
P (NB |GA )P (GA ) + P (NB |GB )P (GB ) + P (NB |GC )P (GC )
Osservando che P (NB |GB ) = 0 e P (NB |GC ) = 1 ricaviamo
P (GA |NB ) =
p
p+1
P (GA |NC ) =
1−p
.
2−p
ed analogamente
Osserviamo che ognuna delle due probabilità è 1/3 solo nel caso p = 1/2. Il ragionamento di
A era quindi giusto nell’ipotesi p = 1/2. A suo favore potremmo dire che, non conoscendo p,
la valutazione migliore è proprio 1/2. Invece per p = 0 oppure per p = 1, il ragionamento del
carceriere acquista di significato e la probabilità a posteriori di GA risulta 0 o 1/2 a seconda
della risposta.
Un esempio che sorprende spesso gli studenti è il seguente. Un test antitumorale, come
quasi tutti i test diagnostici, non è infallibile e commette due tipi di errori: i cosiddetti falsi
positivi e falsi negativi. I primi sono esiti positivi per pazienti sani mentre i secondi sono esiti
negativi per pazienti affetti dalla malattia in esame. La probabilità che un test azzecchi la
giusta diagnosi è detta accuratezza. La probabilità di errore è in generale diversa tra pazienti
sani e pazienti malati. Si chiama sensibilità del test la probabilità che fornisca esito positivo in
presenza di malattia e specificità del test la probabilità che dia esito negativo su un soggetto
sano. Supponiamo adesso che un test antitumorale con sensibilità del 98% e specificità del
99% dia esito positivo sul paziente X. Sapendo che la malattia ha un’incidenza dello 0,2% sulla
popolazione, che probabilità ha X di essere affatto dalla malattia?
Indichiamo con E l’evento il test ha dato esito positivo e con T l’evento il paziente ha il
tumore.
Le nostre informazioni sono: P (T ) = 2/1000, P (E|T ) = 98/100 e P (E|T c ) = 1/100.
Vogliamo calcolare P (T |E). Dalla (5) otteniamo
P (T |E) =
P (E|T )P (T )
0, 98 · 0, 002
=
= 0, 1641 .
c
c
P (E|T )P (T ) + P (E|T )P (T )
0, 98 · 0, 002 + 0, 01 · 0, 998
Quindi il paziente risultato positivo al test ha una probabilità pari circa al 16,41% di avere
un tumore.
9
4. Variabili aleatorie e funzioni distribuzioni
Introduciamo un nuovo concetto, quello di variabile aleatoria. Come sempre accade in matematica, i concetti vengono introdotti per semplificare ragionamenti usuali in certi campi, anche
se inizialmente allo studente appare solo la difficoltà ad incamerare nuove definizioni.
Abbiamo già discusso dell’esempio del lancio di un dado. I sei esiti possibili li abbiamo
chiamati eventi, vi abbiamo definito una probabilità e ci siamo più o meno abituati a questa
terminologia. Possiamo rileggere questo esempio dando un nome X al numero ottenuto lanciando il dado. Quindi X è un numero, compreso tra 1 e 6, ma non sappiamo quale. Chiamiamo X
una variabile aleatoria (intera) e diciamo di conoscerla una volta che abbiamo deciso non solo
i suoi valori possibili ma anche la probabilità che essa assuma i singoli valori.
In questo esempio non appare nessuna grande novità. Procediamo per gradi. Analizziamo
il lancio di due dadi. Gli esiti possibili sono le coppie di numeri interi compresi tra 1 e 6, in
tutto 36 eventi elementari. Abbiamo visto che con un po’ di calcoli è semplice determinare
la probabilità che la somma dei due numeri usciti sia un certo numero fissato (pensiamo a
dadi non truccati, per semplicità). Chiamiamo X tale somma. La variabile aleatoria X non
è più equivalente all’esito del lancio, cioè esiti diversi possono produrre lo stesso valore di X.
Presentare X vuol dire elencare tutti i valori che può assumere con la relativa probabilità che
ciò avvenga. Anche in questo caso la variabile aleatoria si dice intera, perché assume solo valori
interi. Un modo di esibire X potrebbe essere la matrice
µ
2
3
4
5
6
7
8
9 10 11 12
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
¶
1
36
in cui ogni colonna riporta un valore possibile e la corrispondente probabilità dell’evento, dando
per scontato che valori diversi hanno probabilità nulla.
Un modo più compatto ed efficace è quello di ricorrere ad un grafico. Nel caso della variabile
aleatoria X abbiamo il seguente grafico, dove l’unità di misura sulle ordinate è espressa in
trentaseiesimi.
Vediamo di generalizzare. Sia (Ω, =, P ) uno spazio di probabilità; una variabile aleatoria
è una funzione X : Ω → R. Indichiamo con {X ≤ k} l’evento definito come l’insieme di tutti
i punti campione ω ∈ Ω per i quali X(ω) ≤ k. Per la precisione il nome di variabile aleatoria
spetta soltanto a quelle funzioni tali che eventi di questo tipo appartengono a =. Comunque
noi ci occuperemo sempre di funzioni che hanno questa proprietà e quindi possiamo pensare ad
una variabile aleatoria come ad una qualsiasi funzione a valori reali.
10
Diremo che una variabile aleatoria X è intera o positiva quando è tale come funzione. Nel
caso del punteggio ottenuto col lancio di due dadi, ad esempio, la funzione è sia positiva che
intera.
Abbiamo detto in precedenza che conoscere la variabile aleatoria X significa non solo sapere
quali numeri reali sono possibili valori di X, ma anche conoscere la probabilità che ciò avvenga.
Supponiamo che X assuma i valori 1, 2, . . . , n: conoscere la variabile aleatoria X vuol dire
sapere la probabilità degli eventi {X = k}, per ogni k = 1, 2, . . . , n.
Posto
pk = P (X = k)
la successione delle coppie di numeri {(k, pk )} costituisce la distribuzione di probabilità di
X e possiamo rappresentarla tramite una tabella o matrice oppure tramite
Pun grafico simile a
pk = 1.
quello visto nel caso del lancio di due dadi. Osserviamo che dovrà valere
k
In seguito saremo interessati anche a variabili aleatorie non intere ma continue, che possono
assumere cioè tutti i valori reali. Un esempio potrebbe essere dato dal lancio del giavellotto.
Anche se le misurazioni sono espresse in centimetri (e quindi possiamo considerarla una variabile
aleatoria intera) i risultati possibili sono talmente tanti che conviene utilizzare le notazioni (e
tecniche) delle variabili continue. Indichiamo con L la variabile aleatoria che esprime il risultato
di un singolo lancio. Come possiamo esprimere la probabilità che L assuma un certo valore?
Nell’ipotesi di valori reali, la probabilità di azzeccare esattamente il risultato è evidentemente
bassissima, anzi nulla. Cosa significa allora in questo caso conoscere la variabile aleatoria?
Per le variabili aleatorie continue, e quindi anche per L, gli eventi da prendere in esame non
sono quelli del tipo {L = x} ma quelli esprimibili come {L ≤ x}, per ogni x ∈ R.
Al variare di x consideriamo la funzione
F (x) = P (L ≤ x) ,
che chiamiamo la funzione di distribuzione di probabilità di L. Il grafico della funzione F
ci fornisce tutte le informazioni che si possono desiderare sulla variabile aleatoria L. Osserviamo
che dovrà valere
lim F (x) = 1 e lim F (x) = 0 .
x→+∞
x→−∞
Supponiamo che il grafico a fianco rappresenti la funzione di distribuzione di probabilità nel lancio del giavellotto da parte di una
persona. Potremmo pensare di aver chiesto
ad un numero enorme di persone di lanciare
il giavellotto ed aver quindi stimato le probabilità in questione in base alle frequenze
del campione statisticamente rappresentativo. Il record mondiale del lancio del giavellotto è di 98,48 metri e quindi la probabilità
che un lancio sia inferiore ai 100 metri deve
necessariamente essere 1 se si basa su lanci
già effettuati. In figura sono evidenziati due
segmenti correlati alla domanda: quale distanza è irraggiungibile nel 90% dei lanci? Si parte
orizzontalmente dallo 0,9 segnato sull’asse delle ordinate e, raggiunto il grafico, si scende fino
a leggere circa 17 metri.
Pertanto la funzione di distribuzione di probabilità di una variabile aleatoria continua garantisce lo stesso tipo di informazioni fornite dalla distribuzione di probabilità di una variabile
aleatoria intera (o discreta). Ciononostante i due grafici ci appaiono ben diversi. Da un punto
di vista matematico il legame tra le due funzioni è molto chiaro: analizziamolo.
11
Nel definire la funzione di distribuzione di probabilità di una variabile aleatoria continua, ad
esempio L, abbiamo evitato di definire la probabilità che un lancio sia esattamente di 84,60 metri
(record italiano dal 1989). L’idea che abbiamo enfatizzato è che praticamente nessun lancio
percorrerà esattamente quella distanza se prendiamo in considerazione i millimetri o addirittura
i millesimi di millimetro. Quindi è la domanda stessa che non ha molto senso. Invece è naturale
chiedere la probabilità che un lancio sia poi registrato pari a 84,60 metri da un giudice di gara.
In altre parole ci disinteressiamo dell’errore che il giudice commette nell’approssimare il numero.
Quindi la domanda potrebbe essere formulata meglio considerando l’evento che L sia compreso
tra 84,595 e 84,605 metri. Questo ci porta ad utilizzare la variazione della funzione F più che la
funzione stessa, cioè F (84, 605) − F (84, 595). Infatti l’evento {L ≤ b} = {a ≤ L ≤ b} ∪ {L ≤ a}
e quindi P (a ≤ L ≤ b) = P (L ≤ b) − P (L ≤ a) = F (b) − F (a).
Quando si parla di variazioni di una funzione il concetto di derivata dovrebbe saltare in mente
anche agli studenti. Definita dalla formula
F (x + h) − F (x)
f (x) = F 0 (x) = lim
,
h→0
h
si introduce la densità di probabilità della variabile aleatoria L. Dunque potremo scrivere
Rb
F (b) − F (a) = f (x) dx.
a
Osserviamo che risulta
+∞
R
f (x) dx = 1.
−∞
Questa funzione assume un significato molto
simile a quello visto per le variabili aleatorie intere nel caso dei grafici a barra. Ad
esempio, qui a fianco è riportato il grafico
della densità di probabilità della variabile L,
la cui distribuzione è rappresentata nella pagina precedente. Il picco in corrispondenza
dei lanci di 10-15 metri rivela che i dati non
sono reali oppure, volendo cercare una giustificazione, che il campione statistico preso
in esame per valutare la funzione F non era certo rappresentativo di atleti della disciplina.
La densità di probabilità f conserva ancora tutte le informazioni necessarie per rispondere a
domande sulla probabilità di eventi espressi in termini della variabile aleatoria L. Ad esempio, la probabilità che un lancio sia compreso tra 10 e 15 metri si legge valutando l’integrale
della funzione f sul corrispondente intervallo, cioè calcolando l’area della regione racchiusa dal
grafico della f , dall’asse delle ascisse e dalle due rette x = 10 e x = 15. In formule
Z15
P (10 ≤ L ≤ 15) = f (x) dx = F (15) − F (10) (= 0, 6598) ,
10
cioè quasi 2 lanci su 3 mandano il giavellotto ad una distanza di soli 10-15 metri dalla pedana.
Torniamo ad un altro tipo di lancio, il lancio di una moneta o di un dado. Analizziamo la
variabile aleatoria X che conta il numero di successi (di teste con una moneta o di pari alla
roulette o altro ancora) in n lanci. Ogni lancio è indipendente dagli altri e, per mantenere
maggiore generalità, immaginiamo che la probabilità di successo in un singolo lancio sia p (e
quella di insuccesso sia q, con p + q = 1). Conoscere X significa capire i suoi valori possibili e le
corrispondenti probabilità. I valori possibili sono chiaramente tutti i numeri interi compresi tra
0 e n. Valutiamo adesso la probabilità di avere k successi negli n lanci e conseguentemente n−k
insuccessi. Qualsiasi sequenza a noi favorevole ha probabilità pk q n−k di accadere; il numero di
n!
.
tali sequenze si conta facilmente e risulta pari a k!(n−k)!
12
Quindi la variabile aleatoria X è rappresentata dalla successione
pk = P (X = k) =
n!
pk (1 − p)n−k .
k!(n − k)!
Questa distribuzione di probabilità prende il nome di distribuzione binomiale o di Bernoulli.
Data la generalità del processo, questa distribuzione è molto comune. Quando il numero di
lanci n è molto grande, non è agevole calcolare tutti i pk e certi ragionamenti si semplificano
pensando la variabile aleatoria X una variabile aleatoria continua. Praticamente il passaggio
che facciamo è quello di sostituire il grafico ad istogrammi della distribuzione con il grafico di
una funzione f , cioè di una densità di probabilità. Questo passaggio va definito meglio e ci
torneremo quando parleremo della legge dei grandi numeri, uno dei capisaldi della statistica
moderna, formulata per la prima volta da J. Bernoulli (1654-1705) nella sua opera postuma del
1713, Ars conjectandi.
Per il momento ricordiamo soltanto che il fattoriale, definito soltanto sui numeri naturali,
può essere esteso ad ogni numero reale positivo tramite la funzione Γ(x) data dalla formula
Z ∞
Γ(x) =
tx−1 e−t dt .
0
Infatti risulta (facilmente ricavabile dalla regola di integrazione per parti) Γ(x + 1) = xΓ(x) e
quindi, verificato che Γ(1) = 1, vale la relazione Γ(n + 1) = n!, per ogni n ≥ 0.
Una seconda relazione concernente il fattoriale è la cosiddetta formula di Stirling che ne
fornisce un’approssimazione asintotica:
√
nn e−n 2πn
lim
= 1.
n→∞
n!
5. Media e varianza di una variabile aleatoria
Continuiamo a considerare il processo di Bernoulli, cioè il lancio di una moneta. Supponiamo
di aver assistito a 20 lanci e di aver visto uscire testa una sola volta. Siamo spinti a credere
che la moneta sia truccata, cioè che la probabilità di ottenere testa in un singolo lancio non
sia 1/2 come pensavamo. Vedremo in seguito che questo esperimento può essere visto come
un test di ipotesi, ma per il momento occupiamoci solo della nostra aspettativa o previsione.
Immaginando di avere a che fare con una moneta equa, ci aspettiamo che esca testa circa nella
metà dei lanci. Siamo disposti a credere che la casualità provochi un qualche discostamento dal
valore preciso (10 in questo caso) ma ci insospettiamo se l’allontanamento è troppo evidente.
Come abbiamo calcolato il valore preciso 10? Come possiamo distinguere un discostamento
casuale da una truffa?
Proprio per rispondere a queste domande introduciamo nuovi concetti. Come calcolare quel
valore 10. Tradotto in termini matematici, il problema è risolto da quella che viene chiamata
media o speranza matematica o valore atteso di una variabile aleatoria.
Per darne una definizione precisa conviene distinguere le variabili aleatorie continue da quelle
discrete. Se X è una variabile aleatoria (intera o discreta) che assume solo i valori x1 , x2 , . . . ,
xn ed inoltre pk = P (X = xk ), allora il valore atteso di X è dato da
(6)
E(X) =
n
X
xk pk .
k=1
Se invece X è una variabile aleatoria continua con densità di probabilità f (x), allora il valore
atteso di X è dato da
Z +∞
(7)
E(X) =
xf (x) dx ,
−∞
se l’integrale improprio è convergente (cosa che noi supporremo sempre verificata).
13
Formalmente il valore atteso è una media ponderata dei valori assunti da X con pesi pari
alla probabilità del singolo valore.
Teorema fondamentale della media. Date due variabili aleatorie X e Y risulta
(8)
E(X + Y ) = E(X) + E(Y ) .
Dimostrazione. Limitiamoci a considerare il caso di variabili aleatorie intere per non complicare
inutilmente i ragionamenti. La variabile aleatoria X + Y ha una sua distribuzione di probabilità:
indichiamo con qk la probabilità che X + Y prenda il valore k. Non è semplicissimo vedere come la
successione {qk } salti fuori a partire dalle distribuzioni di X e di Y . Conviene introdurre la cosiddetta
distribuzione congiunta di X e Y , cioè la successione a due indici (come le matrici)
ca,b = P ({X = a} ∩ {Y = b}) .
Adesso possiamo scrivere
qk = P (X + Y = k) =
X
ca,b ,
a+b=k
dove l’ultima sommatoria è estesa a tutte le coppie di numeri interi a e b tali che la loro somma sia k.
Pertanto, dalla definizione di media di una variabile aleatoria, risulta
E(X + Y ) =
X
kqk =
X
k
k
k
X
ca,b =
XX
(a + b)ca,b
a
a+b=k
b
X
X
X X
X X
bP (Y = b) = E(X) + E(Y ) .
aP (X = a) +
ca,b =
b
ca,b +
a
=
a
b
b
a
a
b
Per giustificare l’aggettivo fondamentale dato a questo teorema dobbiamo vederne qualche
applicazione.
Sia X il numero di successi su n lanci di moneta. Supponiamo che la probabilità di successo
in ogni singolo lancio sia p. Abbiamo visto che X assume i valori tra 0 e n ed inoltre che
n!
P (X = k) = pk =
pk (1 − p)n−k .
k!(n − k)!
n
P
kpk . Svolgere questo calcolo non è affatto semplice.
Pertanto possiamo scrivere E(X) =
k=0
Ragioniamo in modo diverso. Indichiamo con Xk la variabile aleatoria che conta i successi
al k-esimo lancio. Chiaramente Xk può assumere soltanto i valori 0 e 1. Sappiamo anche che
il valore 1 è assunto con probabilità p. Quindi
E(Xk ) = 0 · (1 − p) + 1 · p = p , per ogni k ,
ossia il valore atteso di Xk è proprio p. Cogliamo l’occasione per sottolineare che il valore atteso
non è il valore più probabile! Adesso, osservando che X = X1 + X2 + · · · + Xn , il teorema della
media ci garantisce che
E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np ,
confermando il risultato immaginabile: su n lanci ci aspettiamo np successi.
Il concetto di media è abbastanza intuitivo ed inoltre è cosı̀ usuale che sappiamo bene quali
indicazioni ci fornisce a proposito di una variabile aleatoria. La nostra esperienza ci suggerisce
anche che variabili diverse possono avere la stessa media e ciononostante caratteristiche diverse.
Ad esempio, la media del consumo annuo procapite di acqua potabile può essere la stessa in due
regioni diverse e non di meno queste stesse regioni possono presentare problemi diversi circa la
distribuzione delle risorse idriche tra la popolazione. Ad esempio, la percentuale di abitazioni
non raggiunte dalla rete idrica può essere notevolmente diversa.
Quindi la conoscenza della media di una variabile aleatoria non svela ciò che potremmo
chiamare la dispersione dei valori intorno alla media stessa. Insomma, stiamo cercando di
14
rispondere alla domanda precedentemente posta. Come possiamo distinguere uno scostamento
dalla media dovuto al caso da uno dovuto ad una truffa, cioè ad una distribuzione di probabilità
diversa da quella immaginata?
La misura di dispersione maggiormente utilizzata è la varianza. La varianza di X è definita
come il valore atteso del quadrato della distanza di X dalla sua media. In formule
¡
¢
(9)
V ar(X) = E (X − µ)2 , con µ = E(X) .
La radice quadrata della varianza è la cosiddetta deviazione standard o scarto quadratico medio della variabile X e si scrive generalmente ricorrendo al simbolo σ
p
(10)
σ(X) = V ar(X) .
Le formule per calcolare la varianza in termini della distribuzione di probabilità nel caso discreto e della densità di probabilità nel caso continuo sono semplici conseguenze della
definizione. Se X è discreta, E(X) = µ e P (X = xk ) = pk , allora
X
(11)
V ar(X) =
(xk − µ)2 pk .
k
Se X ha densità di probabilità f (x) e E(X) = µ, allora vale
Z +∞
(12)
V ar(X) =
(x − µ)2 f (x) dx .
−∞
Una formula (detta anche Teorema di König) utile in molti casi è la seguente
(13)
V ar(X) = E(X 2 ) − E(X)2 .
La dimostrazione è molto semplice
¡
¢
V ar(X) = E (X − µ)2 = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − µ2 .
Tornando al nostro esempio dei 20 lanci di una moneta, possiamo calcolare la varianza del
numero di successi X dalle formule appena viste.
20
20
X
X
2
V ar(X) =
(k − 10) pk =
k 2 pk − 102 .
k=0
k=0
Ancora una volta abbiamo qualche difficoltà a svolgere i calcoli.
Potremmo cercare di ripetere il ragionamento fatto per calcolare il valore atteso, cioè utilizzare la scrittura X = X1 + X2 + · · · + X20 , ma ci manca una formula per la varianza di una
somma di variabili aleatorie. Vedremo che questa formula esiste, è semplice, ma vale soltanto
se le variabili aleatorie sono indipendenti.
Due variabili aleatorie X e Y si dicono indipendenti quando sono indipendenti gli eventi
{X ≤ a} e {Y ≤ b}, per ogni coppia di numeri reali a e b. In altri termini, la probabilità che
X sia minore (o uguale o maggiore) di un certo numero è indipendente dal valore assunto da
Y.
Date due variabili aleatorie X e Y , si definisce la covarianza di X e Y tramite la formula
(14)
Cov(X, Y ) = E(XY ) − E(X)E(Y ) .
Teorema della covarianza. Se X e Y sono variabili aleatorie indipendenti, allora
Cov(X, Y ) = 0 , ovvero E(XY ) = E(X)E(Y ) .
Dimostrazione. Limitiamoci a considerare variabili aleatorie discrete, dato che nel caso continuo
dovremmo utilizzare qualche tecnicismo degli integrali. L’evento {XY = n} è una unione disgiunta
15
degli eventi {X = a} ∩ {Y = b} al variare dei numeri a e b tali che ab = n. Poiché X e Y sono
indipendenti possiamo scrivere
X
P (XY = n) =
P (X = a)P (Y = b) .
ab=n
Adesso passando alle medie otteniamo
E(XY ) =
X
nP (XY = n) =
n
=
XX
X
n
n
X
P (X = a)P (Y = b)
ab=n
aP (X = a)bP (Y = b) =
n ab=n
X
aP (X = a)
a
X
bP (Y = b)
b
= E(X)E(Y ) .
Teorema della varianza. Se X e Y sono variabili aleatorie indipendenti, allora
V ar(X + Y ) = V ar(X) + V ar(Y ) .
Dimostrazione. Questa è una banale conseguenza del risultato precedente. Infatti
¡
¢
V ar(X + Y ) = E (X + Y )2 − E(X + Y )2 = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2Cov(X, Y ) = V ar(X) + V ar(Y ) .
Altre semplici proprietà della varianza sono
(15)
V ar(X + k) = V ar(X)
V ar(kX) = k 2 V ar(X) ,
per ogni numero k.
Continuiamo la nostra analisi dei 20 lanci di moneta. La variabile aleatoria X definita dal
numero di successi ottenuti nei 20 lanci la vediamo come somma delle variabili aleatorie Xk che
contano i successi (0 o 1) al k-esimo lancio. Le Xk sono chiaramente indipendenti e quindi il
teorema della varianza ci assicura che V ar(X) = 20 V ar(X1 ). Essendo
V ar(Xk ) = (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p) ,
ricaviamo V ar(X) = 20p(1 − p). Nel caso di una moneta equa è p = 1/2 e quindi V ar(X) = 5.
Se vogliamo confrontare lo scostamento sperimentale dallapmedia, l’unità di misura da utilizzare
è lo scarto quadratico medio; in questo esempio σ(X) = V ar(X) ' 2, 23. Dato che 2,23 è lo
scarto quadratico medio, possiamo aspettarci che uno scostamento minore o uguale a 2σ sia del
tutto normale, mentre differenze maggiori possono insospettirci. Come rendere rigorosi questi
ragionamenti sarà l’argomento del prossimo capitolo.
Introduciamo adesso la più nota funzione di distribuzione di probabilità di una variabile
aleatoria: la distribuzione normale o Gaussiana.
Una variabile aleatoria X ha distribuzione normale con media µ e varianza σ 2 se la sua
densità di probabilità è data da
(16)
(x−µ)2
1
f (x) = √
e− 2σ2 .
σ 2π
16
La figura sopra riporta i grafici della funzione f per µ = 0 e per tre diversi valori della
varianza σ 2 . Valori diversi di µ comportano soltanto una traslazione della figura: il valore
massimo della funzione è sempre assunto nel valore atteso µ.
Per prima cosa dovremmo verificare che la funzione data è una densità di probabilità e che
realmente la media e la varianza sono quelle volute. Queste affermazioni equivalgono ad espliciti
calcoli che fanno intervenire integrali impropri. Alla base di tutto sta l’identità
Z+∞
√
2
e−x dx = π ,
−∞
che qualcuno avrà forse incontrato in precedenti corsi di matematica.
La distribuzione normale è usualmente utilizzata per modelizzare l’errore commesso in una
qualsiasi misurazione. La media µ rappresenta la misura esatta. Il fatto che la densità sia
simmetrica rispetto a µ corrisponde all’osservazione sperimentale che l’errore è per eccesso o
per difetto con la medesima probabilità. La varianza, o meglio la sua radice quadrata, cioè la
deviazione standard, modula l’errore medio commesso. Al diminuire della varianza, il grafico
della f diventa più ripido ed aumenta il valore puntuale in µ.
Nella figura a lato è rappresentata la
distribuzione di probabilità della variabile aleatoria somma dei risultati di sei
dadi. La somiglianza con la densità della distribuzione normale è notevole. Nel
prossimo capitolo vedremo che questa
somiglianza è cosı̀ comune da dirsi appunto normale! Proprio questa particolarità rende la distribuzione Gaussiana
fondamentale per la statistica.
Vedremo che sarà molto importante conoscere la probabilità di eventi del tipo {|X −µ| ≤ tσ}.
17
Qui a fianco sono evidenziate le regioni le cui
aree misurano tali probabilità per t = 1 e
t = 2.
La probabilità che X differisca dalla media
per meno di σ è 0, 6827, cioè il 68,27%.
La probabilità che X differisca dalla media
per meno di due deviazioni standard è 0, 9545.
La probabilità che X differisca dalla media
per meno di tre deviazioni standard è 0, 9973.
Altri numeri utili sono: il 95% dell’area del
sottografico si trova a distanza inferiore di
1,96 deviazioni standard dalla media; il 99%
si trova a distanza minore di 2,58 deviazioni standard dalla media. Una tabella che riporta i
principali valori della distribuzione normale è riportata nell’ultima di queste pagine.
6. Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale
Come abbiamo visto, è naturale aspettarsi che i valori di una variabile aleatoria X si
dispongano intorno alla media µ(X) e che una unità di misura appropriata a X per valutare il
discostamento dalla media sia la deviazione standard σ(X). Vorremmo a questo punto stimare
la probabilità che X ha di differire dalla media per più di k volte σ(X).
Lo strumento adatto è la cosiddetta disuguaglianza di Chebyshev. Testi diversi riportano
scritture diverse del nome Chebyshev. Ciò è dovuto a scelte diverse di traslitterazione dal cirillico e non di attribuzione del risultato. P.L. Chebyshev (1821-1894) dette un enorme contributo
allo sviluppo della teoria della probabilità e fu il fondatore della scuola di Pietroburgo, scuola
che annoverò tra i suoi aderenti matematici come Liapunov e Markov.
Disuguaglianza di Chebyshev. Sia X una variabile aleatoria e siano E(X) = µ
V ar(X) = σ 2 . Allora, per ogni t > 0, risulta
1
(17)
P (|X − µ| ≥ tσ) ≤ 2 .
t
e
Dimostrazione. Supponiamo che X sia una variabile aleatoria continua con densità di probabilità
f (x). Allora
Z +∞
Z
2
2
σ =
(x − µ) f (x) dx ≥
(x − µ)2 f (x) dx
−∞
|x−µ|≥tσ
Z
≥
t2 σ 2 f (x) dx = t2 σ 2 P (|X − µ| ≥ tσ) ,
|x−µ|≥tσ
da cui segue la tesi. Nel caso in cui X sia una variabile aleatoria discreta si può procedere in modo
analogo.
2
Sostituendo t nella (17) con k/σ otteniamo la versione equivalente P (|X − µ| ≥ k) ≤ σk2 .
Quest’ultima implica la ben nota legge dei grandi numeri, spesso utilizzata a sproposito.
Legge dei grandi numeri. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa
distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora,
per ogni ε > 0, risulta
¯
¶
µ¯
¯
¯ X1 + X2 + · · · + Xn
¯
¯
− µ¯ ≥ ε = 0 .
(18)
lim P ¯
n→∞
n
Dimostrazione. Consideriamo la variabile aleatoria Sn = X1 +X2n+···+Xn . Per il teorema fondamentale
2
della media e per il teorema della varianza, abbiamo che E(Sn ) = µ e V ar(Sn ) = σn .
La tesi segue adesso dalla disuguaglianza di Chebyshev.
18
La legge dei grandi numeri permette di affermare, ad esempio, che la probabilità di successo
nel lancio di una moneta è pari alla frequenza dei successi in n prove ripetute, cioè al rapporto
tra il numero di successi ed il numero di prove effettuate, quando n tende all’infinito. Ciò che
non indica è il numero di prove necessarie per avere una buona approssimazione.
Supponiamo che la probabilità di successo in ogni singolo lancio sia p. La frequenza dei
successi in n lanci è la variabile aleatoria Sn = X1 +X2n+···+Xn dove, come al solito, Xk conta
. La
i successi al k-esimo lancio. Abbiamo visto che Sn ha valore atteso p e varianza p(1−p)
n
disuguaglianza di Chebyshev ci dice che, volendo ad esempio essere sicuri al 99% (cioè disposti
a sbagliare
con probabilità 1/100), possiamo affermare che la differenza tra Sn e p è minore di
p
√
10 p(1 − p)/ n. Se vogliamo
p con un errore massimo di 0, 05, cioè 1/20, dovremo
p valutare √
prendere n cosı̀ grande che 10 p(1 − p)/ n ≤ 1/20. Tale stima dipende da p, ma se osserviamo
che p(1 − p) vale al più 1/4, troviamo che è sufficiente prendere n ≥ 10 000.
Questa stima può essere notevolmente migliorata. Ciò non dovrebbe stupire se si tiene conto
del tipo di ragionamenti utilizzati nel dimostrare la disuguaglianza di Chebyshev. L’ulteriore
passo è rappresentato dal teorema centrale che, nel caso di esperimenti ripetuti, mostra la
funzione di distribuzione di probabilità che si ottiene al crescere del numero degli esperimenti:
la distribuzione normale.
Teorema centrale. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora
vale
µ
¶
Zt 2
x
X1 + X2 + · · · + Xn − nµ
1
√
(19)
lim P
≤t = √
e 2 dx .
n→∞
σ n
2π
−∞
La stima fatta in precedenza
che
√ può essere migliorata nel seguente modo. La variabile
1
1
compare nella (19) è (Sn − µ) n/σ. Volendo trovare n tale che P (|Sn − p| > 20
) ≤ 100
, è
sufficiente scrivere
µ
√ ¶
√
n
1
P (|Sn − p| > ) = P |Sn − p| n/σ >
20
20σ
n
Ã
!
Z10 2
x
X1 + X2 + · · · + Xn − nµ
n
1
√
= P
> p
→1− √
e 2 dx
σ n
2π
20 p(1 − p)
n
− 10
dove abbiamo utilizzato E(Sn ) = p , V ar(Sn ) = p(1−p)
e p(1 − p) ≤ 1/4. Osservando adesso la
n
tabella in fondo a queste note troviamo che è sufficiente prendere n/10 ≥ 2, 58, cioè n ≥ 26.
A dire il vero non abbiamo affatto tenuto conto del limite che compare nel teorema centrale.
Il teorema non afferma che per ogni n vale una certa cosa ma che questa vale al tendere di
n all’infinito. Nella pratica si osserva che già dopo pochi lanci di una moneta equa la distribuzione di probabilità si adatta benissimo alla forma a campana della distribuzione normale.
L’approssimazione è peggiore per valori di p diversi da 1/2.
Nell’esempio appena fatto, la probabilità con cui eravamo disposti a sbagliare era fissata
all’1%. Questo si chiama il livello di significatività del nostro test. Se il nostro test lo
avevamo portato avanti per controllare l’equità di una moneta utilizzata da un amico, fissare il
livello di significatività vuol dire decidere con quale probabilità siamo disposti ad accusare di
truffa l’amico nel caso che la moneta sia equa. Tale numero dipende quindi dall’amicizia, dalla
rilevanza del test o quant’altro: comunque sia dipende da fattori che non hanno niente a che
vedere con la probabilità o la statistica.
19
I test del tipo descritto sono cosı̀ comuni che gli statistici utilizzano una terminologia particolare per due livelli di significatività specifici: 1% e 5%. Un esperimento è detto significativo
se ci permette di rifiutare il modello congetturato avendo posto il livello di significatività pari
al 5%; è detto molto significativo se ci permette il rifiuto con il livello di significatività pari
all’1%.
Un altro concetto simile al livello di significatività è quello dell’intervallo di confidenza.
Tutti abbiamo sentito parlare di intervalli di confidenza quando ascoltiamo il susseguirsi di
proiezioni dopo una tornata elettorale. Per chiarire il significato facciamo un esempio diverso,
dove ancora interviene un processo di Bernoulli.
Supponiamo che due compagnie aeree in competizione abbiano in programma un volo su
una stessa tratta allo stesso orario. Entrambe sanno che il numero di passeggeri sulla tratta è
costantemente 1000 e che la scelta di ogni passeggero è completamente casuale, indipendente
dalle scelte altrui e che privilegia ogni compagnia con probabilità 1/2. Nessuna compagnia ha
interesse a rifiutare passeggeri per mancanza di posti ma, allo stesso tempo, utilizzare aerei con
un elevato numero di posti aumenta i costi per la compagnia. Per avere la certezza di non dover
mai rifiutare passeggeri, l’unica possibilità è prevedere 1000 posti a sedere. Se sono disposte
ad accettare una certa probabilità di rifiutare clienti, di quanto può essere ridotto il numero di
posti?
Per ogni compagnia il numero di richieste di biglietti per un singolo volo è una variabile
aleatoria X la cui distribuzione di probabilità è quella che abbiamo già analizzato in precedenza
e che abbiamo immaginato come somma di 1000 variabili Xk , ognuna con valori 0 e 1, con
media p = 1/2 e varianza p(1 − p) = 1/4. Ne segue che X ha media 500 e varianza 1000/4,√cioè
deviazione standard 15, 81 circa. Per il teorema centrale, la variabile aleatoria (X − 500)/ 250
ha una distribuzione di probabilità molto simile alla distribuzione normale. Se siamo interessati
all’intervallo di confidenza del 95% (cioè siamo disposti a rifiutare passeggeri con la probabilità
del 5%) allora dobbiamo cercare nella tabella della N (0, 1) quale è il più piccolo valore di z che
fornisce un numero maggiore di 0, 45 (al valore della tabella dobbiamo aggiungere l’integrale
tra −∞ e 0, che è 1/2); troviamo 1, 65 e quindi possiamo affermare che
µ
¶
X − 500
95
√
P
≤ 1, 65 ≥
100
250
e quindi
95
P (X ≤ 526, 08) ≥
.
100
Dunque è sufficiente che ogni compagnia predisponga aerei con soli 527 posti per non dover
rifiutare passeggeri più del 5% delle volte. Se esigiamo una confidenza maggiore, ad esempio
il 99%, allora cerchiamo il più piccolo numero che supera
1, 49 nella tabella (trovando 2, 33) e
√
possiamo concludere che sono sufficienti 500 + 2, 33 250 posti a sedere sull’aereo, cioè soli 537
posti.
In questo esempio l’intervallo di confidenza è [0, 537].
La confidenza è la probabilità di non sbagliare una previsione, dove la previsione è espressa
dall’affermazione che la variabile X cade in un certo intervallo, detto intervallo di confidenza.
Gli intervalli di confidenza possono essere unilateri (come nel nostro esempio) o bilateri (come
avviene nelle proiezioni elettorali).
20
7. Statistica
Il termine statistica fu introdotto da Gerolamo Ghislini nel 1647 per indicare la scienza
descrittiva delle qualità ed elementi caratterizzanti degli Stati. Da allora molto è cambiato e
non è affatto semplice caratterizzare oggi la statistica.
Una definizione ricorrente afferma che la statistica si occupa dell’analisi quantitativa dei
fenomeni collettivi, fenomeni cioè composti da un grande numero di unità elementari.
Per cercare di essere più espliciti, potremmo dire che la statistica è la scienza che appronta
metodi, fondati sul calcolo delle probabilità, per la raccolta, la sintesi, l’analisi, l’elaborazione
e l’interpretazione di dati numerici.
Con lo sviluppo dell’informatica verso la metà del secolo scorso è stato possibile gestire
quantità di dati sempre più rilevanti diminuendo altresı̀ il tempo necessario per l’elaborazione.
Ciò ha reso accessibili a tutti gli strumenti fondamentali della statistica ed onnipresenti i risultati
di elaborazioni più o meno sofisticate di dati.
Questa è la principale ragione della necessità di conoscere i metodi e strumenti basilari della
statistica per ogni individuo che voglia consapevolmente partecipare alla realtà attuale.
Il linguaggio della statistica è rappresentativo della sua storia: affonda le sue radici nell’analisi
di fabbisogni e caratteristiche di popolazioni, si sovrappone sovente con quello della probabilità
ed infine si intreccia con quello delle scienze sperimantali.
Il punto di partenza di un’indagine è una popolazione (o collettivo statistico) composta di
singoli individui o unità statistiche (ma anche elemento o caso) ed alcune caratteristiche
o variabili (o caratteri) associate agli elementi della popolazione in esame.
Una variabile si realizza in corrispondenza di ogni unità statistica in una modalità. Le
modalità di un carattere devono essere
• esaustive, cioè devono rappresentare tutte le possibilità
• incompatibili, quando ad ogni unità è associabile una sola modalità
(come le alternative in probabilità).
Le variabili si dividono in qualitative, espresse da aggettivi o attributi, e quantitative se
espresse da numeri. Le variabili qualitative si dividono in ordinali, quando esiste un ordine
naturale e preciso tra le modalità, e nominali in caso contrario. Tra le variabili quantitative si
distinguono quelle discrete e quelle continue.
Una volta raccolti i dati relativi ad alcune caratteristiche di una popolazione numerosa, ci
sono vari modi di presentarli. Se una variabile qualitativa o quantitativa discreta X assume le
modalità x1 , x2 , . . . , xk , allora indichiamo con n1 , n2 , . . . , nk le rispettive frequenze assolute,
cioè il numero di volte con cui la singola modalità viene osservata nella popolazione.
Ad esempio, i dati forniti dall’ISTAT sull’età
Età
Maschi Femmine Totale
della popolazione italiana nel 2006 vengono
0
281997
265162
547159
divulgati attraverso una tabella che riporta le
1
285961
271258
557219
frequenze assolute delle singole età, simile a
2
282708
268157
550865
quella abbozzata a fianco. Il numero 550865
3
279183
265925
545108
nella stessa riga del numero 2 indica che sono
4
280041
265457
545498
stati rilevati più di mezzo milione di abitan5
284193
268410
552603
ti con età di 2 anni. Osserviamo che l’IS..
..
..
..
.
.
.
.
TAT nella colonna delle età dopo il numero
99
1250
5400
6650
99 pone una sola casella con l’indicazione 100
100 e più
1729
8425
10154
e più. Probabilmente dovrà presto rivedere
Totale
28526888 30224823 58751711
questa convenzione, dato che già nel 2006 gli
ultracentenari erano 10154.
Come abbiamo visto per la probabilità degli eventi, un modo efficace per rappresentare i dati
è quello di un grafico ad istogrammi. Riportiamo di seguito il grafico relativo all’esempio.
21
Se avessimo un analogo grafico per la popolazione di un’altra nazione potremmo voler confrontare le due distribuzioni di frequenze, per affermare ad esempio che una è più anziana
dell’altra. Chiaramente i singoli valori non forniscono nessuna informazione in proposito: si
devono almeno normalizzare. Si considerano quindi le frequenze relative, ottenute dividendo
la frequenza assoluta per il numero totale di individui della popolazione. Spesso si preferiscono
le frequenze percentuali, che sono le precedenti moltiplicate per 100. Le frequenze relative
sono ovviamente legate al concetto di probabilità. Infatti esprimono la probabilità che un
individuo scelto a caso dalla popolazione realizzi quella particolare modalità (in ipotesi di
equiprobabilità).
Ancora più significative per un confronto sono
le cosiddette frequenze cumulative. Queste
possono essere definite per caratteristiche qualitative ordinali o quantitative come le frequenze
di eventi che non prescrivono la modalità ma
ne danno un limite (superiore o inferiore). Nel
nostro esempio possiamo considerare il numero
di abitanti con età maggiore o uguale a k: la
distribuzione delle frequenze cumulative corrispondenti è schematizzata qui a fianco.
Torniamo ad analizzare la tabella della pagina precedente. Possiamo osservare che età e sesso
del singolo individuo sono variabili diverse e che quindi quella tabella non riporta soltanto le
frequenze delle due variabili (sarebbero state sufficienti l’ultima colonna e l’ultima riga), ma
qualcosa di più. Vengono mantenute distinte non solo le singole modalità delle due variabili ma
tutte le possibili coppie di modalità. La variabile età ha 101 modalità diverse, cioè 101 possibili
valori; la variabile sesso ha solo due modalità. La tabella in questione fornisce le frequenze di
tutte le possibili accoppiate (e, s) e quindi 101 × 2 frequenze. Se avessimo analizzato la variabile
età e la variabile regione di residenza, avremmo dovuto riportare 101 × 20 frequenze. In casi
analoghi si parla di distribuzione doppia di frequenze o di distribuzione congiunta di
due variabili statistiche. La rappresentazione completa può essere fornita da una opportuna
matrice o da un grafico a istogrammi con più serie come quello della pagina precedente.
22
Un problema consueto in statistica è quello di cercare di descrivere la distribuzione di frequenze di una variabile su una popolazione ampia partendo dai dati ottenuti su un campione,
cioè su un sottoinsieme relativamente piccolo della popolazione totale. Il campionamento, per
certi versi simile a quello incontrato in probabilità, può essere effettuato in vari modi (casuale,
stratificato, per quote, ecc.). Non entreremo nel merito e supporremo di avere già fissato il
campione.
Il problema adesso può essere diviso in due parti. Prima cercare di sintetizzare i dati raccolti
in modo da evidenziare quelli più interessanti (caratteristica puramente soggettiva) e poi utilizzare i dati (o i soli indicatori di sintesi scelti) per fare delle previsioni sull’intera popolazione.
Gli indicatori sintetici o caratteristici più utilizzati sono:
• campo di variazione o range: quando la variabile è ordinale o quantitativa, cioè
quando è possibile ordinare le possibili modalità e quindi parlare di maggiore e minore, il
campo di variazione è dato dall’intervallo determinato dalla modalità minima e massima
osservata sul campione;
• moda o valore tipico: è definita come la modalità osservata nel maggior numero dei
casi e quindi non dipende dalle altre modalità;
• media: anche se solo per variabili quantitative, esistono diverse definizioni di media
(aritmetica, geometrica, armonica, quadrata, ecc.); la più utilizzata in statistica è la
media aritmetica;
• mediana: solo per variabili ordinali o quantitative è definita come la modalità che
bipartisce la distribuzione, cioè tale che una metà dei dati osservati sono maggiori o
uguali e l’altra metà sono minori o uguali della mediana stessa;
• percentili o quantili o centili: possono essere visti come una generalizzazione della
mediana; invece di dividere i dati osservati a metà (una volta ordinati) il k-esimo percentile li divide in un k% e (100 − k)%. Il 25◦ percentile è detto primo quartile, il 50◦
percentile è la mediana o secondo quartile, il 75◦ è detto terzo quartile;
• differenza interquantilica: definito per le variabili quantitative, è esattamente la
differenza tra il terzo ed il primo quartile;
• varianza: è definita per caratteristiche quantitative con la stessa formula incontrata
per le variabili aleatorie discrete e quindi misura la differenza dalla media;
• scarto quadratico medio: è la radice quadrata della varianza.
La relazione tra statistica e probabilità è cosı̀ evidente che non serve giustificare l’interesse
particolare che avremo nello stimare la media e la varianza delle variabili sulla popolazione. La
media su un campione si chiama media campionaria e si calcola con la formula (6), dove le
probabilità pk vanno sostituite con le frequenze relative, cioè con le frequenze assolute nk divise
per la cardinalità del campione, oppure direttamente con la formula
n
(20)
µ=
1X
xk ,
n k=1
dove n indica il numero di elementi nel campione, xk le singole modalità registrate.
Il teorema centrale garantisce che, all’aumentare della numerosità del campione, la media
campionaria tende alla media della variabile in esame con probabilità 1.
La varianza campionaria invece si definisce tramite la formula
n
(21)
1 X
σ =
(xk − µ)2 ,
n − 1 k=1
2
dove n indica il numero di elementi nel campione, xk le singole modalità registrate e µ la media
campionaria. Osserviamo che non si divide per n, come potremmo aspettarci, ma per n − 1;
chiaramente la differenza è trascurabile quando n è molto grande ma rilevante per piccoli valori
di n. Ciò è dovuto al fatto che stiamo stimando contemporaneamente la media e la varianza.
23
Come conseguenza del teorema centrale abbiamo il seguente principio.
Principio fondamentale della statica. Fatti n rilevamenti indipendenti di una stessa
quantità X, per n abbastanza grande (n ≥ 30) la migliore previsione statistica di ogni ulteriore
rilevamento si ottiene considerando X come una variabile aleatoria normale con media µ e
deviazione standard σ.
8. Test di ipotesi
Abbiamo già avuto modo di analizzare un test di ipotesi quando abbiamo immaginato di
verificare l’equità di una moneta provando a lanciarla un certo numero di volte. Cerchiamo
adesso di inquadrare l’esempio in un contesto più generale.
I test riguardano la distribuzione di probabilità di una variabile aleatoria o semplicemente
qualche parametro che dipende da questa (quali la media o la varianza).
Inizialmente si assume che tale distribuzione (o parametro) ricalchi una previsione teorica
o sperimentata precedentemente. Il test statistico mira ad accettare o rifiutare questa assunzione. Nel linguaggio statistico stiamo formulando la cosiddetta ipotesi nulla: i dati raccolti
dall’indagine possono avere distribuzione (o parametro) diversa da quella assunta, ma le differenze sono imputabili alla casualità del risultato stesso, a fluttuazioni campionarie.
Rifiutare l’ipotesi nulla vuol dire accettare l’ipotesi alternativa: le differenze non sono
imputabili al caso e quindi la distribuzione di probabilità non è quella assunta.
Nell’esempio della moneta, avevamo assunto come ipotesi nulla l’equità della moneta, da
cui l’affermazione che la media dei successi su 20 lanci è 10. Abbiamo anche osservato che
pretendere 10 successi su 20 lanci è molto esigente. Ci siamo quindi preoccupati di determinare
se il numero di successi ottenuti era significativamente diverso da 10.
Per poter prendere una decisione sulla base di un test abbiamo sempre bisogno di fissare
un livello di significatività soggettivamente opportuno. Come abbiamo già detto, tale livello
esprime la probabilità di rifiutare l’ipotesi nulla nel caso che sia vera.
Nel caso della moneta abbiamo utilizzato la media campionaria (sul campione di 20 lanci)
per stimare il valor medio della variabile numero di successi e quindi la probabilità p di successo in ogni singolo lancio. L’analisi teorica dell’esperimento ci ha portato a considerare la
distribuzione binomiale con parametro p = 1/2 (che poi per semplicità abbiamo approssimato con la distribuzione normale) e conseguentemente ad individuare un intervallo ([5, 15] nel
nostro esempio) in modo che la decisione se accettare o rifiutare l’ipotesi nulla con il livello di
significatività prescelto è presa a seconda che la media campionaria sia contenuta o no in tale
intervallo.
In generale potremo utilizzare una funzione
diversa dalla media campionaria che chiameremo test o statistica; l’aspetto fondamentale è
che se ne conosca la distribuzione nel caso in
cui l’ipotesi nulla sia vera. E proprio grazie a
questa distribuzione dividiamo i valori possibili
del test in due regioni: la regione di rifiuto e
la regione di accettazione, con ovvio riferimento alla scelta finale. La regola di decisione
del test dipende quindi dal livello di significatività e dalla distribuzione di probabilità della
statistica utilizzata.
Nel linguaggio statistico, un esperimento o
campione che ci permette di rifiutare l’ipotesi
nulla con livello di significatività del 5% (o 1%)
è detto statisticamente significativo (o molto significativo).
24
Uno dei test più utilizzati è proprio quello che abbiamo già discusso: l’ipotesi nulla assegna
un determinato valore alla media di una variabile aleatoria X ed il test prescelto è la media
campionaria µ su successive realizzazioni di X.
Nel caso in cui la distribuzione di probabilità di µ sia teoricamente nota (nell’esempio della
moneta quella binomiale) le regioni di rifiuto e accettazione sono più o meno facilmente ottenibili una volta fissato il livello di significatività e l’ipotesi alternativa, che potrebbe essere
unidirezionale o bidirezionale. In particolare la regione di accettazione è definita come un intervallo di confidenza (unilatero o bilatero) con livello di confidenza pari a 1 meno il livello di
significatività.
Basandoci sul teorema centrale, anche se la distribuzione di probabilità di µ è ignota, quando
il campione in esame è sufficientemente ampio (> 100) possiamo approssimarla con una distribuzione normale con media determinata dall’ipotesi nulla (i valori medi di X e di µ sono uguali)
e varianza pari alla varianza campionaria.
Se invece il campione è limitato, allora si utilizza come riferimento un’altra distribuzione di
probabilità: la distribuzione di Student di ordine g. La densità di probabilità di questa
distribuzione è la seguente:
(22)
f (x) =
C(g)
(1 +
x2 g+1
) 2
g
,
dove g è un parametro detto ordine o numero dei gradi di libertà della distribuzione e C(g)
è la costante giusta affinché l’integrale della f esteso a tutta la retta reale sia 1.
Questa distribuzione, spesso chiamata t di Student o semplicemente t, prende il nome dallo
pseudonimo usato da William Sealy Gosset nell’articolo del 1908 in cui fu introdotta. Gosset
era un chimico impiegato nella famosa ditta Guinness di Dublino ed era costretto a pubblicare
sotto pseudonimo a causa dell’esclusiva nel contratto con la birreria. Fu il primo a notare
che, date n variabili aleatorie con la stessa distribuzione di probabilità, la variabile aleatoria
normalizzata
X1 + X2 + · · · + Xn − nµ
√
(23)
,
σ n
dove µ è la media e σ è la deviazione standard campionaria, può avere una distribuzione di
probabilità molto diversa dalla normale standard quando n è piccolo. Il teorema centrale
può essere utilizzato per dimostrare che al tendere di n all’infinito la normalizzata tende ad
uniformarsi alla distribuzione normale standard ma, come abbiamo già notato, non quantifica
la vicinanza per specifici valori di n.
Supponendo che le variabili Xk siano tutte
normali standard è possibile dimostrare che la
variabile normalizzata (23) ha densità di probabilità data dalla (22) con n − 1 gradi di libertà,
cioè con g = n − 1. Una variabile con distribuzione di probabilità t di Student di ordine g ha
g
.
media nulla e varianza pari a g−2
A fianco sono riportati i grafici della densità
(22) per g pari a 1, 3 e 30. La forma del grafico è molto simile ad una Gaussiana ma la funzione tende a zero molto più lentamente per x
che tende all’infinito. Il valore della funzione in 0 aumenta al variare di g. Per g = 30 il grafico
è indistinguibile da quello della Gaussiana standard, cioè con varianza 1.
In fondo a questi appunti trovate varie tabelle, tra cui quella con i principali valori della t di
Student per diversi gradi di libertà.
25
Un altro tipo di test abbastanza frequente è quello che riguarda la varianza anziché la media.
Ad esempio, supponiamo di avere un certo strumento per effettuare una misurazione. La ditta
fornitrice garantisce una specifica precisione. Una misura è inevitabilmente accompagnata da
incertezza e quindi dovrebbe essere sempre corredata dall’indicazione dell’intervallo di indeterminazione. Pertanto la misura fornita da ogni strumento è una variabile aleatoria. Indichiamo
con X la misura dello strumento in esame. L’accuratezza di uno strumento quantifica la differenza tra la media di X e la misura reale, mentre la precisione riguarda lo scostamento dalla
media (da non confondere con la sensibilità e la portata di uno strumento che rappresentano il
minimo e il massimo valore misurabile). Se lo strumento è accurato, ci aspettiamo che il valore
medio di un discreto numero di misure ottenute sia sostanzialmente esatto. Come misura della
precisione possiamo prendere lo scarto quadratico medio di X.
Supponiamo adesso di avere una serie di 10 misurazioni
X : 216,82 216,93 216,95 216,99 217,00 217,02 217,04 217,05 217,08 217,13
e di voler sottoporre a verifica l’ipotesi nulla: V ar(X) = 0,005 . La media campionaria della
serie è 217,001, mentre la varianza campionaria è 0,00752. Quindi la deviazione standard nel
campione è 0,08671 e quella ipotizzata è 0,0707.
Dobbiamo decidere se la differenza riscontrata (0,00752 − 0,005 = 0,00252) è imputabile
alle cosiddette fluttuazioni campionarie, oppure se è rivelatrice di una precisione dichiarata
maggiore di quella reale. La decisione, come in ogni test statistico, dipenderà dal livello di
significatività prescelto (e questa è la parte facile) e dalla distribuzione di probabilità del test
che, nel caso specifico, è la varianza campionaria.
Questo è un caso in cui possiamo dare anche una dimostrazione della scelta della distribuzione. Se l’ipotesi nulla è verificata, allora la variabile X − µ, dove µ rappresenta la media di
X, può essere vista come una variabile aleatoria normale con media 217,001 e varianza 0,005.
Ciò che dobbiamo determinare è la distribuzione della variabile (X − µ)2 .
Indichiamo con N (x) e f (x) rispettivamente la densità di probabilità di X − µ e di (X − µ)2 .
Per definizione di densità, sfruttando la regolarità di N (x) (uniforme continuità), abbiamo
P (x − h ≤ X − µ ≤ x + h)
.
h→0
2h
Analogamente, ipotizzando che anche f (x) sia una funzione regolare, possiamo scrivere
√
¡√
¢
x−h≤X −µ≤ x+h
2P
P (x − h ≤ (X − µ)2 ≤ x + h)
f (x) = lim
= lim
,
h→0
h→0
2h
2h
dove √
abbiamo tenuto conto della simmetria
di X − µ rispetto allo 0 (e che {a ≤ t2 ≤ b} equivale
√
√
√
a {− b ≤ t ≤ − a} ∪ { a ≤ t ≤ b}). Dunque
√
¡√
¢√
√
√
P
x−h≤X −µ≤ x+h
N ( x)
x+h− x−h
√
√
= √
f (x) = lim
.
h→0
h
x
x+h− x−h
N (x) = lim
Pertanto, dalla formula N (x) =
√ 1
2πσ 2
x2
e− 2σ2 ricaviamo
x
e− 2σ2
f (x) = √
.
2πσ 2 x
Per σ = 1, la densità di probabilità appena introdotta (e la corrispondente distribuzione) è
molto utilizzata nei test statistici ed è comunemente chiamata distribuzione χ2 di ordine 1 o
con 1 grado di libertà.
In generale si definisce la distribuzione χ2 di ordine g o con g gradi di libertà tramite
la sua densità di probabilità:
g−2
(24)
x 2 e−x/2
.
χ (x) = g/2
2 Γ(g/2)
2
26
Una variabile aleatoria con distribuzione χ2 si dice semplicemente una variabile χ2 . La
frequente apparizione di variabili χ2 è in parte giustificata dai seguenti risultati:
(R1) Se X1 , X2 , . . . , Xn sono n variabili χ2 indipendenti con g1 , g2 , . . . , gn gradi di libertà
rispettivamente, allora la loro somma è una variabile χ2 con g = g1 + g2 + · · · + gn gradi
di libertà;
(R2) Se X1 , X2 , . . . , Xn sono n normali standard indipendenti, allora la somma dei loro
quadrati è una variabile χ2 con n gradi di libertà;
(R3) Fatti n rilevamenti indipendenti di una stessa variabile normale con media µ e varianza
σ 2 , la variabile (n − 1)σ 2 /σ 2 , dove σ è la varianza campionaria, è χ2 con (n − 1) gradi
di libertà.
A fianco sono rappresentate le densità (24) per g
pari a 3, 5 e 10. Il valore massimo della funzione è
assunto in g − 2. La media è g e la varianza è 2g. Al
tendere di g all’infinito la funzione diventa Gaussiana.
I percentili di queste distribuzioni si trovano tra le
tabelle in fondo a queste pagine.
Torniamo adesso al nostro test. Per il risultato (R3)
citato sopra, la statistica più conveniente è il rapporto tra varianza campionaria e varianza ipotizzata moltiplicato per l’ampiezza del campione
diminuita di 1, che nel nostro caso specifico diventa
0,00752
9
= 13,536 .
0,005
Questo valore va relazionato alla distribuzione χ2 con 9 gradi di libertà. Nella tabella del χ2 ,
alla riga corrispondente ai 9 gradi di libertà, il primo numero inferiore al valore ottenuto si
trova nella colonna della significatività del 14%. Ciò indica che se il livello di significatività
prescelto è inferiore al 14%, allora non dobbiamo rifiutare l’ipotesi che lo strumento abbia una
precisione pari a quella dichiarata dalla ditta fornitrice.
In letteratura si trovano molti altri test di ipotesi, basati su altrettante distribuzioni teoriche,
che qui non tratteremo. Nel prossimo capitolo incontreremo test statistici di diverso tipo.
9. Indipendenza, correlazione e regressione
Occupiamoci ora di un altro aspetto fondamentale della statistica: l’analisi dell’associazione
tra due caratteristiche di una popolazione.
Uno dei concetti principali di questa analisi lo abbiamo già incontrato ed è l’indipendenza
tra variabili. In statistica si trovano altri concetti di indipendenza e quello che qui analizzeremo
va sotto il nome di indipendenza assoluta. Due variabili o caratteri di una popolazione sono
assolutamente indipendenti quando la conoscenza della modalità con cui si manifesta una delle
due variabili non fornisce alcuna informazione sulle possibili modalità della seconda.
Un metodo statistico per verificare l’indipendenza assoluta di due caratteri si basa sulla
distribuzione congiunta o distribuzione doppia di frequenze. Come abbiamo già visto, la distribuzione doppia di due variabili può essere rappresentata graficamente oppure con una tabella,
detta tabella a doppia entrata o tabella di correlazione.
Facciamo un esempio. Consideriamo come popolazione gli studenti delle scuole elementari
italiane che hanno partecipato al progetto Censimento a scuola promosso dall’ISTAT nel 2001.
Come caratteri scegliamo il sesso X (due possibili modalità: maschio e femmina) e la zona
geografica di appartenenza Y (cinque possibili modalità: nord ovest, nord est, centro, sud e
isole). La corrispondente tabella a doppia entrata ha 6 righe e 3 colonne, dato che abbiamo
aggiunto alle modalità previste anche una riga ed una colonna finale con i totali. L’ultima
27
colonna ci indica il numero di individui della popolazione divisi per aree geografiche e quindi
rappresenta la distribuzione delle frequenze assolute della variabile Y . Questa, come parte di
una distribuzione congiunta, prende il nome di distribuzione marginale del carattere Y .
Analogamente l’ultima riga rappresenta la distribuzione marginale di X.
Maschio Femmina Totale
Nord Ovest
1355
1350
2705
Nord Est
192
188
380
Centro
484
462
946
Sud
876
814
1690
Isole
743
741
1484
Totale
3650
3555
7205
Tabella a doppia entrata delle frequenze assolute.
Se invece analizziamo una colonna o riga diversa, possiamo ancora vederla come una distribuzione. Ad esempio, la terza riga fornisce le frequenze assolute del carattere X relativamente
agli studenti del centro Italia. Questa distribuzione si chiama distribuzione condizionata di
X alla modalità centro della variabile Y .
Se le variabili X e Y fossero assolutamente indipendenti, allora le distribuzioni condizionate
di X alle singole modalità di Y sarebbero tutte uguali e quindi tutte uguali alla distribuzione
marginale di X.
Il modo più semplice per verificare l’indipendenza assoluta di due variabili è dunque quello
di osservare una tabella a doppia entrata con le frequenze relative (o percentuali) anziché le
frequenze assolute. Nel caso della rilevazione precedente otterremmo distribuzioni condizionate
che si avvicinano abbastanza alla distribuzione marginale di X, ma non sono esattamente
uguali.
Maschio Femmina Totale
Nord Ovest 50,09%
49,91% 100%
Nord Est
50,53%
49,47% 100%
Centro
51,16%
48,84% 100%
Sud
51,83%
48,17% 100%
Isole
50,07%
49,93% 100%
Totale
50,66%
49,34% 100%
Tabella a doppia entrata delle frequenze percentuali.
Quindi le due variabili dell’esempio non sono assolutamente indipendenti.
Siamo nuovamente di fronte ad un risultato contrastante la nostra aspettativa e possiamo pertanto chiederci se la variazione osservata sia imputabile alle ormai note fluttuazioni
statistiche oppure riveli una distribuzione del carattere sesso tra gli studenti del campione
realmente dipendente dall’area geografica. In termini statistici abbiamo formulato l’ipotesi
nulla le due variabili sono indipendenti e l’ipotesi alternativa esiste un legame tra le due variabili
e vorremmo programmare un test di ipotesi.
In questo caso il test più utilizzato è il cosidetto test del Chi-quadrato introdotto nel 1900
da Karl Pearson (1857-1936). Vediamo come è definito.
Indichiamo con nij la frequenza assoluta rilevata congiuntamente per la i-esima modalità di
X e per la j-esima modalità di Y , in altri termini il numero della tabella scritto nella riga
e colonna corrispondenti alle modalità considerate. Indichiamo con ni ∗ la frequenza assoluta
della i-esima modalità di X che si trova quindi nella riga del totale. Analogamente con n∗j
indicheremo le frequenze della distribuzione marginale di Y . Sia infine n la cardinalità del
campione (7205 nel nostro caso). Dividiamo il compito in passi successivi.
28
1◦ ) Si costruisce la tabella delle frequenze assolute teoriche d’indipendenza a partire
dalle distribuzioni marginali. Indicate con n0ij tali frequenze si osserva che verificano la
proporzione n0ij : n∗j = ni∗ : n e risultano quindi definite dalla formula
ni ∗ n∗j
n0ij =
.
n
2◦ ) Si calcolano le contingenze, cioè le differenze (nij − n0ij ) tra le frequenze osservate e
quelle teoriche d’indipendenza per ogni cella della tabella.
3◦ ) Si calcola per ogni cella il quadrato della contingenza diviso per la frequenza teorica
d’indipendenza.
4◦ ) Sommando i valori ottenuti per tutte le celle si ottiene il test χ2 della distribuzione
congiunta in esame. Esplicitamente si ha
X X (nij − n0ij )2
2
χ =
.
n0ij
i
j
Come distribuzione teorica del test χ2 possiamo assumere la distribuzione χ2 di ordine 4; il
numero di gradi di libertà da considerare è dato dalla formula
(numero di righe − 1) × (numero di colonne − 1) .
Scelto quindi il livello di significatività desiderato, osservando l’opportuna tabella in fondo a
queste pagine, possiamo determinare le regole di decisione. In questo caso è naturale prendere
in considerazione intervalli unilateri e pertanto la decisione sarà presa confrontando il χ2 della
distribuzione congiunta in esame con il percentile (determinato dalla significatività richiesta)
della distribuzione χ2 di ordine 4.
Svolgiamo tutti i calcoli nel caso dell’esempio proposto. Scelto il livello di significatività del 5%,
la tabella della distribuzione χ2 di ordine 4 indica come valore limite 9, 48773. Quindi decideremo di
imputare al caso le discrepanze tra frequenze osservate e frequenze teoriche se l’indice χ2 della nostra
tabella è inferiore a 9, 48773. Il calcolo esplicito del nostro test prevede i seguenti passaggi:
Maschio Femmina Totale
Nord Ovest 1370,33
1334,67
2705
Nord Est
192,51
187,49
380
Centro
479,24
466,76
946
Sud
856,14
833,86
1690
Isole
751,78
732,22
1484
Totale
3650
3555
7205
Tabella delle frequenze teoriche.
Maschio Femmina Totale
Nord Ovest
-15,33
15,33
0
Nord Est
-0,51
0,51
0
Centro
4,76
-4,76
0
Sud
19,86
-19,86
0
Isole
-8,78
8,78
0
Totale
0
0
0
Tabella delle contingenze.
(−15, 33)2 (−0, 51)2 (4, 76)2
(−19, 86)2 (8, 78)2
+
+
+ ··· +
+
= 1, 5879 .
1370, 33
192, 51
479, 24
833, 86
732, 22
Pertanto l’ipotesi nulla è accettata al livello di significatività del 5%.
La tabella riportata in queste pagine non è completa e termina al livello di significatività del 15%.
Anche per tale livello l’ipotesi sarebbe stata accettata. Il primo percentile al di sotto del valore di χ2
trovato è l’ottanduesimo.
χ2 =
Un metodo più sbrigativo, anche se meno accurato, per verificare il grado di indipendenza
assoluta tra due variabili si basa sull’indice V di Cramer. Indicati con r e c rispettivamente il
numero di righe e di colonne nella tabella (totali esclusi e quindi il numero di modalità possibili
delle due variabili), si definisce
s
χ2
.
(25)
V=
n min{r − 1, c − 1}
29
L’indice V di Cramer è sempre compreso tra 0 e 1; vale 0 quando si ha indipendenza assoluta
e vale 1 quando una delle due variabili determina univocamente la modalità dell’altra. Cioè
i valori estremi sono assunti per comportamenti opposti della relazione tra due variabili. Se
il valore è intermedio allora possiamo ricavarne solo un’indicazione sul comportamento più
appropriato e non una presunta probabilità.
Quando l’indice V di Cramer non è nullo o addirittura è vicino
a 1, si parla di una più o meno evidente correlazione tra le
due variabili in oggetto. Altri termini utilizzati sono quelli di
covariazione e interrelazione. Gli esempi a tutti noti sono
quelli in cui interviene un rapporto di causa-effetto, ma è bene
osservare che l’eventuale interpretazione in senso causale di una
correlazione prescinde comunque dai compiti della statistica.
Se le due variabili considerate sono quantitative allora entrano
in campo anche altri strumenti della statistica usati frequentemente nelle scienze sperimentali. Il primo per semplicità di realizzazione ed interpretazione è rappresentato dai grafici di dispersione,
di cui la figura qui a lato è un esempio.
X
0,36
0,14
0,73
0,49
0,84
0,91
0,56
0,17
0,66
0,33
0,40
0,95
0,63
0,01
0,46
0,87
0,88
0,89
0,36
0,02
0,36
0,81
0,01
0,74
0,71
0,56
0,75
Y
0,86
0,32
1,06
0,51
1,14
1,02
0,73
0,37
1,03
0,61
0,57
1,20
0,69
0,49
0,78
1,00
1,19
1,28
0,47
0,15
0,84
0,99
0,12
0,98
0,93
0,72
0,79
I valori assunti dalle variabili X e Y sul singolo individuo o caso del campione in esame vengono interpretati come coordinate in un sistema di riferimento ortogonale del piano. Il grafico di dispersione riporta i punti aventi queste
coordinate. L’aspetto negativo di questo tipo di rappresentazione è la perdita
dell’informazione sulle frequenze con cui i singoli valori sono rilevati. Tale difetto è statisticamente inesistente se le variabili sono continue. L’aspetto positivo
è invece la propensione ad evindenziare leggi matematiche che collegano le due
variabili.
Immaginiamo ad esempio di disporre di 27 campioni di un certo materiale e di
misurare su ognuno di essi due caratteristiche fisiche che chiameremo X ed Y
per semplicità. La tabella a lato riporta le misurazioni ottenute, dove ogni riga
contiene le informazioni su un singolo campione.
Il grafico di dispersione corrispondente è quello sopra riportato. È del tutto
intuitivo immaginare una relazione forte tra queste due variabili, cioè una legge
matematica che per ogni valore osservato di X fornisce un ipotetico valore di Y
sufficientemente vicino ai valori eventualmente osservati.
A seconda della funzione matematica chiamata in causa si potranno effettuare
calcoli diversi. Per ora limitiamoci al caso in cui la legge desiderata sia lineare. In
altri termini immaginiamo di vedere i punti del grafico di dispersione addensati
intorno ad una retta particolare. Tra tutte le rette del piano, cerchiamo quella
che meglio si dispone nella nuvola di punti. Cerchiamo di essere più precisi.
Indichiamo con xi e yi i dati ottenuti sull’i-esimo campione e con y = mx + q
la generica retta del piano (ovviamente stiamo assumendo che tale retta non sia
verticale). Se valesse yi = mxi + q per ogni i, allora tutti i punti del grafico di
dispersione sarebbero proprio sulla retta. In generale tali equazioni non saranno
verificate esattamente, ma solo con un certo scarto o errore.
La retta che meglio approssima i dati raccolti è quella determinata dai valori m e q che
minimizzano la funzione
27
1 X
S(m, q) =
(yi − mxi − q)2 ,
27 i=1
cioè lo scarto quadratico medio. Questo è noto come il metodo dei minimi quadrati.
30
Per trovare gli eventuali punti di minimo della funzione di due variabili S, cerchiamo i punti
critici, cioè quei valori di m e q che verificano il sistema
( ∂
S(m, q) = 0
∂m
.
∂
S(m, q) = 0
∂q
Otteniamo le equazioni

27
P



xi (yi − mxi − q) = 0

i=1




27
P
(yi − mxi − q) = 0
i=1
da cui ricaviamo facilmente
(26)
q=
27
X
yi − mxi
i=1
27
= y − mx ,
dove y e x indicano le medie campionarie di Y e X rispettivamente e da questa, sostituita nella
prima equazione del sistema,
27
P
(27)
m=
xi yi − 27x y
i=1
27
P
i=1
=
x2i − 27x2
Cov(X, Y )
,
V ar(X)
dove, ricordando le formule (13) e (14), abbiamo indicato con Cov(X, Y ) e V ar(X) la covarianza
e la varianza, calcolate non per le variabili X e Y ma per i dati presi in esame. Queste
vengono dette covarianza empirica e varianza empirica. In particolare, la varianza empirica differisce dalla varianza campionaria per il solo fatto che qui si divide per il numero di dati,
mentre nella varianza campionaria si divide per quel numero diminuito di 1.
La retta y = mx + q, con m e q che verificano le (26) e (27), è detta retta di regressione
di Y rispetto a X.
Consideriamo il punto di coordinate (x, y), cioè l’ipotetico baricentro di un sistema di pesi
identici disposti sui punti del grafico di dispersione; per la (26) la retta di regressione passa per
tale punto.
Scambiando il ruolo di X e Y , cioè prendendo in esame come scarti le differenze xi −(yi −q)/m
tra le ascisse osservate e quelle teoriche ad ordinata fissata, si ottiene la retta di regressione di
X rispetto ad Y . Riscritta nella forma x = m0 y + q 0 ricaviamo formule analoghe alle precedenti
per i due coefficienti:
Cov(X, Y )
.
q 0 = x − m0 y
con
m0 =
V ar(Y )
Osserviamo che la retta di regressione di Y rispetto a X è generalmente diversa da quella di
X rispetto a Y . Le due rette risultano coincidenti se e solo se il prodotto dei due coefficienti
angolari è 1, cioè se vale ±1 il numero
(28)
rxy = p
Cov(X, Y )
V ar(X) V ar(Y )
detto coefficiente di correlazione lineare o coefficiente di correlazione di Bravais-Pearson.
Per quantificare la bontà dell’approssimazione ottenuta con la retta di regressione potremmo
calcolare il valore della funzione S(m, q) nel punto di minimo. Il numero trovato dipende chiaramente dall’unità di misura utilizzata per Y ; se per normalizzare dividiamo per V ar(Y ), allora
2
. Questo è un altro modo di introdurre il coefficiente
semplici calcoli conducono al valore 1 − rxy
di correlazione lineare ed inoltre chiarisce meglio il suo significato e la sua utilizzazione come
misura di interrelazione (lineare) tra due variabili.
31
Si potrebbe dimostrare che il coefficiente di correlazione lineare è sempre compreso nell’intervallo [−1, 1] ed inoltre
• se il suo valore è 0 allora non vi è certamente dipendenza lineare tra i due caratteri (ma
non possiamo parlare di indipendenza assoluta!);
• se il suo valore è positivo e relativamente vicino a 1, allora si è in presenza di una più o
meno evidente correlazione diretta;
• se il suo valore è negativo allora si parla di correlazione inversa.
Alcuni esempi di grafici di dispersione con i corrispondenti valori del coefficiente di correlazione
lineare sono riportati qui sotto.
Nel grafico in alto a destra si può notare come, a dispetto del coefficiente di correlazione
lineare quasi nullo, sia evidente una correlazione tra le due variabili. La funzione che può
venire in mente è quadratica, cioè del tipo y = ax2 + bx + c. Quindi, per cercare la parabola che
più si avvicina ai punti del grafico, il metodo precedente deve essere modificato. Questo tipo
di problema è riportato su molti manuali di statistica e già implementato in diversi software.
Esistono comunque classi di funzioni non lineari per le quali è possibile applicare esattamente
lo stesso metodo delle funzioni lineari. Alcune di queste hanno un’importanza tale che è bene
32
analizzarle separatamente.
A volte accade che il grafico di dispersione relativo a due variabili metta in evidenza una
netta correlazione tra di esse con i punti che si addensano intorno ad una curva molto simile a
mezza parabola. In questi casi, eventualmente dopo aver effettuato qualche cambiamento nelle
unità di misura, si può congetturare una relazione del tipo
y = axp .
Sostituendo ad X e Y i corrispondenti logaritmi (in base e o diversa) possiamo scrivere
ỹ = ln y = ln(axp ) = ln a + p ln x = c + px̃ .
I calcoli precedenti ci assicurano che la scelta migliore dei parametri p e c è data da
c = x̃ − pỹ
con
p=
Cov(ln X, ln Y )
,
V ar(ln X)
dove x̃ e ỹ sono definiti da
n
1X
x̃ =
ln xi
n i=1
n
1X
ỹ =
ln yi ,
n i=1
e dunque sono il logaritmo delle corrispondenti medie geometriche.
Prendiamo come esempio i dati contenuti nella seguente tabella.
Pianeta
Mer Ven
Ter Mar Gio
Sat
Ura
Net
Plu
distanza media dal sole 57,9 108,2 149,6 227,9 778,3 1429,4 2871,0 4504,3 5913,5
periodo di rivoluzione 7,6 19,4 31,6 59,4 374,3 929,7 2651,2 5200,4 7816,7
Questi forniscono per ogni pianeta del sistema solare la distanza media dal sole (in milioni di
chilometri) ed il periodo di rivoluzione (in milioni di secondi). La relazione esistente tra queste
due caratteristiche dei pianeti è collegata alla terza legge di Keplero (1619): il quadrato del
periodo di rivoluzione di un pianeta intorno al sole è direttamente proporzionale al cubo del
semiasse maggiore della sua orbita (che è un’ellisse per la prima legge di Keplero). La differenza
tra distanza media dal sole e semiasse maggiore dell’orbita è molto piccola, data la lieve eccentricità delle orbite di ogni pianeta. Pertanto ci aspettiamo che, con buona approssimazione, il
periodo di rivoluzione T sia relazionato alla distanza media dal sole D da una funzione del tipo
T = aDp .
Mostriamo, con l’aiuto di una tabella, i calcoli per determinare il coefficiente di correlazione
lineare e l’equazione della retta di regressione.
D
T x = ln D y = ln T
x2
y2
xy
Mer
57,9
7,6
4,0587
2,0281 16,4732
4,1134
8,2317
Ven
108,2
19,4
4,6840
2,9653 21,9397
8,7928 13,8893
Ter
149,6
31,6
5,0080
3,4532 25,0797 11,9243 17,2933
Mar
227,9
59,4
5,4289
4,0843 29,4730 16,6815 22,1733
Gio
778,3
374,3
6,6571
5,9251 44,3171 35,1063 39,4438
Sat
1429,4
929,7
7,2650
6,8349 52,7804 46,7153 49,6553
Ura
2871,0
2651,2
7,9624
7,8828 63,4001 62,1380 62,7659
Net
4504,3
5200,4
8,4128
8,5565 70,7750 73,2135 71,9839
Plu
5913,5
7816,7
8,6850
8,9640 75,4291 80,3536 77,8524
medie 1782,2333 1898,9222 6,4624 5,6327 44,4075 37,6710 40,3654
Indicati con x e y i logaritmi delle distanze e dei periodi di ogni pianeta, abbiamo aggiunto
tre colonne con i valori x2 , y 2 e xy. Le celle dell’ultima riga contengono la media aritmetica dei
nove numeri nella loro colonna; indichiamo con E(x) la media della colonna corrispondente a
33
x e similmente per le altre colonne. Dalla formula (13), valida anche per la varianza empirica,
ricaviamo
V ar(x) = E(x2 ) − E(x)2 = 44, 4075 − (6, 4624)2 = 2, 6444 ,
V ar(y) = E(y 2 ) − E(y)2 = 37, 6710 − (5, 6327)2 = 5, 9440 ,
Cov(x, y) = E(xy) − E(x)E(y) = 40, 3654 − 6, 4624 · 5, 6327 = 3, 9647 .
Da queste otteniamo immediatamente il coefficiente di correlazione lineare
Cov(x, y)
3, 9647
rxy = p
=√
= 0, 99999993 ,
2, 6444 · 5, 9440
V ar(x) V ar(y)
il coefficiente angolare della retta di regressione
Cov(x, y)
3, 9647
m=
=
= 1, 4992 ,
V ar(x)
2, 6444
da cui possiamo dedurre
q = E(y) − mE(x) = 5, 6327 − 1, 4992 · 6, 4624 = −4, 0560 .
Qui sotto sono rappresentati i grafici di dispersione di T e D a sinistra (con la curva del tipo
congetturato T = D1,4992 /57,7429 che meglio approssima i dati) e di ln T e ln D a destra.
Nel grafico a destra è evidenziata anche la retta di regressione con la relativa equazione.
I punti del grafico sono vicinissimi alla retta di regressione ed infatti, come abbiamo appena
visto, il coefficiente di correlazione lineare risulta essere praticamente 1.
34
Distribuzione t di Student
Nella prima colonna di entrambe le tabella sono indicati i gradi
di libertà della corrispondente distribuzione, mentre nella prima
riga sono indicati i livelli di significatività. Il numero 2, 22814
della tabella qui sopra nella riga corrispondente a 10 gradi di
libertà e nella colonna relativa alla significatività del 5% indica
che, per la distribuzione di Student di ordine 10, l’intervallo da
−2, 22814 a 2, 22814 è un intervallo di confidenza al 95%.
L’ultima riga della tabella qui sopra corrisponde ad infiniti
gradi di libertà e quindi alla distribuzione normale standard.
Nella tabella relativa alla distribuzione χ2 gli intervalli di confidenza sono invece unilateri. Il numero 9, 83659 nella sesta riga
e decima colonna indica che per la distribuzione χ2 l’intervallo
da 0 a 9, 83659 è un intervallo di confidenza al 92%.
Distribuzione χ2
35
Distribuzione normale standard
La tabella mostra i valori, approssimati alla quinta cifra decimale, della probabilità degli eventi
{0 ≤ X ≤ z} se X ha distribuzione normale standard (media 0 e varianza 1), cioè l’area della regione
evidenziata in figura. L’estremo z è la somma dei numeri in grassetto all’inizio delle corrispondenti
righe e colonne.
Indicato con T (z) il valore fornito dalla tabella per l’estremo z, sfruttando la simmetria della
funzione Gaussiana G(x) possiamo calcolare l’integrale esteso ad un qualsiasi intervallo. Ad esempio
avremo:
1,24
Z
Z0
G(x) dx = T (1, 24) = 0, 39251 =
G(x) dx
0
2,37
Z
−1,24
G(x) dx = T (1, 1) + T (2, 37) = 0, 36433 + 0, 49111 = 0, 85544
−1,1
1,67
Z
G(x) dx = T (1, 67) − T (1, 32) = 0, 45254 − 0, 40658 = 0, 04596 .
1,32