1 Introduzione alla Teoria della Probabilit`a

Transcript

1 Introduzione alla Teoria della Probabilit`a
1
Introduzione alla Teoria della Probabilità
Il scienza moderna si fonda sul metodo sperimentale. Ciò significa che un’affermazione su
un dato fenomeno fisico assume lo status di legge di natura solo se essa viene confermata
tanto dall’osservazione neutrale del fenomeno in esame quanto da una sequenza guidata
di osservazioni e interpretazioni, ovvero dall’esperimento scientifico. La differenza tra una
legge di natura e una una semplice raccolta di osservazioni si fonda sulla discriminazione
degli aspetti essenziali nella miriade di fattori osservabili coinvolti in un dato fenomeno.
In particolare, se C rappresenta l’insieme di condizioni essenziali connesse al fenomeno in
esame e A rappresenta l’affermazione fatta dalla legge di natura, ovvero l’evento atteso,
si richiede la seguente proprietà di regolarità:
ogni qualvolta si realizza l’insieme di condizioni C si presenta l’evento A
In altre parole, una richiesta basilare che deve soddisfare la legge di natura è che
l’affermazione da essa posta sul dato fenomeno in esame si verifichi in ogni esperimento
in cui si realizzino le condizioni C.
Nel tentativo di formulare una legge di natura ci si può imbattere nel situazione in cui
l’evento in esame (A) non si presenta con certezza in ogni prova dell’esperimento in cui
si realizzano le condizioni C. Ad esempio, supponiamo di voler studiare il fenomeno fisico
dell’ebollizione. Le condizioni sperimantali che consideriamo sono le seguenti
C = {dell’acqua in un recipiente aperto viene portata ad una temperatura di 100◦ C}
e l’evento che volgiamo esaminare è
A = {l’acqua bolle}
Possiamo affermare che in una qualunque prova dell’esperimento in cui si realizzano le
condizioni C allora si presenta certamente A? La risposta è no, poiché il punto di transizione dallo stato liquido a quello di vapore (vapore saturo o gas) per l’acqua dipende
certamente dalla temperatura ma anche dalla pressione atmosferica. Più precisamente,
affinché l’evento A si presenti con certezza occorrerebbe includere tra le condizioni C che
la pressione atmosferica sia di 760 mmHg.
Un evento come quello sopra descitto, cioè un evento che non si presenta certamente
in ogni prova dell’esperiemento in cui si realizzano le condizioni C, si dice evento aleatorio
o casuale. Il carattere di aleatorietà dell’evento A = {l’acqua bolle}, in questo caso,
dipende semplicemente dalla mancanza in C di una condizione essenziale riguardante la
pressione atmosferica. Tuttavia per molti fenomeni di notevole interesse scientifico, il
carattere di aleatorietà degli eventi indagati non discende tanto dalla scarsa abilità dello
studioso nell’individuare le condizioni essenziali C sotto cui si presenta con certezza un
dato evento, quanto dalla scoraggiante, enorme complessità di un eventuale modello in
grado che permetta di formulare previsioni certe sul fenomeno in esame.
1
Si pensi, ad esempio, ad un esperimento in cui si effettua il lancio di una monetina.
Se si potesse perfino formulare un modello capace di descrivere in maniera accurata le
interazioni tra la monetina, la mano che la lancia in aria e il pavimento su cui essa rimbalza,
tanto da poter predire in maniera certa l’esito del lancio, tale modello comporterebbe
un insieme di condizioni ed equazioni cosı̀ complesso che nessun calcolatore al mondo
potrebbe mai districare. Eppure si tratta del semplice lancio di una monetina!
Se un approccio di tipo deterministico nello studio di certi fenomeni appare del tutto
scoraggiante, vi è comunque un ampio spettro di fenomeni studiati dalle scienze naturali
nei quali, a dispetto della casualità con cui si presenta un evento esaminato, si riscontra
una particolare regolarità, nota come stabilità delle frequenze. Dato un esperimento e un
evento A ad esso connesso, diremo che tale evento gode della stabilità delle frequenze
quando
dato il ripetuto realizzarsi di prove dell’esperimento, la percentuale di volte in cui
l’evento A si presenta tende, ordinariamente, in modo apprezzabile a qualche valor
medio.
Nel lancio della monetina, ad esempio, posto che la monetina sia perfettamente simmetrica
ed equilibrata (C), se consideriamo un gran numero di prove sperimentali, cioè una lunga
serie di lanci consecutivi, si può osservare che la percentuale di volte in cui esce “testa”
tende al valore 21 , con un’approssimazione che ordinariamente migliora tanto maggiore è
il numero di lanci effettuati.
Per tutti gli esperimenti in cui si osserva una tale regolarità, appare del tutto naturale
che la possibilità del verificarsi di un dato evento aleatorio A sia valutata quantitativamente mediante un qualche numero P(A), mediante un’affermazione del tipo
la probabilità che l’evento A si verifichi in una prova dell’esperimento è uguale a
P(A).
1.1
Glossario
Prima di avventurarsi nella definizione di probabilità è necessario precisare meglio la
terminologia che si è già cominciato ad adoperare.
Un esperimento è un processo che si può realizzare in un dato sistema, e del quale
si osservano una o più grandezze accessibili.
Per prova di un esperimento, si intende una realizzazione concreta dell’esperiemento stesso.
Con esito o risultato di una prova, s’intende l’insieme di osservazioni che sono
state condotte in tale prova dell’esperiemento.
La Teoria della Probabilità si fonda sul paradigma di un esperimento che ha esito incerto,
cioè non prevedibile a priori con certezza. Si ammette inoltre che un esperimento possa
essere ripetuto un numero infinito di volte.
2
In un dato esperimento, per evento si intende un qualunque fatto (osservabile) connesso ai possibili esiti (osservabili) di una prova dell’esperimento stesso. In una data prova
dell’esperiemento, diremo che un evento si è verificato (rispett. non verificato) se esso
si è presentato (rispett. non presentato).
Per un dato evento, un esito si dice favorevole all’evento quando, in una qualunque
prova dell’esperimento, al presentarsi di tale risultato l’evento considerato si verifica con
certezza.
1.2
Operazioni e relazioni tra eventi
Come base per introdurre la teoria matematica della probabilità è utile definire una serie
di relazioni ed operazioni tra eventi, che spesso verranno richiamate. Come si vedrà
tra breve, le definizioni che verranno date derivano sostanzialmente dall’applicazione dei
connettivi logici ad affermazioni riguardanti i risultati di un esperimento, cioè agli eventi.
Definizione 1 Dato un esperimento, e considerata una famiglia di eventi {A, B, . . . } che
possono realizzarsi o meno in una data prova dell’esperimento in esame
1. si dice che A implica B se per ogni prova in cui si verifica A, si verifica anche B
e tale realzione viene indicata con
A→B
2. si dirà che A è equivalente a B se A → B e B → A e si denota tale realzione con 1
A=B
3. si dice evento certo l’ evento che si verifica in ogni prova dell’esperimento e si
indica con Ω; si dice evento impossibile l’evento che non si verifica in alcuna
prova, e lo si denota con ∅
4. si dice somma di A e B un evento che si verifica quando accade almeno uno dei
due eventi A o B, e si indica con
A+B
5. si dice prodotto di A e B un evento che si verifica quando accadono sia A che B,
e si denota con
A·B
1
In altre parole, due eventi equivalenti vengono identificati come un unico sigolo evento.
3
6. si dice differenza di A e B un evento che si verifica quando accade A ma non
accade B si indica con
A−B
7. si dice opposto di A l’evento dato da Ω − A, cioè l’evento che si verifica quando e
solo quando non si verifica A, e lo si indica con Ā
Definizione 2 Due eventi A e B si dicono incompatibili se è impossibile che si verifichino insieme, ovvero se A · B = ∅
Definizione 3 Si dice che un evento A si decompone in due eventi B e C se
A=B+C
B·C =∅
In tal caso diremo che A è un evento composto; viceversa, se l’evento A non è decomponibile diremo che è un evento semplice.
Definizione 4 Gli eventi (non impossibli) {E1 , . . . , En } formano un gruppo completo
di eventi a due a due mutuamente incompatibili se in ogni prova uno e solamente
uno di essi si verifica, cioè se
Ω = E1 + E2 + · · · + E n
i 6= j ⇔ Ei · Ej = ∅
In altre parole, ciò significa che l’evento certo Ω si decompone nella famiglia di eventi
{E1 , . . . , En }.
E’ facile provare che le operazioni introdotte godono delle seguenti proprietà:
1. associativa
(A + B) + C = A + (B + C) (A · B) · C = A · (B · C)
2. commutativa
A+B =B+A
A·B =B·A
3. idempotenza
A+A=A
A·A=A
4. distributiva
A · (B + C) = A · B + A · C
A + (B · C) = (A + B) · (A + C)
5. complementarietà A = A
2
Le definizioni di probabilità
Il gran numero di definizioni diverse di probabilità matematica che sono state proposte nel
corso degli ultimi tre secoli è forse la più forte testimonianza di quanto sia stato faticoso
giungere alla formulazione di una teoria rigorosa e logicamente ineccepibile. Solo con
4
la costruzione assiomatica di principi della probabilità proposta da A.N.Kolmogorov nei
primi del ’900 la teoria della probabilità ha trovato il suo assetto definitivo ed è stata
ammessa al rango delle altre discipline matematiche.
I tentativi di definizione della probabilità precedenti alla assiomatica di Kolmogorov,
che verranno esaminati in dettaglio nelle successive sezioni, derivano sostanzialmente dai
tre differenti approcci al problema:
• l’approccio classico che riconduce la definizione di probabilità al concetto di equiprobabilità
• l’approccio frequentista che deriva la probabilità di un evento dalla frequenza con
cui esso si presenta in un numero grande di prove
• l’approccio soggettivista che vede la probabilità come grado di fiducia che un individuo ha sul realizzarsi di un evento
2.1
La definizione classica
La definizione classica di probabilità si riconduce al concetto primitivo di equiprobabilità. Consideriamo, ad esempio, il classico esperimento del lancio di un dado. Diciamo
E1 ,... E6 gli eventi realtivi ai 6 possibili risultati di una prova Se il dado è perfettamente
omogeneo, si può ammettere, anche basandosi sull’esperienza concreta, che vi sia una
perfetta simmetria tra i possibili singoli risultati, cioè che nessuna faccia del cubo sia
privilegiata rispetto alle altre. In realzione a tale simmetria, possiamo ritenere che gli
eventi E1 ,...,E6 siano equiprobabili. Riassumendo, si può dire che nell’esperimento considerato gli eventi E1 ,...,E6 formano un gruppo completo di eventi mutuamente incompatibili
ed equiprobabili.
La definizione classica di probabilità si applica agli eventi connessi ad esperimenti,
come quello del lancio del dado, in cui è possibile determinare un gruppo completo di
eventi incompatibili ed equiprobabili. Tale definizione è cosı̀ espressa:
Definizione 5 Se un evento A si può decomporre in m casi particolari di un gruppo
completo di n eventi equiprobabili e incompatibili a due a due, la probabilità dell’evento
A è il numero reale P(A) definito come
P(A) =
m
n
Tornando all’esempio del lancio del dado, l’evento Ep = {il risultato del lancio è pari}
si decompone come somma di tre casi particolari del gruppo {E1 ,...,E6 }, cioè
Ep = E 2 + E 4 + E 6
5
dunque, per definizione, si ha che
P(Ep ) =
1
3
=
6
2
Questa formulazione della definizione classica può apparire un po’ vaga. Ciò dipende
soprattutto dal supporre noto a priori un gruppo completo di eventi equiprobabili e mutuamente incompatibili, cosa che rimane da verificare per ogni singolo esperimento che si
voglia considerare. Inoltre per un dato esperimento vi possono essere diversi gruppi di
eventi con tali attributi. Nell’esempio del lancio di un dado, se consideriamo i due eventi
Ep = E2 + E4 + E6 e Ed = E1 + E3 + E5 , si ha che anch’essi formano un gruppo completo
di eventi equiprobabili e mutuamente incompatibili, ma cosı̀ poco raffinato che l’evento
E = {il risultato è un numero primo} = E2 + E3 + E5
non si può decomporre come somma di casi particolari appartenenti a {Ep , Ed }.
Per liberarsi dall’arbitrarietà nella scelta del gruppo di eventi, senza però compromettere la possibilità di estendere il calcolo della probabilità al maggior numero possibile
di eventi, si ricorre alla definizione dello spazio di prova, che formalizza il concetto di
risultato di una prova e di evento in termini iniemistici.
2.2
La spazio di prova
Definizione 6 Dato un esperimento, definiamo spazio di prova o spazio dei risultati o spazio campionario l’insieme di tutti i possibili singoli risultati a due a due
incompatibili di una prova dell’esperimento; esso viene indicato con Ω e per semplicità
verrà sempre supposto finito.
Dato un evento aleatorio A connesso all’esperimento, sono individuati univocamente
gli esiti a1 , . . . , ah ∈ Ω che risultano ad esso favorevoli. Possimo quindi identificare senza
ambiguità l’evento stesso con il sottoinsieme A = {a1 , . . . , ah } dello spazio di prova Ω.
Inoltre, Possiamo quindi formulare la seguente definizione.
Definizione 7 Si dicono eventi aleatori i sottoinsiemi propri e non vuoti dello spazio
di prova Ω. Dunque, se una prova ha come esito a, l’evento A si è verificato se e solo se
a è elemento di A, cioè quando a ∈ A.
L’insieme Ω è l’evento certo (tutti gli esiti gli sono favorevoli), mentre l’insieme
vuoto ∅ è l’evento impossibile (nessun esito gli è favorevole). Gli eventi del tipo E =
{r}, cioè costituiti da un solo esito, sono gli eventi semplici, cioè non decomponibili.
Alla luce di queste definizioni, è facile costatare che l’insieme degli eventi semplici
forma un gruppo completo di eventi mutuamente incompatibili.
6
In questa rilettura, se in un dato esperimento lo spazio di prova Ω è un insieme (finito)
di risultati equiprobabili (più precisamente ad essere equiprobabili sono gli eventi semplici)
la probabilità classica di un evento A ⊆ Ω si può formulare come
P(A) =
numero dei possibili risultati favorevoli ad A
card(A)
=
numero dei possibili risultati possibili
card(Ω)
(1)
Nell’esempio del lancio del dado, lo spazio di prova è
Ω = {1, . . . , 6}
mentre gli eventi semplici, o casi semplici, sono
E1 = {1}, . . . , E6 = {6}
La probabilità dell’evento Epr = {il risultato è numero primo} risulta
P(Epr ) =
3
6
essendo 2, 3, 5 i risultati favorevoli all’evento Epr su un totale di sei casi possibli. Più
precisamente, l’evento in esame è il sottoinsieme di Ω definito come Epr = {2, 3, 5}.
L’introduzione dello spazio di prova ci consente oltretutto di dare una veste insiemistica a tutte le operazione introdotte nella sezione 1.2, riconducendo cosı̀ le proprietà delle
operazioni tra eventi alle ben note propietà degli operatori insiemistici unione (∪), intersezione (∩) e complemento ({ ) in Ω. Vale infatti la seguente proposizione, di cui si omette
la semplice dimostrazione.
Proposizione 1 Valgono le seguenti proprietà per gli eventi:
1. A → B se e solo se A ⊆ B
2. A + B = A ∪ B
A·B =A∩B
3. A − B = A \ B
Ā = A{
La stessa probabilità può essere vista come una funzione sull’iniseme degli eventi, cioè
sull’insieme di tutti i sottoinsiemi dello spazio di prova Ω, noto nell’insiemistica come
l’insieme P(Ω) delle parti di Ω, e a valori nell’insieme dei numeri reali:
P : P(Ω) → R+
A
→ P(A)
Nel nostro esempio del lancio del dado, lo spazio di prova è Ω = {1, . . . , 6} e l’insieme
delle parti P(Ω) è formato da ben 26 elementi cioè eventi distinti:
P(Ω) = {∅, {1}, . . . , {6}, {1, 2}, {1, 3}, . . . , {5, 6}, {1, 2, 3}, . . . , Ω}
7
Invece, nell’esperimento del lancio contemporaneo di due monete lo spazio di prova è
costituito da quattro possibili risultati:
Ω = {(t, t), (c, t), (t, c), (c, c)}
quindi l’insieme delle parti di Ω, formato da 24 eventi, risulta essere:
P(Ω) = { ∅,
{(t, t)}, . . . , {(c, c)},
{(t, t), (c, t)}, {(t, t), (t, c)}, {(t, t), (c, c)}, {(c, t), (t, c)}, {(c, t), (c, c)}, {(t, c), (c, c)},
{(t, t), (c, t), (t, c)}, {(t, t), (c, t), (c, c)}, {(t, t), (t, c), (c, c)}, {(c, t), (t, c), (c, c)},
{(t, t), (c, t), (t, c), (c, c)} }
Nella prima riga abbiamo l’evento impossibile, nella seconda i quattro eventi semplici,
nella terza gli eventi formati da due risultati, nella quarta gli eventi formati da tre risultati,
infine, nella quinta riga, l’evento certo Ω formato da tutti i quattro possibili risultati di
una prova.
Si vuole determinare quali valori assuma la funzione P sulla totalità degli eventi elencati per righe in P(Ω). Ad esempio, si consideri la probabilità dell’evento A =
{almeno uno dei due lanci è testa}, che corrisponde al primo evento della terza riga, cioè
al sottoinsieme {(t,t),(c,t),(t,c)} di Ω. Applicando la definizione classica, si ha che
P(A) =
numero casi favorevoli ad A
card(A)
3
=
=
numero casi possibili
card(Ω)
4
E’ facile intuire che vale la funzione probabilità si può calcolare come segue:


se A è elencato nella prima riga
0




1/4 se A è elencato nella seconda riga
P(A) = 1/2 se A è elencato nella terza riga



3/4 se A è elencato nella quarta riga



1
se A è elencato nella quinta riga
2.3
Le proprietà della probabilità classica
In questa sezione si enunciano le sette proprietà fondamentali soddisfatte della probabilità classica. Sia quindi Ω lo spazio di prova costituito da un numero finito di risultati
equiprobabili connessi a un dato esperimento.
Proposizione 2 Valgono le seguenti proprietà:
1. Per ogni evento A si ha P(A) ≥ 0
2. Per l’evento certo Ω si ha P(Ω) = 1
8
3. Se l’evento A si decompone come somma di due eventi B e C, ovvero se A = B ∪ C
e B ∩ C = ∅, allora P(A) = P(B) + P(C)
4. La probabilità dell’evento opposto di A vale P(Ā) = 1 − P(A)
5. La probabilità dell’evento impossibile ∅ è zero P(∅) = 0
6. Se l’evento A implica B,ovvero A ⊆ B, allora P(A) ≤ P(B)
7. La probabilità di un qualunque evento A soddisfa le disequazioni 0 ≤ P(A) ≤ 1
Dim.. La prima proprietà è ovvia essendo P(A) = m/n, per qualche coppia di numeri
naturali m, n, ove n è il numero di casi favorevoli ad A e m il numero dei possibili casi.
La seconda proprità deriva dal fatto che il numero di casi favorevoli all’evento certo
eguaglia il numero dei possibili casi, ovvero, ricordando l’eq. 1, dall’uguaglianza P(Ω) =
card(Ω)/card(Ω) = 1.
La terza proprietà deriva da una semplica osservazione insiemistica. Gli eventi B e C
sono incompatibili, quindi la loro intersezione insiemistica è l’insieme vuoto. Dunque, il
numero di elementi dell’evento somma A = B + C = B ∪ C risulta pari alla somma degli
elementi di B e C, cioè si ha card(A) = card(B) + card(C). Dividendo ambo i membri di
questa ultima uguaglianza per cardΩ si deduce che
card(B) card(C)
card(A)
=
+
card(Ω)
card(Ω) card(Ω)
quindi, applicando la eq. 1, si ottiene la tesi:
P(A) = P(B) + P(C)
La quarta proprietà deriva dal fatto che A∪ Ā = Ω e A∩ Ā = ∅, per cui dalle proprietà
2 e 3 si deduce che P(A) + P(Ā) = P(Ω) = 1, che prova la tesi.
La quinta proprietà risulta dalla decomposizione Ω + ∅ = Ω, da cui segue per le
proprietà 2 e 3 che P(∅) + P(Ω) = P(Ω), e quindi che P(∅) = 1 − 1 = 0.
La sesta proprietà deriva dal fatto che l’evento B che contiene insiemisticamente l’evento A, può essere decomposto come somma degli eventi disgiunti A e B ∩ Ā, cioè si ha che
B = A ∪ (B ∩ Ā) e A ∩ (B ∩ Ā) = ∅. Da ciò, ricordando la proprietà 3, si deduce che
P(B) = P(A) + P(B ∩ Ā)
ma essendo P(B ∩ Ā) ≥ 0 per la proprietà 1, si ottiene la tesi
P(B) = P(A) + P(B ∩ Ā) ≥ P(A)
La settima proprietà deriva dal fatto che per un qualunque evento A si ha che
∅⊆ A⊆Ω
9
Infatti applicando la proprietà 6 per questa catena di implicazioni e richiamando infine le
proprietà 1 e 5, si ottiene la tesi:
0 = P(∅) ≤ P(A) ≤ P(Ω) = 1
2.4
L’approccio frequentista
Nelle scienze naturali spesso è di estremo interesse lo studio di eventi aleatori per i quali
l’osservazione sperimentale ha evidenziato valere la stabilità delle frequenze.
Nel campo demografico, imbattersi in simili regolarità è cosı̀ facile che già ai tempi
dell’antica Cina era noto che nelle grandi città il rapporto tra il numero di nati maschi e
la totalità dei nati rimaneva praticamente immutato con il passare degli anni, oscillando
lievemente attorno ad 1/2.
Tuttavia, mentre nell’esperimento del lancio di una moneta l’equiprobabilità dei due
possibili risultati è legata alla perfetta simmetria della moneta, altrettanto non si può dire
per il possibile sesso di un nascituro. Infatti i meccanismi che intervengono a determinarne
il sesso sono talmente complessi da rendere poco sensato anche il solo parlare di simmetrie
o di casi favorevoli e casi possibili.
L’approccio statistico è frutto del tentativo di colmare le carenze della definizione classica di probabilità che non si riesce ad applicare ad eventi aleatori causati da meccanismi
complessi, se non addirittura parzialmente o totalmente ignoti, ma che si realizzano con
una frequnza molto regolare in un gran numero di prove.
La definizione statistica di probabilità può essere formulata cosı̀:
La probabilità di un evento A è quel valor medio al quale tende la frequenza relativa
fA di un evento (cioè la percentuale di volte in cui A si realizza) al crescere del
numero di prove considerate.
Per quanto l’approccio statistico cerchi di definire in maniera oggettiva la probabilità
matematica di un evento, e colmi alcune carenze dll’approccio classico, la sua validità è
minata dalle debolezze logiche dell’apparato formale che, essendo basato sui dati empirici,
non permette la formulazione di una rigorosa teoria delle probabilità.
2.5
L’approccio soggettivo
Nell’approccio classico definire la probabilità di un dato evento A richiede che siano ben
determinato l’insieme dei casi favorevoli ad A e quello dei casi possibili.
Nell’approccio statistico, invece, una premessa essenziale è che sia possibile realizzare,
almeno potenzialmente, un numero arbitrariamente grande di prove dell’esperimento
considerato per valutare la frequenza con cui si realizza l’evento esaminato.
10
Tuttavia, vi sono eventi casuali per i quali nessuna delle due strade è percorribile, ad
esempio l’evento
A = {la prossima Pasquetta cadrà la neve}
è per sua natura non è ripetibile per cui valutarne la probabilità mediante l’approccio
frequentista non è pensabile; d’altra parte, nemmeno lapproccio classico è fruttuoso dato
che non si è in grado di esaminare l’evento in termini di casi favorevoli e possibili.
Pur costretti a rinunciare all’approccio classico e frequentista, può essere utile una
misura del grado di fiducia che un soggetto ha sul realizzarsi o meno di tale evento,
tenendo conto di tutte le informazioni disponibili al soggetto nel momento in cui esso
formula la propria previsione. Le definizioni soggettive di probabilità nascono proprio
nell’ottica di fornire degli strumenti per effettuare decisioni le più razionali possibili in
relazione ad eventi sui quali si dispone di informazione incomplete o imprecise.
Una dei più noti approcci soggetivisti è dovuto a De Finetti che propone la sua
definizione di probabilità nel seguente modo:
La probabilità di un evento A, secondo un dato individuo, è il prezzo P(A) che egli
stima equo attribuire ad un importo unitario esigibile nel caso in cui l’evento A si
verifichi
2.6
L’approccio assiomatico
Il tentativo di estendere la definizione di probabilità matematica a casi più generali di
quelli contemplati nell’approccio classico ha dato buoni frutti solo in tempi recenti. La
formalizzazione matematica della teoria della probabilità è il risultato della costruzione
assiomatica della teoria della probabilità, proposta dal matematico russo A.N.Kolmogorov
nei primi decenni del XX secolo. Questa costruzione è il fondamento di una teoria logicamente perfetta capace di superare le deficienze delle teorie precedenti e di soddisfare, allo
stesso tempo, le esigenze poste dalle moderne scienze naturali.
Consideriamo adesso la formulazione assiomatica della teoria della probabilità, nel
caso particolare in cui lo spazio di prova Ω è formato da un insieme finito di n risultati
r1 , . . . , rn non necessariamente equiprobabili.
Assioma 1 Ad ogni evento aleatorio A(⊆ Ω) si associa un numero reale P(A) ≥ 0
Assioma 2 P(Ω) = 1
Assioma 3 se A,B sono eventi incompatibili allora P(A + B) = P(A) + P(B)
Questi tre assiomi corrispondono esattamente alle proprietà 1,2,3 dimostrate nella
prop. 2, per la probabilità classica. Si può immediatamente costatare che una funzione di
probabilità P soddisfacente a questi tre assiomi soddisfa anche le proprietà 4,5,6,7 della
prop. 2. Infatti le dimostrazioni di queste altre proprietà si basano su semplici uguaglianze
insiemistiche e sulle prime tre proprietà, senza però far direttamente riferimento alla
definizione classica di probabilità.
11
Il sistema di assiomi di Kolmogorov è incompleto, infatti esso non specifica la funzione
di probabilità P, ma ne stabilisce solo alcune caratteristiche. Si può facilmente provare
che per lo spazio di prova Ω = {r1 , . . . , rn } una funzione di probabilità soddisfaciente i 3
assiomi è univocamente definita se si specificano i valori che essa assume sugli n eventi
semplici {r1 }, . . . , {rn }.
Ad esempio, consideriamo il problema del lancio di un dado non simmetrico. Lo spazio
di prova è Ω = {1, . . . , 6}, e una funzione di probabilità P soddisfacente gli assiomi può
essere definita ponendo per gli eventi semplici: P({1}) = · · · = P({5}) = 1/10 e P({6}) =
1/2. Consideriamo ora l’evento A = {il risultato del lancio è maggiore o uguale a 5}. Per
calcolare la probabilità di A non possiamo più ricorrere alla eq. 1, ma occorre decomporre
l’evento in esame come somma di eventi semplici. Infatti si ha che
A = E 5 + E6
dunque, essendo gli eventi semplici incompatibili, dall’assioma 3 si deduce che
P(A) = P(E5 ) + P(E6 ) = 1/10 + 1/2 = 3/5
La probabilità classica, riferita al caso di un dado simmetrico, si ottiene semplicemente
imponendo che gli eventi semlici abbiano stessa probabilità. Per provare questo si osservi
che l’evento certo si decompone come somma degli eventi semplici, cioè
Ω = E1 + · · · + E 6
Dunque dagli assiomi 2 e 3 segue che
P(E1 ) + · · · + P(E6 ) = 1
Per ipotesi si ha che P(E1 ) = P(E2 ) = · · · = P(E6 ), quindi ne discende che
P(E1 ) = · · · = P(E6 ) = 1/6
Definizione 8 Dato uno spazio di prova finito Ω, l’insieme P(Ω) di tutti gli eventi si dice
campo degli eventi. Inoltre, si dice spazio di probabilità la terna di dati (Ω, P(Ω), P)
ove P è una funzione di probabilità soddisfacente gli assiomi di Kolmogorov.
3
Teoremi fondamentali della teoria della probabilità
I teoremi e le definizione che si esporranno in questa sezione sono validi per gli eventi di
un qualunque spazio di probabilità. Tuttavia, come fatto fin ora, ci si limiterà al caso
di uno spazio di probabilità finito (Ω, P(Ω), P), ove, come caso particolare, P può essere
anche la probabilità classica, cioè la funzione di probabilità che attribuisce agli eventi
elementari di Ω la stessa probabilità.
12
Teorema 3 (Teorema della probabilità totale) Dati due eventi A e B, vale la seguente
uguaglianza
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Dim.. Si consideri la uguaglianza insiemistica A ∪ B = A ∪ (B \ A); gli eventi A e B \ A
sono incompatibili (A ∪ (B \ A) = ∅) dunque, in virtù della proprietà 3 della prop. 2,
segue che
P(A ∪ B) = P(A ∪ (B \ A)) = P(A) + P(B \ A)
(2)
Per calcolare la probabilità P(B \ A), basta osservare che B \ A e A ∩ B sono eventi
incompatibili la cui unione (o somma) è B, dunque, applicando ancora la proprietà 3,
si ha che P(B) = P((B \ A) ∪ (A ∩ B)) = P(B \ A) + P(A ∩ B), ovvero P(B \ A) =
P(B) − P(A ∩ B). Sostituendo quest’ultima uguaglianza in eq. 2, si ottiene la tesi.
Definizione 9 Dati due eventi A, B, con P(B) 6= 0, diremo probabilità condizionata
di A rispetto a B il numero P(A|B) definito da
P(A|B) =
P(A ∩ B)
P(B)
che rappresenta la probabilità che in una prova dell’esperimento si realizzi l’evento A dato
il certo realizzarsi di B.
Definizione 10 Due eventi A, B di probabilità non nulla (A, B 6= ∅) si dicono eventi
indipendenti se
P(A|B) = P(A)
Dalla definizione di probabilità condizionata si ottiene direttamente il seguente teorema.
Teorema 4 (Teorema delle probabilità composte) Dati due eventi A e B di probabilità non nulla si ha
P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A)
La definizone appena introdotta è una delle tante possibili, come è mostrato nella seguente
proposizione la cui prova è molto istruttiva come esercitazione sulle tipiche tecniche
dimostrative usate nella teoria delle probabilità.
Proposizione 5 Sono equivalenti le seguenti caratterizzazioni di indipendenza per due
eventi A, B di probabilità non nulla
(a) P(A|B) = P(A)
(b) P(B|A) = P(B)
13
(c) P(A ∩ B) = P(A)P(B)
(d) P(A|B) = P(A|B̄)
Dim.. (a) implica (b): dal teorema della probabilità composte segue che
P(B|A)P(A) = P(A|B)P(B)
dunque se vale (a) ne discende che P(B|A)P(A) = P(A)P(B) da cui, dividendo ambo i
membri per P(A)(6= 0), si ottiene (b).
(b) implica (c): in virtù del teorema delle probabilità composte e da (c) segue immediatamente
P(A ∩ B) = P(B|A)P(A) = P(B)P(A)
(c) implica (d): innanzitutto si osservi che A ∩ B e A ∩ B̄ sono eventi incompatibili con
somma pari ad A, dunque
P(A) = P(A ∩ B) + P(A ∩ B̄)
Quindi, per mezzo di (c), si ottiene che
P(A ∩ B̄) = P(A) − P(A ∩ B) = P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P( B̄)
Dunque è provato che (c) implica l’uguaglianza P(A ∩ B̄) = P(A)P(B̄); quindi dalla
definizione di probabilità condizionata P(B̄|A) si ottiene
P(A|B̄) =
P(A ∩ B̄)
P(A)P(B̄)
=
= P(A)
P(B̄)
P(B̄)
(3)
D’altra parte, per (c) si ha
P(A|B) =
P(A ∩ B)
P(A)P(B)
P(B) =
= P(A)
P(B)
P(B)
uguaglianza che assieme alla eq. 3 prova (d).
(d) implica (a): dimostrazione lasciata al lettore.
Vale la pena di sottolineare che la caratterizzazione di indipendenza di due eventi data
dalla relazione
P(A ∩ B) = P(A)P(B)
risulta molto utile ai fini pratici di calcolare la probabilità di eventi risultanti dal prodotto
di vari eventi indipendenti. Vale infatti il seguente corollario di cui si omette la semplice
dimostrazione.
14
Corollario 6 Dati n eventi indipendenti A1 , An si ha che la probabilità dell’evento prodotto B = A1 ∩ · · · ∩ An è pari al prodotto delle probabilità de isuoi fattori, cioè
P(B) = P(A1 )P(A2 ) . . . P(An )
Il teorema delle probabilità composte può essere molto utile per determinare indirettamente la probabilità di un evento in circostanze in cui è complesso specificarne lo spazio
di prova. Si consideri il seguente esempio:
Esempio 1 Sono date due urne U1 , U2 con le seguenti composizioni:
U1 : 10 palline nere, 4 palline bianche
U2 : 5 palline nere, 7 palline bianche
L’esperimento viene condotto scegliendo a caso una pallina dall’urna U 1 e inserendola
nell’urna U2 . Successivamente viene scelta acaso una pallina dalla urna U2 e si vuole
determinare la probabilità entrambe le palline estratte risultino bianche.
Detti A e B gli eventi
A={prima pallina bianca}
B={seconda pallina bianca}
il teorema della probabilità totale dice che la probabilità che entrambe le palline siano
bianche, ovvero la probabilità dell’evento A ∩ B è
P(A ∩ B) = P(B|A)P(A) =
7+1
4
·
≈ 0.18
7 + 5 + 1 4 + 10
Teorema 7 (Formula della probabilità totale) Dato un evento A e che si realizza
assieme a uno solo degli eventi H1 ,...,Hn , cioè tale che valgano
i 6= j ⇔ Hi ∩ Hj = ∅
A → (H1 ∪ · · · ∪ Hn )
la probabilità di A può essere cosı̀ decomposta:
P(A) = P(A|H1 )P(H1 ) + · · · + P(A|Hn )P(Hn )
Dim.. La prima condizione delle ipotesi equivale a dire che gli eventi H1 ,...,Hn sono
incompatibili a due a due, cioè insiemisticamente disgiunti. La seconda condizione richiede
che valga l’inclusione insiemistica
n
[
A⊆
Hi
i=1
15
Dunque, è facile decomporre A come unione di n insiemi disgiunti
A = (A ∩ H1 ) ∪ · · · ∪ (A ∩ Hn )
Gli eventi (A∩Hi ) per i = 1, . . . , n sono a due a due incompatibili, quindi, per la proprietà
3 della prop. 2, segue che
p(A) = P(A ∩ H1 ) + · · · + P(A ∩ Hn )
(4)
Dal teorema delle probabilità composte si ha che
P(A ∩ Hi ) = P(A|Hi )P(Hi )
dunque, sostituendo quest’ultima uguaglianza in eq. 2, segue la tesi.
Le applicazioni del precedente teorema sono numerose, e in molte condizioni esso
semplifica notevolmente il calcolo della probabilità di un dato evento. Di seguito se ne
presenta tre esempi.
Esempio 2 Sono date due urne U1 , U2 con le seguenti composizioni:
U1 : 10 palline nere, 4 palline bianche
U2 : 5 palline nere, 7 palline bianche
L’esperimento viene condotto scegliendo a caso una pallina dall’urna U 1 e inserendola
nell’urna U2 . Successivamente viene scelta acaso una pallina dalla urna U2 e si vuole
determinare la probabilità l’ultima pallina estratta risulti bianche.
Detti H e A gli eventi
H={la prima pallina è bianca}
A={la seconda pallina è bianca}
si osserva che H e H̄ sono una coppia di eventi incompatibili, e chiaramente A si realizza
assieme a H1 oppurue ad H2 . Dunque, applicando la formula della probabilità totale, la
probabilità dell’evento A risulta pari a
P(A) = P(A|H)P(H) + P(A|H̄)P(H̄) =
7+1
4
7
10
·
+
·
≈ 0.59
7 + 5 + 1 4 + 10 7 + 5 4 + 10
Esempio 3 Un certo modello di automobile è prodotto in tre diversi stabilimenti F 1 , F2
e F3 . Nel 2000 la produzione di tale modello è stata di
10000 veicoli prodotti da F1
40000 veicoli prodotti da F2
16
50000 veicoli prodotti da F3
A causa delle differenza dei tre diversi cicli produttivi, la probabilità che uno dei veicoli
prodotti nel 2000 abbia un guasto entro la fine del 2001 è: p1 = 0.1 se il veicolo è stato
prodotto da F1 , p2 = 0.15 se da F2 , infine p3 = 0.2 se da F3 . Qual’è la probabilità per un
veicolo del modello considerato di non avere problemi nel 2001? Sarebbe stato possibile
portare questa probabilità a 0.95 migliorando solamente il ciclo produttivo di F 3 , ovvero il
parametro p3 ?
Un veicolo del modello considerato è prodotto in esattamente uno dei tre stabilimenti,
quindi conviene considerare i seguenti tre eventi indipendenti
H1={il veicolo prodotto da F1 }
H2={il veicolo prodotto da F2 }
H3={il veicolo prodotto da F3 }
L’evento di cui ci interessa valutare la probabilità è
A={il veicolo non ha un guasto entro il 2001}
tuttavia conviene considerare l’evento opposto
Ā={il veicolo ha un guasto entro il 2001}
poiché esso è direttamente legato ai dati del
affermano che
P(Ā|H1 ) = p1
P(Ā|H2 ) = p1
P(Ā|H3 ) = p1
problema.
I dati del problema infatti
= 0.10
= 0.15
= 0.20
Inoltre le probailità che un veicolo sia prodotto nei tre stabilimenti sono
P(H1 ) =
10000
,
100000
P(H2 ) =
40000
,
100000
P(H3 ) =
50000
100000
Le ipotesi per applicare la formula della probabilità totale sono soddisfatte in quanto gli
eventi H1 , H2 , H3 son omutuamente incompatibili, inoltre A ⊆ H1 ∪ H2 ∪ H3 poiché un
veicolo della marca considerata che abbia un guasto o meno è necessariamente prodotto
in uno dei tre stabilimenti. Si ha dunque che
P(Ā) = P(Ā|H1 )P(H1 ) + P(Ā|H2 )P(H2 ) + P(Ā|H2 )P(H2 ) =
10000
40000
50000
0.10
+ 0.15
+ 0.20
= 0.17
100000
100000
100000
Infine, dalla proprietà 4 in prop. 2 si ha che P(A) = 1 − P(Ā) = 0.83.
17
Per risolvere il secondo quesito è necessario esprimere P(A) in funzione di p3 . Ripercorrendo i passaggi sopra si ottiene
¶
µ
40000
50000
10000
+ 0.15
+ p3
P(A) = 1 − P(Ā) = 1 − 0.10
=
100000
100000
100000
= 0.93 − p3 /2
quindi la condizione P(A) ≥ 0.90 implica che
p3 ≤ 0.6
Quindi la probabilità che non si verifichino guasti in un veicolo di tale modello per tutto
il 2001 sarebbe potuta essere almeno 0.90 pur di aver migliorarto il processo produttivo
di F3 di modo che fosse p3 ≤ 0.6.
Esempio 4 Vengono lanciati tre colpi consecutivi contro un bersaglio. La probabilità di
centrare il bersaglio è rispettivamente p1 = 0.5 al primo colpo , p2 = 0.7 al secondo colpo,
p3 = 0.9 al terzo colpo. La probabilità di distruzione del bersaglio è d 1 = 0.3 se colpito una
sola volta, d2 = 0.6 se colpito due volte, d3 = 0.8 se colpito tre volte, infine d4 = 0 se mai
colpito. Calcolare la probabilità di distruggere il bersaglio al lancio dei tre colpi (tratto da
[4]).
Conviene considerare il seguente sistema di eventi incompatibili a due a due
H1 ={il bersaglio è colpito 1 volta}
H2 ={il bersaglio è colpito 2 volte}
H3 ={il bersaglio è colpito 3 volte}
H4 ={il bersaglio è colpito 0 volte}
L’evento in esame è
A={il bersaglio è distrutto al lancio dei tre colpi}
e chiaramente si ha che A ⊆ H1 ∪ · · · ∪ H4 .
Possiamo dunque applicare al formula della probabilità totale che pone
P(A) = P(A|H1 )P(H1 ) + · · · + P(A|H4 )P(H4 )
I dati del problema affermano che
P(A|H1 ) = d1 , . . . , P(A|H4 ) = d4
18
dunque la probabilità di A è data da
P(A) = d1 P(H1 ) + · · · + d4 P(H4 )
(5)
Occore a questo punto determinare la probabilità dei quattro eventi H1 ,...,H4 . L’evento
H1 si realizza quando viene colpito il bersaglio al primo colpo ma né al secondo né terzo,
oppure al secondo colpo ma né al primo né al terzo, oppure al terzo colpo ma né al primo
né al secondo. Siccome i risultati dei tre colpi sono indipendenti e i tre casi in cui si è
decomposto H1 sono incompatibili, dal corollario 6 e dalla proprietà 3 di prop. 2 segue
che
p(H1 ) = p1 (1 − p2 )(1 − p3 ) + (1 − p1 )p2 (1 − p3 ) + (1 − p1 )(1 − p2 )p3 = 0.185
Ripetendo il ragionamento anche per gli altri tre eventi si ottiene
p(H2 ) = p1 p2 (1 − p3 ) + p1 (1 − p2 )p3 + (1 − p1 )p2 p3 = 0.485
p(H3 ) =
p1 p2 p3 = 0.314
p(H4 ) =
(1 − p1 )(1 − p2 )(1 − p3 ) = 0.015
Dunque, sostituendo in eq. 5 le precedenti probabilità si ha che
P(A) = 0.3 · 0.185 + 0.6 · 0.485 + 0.8 · 0.314 + 0 · 0.015 ≈ 0.6
La formula della probabilità totale permette di ottenere la probabilità di un evento
A come somma delle componeneti P(A|Hi )P(Hi ) dovute alle sue cause Hi . Tuttavia, se
l’evento A si è verificato in una data prova, può essere interessante, in molte situazioni
concrete, valutare a posteriori il contributo che una data causa Hi ha svolto nell’aver
realizzato l’evento A. Si parla in tal caso delle cosı̀ dette probabilità delle cause, cioè delle
probabilità condizionate P(Hi |A), con i = 1, . . . , n. Il legame tra le probabilità delle cause
P(Hi |A) e le probabilità P(A|Hi ) è dato nel seguente teorema.
Teorema 8 (Formula di Bayes o teorema delle probabilità delle cause) Sia dato un evento A che si realizza assieme a uno solo degli eventi H1 ,...,Hn , che chiameremo
cause dell’evento A. Il verificarsi di A in una data prova causa una ridistribuzione della
probabilità delle casue data da
P(Hi |A) =
P(A|Hi )P(Hi )
P(A|H1 )P(H1 ) + · · · + P(A|Hn )P(Hn )
Dim..
Dal teorema delle probabilità composte applicato agli eventi A e Hi si ha
P(Hi |A)P(A) = P(A|Hi )P(Hi )
19
dunque, dividendo ambo i membri per P(A) si ottiene
P(Hi |A) =
P(A|Hi )P(Hi )
P(A)
(6)
D’altra parte, la formula della probabilità totale è
P(A) = P(A|H1 )P(H1 ) + · · · + P(A|Hn )P(Hn )
quindi, sostituendo quest’espressione di P(A) in eq. 6 si ottiene la tesi.
Un applicazione tipica del teorema di Bayes viene dal campo medico, ed è sviluppata
nel successivo esempio. Per le definizioni dei termini tecnici ed ulteriori approfondimenti
si veda [1].
Esempio 5 Supponiamo che in una popolazione una certa malattia si presenti con una
prevalenza (P ) inalterata nel tempo. La prevalenza di una malattia ci da una misura,
in senso frequentista, della probabilità che un individuo scelto a caso nella popolazione
si affetto dalla malattia in un dato momento, per esempio quello in cui viene fatto un
test diagnostico. Si suppone di avere a disposizione un test T che valuta la presenza o
meno della malattia in un soggetto fornendo due possibili risultati, cioè la positività e la
negatività alla malattia; per mezzo di una attenta sperimentazione sono stati valutati i
seguenti due caratteristiche del test:
sensibilità diagnostica (SN ): misura l’incidenza delle risposte positive applicando
il test a soggetti affetti dalla malattia
specificità diagnostica (SP ): misura l’incidenza delle risposte negative del test
applicato a pazienti non affetti dalla malattia
Tuttavia, nell’attività di inferenza diagnostica, a giocare un ruolo fondamentale non
sono direttamente coinvolti i parametri SN e SP , ma i valori predittivi del test:
valore predittivo positivo (V P P ): probabilità che un soggetto scelto a caso ha
di essere affetto da malattia se il test è risultato positivo
valore predittivo negativo (V P N ): probabilità che un soggetto scelto a caso ha
di non essere affetto da malattia se il test è risultato negativo
Supponendo che la prevalenza sia P R = 0.01, la sensibilità e la specificità del test siano,
rispettivamente, SN = 0.9 e SP = 0.6. Si determinino i valori predittivi del test e si
studi come portare il valore predittivo positivo V P P al 20%, mediante una modifica della
specificità SP del test.
Definiamo i seguenti eventi:
A ={il test è risultato positivo per il soggetto}
20
B ={il test è risultato negativo per il soggetto}
H1 ={il soggetto è affetto dalla malattia}
H2 ={il soggetto non è affetto dalla malattia}
Dai dati del problema, osservando che tanto H1 e H2 quanto A e B sono coppie di eventi
opposti, possiamo ricavare le seguenti probabilità
P(H1 ) = P R
P(H2 ) = 1 − P(H1 ) = 1 − P R
P(A|H1 ) = SN
P(B|H1 ) = 1 − P(A|H1 ) = 1 − SN
P(A|H2 ) = 1 − P(B|H2 ) = 1 − SP P(B|H2 ) = SP
A questo punto è facile capire che i valori predittivi del test esprimono le probabilità delle
cause, e quindi, applicando il teorema di Bayes, segue che
P(A|H1 )P(H1 )
=
P(A|H1 )P(H1 ) + P(A|H2 )P(H2 )
SN · P R
=
≈ 0.022
SN · P R + (1 − SP ) · (1 − P R)
V P P = P(H1 |A) =
P(B|H2 )P(H2 )
=
P(B|H1 )P(H1 ) + P(B|H2 )P(H2 )
SP · (1 − P R)
=
≈ 0.998
(1 − SN ) · P R + SP · (1 − P R)
V P N = P(H2 |B) =
Il valore predittivo positivo VPP è molto basso, per cui un risultato di positività
del test è scarsamente attendibile, poiché in tal caso la probabilità di essere realmente
affetti dalla malattia è attono al 2%. Il valore predittivo negativo è invece altissimo,
paraticamente 1, ciò a significare che se il test è risultato negativo, allora il soggetto è
quasi sicuramente sano – con certezza attorno al due per mille (1-0.998).
Una diagnosi errata può avere un costo clinico molto rilevante in funzione del tipo di
malattia a cui viene applicato, per cui si cerca, per quanto possible e a seconda dei casi,
un buon compromesso tra i due valori predittivi. Se volgiamo che V P P sia pari al 20%,
cioè V P P = 0.2, occorrerà modificare o la sensibilità o la specificità del test. Sebbene
nella pratica, per aumentare la specificità di un test occorre diminuire la sensibilita e
viceversa, qui supporremo di poter modificare la specificità SP del test lasciando invariata
la sensibilità SN . Il problema si può formulare come segue:
V PP =
SN · P R
0.9 · 0.1
=
= 0.2
SN · P R + (1 − SP ) · (1 − P R)
0.9 · 0.01 + (1 − SP ) · 0.99
da cui si ottiene
SP ≈ 0.96
21
Dunque, valori di specificità superiori al 96% garantiscono un valore predittivo positivo
del 20%. Supponendo di scegliere SP = 0.96, il valore predittivo negativo risulta V P N ≈
0.999, quindi leggermente maggiore rispetto al caso precedente.
22
[1][2][3][4]
23
Riferimenti bibliografici
[1] I.Covelli, L.Spandrio, M.Zatti, C.Lecchi, and E.Nani, Medicina di laboratorio. Milano:
edizioni Sorbona, 1993.
[2] L.Piccinato, Metodi per le decisioni statistiche. Milano: Springer-Verlag Italia, 1996.
[3] B.V.Gnedenko, Teoria della probabilità. Roma: Editori Riuniti, 1992.
[4] G.Zwirner and L.Scaglianti, Strumenti e metodi matematici, vol. I. Padova: CEDAM,
seconda ed., 1993.
24