Teorema di Gleason

Transcript

Teorema di Gleason

UNIVERSITA’ DELLA CALABRIA
DIPARTIMENTO DI MATEMATICA E INFORMATICA
CORSO DI LAUREA IN MATEMATICA
Tesi di Laurea in Matematica
Teorema di Gleason e probabilità
quantistica
Relatore
Candidata
Prof. Giuseppe Nisticò
Francesca De Masi, matr. 135495
Anno Accademico 2013/2014
Indice
Introduzione
5
1 Il teorema di Gleason
7
1.1
Nozioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Frame functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3
Il teorema di Gleason . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4
Lemmi fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5
La dimostrazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Il ruolo del teorema di Gleason nella Teoria Quantistica
8
27
2.1
Concetti fisici di base della Teoria Quantistica . . . . . . . . . . . . . 27
2.2
Osservabili elementari
2.3
Lo sviluppo assiomatico della teoria . . . . . . . . . . . . . . . . . . . 29
. . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Probabilità, frequenza e ragionevole aspettativa
31
3.1
Frequenza e ragionevole aspettativa come concetti principali . . . . . 31
3.2
Ragionevole aspettativa in relazione alla logica simbolica . . . . . . . 32
3.3
Probabilità e frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Riferimenti nella letteratura scientifica
4
40
Introduzione
Il teorema di Gleason, formulato e dimostrato da A.M. Gleason nel 1957 [1], nasce
come risposta al problema, posto dal matematico statunitense G. Mackey [2], di
caratterizzare le misure di probabilità sui sottospazi chiusi di uno spazio di Hilbert
reale o complesso di dimensione maggiore di due.
Obbiettivo di questa tesi è fornire una prova del teorema che sia più accessibile di
quella originale, seguendo il lavoro di Cook, Keane e Moran [3].
Il primo capitolo dell’elaborato è dedicato alla formulazione e alla dimostrazione
del teorema. Dopo aver enunciato il teorema, dimostreremo che provare il teorema
per R3 equivale a provarlo per uno spazio di Hilbert; studieremo una particolare
classe di funzioni chiamate frame functions e quindi enunceremo e dimostreremo il
teorema in R3 in termini di frame functions.
Nel secondo capitolo vedremo come il teorema di Gleason, stabilendo quali sono
i rappresentanti matematici degli stati quantistici, ricopra un ruolo di fondamentale
importanza nello sviluppo della teoria quantistica. Insieme alle osservabili, infatti, gli
stati quantistici, intesi come la probabilità di ottenere un determinato risultato nella
misurazione di un osservabile, costituiscono i concetti principali della formulazione
della teoria quantistica.
Nel suo sviluppo assiomatico della teoria, von Neumann [4] stabilisce che ad ogni
sistema fisico è possibile associare uno spazio di Hilbert complesso e separabile in
modo che ad ogni osservabile corrisponda biunivocamente un operatore hermitiano.
Il teorema di Gleason completa tale sviluppo, identificando gli oggetti matematici
che devono rappresentare gli stati nella teoria.
Da quanto trattato nel secondo capitolo emerge la necessità di dare un’interpretazione alla probabilità definita dagli stati quantistici. Nel terzo capitolo faremo
vedere come in generale la probabilità ammette due possibili interpretazioni: una in
5
INTRODUZIONE
termini di frequenza e l’altra in termini di “ragionevole aspettativa”. Evidentemente
le due possibilità si applicano alla teoria quantistica. E’ allora importante studiare
le relazioni tra le due interpretazioni della probabilità.
Seguendo il ragionamento di Cox [5], dopo aver dato una definizione di probabilità come ragionevole aspettativa, vedremo come leggi di probabilità possano essere
ricavate mediante l’utilizzo della logica simbolica. Infine, vedremo come la probabilità come misura della ragionevole aspettativa e la frequenza di un evento tendano
a coincidere sotto determinate ipotesi.
6
Capitolo 1
Il teorema di Gleason
Il teorema di Gleason determina gli stati su uno spazio di Hilbert, cioè su uno spazio
vettoriale con prodotto interno, completo rispetto alla norma indotta dal prodotto
interno. Uno stato è una funzione definita sull’insieme dei sottospazi chiusi di uno
spazio di Hilbert H che assegna a ogni sottospazio chiuso un numero reale non
negativo tale che se {Ai } è una successione di sottospazi mutualmente ortogonali e
se B è il più piccolo sottospazio chiuso da essi generato, cioè B = ⊕i Ai , allora
p(B) =
X
p(Ai),
p(H) = 1.
Teorema (di Gleason) Sia H uno spazio di Hilbert separabile di dimensione maggiore
di 2 e sia p uno stato su H. Allora esiste un operatore positivo W di classe traccia
con Tr(W)=1 tale che
p(V ) = T r(W Pv )
dove V è un qualsiasi sottospazio chiuso di H e Pv è la proiezione ortogonale su V.
Articoleremo la dimostrazione del teorema come segue. Nel primo paragrafo
ricorderemo alcune definizioni relative alla teoria degli spazi di Hilbert, proseguiremo
con quella di stato e di stato regolare, per poi dimostrare che provare il teorema per
R3 equivale a provarlo in generale per uno spazio di Hilbert separabile, reale o
complesso. Nel secondo paragrafo introdurremo una particolare classe di funzioni
chiamate frame functions, descrivendone le proprietà e fornendone alcune esempi, in
modo tale da poter enunciare, nel terzo paragrafo, il teorema di Gleason in termini
frame functions. Il terzo paragrafo comprenderà anche altri due teoremi, di cui
7
CAPITOLO 1. IL TEOREMA DI GLEASON
il secondo è una versione approssimata del primo, che ci servirà per dimostrare il
teorema di Gleason in un caso particolare. Il paragrafo quattro sarà dedicato a tre
lemmi fondamentali volti allo stesso scopo. Infine nell’ultimo paragrafo, dopo aver
dimostrato che il teorema di Gleason è vero sotto due ulteriori ipotesi sulle frame
functions e con l’ausilio di un teorema sulle frame functions limitate, saremo in
grado di dimostrare il teorema di Gleason nel caso generale.
1.1
Nozioni preliminari
Ricordiamo alcune definizioni.
Definizione 1. Sia H uno spazio vettoriale complesso; si definisce prodotto interno
(o hermitiano) un’applicazione < ·, · > : H × H → C tale che ∀x, y, z ∈ H e λ ∈ C
a. < x, y > = < y, x >
b. < x + y, z > = < x, z > + < y, z >
e
< x, y + z > = < x, y > + < x, z >
c. < λx, y > = λ < x, y >
d. < x, x > è un numero reale non negativo, e < x, x > = 0 se e solo se x è il vettore
nullo in H.
Definizione 2. Il prodotto interno induce una funzione || · || : H → R detta norma
definita come
||x|| =
√
< x, x >
Definizione 3. Uno spazio vettoriale normato H si dice completo se e solo se ogni
successione di Cauchy di H converge in norma ad un vettore in H.
Definizione 4. (Spazio di Hilbert) Uno spazio di Hilbert è uno spazio vettoriale
dotato di prodotto interno, completo rispetto alla norma indotta dal prodotto interno.
Sia H uno spazio di Hilbert separabile reale o complesso e sia L l’insieme dei
sottospazi chiusi di H. Se A ∈ L e B ∈ L sono ortogonali, scriveremo A ⊥ B.
Indichiamo con O il sottospazio di H contenente il solo vettore nullo. Naturalmente
O è ortogonale a tutti i sottospazi. Per Ai ∈ L, i ∈ I, indichiamo con ∨i∈I Ai il più
piccolo sottospazio chiuso contenente Ai , ∀i ∈ I.
Se x è un vettore in H, x̄ indica il sottospazio unidimensionale generato da x.
8
Definizione 5. (Stato) Una funzione p : L → [0, 1] si dice stato se
p(O) = 0 ,
p(H) = 1 e
per ogni successione
{Ai }αi=1 ,
Ai ∈ L, con Ai ⊥ Aj , per i 6= j : p
α
∨ Ai
i=1
=
α
X
p(Ai ).
i=1
Definizione 6. Un operatore A : H → H si dice hermitiano se
< A(x), y >=< x, A(y) >
∀x, y ∈ H
Definizione 7. Uno stato p è detto regolare se esiste un operatore hermitiano A di
classe traccia su H tale che per ogni vettore unitario x ∈ H
p(x̄) =< Ax, x > .
Le seguenti proprietà sono equivalenti:
(i) p è regolare
(ii) Esiste una forma bilineare continua simmetrica B su H tale che
p(x̄) = B(x, x).
Il teorema di Gleason stabilisce che ogni stato su uno spazio di Hilbert reale o
complesso di dimensione maggiore di due è regolare.
Dimostriamo ora che la validità del teorema in R3 ne implica la validità in H. A
tale scopo premettiamo due lemmi.
Lemma 1. Se la restrizione di p a ogni sottospazio di dimensione 2 di H è regolare,
allora p è regolare.
Dimostrazione. Supponiamo dapprima che H abbia dimensione 3 e consideriamo un
sottospazio H2 di dimensione 2 di H. Per ipotesi ∃A operatore hermitiano di classe
traccia su H2 tale che per ogni vettore unitario x ∈ H2
p(x̄) =< Ax, x > .
Per il teorema spettrale, esiste una base ortonormale {u1 , u2 } di H2 che diagonalizza
A. La matrice A2 che rappresenta A rispetto a tale base sarà della forma


λ1 0

A2 = 
0 λ2
9
con λ1 , λ2 ∈ R.
Quindi se fissiamo un vettore unitario x = a1 u1 + a2 u2 di H2 , avremo che
p(x̄) = |a1 |2 λ1 + |a2 |2 λ2 .
Notando che λ1 = u1 |A2 |u1 = p(ū1 ) e λ2 = u2 |A2 |u2 = p(ū2 ) possiamo scrivere
p(x̄) = |a1 |2 p(ū1 ) + |a2 |2 p(ū2 ).
Consideriamo ora un vettore x ∈ H di coefficienti (a1 , a2 , a3 ) rispetto alla base
ortonormale {u1 , u2 , u3 } e proiettiamolo su H2 . Sia u il versore avente la direzione
di tale proiezione e siano (b1 , b2 ) i suoi coefficienti. Per ipotesi, la restrizione di p al
sottospazio generato da {u, u3 } sarà regolare e dunque, come prima, avremo
p(x̄) = |a|2 p(ū) + |a3 |2 p(ū3 )
dove (a, a3 ) rappresentano i coefficienti di x rispetto a {u, u3 }. Osservando che
p(ū) = |b1 |2 p(ū1 ) + |b2 |2 p(ū2 ),
in definitiva otteniamo che
p(x̄) = |a1 |2 λ1 + |a2 |2 λ2 + |a3 |2 λ3 = x|A3 |x .
Dunque p è regolare.
Vogliamo ora dimostrare che p è regolare anche su uno spazio H di dimensione finita
maggiore di 3.
Procediamo per induzione, indicando con n la dimensione dello spazio. La tesi è
vera per n = 1, supponiamola vera per n e dimostriamo che sia vera per n + 1.
Consideriamo Hn+1 = H1 ⊕ Hn . Sia x ∈ Hn+1 e siano x1 e xn le rispettive proiezioni
su H1 e Hn . Per la numerabile additività di p
p(x̄) = p(x̄1 ) + p(x̄n )
poiché le restrizioni di p ad H1 e ad Hn sono regolari segue che p è regolare.
Resta da mostrare il caso in cui H abbia dimensione infinita.
Sia x un qualunque vettore unitario di H e sia {uk } una base ortonormale di H.
Per ogni n sia Hn il sottospazio di dimensione n generato da (u1 , . . . , un ). Allora
x = xn + rn dove xn è la proiezione di x su Hn e rn la proiezione sul complemento
10
ortogonale di Hn . Per ogni n, p è regolare su Hn e p(ȳ) =< y|An |y >, per ogni
y ∈ Hn con ||y|| = 1. Allora x appartiene al sottospazio di dimensione 2 generato
da xn e rn , perciò
p(x̄) = ||xn ||2 p(x̄n ) + ||rn ||2 p(r̄n ).
Siccome ||rn ||2 → 0 se n → +∞ e p(r̄n ) 6 1 per definizione,
p(x̄) = lim ||xn ||2 p(x̄n ) =< x| lim An |x > .
n→∞
n→∞
Allora p è regolare.
Definizione 8. Diremo che un sottospazio reale chiuso K di uno spazio di Hilbert
H è completamente reale se il prodotto interno su K × K assume solo valori reali.
Lemma 2. Se p è uno stato su uno spazio di Hilbert complesso di dimensione 2, e
se p è regolare su ogni sottospazio completamente reale, allora p è regolare.
Dimostrazione. Cominciamo col mostrare che per x appartenente a un sottospazio completamente reale c’è un sottospazio unidimensionale x̄ tale che p(x̄) sia
massimale. Poniamo
M = sup p(x̄)
x∈H
e scegliamo una successione xn ∈ H tale che limn→∞ p(x̄n ) = M . Siccome la sfera unitaria è compatta, esiste una sottosuccessione {yn } tale che limn→∞ yn = x.
Chiaramente esiste {θn } tale che < eiθn yn , x > è reale e non negativo; passando di
nuovo a due sottosuccessioni {αn } e {zn }, possiamo assumere che limn→∞ αn = θ e
limn→∞ zn = x. Per la continuità del prodotto scalare il limite < eiθ x, x >= eiθ kxk2
è anche reale e quindi eiθ = 1. Dunque limn→∞ eiαn zn = x e ∀n i vettori x e
eiαn zn appartengono allo stesso sottospazio completamente reale. Considerando la
diseguaglianza
|p(x̄) − M | = |p(x̄) − p(eiαn zn ) + p(z̄n ) − M | ≤ |p(x̄) − p(eiαn zn )| + |p(z̄n ) − M |
notiamo che, per l’uniforme continuità degli stati regolari e poiché abbiamo supposto
limn→∞ p(x̄n ) = M , entrambi i termini a destra della diseguaglianza tendono a zero,
dunque p(x̄) = M .
Per ogni y ∈ H esiste θ tale che < x, eiθ y > è reale dunque, notando che
eiθ y =< x, eiθ y > x+ < z, eiθ y > z
11
con z ⊥ x
e che (< z, eiθ y >)2 = 1 − (< x, eiθ y >)2 , risulta che
p(ȳ) = p(eiθ y) = M (< x, eiθ y >)2 + (1 − M )(1 − (< x, eiθ y >)2 )
= M | < x, y > |2 + (1 − M )(1 − | < x, y > |2 )
e quindi p è regolare.
Teorema 1. Se ogni stato su R3 è regolare, allora ogni stato su uno spazio di Hilbert
H separabile reale o complesso di dimensione maggiore di due è regolare.
Dimostrazione. Ogni stato su H induce una forma bilineare simmetrica continua
su ogni sottospazio completamente reale di dimensione tre, poiché ogni sottospazio completamente reale di dimensione due può essere immerso in un sottospazio
completamente reale di dimensione tre, segue che la restrizione di uno stato su H
a qualsiasi sottospazio completamente reale di dimensione due è regolare e, per i
lemmi precedenti, segue che ogni stato su H è regolare.
1.2
Frame functions
Indichiamo con S la sfera unitaria di uno spazio di Hilbert reale di dimensione tre.
Definizione 9. Si definisce frame una terna ordinata (p, q, r) di elementi di S tale
che p ⊥ q, p ⊥ r, q ⊥ r.
Dato un frame (p, q, r) ogni elemento dello spazio vettoriale può essere espresso
in modo unico come xp + yq + zr, con x, y, z ∈ R.
Definizione 10. Una frame function è una funzione f : S → R tale che
w(f ) = f (p) + f (q) + f (r)
assume lo stesso valore per ogni frame (p, q, r) .
Il numero w(f ) si chiama peso di f.
Le frame functions godono delle seguenti proprietà
12
(P1 ) L’insieme delle frame functions è uno spazio vettoriale e, per f,g frame function
∀α ∈ R
w(αf ) = αw(f ),
w(f + g) = w(f ) + w(g);
(P2 ) f (−s) = f (s),
∀s ∈ S;
(P3 ) se s, t, s0 , t0 ∈ S giacciono tutti sulla stessa circonferenza massima e s ⊥ t, s0 ⊥ t0 ,
allora
f (s) + f (t) = f (s0 ) + f (t0 );
(P4 ) sia sup f (s) = M < ∞ e inf f (s) = m > −∞, sia ξ > 0 e s ∈ S tale che
f (s) > M − ξ. Allora ∃t ∈ S con s ⊥ t e f (t) < m + ξ.
Esempio 1. Le costanti sono frame functions.
Esempio 2. Indichiamo con θ(s, s0 ) l’angolo tra i vettori s, s0 ∈ S.
Fissato p0 ∈ S, per ogni frame (p, q, r) le “frame coordinate”di p0 rispetto a (p, q, r)
sono date da (cosθ(p0 , p), cosθ(p0 , q), cosθ(p0 , r)) e, poiché p0 ∈ S, la somma dei
quadrati delle tre coordinate è uguale a uno. Dunque
f (s) = cos2 θ(p0 , s)
è una frame function con w(f ) = 1.
Esempio 3. Fissiamo un frame (p, q, r) e una terna di numeri reali (α, β, γ). Sia
s ∈ S e siano (x, y, z) le frame coordinate di s rispetto a (p, q, r). Per quanto visto
nell’esempio precedente,
f (s) = αx2 + βy 2 + γz 2
(1.1)
è una frame function con w(f ) = α + β + γ.
Ricordiamo ora il seguente
Teorema 2. Sia V uno spazio vettoriale complesso di dimensione finita maggiore
di zero, e sia h una forma hermitiana su V. Esiste in V una base ortonormale
diagonalizzante per h.
13
Dunque, se Q è una forma quadratica sul nostro spazio di Hilbert, esisteranno
un frame (p, q, r) e una terna (α, β, γ) di numeri reali, tale che la restrizione di Q
ad S è data dalla (1.1). Abbiamo provato il primo punto della seguente
Proposizione 1. (a) Sia A un operatore lineare da uno spazio di Hilbert in se stesso,
e sia
Q(s) =< s, As >
la forma quadratica associata ad A. Allora la restrizione di Q ad S è una frame
function il cui peso è la traccia di A.
(b) Sia ψ : R → R tale che ψ(x + y) = ψ(x) + ψ(y) per ogni (x, y) ∈ R.
Allora ψ(x) = cx (con c = f (1)) per ogni x ∈ Q. Se inoltre ψ è limitata, continua,
o monotona su un intervallo allora ψ(x) = cx per ogni x ∈ R (v. J.Aczél, “Lectures
on functional equations and their applications”).
1.3
Il teorema di Gleason
A questo punto possiamo enunciare il teorema di Gleason in termini di frame functions, dove la restrizione a frame functions limitate risulta essenziale per quanto
vedremo nell’ultimo paragrafo.
Teorema 3. Sia f una frame function limitata. Definiamo
M = sup f (s)
m = inf f (s)
α = w(f ) − M − m.
Allora esiste un frame (p, q, r) tale che se (x, y, z) sono le frame coordinate di s ∈ S
rispetto a (p, q, r),
f (s) = M x2 + αy 2 + mz 2
(1.2)
∀s ∈ S.
Il teorema precedente è equivalente al teorema di Gleason perché stabilisce che
la frame function di un vettore unitario è della forma (1.2) che, per quanto visto
precedentemente, è la forma quadratica associata all’operatore lineare rappresentato
14
dalla matrice


M 0 0


 0 α 0.


0 0 m
Allo scopo di chiarire l’idea che c’è dietro la dimostrazione del Teorema 3, enunciamo
e dimostriamo il seguente teorema.
Teorema 4. Sia f : [0, 1] → R una funzione limitata tale che per ogni a, b, c ∈ [0, 1]
con a + b + c = 1, f (a) + f (b) + f (c) abbia lo stesso valore w̃ = w(f ). Allora
f (a) = (w̃ − 3f (0))a + f (0) per ogni a ∈ [0, 1].
Dimostrazione. Supponiamo, a meno di una costante, che f (0) = 0, e scegliamo
c = 0, b = 1 − a in modo da ottenere
f (a) = w̃ − f (1 − a),
dalla quale si evince f (1) = w̃, e successivamente c = 1 − (a + b) ottenendo
f (a) + f (b) = w̃ − f (1 − (a + b)) = f (a + b)
∀ a, b, a + b ∈ [0, 1]. Allora, per quanto visto precedentemente,
f (a) = w̃a
per ogni a razionale, mentre per a ∈ [0, 1] qualsiasi e n ≥ 1 con na ≤ 1 vale
f (na) = nf (a).
Poiché f è limitata su [0, 1], lo è anche anche g(a) = f (a) − w̃a.
Inoltre, poiché per ogni razionale r risulta g(r) = 0 e dunque g(a + r) = g(a), g è
limitata su tutto R. Per a0 tale che g(a0 ) = A 6= 0, vale g(na0 ) = ng(a0 ) = nA.
Quindi per n sufficientemente grande, g assumerà valori arbitrariamente grandi, in
contraddizione con la sua limitatezza. Ma allora g(a) = 0 e dunque f (a) = w̃a per
ogni a ∈ [0, 1].
Nella dimostrazione del teorema di Gleason useremo la seguente versione modificata del Teorema 4.
15
Teorema 5. Sia C un sottoinsieme finito o numerabile di (0, 1). Sia f : [0, 1]rC →
R una funzione tale che
(1) f (0) = 0;
(2) se a, b ∈ [0, 1] r C e a < b, allora f (a) 6 f (b);
(3) se a, b, c ∈ [0, 1] r C e a + b + c = 1, allora f (a) + f (b) + f (c) = 1.
Allora f (a) = a per ogni a ∈ [0, 1] r C.
Dimostrazione. L’ insieme
C̃ = {rc, r(1 − c) : c ∈ C, r razionale}
è finito o numerabile, dunque esiterà un punto a0 ∈ (0, 1) con a0 ∈
/ C̃. Supponiamo
che r sia un numero razionale tale che ra0 ∈ [0, 1]. Allora, poiché a0 ∈
/ C̃, né ra0
né 1 − ra0 apparterranno a C. Quindi, dalle ipotesi (1) e (3) possiamo concludere,
come nella dimostrazione precedente, che
f (ra0 ) + f (r0 a0 ) = f (r + r0 )a0
con r e r0 razionali e ra0 , r0 a0 , (r + r0 )a0 ∈ [0, 1], e dunque
f (ra0 ) = rf (a0 )
per r razionale e ra0 ∈ [0, 1].
Dall’ipotesi (2) segue che f (a) = a per ogni a ∈ [0, 1] r C.
1.4
Lemmi fondamentali
Dimostriamo ora un lemma fondamentale, una sua versione approssimata e un lemma geometrico che ci saranno utili in seguito.
Fissato un punto p ∈ S, definiamo l’emisfero nord di S come l’ insieme
n
πo
N = s ∈ S : θ(p, s) ≤
2
e l’equatore come l’insieme
E= s∈S:s⊥p .
16
Figura 1.1: Polo nord, equatore
Figura 1.2: l-esimo parallelo
p rappresenterà il polo nord di N (Figura 1.1).
Per ogni s ∈ N , definiamo la latitudine di s come
l(s) = cos2 θ(p, s)
e, per 0 ≤ l ≤ 1, l’l-esimo parallelo (Figura 1.2) come
Ll = s ∈ N : l(s) = l
Avremo, ad esempio, L1 = {p} e L0 = E.
Per s ∈ N r {p}, esiste un unico vettore s⊥ ∈ N tale che s ⊥ s⊥ e l(s) + l(s⊥ ) = 1.
Chiameremo discesa per s la semicirconferenza massima
D s = t ∈ N : t ⊥ s⊥ .
Lemma 3. (fondamentale) Sia f una frame function tale che
(1) f (p) = sup f (s), e
s∈S
(2) f (e) ha lo stesso valore per ogni e ∈ E.
Allora se s ∈ N r {p} e se s0 ∈ Ds ,
f (s) ≥ f (s0 ).
Dimostrazione. Poniamo f (p) = M . La proprietà (P4 ) implica che
f (e) = m = inf f (s).
s∈S
Sia s ∈ N r {p} e s0 ∈ Ds . Prendiamo t, t0 ∈ Ds con s ⊥ t e s0 ⊥ t0 . Per la proprietà
(P3 ) risulta che
f (s) + f (t) = f (s0 ) + f (t0 )
17
e, poiché t ∈ E, abbiamo che
f (s) − f (s0 ) = f (t0 ) − f (t) = f (t0 ) − m ≥ 0
quindi la tesi.
Lemma 4. (versione approssimata del lemma fondamentale) Siano f una frame
function e ξ > 0 tali che
(1) f (p) > sup f (s) − ξ, e
s∈S
(2) f (e) ha lo stesso valore per ogni e ∈ E.
Allora se s ∈ N r {p} e se s0 ∈ Ds ,
f (s) > f (s0 ) − ξ.
Dimostrazione. Come nel lemma precedente, (P4 ) implica
f (e) < m + ξ,
e per la stessa scelta di t e t0 otteniamo
f (s) − f (s0 ) = f (t0 ) − f (t) > f (t0 ) − m − ξ ≥ −ξ.
Lemma 5. (geometrico) Siano s, t ∈ N r {p} tali che l(s) > l(t). Allora esistono
n > 1 e s0 , . . . , sn ∈ N r {p}, tale che s0 = s, sn = t e per ogni 1 6 i 6 n : si ∈
Dsi−1 .
Dimostrazione. Per ipotesi, s e t si trovano a diverse latitudini : nel caso più semplice, sulla stessa circonferenza massima passante per p. Per facilitare i calcoli,
trasferiamo il problema al piano tangente ad S in p, ivi proiettando, dal centro della
sfera (che sceglieremo come origine), tutti i punti di N . I punti che hanno la stessa latitudine su S saranno proiettati su circonferenze centrate in p, le circonferenze
massime su delle rette, e la discesa per s sulla retta tangente in s al parallelo passante per s (Figura 1.5). Nel caso più semplice, quindi, s e t si troveranno sullo stesso
raggio dall’origine. Se in questo caso, scegliamo n = 2, poniamo s0 = s, s2 = t e
fissiamo s1 come in Figura 1.3 avremo che s1 ∈ Ds0 e s2 ∈ Ds1 , e dunque la validità
18
Figura 1.3: Lemma geometrico: caso più semplice
Figura 1.4: Lemma geometrico: caso generico
19
Figura 1.5: Piano prospettico
della tesi. Fissiamo ora, s = s0 = (x, 0) e n > 1, e scegliamo s1 , . . . , sn in modo che
si ∈ Dsi−1 e che l’angolo tra si e si+1 sia
π
n
(Figura 1.4). Allora sn avrà coordinate
(−y, 0). Vogliamo dimostrare che y − x → 0 se n → ∞. Indichiamo con di la distanza di si dall’origine. Quindi d0 = x e dn = y. Poiché, per ogni i, di+1 e di sono
rispettivamente l’ipotenusa e un cateto di uno stesso triangolo rettangolo, avremo
di+1
1
,
=
di
cos πn
e dunque
n
16
1
y
dn Y di
1
6
=
=
=
π
π2 n
x
d0
d
cosn ( n )
(1 − 2n
2)
i=1 i−1
che tende a 1 al tendere all’infinito di n.
1.5
La dimostrazione
Adesso abbiamo quasi tutti gli strumenti necessari per dimostrare il teorema di
Gleason. Cominciamo col provare che è vero sotto due ulteriori ipotesi sulle frame
functions.
20
Teorema 6. Sia f una frame function tale che per un punto p ∈ S
(1) f (p) = M := supf (s),
s∈S
(2) f (e) assume il valore costante m per ogni e ∈ E.
Allora f (s) = m + (M − m)cos2 θ(s, p) per ogni s ∈ S, dove m = infs∈S f (s).
Dimostrazione. Per la proprietà (P4 ), m = inf s∈S f (s), dunque se M = m, la tesi è
vera. Supponiamo allora che m 6= M e che (ponendo (1/(M − m))(f − m) al posto
di f ) m = 0 e M = 1. Siano s, t ∈ N r {p} con l(s) > l(t). Allora, poiché per il
geometric lemma t ∈ Ds , segue dal basic lemma che
f (s) > f (t).
Per ogni l ∈ [0, 1] definiamo:
f¯(l) = sup{f (s) : s ∈ N, l(s) = l},
f (l) = inf{f (s) : s ∈ N, l(s) = l}.
−
Avremo quindi che f¯(1) = f (1) = 1, f¯(0) = f (0) = 0 e ∀ l, l0 ∈ [0, 1] con l < l0
−
−
f¯(l) 6 f (l0 ).
(1.3)
−
Pertanto, l’insieme C := {l : f¯(l) > f (l)} è al più numerabile.
−
Per l ∈ [0, 1] r C definiamo
f (l) = f¯(l) = f (l).
−
Se l, l0 , l00 ∈ [0, 1] con l + l0 + l00 = 1, esisterà un frame (q, q 0 , q 00 ) tale che l(q) =
l, l(q 0 ) = l0 , l(q 00 ) = l00 . Quindi f soddisfa le ipotesi del Teorema 5 e risulta
f (l) = l
∀ l ∈ [0, 1] r C.
Ciò implica che C è vuoto, e quindi che per ogni s ∈ N ,
f (s) = f (l(s)) = l(s) = cos2 θ(s, p).
(1.4)
Poiché, per la proprietà (P2 ), la (1.4) vale per ogni s ∈ S, la dimostrazione è
conclusa.
21
Teorema 7. Le frame functions limitate assumono i propri valori estremanti.
Dimostrazione. Sia f una frame function limitata con M = sups∈S f (s) e scegliamo
una successione pn ∈ N tale che limn→∞ f (pn ) = M . Dato che N è un sottoinsieme
chiuso di S, che è compatto, possiamo assumere passando a una sottosuccessione,
che pn converga e porre p = limn→∞ pn . Vogliamo dimostrare che f (p) = M .
Dividiamo la dimostrazione in quattro punti.
1. Al fine di considerare come polo nord pn per ogni n, piuttosto che p, scegliamo e
fissiamo un punto e0 ∈ E e indichiamo con C0 l’arco di circonferenza massima che
congiunge p ad e0 . Sia ρn : S → S il movimento rigido di S che porta p su pn e un
punto di C0 , che chiameremo cn su p. Ovviamente
lim cn = p.
n→∞
Definiamo ora la successione di frame functions {gn } ponendo
gn (s) = f (ρn (s)) con s ∈ S.
Valgono le seguenti proprietà:
(1) lim gn (p) = M.
n→∞
(2) M = sup gn (s) e m = inf gn (s) ∀n > 1
s∈S
s∈S
(3) gn (cn ) = f (p) ∀n > 1.
2. Indichiamo con p̂ : S → S la rotazione di 90◦ in senso orario di S attorno al polo
p. Per ogni n ≥ 1, poniamo
hn (s) = gn (s) + gn (p̂(s)) con s ∈ S.
{hn } è una successione di frame functions, per la proprietà (P1 ), e gode delle seguenti
proprietà:
(1) sup hn (s) 6 2M
∀n > 1.
s∈S
(2) inf hn (s) > 2m ∀n > 1.
s∈S
(3) lim hn (p) = 2M.
n→∞
(4) ogni hn è costante su E.
(5) hn (cn ) 6 M + f (p),
22
∀n > 1.
3. Consideriamo ogni hn come un punto dello spazio
[2m, 2M ]S
che è compatto sotto la topologia prodotto, allora la successione hn avrà un punto
di accumulazione che indicheremo con h. Dunque
(1) h(p) = 2M = sup h(s).
s∈S
(2) h è costante su E.
(3) h è una frame function perchè le frame functions formano un sottospazio chiuso
di [2m, 2M ]S .
Allora per il Teorema 6 , h è continua.
4. Scegliamo > 0 e c ∈ C0 in modo che risulti h(c) > 2M − . Applicando ad
hn la versione approssimata del basic lemma e notando che c e cn si trovano sulla
stesso tratto di circonferenza massima passante per il polo e che quindi ci troviamo
nel caso più semplice del geometric lemma, abbiamo che
hn (cn ) > hn (c) − 2δn
con δn > 2M − hn (p) che tende a zero per n tendente a infinito. Scegliamo adesso
una sottosuccessione {hnj } tale che
lim hnj (c) > 2M − j→∞
Ricordiamo che ((5) del punto 2) hn (cn ) 6 M + f (p),
M + f (p) > lim inf hnj (cnj ) > lim hnj (c) − 2δnj > 2M − j→∞
j→∞
Pertanto f (p) > M − .
Possiamo infine dimostrare il teorema di Gleason.
Teorema Sia f una frame function limitata. Definiamo
M = sup f (s)
m = inf f (s)
α = w(f ) − M − m.
23
Allora esiste un frame (p, q, r) tale che se (x, y, z) sono le frame coordinate di s ∈ S
rispetto a (p, q, r),
f (s) = M x2 + αy 2 + mz 2
∀s ∈ S.
Dimostrazione. Per il Teorema 7 appena dimostrato, possiamo scegliere p ∈ S tale
che f (p) = M e, grazie alla proprietà (P4 ), r ∈ S, r ⊥ p tale che f (r) = m. Scegliamo q perpendicolare a p e ad r, e poniamo f (q) = α. Indichiamo con p̂, q̂, r̂ le
rotazioni di 90◦ in senso orario attorno a p, q, r . Prendendo p come polo nord, la
funzione
f (s) + f (p̂(s))
assumerà il valore costante m + α sull’equatore per la proprietà (P3 ) e, per il passo
(3), raggiungerà il suo massimo 2M in p. Allora, per il Teorema 6, abbiamo che
f (s) + f (p̂(s)) = 2M cos2 θ(s, p) + (m + α)(1 − cos2 θ(s, p)).
Sia
g(s) = M cos2 θ(s, p) + m cos2 θ(s, r) + α cos2 θ(s, q),
dunque
g(p̂(s)) = M cos2 θ(s, p) + m cos2 θ(s, q) + α cos2 θ(s, r),
ricordando che
cos2 θ(s, p) + cos2 θ(s, q) + cos2 θ(s, r) = 1
otteniamo
f (s) + f (p̂(s)) = g(s) + g(p̂(s)).
(1.5)
f (s) + f (r̂(s)) = g(s) + g(r̂(s)).
(1.6)
Analogamente
Indichiamo ora con (x, y, z) le frame coordinate di s ∈ S rispetto a (p, q, r).
Vogliamo dimostrare che se le frame coordinate di s soddisfano determinate condizioni, allora, nel punto s, le funzioni f e g coincidono.
Asserzione:
(a) se x = y, x = z, o y = z, allora f (s) = g(s);
(b) se x = −y, x = −z, o y = −z, allora f (s) = g(s).
24
Prova (a) Notiamo che le operazioni r̂ e p̂ sono tali che r̂(x, y, z) = (−y, x, z) e
p̂(x, y, z) = (x, −z, y). Dunque, applicandole in successione, otteniamo
(p̂ ◦ p̂ ◦ r̂)(x, x, z) = (−x, −x, −z),
(p̂ ◦ r̂ ◦ r̂)(x, z, z) = (−x, −z, −z),
(r̂ ◦ p̂ ◦ p̂ ◦ p̂ ◦ r̂)(x, y, x) = (−x, −y, −x).
Supponiamo s = (x, x, z). Dalle equazioni (1.5) e (1.6) risulta che
f (s) + (f ◦ r̂)(s) = g(s) + (g ◦ r̂)(s),
(f ◦ r̂)(s) + (f ◦ p̂ ◦ r̂)(s) = (g ◦ r̂)(s) + (g ◦ p̂ ◦ r̂)(s),
(f ◦ p̂ ◦ r̂)(s) + (f ◦ p̂ ◦ p̂ ◦ r̂)(s) = (g ◦ p̂ ◦ r̂)(s) + (g ◦ p̂ ◦ p̂ ◦ r̂)(s);
sottraendo la seconda equazione dalla somma della prima e della terza, e ricordando
che f (s) = f (−s) e g(s) = g(−s), concludiamo che f (s) = g(s). Gli altri due casi in
(a) si provano in maniera analoga. Per lo stesso motivo, dimostreremo solo il primo
caso di (b). Supponiamo s = (x, −x, z). Poiché r̂(x, −x, z) = (x, x, z) giace sulla
circonferenza massima x = y, sappiamo da (a) che (f ◦ r̂)(s) = (g ◦ r̂)(s), ma allora,
per la (1.6), f (s) = g(s). L’asserzione è provata.
Al fine di dimostrare che f coincide identicamente con g, definiamo la frame function
h := g − f e mostriamo che è identicamente uguale a zero. L’asserzione implica che
h(p) = h(q) = h(r) = 0, e quindi che il peso di h è zero. Sappiamo inoltre, che
h assume valore zero sulle sei circonferenze massime x = ±y, x = ±z, y = ±z.
Supponiamo che h non sia identicamente uguale a zero e poniamo
M 0 := sup h = h(p0 ),
m0 := inf h = h(r0 ),
α0 := h(q 0 );
con q 0 ⊥ r0 , q 0 ⊥ p0 .
Se h è non identicamente nulla devono valere le seguenti condizioni (i) − (iv).
(i) M 0 = −m0 6= 0.
Infatti, supponiamo che m0 > −M 0 . Allora α0 < 0 e, per la proprietà (P3 ), è il massimo valore che h assume sulla circonferenza massima ortogonale a p0 . Ma ciò non è
possibile, considerando che la circonferenza massima x = y interseca la precedente
in almeno due punti, e in questi due punti h assume valore zero. Allo stesso modo,
25
si giunge a una contraddizione considerando −h e supponendo m0 < −M 0 .
(ii) α0 = 0.
Segue immediatamente da (i) e dal fatto che h ha peso zero.
(iii) h(x0 , x0 , z 0 ) = M 0 (x0 )2 − (z 0 )2 , dove (x0 , y 0 , z 0 ) indicano le frame coordinate
rispetto a (p0 , q 0 , r0 ).
Infatti, dopo aver sostituito h al posto di f e M 0 (x0 )2 − (z 0 )2 al posto di g utilizzando i due punti precedenti, segue da (a).
(iv) Sulla circonferenza massima x0 = y 0 , h assume valore zero esattamente nei quattro punti: (x0 , x0 , x0 ), (x0 , x0 , −x0 ), (−x0 , −x0 , x0 ), (−x0 , −x0 , −x0 ).
Segue immediatamente da (iii).
Verifichiamo che le condizioni (i) − (iv) sono contraddittorie.
Le circonferenze massime x = y, x = z, y = z si intersecano nei due punti (x, x, x)
e (−x, −x, −x). Poiché su queste circonferenze massime h è zero la circonferenza massima x0 = y 0 deve passare per i suddetti punti, altrimenti ci sarebbero
sei punti su x0 = y 0 nei quali h è zero. Allo stesso modo, poiché le circonferenze massime x = −y e x = −z si intersecano in (x, −x, −x) e (−x, x, x) anche la x0 = y 0 le deve intersecare in questi punti, altrimenti le intersecherebbe
ognuna in due punti distinti e i punti su cui h assume valore zero diventerebbero sei. Tuttavia, l’unica circonferenza massima che passa per i quattro punti
(x, x, x), (−x, −x, −x), (x, −x, −x) e (−x, x, x) è y = z. Segue che x0 = y 0 e y = z
coincidono, e quindi che h deve assumere valore zero in tutti punti x0 = y 0 . Ciò
contraddice (iv) e dunque conclude la dimostrazione.
26
Capitolo 2
Il ruolo del teorema di Gleason
nella Teoria Quantistica
Lo scopo di questo capitolo è mettere in evidenza l’importanza del teorema di
Gleason nella Teoria Quantistica.
2.1
Concetti fisici di base della Teoria Quantistica
I concetti fisici di base nella formulazione della teoria quantistica di un sistema fisico
sono i concetti di
• osservabile, e
• stato.
Per “osservabile” si intende una qualunque grandezza misurabile su esemplari individuali del sistema, il cui valore misurato sia esprimibile come un numero reale.
Facendo riferimento alla teoria classica, ad esempio la meccanica di un punto materiale, esempi di osservabile sono una componente della posizione, una componente
della velocità, l’energia cinetica, etc.
Nel concetto quantistico di osservabile è essenziale l’aggettivo “misurabile”. Una
grandezza non è un’osservabile se non esiste una procedura sperimentale in grado di
misurarne concretamente il valore.
La spiegazione del concetto di stato richiede la nozione di procedura di preparazione.
Una procedura di preparazione è una modalità di selezione di esemplari del sistema
27
CAPITOLO 2. IL RUOLO DEL TEOREMA DI GLEASON NELLA TEORIA
QUANTISTICA
fisico che consente la misurazione di una osservabile del sistema selezionato, scelta
tra le osservabili che caratterizzano il sistema. Per una data procedura di preparazione π alcune osservabili A hanno un valore aspettato V(A) del risultato della
misurazione, nel senso della teoria della probabilità.
Due procedure di preparazione π1 e π2 si diranno equivalenti, π1 v π2 , se danno
luogo allo stesso valore d’aspettazione: Vπ1 (A) = Vπ2 (A), ∀A.
Uno stato (quantistico) è una classe di equivalenza {π}v di procedure di preparazione; pertanto uno stato è completamente individuato dall’unico valore di aspettazione
corrispondente ad ogni procedura di preparazione nella classe {π}v .
2.2
Osservabili elementari
Una osservabile P la cui misurazione può avere solo risultato 1 o 0 è detta osservabile
elementare.
Data un’osservabile A, per ogni boreliano ∆ ⊆ R possiamo definire l’osservabile
X∆ (A) come l’osservabile la cui misurazione può essere effettuata misurando A e,
ottenendo un risultato α, attribuendo a X∆ (A) il risultato 1 se α ∈ ∆ e il risultato 0
se α ∈
/ ∆. Ovviamente X∆ (A) è un’osservabile elementare. L’osservabile A d’altra
parte, è completamente determinata dalla famiglia {X∆ (A) | ∆ ∈ B(R)} di osservabili elementari.
Indichiamo con E la famiglia di tutte le osservabili elementari. E’ evidente allora che due procedure di preparazione π1 e π2 sono equivalenti se e soltanto se
Vπ1 (P) = Vπ2 (P), ∀P ∈ E. Pertanto uno stato è individuato dall’unico valore d’aspettazione V : E → R corrispondente a ogni procedura di preparazione appartenente a quello stato.
Ora, siccome ∀P ∈ E i possibili risultati di una misurazione sono 0 o 1, avremo
V(P) = 1 · p1 + 0 · p0 , dove p1 e p0 sono le probabilità di ottenere 1 e 0 in una
misurazione di P. Allora
V(P) = p1 :
per un’osservabile elementare P il valore d’aspettazione coincide con la probabilità
di ottenere il valore 1 come risultato di una misurazione. Quindi lo stato può essere
individuato con la probabilità p(P) di ottenere il risultato 1 in una misurazione di
28
QUANTISTICA
P, cioè con la probabilità
p : E → [0, 1],
2.3
p(P) = p1 .
Lo sviluppo assiomatico della teoria
Lo sviluppo assiomatico della teoria quantistica operato da von Neumann [4] permette di ottenere i seguenti risultati.
R.1 Ad ogni sistema fisico è possibile associare uno spazio di Hilbert complesso e
separabile H in maniera che ad ogni osservabile A corrisponda biunivocamente
un operatore hermitiano A di H.
R.2 L’operatore hermitiano rappresentante un’ osservabile elementare P è un proiettore ortogonale P di H.
Viceversa ogni proiettore ortogonale P di H
rappresenta una qualche osservabile fisica elementare del sistema.
A questo punto la teoria di von Neumann stabilisce, dunque, quali sono gli oggetti
matematici che rappresentano gli oggetti appartenenti ad uno dei concetti fisici fondamentali della teoria, le osservabili, o, equivalentemente, le osservabili elementari:
i rappresentanti matematici di queste ultime sono i proiettori ortogonali.
Per completare la formulazione dell’apparato matematico della teoria occorre trovare
i rappresentanti matematici degli stati quantistici.
Il teorema di Gleason fornisce una risposta concettualmente e matematicamente
rigorosa a questo problema. Data una qualunque osservabile elementare P, il proiettore ortogonale P che la rappresenta, è completamente determinato dal sottospazio
S = P (H) su cui proietta. Infatti, se {s1 , s2 , . . . , sn , . . . } è una base ortonormale di
S allora
P =
∞
X
< sj , x > sj ,
∀x ∈ H.
j=1
Ora, uno stato quantistico è una funzione
p : E → [0, 1],
P → p(P);
ogni P ∈ E corrisponde biunivocamente al sottospazio S = P (H); pertanto lo stato
p è completamente identificato dalla funzione
p : L → [0, 1],
29
p(S) = p(P),
QUANTISTICA
dove S = P (H). Questa identificazione giustifica la definizione di stato data nel
capitolo 1.
Un altro risultato dello sviluppo assiomatico della teoria quantistica, che non abbiamo ancora riportato, può essere formulato nel modo seguente in termini di funzioni
su sottospazi di H.
R.3 Se {S1 , S2 , . . . , Sn , . . . } è una famiglia numerabile di sottospazi tali che Sj ⊥ Sk
se j 6= k, le corrispondenti osservabili elementari Pk (cioè Sk = Pk (H)) sono
mutualmente esclusive, cioè in una misurazione simultanea di una qualunque
famiglia finita {Pk1 , . . . , Pkn }, solo un risultato è 1; gli altri sono tutti 0.
Come conseguenza di R.3, se S è la somma diretta di tutti gli Sn , S = ⊕∞
k=1 Sk ,
dovremo avere
p(S) =
∞
X
p(Sk ).
k=1
Pertanto lo stato della teoria quantistica è proprio lo stato definito nel capitolo 1,
se H è preso come lo spazio di Hilbert della teoria.
Il teorema di Gleason stabilisce quali sono i rappresentanti degli stati quantistici
nell’apparato matematico della teoria. Grazie ad esso la formulazione matematica
della teoria può essere completata con successo.
30
Capitolo 3
Probabilità, frequenza e
ragionevole aspettativa
3.1
Frequenza e ragionevole aspettativa come concetti principali
Il concetto di probabilità ha da sempre coinvolto due idee: quella di frequenza relativa a un ensemble e quella di ragionevole aspettativa. La scelta dell’una o dell’altra
come significato principale di probabilità ha distinto le due più importanti scuole di
pensiero nell’ambito di questa teoria.
Chiariamo questi due concetti con un esempio. Se un’urna contiene due palline bianche e una nera, peraltro identiche, entrambe le scuole convengono che la probabilità
che un uomo bendato peschi una pallina bianca è 2/3, mentre quella che ne peschi
una nera è 1/3.
Secondo la teoria frequenzista queste probabilità sono una caratteristica dell’ensemble.
Per ensemble si intende un gran numero di copie di un sistema fisico, che in questo caso può essere costituito da un numero indefinitamente grande di urne aventi
lo stesso contenuto, oppure da un numero indefinitamente grande di estrazioni con
reimbussolamento dalla stessa urna. Il presupposto essenziale è che le condizioni
iniziali siano suscettibili di infinite ripetizioni, perché si assume che l’esperimento
possa essere riprodotto infinite volte.
Che la probabilità di estrarre una pallina bianca è 2/3 significa semplicemente che
di tutte le palline estratte dall’intero sistema, 2/3 saranno bianche.
31
CAPITOLO 3. PROBABILITÀ, FREQUENZA E RAGIONEVOLE
ASPETTATIVA
Secondo la teoria frequenzista, questa non è un previsione della teoria della probabilità, ma la definizione stessa di probabilità. Dall’esempio si evince che quando
la probabilità è identificata con la frequenza relativa ad un ensemble le probabilità
sono calcolate con l’aritmetica o, più in generale, con l’algebra.
Per quanto riguarda la seconda teoria invece, affermare che la probabilità di pescare
una pallina bianca è 2/3 mentre quella di pescarne una nera è 1/3 vuol significare
che ottenere una pallina bianca come risultato di un’estrazione è “più probabile”
che ottenerne una nera.
Le due teorie non sono sempre identiche poiché vi sono probabilità in termini di
ragionevole aspettativa per le quali non esiste alcun ensemble.
Inoltre la teoria frequenzista ha un limite in quanto c’è un campo di deduzione probabilistica che non rientra nell’ambito della teoria. E il ricavare leggi di probabilità
dalle caratteristiche dell’ensemble mediante l’algebra non può giustificare l’uso di
tali regole in questo campo.
Un originale sviluppo della teoria della probabilità è dovuto a Keynes [6], il quale concepisce la probabilità come una relazione tra un’ipotesi e una conclusione,
corrispondente al grado di credibilità ragionevole, limitata dai valori di certezza e
impossibilità. In particolare, la probabilità non può essere definita in termini di
certezza, essendo la certezza stessa un caso particolare di probabilità.
In tali ipotesi la teoria frequenzista risulta erronea perché dipendente dal concetto
di certezza incluso nel fatto di conoscere il numero di esperimenti.
3.2
Ragionevole aspettativa in relazione alla logica simbolica
Grazie all’algebra Booleana, di cui faremo un breve richiamo, è possibile ricavare le
leggi di probabilità da due idee abbastanza semplici, indipendenti dal concetto di
ensemble.
L’algebra di Boole [7] è nata per elaborare matematicamente espressioni nell’ambito
della logica proposizionale. Parlare in termini di probabilità di proposizioni piuttosto che di eventi, è più vantaggioso perché ci permette di mantenere un grado di
generalità più alto e di non coinvolgere il concetto di successione nel tempo.
Indichiamo le proposizioni con a, b, c . . . La proposizione not-a con v a, la propo32
ASPETTATIVA
sizione a-and -b con a ∧ b e la proposizione a-or -b con a ∨ b.
La proposizione not-a non è necessariamente l’opposto della proposizione a, ma una
proposizione che rende a non completamente vera. L’ordine in cui a e b compaiono
in a ∧ b e a ∨ b è quello in cui due proposizioni sono state affermate, non l’ordine
cronologico in cui si sono verificati due eventi. Allo stesso modo a ∧ a indica semplicemente che la proposizione a è stata affermata due volte. L’“or” di a ∨ b non è
esclusivo.
Valgono le seguenti proprietà:
(1) vv a = a,
(2) a ∧ b = b ∧ a,
(20 ) a ∨ b = b ∨ a,
(3) a ∧ a = a,
(30 ) a ∨ a = a,
(4) a ∧ (b ∧ c) = (a ∧ b) ∧ c = a ∧ b ∧ c, (40 ) a ∨ (b ∨ c) = (a ∨ b) ∨ c = a ∨ b ∨ c,
(5) v (a ∧ b) = v a ∨ v b,
(50 ) v (a ∨ b) = v a ∧ v b,
(6) a ∧ (a ∨ b) = a,
(60 ) a ∨ (a ∧ b) = a.
Esse non sono tutte indipendenti. Scegliendo una proprietà da ogni coppia di quelle
numerate in modo simile e combinandole con la prima, è possibile ricavare le cinque
rimanenti.
Indichiamo ora con il simbolo b|a una “misura di credibilità” ragionevole della proposizione b quando sappiamo essere vera a. A causa della indefinitezza del termine
non lo indentificheremo con la probabilità, bensı̀ chiameremo b|a “verosimiglianza”
della proposizione b data l’ipotesi a. Tra le due idee menzionate all’inizio vi è quella
di supporre che, qualunque sia la misura scelta, la verosimiglianza di (c ∧ b)|a è una
funzione numerica delle due verosimiglianze b|a e c|(b ∧ a), ovvero
(c ∧ b)|a = F [c|(b ∧ a), b|a].
(3.1)
Sebbene la scelta della funzione F sia parzialmente convenzionale a causa dell’indefinitezza della misura usata per la verosimiglianza, non lo è del tutto in quanto deve
rispondere alle leggi dell’algebra proposizionale. Facciamo quindi uso dell’equazione
(4) per ricavare un’equazione per F .
(4)
(3.1)
(d ∧ c ∧ b)|a = [(d ∧ c) ∧ b]|a = F [(d ∧ c)|(b ∧ a), c|(b ∧ a)],
(3.1)
(4)
(d ∧ c)|(b ∧ a) = F [d|[c ∧ (b ∧ a)], c|(b ∧ a)] = F [d|(c ∧ b ∧ a), c|(b ∧ a)].
33
ASPETTATIVA
Quindi
(d ∧ c ∧ b)|a = F [F (d|(c ∧ b ∧ a), c|(b ∧ a), b|a].
Inoltre
(4)
(3.1)
(d ∧ c ∧ b)|a = [d ∧ (c ∧ b)]|a = F [d|[(c ∧ b) ∧ a], (c ∧ b)|a]
(4), (3.1)
=
F [d|(c ∧ b ∧ a), F (c|(b ∧ a), b|a)].
Otteniamo dunque che
F [F (d|(c ∧ b ∧ a), (c|(b ∧ a)), b|a] = F [d|(c ∧ b ∧ a), F (c|(b ∧ a), b|a)].
Con le sostituzioni d|(c ∧ b ∧ a) = x, c|(b ∧ a) = y e b|a = z otteniamo
F [F (x, y), z] = F [x, F (y, z)]
(3.2)
per valori arbitrari di x, y, z.
L’equazione (3.2) è soddisfatta se Cf [F (p, q)] = f (p)f (q) con f funzione arbitraria
di una sola variabile e C costante arbitraria.
Abbiamo allora
Cf (c ∧ b)|a = f c|(b ∧ a) f (b|a).
La scelta di f è puramente convenzionale, possiamo quindi scrivere, per semplicità
C{(c ∧ b)|a} = {c|(b ∧ a)}{b|a}
(3.3)
Sia ora c = b e poiché dalla (3) b ∧ b = b, dividendo entrambi i membri per b|a
otteniamo
C = b|(b ∧ a).
Dunque, quali che siano le ipotesi, la verosimiglianza ha valore costante. Infatti, la
proposizione b sarà sicuramente vera se è vera b ∧ a. La costante C rappresenta,
quindi, il valore dato alla certezza e, per far in modo di avvicinare quanto più
possibile la verosimiglianza alla probabilità, le assegneremo il valore 1. A questo
punto, possiamo riscrivere l’equazione (3.3) come
(c ∧ b)|a = {c|(b ∧ a)}{b|a}
(3.4)
che ha la stessa forma dell’equazione che regola la probabilità di due eventi. Elevando
ad m otteniamo
{(c ∧ b)|a}m = {c|(b ∧ a)}m {b|a}m .
34
ASPETTATIVA
La seconda assunzione che facciamo è che (v b)|a sia determinato da b|a e quindi
(v b)|a = S(b|a).
(3.5)
Dalla (1) (vv b)|a = b|a, segue che S[S(b|a)] = b|a e quindi la funzione S è tale
che
S[S(x)] = x
(3.6)
dove x può assumere qualsiasi valore di verosimiglianza compreso tra la certezza e
l’impossibilità.
Considerando S[(c ∨ b)|a] possiamo ottenere un’altra equazione in S.
(5)
S[(c ∨ b)|a] = [v (c ∨ b)]|a = [(v c) ∧ (v b)]|a,
(3.7)
eliminiamo v c e v b in modo da ottenere un’equazione in a, b, c e S. Dunque
(3.4)
(3.5)
[(v c) ∧ (v b)]|a = {(v c)|[(v b) ∧ a}{(v b)|a} = S(c|[(v b) ∧ a])S(b|a).
Allora
S [c ∨ b]|a = S c|[(v b) ∧ a] S(b|a)
o anche
S c|[(v b) ∧ a] = S [c ∨ b]|a /S(b|a).
Per la (3.6)
c|[(v b) ∧ a] = S S [c ∨ b]|a /S(b|a) .
(3.8)
Abbiamo dunque eliminato v c, provvediamo ora a fare lo stesso con v b:
(3.4)
c|[(v b) ∧ a] = {[c ∧ (v b)]|a}/[(v b)|a]
(2)
= {[(v b) ∧ c]|a}/[(v b)|a]
(3.4)
= {[(v b)|(c ∧ a)][c|a]}/[(v b)|a]
(3.5)
= {[S b|[c ∧ a] ][c|a]}/S(b|a).
Sostituendo nella (3.8) otteniamo
{[S(b|[c ∧ a])][c|a]}/S(b|a) = S[S((c ∨ b)|a)/S(b|a)]
Allo scopo di avere a come ipotesi comune in tutte le verosimiglianze, osserviamo
che
(3.4)
(2)
b|(c ∧ a) = [(b ∧ c)|a]/[c|a] = [(c ∧ b)|a]/[c|a];
35
ASPETTATIVA
sostituendo nell’espressione precedente e moltiplicando per S(b|a) otteniamo
S [[c ∧ b]|a]/[c|a] [c|a] = S S [c ∨ b]|a /S(b|a) S(b|a)
(3.9)
valida per significati arbitrari delle proposizioni a, b e c.
Sia b = c ∧ d. Allora
(60 )
c ∨ b = c ∨ (c ∧ d) = c e
(4)
(3)
c ∧ b = c ∧ (c ∧ d) = (c ∧ c) ∧ d = c ∧ d.
Sostituendo nella (3.9) otteniamo
S [(c ∧ d)|a]/[c|a] (c|a) = S[S(c|a)/S(c ∧ d|a)]S(c ∧ d|a).
Ponendo c|a = x e S(c ∧ d|a) = y e osservando che per la (3.6)
(c ∧ d)|a = S[S(c ∧ d|a)] = S(y), possiamo riscrivere l’ultima equazione come
xS[S(y)/x] = yS[S(x)/y].
(3.10)
Se S è derivabile due volte
S(p) = (1 − pm )1/m
con m costante arbitraria. Otteniamo quindi per la (3.5)
(b|a)m + (v b|a)m = 1.
Ora, qualunque sia il valore di m, se b|a misura la credibilità di b data l’ipotesi
a, lo stesso farà (b|a)m . Per semplicità poniamo m = 1. L’espressione precedente
diventa
(b|a) + (v b|a) = 1
(3.11)
che ha la stessa forma dell’espressione che mette in relazione le probabilità di v b e
b. Ponendo v b = a otteniamo
(a|a) + (v a|a) = 1.
Le due verosimiglianze sono adesso quelle di certezza e impossibilità. Avendo dato
alla certezza il valore 1, l’impossibilità avrà valore zero.
Ricaviamo ora altri due utili teoremi.
(3.4)
(c ∧ b)|a + (v c ∧ b)|a = [c|(b ∧ a) + (v c)|(b ∧ a)][b|a]
36
ASPETTATIVA
Dalla (3.11)
c|(b ∧ a) + (v c)|(b ∧ a) = 1
e quindi dalla (3.4)
(c ∧ b)|a + [(v c) ∧ b]|a = b|a.
(3.12)
Per quanto riguarda il secondo teorema invece, consideriamo
(50 )
(3.11)
(3.12)
(c∨b)|a = 1− v (c∨b)|a = 1−[(v c)∧(v b)]|a = 1−(v b)|a+[c∧(v b)]|a.
Per la (3.11), 1 − (v b)|a = b|a, mentre
(2)
(3.12)
(2)
c ∧ (v b)|a = [(v b) ∧ c]|a = c|a − (b ∧ c)|a = c|a − (c ∧ b)|a.
Vale quindi la relazione
(c ∨ b)|a = c|a + b|a − (c ∧ b)|a
(3.13)
che ha la stessa forma di quella per la probabilità che tra due eventi se ne verifichi
almeno uno.
A questo punto, avendo mostrato che grazie alle convenzioni adottate la verosimiglianza è soggetta alle ordinarie leggi della probabilità, possiamo affermare che il
simbolo b|a indica la probabilità della proposizione b data l’ipotesi a e non più una
generica misura di credibilità ragionevole.
Le relazioni ottenute, essendo relazioni tra probabilità, non assegnano valori numerici a probabilità specifiche di particolari problemi.
Se però abbiamo n proposizioni delle quali, rispetto a un’ipotesi data, una e soltanto
una può essere vera, e se l’ipotesi non dà ragioni per considerarne una più probabile
piuttosto che un’altra, ognuna di esse avrà probabilità 1/n.
3.3
Probabilità e frequenza
Vediamo ora che relazione c’è tra probabilità e frequenza di un evento.
Supponiamo che due capsule contengano la stessa massa di radon, ma che dei due
contenuti, uno sia stato prodotto da un recente decadimento di radio e l’altro sia stato estratto da un recipiente nel quale il radon è stato accumulato per molto tempo.
Supponiamo che vi siano due contatori di ioni, ognuno dei quali riceve radiazioni da
37
ASPETTATIVA
una capsula e che siano disposti nella stessa posizione rispetto alle rispettive capsule.
Una delle due capsule emetterà per prima 1000 scariche nel suo contatore di ioni.
Sia un fisico che una persona qualsiasi estranea all’ambiente, assegneranno la stessa
probabilità di essere la prima a ognuna delle due capsule: il primo, perché sa che
in questo caso l’età non incide, la seconda perché non sa quale delle due capsule
contiene il radon più vecchio.
Kemble chiama la prima probabilità oggettiva, la seconda primaria.
Se si ripete l’esperimento più volte, una lunga serie di eventi in cui il campione più
vecchio risulta essere il primo non cambierà le probabilità stimate dal fisico. La
ragione per cui ha fatto la sua prima stima è cosı̀ forte che nessun ulteriore numero
di esperimenti, non molto grande, può richiedere una nuova stima. Per scopi pratici
le probabilità sono ritenute stabili. Una probabilità stabile è un limite che non è
strettamente raggiungibile, ma che, in alcuni casi, può essere approssimato quanto
necessario per usi pratici.
Sia a un’ipotesi nella quale può essere esaminato un numero di esperimenti. Indichiamo con br il fatto che la proposizione b è vera nell’r-esima prova condotta sotto
l’ipotesi a. A meno che l’ipotesi a stessa non assegni una probabilità stabile a b,
bs |a, bs |(a ∧ br ) e bs |(a ∧ (v br )) saranno, in generale, diverse.
Se invece includiamo nell’ipotesi una proposizione p che asserisce che la probabilità
è stabile e uguale a un numero p compreso tra 0 e 1, risulterà che
bs |(a ∧ p ∧ br ) = bs |(a ∧ p ∧ (v br )) = bs |(a ∧ p) = p.
In più, dalle (3.4) e (3.11) otteniamo
(bs ∧ br )|(a ∧ p) = p2 ,
(bs ∧ (v br ))|(a ∧ p) = p(1 − p),
[(v bs ) ∧ (v br )]|(a ∧ p) = (1 − p)2 .
Indichiamo con nN la proposizione asserente che il numero di volte in cui si verifica
b in N casi di a è esattamente n.
Dalle equazioni (3.4), (3.11) e (3.13) è possibile ricavare il noto risultato di Bernoulli
nN |(a ∧ p) =
N!
pn (1 − p)N −n .
n!(N − n)!
Tale numero è massimo quando p = n/N ; tale massimo diviene più evidente al crescere di N. Ci si aspetta quindi, che la frequenza tenda, per N infinitamente grande,
38
ASPETTATIVA
alla probabilità, nel caso in cui questa sia stabile.
In alcuni casi capita di sapere che una data probabilità è stabile, ma di non conoscerne il valore. Schematizziamo il problema come segue. Supponiamo che in un
ensemble di casi della proposizione a, un’altra proposizione b abbia una probabilità
stabile incognita. Indichiamo con p la proposizione che afferma che la probabilità di
b è stabile e pari a p, non inserendola però nell’ipotesi a, come nel caso precedente.
La suddetta ipotesi contiene invece, una proposizione più debole che assegna alla
proposizione p una probabilità per ogni valore di p. Supponiamo ancora che b sia
risultata vera in n prove su N . Vogliamo calcolare la probabilità che b risulti vera
nell’(N + 1)-esima prova.
Dalle (3.4), (3.11) e (3.13) risulta
P n+1
p (1 − p)N −n p|a
bN +1 |(a ∧ nN ) = P n
p (1 − p)N −n p|a
dove le sommatorie sono intese su tutti i valori di p.
Se siamo nel continuo e f (p)dp indica la probabilità di un valore tra p e p + dp
l’equazione precedente diventa
R1
pn+1 (1 − p)N −n f (p) dp
.
bN +1 |(a ∧ nN ) = R0 1
n (1 − p)N −n f (p) dp
p
0
E’ stato assunto da Laplace che sia egualmente verosimile ogni valore compreso tra
0 e 1 di una probabilità incognita. Ciò implica che f (p) è una costante e dunque
bN +1 |(a ∧ nN ) =
n+1
.
N +2
Per valori di n e N molto grandi
bN +1 |(a ∧ nN ) =
39
n
.
N
Riferimenti nella letteratura
scientifica
[1] A.M. Gleason, Measures on the closes subspaces of a Hilbert space, J. Math.
Mech., Vol. n.6 (1957) 885.
[2] G. Mackey, ‘ ‘Mathematical Foundation of Quantum Mechanics”, Addison
Wesley, New York, 1963.
[3] R. Cooke, M. Keane, W. Moran, An elementary proof of Gleason’s theorem,
Math. Proc. Camb. Phil. Soc.,Vol. n. 98 (1985) 117.
[4] J. von Neumann, “Mathematical Foundation of Quantum Mechanics”, Princeton
University Press, Princeton, 1959.
[5] R.T. Cox, Probability, Frequency and Reasonable Expectation, Am. J. Phys.,
Vol. n.14 (1946) 1.
[6] J.M. Keynes, “A treatise on probability”, Macmillan, London, 1929.
[7] G. Boole, “An investigation of the laws of thought”, Macmillan, London, 1854.
40

Teorema di Gleason

Transcript

Documenti analoghi

1 PREVISIONI E PREVISIONI SUBORDINATE (1) Si lancino due

Teorema di Fermat. Data una funzione f : [a, b] → R e un punto x o

Indipendenza Indipendenza probabilistica o stocastica A

Il teorema di Talete in breve

0.1 Teorema limite centrale

1 RACCOLTA DI ESERCIZI SUL TEOREMA DI BAYES DA

teorema de bayes

http://ariel.ctu.unimi.it/corsi/mateassistita http://users.mat.unimi.it