Sequenze e stringhe random: Tipicalità e compressibilità

Transcript

Sequenze e stringhe random: Tipicalità e compressibilità
Colloquio di passaggio d’anno a.a. 2010/2011
sequenze e stringhe random
tipicalità e compressibilità
Autore: David Baldi
Relatore: dott. Hykel Hosni
Capitolo 1
Introduzione
1.1
Primo contatto
1.1.1
Introduzione
Da un sacchetto contenente molte tessere ne estraiamo a sorte, disponendole
ordinatamente, 14. Ciascuna delle tessere del sacchetto porta incisa una lettera dell’alfabeto, ed ogni lettera compare su un numero uguale di tessere.
Osserviamo ora che le tessere estratte, disposte nell’ordine di estrazione,
formano la parola COSTANTINOPOLI.
Noi allontanati, arriva Piersimone, vede le tessere, rimane un po’ perplesso
e comincia a ragionare per ipotesi:
Immaginiamo di vedere su un tavolo dei caratteri di stampa disposti in questo ordine: COSTANTINOPOLI. Riterremmo certamente
che tale ordine non è il frutto del caso, ma non in quanto esso sia
meno possibile degli altri; infatti se quella parola non fosse usata
in nessuna lingua, sarebbe assurdo attribuirle una causa particolare; ma, poiché essa è in uso presso di noi, è infinitamente più
probabile che sia stata composta così da una persona piuttosto
che dal caso.
[Laplace 1826, 33]
Piersimone non sa che le tessere sono state estratte a sorte e che quella
particolare disposizione è una produzione del tutto occasionale. Egli si domanda sulla origine di tale disposizione, la questione a cui dà risposta è: è
più verosimile che la scritta abbia origine intelligente o che essa sia frutto del
caso?
Riesponiamo la questione. Ci è fatta vedere una sequenza di 0 e 1 , e ci
è garantito che una delle due è vera:
1
1. la sequenza rappresenta la registrazione di consecutivi di lanci di una
moneta ben bilanciata (0 e 1 possono essere letti cioè come quelli che
abitualmente sono Testa e Croce – che la moneta sia ben bilanciata vuol dire invece che la moneta è perfettamente omogenea e non
“favorisce” nessuno dei due risultati.)
2. la sequenza rappresenta un messaggio in codice.
Il nostro scopo è cercare di comprendere quale tipo di “causa” (in senso
generico) è all’origine della sequenza, senza avere altra informazione che la
sequenza stessa. Che cosa possiamo pensare al riguardo?
L’intuizione ci suggerisce la seguente idea guida (in riferimento all’esempio): se osserviamo delle regolarità, dei particolari schemi di 0 e 1 ricorrenti
nella sequenza, allora possiamo essere propensi ad affermare che la sequenza possa essere un messaggio in codice (assumendo che in un linguaggio in
generale ci debbano essere regolarità).
Voler affermare qualcosa sulla causa della sequenza, partendo solo dalla sequenza, potrebbe essere però troppo azzardato. Possiamo cambiare il
nostro scopo e dire semplicemente: vogliamo decidere se interessarci ad uno
studio approfondito della sequenza (assumiamo che lo studio di un messaggio in codice sia interessante mentre un resoconto di esiti di lanci di moneta
no). In realtà l’idea guida rimane comunque inalterata nella sostanza: se
osserviamo dei particolari schemi, allora è ragionevole ritenere interessante
uno studio più approfondito della sequenza, in quanto gli schemi ci fanno
propendere a ritenere la sequenza un messaggio in codice. Ciò che ci guida è
dunque sempre l’opinione che la presenza di schemi possa rivelare la sequenza
come messaggio in codice.
Il cambiamento di scopo è tuttavia utile per l’inquadramento di ciò che
verrà sviluppato: infatti non sarà qui trattata la giustificabilità dell’affermazione riguardo alla sequenza come codice a partire dalla osservazione della
sequenza stessa. Lo spostare l’affermazione all’ambito del nostro comportamento risponde al fine di comprendere meglio da quale caratteristica della
sequenza la nostra opinione sia influenzata, a prescindere dalla sostenibilità
di tale opinione.
Proseguiamo ancora con Laplace. Perché l’individuazione di schemi dovrebbe
spingerci ad un’ulteriore analisi?
Se cerchiamo una causa là dove scorgiamo una simmetria, non
è perché riteniamo che un evento simmetrico sia meno possibile
degli altri, ma perché, dovendo tale avvenimento essere l’effetto di
una causa regolare o del caso, consideriamo la prima supposizione
2
più probabile della prima.
[Laplace 1826, 33]
E perché consideriamo «la prima supposizione più probabile della prima», ovvero, perché crediamo che una «simmetria» possa essere indice di
non-casualità? Rispondiamo a questa domanda introducendo l’idea di straordinarietà:
È giunto il momento di definire la parola straordinario. Il pensiero organizza tutti i possibili eventi in classi diverse e considera
straordinari quelli delle classi che ne contengono pochissimi.
[Laplace 1826, 33]
E dunque:
Così al gioco di T esta o Croce considereremo straordinaria l’uscita di Croce cento volte di seguito perché, dividendo il numero
praticamente infinito delle combinazioni che possono verificarsi
in 100 lanci, in serie regolari o rette da un ordine ben visibile,
e in serie irregolari, queste ultime sono incomparabilmente più
numerose.
[Laplace 1826, 33]
Cioè: dal «caso» ci aspettiamo «l’uscita» di esiti non straordinari (sottolineamo di nuovo che non è qui tematizzata la liceità di tale aspettativa né
il suo corretto utilizzo in un ragionamento induttivo).
Rispondendo alla domanda precedente: la simmetria comporta la straordinarietà e la straordinarietà mette in questione la “casualità” che è stata ora
associata con la non straordinarietà.
Riassumendo:
1. da un prodotto del «caso» ci aspettiamo che non sia straordinario,
2. la straordinarietà consiste, per un insieme di oggetti in generale, nell’essere poco numerosi,
3. la regolarità comporta la straordinarietà (le combinazioni regolari sono
meno delle irregolari),
4. il riconoscimento della straordinarietà, o l’individuazione di regolarità,
ci inducono a scegliere come idea guida l’idea che un dato prodotto non
sia stato prodotto dal «caso».
3
1.1.2
Esposizione della questione
Chiamiamo “casuale” una sequenza che riteniamo essere stata prodotta dal
«caso». Osservando una sequenza del genere: 0101010101010101010101,
riterremmo credibile chi ci dicesse averla ottenuta lanciando una moneta?
Diciamo di no: non la riteniamo essere stata prodotta dal «caso». Assumendo che tale sequenza sia stata invece effettivamente ottenuta da lanci di
moneta, comprendiamo che possiamo distinguere due concetti di “casualità”.
Mantenendo il riferimento alla moneta: un concetto riguarda l’aspettativa su
ciò che è prodotto del «caso», l’altro riguarda l’effettività dell’essere prodotto
del «caso».
Finora la sequenza di 0 e 1 è stata messa esplicitamente in una relazione
di rappresentatività rispetto a qualche cosa di diverso da essa. Possiamo
però osservare che ogni aspettativa su una serie di lanci di moneta si traduca
semplicemente in una aspettativa sulla sequenza di 0 e 1 che la rappresenta. Come nel nostro esempio, l’individuazione di regolarità avviene come
semplice individuazione di schemi di simboli.
Quindi, astraendo dalla sequenza di simboli come rappresentante una sequenza di risultati: ciò che si vuol cercare qui di chiarire è quella “casualità”
che pertiene alla sequenza in quanto tale, indipendentemente dalla sua genesi
ed indipendentemente dal significato dei simboli in essa. Se diciamo una sequenza essere casuale è perché essa lo è a prescindere dal fatto che i simboli in
essa stiano a rappresentazione di una qualsiasi altra cosa (ciò nonostante converrà talvolta, a beneficio dell’intuizione, ricordare comunque che tali simboli
debbano poter esprimere una qualche altra cosa).
1.2
Definizione della questione, terminologia
Appare chiaro che si può definire la “casualità” di una sequenza di simboli
rappresentanti risultati di un processo indipendentemente dalla “casualità”
del processo stesso. Se così non fosse sarebbe privo di senso cercare di inferire dalla prima la seconda (la legittimità di tale inferenza non è oggetto
di trattazione). E se davvero v’è questa indipendenza, allora si può semplicemente considerare la sequenza di simboli indipendentemente dalla loro
rappresentatività.
Consideriamo quindi:
adsgs15sSHP 0 + sP Sf es...
01001110100101000110...
4
Sono “casuali”? È una domanda a cui è difficile trovare una risposta senza
avere qualche perplessità: non si conoscono infatti i simboli che possono
apparire. Innanzitutto occorre definire un alfabeto (A) di riferimento, ovvero
un insieme finito di simboli di cui saranno costituite le sequenze.
Stabiliamo inoltre una differenziazione terminologica. Chiamiamo sequenza una successione infinita di xi ∈ A, scritta x =< x1 , x2 , ..., xn , ... > o, più
brevemente, x = x1 x2 ... ; stringa (o parola) una successione finita.
Denotiamo quindi con Aω l’insieme delle sequenze, con A<ω l’insieme di
tutte le stringhe.
Chiamiamo inoltre randomness la “casualità” che pertiene alle sequenze o
alle stringhe. Stringhe o sequenze “casuali” verranno convenientemente dette
random.
Il nostro obiettivo sarà quindi di dare un’adeguata concettualizzazione
alla nozione di randomness, quindi rispondere alle seguenti domande:
fissato A alfabeto,
1. Cosa significa che una sequenza è random?
2. Cosa significa che una stringa è random?
Ma soprattutto, dalla enventuale interazione delle due domande, che
cosa può emergere? In particolare: le risposte che verranno date per ciascuna domanda, sono consistenti fra loro? Ed a quali eventuali condizioni
restrittive?
Un accordo fra le due risposte potrà indicarci di aver ottenuto una buona
soluzione sia per l’una che per l’altra domanda. Eventuali restrizioni, evidenziando l’esigenza di assunzioni altrimenti non ritenute fondamentali, potranno fornire un suggerimento in grado di indirizzarci verso la scelta di un unico
e semplice concetto sotto cui poter collocare sia le sequenze sia le stringhe
random.
Altra simbologia ricorrente
Sia A = {0, 1} alfabeto binario. Denoteremo A con 2, e dunque con 2ω
l’insieme delle sequenze binarie, con 2<ω l’insieme delle stringhe binarie
Sia σ una stringa, denoteremo la sua lunghezza con |σ| o l(σ).
Sia x una sequenza o stringa qualunque costituita da elementi di A,
denoteremo con xi ∈ A l’elemento di x situato all’i-esimo posto.
Chiameremo ciascun xi di una sequenza binaria bit.
5
1.3
Linea per lo sviluppo
Si propone il modo in cui si cercherà di dare risposta alle precedenti domande.
Capitolo 2 Storicamente, il primo a dedicare attenzione alle sequenze random è stato R. von Mises nella ricerca riguardo alla fondazione della
teoria della probabilità. Non sarà per noi un supporto adeguato sia per
un preciso risultato di J. Ville, sia per il legame con la definizione di
probabilità, per il nostro obiettivo, non necessaria.
Capitolo 3 Lasciato von Mises, si giungerà alla definizione di randomness
per una sequenza secondo quello che è il paradigma della tipicalità.
L’intuizione dice qui che le sequenze random sono “molte”, e fra loro
non differenziabili per qualche attributo o proprietà speciali. Il risultato
decisivo sarà di P. Martin-Löf.
Capitolo 4 Raggiunta una soddisfacente definizione per una sequenza random, si passerà alle stringhe. Il paradigma è qui la compressibilità. L’intuizione dice qui che le stringhe random sono “disordinate, irregolari”,
quindi non descrivibili con un qualche metodo che sia sostanzialmente
più economico rispetto alla scrittura della stringa stessa (non possono cioè essere “compresse”). La compressibilità ci porta nell’ambito
della complessità algoritmica (informazione algoritmica, complessità
descrittiva), per cui riferimento storico sarà A. N. Kolmogorov.
Capitolo 5 Sarà estesa la definizione ottenuta nel Capitolo 4 alle sequenze
per dimostrarne, con un fondamentale teorema di C.-P. Schnorr, l’equivalenza alla definizione ottenuta nel Capitolo 3. Alcune osservazioni,
sottolineando le assunzioni della definizione secondo la tipicalità, metteranno però in discussione la piena equivalenza, conducendo alla scelta
della randomness definita con Kolmogorov come maggiormente adeguata a rappresentare l’intuizione di randomness. Così facendo giungeremo
ad un importante risultato: la possibilità di un ripensamento della randomness luce del concetto di informazione alla base della definizione
della complessità di Kolmogorov.
1.4
Teoria della misura
Si presentano1 gli oggetti che verranno utilizzati nel Capitolo 3.
1
[Dasgupta 2010, 11-12].
6
Definizione 1.1 (Insieme base). Chiamiamo insieme base un insieme Λσ (⊆
2ω ) costituito dalle sequenze in 2ω che iniziano con σ ∈ 2<ω . (Tale insieme è
detto anche cilindro.2 )
Definizione 1.2 (Insieme aperto). Chiamiamo insieme aperto un insieme G
costituito da un’unione di insiemi base.
Teorema 1.4.1 (Scomposizione univoca degli insiemi aperti). Un insieme
base è detto massimamente contenuto nell’insieme aperto G se: Λσ ⊆ G ma
Λγ 6⊆ G per ogni segmento iniziale γ di σ.
Ogni insieme aperto G è scomponibile in modo univoco in una unione di
insieme base disgiunti massimamente contenuti in G.
Dimostrazione. Omessa.
Definizione 1.3 (Misura (di probabilità) di un insieme aperto). Definiamo
la misura di probabilità o semplicemente misura di un insieme aperto in due
passaggi.
1. Definiamo la misura di un insieme base Λσ (µ(Λσ )):
µ(Λσ ) := 2−|σ|
2. definiamo la misura di un insieme aperto G (µ(G)), scomposto negli
insiemi base massimamenti contenuti Λσ1 , Λσ2 , ..., Λσn :
µ(G) :=
n
X
µ(Λσi )
i=1
Definizione 1.4 (Misura zero). Un insieme E ha misura 0 (µ(E) = 0) se:
1. esiste una sequenza infinita di insiemi aperti G1 , G2 , ... ciascuno contenente E,
2. per qualsiasi i, µ(Gi ) = 1/i
Un tale insieme è detto insieme nullo.
Teorema 1.4.2 (Insiemi nulli). Si presentano alcuni fatti rilevanti.
1. Per ciascun x ∈ 2<ω , {x} è nullo.
2
[Li e Vitányi 2008, 263].
7
2. (I) L’unione numerabile di insiemi nulli è un insieme nullo. (II) Tutti
gli insiemi numerabili sono nulli.
3. Esistono infiniti non-numerabili insiemi nulli.
Dimostrazione. Omessa.
Definizione 1.5 (Insieme misurabile, misura del complemento). Un insieme
E ⊆ 2ω si dice misurabile se per ogni > 0 esiste un insieme aperto G
contenente E e un insieme aperto H contenente la differenza G \ E con
µ(H) < .
La misura del complemento di X insieme misurabile è data da: µ(CX ) =
1 − µ(X).
Teorema 1.4.3 (Legge 0-1 di Kolmogorov). Si presenta un importante risultato che verrà utilizzato in esplicito riferimento alle sequenze random.
Per qualsiasi X ⊆ 2ω misurabile, se date x, y ∈ 2ω che differiscono per un
numero finito di bit si ha che x ∈ X equivale a y ∈ X, allora: X ha misura
0 oppure 1.
Dimostrazione. Omessa.
1.5
Computabilità
Si presentano oggetti che verranno utilizzati nei Capitoli 4 e 5.
1.5.1
Introduzione
Abbiamo, in generale, l’intuizione riguardo alla determinabilità effettiva di
una funzione. Una funzione è effettivamente determinabile, ovvero computabile, se esiste una procedura effettiva, detta algoritmo, che, a partire
dall’argomento, ci conduca al valore della funzione.
Intuitivamente possiamo dire che le caratteristiche che un algoritmo deve
avere sono3 :
1. Un algoritmo si applica ad una certa stringa di simboli e restituisce una
certa stringa di simboli.
2. Un algoritmo è un insieme finito di istruzioni.
3. Ogni istruzione determina in modo univoco la computazione.
3
cfr. [Rogers 1967, 1-2].
8
È importante distinguere fra algoritmi, che sono procedure, e funzioni
computabili da algoritmi, i cui valori sono prodotti di procedure4 . Più algoritmi possono corrispondere ad una medesima funzione.
La distinzione si fa più evidente se si considera le funzioni computabili
come mappe da numeri naturali a numeri naturali, mentre gli algoritmi come
procedure che conducono da notazioni (per numeri naturali) a notazioni (per
numeri naturali)5 .
È tuttavia possibile un’identificazione fra numeri e espressioni: dato A<ω
insieme di stringhe (con A finito) è sempre possibile enumerare tali stringhe
(ad esempio in ordine lessicografico), metterle cioè in corrispondenza biunivoca con in numeri naturali. Tale identificazione è importante alla luce del
linguaggio che verrà utilizzato in seguito (ad esempio nella Tesi di Church), e
nella definizione di “funzione computabile” a partire da quella di “algoritmo”.
Comunque, la questione del rapporto tra numeri naturali (oggetti matematici) e numerali (oggetti simbolici) non è fondamentale in questa trattazione6 .
L’approccio sarà il seguente: sarà dapprima data formalizzazione alla
nozione di algoritmo, in conseguenza di ciò verrà data la controparte formale
della nozione di funzione computabile da algoritmi.
1.5.2
Macchina di Turing
Formalizziamo la nozione di algoritmo defininendolo come una macchina di
Turing.
Descriviamo una macchina di Turing nel seguente modo7 : una macchina
di Turing T consiste in un programma finito che agisce, sotto forma di meccanismo di controllo dotato di una testina di lettura/scrittura, su un nastro
suddiviso in celle. Le celle sono ordinate da sinistra verso destra.
Ciascuna cella contiene un simbolo dell’alfabeto finito A, nel nostro caso
A = {0, 1, B} (B è il simbolo che segnala che la casella è “vuota”, “bianca”).
Il meccanismo di controllo è inoltre dotato di un numero finito stati interni
q ∈ Q (possiamo pensarli per analogia come “stati mentali”).
Il tempo è discreto, ordinato quindi in turni t0 , t1 , ... ; t0 è il tempo iniziale.
In ogni tempo la testina è posizionata su una particolare cella, detta cella
osservata.
A t0 la testina è posizionata sulla cella iniziale, ed il controllo è nello stato
q0 . Sempre a t0 , tutte le celle contengono B eccetto per una finita sequenza
4
[Rogers 1967, 1].
[Rogers 1967, 27]. Nota: anziché “numeri naturali” Rogers utilizza “interi”.
6
non lo è nemmeno in [Rogers 1967], come è scritto a p.28 nella nota †.
7
per questa sottosezione e la seguente cfr. [Li e Vitányi 2008, 27-29].
5
9
di celle contigue che, a partile dalla cella iniziale, si estende verso destra.
Questa stringa binaria è detta input.
Il meccanismo può eseguire le seguenti operazioni o:
1. scivere un elemento di A = {0, 1, B} nella cella osservata. Denoteremo
“scrivere a ∈ A” con o = a;
2. spostare la testina una cella a sinistra o una cella a destra (indicate
rispettivamente con S e D).
Chiamiamo O = {0, 1, B, D, S} l’insieme delle operazioni. Ciascuna operazione impiega un turno. Al termine di ogni operazione il meccanismo assume
un nuovo stato q.
Il meccanismo agisce secondo una lista finita di regole. Ogni regola è del
formato < p, s, o, q >: p è lo stato interno corrente, s è il simbolo nella cella
osservata, o è l’operazione da eseguire, q è lo stato interno da assumere ad
operazione terminata.
Vogliamo che T sia una macchina che operi in modo deterministico: due
quadruple distinte non possono avere i primi due elementi uguali.
Non ogni possibile combinazione dei primi due elementi deve essere presente nell’insime delle regole. In questo caso è data possibilità al meccanismo
di non eseguire operazioni, ovvero di fermarsi.
Quindi, data una macchina di Turing e un input, la macchina definisce
un’unica successione di operazioni che può o meno terminare in un numero
finito di turni.
1.5.3
Dalla macchina di Turing alla funzione parziale
ricorsiva di interi
È possibile associare una funzione parziale di numeri naturali a ciascuna
macchina di Turing.
Definizione 1.6 (Funzione parziale di numeri naturali). Definiamo una funzione parziale da X in Y come una funzione φ : X 0 → Y , X 0 ⊂ X. Quindi
per ogni x ∈ X o φ(x) ∈ Y o φ(x) non è definita.
Chiamiamo funzione parziale di numeri naturali in k variabili una funzione parziale in k variabili da N k in N , N insieme dei numeri naturali.
L’associazione tra macchina di Turing e funzione parziale di numeri naturali avviene nel seguente modo:
1. data una macchina di Turing (definita come sopra) ed una stringa (binaria) di input, chiamiamo output della computazione la stringa di cui
è osservato un simbolo delimitata da B.
10
2. sia φ una funzione parziale di numeri naturali N k → N , scritta φ(x1 , ..., xk ).
Assumiamo che ciascun xi sia in notazione binaria. Codifichiamo tale
k-upla in una singola stringa binaria σ (in modo che ogni singolo xi
sia auto-delimitante, ovvero possa essere “riconosciuto dalla macchina”
all’interno della stringa - non possa cioè essere confuso all’interno di
altre stringhe). Consideriamo σ input di una T .
3. identifichiamo la stringa binaria ouput della computazione di σ con il
numero naturale da essa rappresentato.
L’associazione è quindi basata su convenzioni riguardo alla codifica di
input ed output.
Definizione 1.7 (Funzione parziale ricorsiva). Sotto le precedenti convenzioni per input e output, ogni macchina di Turing T (definita come sopra) definisce una funzione parziale da una k-upla di numeri naturali in
N . Chiamiamo tale funzione funzione parziale ricorsiva.
Se T si ferma per ogni input, allora la funzione computata è definita per
ogni argomento e la chiamiamo ricorsiva totale.
Avendo questa definizione, ritornando alla questione posta dall’intuizione
di “computabilità”, possiamo richiamare la Tesi di Church.
Tesi di Church La classe delle funzioni numeriche computabili (in senso
intuitivo) coincide con la classe delle funzioni parziali ricorsive.
Si tratta di una tesi che non può essere provata, ma che è accettata (o rigettata) a partire da motivazioni essenzialmente empiriche8 . Fatto che la rende
accettabile è il teorema che segue.
La nostra definizione di funzione parziale ricorsiva è ottenuta da quella di
algoritmo. Ci si potrebbe dunque chiedere se la definizione di algoritmo sia
adeguata o se non dipenda in modo non desiderabile dallo specifico modo di
caratterizzazione. A questo scopo enunciamo un risultato fondamentale:
Teorema 1.5.1 (Equivalenza di caratterizzazioni9 ). Le caratterizzazioni di
Turing, Kleene, Church, Post, Markov (ed altri) sono equivalenti; cioè esattamente la stessa classe di funzioni parziali ricorsive è ottenuta in ogni
caratterizzazione.
Se le caratterizzazioni proposte sono equivalenti sembra ragionevole dire,
in relazione alla Tesi di Church:
8
9
[Rogers 1967, 20].
[Rogers 1967, 18].
11
1. il concetto di algoritmo è adeguatamente catturato da ogni singola
formulazione
2. data l’adeguatezza della formulazione del concetto di algoritmo, deduciamo l’adeguatezza della classe di funzioni da esso definita rispetto
all’intuizione di “funzione computabile” (possiamo farlo perché, richiamandoci all’introduzione, il concetto di algoritmo è presupposto alla
computabilità della funzione).
1.5.4
Enumerazione effettiva
Possiamo identificare ciascuna macchina di Turing con l’insieme di regole
(quadruple) che la definisce. Possiamo codificare dunque ciascuna macchina
di Turing in alfabeto binario codificando la lista di regole.
Ordiniamo poi le stringhe binarie ottenute lessicograficamente. Assegnamo un indice i a ciascuna macchina di Turing T in modo tale che se
n(T ) corrisponde alla posizione della macchina T nell’ordine lessicografico,
n(T ) = i. In questo modo abbiamo costruito una enumerazione effettiva
delle macchine T1 , T2 , ...
L’enumerazione effettiva delle macchine T1 , T2 , ... determina inoltre una
enumerazione effettiva di funzioni parziali ricorsive φ1 , φ2 , ... tale che per
ogni i φi è la funzione computata da Ti . Ogni funzione parziale ricorsiva ha
un’infinità numerabile di indici10 .
1.5.5
Macchina di Turing universale
Definizione 1.8 (Macchina di Turing universale). Una macchina di Turing
universale U è una macchina di Turing che può simulare il comportamento
di qualsiasi altra macchina di Turing.
La dimostrazione dell’esistenza di una tale macchina coincide con la sua
costruzione. Non si presenta una costruzione esplicita ma si rende sinteticamente l’idea di come essa possa venire formulata: sfruttando l’enumerazione
effettiva delle macchine di Turing possiamo definire l’input di U come < i, σ >
(opportunamente codificato) in modo tale che U ricostruisca da i la Ti che
deve essere simulata e computi di conseguenza (utilizzando la descrizione di
Ti ricavata e σ).
Possiamo dunque definire anche:
10
Teorema III [Rogers 1967, 22].
12
Definizione 1.9 (Funzione parziale ricorsiva universale). La funzione parziale
ricorsiva ν(i, σ) computata da una macchina di Turing universale U è detta
funzione parziale ricorsiva universale.
L’esistenza di ν è garantita dall’esistenza di U 11 .
11
cfr. anche Prova del Teorema 4 [Eagle 2010, Supplemento C].
13
Capitolo 2
Von Mises
2.1
Introduzione
Il primo tentativo di definizione del concetto di randomness per una sequenza
viene da Richard von Mises nel 1919, nell’ambito di un’assiomatizzazione della teoria della probabilità. La teoria da lui costruita pone a suo fondamento il
particolare oggetto chiamato collettivo, ovvero una sequenza rappresentante i
risultati di un qualche esperimento e avente come caratteristiche la infinitezza, la presenza di una frequenza limite per ciascun risultato, e una certa
forma di randomness. Prima di dare la definizione di collettivo è opportuno
delineare il tipo di concezione alla base di tale costruzione teorica.
Al contrario della fondazione della teoria della probailità come misura,
assiomatizzazione del tutto astratta dall’oggetto del quale la teoria deve poi
trattare, la fondazione di von Mises si lega essenzialmente al tipo di fenomeno
per cui la teoria è costruita. Lasciato ogni uso comune per assumere il ruolo
di nozione scientificamente delimitata, la “probabilità” è definita allo scopo
di descrivere fenomeni di massa o eventi ripetitivi.
The rational concept of probability, which is the only basis of
probability calculus, applies only to problems in which either the
same event repeats itself again and again, or a great number
of uniform elements are involved at the same time. Using the
language of physics, we may say that in order to apply the theory
of probability we must have a practically unlimited sequence of
uniform observations.
[von Mises 1957, 11]
La teoria della probabilità non è una parte della matematica pura, ma è esplicitamente considerata come parte della scienza della natura, come la meccanica, la termodinamica: il suo oggetto sono gli eventi ripetitivi, i fenomeni
14
del cui comportamento statistico è sensato occuparsi. La definizione di collettivo riflette questo intento: “l’esistenza” dei collettivi, così come la adeguatezza della loro definizione, deve essere comprovata dalla applicabilità a questi
fenomeni della teoria che ne deriva.
2.2
L’assiomatizzazione
L’assiomatizzazione di von Mises coincide con la definizione di collettivo.
2.2.1
Definizione di collettivo
È presentata la definizione “base” di collettivo, “base” nel senso che della
seconda condizione è stata scelta la versione semplificata (che viente usualmente presentata), vista la particolartà della versione estesa la quale presenta una correzione per assicurare la validità della regola per le “probabilità
condizionali” 1 .
Definizione 2.1 (Collettivo). È chiamato collettivo una sequenza x ∈ Aω
tale che:
denotata con 1B la funzione definita per ogni xi ∈ A tale che: 1B (xi ) = 1
se xi ∈ B ⊆ A, 1B (xi ) = 0 altrimenti,
1. esiste P (B), chiamata funzione di probabilità, definita:
∀B ⊆ A, P (B) := n→∞
lim
n
1X
1B (xi )
n i=1
2. se Φ è una selezione di posto ammissibile 2 , ossia una selezione di una
sottosequenza di x ∈ Aω , allora, chiamata tale sequenza derivata Φx ,
PΦx (B), definita come sopra, esiste ed è uguale a Px (B). Una selezione
di posto ammissibile può essere intuitivamente interpretata come una
strategia di gioco che, decidendo quando scommettere, possa apportare
una qualche forma di vantaggio.
Riassumendo informalmente: un collettivo è una sequenza (infinita) di
elementi xi ∈ Atale che esiste una frequenza limite per ogni B ⊆ A, chiamata
valore della probabilità di B, la quale è invariante rispetto alle selezioni di
posto ammissibili. Tralasciando per il momento il significato di “selezioni di
posto ammissibili”, si osserva ora che cosa richiedano e comportino gli assiomi
che definiscono il collettivo.
1
2
per la definizione e la sua giustificazione cfr. [van Lambalgen 1987, 24].
admissible place selection.
15
2.2.2
Significato del collettivo
La prima considerazione riguarda la definizione di probabilità come limite di
frequenza relativa. Essa ci informa del tipo di fenomeni di cui si deve occupare la teoria della probabilità secondo von Mises: fenomeni di massa che
mostrano una convergenza nella frequenza. La definizione richiede un limite
della frequenza relativa per n, numero di esperimenti, che tende a infinito.
Nessuna sequenza di osservazioni può essere considerata propriamente un
collettivo: nessuna sequenza di osservazioni sarà mai infinita. Esistono tuttavia fenomeni che a cui si applica con successo la teoria della probabilità: le
assicurazioni, le case da gioco, la meccanica statistica dimostrano l’esistenza
di una convergenza delle frequenze ad un certo valore sufficientemente stabile. Von Mises introduce i collettivi infiniti solo per i loro vantaggi tecnici3 ,
non come oggetti autonomi di studio; e questo vantaggio tecnico non altera
negativamente la teoria così come non ha alcun effetto negativo la definizione
.
in meccanica della velocità come ds
dt
Oltre a ciò, la definizione di probabilità come limite di una frequenza
in un collettivo afferma che non essa non è attribuibile ad un individuo: la
probabilità è il limite di una frequenza. Non ha senso dire che a, uomo di 40
anni abbia una certa probabilità di morte prima del compimento del 41esimo
anno. La probabilità di morte si applica ad un certo tipo di persone ed è
precisamente rispetto a tale tipo che viene ad essere riconosciuto un collettivo. Un individuo appartiene molteplici collettivi: a può essere considerato
dal punto di vista del collettivo dei “fumatori incalliti”, oppure del collettivo degli “uomini sposati”, e via dicendo. A collettivi diversi corrispondono
distribuzioni diverse di probabilità. Un individuo non può avere diverse probabilità di morire nell’anno, la probabilità si applica alla classe (rispetto a cui
è costituito il collettivo) non all’individuo.
La seconda considerazione riguarda l’invariabilità della probabilità rispetto a certi ammissibili modi di selezione. È questo l’assioma che dà una
caratterizzazione in senso restrittivo alla teoria della probabilità. In particolare impedisce di parlare di probabilità in quei casi in cui, per richiamare il
linguaggio dell’introduzione, il fenomeno non è “casuale”.
Imagine, for instance, a road along which milestones are place,
large ones for whole miles and smaller ones for tenth of a mile.
If we walk long enough along this road, calculating the relative
frequencies of large stones, the value found in this way will lie
around 1/10. [. . . ] This result may induce us to speak of a “certain probaility of encountering a large stone”. [. . . ][But] The se3
[van Lambalgen 1987, 22].
16
quence of observations of large and small stones differs essentially
from the sequence of observations, for instance, of the results of
a game of chance, in that the first sequence obeys an easily recognizable law.
[von Mises 1957, 23]
Sono eliminate dunque quelle sequenze che rispondono a leggi (facilmente)
riconoscibili. Sono eliminati in tal modo dalla trattazione anche i processi
stocastici, ovvero (in termini di sequenze) quelle sequenze in cui la probabilità
dell’i-esimo elemento dipende dal valore dei precedenti elementi: la presenza
di un determinato m ∈ M nella sequenza non ci dà la minima informazione
riguardo al successivo m0 ∈ M . Detto altrimenti, parafrasando la condizione
2. della definizione di collettivo: non possiamo sperare, basandoci su <
xi , xi+1 , ..., xn−1 > e su n, di riuscire ad operare una selezione di xn tali
che vadano a formare una nuova sequenza che abbia una distribuzione di
probabilità differente.
2.3
Consistenza del collettivo
Ma i collettivi così definiti, esistono? In certi fenomeni esistono frequenze
limite e non esiste strategia, pensando ai giochi d’azzardo, che permetta di
migliorare la probabilità di vittoria. Questa è una risposta di tipo empirico:
essa dice che la definizione data da von Mises può trovare motivi per essere
accolta nell’ambito di questi fenomeni.
La domanda è in realtà un’altra: essa riguarda la correttezza del sistema
generato dai due assiomi su x ∈ Aω .
Supponiamo che x ∈ 2ω sia un collettivo per cui sia definita P ({1}). Consideriamo l’insieme delle sequenze infinite costituite da numeri interi (positivi) n1 < n2 < n3 < .... Questo insieme è costruito indipendentemente da x,
ma fra i suoi elementi esiste la sequenza n01 < n02 < n03 < ... che seleziona gli
1 di x, ovvero per ciascun n0i : xn0i =1, andando a formare una nuova sequenza
costituita da soli 1. Quindi x non è un collettivo.
La risposta a questo problema chiama in causa la definizione di “selezione
di posto accettabile”. Il tipo di selezione sopra proposto non è rilevante ai
fini della teoria di von Mises. La selezione n01 < n02 < n03 < ..., scritta
{n0i : xn0i = 1}, non è infatti una funzione che possa essere accettata come selezione di posto. Le selezioni di posto sono oggetti che devono essere costruiti
esplicitamente 4 .
4
cfr. [van Lambalgen 1987, 29].
17
È necessario inoltre considerare il carattere intensionale delle selezioni
ammissibili, ossia del forte legame rispetto all’applicazione sotteso da von
Mises nella sua costruzione: l’ammissibilità non è una caratteristica propria
della selezione stessa. Essa infatti coinvolge considerazioni riguardo al collettivo nel momento stesso della sua identificazione, cioè sul significato che
determinate selezioni di posto hanno nel constesto di un certo fenomeno. Le
due osservazioni ci indicano due strade percorribili per la dimostrazione della consistenza (e non vuotezza) dell concetto di collettivo. Il punto centrale
come notato è la questione della “selezione di posto accettabile”. Otterremo
due risultati: una caratterizzazione in positivo delle selezioni accetabili, ed
una dimostrazione riguardo dell’esistenza di collettivi in ogni “contesto di
applicazione”. Iniziamo dal secondo risultato.
2.3.1
Wald
Wald5 risponde al problema: qual è una condizione sufficiente per cui, dato
lo spazio di sequenze originate da S, esistano sequenze che siano collettivi.
Teorema 2.3.1 (Teorema di Wald). Siano S un alfabeto finito o infinito
(discreto) S = {a1 , a2 , ...}, S l’insieme potenza di S, G un sistema numerabile di selezioni di posto, p una funzione non − negativa, σ − additiva6
P
P
definita su S e tale che i p({ai }) := i pi = 1,
esistono infinite non-numerabili sequenze x che sono collettivi rispetto a p
e G (preservano cioè ciascuna pi rispetto a ciascuna selezione di posto in
G). Inoltre se S = {0, 1}, l’insieme di tali sequenze ha misura (definita come
sopra) 1.
Dimostrazione. Omessa.
Questo teorema afferma l’esistenza di collettivi per un alfabeto discreto
con l’unica significativa (e debole) restrizione riguardante G che deve essere
numerabile. È da sottolineare che in nessun problema (“contesto di applicazione”) emerge un numero più che numerabile di selezioni di posto e che
si può dunque considerare la richiesta 2. nella definizione di collettivo come
limitata a quelle selezioni che occorrono nella soluzione di quel particolare
problema. Si può inoltre osservare che nello spirito di una logica formalizzata
il numero di selezioni che può essere definita in parole o simboli è numerabile7 .
5
cfr. [von Mises/Geiringer
1964,P40-42].
S∞
∞
ciò significa che p( i=1 Bi ) = i=1 p(Bi ), dove Bi sono insiemi disgiunti.
7
[von Mises/Geiringer 1964, 41].
6
18
2.3.2
Church
Si è visto che per un numero numerabile di selezioni di posto esistono i collettivi. È un risultato generale che non dà molte indicazioni circa il modo di
stabilire a priori un tipo di selezioni che siano ammmissibili. In questo senso
si caratterizza il risultato di Church8 , che definisce la consistenza del collettivo sulla base di una selezione di posto intesa come procedura effettiva. Si
può osservare una diversa attitudine verso la dimostrazione della consistenza
del collettivo rispetto alla dimostrazione, interpretabile come “contestuale”,
di Wald. È quella di Church una posizione che assume l’effettività come
concetto fondamentale. Assumendo l’inalterabilità della frequenza sotto selezione di posto come l’inesistenza di un sistema che permetta di scegliere
quando scommettere con vantaggio su un particolare risultato all’interno della sequenza, ossia l’inesistenza di un sistema di gioco (Spielsystem), si può
dire:
It may be held that the representation of a Spielsystem by an
arbitrary function φ is too broad. To a player who would beat
the wheel at the roulette a system is unusable which corresponds
to a mathematical function known to exist but not given by explicit definition; and even the explicit definition is no use unless
it provides a means of calculating the particular values of the
function. As less frivolous example, the scientist concerned with
making predictions or probable predictions of some phenomenon
must employ an effectively calculable function [. . . ]. Thus a Spielsystem should be represented mathematically, not as a function,
or even as a definition of a function, but as an effective algorithm
for the calculation of the values of a function.
[Church 1940, 133]
La definizione di collettivo può dunque essere riformulata come segue,
con la costruzione della selezione di posto9 . (Le definizioni che seguono si
riferiscono a sequenze binarie.)
Definizione 2.2 (Selezione di posto ricorsiva). Poniamo φ : 2<ω → {0, 1}.
φ determina la selezione di posto Φ nel modo seguente:
1.
Φ0 : 2<ω → 2<ω è data da Φ0 (uj) =
8
9



Φ0 (u)j se φ(u) = 1


Φ0 (u)
[van Lambalgen 1987, 42-43]; [Church 1940].
[van Lambalgen 1987, 41].
19
dove j ∈ {0, 1}
se φ(u) = 0
2. una funzione parziale Φ : 2ω → 2ω è definita:
denotato con domΦ il dominio di Φ (l’insieme per cui è definita),
(a) domΦ = {x ∈ 2ω : ∀n∃k ≥ n , φ(x1 x2 ...xk ) = 1}
(b) x ∈ domΦ implica Φ(x) =
T
n
ΛΦ0 (x1 x2 ...xn )
Φ : 2ω → 2ω così definita è detta selezione di posto ricorsiva.
Definizione 2.3 (Collettivo (Church)). Sia pi ∈ [0, 1] (i ∈ {0, 1}). x ∈ 2ω
è un collettivo rispetto a pi se per ogni selezione di posto ricorsiva Φ, x ∈
domΦ implica che p0i , indotta dal nuovo collettivo x0 , è uguale a pi per qualsiasi i ∈ {0, 1}.
L’esistenza di queste sequenze è un’immediata conseguenza del teorema
di Wald, se si fa uso del fatto che l’insieme delle funzioni effettivamente
computabili, cioè delle funzioni parziali ricorsive, è numerabile10 .
2.4
Ville
I risultati di Wald e Church danno solidità alla teoria che von Mises si propone
di fondare sul concetto di collettivo. La teoria della probabilità può trovare
così una fondazione in senso strettamente frequentista. Non mancano tuttavia
alcuni problemi, specialmente dal nostro punto di vista: i collettivi non sono
soddisfacenti modelli dei fenomeni random.
In particolare è qui da sottolineare il secondo punto. Nel 1939 Ville
dimostra una costruzione per cui:
Teorema 2.4.1 (Teorema di Ville). 11 Sia E un insieme qualunque di funzioni di selezione. Esiste x ∈ 2ω tale che:
1.
n
1
1X
(xi ) =
lim
n→∞ n
2
i=1
2. per qualsiasi f ∈ E, x0 è la sequenza selezionata da f :
n
1X
1
(x0i ) =
n→∞ n
2
i=1
lim
10
11
Teorema I [Rogers 1967, 22].
[Downey e Hirschfeldt 2010, 246].
20
3.
∀n ,
n
1X
1
xk ≤
n k=1
2
.
Dimostrazione. Omessa.
Ossia: per 3. la frequenza relativa degli 1 approccia il limite da sotto.
Intuitivamente, è una proprietà che non rispecchia un comportamento
random, in quanto permette una strategia di gioco vincente: scommettendo
ogni volta su 0 al prezzo di una scommessa su un lancio di moneta ben equilibrata, dato che la frequenza relativa di 1 è ≤ 1/2, il guadagno accumulato
è sempre positivo12 .
È possibile da punto di vista di von Mises la seguente risposta: i collettivi
non sono modelli di sequenze (infinite) random. L’unico criterio per accettare
o rigettare le proprietà dei collettivi è il loro uso nel risolvere i problemi finiti
della teoria della probabilità e per questo scopo le loro caratteristiche sono
sufficienti. È qui però proposito di osservare invero precisamente come poter dare definizione all’intuizione di “sequenza random”, che sembra essere
troppo inclusiva dopo il risultato di Ville. Si può provare a rendere più
forte la teoria di von Mises, dando una più potente formalizzazione all’affermazione semi-formale dell’inesistenza di un sistema di gioco, cercando cioè
di sviluppare una teoria in accordo con lo stretto frequentismo. Qui invece le
problematiche di von Mises verranno abbandonate in favore dei due approcci
descritti nell’introduzione: tipicalità e compressibilità.
12
[Li e Vitányi 2008, 54].
21
Capitolo 3
Tipicalità
3.1
Introduzione
Siamo giunti con von Mises ad una definizione che non può essere considerata
soddisfacente. In questo capitolo giungeremo invece ad una adeguata formalizzazione di ciò che intuitivamente diremmo essere una sequenza random. Il
paradigma che sarà adottato è quello della tipicalità.
Si è visto nel capitolo iniziale una sequenza random è non deve essere
in nulla straordinaria, non deve avere nessuna caratteristica che la renda
distinguibile. Riprendendo la definizione di “straordinario” che dà Laplace:
Il pensiero organizza tutti i possibili eventi in classi diverse e
considera straordinari quelle classi che ne contengono pochissimi.
[Laplace 1826, 33]
Ma come possiamo riuscire a caratterizzare la straordinarietà di una sequenza? La straordinarietà di una sequenza è data dalla “grandezza” dell’insieme a cui appartiene. Dobbiamo quindi individuare in 2ω un insieme che
sia “molto grande”, non straordinario. Per poter rendere ragione di questa
intuizione saranno utilizzati concetti tratti dalla teoria della misura.
Possiamo dire, giungendo ad una formulazione più precisa dell’intuizione
della tipicalità: l’insieme delle sequenze random deve avere misura 11 .
Perché proprio misura 1? L’intuizione base è che l’alterazione di un
singolo bit non ha effetto sulla randomness di una sequenza infinita. Se
x = x1 x2 x3 ... è random lo sarà anche x0 = x01 x2 x3 x4 ...: che sia x1 oppure x01 ,
dal punto di vista della sequenza infinita, non fa per noi alcuna differenza.
Si può indurre quindi che nessuna quantità finita di variazioni può alterare
1
[Dasgupta 2010, 13].
22
la randomness della sequenza. Quindi, se due sequenze x e y sono diverse
per un numero finito di posti allora la randomness di x è equivalente a quella
di y. Ciò implica che l’insieme delle sequenze random soddisfa la condizione
per la Legge 0-1 di Kolmogorov: la sua misura è 0 o 1. Non possiamo però
ritenerlo di misura 0: ciò significherebbe che le sequenze random sono molto
meno di quelle non random e formano un insieme di sequenze “straordinarie”.
L’insieme delle sequenze random ha quindi misura 1.
3.1.1
Riformulazione
Il problema può essere formulato come segue: come individuare quell’insieme
di misura 1?
Potremmo pensare: l’insieme delle sequenze random deve essere l’intersezione di tutte gli insiemi di misura 1. Ma tale richiesta è impossibile da
soddisfare: la voluta intersezione è vuota2 . È quindi da decidere quale sia
l’insieme “privilegiato” che chiamiamo delle sequenze random. P. Martin-Löf
nel 1966 fornisce una risposta a questa domanda.
3.2
Leggi probabilistiche
Prima di giungere a Martin-Löf è da esporre però il concetto di legge probabilistica. Con legge probabilistica intendiamo una legge che afferma che
un certo insieme ha misura 1 (si può dunque identificare la legge con la
definizione di tale insieme).
Ci si ricordi la costruzione di Ville: tale sequenza non soddisfa l’intuizione
di randomness ma, possiamo dire ora, non soddisfa nemmeno, ad esempio,
la legge delle Oscillazioni simmetriche, poco sotto esposta.
Ciò significa che riusciamo a definire in modo esplicito, come leggi probabilistiche, le caratteristiche che intuitivamente l’insieme delle sequenze random deve avere: la costruzione di Ville non soddisfa una delle leggi probabilistiche che abbiamo formulato; per questo motivo non è random. (La
possibilità di una definizione esplicita avrà speciale rilevanza in Martin-Löf.)
Si presentano ora una serie di leggi (con dimostrazione omessa) che rappresentano proprietà di insiemi a cui una sequenza binaria random dovrebbe
appartenere3 .
È importante sottolineare che la misura utilizzata deve essere stabilita.
Noi utilizzeremo la misura così definita: µ(Λσ ) = 2−|σ| che corrisponde, in2
infatti il complemento di ciascun singoletto ha misura 1, quindi per ogni sequenza
esiste un insieme di misura 1 che lo esclude.
3
[Dasgupta 2010, 15].
23
tuitivamente, alla situazione in cui la sequenza è originata da infiniti lanci di moneta ben bilanciata (se la moneta è ben bilanciata consideriamo
ugualmente “probabile” ciascuna disposizione, ad esempio, di lunghezza 2:
00, 01, 10, 11; cioè, dividendo 2ω in insiemi: {x : x incomincia per 00},
{x : x incomincia per 01}, ..., riteniamo ciascun insieme di uguale misura.
La misura {x : x incomincia per σ} è determinato quindi dal numero di
disposizioni di lunghezza |σ|, che è 2|σ| ).
3.2.1
Legge forte di Borel
Questa legge è legata alla seguente intuizione: una sequenza binaria è random
rispetto alla misura µ(Λσ ) = 2−|σ| se la proporzione di 1 nei primi n termini
approccia il valore 1/2 per n che tende a infinito.
Questa legge esplicita come all’aumentare della lunghezza delle stringhe
binarie aumenti il numero di esse per cui vale (sommando direttamente come
numeri ciascun xi della stringa binaria):
n
1
1X
(xi ) =
n i=1
2
Si noti bene che questa legge non corrisponde all’idea empirica per cui, se
si intende la stringa binaria come rappresentante di una serie di lanci indipendenti di moneta (“che non favorisca né Testa né Croce”), il rapporto di
Testa/Croce debba (all’incirca) stabilizzarsi a 1 all’aumentare dei lanci.
Teorema 3.2.1 (Legge forte di Borel). Sia
n
1
1X
(xi ) = }
B = {x ∈ 2 : n→∞
lim
n i=1
2
ω
Tale insieme ha misura 1 (µ(B) = 1).
Cioè per quasi tutte le sequenze la frequenza di 1 è pari a 1/2.
3.2.2
Normalità (di una sequenza binaria)
La legge forte di Borel non è sufficiente a caratterizzare l’insieme delle sequenze random. La sequenza 01010101... appartiene a B definito come sopra, ma evidentemente non è random. La normalità è in qualche modo un
raffinamento dell’idea alla base della Legge forte di Borel.
Essa è legata alla seguente intuizione: una sequenza binaria è random se
la proporzione di ogni stringa σ ∈ 2ω nei primi k blocchi di bit di lunghezza |σ|
approccia il valore 1/2|σ| per k che tende a infinito. (L’idea è che suddividendo
24
la sequenza in blocchi di uguale lunghezza, ciascun diverso blocco di quella
lunghezza appare con la stessa frequenza.)
Teorema 3.2.2 (Normalità binaria). Siano: β blocco di bit tale che |β| = |σ|
e 1σ (β) = 1 se σ = β , 1σ (β) = 0, altrimenti. L’insieme C:
k
1X
1σ (β) = 2−|σ| , ∀σ ∈ 2<ω }
k→∞ k
i=1
C = {x ∈ 2ω : lim
ha misura 1.
Quasi tutte le sequenze binarie sono dunque normali.
3.2.3
Oscillazioni simmetriche
Richiamiamo alla mente la sequenza costruita da Ville. Pur appartenendo
all’insieme definito nella Legge forte di Borel, tale sequenza non poteva essere
accettata come random poiché implicava per la frequenza degli 1 un approccio
unilaterale al limite. Possiamo ora vedere che legge è in tal modo violata.
L’intuizione è: in una sequenza binaria random la frequenza deve oscillare
infinite volte al di sopra e al di sotto del limite, non deve cioè esserci un
approccio unilaterale.
Teorema 3.2.3 (Legge delle oscillazioni simmetriche). L’insieme O:
O = {x ∈ 2ω :
n
n
1X
1
1
1X
(xi ) ≤ per infiniti n, così come
(xi ) ≥ per inf. n}
n i=1
2
n i=1
2
Ha misura 1.
3.2.4
In generale
Sono state esposte alcune leggi probabilistiche. Ogni nuova legge può essere
vista come individuante un insieme corrispondente all’intuizione di alcune
caratteristiche che possiamo attribuire ad una sequenza random.
In questo senso si può nominare (senza esporla) un’altra legge, quella
del logaritmo iterato. Essa porta le precedenti leggi come corollari, ed ha
il particolare pregio di definire un insieme da cui è esclusa la sequenza di
Champernowne, sequenza che è normale in forma binaria, ma che tuttavia
difficilmente sarebbe chiamata random essendo generata dalla semplice procedura data dalla concatenazione ordinata delle rappresentazioni binarie dei
numeri nauturali: 01 10 11 100 101 110 111...
Riprendiamo il senso di queste leggi. Ciascuna legge individua un insieme
di misura 1, ossia un insieme il cui complemento ha misura 0. Possiamo dire
25
dunque che per ogni legge, se una sequenza non appartiene all’insieme da essa
definito, allora non è random. Cioè nessuna sequenza random appartiene ad
insiemi nulli determinati da leggi probabilistiche. Con questo tipo di idea si
può passare alla definizione di sequenza random data da Martin-Löf.
3.3
3.3.1
Martin-Löf
Introduzione
Si è detto che non possiamo definire l’insieme delle sequenze random con
l’intersezione di “tutti” gli insiemi di misura 1. Tale idea, a livello intuitivo,
non si può dire tuttavia essere scorretta. Ciò che è necessario è dare una
buona concettualizzazione di “tutti”.
Date le leggi sopra esposte, possiamo pensare di aggiungerne altre, in
accordo ad altre possibili intuizioni riguardo alle caratteristiche di una sequenza random. Ma in questo modo la definizione di sequenza random non
sarebbe una definizione stabile nel tempo4 .
L’osservazione fondamentale di Martin-Löf è che tutte le leggi probabilistiche che sono state dimostrate sono effettive 5 . Ciò signifca che è possibile
provare per ogni sequenza se la data legge è soddisfatta mediante un test
effettuato su segmenti iniziali di lunghezza crescente della sequenza.
Martin-Löf trae spunto dalla statistica utilizzando il concetto di test per
randomness 6 , che possiamo spiegare come una procedura che definisce per
quali elementi debba essere rigettata l’ipotesi (la randomness della sequenza). L’idea che seguiremo è quindi l’idea per cui una sequenza random
non appartiene ad alcun insieme di misura 0 determinato da una procedura
effettiva.
3.3.2
Misura effettiva
È dunque da rendere la nozione di misura all’interno del contesto di effettività7 apportata dal concetto di test.
Definizione 3.1 (Insieme ricorsivamente enumerabile). Un insieme X è
detto ricorsivamente enumerabile8 se:
1. o X = ∅,
4
[Downey e Hirschfeldt 2010, 230-231].
[Li e Vitányi 2008, 55].
6
[Martin-Löf 1966, 604].
7
per le definizioni seguenti, eccetto def. 3.1, [Dasgupta 2010, 27-28].
8
[Rogers 1967, 58].
5
26
2. oppure esiste una funzione ricorsiva (totale) φ tale che X è l’immagine
di φ.
Intuitivamente, un insieme è ricorsivamente enumerabile se esiste una
procedura effettiva che elenca i membri dell’insieme, anche con ripetizioni.
Alternativamente lo si può definire come: un insieme X è ricorsivamente
enumerabile se X è l’immagine di una funzione parziale ricorsiva9 .
Definizione 3.2 (Insieme effettivamente aperto). Un insieme G ∈ 2ω è detto
effettivamente aperto se esiste un insieme ricorsivamente enumerabile S di
stringhe tale che:
[
G=
Λσ
σ∈S
Ovvero, poiché S è ricorsivamente enumerabile se è l’immagine di una
funzione parziale ricorsiva tale che ∀σ ∈ S, φ(n) = σ per qualche n ∈ N
(assumiamo dunque φ : N → 2<ω ), possiamo riscrivere:
G=
∞
[
Λφ(n)
n=1
assumendo Λφ(n) = ∅ se φ(n) non è definita.
Dobbiamo ora definire l’effettività di una sequenza di insiemi effetivamente aperti per poter quindi procedere alla definizione di insieme effettivamente nullo.
Definizione 3.3 (Sequenza uniformemente effettivamente aperta). Una sequenza di insiemi G1 , G2 , ... è uniformemente effettivamente aperta se esiste
una funzione parziale ricorsiva φ : N × N → 2<ω tale che:
Gi =
∞
[
Λφ(i,n)
n=1
assumendo Λφ(i,n) = ∅ se φ(i, n) non è definita.
Il senso è: non solo ciascun elemento della sequenza deve essere effettivamente aperto, ma deve esistere una funzione che enumeri per ciascun membro
della sequenza gli insiemi base di cui è composto.
Definizione 3.4 (Insieme effettivamente nullo). Un insieme E ⊂ 2<ω è effettivamente nullo se esiste una sequenza uniformemente effettivamente aperta
G1 , G2 , ... tale che per ogni i:
9
Corollario Va [Rogers 1967, 61].
27
1. E ⊆ Gi ,
2. µ(Gi ) < 1/i .
3.3.3
Sequenza random (Martin-Löf)
Effettivizzato il concetto di insieme nullo, che corrisponde ad un test per
randomness (cioè: un test per randomness è una procedura che verifica l’appartenenza di una sequenza ad un definito insieme nullo), possiamo infine
dare la definizione di sequenza random di Martin-Löf.
Definizione 3.5 (Sequenza random ( Martin-Löf)). Una sequenza x ∈ 2<ω
è una sequenza random se non appartiene a nessun insieme effettivamente
nullo.
Riformulando: una sequenza random è una sequenza che appartiene a
tutti gli insiemi di misura effettiva 1.
È stabilito inoltre che l’insieme delle sequenze random così definite ha
misura 1. L’idea della prova è che, essendo gli insiemi effettivamente nulli un
numero numerabile (data la numerabilità delle procedure effettive), la loro
unione è anch’essa di misura 0, per il Teorema 1.4.2 (I).
In questo modo abbiamo ottenuto una definizione (non vuota) che corrisponde all’intuizione per cui una sequenza random appartiene a “tutti” gli
insiemi di misura 1, dove “tutti” è corretto in “tutti quelli che possono essere
effettivamente specificati”.
Osserveremo nella conclusione la particolarità di questo dipo di definizione.
28
Capitolo 4
Incompressibilità
4.1
Introduzione
Si è raggiunto una soddisfacente, “robusta” e “matematicamente attrattiva” 1 ,
nozione di sequenza random. Vogliamo ora definire il concetto di randomness
per una stringa finita. Consideriamo dunque le seguenti stringhe binarie:
α : 01010101010101010101010101010101
β : 00010110111000100011110000100110
γ : 01100110011001100110011001100110
Evidentemente α e γ difficilmente sarebbero chiamate random, più facilmente
sarebbe chiamata in tal modo β. L’intuizione che regge questo tipo di classificazione è collegata alla capacità di individuare “schemi di simboli”, o regolarità (nel linguaggio dell’introduzione), ricorrenti all’interno della stringa.
Da ciò diciamo: se una stringa presenta schemi ricorrenti non è random.
Occorre dunque stabilire in che modo questa intuizione possa essere formalizzata e resa oggettiva, invariante rispetto all’arbitrarietà che accompagnia, empiricamente, il “riconoscimento” di schemi2 . Prima però sembra utile
riformulare l’idea di “presenza di schemi”, cercando di cogliere che tipo di
implicazioni ha per noi, intuitivamente, la presenza di schemi.
Si può affermare che una stringa con schemi ricorrenti possa essere più
“facilmente” descritta rispetto ad una priva di schemi. In questo modo possiamo dire che α è data da 01 scritto 16 volte e γ da 0110 scritto 8 volte.
Non riusciamo a procedere nello stesso modo per β: non troviamo schemi
1
2
[Eagle, 2010, sezione 2.2].
[Eagle, 2010, sezione (introduzione)].
29
che possano essere sfuttati per una descrizione che sia più “semplice” rispetto
alla descrizione “simbolo per simbolo”.
La presenza di schemi ricorrenti è quindi reinterpretata come “facilità di
descrizione”. Una stringa random, ovvero priva di schemi ricorrenti, è quindi
una stringa non “facilmente descrivibile”.
Esplicitato il contenuto dell’idea di “presenza di schemi” con l’idea di
“facilità di descrizione”, si può procedere nella definizione di stringa random.
Tale definizione sarà formulabile una volta specificato che cosa è da intendersi
per “descrizione” ed in che senso di essa si dice la “facilità”.
4.2
Descrizione
È stato utilizzato il termine “descrizione” pittosto liberamente. Il cosiddetto Paradosso di Berry3 mostra che tipo di pericoli possono emergere da
un’assenza di restrizione riguardo all’ammissibiltà di una “descrizione”.
Paradosso di Berry Il numero di Berry è il più piccolo intero positivo che
non può essere descritto in meno di 30 parole.
Se questo numero esiste, è stato appena descritto in meno di 30 parole, in
contraddizione della definizione. In questo consiste il paradosso.
Definiamo quindi che cosa è da intendersi con “descrizione”.
Definizione 4.1 (Metodo di descrizione in generale4 ). Siano X l’insieme di
oggetti che vogliamo descrivere e Y l’insieme di oggetti che utilizziamo come
descrizioni:
1. Chiamiamo metodo di descrizione (in generale) (oppure anche funzione
di decodifica) D, una funzione D : Y → X (X è l’insieme degli oggetti
che sono descritti),
2. chiamiamo y ∈ Y descrizione di un oggetto x ∈ X se D(y) = x.
Noi però vogliamo che la descrizione sia effettiva. Ci si ricordi che identifichiamo funzione parziale ricorsiva con macchina di Turing. Ricordiamo inoltre che gli oggetti da descrivere sono stringhe binarie. Ridefiniamo dunque
nel seguente modo il termine “descrizione”:
3
4
[Dasgupta 2010, 36]; [Li and Vitáyni 2008, 1].
cfr. [Li e Vitáyni 2008, 1].
30
Definizione 4.2 (Descrizione effettiva o algoritmica5 ). Sia T una macchina
di Turing, φ la funzione parziale ricorsiva da essa computata (intendendola
direttamente come φ : 2<ω → 2<ω 6 anziché N → N ), σ la stringa binaria da
descrivere e δ ∈ 2<ω .
1. Chiamiamo metodo di descrizione algoritmico T rispetto a σ se T termina con output σ su qualche input δ. Ovvero, φ è un metodo di
descrizione effettivo rispetto a σ se φ(δ) = σ per qualche δ.
2. Chiamiamo δ definita come sopra descrizione algoritmica di σ.
Abbrevieremo “descrizione effettiva” con “descrizione”.
4.3
Complessità
Avendo chiarificato cosa intendere per descrizione, possiamo passare al secondo problema: la “facilità”. Non definiremo direttamente tale concetto, ma
utilizzeremo la nozione correlata di complessità. Il problema della “facilità
descrittiva” è considerato ora come la questione riguardante la complessità
della descrizione. La complessità descrizionale (o algoritmica) è chiamata
complessità di Kolmogorov (per noi semplicemente complessità, dal nome del
suo ideatore, il matematico russo A. N. Kolmogorov7 .
In modo piuttosto naturale, avendo definito che cosa è una descrizione,
possiamo formulare8 la seguente definizione:
Definizione 4.3 (Complessità rispetto al metodo di descrizione φ). Chiamiamo Cφ (σ) complessità di σ rispetto alla funzione parziale ricorsiva (metodo
di descrizione) φ la lunghezza l della(e) stringa(stringhe) più corta(e) δ tale
che φ(δ) = σ, ovvero:
Cφ (σ) = min{l(δ) : φ(δ) = σ}
Se non esiste alcuna δ che sia descrizione di σ poniamo Cφ (σ) = ∞.
Abbiamo una definizione quantitativa della complessità di una stringa
rispetto ad un metodo di descrizione. Possiamo quindi operare una comparazione tra complessità rispetto diversi metodi di descrizione.
5
cfr. [Dasgupta 2010, 36] e [Li e Vitáyni 2008, 104].
cfr. [Downey e Hirschfeldt 2010, 111].
7
[Kolmogorov 1965]. A formulazioni simili, nel medesimo periodo, giunsero anche R.
J. Solomonoff e G. J. Chaitin. Per ulteriori notizie storiche, vedi Li e Vitányi 2008, 95-98.
8
per ciò che segue cfr. [Li e Vitányi 2008, 102-107].
6
31
Definizione 4.4 (Ottimalità additiva). Sia Γ un sottoinsieme dell’insieme
delle funzioni parziali ricorsive (metodi di descrizione) φ : 2<ω → 2<ω . Una
funzione parziale ricorsiva φ è detta additivamente ottimale per Γ se:
1. φ ∈ Γ
2. ∃ cφ,ψ tale che: Cφ (x) ≤ Cψ (x) + cφ,ψ
, ∀ψ ∈ Γ , ∀x ∈ 2<ω
Ovvero se esiste una costante c (indipendente da x) per cui la complessità
di x (comunque preso) rispetto al metodo di descrizione φ in Γ è minore o
uguale alla complessità rispetto ad un altro qualsiasi metodo ψ in Γ.
Giunti a questo punto ci si può chiedere se sia possibile in qualche modo svincolarsi dalla restrizione dell’ottimalità (che si ricorda essere comunque
un’ottimalità additiva) rispetto a Γ. Ci si chiede cioè se sia possibile richiedere
un’ottimalità rispetto a qualsiasi funzione parziale ricorsiva. È da sottolineare come tale richiesta sia rilevante per poter definire la complessità di una
stringa come “qualità intrinseca” della stringa stessa. Un’ottimalità universale consentirà di definire la complessità di una stringa come una misura
“assoluta” e oggettiva. Ecco quindi il Teorema di invarianza, che fornisce una
risposta alla nostra richiesta.
Teorema 4.3.1 (Teorema di invarianza). Esiste una funzione parziale ricorsiva universale additivamente ottimale.
Dimostrazione. La dimostrazione9 si basa sostanzialmente sull’esistenza di
una enumerazione effettiva.
Sia ν la funzione computata da una macchina di Turing universale U .
Stabiliamo come l’input di ν < i, δ > debba essere codificato. Rappresentiamo i con 1i 0 ovvero con una stringa di un numero i di 1 seguita da
uno 0. Poniamo quindi < i, δ > codificato con la stringa 1i 0δ. In questo
modo abbiamo codificato le due variabili dela funzione ν(i, δ) (tra l’altro i è
un numero, non una stringa) ad una variabile sotto forma di stringa binaria.
La funzione parziale ricorsiva universale ν(i, δ) è quindi quella funzione
che da 1i 0δ computa φi (δ).
Possiamo quindi porre la costante additiva cν,φi = i + 1, verificando
l’ottimalità additiva:
sia Cφi (σ) = l(δ),
Cν (σ) = Cφi (σ) + i + 1
in quanto:
l(1i 0δ) = l(δ) + 1 + i
9
Prova del Teorema 4 [Eagle 2010, Supplemento C].
32
Tale funzione sarà chiamata asintoticamente ottimale 10 poiché al crescere
di Cφi (σ), cν,φi diviene sempre sempre più trascurabile. Cioè: all’aumentare
infinito di l(δ), il rapporto tra l(1i 0δ) e l(δ) tende a 1.
Possiamo quindi definire la complessità (assoluta):
Definizione 4.5 (Complessità (di Kolmogorov)). Chiamiamo complessità
(di Kolmogorov) di una stringa σ, scritta C(σ), la complessità di σ rispetto
ad un metodo di descrizione (funzione parziale ricorsiva) asintoticamente
ottimale, chiamata funzione di riferimento. Ossia: C(σ) := Cν (σ), con ν
asintoticamente ottimale.
4.4
Stringa random (incompressibile)
Avendo definito la complessità di una stringa, possiamo passare alla definizione
di stringa random (Kolmogorov). L’intuizione che ci guidava era che le
stringhe random non devono essere facilmente descritte, ovvero avere un’alta complessità. Ma qual è un valore ragionevole che indica “un’alta complessità”?
L’idea fondamentale è che se la complessità di una stringa (la lunghezza
della descrizione più breve) è pari alla lunghezza della stringa stessa, allora la
descrizione (la stringa da cui il metodo di descrizione restituisce la stringa da
descrivere) non è sostanzialmente diversa dalla stringa stessa, ovvero, detto
più esplicitamente è è la stringa stessa la più breve descrizione di sé stessa.
In questo caso la stringa è detta incompressibile. L’intuizione quindi, avendo
dato un significato ad “alta complessità”, si traduce in: una stringa è random
se è incompressibile.
Possiamo quindi dare la definizione di stringa random, dopo aver fatto
la seguente osservazione. In un certo senso sarebbe artificioso affermare che
la lunghezza della stringa costituisca un criterio per la separazione netta tra
random è non-random, ovvero tra incompressibile e compressibile. Sembra
opportuno quindi introdurre nella definizione una costante (arbitraria) che
comporti un certo intervallo di compressibiltà.
Definizione 4.6 (Stringa c-random). Una stringa σ ∈ 2<ω è c-random se è
c-incompressibile, ovvero:
se, stabilito un margine di incompressibiltà c,
C(σ) ≥ l(σ) − c
10
cfr. [Eagle 2010, sottosezione 2.2.1].
33
Avendo ottenuto la definizione desiderata possiamo passare alla conclusione, in cui sarà recuperato il senso di quanto finora svolto.
34
Capitolo 5
Conclusione
5.1
Tipicalità e incompressibilità
Abbiamo ottenuto due definizioni di randomness: una per le sequenze, una
per le stringhe. Possiamo chiederci se tali definizioni abbiano o meno relazioni
fra loro. Concettualmente si collocano in ambiti ben diversi: la tipicalità è
un’idea legata al concetto di misura, riguardante cioè insiemi, l’incompressibilità invece riguarda invece descrizioni e rispettive lunghezze, cioè è legata
ad oggetti individuali.
Nel capitolo introduttivo però le idee di straordinarietà e regolarità erano
strettamente collegate: se una sequenza è regolare allora è straordinaria.
Riusciamo ancora a metterle in relazione?
5.1.1
Relazione nel caso delle stringhe
Un importante fatto (che si presenta senza dimostrazione) è che per ogni
margine di incompressibilità c > 1 la maggior parte delle stringhe di lunghezza
n sono c-incompressibili 1 . Quantitativamente, la proporzione tra stringe cincompressibili di lunghezza n e stringhe totali (di lunghezza n) è: 1 − 2−c
(in realtà sarebbe 1 − 2−c + 2−n , ma è utile pensare che n, sia “molto grande”
e dunque 2−n sia trascurabile).
La compressibilità, che corrisponde alla presenza di regolarità nella stringa,
comporta dunque la definizione di un insieme ristretto, ovvero la straordinarietà.
1
[Li e Vitányi 2008, 116-117].
35
5.1.2
Relazione nel caso delle sequenze
Fatto rilevante è la possibilità di estendere il concetto di incompressibilità alle
sequenze. Per una tale operazione si ricorre ad una modifica della definizione
di complessità. Si tratta comunque di una modifica “naturale” 2 : l’idea è
quella di utilizzare come descrizioni solo quelle derivate da una codifica che
risulti priva di prefissi, ovvero utilizzare descrizioni tali che appartengano a
B ⊂ 2<ω in cui non si dà mai il caso per cui esista una stringa prefisso σ tale
che α = σδ (σ, δ, γ ∈ B)3 .
Denotata con K(σ) questo nuovo tipo di complessità, ridefiniamo il concetto di stringa random secondo l’incompressibilità4 : la stringa σ è random
se K(σ) ≥ |σ|.
Si definisce poi una sequenza random (denotandola con “K-random”, per
distinguerla da quella definita nel Capitolo 3) nel seguente modo5 : chiamiamo sequenza random le sequenze in cui tutti i segmenti (finiti) iniziali
sono random (rispetto alla complessità K).
Il risultato fondamentale di questa estensione è il seguente teorema (dimostrazione omessa):
Teorema 5.1.1 (Teorema di Schnorr).
Löf) se e solo se è K-random.
6
Una sequenza è random (Martin-
Si tratta di un risultato che lega in modo molto forte le nozioni di tipicalità
e compressibilità: gli insiemi delle sequenze random definiti nei due modi
coincidono.
5.2
Conclusione/1
Considerando i paradigmi della tipicalità e compressibilità, e le primissime
intuizioni di straordinarietà e regolarità, possiamo dire:
1. Nel caso delle stringhe è stato confermato che la regolarità definita
attraverso la complessità implica la non straordinarietà (le stringhe
non compressibili sono più numerose di quelle compressibili).
2. Nel caso delle sequenze è stata invece dimostrata perfino un’equivalenza. La definizione basata sulla tipicalità equivale a quella basata sulla
2
[Eagle 2010, sottosezione 2.2.2].
[Li e Vitányi 2008, 13].
4
[Li e Vitányi 2008, 212]; cfr. [Dasgupta 2010, 44].
5
[Li e Vitányi 2008, 197].
6
[Eagle 2010, sezione 2.3].
3
36
compressibilità. Nelle sequenze la regolarità equivale alla straordinarietà.
Le intuizioni, meno definite, di straordinarietà e regolarità descritte nel
primo capitolo sono quindi mantenute nella loro relazione anche nella formulazione con i paradigmi di tipicalità e compressibilità attraverso i concetti di
teoria della misura e complessità algoritmica.
Possiamo quindi dire sia che abbiamo ottenuto una adeguata concettualizzazione di sequenza/stringa random, rispondente alle nostre intuizioni, sia
che le nostre intuizioni erano buone intuizioni, in grado cioè di condurre ad
affermazioni non contrastanti fra loro.
5.3
Una possibile separazione
Supponiamo di avere una moneta “truccata”, cioè che “favorisce” un esito
rispetto ad un altro. Immaginando tutte le possibili sequenze originate da
tale moneta riteniamo che l’insieme per cui la frequenza relativa degli 1 sia
uguale a 1/2 non possa avere misura 1, perché altrimenti significherebbe che
la moneta non è “truccata”.
Infatti la legge forte di Borel è stata (qui) definita rispetto alla misura
µ(Λσ ) = ( 12 )|σ| , e tale misura, era stato detto, corrisponde al lancio di una
moneta ben bilanciata.
La nostra definizione di sequenza random nel Capitolo 3 è stata sempre
sottointesa questa misura. Altrimenti, non si sarebbe infatti potuti arrivare
all’equivalenza detta dal Teorema di Schnorr: se la frequenza relativa fosse
diversa da 1/2, la sequenza sarebbe infatti compressibile in quanto si potrebbero sfruttare per la codifica i blocchi del simbolo “favorito”, blocchi che
verebbero a formarsi proprio perché la frequenza relativa per quel simbolo
possa essere maggiore di 1/2 7 .
La moneta “truccata” ci costringe dunque a dover considerare misure
diverse da quella utilizzata.
La definizione di sequenza random di Martin-Löf è estendibile anche ad
altre misure diverse da quella qui utilizzata8 . Non è possibile fare lo stesso
per la complessità9 . Se la moneta è truccata allora vi sono sequenze random
secondo Martin-Löf (dopo l’estensione) che non sono random dal punto di
vista dell’incompressibilità. Si potrebbe quindi parlare di un caso speciale il
7
[Eagle 2010, section 4.3]. Sull’esigenza di dover modificare la definizione di complessità
perché possa rendere conto della moneta truccata vedi: [Earman 1986, 143].
8
Per l’estensione ad una misura arbitraria vedi [Downey e Hirschfeldt 2010, 263].
9
[Earman 1986, 144].
37
caso in cui vale il Teorema di Schnorr, e quindi di una generale incompatibilità
tra le due definizioni.
Avrebbe però davvero senso tale estensione? Dal nostro punto di vista,
no. Un tale tipo di affermazione infatti comporterebbe un tipo di divisione
concettuale che non può essere sostenuta se si vuol rimanere aderenti alla
data definizione della questione.
Osserviamo di che divisione si tratta:
[...] there is a concept of randomness and a separable concept of
disorder. The concept of disorder is an intrinsic notion; it takes
the sequence at face value, caring nothing for genesis, and asks
wheter the sequence laks pattern. [...] By contrast, the concept
of randomness and the concept of randomness is concerned with
genesis; it does not take the sequence at face value but asks wheter
the sequence mirrors the probabilities of the process of which
it is a product. There is a connection between this concept of
randomness and the concept of disorder, but it is not a tight
one. The various explications of randomness for infinite sequences
guarantee the absence of pattern, but not in as strong a sense as
the computational complexity approach [...]
[Earman 1986, 145]
Non è però per noi ammissibile che una parte della nozione di randomness
che abbiamo definito finisca al di fuori dell’ambito in cui esplicitamente doveva ricadere: la «randomness» non può cadere nell’ambito della «genesis». La
soluzione al problema consiste quindi nel mostrare che il problema non è un
reale problema, in relazione alla definizione della questione.
La nostra assunzione della misura µ(Λσ ) = ( 21 )|σ| è stata messa in relazione intuitiva alla situazione in cui la sequenza è originata da infiniti lanci
di moneta ben bilanciata. La moneta ben bilanciata serviva solo a rendere
più viva l’intuizione riguardante le caratteristiche della sequenza. In nessun
modo è stata assunta come giustificazione della definizione della misura utilizzata. In questo modo abbiamo eliminato il problema della moneta “truccata”,
ribadendo che la nostra nozione deve rimanere estranea alla «genesis».
Rimane però da spiegare il motivo della definizione della misura proprio
come µ(Λσ ) = ( 12 )|σ| . Si tratta di un motivo combinatorio, che, si sottolinea, è
logicamente indipendente rispetto a nozioni probabilistiche che si applichino
al mondo («probabilities of the process»). Date dunque le sequenze binarie,
metà di esse comincerà per 0, metà per 1. Metà delle sequenze che cominciano
per 0 continuerà con uno 0, l’altra metà con uno 1, e così via. Le nostre
sequenze sono solo disposizioni binarie di lunghezza infinita.
38
In questo modo abbiamo chiarito come la nostra assunzione di misura
dipenda esclusivamente da considerazioni combinatorie, puramente riguardanti stringhe. Così è eliminata anche la possibilità di estendere la definizione
di Martin-Löf a misure diverse: rimanendo legati alla sequenza binaria come
pura sequenza di simboli la misura che ragionevolmente si assume è quella
indicata dalle ragioni combinatorie.
Non avendo dunque ragioni per estendere la definizione di Martin-Löf
a misure diverse, il problema della separazione delle definizioni di sequenze
random non si pone.
5.4
Conclusione/2
La possibile separazione ci ha costretti a mettere in luce il fatto che la misura
deve essere specificata a priori. Esistono buone ragioni perché la misura
debba essere scelta nel modo in cui è stata qui scelta.
Tuttavia, in conclusione, si potrebbe desiderare definire l’idea di randomness con un unico concetto. In tal caso la scelta ricadrebbe ragionevolmente sul concetto di incompressibilità definito tramite la complessità di
Kolmogorov. Ciò sostanzialmente per la ragione: è l’unico dei due che abbiamo definito che sia applicabile tanto al caso finito quanto a quello infinito
(ed ha quindi la generalità richiesta). Si può dire inoltre (poiché comunque
si potrebbe obiettare che è l’unico applicabile ad entrambi i casi solo relativamente a questo luogo) che esso non richiede considerazioni “esterne”: esso
comprende nella propria definizione tutto ciò che è necessario al suo impiego.
Esso inoltre ci permette di pensare la randomness in relazione al “contenuto di informazione”. Associando infatti la complessità di un oggetto alla
quantità di informazione da esso contenuto, possiamo considerare un oggetto
random come un oggetto che contiene “molta” quantità di informazione. Ciò
che è adesso solo un vago accenno può essere un’indicazione per lo studio
della randomness in quanto caratteristica di una serie di simboli nell’ambito
più generale della teoria dell’informazione, dalle cui assunzioni, in risposta
ad alcune particolari esigenze, si potrebbero individuare altre precisazioni
riguardo al concetto di randomness.
39
Bibliografia
Bibliografia nominata
[1] [Church 1940] A. Church: On the Concept of a Random Sequence, in
bulletin of the american mathematical society, 46 (130–135),
1940.
[2] [Dasgupta 2010] A. Dasgupta: Mathematical foundations of randomness
(preprint), 2010. [Reperibile in http://dasgupab.faculty.udmercy.edu]
[3] [Downey e Hirschfeldt 2010] R. G. Downey e D. R. Hirschfeldt:
Algorithmic Randomness and Complexity, Spinger, New York, 2010.
[4] [Eagle 2010] A. Eagle:
Chance versus Randomness,
Encyclopedia of Philosophy, 2010.
Stanford
[5] [Earman 1986] J. Earman: A primer on determinism, Reidel Publishing
Company, Dordrecht, 1986.
[6] [Kolmogorov 1965] A. N. Kolmogorov: Three approaches to the definition of the notion of amount of information, in Problemy Peredachi
Informatsii, 1 (3–11); anche in selected works of a. n.
kolmogorov, volume III, Kluwer Academic Publishers, Dordrecht,
1993.
[7] [Laplace 1826] P.-S. de Laplace: Saggio filosofico sulle probabilità, trad.
it. Theoria, Roma, 1987.
[8] [Li e Vitányi 2008] M. Li e P. Vitányi: An introduction to Kolmogorov
Complexity and Its Applications, Springer, New York, 20083 .
[9] [Martin-Löf 1966] P. Martin-Löf: The definition of Random Sequences,
in information and control, 9 (602-619), 1966.
40
[10] [Rogers 1967] H. Rogers: Theory of recursive functions and effective
computability, McGraw-Hill, New York, 1967.
[11] [van Lambalgen 1987] M. van Lambalgen: Random sequences, PhD
Thesis, 1987. [Reperibile in http://staff.science.uva.nl/∼michiell/]
[12] [von Mises 1957] R. von Mises: Probability, Statistics and Truth, Dover,
New York, 1981 (ripubblicazione).
[13] [von Mises/Geiringer 1964] R. von Mises e H. Geiringer: Mathematical
theory of probability and statistics, New York: Academic Press, 1964.
Altra bibliografia
[14] J.-P Delahaye: Randomness, Unpredictability and Absence of Order,
in philosophy of probability, Jacques-Paul Dubucs, Dordrecht:
Kluwer, 1993.
[15] P. Grünwald e P. Vitányi: Algorithmic complexity, in philosophy
of information (Handbook of the Philosophy of science volume 8),
Elsevier, 2008.
[16] A. N. Kolmogorov:
- On tables of random numbers (1963),
- To the logical foundations of the theory of information and
probability theory (1969),
- The combinatorial foundations of information theory and the
probability calculus (1983),
in selected works of a. n. kolmogorov, volume III, Kluwer
Academic Publishers, Dordrecht, 1993.
[17] M. Li e P. Vitányi: Philosophical Issues in Kolmogorov Complexity, in
lecture notes in computer science, Volume 623 (1-15), 1992.
[18] G. Shafer e V. Vovk: Kolmogorov’s contributions to the foundations of
probability, “Working Paper” per the game-theoretic probability and finance project (http://www.probabilityandfinance.com),
2003.
41
Indice
1 Introduzione
1.1 Primo contatto . . . . . . . . . . . . . . . . .
1.1.1 Introduzione . . . . . . . . . . . . . . .
1.1.2 Esposizione della questione . . . . . . .
1.2 Definizione della questione, terminologia . . .
1.3 Linea per lo sviluppo . . . . . . . . . . . . . .
1.4 Teoria della misura . . . . . . . . . . . . . . .
1.5 Computabilità . . . . . . . . . . . . . . . . . .
1.5.1 Introduzione . . . . . . . . . . . . . . .
1.5.2 Macchina di Turing . . . . . . . . . . .
1.5.3 Dalla macchina di Turing alla funzione
siva di interi . . . . . . . . . . . . . . .
1.5.4 Enumerazione effettiva . . . . . . . . .
1.5.5 Macchina di Turing universale . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
parziale ricor. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
2 Von Mises
2.1 Introduzione . . . . . . . . . . .
2.2 L’assiomatizzazione . . . . . . .
2.2.1 Definizione di collettivo .
2.2.2 Significato del collettivo
2.3 Consistenza del collettivo . . . .
2.3.1 Wald . . . . . . . . . . .
2.3.2 Church . . . . . . . . . .
2.4 Ville . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
15
16
17
18
19
20
.
.
.
.
.
22
22
23
23
24
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Tipicalità
3.1 Introduzione . . . . . . . . . . . . . . . . . .
3.1.1 Riformulazione . . . . . . . . . . . .
3.2 Leggi probabilistiche . . . . . . . . . . . . .
3.2.1 Legge forte di Borel . . . . . . . . . .
3.2.2 Normalità (di una sequenza binaria)
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
4
4
6
6
8
8
9
. 10
. 12
. 12
3.3
3.2.3 Oscillazioni simmetriche . . . .
3.2.4 In generale . . . . . . . . . . . .
Martin-Löf . . . . . . . . . . . . . . . .
3.3.1 Introduzione . . . . . . . . . . .
3.3.2 Misura effettiva . . . . . . . . .
3.3.3 Sequenza random (Martin-Löf)
4 Incompressibilità
4.1 Introduzione . . . . . . . . . . . .
4.2 Descrizione . . . . . . . . . . . .
4.3 Complessità . . . . . . . . . . . .
4.4 Stringa random (incompressibile)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Conclusione
5.1 Tipicalità e incompressibilità . . . . . . .
5.1.1 Relazione nel caso delle stringhe .
5.1.2 Relazione nel caso delle sequenze
5.2 Conclusione/1 . . . . . . . . . . . . . . .
5.3 Una possibile separazione . . . . . . . .
5.4 Conclusione/2 . . . . . . . . . . . . . . .
Bibliografia
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
26
26
26
28
.
.
.
.
29
29
30
31
33
.
.
.
.
.
.
35
35
35
36
36
37
39
40
43