Sequenze e stringhe random: Tipicalità e compressibilità
Transcript
Sequenze e stringhe random: Tipicalità e compressibilità
Colloquio di passaggio d’anno a.a. 2010/2011 sequenze e stringhe random tipicalità e compressibilità Autore: David Baldi Relatore: dott. Hykel Hosni Capitolo 1 Introduzione 1.1 Primo contatto 1.1.1 Introduzione Da un sacchetto contenente molte tessere ne estraiamo a sorte, disponendole ordinatamente, 14. Ciascuna delle tessere del sacchetto porta incisa una lettera dell’alfabeto, ed ogni lettera compare su un numero uguale di tessere. Osserviamo ora che le tessere estratte, disposte nell’ordine di estrazione, formano la parola COSTANTINOPOLI. Noi allontanati, arriva Piersimone, vede le tessere, rimane un po’ perplesso e comincia a ragionare per ipotesi: Immaginiamo di vedere su un tavolo dei caratteri di stampa disposti in questo ordine: COSTANTINOPOLI. Riterremmo certamente che tale ordine non è il frutto del caso, ma non in quanto esso sia meno possibile degli altri; infatti se quella parola non fosse usata in nessuna lingua, sarebbe assurdo attribuirle una causa particolare; ma, poiché essa è in uso presso di noi, è infinitamente più probabile che sia stata composta così da una persona piuttosto che dal caso. [Laplace 1826, 33] Piersimone non sa che le tessere sono state estratte a sorte e che quella particolare disposizione è una produzione del tutto occasionale. Egli si domanda sulla origine di tale disposizione, la questione a cui dà risposta è: è più verosimile che la scritta abbia origine intelligente o che essa sia frutto del caso? Riesponiamo la questione. Ci è fatta vedere una sequenza di 0 e 1 , e ci è garantito che una delle due è vera: 1 1. la sequenza rappresenta la registrazione di consecutivi di lanci di una moneta ben bilanciata (0 e 1 possono essere letti cioè come quelli che abitualmente sono Testa e Croce – che la moneta sia ben bilanciata vuol dire invece che la moneta è perfettamente omogenea e non “favorisce” nessuno dei due risultati.) 2. la sequenza rappresenta un messaggio in codice. Il nostro scopo è cercare di comprendere quale tipo di “causa” (in senso generico) è all’origine della sequenza, senza avere altra informazione che la sequenza stessa. Che cosa possiamo pensare al riguardo? L’intuizione ci suggerisce la seguente idea guida (in riferimento all’esempio): se osserviamo delle regolarità, dei particolari schemi di 0 e 1 ricorrenti nella sequenza, allora possiamo essere propensi ad affermare che la sequenza possa essere un messaggio in codice (assumendo che in un linguaggio in generale ci debbano essere regolarità). Voler affermare qualcosa sulla causa della sequenza, partendo solo dalla sequenza, potrebbe essere però troppo azzardato. Possiamo cambiare il nostro scopo e dire semplicemente: vogliamo decidere se interessarci ad uno studio approfondito della sequenza (assumiamo che lo studio di un messaggio in codice sia interessante mentre un resoconto di esiti di lanci di moneta no). In realtà l’idea guida rimane comunque inalterata nella sostanza: se osserviamo dei particolari schemi, allora è ragionevole ritenere interessante uno studio più approfondito della sequenza, in quanto gli schemi ci fanno propendere a ritenere la sequenza un messaggio in codice. Ciò che ci guida è dunque sempre l’opinione che la presenza di schemi possa rivelare la sequenza come messaggio in codice. Il cambiamento di scopo è tuttavia utile per l’inquadramento di ciò che verrà sviluppato: infatti non sarà qui trattata la giustificabilità dell’affermazione riguardo alla sequenza come codice a partire dalla osservazione della sequenza stessa. Lo spostare l’affermazione all’ambito del nostro comportamento risponde al fine di comprendere meglio da quale caratteristica della sequenza la nostra opinione sia influenzata, a prescindere dalla sostenibilità di tale opinione. Proseguiamo ancora con Laplace. Perché l’individuazione di schemi dovrebbe spingerci ad un’ulteriore analisi? Se cerchiamo una causa là dove scorgiamo una simmetria, non è perché riteniamo che un evento simmetrico sia meno possibile degli altri, ma perché, dovendo tale avvenimento essere l’effetto di una causa regolare o del caso, consideriamo la prima supposizione 2 più probabile della prima. [Laplace 1826, 33] E perché consideriamo «la prima supposizione più probabile della prima», ovvero, perché crediamo che una «simmetria» possa essere indice di non-casualità? Rispondiamo a questa domanda introducendo l’idea di straordinarietà: È giunto il momento di definire la parola straordinario. Il pensiero organizza tutti i possibili eventi in classi diverse e considera straordinari quelli delle classi che ne contengono pochissimi. [Laplace 1826, 33] E dunque: Così al gioco di T esta o Croce considereremo straordinaria l’uscita di Croce cento volte di seguito perché, dividendo il numero praticamente infinito delle combinazioni che possono verificarsi in 100 lanci, in serie regolari o rette da un ordine ben visibile, e in serie irregolari, queste ultime sono incomparabilmente più numerose. [Laplace 1826, 33] Cioè: dal «caso» ci aspettiamo «l’uscita» di esiti non straordinari (sottolineamo di nuovo che non è qui tematizzata la liceità di tale aspettativa né il suo corretto utilizzo in un ragionamento induttivo). Rispondendo alla domanda precedente: la simmetria comporta la straordinarietà e la straordinarietà mette in questione la “casualità” che è stata ora associata con la non straordinarietà. Riassumendo: 1. da un prodotto del «caso» ci aspettiamo che non sia straordinario, 2. la straordinarietà consiste, per un insieme di oggetti in generale, nell’essere poco numerosi, 3. la regolarità comporta la straordinarietà (le combinazioni regolari sono meno delle irregolari), 4. il riconoscimento della straordinarietà, o l’individuazione di regolarità, ci inducono a scegliere come idea guida l’idea che un dato prodotto non sia stato prodotto dal «caso». 3 1.1.2 Esposizione della questione Chiamiamo “casuale” una sequenza che riteniamo essere stata prodotta dal «caso». Osservando una sequenza del genere: 0101010101010101010101, riterremmo credibile chi ci dicesse averla ottenuta lanciando una moneta? Diciamo di no: non la riteniamo essere stata prodotta dal «caso». Assumendo che tale sequenza sia stata invece effettivamente ottenuta da lanci di moneta, comprendiamo che possiamo distinguere due concetti di “casualità”. Mantenendo il riferimento alla moneta: un concetto riguarda l’aspettativa su ciò che è prodotto del «caso», l’altro riguarda l’effettività dell’essere prodotto del «caso». Finora la sequenza di 0 e 1 è stata messa esplicitamente in una relazione di rappresentatività rispetto a qualche cosa di diverso da essa. Possiamo però osservare che ogni aspettativa su una serie di lanci di moneta si traduca semplicemente in una aspettativa sulla sequenza di 0 e 1 che la rappresenta. Come nel nostro esempio, l’individuazione di regolarità avviene come semplice individuazione di schemi di simboli. Quindi, astraendo dalla sequenza di simboli come rappresentante una sequenza di risultati: ciò che si vuol cercare qui di chiarire è quella “casualità” che pertiene alla sequenza in quanto tale, indipendentemente dalla sua genesi ed indipendentemente dal significato dei simboli in essa. Se diciamo una sequenza essere casuale è perché essa lo è a prescindere dal fatto che i simboli in essa stiano a rappresentazione di una qualsiasi altra cosa (ciò nonostante converrà talvolta, a beneficio dell’intuizione, ricordare comunque che tali simboli debbano poter esprimere una qualche altra cosa). 1.2 Definizione della questione, terminologia Appare chiaro che si può definire la “casualità” di una sequenza di simboli rappresentanti risultati di un processo indipendentemente dalla “casualità” del processo stesso. Se così non fosse sarebbe privo di senso cercare di inferire dalla prima la seconda (la legittimità di tale inferenza non è oggetto di trattazione). E se davvero v’è questa indipendenza, allora si può semplicemente considerare la sequenza di simboli indipendentemente dalla loro rappresentatività. Consideriamo quindi: adsgs15sSHP 0 + sP Sf es... 01001110100101000110... 4 Sono “casuali”? È una domanda a cui è difficile trovare una risposta senza avere qualche perplessità: non si conoscono infatti i simboli che possono apparire. Innanzitutto occorre definire un alfabeto (A) di riferimento, ovvero un insieme finito di simboli di cui saranno costituite le sequenze. Stabiliamo inoltre una differenziazione terminologica. Chiamiamo sequenza una successione infinita di xi ∈ A, scritta x =< x1 , x2 , ..., xn , ... > o, più brevemente, x = x1 x2 ... ; stringa (o parola) una successione finita. Denotiamo quindi con Aω l’insieme delle sequenze, con A<ω l’insieme di tutte le stringhe. Chiamiamo inoltre randomness la “casualità” che pertiene alle sequenze o alle stringhe. Stringhe o sequenze “casuali” verranno convenientemente dette random. Il nostro obiettivo sarà quindi di dare un’adeguata concettualizzazione alla nozione di randomness, quindi rispondere alle seguenti domande: fissato A alfabeto, 1. Cosa significa che una sequenza è random? 2. Cosa significa che una stringa è random? Ma soprattutto, dalla enventuale interazione delle due domande, che cosa può emergere? In particolare: le risposte che verranno date per ciascuna domanda, sono consistenti fra loro? Ed a quali eventuali condizioni restrittive? Un accordo fra le due risposte potrà indicarci di aver ottenuto una buona soluzione sia per l’una che per l’altra domanda. Eventuali restrizioni, evidenziando l’esigenza di assunzioni altrimenti non ritenute fondamentali, potranno fornire un suggerimento in grado di indirizzarci verso la scelta di un unico e semplice concetto sotto cui poter collocare sia le sequenze sia le stringhe random. Altra simbologia ricorrente Sia A = {0, 1} alfabeto binario. Denoteremo A con 2, e dunque con 2ω l’insieme delle sequenze binarie, con 2<ω l’insieme delle stringhe binarie Sia σ una stringa, denoteremo la sua lunghezza con |σ| o l(σ). Sia x una sequenza o stringa qualunque costituita da elementi di A, denoteremo con xi ∈ A l’elemento di x situato all’i-esimo posto. Chiameremo ciascun xi di una sequenza binaria bit. 5 1.3 Linea per lo sviluppo Si propone il modo in cui si cercherà di dare risposta alle precedenti domande. Capitolo 2 Storicamente, il primo a dedicare attenzione alle sequenze random è stato R. von Mises nella ricerca riguardo alla fondazione della teoria della probabilità. Non sarà per noi un supporto adeguato sia per un preciso risultato di J. Ville, sia per il legame con la definizione di probabilità, per il nostro obiettivo, non necessaria. Capitolo 3 Lasciato von Mises, si giungerà alla definizione di randomness per una sequenza secondo quello che è il paradigma della tipicalità. L’intuizione dice qui che le sequenze random sono “molte”, e fra loro non differenziabili per qualche attributo o proprietà speciali. Il risultato decisivo sarà di P. Martin-Löf. Capitolo 4 Raggiunta una soddisfacente definizione per una sequenza random, si passerà alle stringhe. Il paradigma è qui la compressibilità. L’intuizione dice qui che le stringhe random sono “disordinate, irregolari”, quindi non descrivibili con un qualche metodo che sia sostanzialmente più economico rispetto alla scrittura della stringa stessa (non possono cioè essere “compresse”). La compressibilità ci porta nell’ambito della complessità algoritmica (informazione algoritmica, complessità descrittiva), per cui riferimento storico sarà A. N. Kolmogorov. Capitolo 5 Sarà estesa la definizione ottenuta nel Capitolo 4 alle sequenze per dimostrarne, con un fondamentale teorema di C.-P. Schnorr, l’equivalenza alla definizione ottenuta nel Capitolo 3. Alcune osservazioni, sottolineando le assunzioni della definizione secondo la tipicalità, metteranno però in discussione la piena equivalenza, conducendo alla scelta della randomness definita con Kolmogorov come maggiormente adeguata a rappresentare l’intuizione di randomness. Così facendo giungeremo ad un importante risultato: la possibilità di un ripensamento della randomness luce del concetto di informazione alla base della definizione della complessità di Kolmogorov. 1.4 Teoria della misura Si presentano1 gli oggetti che verranno utilizzati nel Capitolo 3. 1 [Dasgupta 2010, 11-12]. 6 Definizione 1.1 (Insieme base). Chiamiamo insieme base un insieme Λσ (⊆ 2ω ) costituito dalle sequenze in 2ω che iniziano con σ ∈ 2<ω . (Tale insieme è detto anche cilindro.2 ) Definizione 1.2 (Insieme aperto). Chiamiamo insieme aperto un insieme G costituito da un’unione di insiemi base. Teorema 1.4.1 (Scomposizione univoca degli insiemi aperti). Un insieme base è detto massimamente contenuto nell’insieme aperto G se: Λσ ⊆ G ma Λγ 6⊆ G per ogni segmento iniziale γ di σ. Ogni insieme aperto G è scomponibile in modo univoco in una unione di insieme base disgiunti massimamente contenuti in G. Dimostrazione. Omessa. Definizione 1.3 (Misura (di probabilità) di un insieme aperto). Definiamo la misura di probabilità o semplicemente misura di un insieme aperto in due passaggi. 1. Definiamo la misura di un insieme base Λσ (µ(Λσ )): µ(Λσ ) := 2−|σ| 2. definiamo la misura di un insieme aperto G (µ(G)), scomposto negli insiemi base massimamenti contenuti Λσ1 , Λσ2 , ..., Λσn : µ(G) := n X µ(Λσi ) i=1 Definizione 1.4 (Misura zero). Un insieme E ha misura 0 (µ(E) = 0) se: 1. esiste una sequenza infinita di insiemi aperti G1 , G2 , ... ciascuno contenente E, 2. per qualsiasi i, µ(Gi ) = 1/i Un tale insieme è detto insieme nullo. Teorema 1.4.2 (Insiemi nulli). Si presentano alcuni fatti rilevanti. 1. Per ciascun x ∈ 2<ω , {x} è nullo. 2 [Li e Vitányi 2008, 263]. 7 2. (I) L’unione numerabile di insiemi nulli è un insieme nullo. (II) Tutti gli insiemi numerabili sono nulli. 3. Esistono infiniti non-numerabili insiemi nulli. Dimostrazione. Omessa. Definizione 1.5 (Insieme misurabile, misura del complemento). Un insieme E ⊆ 2ω si dice misurabile se per ogni > 0 esiste un insieme aperto G contenente E e un insieme aperto H contenente la differenza G \ E con µ(H) < . La misura del complemento di X insieme misurabile è data da: µ(CX ) = 1 − µ(X). Teorema 1.4.3 (Legge 0-1 di Kolmogorov). Si presenta un importante risultato che verrà utilizzato in esplicito riferimento alle sequenze random. Per qualsiasi X ⊆ 2ω misurabile, se date x, y ∈ 2ω che differiscono per un numero finito di bit si ha che x ∈ X equivale a y ∈ X, allora: X ha misura 0 oppure 1. Dimostrazione. Omessa. 1.5 Computabilità Si presentano oggetti che verranno utilizzati nei Capitoli 4 e 5. 1.5.1 Introduzione Abbiamo, in generale, l’intuizione riguardo alla determinabilità effettiva di una funzione. Una funzione è effettivamente determinabile, ovvero computabile, se esiste una procedura effettiva, detta algoritmo, che, a partire dall’argomento, ci conduca al valore della funzione. Intuitivamente possiamo dire che le caratteristiche che un algoritmo deve avere sono3 : 1. Un algoritmo si applica ad una certa stringa di simboli e restituisce una certa stringa di simboli. 2. Un algoritmo è un insieme finito di istruzioni. 3. Ogni istruzione determina in modo univoco la computazione. 3 cfr. [Rogers 1967, 1-2]. 8 È importante distinguere fra algoritmi, che sono procedure, e funzioni computabili da algoritmi, i cui valori sono prodotti di procedure4 . Più algoritmi possono corrispondere ad una medesima funzione. La distinzione si fa più evidente se si considera le funzioni computabili come mappe da numeri naturali a numeri naturali, mentre gli algoritmi come procedure che conducono da notazioni (per numeri naturali) a notazioni (per numeri naturali)5 . È tuttavia possibile un’identificazione fra numeri e espressioni: dato A<ω insieme di stringhe (con A finito) è sempre possibile enumerare tali stringhe (ad esempio in ordine lessicografico), metterle cioè in corrispondenza biunivoca con in numeri naturali. Tale identificazione è importante alla luce del linguaggio che verrà utilizzato in seguito (ad esempio nella Tesi di Church), e nella definizione di “funzione computabile” a partire da quella di “algoritmo”. Comunque, la questione del rapporto tra numeri naturali (oggetti matematici) e numerali (oggetti simbolici) non è fondamentale in questa trattazione6 . L’approccio sarà il seguente: sarà dapprima data formalizzazione alla nozione di algoritmo, in conseguenza di ciò verrà data la controparte formale della nozione di funzione computabile da algoritmi. 1.5.2 Macchina di Turing Formalizziamo la nozione di algoritmo defininendolo come una macchina di Turing. Descriviamo una macchina di Turing nel seguente modo7 : una macchina di Turing T consiste in un programma finito che agisce, sotto forma di meccanismo di controllo dotato di una testina di lettura/scrittura, su un nastro suddiviso in celle. Le celle sono ordinate da sinistra verso destra. Ciascuna cella contiene un simbolo dell’alfabeto finito A, nel nostro caso A = {0, 1, B} (B è il simbolo che segnala che la casella è “vuota”, “bianca”). Il meccanismo di controllo è inoltre dotato di un numero finito stati interni q ∈ Q (possiamo pensarli per analogia come “stati mentali”). Il tempo è discreto, ordinato quindi in turni t0 , t1 , ... ; t0 è il tempo iniziale. In ogni tempo la testina è posizionata su una particolare cella, detta cella osservata. A t0 la testina è posizionata sulla cella iniziale, ed il controllo è nello stato q0 . Sempre a t0 , tutte le celle contengono B eccetto per una finita sequenza 4 [Rogers 1967, 1]. [Rogers 1967, 27]. Nota: anziché “numeri naturali” Rogers utilizza “interi”. 6 non lo è nemmeno in [Rogers 1967], come è scritto a p.28 nella nota †. 7 per questa sottosezione e la seguente cfr. [Li e Vitányi 2008, 27-29]. 5 9 di celle contigue che, a partile dalla cella iniziale, si estende verso destra. Questa stringa binaria è detta input. Il meccanismo può eseguire le seguenti operazioni o: 1. scivere un elemento di A = {0, 1, B} nella cella osservata. Denoteremo “scrivere a ∈ A” con o = a; 2. spostare la testina una cella a sinistra o una cella a destra (indicate rispettivamente con S e D). Chiamiamo O = {0, 1, B, D, S} l’insieme delle operazioni. Ciascuna operazione impiega un turno. Al termine di ogni operazione il meccanismo assume un nuovo stato q. Il meccanismo agisce secondo una lista finita di regole. Ogni regola è del formato < p, s, o, q >: p è lo stato interno corrente, s è il simbolo nella cella osservata, o è l’operazione da eseguire, q è lo stato interno da assumere ad operazione terminata. Vogliamo che T sia una macchina che operi in modo deterministico: due quadruple distinte non possono avere i primi due elementi uguali. Non ogni possibile combinazione dei primi due elementi deve essere presente nell’insime delle regole. In questo caso è data possibilità al meccanismo di non eseguire operazioni, ovvero di fermarsi. Quindi, data una macchina di Turing e un input, la macchina definisce un’unica successione di operazioni che può o meno terminare in un numero finito di turni. 1.5.3 Dalla macchina di Turing alla funzione parziale ricorsiva di interi È possibile associare una funzione parziale di numeri naturali a ciascuna macchina di Turing. Definizione 1.6 (Funzione parziale di numeri naturali). Definiamo una funzione parziale da X in Y come una funzione φ : X 0 → Y , X 0 ⊂ X. Quindi per ogni x ∈ X o φ(x) ∈ Y o φ(x) non è definita. Chiamiamo funzione parziale di numeri naturali in k variabili una funzione parziale in k variabili da N k in N , N insieme dei numeri naturali. L’associazione tra macchina di Turing e funzione parziale di numeri naturali avviene nel seguente modo: 1. data una macchina di Turing (definita come sopra) ed una stringa (binaria) di input, chiamiamo output della computazione la stringa di cui è osservato un simbolo delimitata da B. 10 2. sia φ una funzione parziale di numeri naturali N k → N , scritta φ(x1 , ..., xk ). Assumiamo che ciascun xi sia in notazione binaria. Codifichiamo tale k-upla in una singola stringa binaria σ (in modo che ogni singolo xi sia auto-delimitante, ovvero possa essere “riconosciuto dalla macchina” all’interno della stringa - non possa cioè essere confuso all’interno di altre stringhe). Consideriamo σ input di una T . 3. identifichiamo la stringa binaria ouput della computazione di σ con il numero naturale da essa rappresentato. L’associazione è quindi basata su convenzioni riguardo alla codifica di input ed output. Definizione 1.7 (Funzione parziale ricorsiva). Sotto le precedenti convenzioni per input e output, ogni macchina di Turing T (definita come sopra) definisce una funzione parziale da una k-upla di numeri naturali in N . Chiamiamo tale funzione funzione parziale ricorsiva. Se T si ferma per ogni input, allora la funzione computata è definita per ogni argomento e la chiamiamo ricorsiva totale. Avendo questa definizione, ritornando alla questione posta dall’intuizione di “computabilità”, possiamo richiamare la Tesi di Church. Tesi di Church La classe delle funzioni numeriche computabili (in senso intuitivo) coincide con la classe delle funzioni parziali ricorsive. Si tratta di una tesi che non può essere provata, ma che è accettata (o rigettata) a partire da motivazioni essenzialmente empiriche8 . Fatto che la rende accettabile è il teorema che segue. La nostra definizione di funzione parziale ricorsiva è ottenuta da quella di algoritmo. Ci si potrebbe dunque chiedere se la definizione di algoritmo sia adeguata o se non dipenda in modo non desiderabile dallo specifico modo di caratterizzazione. A questo scopo enunciamo un risultato fondamentale: Teorema 1.5.1 (Equivalenza di caratterizzazioni9 ). Le caratterizzazioni di Turing, Kleene, Church, Post, Markov (ed altri) sono equivalenti; cioè esattamente la stessa classe di funzioni parziali ricorsive è ottenuta in ogni caratterizzazione. Se le caratterizzazioni proposte sono equivalenti sembra ragionevole dire, in relazione alla Tesi di Church: 8 9 [Rogers 1967, 20]. [Rogers 1967, 18]. 11 1. il concetto di algoritmo è adeguatamente catturato da ogni singola formulazione 2. data l’adeguatezza della formulazione del concetto di algoritmo, deduciamo l’adeguatezza della classe di funzioni da esso definita rispetto all’intuizione di “funzione computabile” (possiamo farlo perché, richiamandoci all’introduzione, il concetto di algoritmo è presupposto alla computabilità della funzione). 1.5.4 Enumerazione effettiva Possiamo identificare ciascuna macchina di Turing con l’insieme di regole (quadruple) che la definisce. Possiamo codificare dunque ciascuna macchina di Turing in alfabeto binario codificando la lista di regole. Ordiniamo poi le stringhe binarie ottenute lessicograficamente. Assegnamo un indice i a ciascuna macchina di Turing T in modo tale che se n(T ) corrisponde alla posizione della macchina T nell’ordine lessicografico, n(T ) = i. In questo modo abbiamo costruito una enumerazione effettiva delle macchine T1 , T2 , ... L’enumerazione effettiva delle macchine T1 , T2 , ... determina inoltre una enumerazione effettiva di funzioni parziali ricorsive φ1 , φ2 , ... tale che per ogni i φi è la funzione computata da Ti . Ogni funzione parziale ricorsiva ha un’infinità numerabile di indici10 . 1.5.5 Macchina di Turing universale Definizione 1.8 (Macchina di Turing universale). Una macchina di Turing universale U è una macchina di Turing che può simulare il comportamento di qualsiasi altra macchina di Turing. La dimostrazione dell’esistenza di una tale macchina coincide con la sua costruzione. Non si presenta una costruzione esplicita ma si rende sinteticamente l’idea di come essa possa venire formulata: sfruttando l’enumerazione effettiva delle macchine di Turing possiamo definire l’input di U come < i, σ > (opportunamente codificato) in modo tale che U ricostruisca da i la Ti che deve essere simulata e computi di conseguenza (utilizzando la descrizione di Ti ricavata e σ). Possiamo dunque definire anche: 10 Teorema III [Rogers 1967, 22]. 12 Definizione 1.9 (Funzione parziale ricorsiva universale). La funzione parziale ricorsiva ν(i, σ) computata da una macchina di Turing universale U è detta funzione parziale ricorsiva universale. L’esistenza di ν è garantita dall’esistenza di U 11 . 11 cfr. anche Prova del Teorema 4 [Eagle 2010, Supplemento C]. 13 Capitolo 2 Von Mises 2.1 Introduzione Il primo tentativo di definizione del concetto di randomness per una sequenza viene da Richard von Mises nel 1919, nell’ambito di un’assiomatizzazione della teoria della probabilità. La teoria da lui costruita pone a suo fondamento il particolare oggetto chiamato collettivo, ovvero una sequenza rappresentante i risultati di un qualche esperimento e avente come caratteristiche la infinitezza, la presenza di una frequenza limite per ciascun risultato, e una certa forma di randomness. Prima di dare la definizione di collettivo è opportuno delineare il tipo di concezione alla base di tale costruzione teorica. Al contrario della fondazione della teoria della probailità come misura, assiomatizzazione del tutto astratta dall’oggetto del quale la teoria deve poi trattare, la fondazione di von Mises si lega essenzialmente al tipo di fenomeno per cui la teoria è costruita. Lasciato ogni uso comune per assumere il ruolo di nozione scientificamente delimitata, la “probabilità” è definita allo scopo di descrivere fenomeni di massa o eventi ripetitivi. The rational concept of probability, which is the only basis of probability calculus, applies only to problems in which either the same event repeats itself again and again, or a great number of uniform elements are involved at the same time. Using the language of physics, we may say that in order to apply the theory of probability we must have a practically unlimited sequence of uniform observations. [von Mises 1957, 11] La teoria della probabilità non è una parte della matematica pura, ma è esplicitamente considerata come parte della scienza della natura, come la meccanica, la termodinamica: il suo oggetto sono gli eventi ripetitivi, i fenomeni 14 del cui comportamento statistico è sensato occuparsi. La definizione di collettivo riflette questo intento: “l’esistenza” dei collettivi, così come la adeguatezza della loro definizione, deve essere comprovata dalla applicabilità a questi fenomeni della teoria che ne deriva. 2.2 L’assiomatizzazione L’assiomatizzazione di von Mises coincide con la definizione di collettivo. 2.2.1 Definizione di collettivo È presentata la definizione “base” di collettivo, “base” nel senso che della seconda condizione è stata scelta la versione semplificata (che viente usualmente presentata), vista la particolartà della versione estesa la quale presenta una correzione per assicurare la validità della regola per le “probabilità condizionali” 1 . Definizione 2.1 (Collettivo). È chiamato collettivo una sequenza x ∈ Aω tale che: denotata con 1B la funzione definita per ogni xi ∈ A tale che: 1B (xi ) = 1 se xi ∈ B ⊆ A, 1B (xi ) = 0 altrimenti, 1. esiste P (B), chiamata funzione di probabilità, definita: ∀B ⊆ A, P (B) := n→∞ lim n 1X 1B (xi ) n i=1 2. se Φ è una selezione di posto ammissibile 2 , ossia una selezione di una sottosequenza di x ∈ Aω , allora, chiamata tale sequenza derivata Φx , PΦx (B), definita come sopra, esiste ed è uguale a Px (B). Una selezione di posto ammissibile può essere intuitivamente interpretata come una strategia di gioco che, decidendo quando scommettere, possa apportare una qualche forma di vantaggio. Riassumendo informalmente: un collettivo è una sequenza (infinita) di elementi xi ∈ Atale che esiste una frequenza limite per ogni B ⊆ A, chiamata valore della probabilità di B, la quale è invariante rispetto alle selezioni di posto ammissibili. Tralasciando per il momento il significato di “selezioni di posto ammissibili”, si osserva ora che cosa richiedano e comportino gli assiomi che definiscono il collettivo. 1 2 per la definizione e la sua giustificazione cfr. [van Lambalgen 1987, 24]. admissible place selection. 15 2.2.2 Significato del collettivo La prima considerazione riguarda la definizione di probabilità come limite di frequenza relativa. Essa ci informa del tipo di fenomeni di cui si deve occupare la teoria della probabilità secondo von Mises: fenomeni di massa che mostrano una convergenza nella frequenza. La definizione richiede un limite della frequenza relativa per n, numero di esperimenti, che tende a infinito. Nessuna sequenza di osservazioni può essere considerata propriamente un collettivo: nessuna sequenza di osservazioni sarà mai infinita. Esistono tuttavia fenomeni che a cui si applica con successo la teoria della probabilità: le assicurazioni, le case da gioco, la meccanica statistica dimostrano l’esistenza di una convergenza delle frequenze ad un certo valore sufficientemente stabile. Von Mises introduce i collettivi infiniti solo per i loro vantaggi tecnici3 , non come oggetti autonomi di studio; e questo vantaggio tecnico non altera negativamente la teoria così come non ha alcun effetto negativo la definizione . in meccanica della velocità come ds dt Oltre a ciò, la definizione di probabilità come limite di una frequenza in un collettivo afferma che non essa non è attribuibile ad un individuo: la probabilità è il limite di una frequenza. Non ha senso dire che a, uomo di 40 anni abbia una certa probabilità di morte prima del compimento del 41esimo anno. La probabilità di morte si applica ad un certo tipo di persone ed è precisamente rispetto a tale tipo che viene ad essere riconosciuto un collettivo. Un individuo appartiene molteplici collettivi: a può essere considerato dal punto di vista del collettivo dei “fumatori incalliti”, oppure del collettivo degli “uomini sposati”, e via dicendo. A collettivi diversi corrispondono distribuzioni diverse di probabilità. Un individuo non può avere diverse probabilità di morire nell’anno, la probabilità si applica alla classe (rispetto a cui è costituito il collettivo) non all’individuo. La seconda considerazione riguarda l’invariabilità della probabilità rispetto a certi ammissibili modi di selezione. È questo l’assioma che dà una caratterizzazione in senso restrittivo alla teoria della probabilità. In particolare impedisce di parlare di probabilità in quei casi in cui, per richiamare il linguaggio dell’introduzione, il fenomeno non è “casuale”. Imagine, for instance, a road along which milestones are place, large ones for whole miles and smaller ones for tenth of a mile. If we walk long enough along this road, calculating the relative frequencies of large stones, the value found in this way will lie around 1/10. [. . . ] This result may induce us to speak of a “certain probaility of encountering a large stone”. [. . . ][But] The se3 [van Lambalgen 1987, 22]. 16 quence of observations of large and small stones differs essentially from the sequence of observations, for instance, of the results of a game of chance, in that the first sequence obeys an easily recognizable law. [von Mises 1957, 23] Sono eliminate dunque quelle sequenze che rispondono a leggi (facilmente) riconoscibili. Sono eliminati in tal modo dalla trattazione anche i processi stocastici, ovvero (in termini di sequenze) quelle sequenze in cui la probabilità dell’i-esimo elemento dipende dal valore dei precedenti elementi: la presenza di un determinato m ∈ M nella sequenza non ci dà la minima informazione riguardo al successivo m0 ∈ M . Detto altrimenti, parafrasando la condizione 2. della definizione di collettivo: non possiamo sperare, basandoci su < xi , xi+1 , ..., xn−1 > e su n, di riuscire ad operare una selezione di xn tali che vadano a formare una nuova sequenza che abbia una distribuzione di probabilità differente. 2.3 Consistenza del collettivo Ma i collettivi così definiti, esistono? In certi fenomeni esistono frequenze limite e non esiste strategia, pensando ai giochi d’azzardo, che permetta di migliorare la probabilità di vittoria. Questa è una risposta di tipo empirico: essa dice che la definizione data da von Mises può trovare motivi per essere accolta nell’ambito di questi fenomeni. La domanda è in realtà un’altra: essa riguarda la correttezza del sistema generato dai due assiomi su x ∈ Aω . Supponiamo che x ∈ 2ω sia un collettivo per cui sia definita P ({1}). Consideriamo l’insieme delle sequenze infinite costituite da numeri interi (positivi) n1 < n2 < n3 < .... Questo insieme è costruito indipendentemente da x, ma fra i suoi elementi esiste la sequenza n01 < n02 < n03 < ... che seleziona gli 1 di x, ovvero per ciascun n0i : xn0i =1, andando a formare una nuova sequenza costituita da soli 1. Quindi x non è un collettivo. La risposta a questo problema chiama in causa la definizione di “selezione di posto accettabile”. Il tipo di selezione sopra proposto non è rilevante ai fini della teoria di von Mises. La selezione n01 < n02 < n03 < ..., scritta {n0i : xn0i = 1}, non è infatti una funzione che possa essere accettata come selezione di posto. Le selezioni di posto sono oggetti che devono essere costruiti esplicitamente 4 . 4 cfr. [van Lambalgen 1987, 29]. 17 È necessario inoltre considerare il carattere intensionale delle selezioni ammissibili, ossia del forte legame rispetto all’applicazione sotteso da von Mises nella sua costruzione: l’ammissibilità non è una caratteristica propria della selezione stessa. Essa infatti coinvolge considerazioni riguardo al collettivo nel momento stesso della sua identificazione, cioè sul significato che determinate selezioni di posto hanno nel constesto di un certo fenomeno. Le due osservazioni ci indicano due strade percorribili per la dimostrazione della consistenza (e non vuotezza) dell concetto di collettivo. Il punto centrale come notato è la questione della “selezione di posto accettabile”. Otterremo due risultati: una caratterizzazione in positivo delle selezioni accetabili, ed una dimostrazione riguardo dell’esistenza di collettivi in ogni “contesto di applicazione”. Iniziamo dal secondo risultato. 2.3.1 Wald Wald5 risponde al problema: qual è una condizione sufficiente per cui, dato lo spazio di sequenze originate da S, esistano sequenze che siano collettivi. Teorema 2.3.1 (Teorema di Wald). Siano S un alfabeto finito o infinito (discreto) S = {a1 , a2 , ...}, S l’insieme potenza di S, G un sistema numerabile di selezioni di posto, p una funzione non − negativa, σ − additiva6 P P definita su S e tale che i p({ai }) := i pi = 1, esistono infinite non-numerabili sequenze x che sono collettivi rispetto a p e G (preservano cioè ciascuna pi rispetto a ciascuna selezione di posto in G). Inoltre se S = {0, 1}, l’insieme di tali sequenze ha misura (definita come sopra) 1. Dimostrazione. Omessa. Questo teorema afferma l’esistenza di collettivi per un alfabeto discreto con l’unica significativa (e debole) restrizione riguardante G che deve essere numerabile. È da sottolineare che in nessun problema (“contesto di applicazione”) emerge un numero più che numerabile di selezioni di posto e che si può dunque considerare la richiesta 2. nella definizione di collettivo come limitata a quelle selezioni che occorrono nella soluzione di quel particolare problema. Si può inoltre osservare che nello spirito di una logica formalizzata il numero di selezioni che può essere definita in parole o simboli è numerabile7 . 5 cfr. [von Mises/Geiringer 1964,P40-42]. S∞ ∞ ciò significa che p( i=1 Bi ) = i=1 p(Bi ), dove Bi sono insiemi disgiunti. 7 [von Mises/Geiringer 1964, 41]. 6 18 2.3.2 Church Si è visto che per un numero numerabile di selezioni di posto esistono i collettivi. È un risultato generale che non dà molte indicazioni circa il modo di stabilire a priori un tipo di selezioni che siano ammmissibili. In questo senso si caratterizza il risultato di Church8 , che definisce la consistenza del collettivo sulla base di una selezione di posto intesa come procedura effettiva. Si può osservare una diversa attitudine verso la dimostrazione della consistenza del collettivo rispetto alla dimostrazione, interpretabile come “contestuale”, di Wald. È quella di Church una posizione che assume l’effettività come concetto fondamentale. Assumendo l’inalterabilità della frequenza sotto selezione di posto come l’inesistenza di un sistema che permetta di scegliere quando scommettere con vantaggio su un particolare risultato all’interno della sequenza, ossia l’inesistenza di un sistema di gioco (Spielsystem), si può dire: It may be held that the representation of a Spielsystem by an arbitrary function φ is too broad. To a player who would beat the wheel at the roulette a system is unusable which corresponds to a mathematical function known to exist but not given by explicit definition; and even the explicit definition is no use unless it provides a means of calculating the particular values of the function. As less frivolous example, the scientist concerned with making predictions or probable predictions of some phenomenon must employ an effectively calculable function [. . . ]. Thus a Spielsystem should be represented mathematically, not as a function, or even as a definition of a function, but as an effective algorithm for the calculation of the values of a function. [Church 1940, 133] La definizione di collettivo può dunque essere riformulata come segue, con la costruzione della selezione di posto9 . (Le definizioni che seguono si riferiscono a sequenze binarie.) Definizione 2.2 (Selezione di posto ricorsiva). Poniamo φ : 2<ω → {0, 1}. φ determina la selezione di posto Φ nel modo seguente: 1. Φ0 : 2<ω → 2<ω è data da Φ0 (uj) = 8 9 Φ0 (u)j se φ(u) = 1 Φ0 (u) [van Lambalgen 1987, 42-43]; [Church 1940]. [van Lambalgen 1987, 41]. 19 dove j ∈ {0, 1} se φ(u) = 0 2. una funzione parziale Φ : 2ω → 2ω è definita: denotato con domΦ il dominio di Φ (l’insieme per cui è definita), (a) domΦ = {x ∈ 2ω : ∀n∃k ≥ n , φ(x1 x2 ...xk ) = 1} (b) x ∈ domΦ implica Φ(x) = T n ΛΦ0 (x1 x2 ...xn ) Φ : 2ω → 2ω così definita è detta selezione di posto ricorsiva. Definizione 2.3 (Collettivo (Church)). Sia pi ∈ [0, 1] (i ∈ {0, 1}). x ∈ 2ω è un collettivo rispetto a pi se per ogni selezione di posto ricorsiva Φ, x ∈ domΦ implica che p0i , indotta dal nuovo collettivo x0 , è uguale a pi per qualsiasi i ∈ {0, 1}. L’esistenza di queste sequenze è un’immediata conseguenza del teorema di Wald, se si fa uso del fatto che l’insieme delle funzioni effettivamente computabili, cioè delle funzioni parziali ricorsive, è numerabile10 . 2.4 Ville I risultati di Wald e Church danno solidità alla teoria che von Mises si propone di fondare sul concetto di collettivo. La teoria della probabilità può trovare così una fondazione in senso strettamente frequentista. Non mancano tuttavia alcuni problemi, specialmente dal nostro punto di vista: i collettivi non sono soddisfacenti modelli dei fenomeni random. In particolare è qui da sottolineare il secondo punto. Nel 1939 Ville dimostra una costruzione per cui: Teorema 2.4.1 (Teorema di Ville). 11 Sia E un insieme qualunque di funzioni di selezione. Esiste x ∈ 2ω tale che: 1. n 1 1X (xi ) = lim n→∞ n 2 i=1 2. per qualsiasi f ∈ E, x0 è la sequenza selezionata da f : n 1X 1 (x0i ) = n→∞ n 2 i=1 lim 10 11 Teorema I [Rogers 1967, 22]. [Downey e Hirschfeldt 2010, 246]. 20 3. ∀n , n 1X 1 xk ≤ n k=1 2 . Dimostrazione. Omessa. Ossia: per 3. la frequenza relativa degli 1 approccia il limite da sotto. Intuitivamente, è una proprietà che non rispecchia un comportamento random, in quanto permette una strategia di gioco vincente: scommettendo ogni volta su 0 al prezzo di una scommessa su un lancio di moneta ben equilibrata, dato che la frequenza relativa di 1 è ≤ 1/2, il guadagno accumulato è sempre positivo12 . È possibile da punto di vista di von Mises la seguente risposta: i collettivi non sono modelli di sequenze (infinite) random. L’unico criterio per accettare o rigettare le proprietà dei collettivi è il loro uso nel risolvere i problemi finiti della teoria della probabilità e per questo scopo le loro caratteristiche sono sufficienti. È qui però proposito di osservare invero precisamente come poter dare definizione all’intuizione di “sequenza random”, che sembra essere troppo inclusiva dopo il risultato di Ville. Si può provare a rendere più forte la teoria di von Mises, dando una più potente formalizzazione all’affermazione semi-formale dell’inesistenza di un sistema di gioco, cercando cioè di sviluppare una teoria in accordo con lo stretto frequentismo. Qui invece le problematiche di von Mises verranno abbandonate in favore dei due approcci descritti nell’introduzione: tipicalità e compressibilità. 12 [Li e Vitányi 2008, 54]. 21 Capitolo 3 Tipicalità 3.1 Introduzione Siamo giunti con von Mises ad una definizione che non può essere considerata soddisfacente. In questo capitolo giungeremo invece ad una adeguata formalizzazione di ciò che intuitivamente diremmo essere una sequenza random. Il paradigma che sarà adottato è quello della tipicalità. Si è visto nel capitolo iniziale una sequenza random è non deve essere in nulla straordinaria, non deve avere nessuna caratteristica che la renda distinguibile. Riprendendo la definizione di “straordinario” che dà Laplace: Il pensiero organizza tutti i possibili eventi in classi diverse e considera straordinari quelle classi che ne contengono pochissimi. [Laplace 1826, 33] Ma come possiamo riuscire a caratterizzare la straordinarietà di una sequenza? La straordinarietà di una sequenza è data dalla “grandezza” dell’insieme a cui appartiene. Dobbiamo quindi individuare in 2ω un insieme che sia “molto grande”, non straordinario. Per poter rendere ragione di questa intuizione saranno utilizzati concetti tratti dalla teoria della misura. Possiamo dire, giungendo ad una formulazione più precisa dell’intuizione della tipicalità: l’insieme delle sequenze random deve avere misura 11 . Perché proprio misura 1? L’intuizione base è che l’alterazione di un singolo bit non ha effetto sulla randomness di una sequenza infinita. Se x = x1 x2 x3 ... è random lo sarà anche x0 = x01 x2 x3 x4 ...: che sia x1 oppure x01 , dal punto di vista della sequenza infinita, non fa per noi alcuna differenza. Si può indurre quindi che nessuna quantità finita di variazioni può alterare 1 [Dasgupta 2010, 13]. 22 la randomness della sequenza. Quindi, se due sequenze x e y sono diverse per un numero finito di posti allora la randomness di x è equivalente a quella di y. Ciò implica che l’insieme delle sequenze random soddisfa la condizione per la Legge 0-1 di Kolmogorov: la sua misura è 0 o 1. Non possiamo però ritenerlo di misura 0: ciò significherebbe che le sequenze random sono molto meno di quelle non random e formano un insieme di sequenze “straordinarie”. L’insieme delle sequenze random ha quindi misura 1. 3.1.1 Riformulazione Il problema può essere formulato come segue: come individuare quell’insieme di misura 1? Potremmo pensare: l’insieme delle sequenze random deve essere l’intersezione di tutte gli insiemi di misura 1. Ma tale richiesta è impossibile da soddisfare: la voluta intersezione è vuota2 . È quindi da decidere quale sia l’insieme “privilegiato” che chiamiamo delle sequenze random. P. Martin-Löf nel 1966 fornisce una risposta a questa domanda. 3.2 Leggi probabilistiche Prima di giungere a Martin-Löf è da esporre però il concetto di legge probabilistica. Con legge probabilistica intendiamo una legge che afferma che un certo insieme ha misura 1 (si può dunque identificare la legge con la definizione di tale insieme). Ci si ricordi la costruzione di Ville: tale sequenza non soddisfa l’intuizione di randomness ma, possiamo dire ora, non soddisfa nemmeno, ad esempio, la legge delle Oscillazioni simmetriche, poco sotto esposta. Ciò significa che riusciamo a definire in modo esplicito, come leggi probabilistiche, le caratteristiche che intuitivamente l’insieme delle sequenze random deve avere: la costruzione di Ville non soddisfa una delle leggi probabilistiche che abbiamo formulato; per questo motivo non è random. (La possibilità di una definizione esplicita avrà speciale rilevanza in Martin-Löf.) Si presentano ora una serie di leggi (con dimostrazione omessa) che rappresentano proprietà di insiemi a cui una sequenza binaria random dovrebbe appartenere3 . È importante sottolineare che la misura utilizzata deve essere stabilita. Noi utilizzeremo la misura così definita: µ(Λσ ) = 2−|σ| che corrisponde, in2 infatti il complemento di ciascun singoletto ha misura 1, quindi per ogni sequenza esiste un insieme di misura 1 che lo esclude. 3 [Dasgupta 2010, 15]. 23 tuitivamente, alla situazione in cui la sequenza è originata da infiniti lanci di moneta ben bilanciata (se la moneta è ben bilanciata consideriamo ugualmente “probabile” ciascuna disposizione, ad esempio, di lunghezza 2: 00, 01, 10, 11; cioè, dividendo 2ω in insiemi: {x : x incomincia per 00}, {x : x incomincia per 01}, ..., riteniamo ciascun insieme di uguale misura. La misura {x : x incomincia per σ} è determinato quindi dal numero di disposizioni di lunghezza |σ|, che è 2|σ| ). 3.2.1 Legge forte di Borel Questa legge è legata alla seguente intuizione: una sequenza binaria è random rispetto alla misura µ(Λσ ) = 2−|σ| se la proporzione di 1 nei primi n termini approccia il valore 1/2 per n che tende a infinito. Questa legge esplicita come all’aumentare della lunghezza delle stringhe binarie aumenti il numero di esse per cui vale (sommando direttamente come numeri ciascun xi della stringa binaria): n 1 1X (xi ) = n i=1 2 Si noti bene che questa legge non corrisponde all’idea empirica per cui, se si intende la stringa binaria come rappresentante di una serie di lanci indipendenti di moneta (“che non favorisca né Testa né Croce”), il rapporto di Testa/Croce debba (all’incirca) stabilizzarsi a 1 all’aumentare dei lanci. Teorema 3.2.1 (Legge forte di Borel). Sia n 1 1X (xi ) = } B = {x ∈ 2 : n→∞ lim n i=1 2 ω Tale insieme ha misura 1 (µ(B) = 1). Cioè per quasi tutte le sequenze la frequenza di 1 è pari a 1/2. 3.2.2 Normalità (di una sequenza binaria) La legge forte di Borel non è sufficiente a caratterizzare l’insieme delle sequenze random. La sequenza 01010101... appartiene a B definito come sopra, ma evidentemente non è random. La normalità è in qualche modo un raffinamento dell’idea alla base della Legge forte di Borel. Essa è legata alla seguente intuizione: una sequenza binaria è random se la proporzione di ogni stringa σ ∈ 2ω nei primi k blocchi di bit di lunghezza |σ| approccia il valore 1/2|σ| per k che tende a infinito. (L’idea è che suddividendo 24 la sequenza in blocchi di uguale lunghezza, ciascun diverso blocco di quella lunghezza appare con la stessa frequenza.) Teorema 3.2.2 (Normalità binaria). Siano: β blocco di bit tale che |β| = |σ| e 1σ (β) = 1 se σ = β , 1σ (β) = 0, altrimenti. L’insieme C: k 1X 1σ (β) = 2−|σ| , ∀σ ∈ 2<ω } k→∞ k i=1 C = {x ∈ 2ω : lim ha misura 1. Quasi tutte le sequenze binarie sono dunque normali. 3.2.3 Oscillazioni simmetriche Richiamiamo alla mente la sequenza costruita da Ville. Pur appartenendo all’insieme definito nella Legge forte di Borel, tale sequenza non poteva essere accettata come random poiché implicava per la frequenza degli 1 un approccio unilaterale al limite. Possiamo ora vedere che legge è in tal modo violata. L’intuizione è: in una sequenza binaria random la frequenza deve oscillare infinite volte al di sopra e al di sotto del limite, non deve cioè esserci un approccio unilaterale. Teorema 3.2.3 (Legge delle oscillazioni simmetriche). L’insieme O: O = {x ∈ 2ω : n n 1X 1 1 1X (xi ) ≤ per infiniti n, così come (xi ) ≥ per inf. n} n i=1 2 n i=1 2 Ha misura 1. 3.2.4 In generale Sono state esposte alcune leggi probabilistiche. Ogni nuova legge può essere vista come individuante un insieme corrispondente all’intuizione di alcune caratteristiche che possiamo attribuire ad una sequenza random. In questo senso si può nominare (senza esporla) un’altra legge, quella del logaritmo iterato. Essa porta le precedenti leggi come corollari, ed ha il particolare pregio di definire un insieme da cui è esclusa la sequenza di Champernowne, sequenza che è normale in forma binaria, ma che tuttavia difficilmente sarebbe chiamata random essendo generata dalla semplice procedura data dalla concatenazione ordinata delle rappresentazioni binarie dei numeri nauturali: 01 10 11 100 101 110 111... Riprendiamo il senso di queste leggi. Ciascuna legge individua un insieme di misura 1, ossia un insieme il cui complemento ha misura 0. Possiamo dire 25 dunque che per ogni legge, se una sequenza non appartiene all’insieme da essa definito, allora non è random. Cioè nessuna sequenza random appartiene ad insiemi nulli determinati da leggi probabilistiche. Con questo tipo di idea si può passare alla definizione di sequenza random data da Martin-Löf. 3.3 3.3.1 Martin-Löf Introduzione Si è detto che non possiamo definire l’insieme delle sequenze random con l’intersezione di “tutti” gli insiemi di misura 1. Tale idea, a livello intuitivo, non si può dire tuttavia essere scorretta. Ciò che è necessario è dare una buona concettualizzazione di “tutti”. Date le leggi sopra esposte, possiamo pensare di aggiungerne altre, in accordo ad altre possibili intuizioni riguardo alle caratteristiche di una sequenza random. Ma in questo modo la definizione di sequenza random non sarebbe una definizione stabile nel tempo4 . L’osservazione fondamentale di Martin-Löf è che tutte le leggi probabilistiche che sono state dimostrate sono effettive 5 . Ciò signifca che è possibile provare per ogni sequenza se la data legge è soddisfatta mediante un test effettuato su segmenti iniziali di lunghezza crescente della sequenza. Martin-Löf trae spunto dalla statistica utilizzando il concetto di test per randomness 6 , che possiamo spiegare come una procedura che definisce per quali elementi debba essere rigettata l’ipotesi (la randomness della sequenza). L’idea che seguiremo è quindi l’idea per cui una sequenza random non appartiene ad alcun insieme di misura 0 determinato da una procedura effettiva. 3.3.2 Misura effettiva È dunque da rendere la nozione di misura all’interno del contesto di effettività7 apportata dal concetto di test. Definizione 3.1 (Insieme ricorsivamente enumerabile). Un insieme X è detto ricorsivamente enumerabile8 se: 1. o X = ∅, 4 [Downey e Hirschfeldt 2010, 230-231]. [Li e Vitányi 2008, 55]. 6 [Martin-Löf 1966, 604]. 7 per le definizioni seguenti, eccetto def. 3.1, [Dasgupta 2010, 27-28]. 8 [Rogers 1967, 58]. 5 26 2. oppure esiste una funzione ricorsiva (totale) φ tale che X è l’immagine di φ. Intuitivamente, un insieme è ricorsivamente enumerabile se esiste una procedura effettiva che elenca i membri dell’insieme, anche con ripetizioni. Alternativamente lo si può definire come: un insieme X è ricorsivamente enumerabile se X è l’immagine di una funzione parziale ricorsiva9 . Definizione 3.2 (Insieme effettivamente aperto). Un insieme G ∈ 2ω è detto effettivamente aperto se esiste un insieme ricorsivamente enumerabile S di stringhe tale che: [ G= Λσ σ∈S Ovvero, poiché S è ricorsivamente enumerabile se è l’immagine di una funzione parziale ricorsiva tale che ∀σ ∈ S, φ(n) = σ per qualche n ∈ N (assumiamo dunque φ : N → 2<ω ), possiamo riscrivere: G= ∞ [ Λφ(n) n=1 assumendo Λφ(n) = ∅ se φ(n) non è definita. Dobbiamo ora definire l’effettività di una sequenza di insiemi effetivamente aperti per poter quindi procedere alla definizione di insieme effettivamente nullo. Definizione 3.3 (Sequenza uniformemente effettivamente aperta). Una sequenza di insiemi G1 , G2 , ... è uniformemente effettivamente aperta se esiste una funzione parziale ricorsiva φ : N × N → 2<ω tale che: Gi = ∞ [ Λφ(i,n) n=1 assumendo Λφ(i,n) = ∅ se φ(i, n) non è definita. Il senso è: non solo ciascun elemento della sequenza deve essere effettivamente aperto, ma deve esistere una funzione che enumeri per ciascun membro della sequenza gli insiemi base di cui è composto. Definizione 3.4 (Insieme effettivamente nullo). Un insieme E ⊂ 2<ω è effettivamente nullo se esiste una sequenza uniformemente effettivamente aperta G1 , G2 , ... tale che per ogni i: 9 Corollario Va [Rogers 1967, 61]. 27 1. E ⊆ Gi , 2. µ(Gi ) < 1/i . 3.3.3 Sequenza random (Martin-Löf) Effettivizzato il concetto di insieme nullo, che corrisponde ad un test per randomness (cioè: un test per randomness è una procedura che verifica l’appartenenza di una sequenza ad un definito insieme nullo), possiamo infine dare la definizione di sequenza random di Martin-Löf. Definizione 3.5 (Sequenza random ( Martin-Löf)). Una sequenza x ∈ 2<ω è una sequenza random se non appartiene a nessun insieme effettivamente nullo. Riformulando: una sequenza random è una sequenza che appartiene a tutti gli insiemi di misura effettiva 1. È stabilito inoltre che l’insieme delle sequenze random così definite ha misura 1. L’idea della prova è che, essendo gli insiemi effettivamente nulli un numero numerabile (data la numerabilità delle procedure effettive), la loro unione è anch’essa di misura 0, per il Teorema 1.4.2 (I). In questo modo abbiamo ottenuto una definizione (non vuota) che corrisponde all’intuizione per cui una sequenza random appartiene a “tutti” gli insiemi di misura 1, dove “tutti” è corretto in “tutti quelli che possono essere effettivamente specificati”. Osserveremo nella conclusione la particolarità di questo dipo di definizione. 28 Capitolo 4 Incompressibilità 4.1 Introduzione Si è raggiunto una soddisfacente, “robusta” e “matematicamente attrattiva” 1 , nozione di sequenza random. Vogliamo ora definire il concetto di randomness per una stringa finita. Consideriamo dunque le seguenti stringhe binarie: α : 01010101010101010101010101010101 β : 00010110111000100011110000100110 γ : 01100110011001100110011001100110 Evidentemente α e γ difficilmente sarebbero chiamate random, più facilmente sarebbe chiamata in tal modo β. L’intuizione che regge questo tipo di classificazione è collegata alla capacità di individuare “schemi di simboli”, o regolarità (nel linguaggio dell’introduzione), ricorrenti all’interno della stringa. Da ciò diciamo: se una stringa presenta schemi ricorrenti non è random. Occorre dunque stabilire in che modo questa intuizione possa essere formalizzata e resa oggettiva, invariante rispetto all’arbitrarietà che accompagnia, empiricamente, il “riconoscimento” di schemi2 . Prima però sembra utile riformulare l’idea di “presenza di schemi”, cercando di cogliere che tipo di implicazioni ha per noi, intuitivamente, la presenza di schemi. Si può affermare che una stringa con schemi ricorrenti possa essere più “facilmente” descritta rispetto ad una priva di schemi. In questo modo possiamo dire che α è data da 01 scritto 16 volte e γ da 0110 scritto 8 volte. Non riusciamo a procedere nello stesso modo per β: non troviamo schemi 1 2 [Eagle, 2010, sezione 2.2]. [Eagle, 2010, sezione (introduzione)]. 29 che possano essere sfuttati per una descrizione che sia più “semplice” rispetto alla descrizione “simbolo per simbolo”. La presenza di schemi ricorrenti è quindi reinterpretata come “facilità di descrizione”. Una stringa random, ovvero priva di schemi ricorrenti, è quindi una stringa non “facilmente descrivibile”. Esplicitato il contenuto dell’idea di “presenza di schemi” con l’idea di “facilità di descrizione”, si può procedere nella definizione di stringa random. Tale definizione sarà formulabile una volta specificato che cosa è da intendersi per “descrizione” ed in che senso di essa si dice la “facilità”. 4.2 Descrizione È stato utilizzato il termine “descrizione” pittosto liberamente. Il cosiddetto Paradosso di Berry3 mostra che tipo di pericoli possono emergere da un’assenza di restrizione riguardo all’ammissibiltà di una “descrizione”. Paradosso di Berry Il numero di Berry è il più piccolo intero positivo che non può essere descritto in meno di 30 parole. Se questo numero esiste, è stato appena descritto in meno di 30 parole, in contraddizione della definizione. In questo consiste il paradosso. Definiamo quindi che cosa è da intendersi con “descrizione”. Definizione 4.1 (Metodo di descrizione in generale4 ). Siano X l’insieme di oggetti che vogliamo descrivere e Y l’insieme di oggetti che utilizziamo come descrizioni: 1. Chiamiamo metodo di descrizione (in generale) (oppure anche funzione di decodifica) D, una funzione D : Y → X (X è l’insieme degli oggetti che sono descritti), 2. chiamiamo y ∈ Y descrizione di un oggetto x ∈ X se D(y) = x. Noi però vogliamo che la descrizione sia effettiva. Ci si ricordi che identifichiamo funzione parziale ricorsiva con macchina di Turing. Ricordiamo inoltre che gli oggetti da descrivere sono stringhe binarie. Ridefiniamo dunque nel seguente modo il termine “descrizione”: 3 4 [Dasgupta 2010, 36]; [Li and Vitáyni 2008, 1]. cfr. [Li e Vitáyni 2008, 1]. 30 Definizione 4.2 (Descrizione effettiva o algoritmica5 ). Sia T una macchina di Turing, φ la funzione parziale ricorsiva da essa computata (intendendola direttamente come φ : 2<ω → 2<ω 6 anziché N → N ), σ la stringa binaria da descrivere e δ ∈ 2<ω . 1. Chiamiamo metodo di descrizione algoritmico T rispetto a σ se T termina con output σ su qualche input δ. Ovvero, φ è un metodo di descrizione effettivo rispetto a σ se φ(δ) = σ per qualche δ. 2. Chiamiamo δ definita come sopra descrizione algoritmica di σ. Abbrevieremo “descrizione effettiva” con “descrizione”. 4.3 Complessità Avendo chiarificato cosa intendere per descrizione, possiamo passare al secondo problema: la “facilità”. Non definiremo direttamente tale concetto, ma utilizzeremo la nozione correlata di complessità. Il problema della “facilità descrittiva” è considerato ora come la questione riguardante la complessità della descrizione. La complessità descrizionale (o algoritmica) è chiamata complessità di Kolmogorov (per noi semplicemente complessità, dal nome del suo ideatore, il matematico russo A. N. Kolmogorov7 . In modo piuttosto naturale, avendo definito che cosa è una descrizione, possiamo formulare8 la seguente definizione: Definizione 4.3 (Complessità rispetto al metodo di descrizione φ). Chiamiamo Cφ (σ) complessità di σ rispetto alla funzione parziale ricorsiva (metodo di descrizione) φ la lunghezza l della(e) stringa(stringhe) più corta(e) δ tale che φ(δ) = σ, ovvero: Cφ (σ) = min{l(δ) : φ(δ) = σ} Se non esiste alcuna δ che sia descrizione di σ poniamo Cφ (σ) = ∞. Abbiamo una definizione quantitativa della complessità di una stringa rispetto ad un metodo di descrizione. Possiamo quindi operare una comparazione tra complessità rispetto diversi metodi di descrizione. 5 cfr. [Dasgupta 2010, 36] e [Li e Vitáyni 2008, 104]. cfr. [Downey e Hirschfeldt 2010, 111]. 7 [Kolmogorov 1965]. A formulazioni simili, nel medesimo periodo, giunsero anche R. J. Solomonoff e G. J. Chaitin. Per ulteriori notizie storiche, vedi Li e Vitányi 2008, 95-98. 8 per ciò che segue cfr. [Li e Vitányi 2008, 102-107]. 6 31 Definizione 4.4 (Ottimalità additiva). Sia Γ un sottoinsieme dell’insieme delle funzioni parziali ricorsive (metodi di descrizione) φ : 2<ω → 2<ω . Una funzione parziale ricorsiva φ è detta additivamente ottimale per Γ se: 1. φ ∈ Γ 2. ∃ cφ,ψ tale che: Cφ (x) ≤ Cψ (x) + cφ,ψ , ∀ψ ∈ Γ , ∀x ∈ 2<ω Ovvero se esiste una costante c (indipendente da x) per cui la complessità di x (comunque preso) rispetto al metodo di descrizione φ in Γ è minore o uguale alla complessità rispetto ad un altro qualsiasi metodo ψ in Γ. Giunti a questo punto ci si può chiedere se sia possibile in qualche modo svincolarsi dalla restrizione dell’ottimalità (che si ricorda essere comunque un’ottimalità additiva) rispetto a Γ. Ci si chiede cioè se sia possibile richiedere un’ottimalità rispetto a qualsiasi funzione parziale ricorsiva. È da sottolineare come tale richiesta sia rilevante per poter definire la complessità di una stringa come “qualità intrinseca” della stringa stessa. Un’ottimalità universale consentirà di definire la complessità di una stringa come una misura “assoluta” e oggettiva. Ecco quindi il Teorema di invarianza, che fornisce una risposta alla nostra richiesta. Teorema 4.3.1 (Teorema di invarianza). Esiste una funzione parziale ricorsiva universale additivamente ottimale. Dimostrazione. La dimostrazione9 si basa sostanzialmente sull’esistenza di una enumerazione effettiva. Sia ν la funzione computata da una macchina di Turing universale U . Stabiliamo come l’input di ν < i, δ > debba essere codificato. Rappresentiamo i con 1i 0 ovvero con una stringa di un numero i di 1 seguita da uno 0. Poniamo quindi < i, δ > codificato con la stringa 1i 0δ. In questo modo abbiamo codificato le due variabili dela funzione ν(i, δ) (tra l’altro i è un numero, non una stringa) ad una variabile sotto forma di stringa binaria. La funzione parziale ricorsiva universale ν(i, δ) è quindi quella funzione che da 1i 0δ computa φi (δ). Possiamo quindi porre la costante additiva cν,φi = i + 1, verificando l’ottimalità additiva: sia Cφi (σ) = l(δ), Cν (σ) = Cφi (σ) + i + 1 in quanto: l(1i 0δ) = l(δ) + 1 + i 9 Prova del Teorema 4 [Eagle 2010, Supplemento C]. 32 Tale funzione sarà chiamata asintoticamente ottimale 10 poiché al crescere di Cφi (σ), cν,φi diviene sempre sempre più trascurabile. Cioè: all’aumentare infinito di l(δ), il rapporto tra l(1i 0δ) e l(δ) tende a 1. Possiamo quindi definire la complessità (assoluta): Definizione 4.5 (Complessità (di Kolmogorov)). Chiamiamo complessità (di Kolmogorov) di una stringa σ, scritta C(σ), la complessità di σ rispetto ad un metodo di descrizione (funzione parziale ricorsiva) asintoticamente ottimale, chiamata funzione di riferimento. Ossia: C(σ) := Cν (σ), con ν asintoticamente ottimale. 4.4 Stringa random (incompressibile) Avendo definito la complessità di una stringa, possiamo passare alla definizione di stringa random (Kolmogorov). L’intuizione che ci guidava era che le stringhe random non devono essere facilmente descritte, ovvero avere un’alta complessità. Ma qual è un valore ragionevole che indica “un’alta complessità”? L’idea fondamentale è che se la complessità di una stringa (la lunghezza della descrizione più breve) è pari alla lunghezza della stringa stessa, allora la descrizione (la stringa da cui il metodo di descrizione restituisce la stringa da descrivere) non è sostanzialmente diversa dalla stringa stessa, ovvero, detto più esplicitamente è è la stringa stessa la più breve descrizione di sé stessa. In questo caso la stringa è detta incompressibile. L’intuizione quindi, avendo dato un significato ad “alta complessità”, si traduce in: una stringa è random se è incompressibile. Possiamo quindi dare la definizione di stringa random, dopo aver fatto la seguente osservazione. In un certo senso sarebbe artificioso affermare che la lunghezza della stringa costituisca un criterio per la separazione netta tra random è non-random, ovvero tra incompressibile e compressibile. Sembra opportuno quindi introdurre nella definizione una costante (arbitraria) che comporti un certo intervallo di compressibiltà. Definizione 4.6 (Stringa c-random). Una stringa σ ∈ 2<ω è c-random se è c-incompressibile, ovvero: se, stabilito un margine di incompressibiltà c, C(σ) ≥ l(σ) − c 10 cfr. [Eagle 2010, sottosezione 2.2.1]. 33 Avendo ottenuto la definizione desiderata possiamo passare alla conclusione, in cui sarà recuperato il senso di quanto finora svolto. 34 Capitolo 5 Conclusione 5.1 Tipicalità e incompressibilità Abbiamo ottenuto due definizioni di randomness: una per le sequenze, una per le stringhe. Possiamo chiederci se tali definizioni abbiano o meno relazioni fra loro. Concettualmente si collocano in ambiti ben diversi: la tipicalità è un’idea legata al concetto di misura, riguardante cioè insiemi, l’incompressibilità invece riguarda invece descrizioni e rispettive lunghezze, cioè è legata ad oggetti individuali. Nel capitolo introduttivo però le idee di straordinarietà e regolarità erano strettamente collegate: se una sequenza è regolare allora è straordinaria. Riusciamo ancora a metterle in relazione? 5.1.1 Relazione nel caso delle stringhe Un importante fatto (che si presenta senza dimostrazione) è che per ogni margine di incompressibilità c > 1 la maggior parte delle stringhe di lunghezza n sono c-incompressibili 1 . Quantitativamente, la proporzione tra stringe cincompressibili di lunghezza n e stringhe totali (di lunghezza n) è: 1 − 2−c (in realtà sarebbe 1 − 2−c + 2−n , ma è utile pensare che n, sia “molto grande” e dunque 2−n sia trascurabile). La compressibilità, che corrisponde alla presenza di regolarità nella stringa, comporta dunque la definizione di un insieme ristretto, ovvero la straordinarietà. 1 [Li e Vitányi 2008, 116-117]. 35 5.1.2 Relazione nel caso delle sequenze Fatto rilevante è la possibilità di estendere il concetto di incompressibilità alle sequenze. Per una tale operazione si ricorre ad una modifica della definizione di complessità. Si tratta comunque di una modifica “naturale” 2 : l’idea è quella di utilizzare come descrizioni solo quelle derivate da una codifica che risulti priva di prefissi, ovvero utilizzare descrizioni tali che appartengano a B ⊂ 2<ω in cui non si dà mai il caso per cui esista una stringa prefisso σ tale che α = σδ (σ, δ, γ ∈ B)3 . Denotata con K(σ) questo nuovo tipo di complessità, ridefiniamo il concetto di stringa random secondo l’incompressibilità4 : la stringa σ è random se K(σ) ≥ |σ|. Si definisce poi una sequenza random (denotandola con “K-random”, per distinguerla da quella definita nel Capitolo 3) nel seguente modo5 : chiamiamo sequenza random le sequenze in cui tutti i segmenti (finiti) iniziali sono random (rispetto alla complessità K). Il risultato fondamentale di questa estensione è il seguente teorema (dimostrazione omessa): Teorema 5.1.1 (Teorema di Schnorr). Löf) se e solo se è K-random. 6 Una sequenza è random (Martin- Si tratta di un risultato che lega in modo molto forte le nozioni di tipicalità e compressibilità: gli insiemi delle sequenze random definiti nei due modi coincidono. 5.2 Conclusione/1 Considerando i paradigmi della tipicalità e compressibilità, e le primissime intuizioni di straordinarietà e regolarità, possiamo dire: 1. Nel caso delle stringhe è stato confermato che la regolarità definita attraverso la complessità implica la non straordinarietà (le stringhe non compressibili sono più numerose di quelle compressibili). 2. Nel caso delle sequenze è stata invece dimostrata perfino un’equivalenza. La definizione basata sulla tipicalità equivale a quella basata sulla 2 [Eagle 2010, sottosezione 2.2.2]. [Li e Vitányi 2008, 13]. 4 [Li e Vitányi 2008, 212]; cfr. [Dasgupta 2010, 44]. 5 [Li e Vitányi 2008, 197]. 6 [Eagle 2010, sezione 2.3]. 3 36 compressibilità. Nelle sequenze la regolarità equivale alla straordinarietà. Le intuizioni, meno definite, di straordinarietà e regolarità descritte nel primo capitolo sono quindi mantenute nella loro relazione anche nella formulazione con i paradigmi di tipicalità e compressibilità attraverso i concetti di teoria della misura e complessità algoritmica. Possiamo quindi dire sia che abbiamo ottenuto una adeguata concettualizzazione di sequenza/stringa random, rispondente alle nostre intuizioni, sia che le nostre intuizioni erano buone intuizioni, in grado cioè di condurre ad affermazioni non contrastanti fra loro. 5.3 Una possibile separazione Supponiamo di avere una moneta “truccata”, cioè che “favorisce” un esito rispetto ad un altro. Immaginando tutte le possibili sequenze originate da tale moneta riteniamo che l’insieme per cui la frequenza relativa degli 1 sia uguale a 1/2 non possa avere misura 1, perché altrimenti significherebbe che la moneta non è “truccata”. Infatti la legge forte di Borel è stata (qui) definita rispetto alla misura µ(Λσ ) = ( 12 )|σ| , e tale misura, era stato detto, corrisponde al lancio di una moneta ben bilanciata. La nostra definizione di sequenza random nel Capitolo 3 è stata sempre sottointesa questa misura. Altrimenti, non si sarebbe infatti potuti arrivare all’equivalenza detta dal Teorema di Schnorr: se la frequenza relativa fosse diversa da 1/2, la sequenza sarebbe infatti compressibile in quanto si potrebbero sfruttare per la codifica i blocchi del simbolo “favorito”, blocchi che verebbero a formarsi proprio perché la frequenza relativa per quel simbolo possa essere maggiore di 1/2 7 . La moneta “truccata” ci costringe dunque a dover considerare misure diverse da quella utilizzata. La definizione di sequenza random di Martin-Löf è estendibile anche ad altre misure diverse da quella qui utilizzata8 . Non è possibile fare lo stesso per la complessità9 . Se la moneta è truccata allora vi sono sequenze random secondo Martin-Löf (dopo l’estensione) che non sono random dal punto di vista dell’incompressibilità. Si potrebbe quindi parlare di un caso speciale il 7 [Eagle 2010, section 4.3]. Sull’esigenza di dover modificare la definizione di complessità perché possa rendere conto della moneta truccata vedi: [Earman 1986, 143]. 8 Per l’estensione ad una misura arbitraria vedi [Downey e Hirschfeldt 2010, 263]. 9 [Earman 1986, 144]. 37 caso in cui vale il Teorema di Schnorr, e quindi di una generale incompatibilità tra le due definizioni. Avrebbe però davvero senso tale estensione? Dal nostro punto di vista, no. Un tale tipo di affermazione infatti comporterebbe un tipo di divisione concettuale che non può essere sostenuta se si vuol rimanere aderenti alla data definizione della questione. Osserviamo di che divisione si tratta: [...] there is a concept of randomness and a separable concept of disorder. The concept of disorder is an intrinsic notion; it takes the sequence at face value, caring nothing for genesis, and asks wheter the sequence laks pattern. [...] By contrast, the concept of randomness and the concept of randomness is concerned with genesis; it does not take the sequence at face value but asks wheter the sequence mirrors the probabilities of the process of which it is a product. There is a connection between this concept of randomness and the concept of disorder, but it is not a tight one. The various explications of randomness for infinite sequences guarantee the absence of pattern, but not in as strong a sense as the computational complexity approach [...] [Earman 1986, 145] Non è però per noi ammissibile che una parte della nozione di randomness che abbiamo definito finisca al di fuori dell’ambito in cui esplicitamente doveva ricadere: la «randomness» non può cadere nell’ambito della «genesis». La soluzione al problema consiste quindi nel mostrare che il problema non è un reale problema, in relazione alla definizione della questione. La nostra assunzione della misura µ(Λσ ) = ( 21 )|σ| è stata messa in relazione intuitiva alla situazione in cui la sequenza è originata da infiniti lanci di moneta ben bilanciata. La moneta ben bilanciata serviva solo a rendere più viva l’intuizione riguardante le caratteristiche della sequenza. In nessun modo è stata assunta come giustificazione della definizione della misura utilizzata. In questo modo abbiamo eliminato il problema della moneta “truccata”, ribadendo che la nostra nozione deve rimanere estranea alla «genesis». Rimane però da spiegare il motivo della definizione della misura proprio come µ(Λσ ) = ( 12 )|σ| . Si tratta di un motivo combinatorio, che, si sottolinea, è logicamente indipendente rispetto a nozioni probabilistiche che si applichino al mondo («probabilities of the process»). Date dunque le sequenze binarie, metà di esse comincerà per 0, metà per 1. Metà delle sequenze che cominciano per 0 continuerà con uno 0, l’altra metà con uno 1, e così via. Le nostre sequenze sono solo disposizioni binarie di lunghezza infinita. 38 In questo modo abbiamo chiarito come la nostra assunzione di misura dipenda esclusivamente da considerazioni combinatorie, puramente riguardanti stringhe. Così è eliminata anche la possibilità di estendere la definizione di Martin-Löf a misure diverse: rimanendo legati alla sequenza binaria come pura sequenza di simboli la misura che ragionevolmente si assume è quella indicata dalle ragioni combinatorie. Non avendo dunque ragioni per estendere la definizione di Martin-Löf a misure diverse, il problema della separazione delle definizioni di sequenze random non si pone. 5.4 Conclusione/2 La possibile separazione ci ha costretti a mettere in luce il fatto che la misura deve essere specificata a priori. Esistono buone ragioni perché la misura debba essere scelta nel modo in cui è stata qui scelta. Tuttavia, in conclusione, si potrebbe desiderare definire l’idea di randomness con un unico concetto. In tal caso la scelta ricadrebbe ragionevolmente sul concetto di incompressibilità definito tramite la complessità di Kolmogorov. Ciò sostanzialmente per la ragione: è l’unico dei due che abbiamo definito che sia applicabile tanto al caso finito quanto a quello infinito (ed ha quindi la generalità richiesta). Si può dire inoltre (poiché comunque si potrebbe obiettare che è l’unico applicabile ad entrambi i casi solo relativamente a questo luogo) che esso non richiede considerazioni “esterne”: esso comprende nella propria definizione tutto ciò che è necessario al suo impiego. Esso inoltre ci permette di pensare la randomness in relazione al “contenuto di informazione”. Associando infatti la complessità di un oggetto alla quantità di informazione da esso contenuto, possiamo considerare un oggetto random come un oggetto che contiene “molta” quantità di informazione. Ciò che è adesso solo un vago accenno può essere un’indicazione per lo studio della randomness in quanto caratteristica di una serie di simboli nell’ambito più generale della teoria dell’informazione, dalle cui assunzioni, in risposta ad alcune particolari esigenze, si potrebbero individuare altre precisazioni riguardo al concetto di randomness. 39 Bibliografia Bibliografia nominata [1] [Church 1940] A. Church: On the Concept of a Random Sequence, in bulletin of the american mathematical society, 46 (130–135), 1940. [2] [Dasgupta 2010] A. Dasgupta: Mathematical foundations of randomness (preprint), 2010. [Reperibile in http://dasgupab.faculty.udmercy.edu] [3] [Downey e Hirschfeldt 2010] R. G. Downey e D. R. Hirschfeldt: Algorithmic Randomness and Complexity, Spinger, New York, 2010. [4] [Eagle 2010] A. Eagle: Chance versus Randomness, Encyclopedia of Philosophy, 2010. Stanford [5] [Earman 1986] J. Earman: A primer on determinism, Reidel Publishing Company, Dordrecht, 1986. [6] [Kolmogorov 1965] A. N. Kolmogorov: Three approaches to the definition of the notion of amount of information, in Problemy Peredachi Informatsii, 1 (3–11); anche in selected works of a. n. kolmogorov, volume III, Kluwer Academic Publishers, Dordrecht, 1993. [7] [Laplace 1826] P.-S. de Laplace: Saggio filosofico sulle probabilità, trad. it. Theoria, Roma, 1987. [8] [Li e Vitányi 2008] M. Li e P. Vitányi: An introduction to Kolmogorov Complexity and Its Applications, Springer, New York, 20083 . [9] [Martin-Löf 1966] P. Martin-Löf: The definition of Random Sequences, in information and control, 9 (602-619), 1966. 40 [10] [Rogers 1967] H. Rogers: Theory of recursive functions and effective computability, McGraw-Hill, New York, 1967. [11] [van Lambalgen 1987] M. van Lambalgen: Random sequences, PhD Thesis, 1987. [Reperibile in http://staff.science.uva.nl/∼michiell/] [12] [von Mises 1957] R. von Mises: Probability, Statistics and Truth, Dover, New York, 1981 (ripubblicazione). [13] [von Mises/Geiringer 1964] R. von Mises e H. Geiringer: Mathematical theory of probability and statistics, New York: Academic Press, 1964. Altra bibliografia [14] J.-P Delahaye: Randomness, Unpredictability and Absence of Order, in philosophy of probability, Jacques-Paul Dubucs, Dordrecht: Kluwer, 1993. [15] P. Grünwald e P. Vitányi: Algorithmic complexity, in philosophy of information (Handbook of the Philosophy of science volume 8), Elsevier, 2008. [16] A. N. Kolmogorov: - On tables of random numbers (1963), - To the logical foundations of the theory of information and probability theory (1969), - The combinatorial foundations of information theory and the probability calculus (1983), in selected works of a. n. kolmogorov, volume III, Kluwer Academic Publishers, Dordrecht, 1993. [17] M. Li e P. Vitányi: Philosophical Issues in Kolmogorov Complexity, in lecture notes in computer science, Volume 623 (1-15), 1992. [18] G. Shafer e V. Vovk: Kolmogorov’s contributions to the foundations of probability, “Working Paper” per the game-theoretic probability and finance project (http://www.probabilityandfinance.com), 2003. 41 Indice 1 Introduzione 1.1 Primo contatto . . . . . . . . . . . . . . . . . 1.1.1 Introduzione . . . . . . . . . . . . . . . 1.1.2 Esposizione della questione . . . . . . . 1.2 Definizione della questione, terminologia . . . 1.3 Linea per lo sviluppo . . . . . . . . . . . . . . 1.4 Teoria della misura . . . . . . . . . . . . . . . 1.5 Computabilità . . . . . . . . . . . . . . . . . . 1.5.1 Introduzione . . . . . . . . . . . . . . . 1.5.2 Macchina di Turing . . . . . . . . . . . 1.5.3 Dalla macchina di Turing alla funzione siva di interi . . . . . . . . . . . . . . . 1.5.4 Enumerazione effettiva . . . . . . . . . 1.5.5 Macchina di Turing universale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . parziale ricor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Von Mises 2.1 Introduzione . . . . . . . . . . . 2.2 L’assiomatizzazione . . . . . . . 2.2.1 Definizione di collettivo . 2.2.2 Significato del collettivo 2.3 Consistenza del collettivo . . . . 2.3.1 Wald . . . . . . . . . . . 2.3.2 Church . . . . . . . . . . 2.4 Ville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 15 15 16 17 18 19 20 . . . . . 22 22 23 23 24 24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Tipicalità 3.1 Introduzione . . . . . . . . . . . . . . . . . . 3.1.1 Riformulazione . . . . . . . . . . . . 3.2 Leggi probabilistiche . . . . . . . . . . . . . 3.2.1 Legge forte di Borel . . . . . . . . . . 3.2.2 Normalità (di una sequenza binaria) 42 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 4 4 6 6 8 8 9 . 10 . 12 . 12 3.3 3.2.3 Oscillazioni simmetriche . . . . 3.2.4 In generale . . . . . . . . . . . . Martin-Löf . . . . . . . . . . . . . . . . 3.3.1 Introduzione . . . . . . . . . . . 3.3.2 Misura effettiva . . . . . . . . . 3.3.3 Sequenza random (Martin-Löf) 4 Incompressibilità 4.1 Introduzione . . . . . . . . . . . . 4.2 Descrizione . . . . . . . . . . . . 4.3 Complessità . . . . . . . . . . . . 4.4 Stringa random (incompressibile) . . . . . . . . . . . . . . . . . . . . . . 5 Conclusione 5.1 Tipicalità e incompressibilità . . . . . . . 5.1.1 Relazione nel caso delle stringhe . 5.1.2 Relazione nel caso delle sequenze 5.2 Conclusione/1 . . . . . . . . . . . . . . . 5.3 Una possibile separazione . . . . . . . . 5.4 Conclusione/2 . . . . . . . . . . . . . . . Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 26 26 28 . . . . 29 29 30 31 33 . . . . . . 35 35 35 36 36 37 39 40 43