Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il
Transcript
Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il calcolo delle probabilità Sembra che la nascita del calcolo delle probabilità sia stata in qualche misura favorita dalla cosiddetta “piccola glaciazione”, un mutamento climatico verificatosi in un arco di tempo che va dall'inizio del XIV secolo alla metà del XIX secolo. In questo periodo venne registrato un raffreddamento del clima che raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il 1800. Non stupisce constatare che, nel periodo in cui grandi filosofi come Cartesio e Bacone morivano per un’infreddatura, i pittori davano la preferenza a ritratti e situazioni ambientate in interni. I nobili limitavano il tempo destinato alla caccia e alle attività all’aria aperta, dedicando una buona parte del loro tempo alle letture e ai giochi di società. Questi ultimi erano frequentemente giochi d’azzardo con uso dei dadi, come il gioco della barca o quello del tric-trac. Di solito si fa risalire la prima trattazione della probabilità a un libro di Girolamo Cardano dedicato al gioco d’azzardo, il Liber de ludo aleae (scritto nel 1560, ma pubblicato solo nel 1663) che contiene tra l’altro una sezione dedicata a metodi per barare efficacemente. Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia stato originato da una serie di quesiti che il cavaliere de Méré pose all’austero giansenista Blaise Pascal. Per esempio: “se lanciamo due dadi, quanti lanci sono necessari per avere almeno il 50% di probabilità di ottenere due sei almeno una volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano pubblicate alla fine della Logique de Port Royal (1662). Il salto di qualità rispetto a trattazioni precedenti fu che per la prima volta si cercava di trattare la nozione di probabilità in modo astratto, cioè svincolato dal riferimento all soluzione di specifici problemi. È anche degno di nota che Pascal considerasse la probabilità applicabile alla valutazione delle prove giudiziarie, idea che venne sviluppata da Leibniz nel suo Nova methodus discendae docendaeque jurisprudentiae (1667). Nel 1655 Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una cena, venne a sapere di questi studi e se ne interessò al punto tale da pubblicare nel 1657 il primo trattato conosciuto di calcolo delle probabilità, “De ratiociniis in ludo aleae”. Per la prima volta viene introdotta una nozione che avrebbe avuto fortuna, quella di speranza matematica. La speranza matematica o utilità attesa di un singolo evento è il prodotto del guadagno che si spera di conseguire con il verificarsi dell’evento per la probabilità che tale evento si verifichi. La speranza matematica o utilità attesa di una pluralità di eisti di uno o più esperimenti casuali è la somma dei valori della speranza matematica dei singoli esiti Per esempio, supponiamo di fare una partita a testa e croce con un altro giocatore . Il gioco prevede un solo lancio di moneta: si stipula che se esce Testa vinco €100 e se esce Croce vinco €0, cioè non vinco nulla. L’utilità attesa del gioco è €50. Infatti, stimando al 50% la probabilità di entrambi gli esiti, la somma ( * ) 100 • 0,5 + 0 • 0,5 (cioè il guadagno di "Testa" per la sua probabilità più il guadagno di "Croce" per la sua probabilità) dà come valore 50 +0, cioè 50. Questo valore si può anche chiamare il costo del gioco. E’ quanto ogni giocatore deve spendere per partecipare al gioco con una ragionevole possibilità di successo. Nel caso precedente si assume che i due eventi siano indifferenti o equiprobabili. Ma se sapessimo che la moneta è sbilanciata a valore di Teste, in modo tale che la probabilità di Teste è 0,6 e la probabilità di Croce 0,4, avremo un risultato diverso, cioè Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. ( °)100 • 0,6 + 0 • 0,4 = 60 Si noti che il rapporto tra probabilità matematica e speranza matematica è bidirezionale, nel senso che conoscendo la speranza matematica di un singolo evento e dell’evento opposto, quindi il costo del gioco, potremmo derivare la probabilità dell’evento stesso. Per esempio, dalla relazione (°), ponendo come valore incognito x la probabilità di Teste e quindi 1-x quello di Croce avremmo (1) 100 • x + 0 • (1-x) = 60 (2) 100 • x + 0 = 60 (3) 100 • x = 60 (4) x= 60/100 = 0.6 La probabilità dell’uscita di Testa quindi viene espressa come un rapporto tra il costo del gioco e il guadagno sperato dal verificarsi dell’uscita di Teste. La conclusione suggerisce fortemente la possibilità di definire la nozione di probabilità in termini di rapporti tra somme di danaro, idea che è diventata quasi un luogo comune nella corrente novecentesca nota come “soggettivista”. D’altro canto, nel calcolo della speranza matematica l’assegnazione di valori come 0,6 nell’ esempio precedente può derivare non da valutazioni aprioristiche o semplicemente soggettive ma dalla conoscenza di fatti oggettivi circa le proprietà della moneta, o più semplicemente dalle frequenze statistiche dell’uscita di testa in un grande numero di lanci. Quando Huygens inaugurava queste ricerche la statistica muoveva i suoi primi passi sull’onda degli interessi delle compagnie di assicurazione, alle quali premeva conoscere con esattezza la speranza di vita dell’assicurato al momento della stipula della polizza. È degno di nota, come ha osservato Ian Hacking in “The Emergence of Probability”, che la probabilità fin dall’inizio reca il marchio di una “dualità” concettuale di fondo: da un lato è interpretabile come il grado di credenza soggettiva, dall’altro si può rappresentare come una misura di frequenze statistiche oggettive (chance). Lo stesso Pascal mostrava una certa ambivalenza nel momento in cui da un lato studiava statisticamente le distribuzioni di risultati nei giochi di azzardo, ma dall’altro usava il celebre argomento della scommessa per mostrare la superiore razionalità di chi sceglie di credere in Dio. Inoltre, in tema di probabilità statistica o “oggettiva”, va subito considerato che questa va distinta dalla probabilità teorica dell’evento a cui si riferisce. Il modo in cui va determinata la probabilità teorica, come vedremo, è oggetto di discussione filosofica: per ora possiamo dire che è quella che si può stabilire a piori in base a una considerazione idealizzata delle proprietà dell’oggetto in questione. Se la probabilità teorica p dell’uscita di testa è, poniamo, 0,5, le percentuali di testa m che vengono effettivamente osservate dopo un certo numero di lanci n, espresse dalla frazione m/n,possono essere inferiori, superiori o uguali a 0,5. La differenza in valore assoluto tra frequenza osservata m/n e la probabilità teorica p, |m/n - p|, è detta scarto e le sue proprietà sono stata oggetto di uno studio matematico rigoroso. Il famoso teorema di Bernoulli, detto anche legge debole dei grandi numeri, asserisce che con l’aumentare del numero n di esperimenti aumenta la probabilità che lo scarto diventi più piccolo di un qualsiasi numero positivo ε è preso piccolo a piacere. In parole povere, con l’aumentare degli esperimenti è sempre più probabile che lo scarto diventi sempre più piccolo. Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra probabilità teoriche e frequenze. Contrariamente a quanto molti sono inclini a pensare, la proposizione non asserisce che nella realtà le frequenze a lungo andare tendono a coincidere con le probabilità teoriche. Questo secondo asserto non è una proposizione matematica - viene a volte chiamato Postulato empirico del caso- e descrive una proprietà riscontrabile da sempre nel nostro mondo reale, cioè quella di presentare una persistente uniformità spazio-temporale delle manifestazioni fenomeniche. Grazie a tale Uniformità della Natura, di fatto, le frequenze osservate tendono a convergere a lungo andare verso la probabilità teorica: ma, ripetiamo, questa non è una verità di fatto ma non una verità Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. matematica. I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità tra il 600 e l’ 800 sono quello di Leibniz – che, incidentalmente, essendo laureato in legge era interessato ad applicare il calcolo alla valutazione delle prove – e quelli di De Moivre, di Bernoulli e di Laplace . Inoltre vanno ricordati Thomas Simpson e Carl Friedrich Gauss (che posero le basi della cosiddetta teoria degli errori). Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due regole di calcolo fondamentali, che vennero considerate veri e propri principi basilari fino a raggiungere la loro forma definitiva nell’ assiomatizzazione insiemistica formulata da A. Kolmogorov (1932). Ne parleremo come di Principio delle Probabilità Totali e delle Probabilità Composte: il primo utilizzabile per sommare probabilità, il secondo per moltiplicare probabilità. Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 ∪E2 la loro unione (piove oppure tira vento), E1 ∩ E2 la loro intersezione (piove e tira vento) –E1 il complemento di E1 (non piove). Queste entità sono da intendere come insiemi, e precisamente come insiemi di casi in cui si verifica un certo evento. Volendo intendere queste grandezze come proposizioni, si preferisce usare un’altra notazione, cioè E1 ∨ E2, E1 ∧ E2, ¬E1. Pr sia una funzione che associa ad ogni evento un numero razionale o irrazionale tra 0 e 1 (funzione di probabilità). Questo si esprime dicendo che, per ogni evento Ei, (Pr) 0 < Pr(Ei) < 1 Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a “piove”) nessun evento può avere probabilità maggiore dell’ evento totale Ei ∪ –Ei (es. piove o non piove), dato che questo evento ha la stessa certezza delle verità logico-matematiche. Quindi integreremo (Pr) con questo secondo principio: (N) Per ogni Ei, Pr (Ei ∪ -Ei )=1 . Fatte queste premesse, il principio delle probabilità totali asserisce questo: (PT) Pr (E1 ∪ E2) = Pr E1 + Pr E2 – Pr(E1 ∩ E2) Per calcolare il valore della probabilità dell’evento composto sulla sinistra bisogna conoscere i valori di input che si trovano sulla destra, che sono le c.d. “probabilità iniziali”. Nel caso del nostro esempio è difficile determinare la probabilità che piova, che tiri vento o che piova e tiri vento insieme, a meno di ricorrere a qualche statistica metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo ricorrere a valutazioni “a priori” : per esempio pochi troveranno da ridire sul fatto che in un mazzo di 52 carte non truccato la probabilità di sorteggiare un asso è 1/13 e quella di sorteggiare una carta di picche è 1/4. Se le cose stanno così, qual è la probabilità di sorteggiare un asso o una carta di picche? Risposta. La probabilità richiesta è la probabilità di sorteggiare un asso (1/13) più la probabilità di sorteggiare una carta di picche (1/4) meno la probabilità di sorteggiare un asso di picche (1/52). Quindi abbiamo (1/13 + ¼) – 1/52 = (4/52+ 13/52) – 1/52 = 16/52=0,3076923. Se gli eventi E1 ed E2 sono incompatibili il calcolo delle probabilità totali viene semplificato perché Pr(E1 ∩ E2)= 0. In particolare, se E2 è –E1, avremo Pr (E1 ∪ -E 1) = Pr (E1) + Pr(-E1) Quindi, stante che per (N) Pr (E1 ∪ -E1) =1, avremo 1 = Pr (E1) + Pr(-E1). Da ciò naturalmente segue Pr(-E1) = 1 – Pr(E1) Il Principio delle Probabilità Composte invece consente di calcolare le probabilità di eventi congiunti. Indichiamo con Pr(E2| E1) la probabilità di E2 dato E1 (detta probabilità subordinata o condizionata): per esempio la probabilità che piova sapendo che tira vento. Allora il principio asserisce questo: Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. (PC) Pr(E1 ∩ E2) = Pr(E1) • Pr(E2| E1) Dato che E1 ∩ E2 = E2 ∩ E1, vale però anche (PC*) Pr(E1 ∩ E2) = Pr(E2) • Pr(E1| E2) Pr(E2| E 1) = Pr(E2) significa che i due eventi sono indipendenti, o in altre parole che E1 non influenza E2 e E2 non influenza E1. Se vale l’indipendenza tra E1 e E2, però, la formula PC si riduce a (PC**) Pr(E1 ∩ E2) = Pr(E1) • Pr(E2) Esempio1: Qual è la probabilità che in un lancio di due dadi non truccati escano due 3? Pr E1= 1/6, Pr(E2) = 1/6, Pr(E2| E1)=1/6 (perché i due eventi sono indipendenti): quindi Pr( E1∩ E2) = 1/6 • 1/6 = 1/36 Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P) non sono indipendenti, anzi la pioggia implica il maltempo! Quindi Pr(M|P) =1. Quindi la probabilità che piova e ci sia maltempo (Pr(P ∩ M) è uguale a Pr(P) • Pr(M|P) = Pr(P) •1 =Pr(P). Dal principio delle probabilità composte seguono alcune conseguenze interessanti. La prima è che la nozione di probabilità condizionata o subordinata risulta definibile in termini di probabilità assoluta. Infatti, se A e B sono eventi qualsiasi, come sappiamo, (PC) Pr(A ∩ B) = Pr(A) • Pr(B|A) Ma da ciò abbiamo (se Pr(A) ≠ 0) (ProbC) Pr(B|A) = Pr(A ∩ B) Pr (A) Questo non va confuso con l’eguaglianza (ProbC*) Pr(A|B) = Pr(A ∩ B)/Pr(B) (se Pr(B)=/0) da cui (PC*) Pr(A ∩ B) = Pr(B) • Pr(A|B) Facendo in ProbC una semplice sostituzione garantita dall’identità PC*, (se Pr(A) ≠0) (TB) Pr(B|A) = Pr(B) • Pr(A|B) Pr(A) Volendo eliminare la frazione avemo (TB-) Pr(B|A) = Pr(B) • Pr(A|B) • Pr 1/A (se Pr(A) ≠0) Questa formula si può trasformare in formule equivalenti più complesse. Se -B è un’ipotesi alternativa incompatibile con B (p.es. “pari” e “dispari”), abbiamo ovviamente per il principio delle probabilità composte Pr(A ∩ -B) = Pr(-B) • Pr(A|-B) Ora osserviamo che , per la teoria degli insiemi, A = (A ∩ B) ∪ (A ∩ -B), come si vede da una semplice diagrammazione. Si noti ora che il denominatore della frazione in TB è equivalente a Pr ((A ∩ B) ∪ (A ∩ -B)). Questo per il teorema delle probabilità totali, essendo incompatibili i due eventi A ∩ B e A ∩ -B, equivale alla somma Pr(-B) • Pr(A|-B) + Pr( B) • Pr(A|B). In tal caso la formula TB prende la segueunte forma più complessa: (se Pr(A) ≠0) (TB*) Pr(B|A) = ____Pr(B) • Pr(A|B) Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B) Ovviamente, se le ipotesi incompatibili sono non solo due ma n (B1...Bn), la formula TB* si può generalizzare a n ipotesi. TB (insieme alle sue varianti come TB*) è un fondamentale teorema, noto come teorema di Bayes, considerato un pilastro del calcolo delle probabilità. Il suo nome deriva a dal matematico che ne diede la prima formulazione in un saggio pubblicato postumo nel 1763 (in realtà, Bayes era un reverendo presbiteriano nato nel 1702 e morto nel 1761) . Secondo un luogo comune, Il Teorema di Bayes ha Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. per il calcolo della probabilità la stessa importanza che ha il teorema di Pitagora per la geometria. Conoscendo o assumendo i valori di Pr(B) e Pr(A), infatti, è possibile calcolare la probabilità di B dato A in termini della probabilità inversa di A dato B, che viene talvolta chiamata verosimiglianza (likelyhood). È quindi possibile calcolare la probabilità della causa dato l’effetto, o dell’ipotesi esplicativa (explanans) dato l’ explanandum, una volta che sia nota la probabilità dell’effetto data la causa o dell’explanandum dato l’explanans. Alcune considerazioni sul calcolo delle probabilità sono a questo punto opportune.La funzione di probabilità in effetti è solo una speciale funzione di misura. Le grandezze misurate si possono pensare nella fattispecie come le dimensioni di classi di punti dello spazio-tempo: la classe totale dei punti (quella in cui sono vere le tautologie) ha probabilità 1, la classe vuota (in cui sono vere le contraddizioni) ha probabilità 0. Un’ interpretazione più restrittiva ma più efficace sta nel vedere le classi di punti come classi di mondi possibili. Gli eventi contingenti hanno probabilità intermedie tra 0 e 1. Il calcolo delle probabilità non è altro che un insieme di metodi per calcolare le misure di eventi complessi (uniti o congiunti) partendo dalle misure di eventi più semplici. Si tratta dunque semplicemente di un meccanismo input-output che, dati certi valori in ingresso, produce altri valori in uscita. Questo ci pone di fronte a un problema che il calcolo in quanto tale non è in grado di risolvere. Per quanti calcoli si possano fare, dobbiamo sempre prendere le mosse da un input costituito da certi valori probabilistici iniziali, i quali non si possono a loro volta calcolare da altri valori probabilistici. Il problema di stabilire le probabilità iniziali non ha risposte di tipo matematico. La sua soluzione dipende da assunzioni filosofiche ben precise circa la nozione stessa di probabilità. A seconda della risposta che viene data, cambiano i critieri di assegnazione dei valori di input, il che può avere conseguenze considerevoli anche sulle applicazioni del calcolo. È inevitabile quindi esaminare le alternative elaborate dai filosofi per rispondere a questa basilare e difficile domanda: che cosa è la probabilità? Vedremo anche che il calcolo delle probabilità classico (che è quello che è stato qui presentato) ha dato adito a critiche,e proprio nell’applicazione al diritto. Sono state proposte altre assiomatizzazioni e quindi, dato che gli assiomi definiscono implicitamente il loro oggetto, altre nozioni di probabilità. Le seguenti curiosità probabilistiche, alcune delle quali hanno aspetti sicuramente paradossali, hanno sicuramente offerto spunti per l’elaborazione di costruzione alternative a quella classica. Curiosità probabilistiche. A) Se la probabilità di avere un figlio maschio dato che si hanno già avuti due figli maschi è ½, qual è la probabilità di avere tre figli maschi in fila? La risposta è 1/3 ● 1/3●1/3, cioè 1/8. Si noti che qualunque successione di maschi e femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A parità di ragionamento , qualunque successione di uscite di numeri rossi e neri alla roulette (ignorando lo zero, che è verde) ha sempre la stessa probabilità di qualsiasi altra sequenza ordinata di uscite della stessa lunghezza. Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la domanda “qual è la probabilità di avere un figlio maschio dato che si sono già avuti due figli mschi non è 1/8 ma ½. Analogamente, la probabilità che esca un numero rosso alla roulette dato che sono usciti 10 numeri neri è sempre invariabilmente ½. B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità, ha immaginato che un medico privo di scrupoli potrebbe pubblicare su un quotidiano la seguente inserzione, rivolta ai coniugi desiderosi di avere un figlio maschio :«Dietro invio di 500 euro, riceverete da me la ricetta infallibile per avere un maschio. Soddisfatti o rimborsati». Il rimborso ha lo scopo naturalmente di garantire l'affidabilità del metodo. La ricetta può essere una qualsiasi pillola di zucchero colorata. In tal modo Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. egli può incassare, poniamo, su 1000 adesioni, 500.000 euro. Poiché il 50% dei neonati sono in ogni caso maschi, egli dovrà rimborsare al rimanente 50% un totale di 500 x 500 =250.000 euro, con un guadagno netto di 250.000 euro. Anzi, per ogni femmina nata egli potrebbe tranquillamente aggiungere altri 250 euro ai 500 rimborsati e guadagnare comunque nel lungo periodo una somma di tutto rispetto. . 3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente nel pubblico potete procedere come racconta Richard Dawkins. «Prima di tutto vediamo se il sensitivo si trova nella metà destra o nella metà sinistra della sala» esordii. Quindi invitai la gente ad alzarsi e pregai il mio assistente di lanciare una moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere» che venisse fuori testa, a tutte quelle sul lato destro di «volere» che venisse fuori croce. Ovviamente uno dei due schieramenti perse, e venne invitato a sedersi. Quelli che erano rimasti in piedi furono divisi in due: metà che «volevano» che uscisse testa e metà che «volevano» che uscisse croce. Ancora una volta i perdenti furono fatti sedere e ancora una volta si procedette a dividere i vincenti, finché, dopo sette o otto lanci di monetina, com'era inevitabile, rimase in piedi una sola persona. «Un grande applauso per il nostro sensitivo!» esclamai. Non era forse un sensitivo uno che era riuscito a «influenzare» la moneta otto volte di seguito? 4)-La probabilità che due persone scelte a caso abbiano lo stesso compleanno, sulla base di considerazioni sia a priori che a posteriori, è 1/365. Ora prendiamo una stanza in cui siano presenti solo 23 individui: i matematici possono dimostrare che vi sono più di 50 probabilità su cento che almeno due di essi siano nati lo stesso giorno. Lasciamo perdere gli anni bisestili, che complicano inutilmente le cose, e supponiamo di scommettere con voi che delle 23 persone presenti, come minimo due siano nate lo stesso giorno. Tanto per stare al gioco,voi scommettete che non ci siano compleanni comuni. Faremo il calcolo in modo da arrivare ai 23 individui gradualmente: cominceremo da uno solo e aggiungeremo gli altri uno alla volta. Se a un certo punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di giocare e non staremo a curarci dei rimanenti individui. Se invece arriveremo al ventitreesimo senza avere trovato il «gemello», a vincere sarete voi. Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le probabilità che non vi sia alcun «gemello» sono, banalmente, pari a 1 (365 probabilità su 365). Aggiungiamo adesso il soggetto B: le probabilità diventano che vi siano due gemelli sono 1 su 365, quindi la probabilità che non vi siano «gemelli», l’evento complementare, è data da 364/365. Facciamo entrare ora una terza persona, C: c’è 1 una probabilità su 365 che C sia nato lo stesso giorno di A e una su 365 che sia nato lo stesso giorno di B, sicché le probabilità che non sia «gemello» né di A né di B sono 363/365, (non può essere «gemello» di entrambi, perché sappiamo già che A e B non sono nati lo stesso giorno). Per sapere quali siano complessivamente le probabilità che non si verifichi un «gemellaggio», dobbiamo prendere 363/365 e moltiplicarlo per le probabilità che non si sia verificato un gemellaggio nei casi precedenti, ovvero, nell'esempio specifico, moltiplicarlo per 364/365. Lo stesso ragionamento vale quando aggiungiamo la quarta persona, D. Le probabilità totali che non vi siano «gemelli» diventano 364/365 ● 363/365 ● 362/365. E così via, finché nella stanza non abbiamo 23 persone. Ogni nuova persona ci porta un nuovo termine da aggiungere alle moltiplicazioni da fare per calcolare le probabilità che il «gemello» non si presenti. Se si procede con tali moltiplicazioni fino ad avere 23 termini (l'ultimo dei quali sarà 343/365), l'esito sarà 0,49: ed è questa la probabilità che non vi siano nella stanza individui nati lo stesso giorno. Vi sono quindi probabilità lievemente superiori al 50 per cento (0,51) che almeno due persone in una compagnia di 23 siano «gemelle». Basandosi sull'intuizione, la Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. maggior parte della gente scommetterebbe contro il «gemellaggio», ma sbaglierebbe. È proprio questo il tipo di errore intuitivo che ci induce a considerare arcane alcune coincidenze che sono normalissime. 4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria con un milione di biglietti, uno solo dei quali sarà vincente. Comprando un biglietto si ha la certezza pratica di perdere (stante che la certezza pratica è data da 1- ε). Così chiunque compri un biglietto ha la stessa certezza pratica. È dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si sa che certezza che qualche biglietto vincerà. Questo paradosso, evidenziato da Henry Kyburg, mira a evidenziare le difficoltà del concetto di accettazione razionale: Infatti appaiono consistenti tra loro questi tre principi: i) è razionale accettare una proposizione che è molto probabilmente vera ii) non è razionale accettare una proposizione inconsistente (autocontraddittoria) iii) se è razionale accettare A e accettare A’, è razionale accettare la congiunzione A & A’. (Nel caso dell’esempio: se è razionale accettare la perdita di Tizio perchè praticamente certa e anche la perdita di Caio perchè praticamente certa, allora è razionale accettare la perdita di Tizio e Caio). Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo stesso Kyburg a proporre la sua rimozione. Il paradosso mette sotto accusa la nozione di certezza pratica, che può essere identificata con la nozione di certezza oltre ogni ragionevole dubbio. Questa nozione, come è noto, è di uso corrente nei processi penali quando si tratta di valutare il peso delle prove. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. LEZIONE 2. Concezioni della probabilità La più semplice e intuitiva definizione di probabilità è ancor oggi quella chiamata “classica”, la cui formulazione si deve al sommo astronomo Pierre Simon de Laplace (1742-1826), detto il “Newton francese”. Secondo la concezione laplaceana, la probabilità di un evento E è il rapporto tra i casi favorevoli al verificarsi di E e i casi possibili, purchè egualmente possibili. Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al lotto sulla ruota di Milano con una sola estrazione, i passi da fare per determinare questo valore sono i seguenti : (1) osservare che i casi possibili sono 90 (2) osservare che tali casi sono equipossibili (3) osservare che le possibilità di estrarre un numero pari entro le 90 possibilità sono 45, quindi i casi favorevoli sono 45. La risposta è data dunque dal rapporto tra 45 e 90, ossia 0,5. Se i casi non sono equipossibili la risposta non può essere data. Se, per esempio, mi chiedo qual è la probabilità che un certo aereo cada nella prossima settimana, i casi possibili sono due (cade/non cade), ma fortunatamente in condizioni normali non c‘è motivo di considerarli equipossibili. La clausola della equipossibilità è una fonte di dubbi filosofici. Se equipossibile vuol dire “equiprobabile” la definizione complessiva diventa circolare perché si definisce la probabilità in termini di probabilità. La soluzione è offerta dal cosiddetto “principio di indifferenza” o di “ragione insufficiente”: sono probabilisticamente uguali quelle alternative per le quali non abbiamo motivo di attenderci il verificarsi dell’una piuttosto che dell’altra. È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle probabilità dal dominio dei fatti naturali a quello dei fatti umano -sociali, compresa la probabilità delle testimonianze nei processi e delle sentenze nei tribunali. Da questo punto di vista egli seguiva una linea di ricerca già avviata da Leibniz, che prima di darsi alla filosofia aveva praticato studi di giurisprudenza. La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile determinismo che lui riteneva ad esso connaturato è espresso dalla brillante metafora del “demone di Laplace”: un demone onnisciente che conosca con esattezza al momento attuale la posizione e la velocità di ogni particella è in grado di predire con precisione assoluta tutti gli eventi futuri e retrodire tutti gli eventi passati. Nella mente del demone onnisciente non esistono incertezze. La probabilità è in effetti il prodotto della nostra ignoranza, che ci distingue dalla condizione divina : “parlando rigorosamente, quasi tutte le nostre conoscenze non sono che probabili: e anche quelle pochissime che stimiamo certe, persino nelle scienze matematiche, ci sono date dall’induzione e dall’analogia che, strumenti principali per giungere alla verità, si fondano sulle probabilità “. Così egli scrive nella prima pagina del celebre “Saggio filosofico sulle probabilità”. Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal c.d.Principio di Indeterminazione di Heisenberg (1925) e più generalmente dalla meccanica quantistica, che esclude che sia possibile misurare con precisione illimitata posizione e velocità di ogni particella (per tacere di altre coppie di proprietà dette “coniugate”). Di fatto. anche se non in teori, gli eventi singoli sono imprevedibili anche in fenomeni caotici con alto grado di complessità. L’urto di milioni di molecole in un millimetro cubo di gas rende di fatto imprevedibile la loro posizione un secondo dopo che la posizione di tutte fosse stata accertata, per assurdo, con totale esattezza. Quindi, anche se in teoria un demone laplaceano potrebbe in teoria prevedere la posizione di tutte le molecole, da un punto di vista pratico non c’è differenza tra l’indeterminazione dei fenomeni quantistici e dei fenomeni prodotti dal caos deterministico. Secondo la concezione classica la determinazione delle probabilità è una procedura aprioristica, o in altri termini non dipende da informazioni derivate dall’esperienza ma dallo stato di conocenza del soggetto. In quanto tale ha tutti i numeri per essere mal vista dagli empiristi, secondo i quali ogni conoscenza genuina deve provenire dall’esperienza stessa. A parte i pregiudizi filosofici, l’ idea di basare la conoscenza non sull’esperienza vissuta ma sull’ignoranza di qualcosa è una fonte di difficoltà Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. e di paradossi. Supponiamo per esempio che una persona che estrae una pallina da un’urna a sappia che l’urna a contiene un numero uguale di palline bianche e nere, mentre tutto ciò che sa circa l’urna b è che contiene palline bianche e nere, senza sapere se sono in numero uguale o diverso. Secondo il principio di indifferenza, questa persona in ambedue i casi deve assegnare ½ all’estrazione di una biglia bianca (o nera), mentre è chiaro che nei due casi il grado di incertezza è differente. A parte riserve di indole filosofica come quella citata, bisogna ammettere che l’applicazione della teoria laplaceana è spesso problematica fuori dal settore dei giochi d’azzardo. Alcune difficoltà dipendono dal fatto che è arduo enumerare tutte le alternative possibili entro un dato esperimento,ed è ancora più difficile dire se esse sono equipossibili nel senso descritto dal principio di indifferenza. Fa capolino qui il fastidioso germe del soggettivismo: soggetti diversi possono avere informazioni diverse circa le alternative, cosicchè le alternative che appaiono indifferenti ad uno possono apparire differenti a qualcun altro. A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i c.d. “paradossi di Bertrand”. Esempio. Supponiamo di sapere che un’auto ha impiegato un tempo compreso tra 1 e 2 minuti (quindi tra 60 e 120 secondi) per percorrere 1 Km. Diremo che per noi è indifferente la stima di 60-90 secondi e quella di 90-120 secondi: quindi la probabilità che la lunghezza del viaggio appartenga al primo intervallo è uguale a quella che appartenga al secondo. Il valor medio di questa stima del tempo impiegato è qundi di 90 secondi per 1Km. Veniamo poi a sapere che la velocità media della macchina era compresa tra i 30 km/h e i 60 Km/h. Applicando il principio di indifferenza, quindi, per noi la probabilità che viaggiasse tra 30 km/h e 45 km/h è la stessa che viaggiasse tra 45 km/h e 60 km/h. Ora il valor medio della prima stima dovrebbe corrispondere al secondo valor medio, cioè 45 km/h. Ma così non è: se una macchina impiega 90 secondi per percorrere 1 Km vuol dire che in un’ora, cioè in 3600 secondi, percorrerà 40 Km, non 45 Km ! John Maynard Keynes nel suo Treatise of Probabilities ha individuato un’ampia classe di problemi inerenti al principio di indifferenza, evidenziando che molte difficoltà sono prodotte non solo da aspetti matematici, ma anche da aspetti linguistici. Se, per esempio, in una libreria buia mi chiedo qual è la probabilità di toccare un libro nero, posso dire che in condizioni di ignoranza le alternative che mi sono indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta uguale a ½. Me se tengo conto del fatto che i colori dell’iride sono 7, allora tale probabilità è 1/7. Per cui dovremmo avere ½=1/7, il che è assurdo. A queste difficoltà concettuali si sommano difficoltà di indole pratica. Di fatto, nel quadro classico l’applicazione del calcolo della probabilità sarebbe giustificata solo nei casi in cui si danno alternative equipossibili, o presunte tali. Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo, qual è la probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i ferri di una certa operazione chirurgica, perché le alternative da esaminare non sono equipossibili - anzi è da notare che è proprio la bassa probabilità dell’alternativa infausta che rende interessante la domanda, in quanto ci fa valutare se vale la pena di correre o non correre il rischio ad essa connesso. Secondo Keynes ed altri che hanno tentato di modernizzare la concezione classica, nei casi in cui i calcoli numerici non sono applicabili possiamo sempre ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo, che un’alternativa è più probabile di un’altra e ambedue sono più probabili di una terza. Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità empiristica, per la quale non esistono conoscenze a priori (e nemmeno sintetiche a priori, con buona pace dei kantiani), spingeva verso una definizione oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi di R. Ellis e J.Venn, per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso accomunati sotto la denominazione di frequentisti. Da un punto di vista strettamente empirista, l’affermazione che le varie alternative, per esempio nel Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. lancio di un dado, sono equipossibili, ha un senso solo se si può provare sperimentalmente che il dado in questione non è stato truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a scapito delle altre. Ma a rigore l’unico modo per raggiungere la certezza dell’equipossibilità sta nel lanciare il dado in questione un numero illimitato di volte e verificare poi che le percentuali di uscite di tutte le facce “tendono”, a lungo andare, ad essere uguali. Con ciò però si compie un salto da un campione finito di dati a un insieme infinito di dati che mal si concilia con l’oggettività sperimentale richiesta dagli empiristi. Secondo Ellis questo ricorso a una serie infinita di esperimenti, cioè a qualcosa di non sperimentabile in linea di principio, è un’ idealizzazione che si giustifica come tutte le altre idealizzazioni impiegate nella scienza (p.es. quando si immagina il movimento di un corpo su un piano senza attrito). Venn chiamava serie queste successioni in cui le fluttuazioni di frequenze registrate a un certo punto si stabilizzano e convergono verso un valore che si può considerare il limite della serie stessa. Il passo successivo, che poi verrà perfezionato da von Mises, è quello di identificare questo limite con la probabilità del tipo di evento in questione (non, si badi, del singolo evento, dato che la probabilità riguarda classi di eventi dello stesso tipo). Si noti che, ovviamente, il limite di cui si parla qui è diverso da ciò che in matematica si chiama limite delle successioni numeriche convergenti, dato che quest’ ultimo si può calcolare rigorosamente con metodi matematici. Nelle successioni empiriche un calcolo matematico di questo genere è impossibile. Anzi, a rigore, non si ha neppure la certezza che il limite cercato esiste, perché non c’è contraddizione nel ritenere che la parte sconosciuta della serie abbia proprietà diverse da quella conosciuta. Più generalmente, estraendo un campione da un universo di dimensioni illimitate, non abbiamo nessuna garanzia che le proprietà riscontrate nel campione siano le stesse presenti nell’universo. Ma questo è il vecchio problema dell’Uniformità della Natura. Non c’è una garanzia logica che il futuro di una successione di eventi sarà uguale al passato, anche se è perfettamente irragionevole supporre il contrario. Von Mises divenne un esponente di spicco del circolo di Berlino, nato alla fine degli anni 20 per gemmazione del circolo di Vienna. L’idea basilare di von Mises è che si può parlare di probabilità di un evento E quando entro un certo “collettivo” (insieme di eventi o dati dello stesso genere) si ha ragione di pensare che le frequenze osservate di E, se protratte illlimitatamente, tendano verso un limite. Von Mises non tardava tuttavia a rendersi conto che, perché si possa calcolare la probabilità, non tutti i collettivi si prestano al calcolo del limite. Una successione di pietre miliari che presenti delle pietre bianche ogni cento metri e una pietra rossa ogni chilometro rende facile calcolare che la probabilità di trovare una pietra rossa è 1/10, ma non ha molto senso parlare di probabilità di un risultato che è prevedibile, e quindi necessario, in quanto costruito esattamente con quello scopo. Se, per ipotesi, si togliessero dalla successione tutte le pietre che si trovano al 10° posto, la probabilità di incontrare pietre rosse scenderebbe dal 10% a 0 : in realtà la successione in oggetto è priva di una qualità essenziale per stabilire il limite delle frequenze osservate, quella di essere irregolare o randomizzata. Von Mises ha cercato di definire con grande accuratezza la nozione di collettivo irregolare, puntando sull’idea che un collettivo è irregolare quando il limite stimato è insensibile alle c.d. “scelte di posto”. effettuate secondo qualche regola prefissata (per esempio, risulta lo stesso entro le sottosuccessioni determinata dalla scelta dei posti pari). Nonostante questo importante contributo matematico, che lo ha portato a definire anche operazioni su collettivi, von Mises non ha potuto evitare che la sua teoria andasse incontro a banalizzazioni. A meno che non si definisca rigorosamente il concetto di regola, si può trovare sempre una regola stramba che genera un sottosuccessione tale da modificare il valore del limite. Più in generale, come avevano già osservato Schlick e Wittgenstein, data qualsiasi successione finita di numeri, per quanto bislacca, (p.es. 1, 177, 176) troviamo sempre una regola altrettanto bislacca che concorda con la successione (si tratta di un paradosso a volta indicato come “paradosso di Wittgenstein”). Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il ragionamento Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. induttivo, come è noto, consiste nel riscontrare nel campione una certa proprietà e proiettarla sull’universo: per esempio dopo aver osservato un campione di smeraldi che sono solo solo verdi inferiamo che tutti gli smeraldi sono verdi. Ma allo stesso modo in cui ci regole abnormi ci sono anche predicati abnormi, come ravvisato da N.Goodman nel c.d. “paradosso del grue-bleen”. Il predicato “verde ed esaminato prima del 3000” implica un predicato bizzarro ma perfettamente legittimo come “verde ed esaminato prima del 3000 oppure blu ed esaminato dopo il 3000”(grue o verdlù) . Si noti però che se è vero che tutti gli smeraldi sono verdlù, questa è una disgiunzione in cui il primo disgiunto risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto risulta necessariamente vero. Dunque concludiamo che dopo il 3000 tutti gli smeraldi saranno blu. Con ciò non si fa altro che ribadire che l’uniformità della natura non è giustificata né da ragionamenti deduttivi né da ragionamenti induttivi: infatti il paradosso di Goodman evidenzia che non c’è nessuna contraddizione logica nel pensare che gli smeraldi nel 3000 si trasformino da verdi in blu. Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua teoria dei collettivi, ma trascurava il fatto che in meccanica quantistica si parla di probabilità di eventi singoli (p.es. la probabilità che un atomo isolato si trovi in una certa condizione) e non di tipi di eventi, come richiesto dalla sua versione del frequentismo. Hans Reichenbach ha fatto progredire la scuola frequentista mostrando che si può, comunque, definire la probabilità come limite delle frequenze lasciando cadere le restrizioni poste da von Mises. Abbandonando la nozione di collettivo, Reichenbach chiedeva, in primo luogo, che quella che lui chiama classe di riferimento (quella, cioè, entro cui vengono rilevate le frequenze) oltre ad essere il più possibile grande sia formata da elementi che sono simili per aspetti rilevanti a quelli dell’elemento dotato del predicato di cui intendiamo calcolare la probabilità. Per fare un esempio, se voglio sapere qual è la probabilità che il Sig. Rossi abbia un incidente automobilistico, sceglierò una classe di riferimento costituita da soggetti del tipo di Rossi. Includerò in primo luogo elementi che siano soggetti al rischio di avere un incidente automobilistico. Escluderò quindi pietre, gatti, pappagalli e mi atterrò a soggetti umani, anzi a soggetti simili a Rossi per aspetti importanti: escluderò pertanto soggetti a lui simili per avere calzini blu (perché l’avere calzini blu piuttosto che di altro colore è irrilevante per l’attributo) oppure per il fatto che come lui leggono libri gialli. Viceversa la classe di riferimento dovrà contenere soggetti, per esempio, che siano simili a lui per il sesso, per l’età e per il tipo di macchina che possiedono. Secondariamente, la frequenza dell’attributo riscontrata nella classe di riferimento deve essere la stessa anche in tutte le sue sottoclassi di questa. Nella terminologia di Reichenbach la classe di riferimento deve essere omogenea, cioè deve essere insensibile, nel rilevamento delle frequenze, rispetto a partizioni operate secondo qualche attributo che influenzi la frequenza dell’attributo in questione (“avere incidenti automobilistici”). Non compariranno, quindi, nella classe dell’ esempio, soggetti che sono proprietari di macchine le quali, pur essendo della stessa marca di quella di Rossi, abbiano un difetto ai freni, perché nella sottoclasse costituita da questi si potrebbero riscontrare frequenze diverse negli incidenti automobilistici. Una volta individuata una classe di riferimento il più possibile grande e omogenea, si calcola il limite a cui tendono le frequenze osservate di incidenti automobilistici che subiscono soggetti del tipo di Rossi entro sottoclassi via via più estese tratte da di questa classe. Si identifica quindi questo limite con la probabilità richiesta. Si noti che questo non è esattamente la stessa cosa che calcolare la probabilità che il Sig. Rossi nella sua singolarità abbia un incidente, ma possiamo identificare la probabilità di questo evento singolare (event- token) con quella dell'evento tipico (event- type) di cui l’evento singolo si può considerare rappresentativo: ciò mediante un artificio concettuale che Reichenbach chiama posit (“asserzione che noi consideriamo come vera anche se il suo valore di verità è sconosciuto”). Questa distinzione tra eventi singolari concreti e tipi di evento ricorrerà più volte nelle pagine seguenti. La classe di riferimento omogenea nel senso di Reichenbach in sostanza è un’idealizzazione Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. infinitaria di quello che gli statistici chiamato "campione non -tarato" (non-biased) o “campione randomizzato”, che ha un ruolo essenziale nella pratica statistica. La scelta del campione pone problemi di difficile soluzione (ne parleremo nel paragrafo sulle menzogne statistiche) in quanto la presenza di una taratura del campione può dare origine a distorsioni gravi nel rilevamento delle frequenze. Per quanto ispirato ad alcuni criteri comunemente usati nella pratica statistica, il frequentismo nella formulazione di Reichenbach presta il fianco a diverse critiche. Una di queste è squisitamente matematica e muove dall’osservazione che la classe di riferimento e gli esperimenti eseguiti nella realtà devono essere necessariamente, anche se di grandi dimensioni, in numero finito. Se così non fosse, in un numero infinito di lanci di una moneta ci sarebbe un numero infinito di uscita di teste e un numero infinito di uscite di croci, generando una frazione che è sempre uguale a ∞/∞, contro l’intuizione che ci dice che questo valore è 1/2. La concezione della probabilità come limite di sequenze finite mira a disinnescare questa difficoltà. Succede però che l’ordine in cui si distribuiscono gli esperimenti in una classe finita potrebbe determinare limiti diversi a seconda dell’ordine in cui si presentano i dati. In realtà non esiste un ordine unico associato a una determinata classe di riferimento. Qual è, per esempio, l’ordine in cui “oggettivamente” sono disposte tutte le automobili rosse fabbricate in Italia? Un secondo problema attiene la probabilità di eventi singoli, dato che in questa concezione appare privo di senso chiedersi, poniamo, qual è la probabilità dell'uscita di testa al 40° lancio. Queste domande sono però di uso corrente, soprattutto nella meccanica quantistica. Questo problema è stato sottolineato in particolare da Karl Popper, che si è fatto portabandiera di una particolare versione del frequentismo detta propensionismo . Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento dotate delle proprietà richieste se si vuole conoscere la probabilità di eventi rari o unici. Basta pensare che quando si inviò per la prima volta una spedizione sulla Luna si assegnava un'alta probabilità al successo dell'impresa, ma questa non poteva sicuramente essere calcolata sulla base della frequenza statistica dell'evento. Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il fatto che per dimostrare che i limiti delle frequenze sono valori di probabilità, e non grandezze di altro genere, bisogna dimostrare che tali limiti soddisfano gli assiomi di Kolmogorov, e in particolare i due principi delle probabilità totali e delle probabilità composte. È stato provato tuttavia che questa dimostrazione non è banale, anzi che a rigore non è possibile. Se è così, avrebbero ragione quanti distinguono, come più volte enfatizzato da Keynes o da Carnap, tra due nozioni diverse di probabilità - una epistemica e una statistica- che sarebbero ditinte anche per il fatto di avere probabilità matematiche diverse. Con ciò è necessario esaminare in dettaglio la concezione detta “epistemica” della probabilità, di cui la concezione classica di Laplace è stata la prima anticipazione. Qualcuno, come Popper, ha voluto raggruppare tutte le varie articolazioni della concezione epistemica sotto l’etichetta di “concezione soggettivista”, con l’intento di sottolineare l’opposizione tra il concepire la probabilità come proprietà oggettiva del mondo e il concepirla come qualcosa di dipendente dalla coscienza di uno o più soggetti. Nella concezione epistemica tuttavia sono riconoscibili almeno due orientamenti diversi, incompatibili per il diverso atteggiamento che comportano verso le proprietà degli enunciati probabilistici. Secondo i cosiddetti logicisti (Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli enunciati probabilistici, se veri, sono logicamente veri. In essi viene enunciato un certo rapporto tra un’ ipotesi h (p.es. il prossimo corvo sarà nero) e un certo stock di evidenza disponibile a suo favore (p.es. il fatto che 100.000 corvi osservati sono neri e nessun corvo osservato è di colore diverso). Keynes parla per esempio del suddetto rapporto come grado di credenza razionale, e la logica del probabile diventa quindi una logica della ragionevolezza. Se è vero che la scelta dell’ informazione da inglobare Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. nell’evidenza e varia da soggetto a soggetto, la relazione in sè è puramente logica. Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi di probabilità condizionale di h dato e, che lui fa coincidere con la conferma induttiva di h data da e.. A differenza di Keynes e altri logicisti, tuttavia, Carnap introduceva due coefficienti parametrici, λ ed η, esprimenti diverse valutazioni possibili del fattore logico-linguistico (λ) e del fattore costituito dal peso dell’esperienza (η). Se, per restare nell`esempio, svalutiamo l`evidenza sperimentale ponendo uguale a 0 il coefficiente η , allora la probabilità che il prossimo corvo sia nero dipende unicamente dai predicati esprimibili nel linguaggio presupposto. Se il linguaggio, per esempio, contiene nomi per i soli 7 colori dell’iride, tale probabilità è di 1/7, mentre se si ammette un numero piu` ampio di nomi per le sfumature dei vari colori (scarlatto, porpora,...) allora il valore di tale probabilità sarà molto più basso. Comunque sia, indipendentemente da come vien fissato il valore parametrico, la conclusione avrà sempre la forma Pr(h/e) = x ; questa esprime un partial entailment, cioè un`implicazione parziale di cui l`implicazione logica è solo il caso speciale in cui Pr(h/e) = 1. Come si è detto, Carnap identifica le funzioni di probabilità con le funzioni di conferma: in questo modo la logica della probabilità viene a coincidere con la logica della conferma induttiva. Sfortunatamente, dato che ciò che viene confermato di solito è una legge, cioè una generalizzazione infinitaria (p.es. “Tutti i corvi sono neri”), per ragioni puramente matematiche tale grado di conferma per le leggi tende ad essere molto basso se il numero di individui dell’universo è molto grande, ed è addirittura uguale a 0 se si assume che il numero di individui dell’universo è infinito. (Per capire questo apparente paradosso, si rifletta sulla domanda: “sapendo che un urna infinita contiene palline di sette colori, qual è la probabilità di estrarre un numero infinito di palline rosse e nessuna di colore diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola introducendo nuovi coefficienti parametrici, ma ottenendo sempre valori bassi per le generalizzazioni infinitarie: cosa che, del resto, appare in linea con concezioni epistemologiche come quella popperiana, per la quale, come è noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche falsificazione. Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante si ammetta la variabilità dei risultati delle conclusioni probabilistiche con conseguente abbandono dell’univocità, le credenze di cui si postula la misura sono credenze razionali, cioè credenze proprie di un soggetto idealizzato. La variabilità, come già detto, dipende dall’arbitrarietà dei valori di λ ed η, cioè del parametro logico e quello empirico. La valutazione di questi parametri (espressi da numeri reali tra 0 e 1) può variare a seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi se negli ultimi anni Carnap fosse incline a considerare il logicismo compatibile con un orientamento a cui abbiamo già accennato – il soggettivismo. Nella corrente detta soggettivista (Ramsey, DeFinetti, Savage) il requisito di razionalità dettato da Keynes e Carnap viene abbandonato, così come l'idea che gli asserti probabilistici veri siano verità logiche. I valori probabilistici esprimono solo gradi di credenza di soggetti umani concreti, che possono tener conto dell`evidenza disponibile nel modo che preferiscono. I gradi di credenza sono misurati considerando ogni soggetto alla stregua di un giocatore, razionale o irrazionale, che sia impegnato in un gioco di scommesse contro un secondo giocatore (allibratore). Se un giocatore è convinto, per esempio, che la probabilità di sorteggiare un certo numero al lotto sia di 1/50 anzichè di 1/92, non c'è nessun argomento che possa impedirgli di fare questa valutazione. Come abbiamo notato all’inizio, l’idea di definire la probabilità in termini di rapporti tra somme di denaro non è una novità, dato già nel ‘7oo era chiaro che la nozione di probabilità si poteva defnire il termini di speranza matematica. L’ unico criterio di razionalità che si richiede a un giocatore è la coerenza interna del suo sistema di credenze: se il giocatore ritiene veramente che la probabilità che esca il numero 20 in un certa uscita della roulette sia del 90%, l’intuizione ci dice che non può anche credere che la probabilità che esca il numero 21 nella stessa uscita sia pure del 90%, dato che l’uscita del 20 e del 21 sono incompatibili tra Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. loro e che la somma delel due stime darebbe 180%. Per dare una veste matematica a questa intuizione sono praticabili metodi diversi, anche se i soggettivisti non sono concordi sul fatto che le probabilità siano da esprimere invariabilmente mediante valori numerici. In ogni caso, il metodo più semplice per misurare il grado di credenza è dato dalla misura del quoziente di scommessa, cioè dal rapporto tra quanto si scommette e quanto si incassa in caso di vincita. Chi scommette su un certo cavallo, magari alla sua prima corsa, 10 euro per averne 100 in caso di vincita (quoziente di scommessa 1 / 10, o ragione di 1 contro 9) mostra una bassa propensione a rischiare denaro su questo cavallo, quindi un basso grado di credenza nella sua vittoria; mentre il contrario vale per chi scommette 90 euro per incassarne 100 in caso di vincita (quoziente 9/10,o ragione di 9 contro 1). La coerenza di un sistema di scommesse consiste nell’escludere che nel bilancio finale si vada incontro a una perdita certa, come sarebbe il caso dello sprovveduto che facesse una scommessa di 100 euro su testa per averne 200 e anche una seconda scommessa di 150 euro su croce per averne 200: in complesso, costui affronterebbe una spesa complessiva di 250 euro per incassare 200 euro. Un sistema di scommesse incoerente viene nel gergo chiamato Dutch Book (allibramento olandese). Ramsey e DeFinetti hanno fatto vedere che il requisito della coerenza delle scommesse implica il soddisfacimento degli assiomi di Kolmogorov, anzi equivale ad esso. Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente successo, è dovuto al fatto che risolve in modo indolore il problema della probabilità iniziali, dato che in questa prospettiva queste rispecchiano solo le convinzioni iniziali di un soggetto dato. Può naturalmente sconcertare il fatto che un soggettivista radicale ammetta anche valutazioni di probabilità che il senso comune tenderebbe a considerare forsennate. Ma dal suo punto di vista esistono due principi importanti che, oltre alla coerenza, possono riconciliare il soggettivismo con il senso comune. Il primo è il già ricordato teorema di Bayes. Tale teorema ci garantisce un modo per calcolare il passaggio da una certa assegnazione di probabilità, poniamo h, alla probabilità revisionata (updated) di h data una certa evidenza e. Possiamo calcolare, per esempio, la probabilità che tutti i corvi siano neri dato che 100 corvi sono neri (Pr h/e ) una volta che si conosca, oltre alla probabilità di h e quella di e, la probabilità inversa che 100 corvi siano neri dato che tutti i corvi sono neri (Pr e/h, che ovviamente è 1 per ragioni logiche). In tal modo il teorema di Bayes, a volte impropriamente chiamato teorema della probabilità delle cause, ci consente di rappresentare molte forme - secondo i soggettivisti tutte – di ragionamento ampliativo, con ciò intendendo il ragionamento non deduttivo. Oltre alla coerenza, che è un criterio minimale di razionalità, secondo i soggettivisti c’è da tenere conto di un secondo principio, valorizzato specialmente da De Finetti. E’ il cosiddetto principio di scambiabilità, formulato per la prima volta in modo esplicito da W.E.Johnson con il nome di “principio di simmetria”. In esso si dice che l`ordine in cui si presentano gli elementi che costituiscono l’ evidenza positiva a favore di una certa ipotesi è indifferente, nel senso che non influenza la suddetta valutazione. Supponiamo di per dieci volte una moneta che sappiamo essere truccata. I lanci non saranno indipendenti in quanto gli esiti di ogni lancio forniranno indicazioni sulla probabilità che esca testa nel lancio successivo. D’altro canto, stabilito il numero di volte in cui esce testa in dieci lanci della moneta, sapere in quali lanci sia uscito testa non è rilevante. In altri termini, si verifica una invarianza permutazionale nel senso che la probabilità che si abbia una sequenza di 10 esiti con un certo numero di teste è sempre la stessa a prescindere da quali siano esattamente le volte in cui è uscita testa. Pertanto, se per esempio è uscita testa per tre volte su dieci, non importa se ciò si è verificato nei primi tre tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che l’impiego contestuale del teorema di Bayes e del principio di scambiabilita`è sufficiente ad assicurare la ricostruzione del ragionamento statistico con risultati identici a quelli cercati dai frequentisti. Il soggettivismo è diventato il paradigma dominante nelle ricerche probabilistiche degli ultimi trent’anni. Le critiche a cui va incontro sono state oggetto di un ampio dibattito che non ha minato le sue radici ma sembra aver contribuito al suo raffinamento. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra somme di denaro per misurare le probabilità, dato che anche per un privilegiato con un ricco conto in banca rischiare 50 euro per averne 100 non è la stessa cosa che rischiare 50000 euro per averne 100.000. Eppure nei due casi il rapporto tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo stesso grado di credenza. A questo problema si può ovviare con strategie diverse. Una è quella, proposta già da Ramsey negli anni ‘30, che consiste nel parlare non di scommesse ma di preferenze tra beni dotati di un certo valore di utilità. In tal modo si è stabilito uno stretto rapporto tra la teoria della probabilità e quello delle preferenze: La seconda strategia, sottoscritta dallo stesso DeFinetti, consiste nel rinunciare all’assegnazione di valori numerici in tutti i casi. È sufficiente avere una relazione “è più probabile di”, definita su proposizioni, le cui proprietà siano descritte da un certo numero di assiomi, che in ogni caso risultano tali da rendere derivabili gli assiomi di Kolmogorov. Si noti che la probabilità comparativa ha una rilevanza dal punto di vista giudiziario, perché una comune obiezione all’impiego del calcolo delle probabilità è che nelle aule dei tribunali non ha molto senso impiegare valori numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima con il 93% di probabilità. Come vedremo, questo è soltanto una dei molti problemi sollevati dall’impiego del linguaggio probabilistico e del calcolo delle probabilità in ambito giudiziario. Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo un’obiezione che è stata condivisa da autorevoli filosofi del diritto (in Italia da M.Taruffo, che propende per una visione logicista della probabilità): se si aderisce al soggettivismo, le valutazioni probabilistiche diventano soggettive, con il rischio che un tribunale assolva un imputato che un altro può condannare in base a diverse valutazioni soggettive. Questa obiezione è importante perché non è rivolta contro l’impiego del calcolo delle probabilità nei tribunali ma contro la filosofia soggettivista. Vediamo come potrebbe rispondere un soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi di come dovrebbe procedere una corte di giustizia che volesse applicare la concezione soggettivista. 1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti, intese come insiemi di credenze soggettive, evidenziando la loro coerenza interna. 2) il giudice sceglie la versione dei fatti che gli sembra più probabile, in base al principio del libero convincimento del giudice. Si sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche se i soggetti coinvolti potrebbero in buona fede sentirsi guidati da obiettivi più elevati, come l’ aspirazione ad “accertare la verità”. Di qui una possibile obiezione antisoggettivista: è meglio,uno potrebbe dire, una ricostruzione probabilisticamente incoerente che risulta vera piuttosto che una coerente ma falsa. Il soggettivista risponde che nessuno può garantire che una certa ricostruzione sia vera, anche se si può dire che è più o meno approssimata al vero (Popper parla di verisimilitudine). Molti soggettivisti rifiutano di usare la nozione stessa di verità associandosi polemicamente alla domanda di Ponzio Pilato (Quid est veritas?). Quanto alla verosimilitudine, il soggettivista si chiede però che vuol dire “verosimile”. Se si intende con ciò “credibile” si ricade nel soggettivismo. Se si intende “approvabile” (quindi in accordo con il parere di esperti qualificati), che è il senso antico che aveva la parola “probabile” nel Medio Evo, si regredisce a una concezione prepascaliana della probabilità. Sembra che non resti che la probabilità in termini di frequenze relative, ma il soggettivista si oppone al frequentismo non solo evidenziando le difficoltà interne che abbiamo già discusso, ma osservando che tanto Carnap che Reichenbach hanno introdotto dei parametri per ponderare le conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente delle variabili la cui determinazione può essere solo soggettiva. Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul significato della nozione di probabilità hanno lasciato posto a un atteggiamento più flessibile e pluralista. Si ammette, in altre parole, che in alcuni contesti potrebbe essere utile applicare la nozione classica, in altri quella Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. statistica, in altri ancora quella soggettivista, fermo restando che la sintassi impiegata e le regole del calcolo, sono invarianti e devono restare tali. LEZIONE 3. Il bayesianesimo Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista l’unico strumento disponibile per effettuare inferenze non-deduttive. Tali inferenze, che si chiamano a volte ampliative, nella tradizione logica venivano classificate in due sottocategorie: quella delle inferenze induttive e quella delle inferenze abduttive. L’induzione e l’abduzione vengono spesso presentate come processi inferenziali conversi tra loro. Si guardi a questi due esempi : (1) Se il fiammifero è stato sfregato, si è acceso (2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato . Nella (1) si passa da un evento ad un altro che può dirsi spiegato in termini del primo in base ad una legge stabilita induttivamente. Dato che tra i due eventi sussiste un gap temporale e che la legge in questione appare la descrizione di un nesso causale, si può anche dire che il primo evento è causa e il secondo effetto. Nella proposizione (2) l’inferenza procede invece nella direzione inversa. L’antecedente enuncia un evento del quale il conseguente descrive una spiegazione causale attendibile. In ambedue i casi la conclusione non segue dalla premessa con necessità ma solo con un certo grado di probabilità, la cui esatta determinazione naturalmente può essere certo problematica. Nel secondo esempio, comunque, l’intuizione dice che il grado di probabilità della conclusione è più basso di quello della conclusione nel primo esempio. La conclusione di (2) è in effetti lecita una volta che si sia in grado di escludere che non esistono spiegazioni migliori del fenomeno descritto nell’antecedente, in cui si asserisce che il fiammifero si è acceso. Dunque quella che viene eseguita è un’inferenza “alla miglior spiegazione”. Come vedremo in seguito, la classificazione delle inferenze ampliative in induttive e abduttive appare insufficiente se si tiene conto di un tipo di inferenza- l’inferenza controfattuale- che era ignorato nella tradizione aristotelica e postaristotelica ma che ha un’importanza che la logica contemporanea ha messo adeguatamente in luce. È giunto il momento di vedere come si applica il teorema di Bayes nella trattazione dell’inferenza ampliativa, sottolineando fin dall’inizio che insistere sulla centralità del teorema di Bayes non è solo prerogativa dei soggettivisti, ma di una categoria di metodologi che vengono genericamente raggruppati sotto l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di credenza calcolabile che dipende dal grado di probabilità dalle prove disponibili. Data questa definizione ampia di “bayesiano”, anche epistemologi non soggettivisti come Carnap si possono chiamare bayesiani. Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di pensiero che ritiene che ogni inferenza probatoria si basi, magari in modo implicito o inconscio, su un’applicazione del teorema di Bayes . Per fare un esempio,supponiamo si debba la stabilire la probabilità che Rossi abbia avvelenato il caffè alla luce di certe evidenze disponibili. Il detective comincia assegnando un certo valore a priori alla probabilità di H (Rossi ha avvelenato il caffè) prima di esaminare le evidenze E1, E2, E3… En, dove E1 è, supporremo, il fatto che Rossi ha comprato una dose di veleno. Egli assegna anche un valore a priori a Pr(E1|H), cioè alla probabilità che Rossi abbia comprato il veleno dato che ha avvelenato il caffè (verosimiglianza). Se si assegna anche un valore a Pr(E1), grazie al teorema di Bayes si trova Pr(H|E1). Dunque con questo metodo si Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. passa dalla probabilità di H a quella revisionata (updated) di H|E1. Chiamiamo Pr(H’) questa probabilità revisionata. Si passa poi con lo stesso procedimento a calcolare Pr (H’|E2), ripetendo poi la procedura per ogni presunta prova E1…En. Questa iterazione di revisioni porta a Pr(H’’’’|En). Si può anche dimostrare che più aumenta il numero delle condizionalizzazioni più le valutazioni soggettive tendono a convergere verso un valore unico, limitando quindi l’ arbitrarietà delle valutazioni a priori. Un importante teorema noto come teorema di de Finetti è stato considerato dai bayesiani la carta vincente per ridurre il peso dell’ arbitrarietà delle valutazioni iniziali. De Finetti ha dimostrato che, se la sequenza delle prove è scambiabile e se le credenze di un ricercatore sono coerenti, allora il valore che verrà assegnato all’ipotesi dopo un numero alto di esperimenti si approssima a quello della frequenza relativa (come si asserisce nella legge dei grandi numeri). Come osserva Jonathan Cohen, però, c’è un problema: due eventi E1 e E2 sono scambiabili purchè nella stessa misura irrilevanti per H: ma la rilevanza è una nozione probabilistica e quindi la stessa nozione di scambiabilità risulta essere una nozione probabilistica –e quindi, per i soggettivisti, sempre dipendente dai soggetti. Le applicazioni del teorema di Bayes sono ad ampio raggio. Un esempio di come si applica il teorema di Bayes è offerto, in medicina, dallo studio statistico dei falsi positivi e delle loro conseguenze. I falsi positivi si verificano quando un test medico dà esito positivo in modo falso o scorretto o, in altre parole, il test indica che il paziente ha una malattia che in effetti non ha. Possiamo usare il teorema di Bayes per determinare la probabilità di essere vittima di un falso positivo. Sorprendentemente risulta che, se una malattia è rara, allora tale probabilità è molto alta anche nei casi in cui il test è accurato. Supponiamo che un test per una certa malattia produca i risultati seguenti: 1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato positivo il 99% delle volte, cioè con probabilità 0.99. 2) Se un paziente sottoposto a test non ha la malattia, il test produce un risultato positivo il 5% delle volte, cioè con probabilità 0.05 (falso positivo). Ingenuamente uno potrebbe pensare che ciò significa che solo il 5% dei risultati sono sbagliati, ma questo è un errore. Supponiamo che la malattia sia rarissima, per esempio che colpisca solo lo 0.1% della popolazione, cosicchè un paziente scelto a caso ha una probabilità a priori pari a a 0.001 di avere la malattia. Possiamo usare il teorema di Bayes per calcolare sia la probabilità di essere veramente malati a fronte di un test positivo sia la probabilità di essere sani a fronte di un test positivo. Sia A = il paziente è malato B = il test è positivo. Allora per quanto detto vale quanto segue: 1) Pr (B|A) = 0.99 (positivo se malato) 2) Pr (B|-A) = 0.05 (positivo se sano) 3) Pr (A) = 0.001 Quindi la probabilità che il paziente abbia effettivamente la malattia, dato il test positivo, per la formula di Bayes è (TB*) Pr(A|B) = ____Pr(A) • Pr(B|A) ---------se Pr(A) ≠0) = Pr( A) • Pr(B|A) + Pr(-A) • Pr(B|-A) 0.99 • 0.001 = 0.019. 0.99 •0.001 + 0.05 • 0.999 Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. In base al principio delle probabilità totali, per quanto già sappiamo, la probabilità che il paziente sia sano alla luce di un test positivo è il complemento della probabilità appena calcolata. Nel caso dell’esempio è Pr(-A|B), è circa 1-0,019 = 0.98 ( 98%). Quindi la probabilità di essere sani nonostante il test dica il contrario risulta altissima: nonostante l’apparente accuratezza del test, l’incidenza della malattia è così bassa che la grande maggioranza dei pazienti che risultano positivi al test sono in realtà sani!. Si valuti bene però la percentuale di pazienti che risultano malati in base al controllo (0.019) : questa è 19 volte la percentuale di quanti, a prescindere dal controllo, sono realmente malati (0.001). Pertanto il test non è inutile e la ripetizione del test può migliorare l’affidabilità del risultato. Allo scopo di ridurre il danno prodotto dai falsi positivi è chiaro che, quando il paziente è sano, un test dovrebbe mirare a dare esito negativo. Se il test producesse molto spesso un risultato negativo in pazienti sani, diciamo con probabilità 0.999, allora la probabilità del vero positivo, Pr (A|B), scenderebbe a 0.001: quindi avremmo, per “malato se positivo” cosicchè in questo caso la probabilità di sarebbe 1-0.5 = 0.5. essere sano a fronte di un test positivo (cioè Pr -A|B) I falsi negativi sono più pericolosi dei falsi positivi. La ragione è che con il falso positivo si rischia di curare qualcuno per una malattia che non ha, mentre con i falsi negativi si rischia di non curare qualcuno che è seriamente malato. Il teorema di Bayes ci aiuta a calcolare la probabilità di essere vittima di un falso negativo , cioè di essere malati in presenza di un test è negativo: Pr (A|non-B). Fatte le debite sostituzioni con gli stessi inputs precedenti e stante che , se Pr (B|A) = 0.99, Pr(-B|A) = 0.01, avremo Quindi, se una malattia è rara, la probabilità di incorrere in una situazione del genere è fortunatamente bassa. Ma se il 60% della popolazione fosse esposto alla malattia, la probabilità di essere vittima di un falso negativo sarebbe più elevata. In questo caso Pr(A) = 0.6 , donde Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. In caso di malattia diffusa o epidemica, quindi, la probabilità di essere vittima di un negativo, pur essendo sempre abbastanza bassa, sale a 0.0155, cioè a 1,55%. falso Si noti che tutti i valori probabilistici inseriti nella formula di Bayes sono derivati da statistiche, non da stime soggettive. Passiamo ora dalla medicina al diritto. Qui ci si imbatte immediatamente nel problema di distinguere tra indizi e prove, dove per “prova” si intende qualcosa che attribuisce all’ipotesi un elevato grado di probabilità, mentre si intende di solito per “indizio” ogni elemento di informazione che rende più probabile l’ipotesi . Cominciamo con il discutere una regola giudiziaria basata su quello che si potrebbe dire bayesianesimo ingenuo. Come è noto, nel diritto penale si chiede normalmente che le conclusioni vengano raggiunte “oltre ogni ragionevole dubbio”, che si potrebbe parafrasare dicendo che la probabilità deve essere sopra una soglia di 1-ε. Questa soglia, in prima approssimazione, fissa la differenza tra ciò che si può dire provato e ciò che non lo è. La regola che si può formulare è allora questa: (R) Il giudice al termine del processo decide nel merito sulla sola base del valore di probabilità dell’ipotesi: accetta il thema probandum se la sua probabilità è superiore a certa soglia di 1- ε e lo respinge altrimenti. Dunque la convinzione di tutti i bayesiani è che, potendosi assegnare dei valori di probabilità a tutte le inferenze ampliative, si possa anche calcolare con esattezza se gli asserti che interessano il giudice superano o meno la soglia dell “oltre ogni ragionevole dubbio” o di 1-ε. Sull’ esatta determinazione del valore di € bisogna osservare che ci sono state diverse controversie. Il valore di certezza pratica in molti contesti è fissato convenzionalmente in 0,999999. Adottare la condotta (R) con questo valore di ε è quello che diremmo un comportamento razionale. Ma non c`è dubbio che un livello così alto di certezza, se è giustamente richiesto, poniamo, per la sicurezza aerea, non è quasi mai raggiungibile in un processo penale. Il dilemma, naturalmente, è il seguente: se punire un numero troppo alto di innocenti (accettando soglie più basse di probabilita`) o lasciare in libertà un numero troppo alto di malfattori (accettando una soglia eccessivamente alta di probabilita`). Come afferma Eggleston, il diritto inglese assegna alla giuria l`onere di stabilire cosa sia una misura "ragionevole" di probabilità in quel particolare contesto. Si parla infatti di "convinzione oltre ogni ragionevole dubbio". Ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è razionale ma non ragionevole. In ogni caso di scomparsa di persona, per esempio, possiamo tra le varie ipotesi considerare quella per cui lo scomparso sia stato rapito dagli extraterrestri. Infatti, in tali casi Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. prendiamo in considerazione è una possibilità logica ma non una possibilità fisica, stante che non disponiamo di leggi fisiche che riguardano soggetti extraterrestri. L’ipotesi come quella di una sostituzione di persona o di una diabolica messinscena (su cui torneremo) rientra nel repertorio giornalistico e anche giudiziario, ma è dubbio sia ragionevole. Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore di ε come quello di un valore trascurabile non specificato. Si tratta di una procedura di idealizzazione che non è l`eccezione ma la regola anche nella scienza. Dal punto di vista applicativo, infatti, questo valore sarà quello in cui converge la convinzione della giuria una volta che non sia influenzata da fattori di qualche genere. Lord Dennig scrisse :"Nei processi penali l`accusa deve essere provata oltre ogni ragionevole dubbio, ma possono esserci dei gradi all`interno di questo standard" .La solidità della prova dovrebbe essere proporzionata alla gravità del reato. Sono state anche fatte delle ricerche sui valori di probabilità che vari soggetti chiamati a giudicare stimano sufficienti in rapporto a diversi reati. Per la prova di omicidio, per esempio, i giudici richiederebbero 0.92 mentre i giurati 0.86. Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni ragionevole dubbio" ciascun elemento di prova deve a sua volta risultare tale oltre ogni ragionevole dubbio. Questo è eccessivo, perché le singole prove potrebbero non essere certe ma la loro somma complessiva potrebbe portare l’ipotesi al livello di credibilità richiesto. Nei processi civili anglosassoni ci si conforma a uno standard diverso da quello di "oltre ogni ragionevole dubbio" richiesto per i processi penali, ma le opinioni sul grado di probabilità richiesto sono divergenti. Il minimo che si chiede è che la probabilità di A superi la probabilitàdi -A, cioè il 50%., anche se si tende a usare la locuzione più vaga "preponderanza della probabilità". Sempre Lord Denning sostiene che, allo stesso modo in cui c'è una variabilità del concetto di ragionevole dubbio, c`è una variabilità anche nel concetto di “preponderanza di probabilita`. Una regola pratica condivisa è per esempio questa: il tribunale puo` accontentarsi di un minor grado di prova quando ritiene che la reputazione dell`imputato sia talmente cattiva che una condanna in piu` non potra peggiorarla. Si noti che i processi penali e civili possono essere intrecciati: può capitare per esempio che un tribunale civile impedisca la trasmissione di un patrimonio a un soggetto che si sospetta abbia assassinato la donna che ha steso il testamento. Una classe importanti di problemi nell’impiego del calcolo delle probabilità è posta dalla credibilità dei testimoni. Una volta stabilito che i testi sono indipendenti, la credibilità della testimonianze dovrebbe essere ottenuta moltiplicando le varie probabilità mediante il principio delle Probabilità Composte. Ma il primo problema riguarda l’attendibilità delle singole testimonianze. Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo qualcosa di falso in buona fede o mala fede. Bisogna considerare anche la probabilita` che abbia visto bene, che sia intimidito o ricattato da altri, che si ricordi esattamente cio` che ha visto, che non venga frainteso e che non sia ostacolato nel raccontare cio` che intende raccontare. La sociologia dei mass-media ha reso familiare questo fenomeno : che quando un presunto fatto viene trasmesso reiteratamente e a tutto campo dai media, si trova quasi sempre qualcuno che è disposto a testimoniare della veridicità del fatto stesso – e si noti che costui non è necessariamente subornato o in mala fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare qualcosa che non esisteva prima di comparire su un giornale o in TV . Lo spazio concettuale dell’uomo medio, che è quotidianamente condizionato dai media, è saturo di fattoidi che sono in grado di orientare i suoi comportamenti anche sul piano politico. Vale certamente il principio per cui una falsità più volte ripetuta tende a diventare inerzialmente una “verità”. Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le cui testimonianze cioè non siano convergenti con quelle di altri testimoni indipendenti. In ogni caso, comunque, ci sono dei Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. criteri per valutare la versione di un testimone singolo: 1) coerenza interna della versione 2) coerenza con le versioni di altri testimoni 3) coerenza con fatti non controversi 4) "credito " del testimone (che esclude, per esempio, soggetti con disturbi psicofisici) 5) accuratezza dell’osservazione del testimone (per esempio potrebbe fingere un difetto fisico) Il requisito della coerenza non va inteso solo in senso logico-formale. "Andò e tornò da Roma in un giorno" un secolo fa sarebbe stato considerato incoerente con le leggi fisiche, oggi sicuramente no. I testimoni a volte mentono quando è in gioco la loro reputazione o la loro dignità personale. Si noti che il testimone giura di dire "la verita`, tutta la verita`, niente altro che la verita`". Questo implica che l'omissione nella esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto l’omissione non e considerato reato a meno che non comporti la falsità di una parte della testimonianza. In realtà molti testimoni non si sentono in colpa se pensano di mentire a fin di bene. Un errore comune, in ogni caso, è pensare che i testimoni siano completamente veridici o completamente mendaci. Si tende a sottovalutare la facilità con cui molta gente dimentica le cose più banali, anche la stessa lingua madre. E si tende anche a trascurare il fatto che i mentitori più astuti conoscono l’arte di mescolare verità e menzogne, o dire “mezze verità”, in modo da risultare il più possibile credibili. Che dire quando un testimone enuncia un fatto eccezionale o improbabile? Secondo Hume e Laplace anche la veridicità del testimone in questo caso deve essere giudicata improbabile. Esempio tratto dalla cronaca: un testimone che dichiara di aver preso un candelotto di dinamite da suo fratello e di esserselo dimenticato in tasca. Ma a volte i testimoni raccontano in modo veridico dei fatti assurdi , e l`assurdità di quello che raccontano si potrebbe usare per provare la loro buona fede, dato che chi mente di solito non ha interesse a raccontare qualcosa che si stenta a credere. Un problema importante connesso a quello appena menzionato riguarda ciò che si intende esattamente per improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente, e probabile ciò che non lo è. Se in una mano di bridge mi vengono serviti 13 carte di picche questo è sorprendente, anche se a rigore ha la stessa probabilità di qualsiasi altra distribuzione. Dunque ci vuole cautela nell'usare concetti come quello di sorpresa potenziale di Shackle (di cui parleremo) o di "indice di sorpresa" di Weaver. L'idea di Eggleston è che la probabilità, anche nei giochi d’azzardo, deve essere stabilita a fronte di tutte le alternative possibili. Se, per esempio, le carte dell’esempio appena proposto sono state distribuite ieri e il fatto viene riportato oggi a gioco finito, dobbiamo considerare anche l'alternativa che le carte siano state truccate oppure che il teste che riporta il fatto a distanza di un giorno sia menzognero: alternative che non sono affatto trascurabili. Si pensi al famoso argomento di Hume sui miracoli. Che cosa è piu` probabile? Che ci sia una violazione di una legge di natura o che qualcuno dica il falso perchè ha avuto le traveggole o è un mitomane? Ora, in tema di testimonianze, il teorema di Bayes si rivela uno strumento prezioso. Nel caso piu` semplice, abbiamo due testimoni per valutare l’attendiblità di un certo enunciato S. Supponiamo di porre As = Il teste A afferma S con verità Bs = Il teste B afferma S con verità S = la dichiarazione S è vera -S = la dichiarazione S è falsa. Utilizziamo qui una nuova nozione, la nozione di ragione o quota di scommessa (in inglese odds: da non confondere con il quoziente di scommessa) su B dato A, che è il rapporto tra Pr(B|A) e Pr(–B|A) : Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Pr(B|A) 10/100 --------------- (per esempio –––––––- = 1/9 (1 contro 9).) Pr(-B|A) 90/100 E’ matematicamente interessante osservare che, così come si può passare dalla probabilità alla ragione di scommessa (odds), esiste anche il passaggio inverso. Infatti, dato il rapporto O della probabilità di un evento E rispetto a quella complementare, si dimostra che la probabilità dell’evento E in questione è espressa da Pr(E) = O(E)/1+O(E). Utilizziamo ora questa variante equivalente del teorema di Bayes, , in cui la formula di Bayes compare sia al numeratore che al denominatore in due esemplificazioni diverse, una con H e l’altra con -H (): = Pr H • Pr(E| H) ● 1/Pr E (OB) Pr(H|E) Pr(-H |E) Pr- H • Pr(E|- H) ● 1/Pr E Sulla sinistra compare la ragione di scommessa, anzichè la semplice probabilità condizionata di H rispetto ad E. La formula equivale naturalmente per semplificazione a = Pr H • Pr(E| H) Pr(H |E) Pr(-H |E) Pr( - H) • Pr(E|- H) Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore probatorio dell’evidenza E o rapporto di Bayes. Quanto alla probabilità a posteriori Pr (H|E) a volte viene chiamata credibilità. Quindi la probabilità di unì’ipotesi espressa dalla ragione di scommessa si riduce sostanzialmente a un prodotto tra il rapporto a priori e il valore probatorio dell’evidenza. Tornando all’esempio, avremo quindi come caso speciale, ponendo H=S e E= As ∩ Bs, Pr(S|As ∩ Bs)/ Pr(-S|As ∩Bs) = Pr(S)/Pr(-S) • Pr(As ∩ Bs| S)/ Pr(As ∩ Bs| -S). Viene così espressa in termini di ragioni di scommessa la risposta a questa doamanda: qual è la probabilità che S sia vera se i testi sono veridici ?. La frazione Pr(S)/Pr(-S) entro la formula indica la ragione iniziale di scommessa su S prima che si sentano i testi, cioè il valore a priori della probabilità di S.. Circa As e Bs bisogna stabilire se si considerano i testi indipendenti oppure no. Nel primo caso Pr(As ∩ Bs|S) si riduce, applicando il teorema delle probabilità composte, a Pr(As|S) • Pr(Bs|S). Altrimenti bisogna ricorrere ad una espressione piu` lunga che il lettore puo` calcolare da sè. Al proposito alcune osservazioni. Naturalmente, per applicare il teorema di Bayes bisogna fare qualche assunzione circa le probabilità iniziali. In casi di incertezza tra due alternative si assume convenzionalmente, ispirandoci al principio di indifferenza, che la probabilità iniziale sia 0.5. Ma i testi potrebbero avere a disposizione più di due versioni possibili dei fatti, poniamo cinque. In questo caso, per esempio, Pr (As|S) = Pr(Bs|S) = 1/5. È importante osservare che la richiesta di alta probabilità della conclusione è stata proposta anche nell’ambito della metodologia delle scienze fisiche. Il cosiddetto modello hempeliano di spiegazione SI (ossia Statistico-Induttiva) esige che l’explanandum venga derivato dall’explanans con un alto grado di probabilità. Ma le difficoltà che sono state riscontrate nella teoria hempeliana si applicano immediatamente alla regola R. Infatti, mentre nella logica deduttiva l’aggiunta di altre informazioni alle premesse non altera la conclusione, questo non si verifica nella logica probabilistico-induttiva. Nel linguaggio dei logici, questa inferenza è non-monotòna. Se, per esempio Pr(H| K) = 1-ε, per valori non banali di E può accadere che Pr (H|K ∩ E) < (1 – ε). In altri termini, nuova informazione indipendente può abbassare il livello di probabilità della conclusione. Supponendo che la probabilità che un verdetto raggiunto sia molto alta, questo significa che il risultato è però rischia di essere revocato in dubbio alla Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. luce di nuova informazione, e questa instabilità sembra che non ci consenta di dire che la conclusione valga oltre ogni ragionevole dubbio. Per un motivo analogo non è transitiva la relazione implicativa che possiamo definire così: (Def. =>) A => B =Df Pr(B|A) = 1-ε. Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1- ε, ed è vero B => C , ossia Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1- ε. Quindi una catena di ragionamenti ciascuno dei quali è ragionevolmente certo potrebbe avere una conclusione che non è ragionevolmente certa. La difficoltà di raggiungere una conclusione stabile è aggravata dal fatto che i soggettivisti negano che ci debba essere necessariamente un consenso intersoggettivo (a fortiori “oggettivo”) sulla assegnazioni iniziali. I soggettivisti più intransigenti (in genere seguaci di De Finetti) respingono per ragioni di principio anche la possibilità di distinguere tra valutazioni ragionevoli e valutazioni che dipendono dai gusti o dalle preferenze individuali, introducendo un elemento supplementare di incertezza. Non è quindi detto che le assegnazioni iniziali in caso di ignoranza siano 0.5 per ogni soggetto, e non c’è garanzia che ci sia uniformità nel giudizio collettivo. Il soggettivista ha gioco facile nel rilevare che il bayesianesimo di stampo logicista, è naufragato insieme al sogno di Carnap di creare una teoria formale espressa nel linguaggio della logica dei quantificatori. La visione di Carnap inoltre presuppone la neutralità dei dati su cui si valutano le ipotesi, idea notoriamente respinta dall’epistemologia postpositivista. Il punto debole del logicismo starebbe in particolare nel fatto che ignora il momento della dialettica probatoria, cioè il fatto che la ricostruzione del fatto avviene attraverso la discussione e la controversia. Tenendo presente l’idea della dialettica probatoria, recentemente Alberto Mura ha proposta una terza via, oltre al logicismo e al soggettivismo bayesiano, che ha chiamato bayesianesimo critico. Per capire la differenza , riprendiamo l’idea già accennata secondo cui è normale definire probabilisticamente la nozione di rilevanza in questo modo: 1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B) 2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B) 3) A è irrilevante per B quando Pr (B|A)=PrB Su questa nozione si basano tutte le teorie probabilistiche della causa come quella di Suppes e Salmon. Ma, se le probabilità iniziali sono soggettive, ne segue anche che anche i nessi di rilevanza risultano tali. Essi quindi non sarebbero oggetto di conoscenza ma di opinione. In tal modo si perde la speranza di costruire un consenso razionale nella ricostruzione dei fatti e di adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza, che deve basarsi su ragioni universalmente condivisibili. Inoltre, come già ancitcipato, si può mostrare che in tal modo si rende impossibile addirittura applicare lo stesso principio di indifferenza. Viceversa, bisogna ammettere che le valutazioni di rilevanza possono essere in molti casi antecedenti a quelle di probabilità e tali da condizionare la revisione delle probabilità richiesta dal teorema di Bayes. Una critica di questo tenore era già stata menzionata a proposito del principio di scambiabilità di de Finetti. Al proposito si noti che nel ragionamento giudiziario è essenziale far leva sulle cosiddette “massime d’esperienza”, che non sono leggi di natura ma sono però generalizzazioni affidabili. Per esempio “un teste disinteressato normalmente dice la verità” in termini probabilistici si potrebbe tradurre con (ME) Pr (x dice la verità|x è disinteressato) > 1/2 E’ dubbio infatti che si possa rendere con (ME’) Pr (x dice la verità|x è disinteressato) = 1- ε dato che diverse cause possono influire sulla veracità dei testi. Una variante della stessa massima sarebbe forse meglio resa da (ME’’) Pr (x dice la verità|x è disinteressato) > Pr (x dice la verità|x è interessato) Tali probabilità non possono essere considerate prodotti di valutazioni soggettive. Il bayesianesimo Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. critico asserisce che i giudizi di probabilità sono opinioni non definitive ma aperta all’altrui critica, intrattenute con l’obiettivo di convincere gli altri a raggiungere il consenso. Di fatto le applicazioni del teorema di Bayes, come già osservato, sono di solito appoggiate a dati la cui origine non è necessariamente soggettiva: potrebbero essere, per esempio, dati accettati con solide basi statistiche. Questo è ciò che accade, come si è visto, nel campo diagnostico. Per illustrare questi usi, cominciamo con l’osservare che la formula di Bayes di p.000 è solo la più semplice di varie formulazioni equivalenti o estese. Una di queste è già stata usata a p.000. Un’altra è la seguente, che si ottiene tenendo conto dell’ informazione disponibile K (Background Knowledge) nella valutazione di probabilità. Abbiamo già visto che se Pr(A) è molto alta, Pr( A ∩ K) potrebbe essere più bassa dato che l’informazione accessoria può avere un suo peso. C’ è una differenza tra valutare la probabilità di un evento astratto o generico (p.es. la probabilità che un fiammifero si accenda quando è sfregato) e la probabilità dello stesso evento rebus sic stantibus, cioè in circostanze note e ben determinate (che possono essere anche inibitorie: per esempio presenza di umidità sulla capocchia del fiammifero). In effetti la valutazione delle probabilità dovrebbe essere sempre fatta tenendo conto della conoscenza di sfondo K, tenendo conto che il valore probabilistico di K si può eventualmente annullare in contesti adeguati. In effetti quindi una formulazione più generale della precedente formula di Bayes in termini di ragioni di scommessa sarebbe Pr(H|E ∩ K) Pr(-H |E ∩K) = PrH • Pr(E ∩ K|H) Pr -H • Pr(E ∩ K|-H) Questa probabilità è la probabilità a posteriori di H (credibilità)alla luce dell’informazione E ∩ K. Se K non trasmette informazione, lo si può porre uguale a x=x o qualsiasi truismo equivalente (donde Pr(K)=1) , il suo peso si annulla e si ritorna alla formula originaria. Il rapporto di Bayes o valore probatorio dell’evidenza E, cioè il rapporto tra verosimiglianze, che ora prende questa forma: Pr(E ∩ K|H) (RB) V = ------------------Pr(E ∩ K| -H) Intuitivamente è la forza con cui rebus sic stantibus E sostiene H piuttosto che la sua negazione –H. Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1(quindi non è una funzione di probabilità, perchè questa ha come massimo valore 1). Per esempio un rapporto come 0.9 / 0.10 , ossia 9, esprime un alto grado di forza della prova per l’ipotesi H alla luce di E, mentre un rapporto inverso 0.1/ 0.9 rappresenta un basso grado di forza dell’ipotesi alla luce di E. Supponiamo che l’evidenza che si ritiene importante per la colpevolezza sia data dall’impronta digitale dell’imputato su un coltello. Allora valutiamo la probabilità che il rilascio dell’ impronta si verifichi se l’imputato è colpevole ( Pr(E ∩ K|H) ) confrontandola con la probabilità che ciò si verifichi se l’imputato è innocente, ossia Pr(E∩K|-H). Il rapporto tra questi due valori esprime il valore probatorio dell’evidenza E. Si noti che tale valore probatorio potrebbe derivare da statistiche ben precise, come avviene spesso in medicina. Per esempio, nel caso in cui Pr(E|K ∩H) esprime il vero positivo (p.es. la Wassermann mostra certi valori a e b se Tizio ha la sifilide) e Pr(E|K ∩ -H) il falso positivo (p.es. se Rossi non ha la sifilide m la reazione Wassermann mostra certi valori a e b b), V esprime il rapporto tra le verosimiglianze dei due tipi di evento. Il valore probatorio della Wasserman è dunque il rapporto tra Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. veri positivi e falsi positivi. Il teorema di Bayes ci consente di calcolare la probabilità che Rossi abbia la sifilide dati i risultati della Wasserman, una volta fissati gli altri valori della formula di Bayes. Certo il valore di Pr (H|E) e Pr(E|H) dipende dalla probabilità a priori di Pr(H). Se, per esempio, tale probabilità a priori è molto bassa, anche il valore di Pr(H|E) tende ad essere molto basso anche a fronte di prove sostanziose. Questa caratteristica ha un rilievo soprattutto in campo giudiziario. La c.d. “presunzione di innocenza” dovrebbe indurre ad assegnare probabilità 0 all’ipotesi della colpevolezza (H), con il risultato che Pr(H|E) =0 , il che vuol dire che nessuna prova può dimostrare la colpevolezza dell’imputato!! Naturalmente su questo si potrebbe discutere. Riflettendo bene sulla precedente formula, assegnare probabilità 0 alla colpevolezza significare affermare che è impossibile che l’imputato sia colpevole. Questo non è quanto si intende con la presunzione di innocenza. Ciò che si intende dire semmai è che vale Pr(C) < Pr( -C), cioè che è più probabile sia innocente che colpevole, che è quanto basta per ritenere che a priori non sia meritevole di nessuna condanna. D’altro canto questa valutazione comparativa non fissa un valore determinato e di per sè rende inapplicabile il teorema di Bayes. Il modo di procedere potrebbe essere diverso. Come abbiamo già suggerito, applicando intuitivamente il principio di indifferenza, è più trasparente partire da un'opinione iniziale (antecedente alla considerazione degli indizi disponibili) che assegni uguale probabilità a colpevolezza C e innocenza I: Pr (C) = Pr (I) = 0.5 e ciò in base all’idea che a priori non v'è alcuna ragione per privilegiare l'una o l'altra delle due possibilità. L'evidenza indiziaria E conduce ad aggiornare tali probabilità iniziali, non perché esse fossero errate, ma perché siamo in presenza d'uno stato d'informazione di cui prima non si disponeva. Le probabilità finali prodotte dal Teorema di Bayes sono quindi: Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 ●Pr(E|I)/Pr(E) Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 ● Pr(E|C)/Pr(E) E’ interessante anche notare che il teorema di Bayes, pur rendendo possibile un’inferenza dagli effetti alle cause (cioè un’abduzione causale) nel caso si disponga della probabilità dell’inferenza inversa, rende trasparente una comune fallacia del ragionamento formale ma anche induttivo : la c.d. “fallacia consequentis” o fallacia dell’affermare il conseguente. Per tornare all’ esempio del fiammifero, dalla legge che tutti i fiammiferi sfregati si accendono possiamo inferire che se a è un fiammifero ed è sfregato molto probabilmente si accende. Ma è illecito operare l’inferenza dal fatto che il fiammifero a si è acceso alla conclusione che molto probabilmente è stato sfregato. Idem per l’inferenza dal fatto che il fiammifero non è stato sfregato al fatto che probabilmente non si è acceso. Se vogliamo usare il simbolo >, che poi useremo largamente in seguito, un conto è S > F , altro è F > S, e altro ancora ¬S > ¬F. Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle corti di giustizia: “Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi fosse innocente, allora E sarebbe molto improbabile; ma E si è verificato; perciò è molto improbabile che Rossi sia innocente, quindi è molto probabile che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo –ma è più che discutibile - di voler rappresentare il fatto che E si verificato come Pr(E)=1, i passi sono 1)Pr(E|C) = 1- ε 2) Pr(-E|-C) = 1- ε ergo 3)Pr(-C|E) = ε 4)Pr(C|E)= 1- ε Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 5)Pr (C) = 1 -ε Come si può vedere il ragionamento poggia sulla illegittima transizione dalla verosimiglianza (o valore probatorio dell’evidenza) Pr(E|C) - passo 1- alla credibilità Pr(C|E) (passo 4, equivalente al passo 3). Ricordando la definizione di =>, si passa da 1) C => E a 4) E => C. Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di questo tipo. L’accusa sostenne che un certo documento trovato dal controspionaggio francese in un cestino della carta straccia dell’ambasciata tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei messaggi in codice. Questo perché in quel documento le lettere dell’alfabeto comparivano, apparentemente, con una frequenza diversa da quella con cui comparirebbero nella prosa francese “normale”. Nel processo del 1894 il celebre scienziato forense Alphonse Bertillon cercò di calcolare la probabilità che quella particolare combinazione di lettere si fosse prodotta per caso, vale a dire supponendo che Dreyfus fosse innocente e non avesse scritto alcun messaggio cifrato. Poichè nei calcoli di Bertillon tale probabilità Pr(E|-C) (valore probatorio) risultò estremamente bassa, si concluse che era anche estremamente bassa la probabilità che Dreyfus fosse innocente, cioè che era basso il valore di credibilità o probabilità a posteriori Pr(-C|E). Ma questo significa confondere Pr(E|-C) con Pr(-C|E). Nel secondo processo di appello, nel 1904, una memoria scritta da tre“saggi”, fra i quali Henri Poincaré, faceva giustizia di questa fallacia (e dei calcoli di Bertillon), ed affermava il corretto rapporto tra valori probatori e credibilità ai fini della valutazione della colpevolezza dell’ umputato LEZIONE 4 Bayesiani e antibayesiani Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In comune tutti i bayesiani hanno la convizione che il teorema di Bayes sia l’unico strumento per la resa delle inferenze ampliative, che certo costituiscono un problema per chi vede nell’inferenza logico-matematica il paradigma di ogni tipo di ragionamento. Secondariamente, hanno in comune la convinzione che l’applicazione del teorema di Bayes consenta sempre di assegnare un valore numerico tra 0 e 1 a qualsiasi rapporto tra premesse e conclusioni di un ragionamento ampliativo, per quanto complesso. Il bayesianesimo ha acquisito un crescente consenso in vari settori della scienza soprattutto nella seconda metà del XX secolo. Ma proprio nell’ambito dell’epistemologia si sono levate anche voci di dissenso. Ricorderemo solo al proposito i nomi di Jonathan Cohen e Clark Glymour (altri nomi: Tverski, Kahnemann). Glymour in “Why I am not a Bayesian” sottolinea il divario tra l’effettiva pratica scientifica e l’idealizzazione del ragionamento offerta dai bayesiani. Diverso il caso della logica deduttiva, pur essendo questa pure basata su un’idealizzazione. Pochi scienziati in effetti nella storia della scienza hanno fatto ricorso a ragionamenti probabilistici e comunque, quando sono ricorsi a questi, non lo hanno fatto partendo da assegnazioni di probabilità che erano arbitrarie. La critica vale naturalmente contro il bayesianesimo soggettivista. In effetti, dato che le assegnazioni a priori per i bayesiani soggettivisti sono arbitrarie, i soggettivisti devono essere disposti a giustificare i valori probabilistici di ogni conclusione tratta con metodi bayesiani. La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di convergenza,e in particolare il teorema di De Finetti, assicurano in una certa misura l’intersoggettività, purchè si effettui una reiterazione della procedura di revisione delle credenze. Altre difficoltà tuttavia sono più nettamente tecniche. (1) Supponiamo di considerare un dato dì evidenza già noto E che sia assolutamente certo, quindi tale che Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E), ne segue, per il teorema di Bayes, Pr(H|E) = Pr (H )● Pr Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. (E|H)/ Pr (E) = Pr (H). Quindi nel caso in cui si conosca con certezza una evidenza E prima di formulare l’ipotesi l’evidenza E non conferma nulla. Questo è strano perché la “vecchia evidenza” è sempre servita a confermare nuove teorie. Si pensi al fenomeno della precessione del perielio di Mercurio, che era già noto prima che Einstein formulasse la teoria della relatività e che fu poi usata per confermare la teoria stessa. Una risposta possibile alla difficoltà potrebbe essere che la probabilità 1 si assegna solo alle verità logico –matematiche e la probabilità 0 alle contraddizioni logico-matematiche. Se vedo, o penso di vedere, una gallina blu rivedrò le mie credenze circa il mio stato fisico e magari scoprirò di essere sotto l’azione di una droga, ma non tratterò questo dato come una contraddizione logica. Ma l’ obiezione non è decisiva: purtroppo il problema segnalato da Glymour si ripropone con il valore della certezza pratica 1-ε, o con valori molto approssimati a 1. (2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le ipotesi più semplici rispetto alle altre. Le ipotesi più semplici sono intuitivamente più informative delle ipotesi meno semplici. Nessuna applicazione del teorema di Bayes può rendere conto di questa ragionevole preferenza per ipotesi semplici o informative. Si può pensare che il ragionamento in ambito giudiziario possa trascurare le difficoltà in questione, che sono state evidenziate in ambito epistemologico. Ma così non è, come è stato convincentemente provato da Jonathan Cohen. La critica di Cohen al bayesianesimo è piu` radicale di quella di altri, in quanto investe gli stessi assiomi di Kolmogorov e l’utilità del loro impiego in ambito giudiziario. Cohen chiama "pascaliana" la trattazione classica della probabilità`, a cui contrappone una sua diversa concezione, che chiama "neobaconiana". Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una fonte di preoccupanti paradossi. Basti pensare a questi tre problemi: a) Per il principio delle probabilità totali, dato che il valore massimo di probabilità è 1, come sappiamo, Pr(-A)= 1 - Pr (A). Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili prima dell’acquisizione di nuova informazione. In tali casi, se la probabilità misura il grado di credibilità, allora la probabilità di A e quella di -A sono ambedue più basse di 0.5. (Per esempi di questo fenomeno tratti dalla casistica giudiziaria c’è solo l’imbarazzo della scelta). Si noti, tra l’altro, che se il principio-guida nei processi civili deve essere quello della preponderanza della probabilità, l’applicazione rigida dei teoremi del calcolo delle probabilità porta a risultati che paiono contrari alle intuizioni etiche. Se la probabilità che Tizio sia un evasore fiscale in una città in cui la percentuale di evasori è del 51%, quella che sia un onesto contribuente è del 49%. In base al principio della preponderanza quindi dovrebbe essere condannato, ma così c’è un’alta probabilità che la condanna sia ingiusta. L’esempio è solo un caso speciale di un paradosso a volte come paradosso “dello spettatore abusivo”. Un organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci sono 1000 spettatori. Quindi 501 sono entrati abusivamente. In base al principio della maggiore probabilità si potrebbe intentare causa contro uno spettatore qualsiasi in base al fatto che la probabilità che sia un abusivo è superiore a quello che non lo sia. b) Una seconda difficoltà è generata dal principio delle probabilità composte. La probabilità di A ∩ B è normalmente piu` bassa di quella di A e quella di B, per il principio delle probabilità composte. Ma se due periti indipendentemente danno un giudizio convergente - per esempio sulla natura di una certa sostanza chimica - la probabilità che ambedue dicano la verità e superiore a quella che ciascuno singolarmente dica la verita: infatti la loro convergenza rafforza, anzichè diminuire, tale probabilita`. Lo stesso grave problema riguarda le testimonianze Supponiamo che ogni teste abbia la scelta tra due asserti, S e -S. Se due testimoni indipendenti, magari non molto credibili, concordano nell’affermare Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. S, la probabilita`che ambedue dicano il vero si abbassa per il teorema delle probabilità composte (p. es. 0.3 ● 0.4 = 0.12) mentre dovrebbe intuitivamente aumentare. Mettere in dubbio il principio delle probabilità composte è esiziale per il bayesianesimo, dato che il teorema di Bayes è derivato immediatamente da tale principio. c) Le testimonianze di secondo grado - cioè le testimonianze su testimonianze - sono intuitivamente più deboli di quelle dirette ai fini dell’ accertamento dei fatti. Ma questo non è rappresentabile entro la probabilità pascaliana. In effetti non esiste una logica per trattare le probabilità di ordine superiore. (Questo fatto, incidentalmente, non è registrato da Cohen). Tutto ciò che si può dire è che (i)“se a dice la verità, b è un testimone credibile”, (ii)” se b è credibile, allora l’imputato ha commesso il fatto “ implicano per la c.d. transitività del sillogismo (iii) se a dice il vero, l’imputato ha commesso il fatto . Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di (i) e (ii), mentre intuitivamente è più debole perché basato su due livelli di testimonianze. Il problema in effetti riguarda ogni tipo di inferenza ottenuto per transitività.La giurisprudenza esige che ogni passo della catena inferenziale sia vero oltre ogni ragionevole dubbio, ma ciò non implica che si debba accettare oltre ogni ragionevole dubbio ogni conclusione ottenuta per transitività. La transitività in effetti vale se si pone ∈=0 (cioè per certezza matematica) ma non è affatto garantito che la transitività valga per altri valori di ∈. Un problema analogo in effetti è già stato affrontato nella prima lezione quando si è introdotto il cosiddetto “paradosso della lotteria”. In quel caso abbiamo visto che l’ accettabilità basata sulla quasicertezza non si conserva passando da un singolo A e un singolo B alla congiunzione A & B: ora dobbiamo aggiungere che lo stesso fenomeno si registra purtroppo per l’accettazione rispetto alla transitività. Cohen inoltre osserva che alcuni giudizi probabilistici, a differenza di altri, dipendono da premesse controfattuali. Volendo identificare le probabilità con le frequenze, un conto infatti sono le frequenze in una classe chiusa (p.es. gli attuali ospiti dell’Hotel Excelsior, di cui possiamo dire il 30% sono italiani, per cui la probabilità che uno degli ospiti sia italiano è del 30%), altre le frequenze virtuali in una classe aperta. Come è noto, i frequentisti propongono in questi casi di trattare le probabilità come limiti di frequenze: ma è difficile dire quali dovrebbero essere questi limiti quando le proprietà da esaminare dipendono da condizionali controfattuali: p.es. la probabilità di Tizio di morire in un incidente se fosse un paracadutista. Cohen insiste baconianamente sul fatto che la varietà del campione è tanto importante come la numerosità dello stesso. Questo è un requisito che i frequentisti tendono a sottovalutare, anche se Reichenbach insiste su quella che abbiamo chiamato “omogeneità” del campione. Un campione variato è un campione che si presume non sia sbilanciato (tarato o biased) a favore di qualche ipotesi. Keynes si è ispirato a Bacone introducendo il principio della “varietà limitata indipendente”. Ciò presuppone detto in modo semplificato - che c’è un numero finito e fisso di generi o specie naturali a cui i predicati appartengono e all’interno dei quali hanno delle connessioni stabili. Un caso nuovo osservato non ha nessun valore a meno che non mostri una combinazione di caratteristiche nuove (variate) rispetto ad altri osservati. (Tale sarebbe per esempio un orso bianco rispetto a un campione di orsi bruni). La persistenza di questi gruppi di caratteristiche dipende dall’ Uniformità della Natura: si tratta dell’idea che la collocazione spazio-temporale dei fenomeni non ha nessuna rilevanza per le altre proprietà stabili dei fenomeni stessi o, altrimenti detto, che le proprietà stabili riscontrate nei fenomeni sono spazio-temporalmente invarianti. Cohen ha avuto sicuramente il merito di evidenziare che le intuizioni psicologiche circa le probabilità discordano dai risultati delle procedure matematiche. Questa divergenza, che abbiamo già notato nella prima lezione, vale anche per le applicazioni del teorema di Bayes. Abbiamo già visto che Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. per applicare il teorema di Bayes occorre fornire un input costituito dalle probabilità a priori,e già qui nei tribunali sorgono dei problemi. Il bayesiano soggettivista avrà buon gioco a dire che il problema non esiste perchè ciascuno puo` assegnare il valore che gli pare. Ma il problema è ovviamente che nei tribunali la giuria deve raggiungere, se non l`unanimita`, almeno un ragionevole consenso. L`oggettivista insisterà su due fatti: 1) ci vogliono delle convenzioni condivise per fissare le probabilità a priori (per esempio 1/2 in caso di incertezza) e 2) altri valori che entrano nella formula di Bayes dovrebbero essere derivati da fonti inoppugnabili (statistiche mediche). E’ stato osservato che il modo intuitivo in cui il teorema di Bayes viene applicato dagli utenti in effetti non è quello auspicato dai bayesiani. Torniamo al teorema di di Bayes nella forma più articolata che, come abbiamo visto, è : Pr (H|E ∩ K) Pr (H) Pr(E ∩ K |H) ------------------- = ----------- • ---------------------Pr(-H | E ∩ K) Pr (-H) Pr(E ∩ K |-H) che connette la probabilità a posteriori (credibilità) con il rapporto a priori e il valore probatorio. La probabilità a posteriori di H rispetto a una certa evidenza quindi equivale al prodotto del rapporto a priori di H e del valore probatorio dell’evidenza. Nel caso in cui Pr(K)=1 questa formula coincide con quella di p.000. Ora anche se V (il valore probatorio) è alto, nel caso in cui il rapporto a priori è basso, la probabilità Pr(H|E) resta bassa. Orbene, nella “versione psicologica” della regola di Bayes, il rapporto a priori praticamente viene ignorato. Un esempio è il seguente (cito da un articolo di P.Cherubini ): In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono blu, il 15% verdi. Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone asserisce che si trattava di un taxi verde. Una prova di acuità visiva dimostra che con quella luminosità e a quella distanza, il testimone è in grado di riconoscere correttamente quei toni di blu e verde nell’80% dei casi. Qual è la probabilità che il taxi visto dal testimone fosse effettivamente verde? La risposta corretta è 41%. Infatti, ponendo Pr(K)=1(dato che qui non interessa) e applicando la regola di Bayes abbiamo,se O è la ragione di scommessa: O(taxi verde | testimonianza) = Pr( taxi verde|testimonianza / taxi blu|testimonianza) = 0.15/0.85 • 0.8/0.2 = 0.71 quindi, alla luce della relazione già stabilita per cui Pr(Q) = O(Q)/ O(Q) + 1, si ha che Pr(taxi verde | testimonianza) = 0.71/1.71 = 0.41. La probabilità che il taxi fosse effettivamente verde alla luce della testimonianza quindi è piuttosto bassa. Ma molte persone rispondono “80%”: usano la forza dell’evidenza testimoniale, ma non la modificano in base alla probabilità a priori che il taxi fosse verde (15%). Altre aggiustano un poco la loro stima: i taxi verdi sono rari, e a questi soggetti sembra allora ragionevole concludere che la probabilità che il taxi fosse verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra il 60% e l’80%). Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde, mentre secondo una corretta applicazione del teorema è più probabile che sia blu. La tendenza a ignorare le probabilità a priori è stata molto discussa in giurisprudenza, tanto da meritarsi un nome specifico: “fallacia dell’accusatore (Thompson e Schumann, 1987). È stata però discussa quasi esclusivamente in relazione al test del DNA. La maggior parte dei testi di statistica Bayesiana applicata al diritto dedica ampio spazio a questo test. Quando fu introdotto, alcuni esperti asserirono che il test del DNA non poteva generare falsi positivi, ma ormai da più di vent’anni è noto che non solo li può produrre, ma li ha effettivamente prodotti (Thompson, 1997). La possibilità di sbagliare è così elevata che il risultato del test del DNA deve essere accompagnato in Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. aula dalla stima della “probabilità di corrispondenza nella popolazione” : la probabilità che a priori una persona estranea ai fatti scelta a caso nella popolazione di riferimento abbia un profilo DNA che coincide con quello del test . Si sa che il test può essere usato in due modi diversi, a seconda che ci sia già un sospettato oppure no. (1) quando già esiste un sospettato per un certo crimine, si può confrontare il profilo DNA del campione trovato sulla scena del crimine con quello del sospettato. Un’ eventuale corrispondenza aumenta di molto le probabilità di colpevolezza del sospettato, perché il valore probatorio del test del DNA, pur variando da situazione a situazione e in base al tipo di profilo DNA usato, è spesso molto alto e la probabilità a priori di colpevolezza non è irrisoria (assumendo, naturalmente, che gli indizi che hanno reso “sospetto” il sospettato siano fondati). Se poniamo per semplicità Pr (corrispondenza | colpevole) = 1 e se supponiamo ora una “probabilità di corrispondenza nella popolazione”, (cioè Pr(corrispondenza | non colpevole), pari a 1 / 1000000, il valore probatorio del test (rapporto di Bayes : 1/ [1/1000000] ) ha valore 1.000.000, quindi è decisamente alto. Se un indagato ha probabilità di colpevolezza a priori di 0.001 (1 / 1000), si può provare che sulla base di questi dati la corrispondenza del profilo fa crescere la sua probabilità di colpevolezza da 0.001 fino a circa 0.999.(Infatti, definendo gli odds come a p.xx, O(H|E) = 1000000/999 = 1001 e Pr(H|E)= O(H|E)/O(H|(E +1)) (2) Il secondo modo di usare il test consiste, in mancanza di un sospettato, nel confrontare il profilo DNA del campione con i campioni contenuti in una banca dati (database). In questo caso, la scoperta di una corrispondenza del profilo DNA rende “sospetta” una persona che prima non era stata messa in relazione con il crimine. Questo secondo modo di usare il test suscita vari problemi filosofici e statistici. Per capire il problema si osservi che quando il sospettato è identificato esclusivamente nel modo suddetto, le sue chances di colpevolezza a priori, cioè prima che iniziasse la ricerca, sono irrisorie. Per fare un esempio. in un territorio con 10.000.000 di abitanti fisicamente in grado di commettere un certo crimine, la probabilità di colpevolezza a priori di ciascuno di loro, compreso Tizio, è 1 / 10.000.000. In queste circostanze, a parità di altri dati, la probabilità a posteriori della colpevolezza di Tizio, lungi dall’essere la “quasi-certezza” come nel caso precedente, è inferiore al 10%. Ma se giudici, giurati e accusatori vengono informati da un perito della scarsa probabilità di corrispondenza nella popolazione, tendono ad accettare il valore fornito dal perito senza revisionarlo in base alla probabilità a priori della colpevolezza. Per esempio, se la probabilità di corrispondenza nella popolazione per un dato profilo è 1/ 1.000.000 (come nel caso precedente) e Tizio corrisponde a quel profilo, ritengono erroneamente che la probabilità che Tizio sia innocente sia di circa 1 su 1.000.000. Come si noterà, lo schema dell’errore è lo stesso che abbiamo evidenziato discutendo le probabilità di essere vittima di un falso positivo. Fortunatamente molti trattati di statistica forense hanno affrontato questo problema, diffondendo una certa consapevolezza sulla fallibilità del test e sulle insidie nascoste in una sua lettura semplicistica,. Per questo alcuni giustamente chiedono che l’esito del test sia sempre accompagnato in aula da una stima del rapporto di probabilità a priori, cioè di corrispondenza nella popolazione (ad es., Meester e Sjerps, 2004). Nei paesi anglofoni si è discusso dettagliatamente sull'utilità del teorema di Bayes applicato a certi problemi di identificazione. Esempio. Un tale, accusato di omicidio, era gia`a noto per vessazioni e violenze nei contronti della vittima. C’ era una sua impronta digitale sull`arma del delitto. L`impronta era incompleta, ma l`esperto assicurò che solo una persona su 1000 aveva quel tipo di impronta. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Ora valutiamo pari a 0 la probabilità a priori di trovare un’impronta del genere di qualche soggetto, se questi è innocente. Assumiamo inoltre che tutti coloro che usano il coltello lasciano un’impronta. I precedenti penali del sospettato portavano la probabilità di colpevolezza a un valore pari a 0.25. In base a quanto già detto circa la presunzione di innocenza, la probabilità iniziale di colpevolezza si poteva stabilire come pari a 0.5. Il valore a posteriori della colpevolezza risultava però completamente diverso: 0.999. Ma i dubbi erano in agguato. La conclusione seguiva ineccepilmente dalle premesse, ma queste erano, come spesso accade, tutt’altro che scontate. Per quanto sia quasi incredibile, per esempio, si è effettivamente verificato il caso di un poliziotto che aveva piazzato le impronte di un innocente sullo sportello di una banca: quindi non è vero che la probabilità che un innocente lasci un impronta è pari a 0. Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario all`idea di insegnare il teorema di Bayes ai giurati, perché diceva che il concentrarsi sul raggiungimento delle soglie di certezza “oltre ogni ragionevole dubbio” faceva perdere di vista tutti gli elementi imponderabili che invece erano rilevanti per la conclusione. Inoltre Tribe richiamava l`attenzione sul fatto, più volte sottolineato in precedenza, che la difficoltà di pervenire ad una stima adeguata delle probabilità iniziali rende spesso inapplicabile il teorema di Bayes. LEZIONE 5 –Alternative al bayesianesimo giudiziario Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non ha lasciato un segno tangibile nella pratica. Il successo di questo orientamento è dovuto all’affermarsi della convinzione che la conoscenza vada di pari passo con la possibilità di misurare quantitativamente i fenomeni e che le credenze siano assoggettabili a misure quantitative. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Una prima difficoltà, come abbiamo visto, è che la gente non tende a ragionare nel modo richiesto dal teorema. Questo naturalmente non significa che lo schema bayesiano è errato ma che, evidentemente, il ragionamento intuitivo tende ad essere fallace. Se è così però bisogna pensare a rieducarlo, il che non è facile. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo delle probabilità con esercizi? Il teorema di Bayes in effetti offre un modello ideale di ragionamento, così come la logica deduttiva formalizzata, e quindi propone solo un modello normativo. Il problema dell’input per l’applicazione del calcolo, cioè delle assegnazioni a priori, è quello indicato concordemente come la difficoltà maggiore. Abbiamo già visto che , in caso di incertezza, nonostante la presunzione di innocenza, si potrebbe porre il valore della colpevolezza pari a ½. Questo è ragionevole, ma si potrebbe anche risolvere il problema con una convenzione come quella proposta dal celebre antropologo-fiolosofo David Lempert. Lempert suggerisce che in tutti i casi, civili e penali, la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita da un quoziente 1/n , dove n è il numero di possibili colpevoli nel mondo per quel reato. P.es. supponiamo che il numero di possibili colpevoli al mondo per un certo specifico reato sia 1000. Allora la probabilità iniziale (a priori) di colpevolezza non è 0.5 ma 1/1000 (1: 999). Le informazioni successive restringono il numero dei possibili attori. Ecco come può funzionare un meccanismo bayesiana. Prima abbiamo il valore probatorio V dell’evidenza E che, come si ricorderà, è dato da Pr E|H / Pr E| -H Poi alla luce di successivi elementi di informazione F,H, ecc. avremo Pr (E ∩ F)|H / Pr (E ∩ F)| -H Pr (E ∩ F∩ G)|H / Pr (E ∩ F ∩G) | -H ....... Il valore probatorio dell’evidenza quindi si modifica con l’aumento dell’informazione, e consequenzialmente si modifica, applicando il teorema di Bayes, la probabilità a posteriori di H data l’evidenza disponibile. Per esempio, se sappiamo che il colpevole aveva una macchina rossa, il numero dei possibili colpevoli si restringe da 1000 proporzionalmente, e il valore di Pr H condizionato alla nuova evidenza varia di conseguenza. Questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza i cui colpevoli costituiscono un dominio finito e misurabile. Se,per esempio, H è l’ipotesi che un certo delitto sia stato compiuto da un animale, questa probabilità a priori non può essere calcolata perché non sappiamo quanti animali avrebbero potuto compierlo. In caso di ignoranza, potremmo fissare questo valore come uguale allo stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una difficoltà perché noi sappiamo anche che i delitti compiuti da animali sono molto più rari di quelli compiuti da uomini. Il bilancio della discussione dunque è che nell’assegnazione delle probabilità iniziali non ci sono criteri inoppugnabili nemmeno nei casi in cui sarebbe lecito affidarsi al principio di indifferenza. Ma di fatto il ragionamento probatorio presenta aspetti che non sono facilmente inquadrabili nello schema bayesiano. Le critiche di Cohen e Glymour, già ricordate, fanno pensare che lo stesso calcolo delle probabilità nell’assiomatizzazione classica (di Kolmogorov) sia una fonte di problemi. Il problema da discutere è il seguente.: ci sono alternative praticabili alla teoria amtematica classica della probabilità? Nel campo giudiziario si possono citare le proposte di tre studiosi, Cohen, Shackle e Shafer, che si presentano interessanti perchè hanno parecchi punti in comune. Sulla base delle critiche già avanzate Cohen ha elaborato una logica del sostegno induttivo in cui non valgono i principi della probabilità pascaliana . Non è stato l’unico ad abbandonare questa logica. La logica della sorpresa potenziale di Shackle, per esempio, adotta una regola non moltiplicativa per la congiunzione che è isomorfa a quella adottata da Cohen, ed è condivisa anche Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. dalla logica dell’accettabilità di Isaac Levi ( si rifletta al proposito sul “paradosso della lotteria esposto a p.000). L`alternativa neobaconiana di Cohen non puo` essere illustrata qui nei dettagli. Basti dire che per Bacone l`inferenza ampliativa non fa leva sull’ induzione per enumerazione semplice (che Bacone trova puerile) ma sulla ricerca di campioni variati. Dato che per lui esiste solo un numero finito di forme (generi) un controesempio è molto piu` utile alla ricerca che non l’accumulazione di molteplici esempi a favore: la cosiddetta induzione eliminatoria consiste nel rafforzare un’ ipotesi eliminando tutte le ipotesi alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i cigni sono bianchi venne rimossa quando si scoprì che in Australia esisteva una tribù di cigni neri. Questo aspetto del suo pensiero metodologico fa di Bacone un Popperiano ante litteram, con ciò intendendo che il momento della falsificazione ha un ruolo più importante di quello della conferma o delle verifica. L’idea base è che le generalizzazioni hanno dei gradi di certezza diversi, a seconda della solidità del ragionamento con cui vengono raggiunte. Mill riprese questa idea con i c.d. “metodi induttivi”, che non sono metodi per la scoperta delle cause ignote, ma metodi per provare o refutare l’esistenza di relazioni causali. Come Bacone, Mill insisteva sull’importanza della varietà degli esperimenti, mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla numerosità degli stessi. Mill comunque ammetteva che nell’applicazione dei canoni induttivi si dava sempre un certo margine di incertezza, che egli però proponeva di calcolare nei termini della probabilità pascaliana. Cohen sostiene che c’è una nozione di forza probatoria -il concetto di “peso” di Keynes - che va aggiunto come correttivo all’apparato pascaliano . Il requisito carnapiano dell’Evidenza Totale, il requisito della specificità massimale di Hempel a suo giudizio sono sacrosanti in linea di principio, ma di fatto inapplicabili. L’idea di Keynes è che bisogna tener conto non solo della differenza tra conferme positive e negative per un’ ipotesi H (e questa dà la misura della probabilità), ma anche del volume complessivo dell’evidenza, che chiama peso dell’evidenza. Per fare un esempio, l’aver estratto 20 biglie rosse e 80 verdi, quindi in totale 100 biglie, consente di dire che la probabilità di estrarre una biglia rossa è di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse e 800 verdi, ma il peso complessivo di questa somma di evidenze favorevoli e contrarie è ovviamente superiore. Secondo Keynes il “peso” non è quantificabile, anche se può darsi un ordinamento comparativo di pesi. Peso e probabilità quindi sono concetti relativamente indipendenti. Secondo Cohen uno dei limiti dell’approccio bayesiano è proprio la mancata attenzione alla esaustività delle conferme. Applicando il teorema di Bayes si può arrivare ad un valore molto alto, o molto basso, di probabilità anche dopo aver considerato solo una o poche conferme: ma l’aver considerato poche conferme implica che molte altre ne possono esistere, magari al momento irreperibili, in grado di ribaltare il giudizio.(Si veda nelle pagine precedenti la critica del Prof. Tribe). Se allo stesso giudizio invece si arriva dopo aver esaminato molte e variate conferme ,per quanto non sia mai possibile ritenere che l’analisi sia esaustiva il giudizio è meno esposto al rischio di variabilità, e quindi più solido. Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico, da lui detto “pascaliano” di probabilità, ed introdurre il concetto di probabilità “baconiana”. Il metodo baconiano è basato, come già detto, sull’ induzione eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi alternative ad esso sono state considerate e poi eliminate per falisificazione. Come vedremo, questo è il tipico schema di procedimento abduttivo. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Se non abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità baconiana è minima (0): ciò implica, per esempio, che per la presunzione di innocenza la probabilità di colpevolezza è posta uguale a 0. Ma a differenza che nel sistema pascaliano, tale probabilità può crescere con l’accumularsi delle conferme, cioè eliminando le ipotesi alternative. In tal modo, tenendo conto dell’ammontare di evidenza favorevole, Cohen intende avvicinarsi alla nozione keynesiana di “peso”. Il concetto chiave in questa operazione è quello di legisimilitudine, con ciò intendendo l’approssimazione allo status di necessità che è proprio delle leggi. Secondo Cohen il peso keynesiano di Pr(H|E), se Pr(H|E)=n, dovrebbe risultare uguale alla legisimilitudine baconiana di E → (Pr(H)=n), dove la freccia sta per la relazione implicativa. Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla linea antipascaliana chiedendo la rinuncia al principio delle probabilità totali, da cui segue, come sappiamo, che Pr(-A)= 1-Pr(A). Il suo sistema cerca di catturare la “sospensione del giudizio”. Se abbiamo pochi elementi per ritenere vera l’ipotesi H, possiamo attribuire ad H una probabilità bassa, ad esempio 0.1: ma nel sistema di Shafer questo non significa attribuire probabilità 0.9 a -H. Anche a -H possiamo attribuire probabilità bassa, ad esempio sempre 0.1, in quanto possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi ne avevamo per ritenere che H fosse vera. La restante probabilità, 0.8 nel nostro esempio, quantifica la propensione a non impegnarsi né su H né su -H, permanendo nel dubbio sulla stessa disgiunzione “H o non H”. La legge del terzo escluso sembra quindi messa in discussione in chiave probabilistica. Di fatto, tuttavia, la situazione che si presenta è spesso un’altra. Se H è un’alternativa con bassa probabilità, ciò che risulta con alta probabilità di solito non è la negazione di H. cioè non-H, ma un’altra alternativa H’ che appare , allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel famoso delitto della penna a sfera, in cui le uniche due alternative ragionevoli sembravano avere bassa probabilità a priori. Ma non esaurivano la campo logico delle alternative possibili. C’era quindi un terzo evento sconosciuto B tale che Pr(H ∪ H’ ∪ B)=1. Le informazioni acquisite in seguito poi furono tali da falsificare H e avvalorare H’, abbassando significativamente il valore del terzo incognito B. Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può considerare derivata da una teoria molto originale introdotta dell’economista R.S. Shackle. Shackle chiama la sua metrica sistema di misura dei “gradi di sorpresa potenziale” o “gradi di disbelief” (cioè di “incredulità” o “sfiducia”) . Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to which we expose ourselves, when we examine an imagined happening as to its possibility, in general or in the prevailing circumstances, and assess the obstacles, tensions and difficulties which arise in our minds when we try to imagine it occurring, that provides the indicator of degree of possibility. This is the surprise we should feel, if the given thing did happen; it is potential surprise”. (Shackle, 1961, p. 68) Per capire la differenza tra questa nozione e quella di grado di credenza o grado di probabilità, basta notare che, se B è il grado di sorpresa, tale grado non si distribuisce su una congiunzione di ipotesi. Il grado di sfiducia (sorpresa), per esempio, nel fatto che domani piova e che domani un cinese passeggi sulla luna, intuitivamente è pari o superiore al grado di sfiducia (sorpresa) che un cinese domani cammini sulla luna, e questo chiaramente è il grado di sfiducia (sorpresa) maggiore tra i gradi di sorpresa associati alle due ipotesi. Se il grado di sopresa fosse identico al grado di probabilità, il principio delle probabilità composte ci obbligherebbe a dire che il grado di sopresa delle congiunzione è uguale o minore al grado di sorpresa dei singoli asserti. Shafer ha avuto il merito di operare la formalizzazione delle idee esposte Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. informalmente da Shackle , che poi ha applicato anche a sistemi esperti. La logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice a questo capitolo) C’è un aspetto interessante della concezione di Shackle – Shafer, non analizzato da Cohen . Secondo Shackle credere in h ad un certo grado significa avere sfiducia in ¬h allo stesso grado. Sia d K il grado di sorpresa potenziale di h rispetto a K. Intuitivamente dK indica il grado di sfiducia o di non- credenza o di informatività di h. La credenza, rappresentata dall’operatore di credenza (belief) b è il complemento di d (disbelief): bK(h) = d K (¬h) Il grado di sorpresa quindi è un’ interessante misura dell’informatività di un enunciato. Va detto che Popper ha svolto, con obiettivi radicati nella sua teoria, un programma che ha certe analogie con quello di Shackle-Cohen. Come si sa, secondo Popper le teorie interessanti sono quelle falsificabili. Il numero di falsificatori potenziali di h è per lui il contenuto informativo dell’ipotesi stessa h. La probabilità e il contenuto informativo sono grandezze inversamente proporzionali: nella proposta più semplice, sottoscritta da Popper, cont(h) = 1- Pr(h). Le tautologie pertanto sono prive di contenuto informativo, mentre le contraddizione sono massimamente informative, dato che implicano tutto. Se c’è un numero di ipotesi esaustive e digiunte h1…hn, il metodo popperiano ci impone di scegliere la più informativa h e tentare di falsificarla. Popper ha proposto delle misure di corroborazione, che non è la conferma probabilistica ma è il grado di resistenza dell’ipotesi alla falsificazione mediante test severi. Entrando in gioco la nozione di “severità” o “rigore dei test” non è possibile dare dei valori numerici ai gradi corroborazione, anches se è possibile stabilire dei confronti . Altri autori come Levi e Hintikka invece chiedono la massimizzazione dell’utilità epistemica, che dipende dal prodotto della probabilità per il contenuto informativo. La grandezza così definita ha proprietà intermedie tra quelle della probabilità e dell’improbabilità e la logica di questa nozione presenta forti affinità con quella di Shackle . APPENDICE . Per semplicità si assuma che l’universo del discorso W sia un insieme finito e che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un insieme –cioè l’insieme dei punti dello spazio-tempo in cui si verifica l’evento stesso. Una distribuzione di possibilità è una funzione pos da W all’intervallo reale [0, 1] tale che: Axiom 1: pos(∅ )=0 Axiom 2: pos (W=)=1 Axiom 3: pos(U ∪ ∨) = max(pos(U),pos(∨)) per sottoinsiemi disgiunti U e V. Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella teoria della probabilità. Supponiamo che U sia l’evento “estrazione di una donna”e V “estrazione di un re di picche”. I due eventi sono disgiunti, la probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di uno o l’altro dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è fissato a 1/13, cioè dal grado di possibilità più alto tra i due eventi. La possibilità si dice dunque composizionale rispetto all’operatore di unione insiemistica. Ma non è tale rispetto all’operatore di intersezione. In generale, infatti, pos(U ∩ V ) < min(pos(U), pos(V)) Come nella cosiddetta logica modale, la necessità è il duale della possibilità. Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che 2+2 =4 sia falso”. Rappresentiamo in simboli il grado di necessità così: nec(U) = 1 –pos(-U) > 1 Contrariamente alla teoria della probabilità, per ogni evento U , abbiamo la diseguagliaza: pos(U) + pos(-U) > 1 Vale inoltre la seguente disgiunzione Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0 Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Ci sono 4 casi: nec(U) =1 significa che U è necessaria, cioè certamente vera. Essa implica pos(U)=1 pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0 . pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza di U . nec(U) viene lasciato impregiudicato nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei affatto sorpreso del mancato verificarsi di U . pos(U) viene lasciato impregiudicato. La congiunzione di nec(U) =0 e . pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza corrisponde alla contingenza in senso proprio, col significato che io non credo niente circa U. Stante che consente l’indeterminatezza in questo modo, la teoria della possibilità è più vicina alla logica polivalente o alla logica intuizionista piuttosto che alla logica classica bivalente. Si può dimostrare in questo sistema: per ogni U, nec(U) < pos(U) e anche : nec(U ∩ V) = min (nec(U), nec(V) Recentemente il successo teoretico e applicativo della cosiddetta fuzzy logic suggerisce di ricercare in quest’area strumenti utili al ragionamento probatorio. Per cominciare è bene sottolineare, comunque, le differenze tra la teoria della possibilit e la fuzzy logic. Teoria della possibilità: La bottiglia è tutta piena o tutta vuota. “La possibilità che la bottiglia sia piena è 0.5” descrive un grado di credenza e si fa interpretare così: sono pronto a scommettere che è vuota nella misura in cui le ragioni di scommessa pro e contro (odds) sono uguali (scommetto 1 contro 1), ma non scommetterei mai che è piena. Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la bottiglia è, come dato reale, mezza piena!! La parola “piena” è un predicato sfumato con cui si descrive la quantità di liquido nella bottiglia. La fuzzy logic si appoggia su una fuzzy set theory , cioè su una teoria degli insiemi sfumati, il che fa pensare che da queste premesse si ottenga solo un fuzzy reasoning, quindi una classe di argomenti che non possiede canoni di validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti di giustizia. Si noti che della teoria della possibilità si può dare una trascrizione proposizionale in questo modo: ◊i(p ∧q) invece di Pos (P ∧Q) =i ◊i(p v q) invece di Pos (P vQ) =i □i ( p ∧q) invece di Nec(P ∧Q) =i □i(p v q) invece di Nec (P vQ) =i Questa notazione è usata da Cohen in “The probable and the Provable” e in altri saggi. I gradi di necessità vanno letti nella sua teoria in questo modo: ◊ip si legge “p ha almeno un grado i-esimo di legisimilitudine”. In questa logica ◊i p e ◊jq implica «i(p ∧q) quando i < j : questo è un principio non-pascaliano, e risolve secondo Cohen le difficoltà della trattazione pascaliana della congiunzione, cioè del problema delle probabilità composte, a cui abbiamo accennato a suo tempo. LEZIONE 6. Fallacie statistiche. Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a minimizzare l’importanza del ragionamento probabilistico nelle procedure giudiziare. Negli ultimi anni, infatti, proprio nei tribunali, c’è stato un uso crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli già noti delle impronte digitali, dell’ identificazione di appartenenza di tessuti organici ecc. sono soggetti ad argomentazioni di tipo statistico. I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della conclusione. Ma Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. quando si esemplifica l’applicazione del teorema di Bayes per calcolare la probabilità di un’ipotesi H rispetto a un’evidenza E , di solito si tende a pensare ad H come un enunciato di tipo fattuale (p.es. “l’imputato ha commesso il fatto”) oppure a un enunciato quantificato in forma universale o esistenziale (“tutti gli elementi della banda hanno commesso il fatto”,o “qualche elemento della banda ha commesso il fatto”). Ma che dire quando H è un enunciato di forma statistica (“il 70% dei cigni sono bianchi”) o descrive una relazione causale (“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ? In tal caso il teorema di Bayes dovrebbe consentire di calcolare Pr(H) , dove H però è a sua volta un enunciato statistico o (nel caso causale) è un asserto che è in qualche modo dipende da leggi di forma statistica. In primo luogo sembra che nessun campo offre una maggiore possibilità di errore, e quindi di manipolazione, di quello statistico. Basta dare una scorsa a due libri apparsi in epiche diverse ma con titoli analoghi : “Mentire con le statistiche” di Darrell Huff e „Wie man lügt mit Statistik“. [Come si mente con la statistica] di Walter Krämer: Piper. München-Zürich: 2000. pp.1-206. I due libri sembrano ispirarsi a una frase famosa di Mark Twain attribuita anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le statistiche”. Questo tra l’altro prova l’interesse giudiziario per l’argomento, in quanto l’inganno operato con le statistiche risulta un tipo particolare di frode che è estremamente difficile smascherare. In questi casi infatti ciò il giudice mira a stabilire per sanzionare la frode non è un evento più o meno certo ma una coppia di fatti: (i) il fatto che un dato ragionamento è viziato (ii) il fatto che questo vizio di ragionamento è risultato di un’ azione intenzionale. Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle campagne elettorali non tanto per tastare il polso agli elettori ma per influenzare l’elettorato stesso. La causa dell’inganno è abbastanza chiara: ai questionari e ai sondaggi risponde solo chi vuole, con il che si deroga al requisito della randomizzazione del campione. Anche il sondaggio telefonico - che appare più coercitivo e quindi in apparenza più attendibile- ha creato clamorosi errrori previsionali. Gli stessi exit polls, che nelle intenzioni avrebbero dovuto anticipare le proiezioni elettorali, hanno prodotto risultati inattendibili, al punto che sono stati aboliti nelle ultime tornate elettorali. Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti statistici. Per esempio, il concetto di disoccupazione è diverso da paese a paese, per cui le statistiche sulla disoccupazione fatte in Germania danno risultati diversi da quelli italiani senza che ciò implichi una significativa differenza nella realtà dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali si stabiliscono soglie diverse da paese a paese. La soglia della povertà in Italia è fissata convenzionalmente in una spesa mensile pari a 582,20 euro per un single, 970,34 euro per una famiglia di due persone e 1581,65 euro per una famiglia di quattro persone. Nel 2007 risultavano al di sotto di tale soglia 6 milioni di persone, che è sicuramente un dato preoccupante. Nonostante questo, una capacità di spesa di 582 euro verrebbe considerata degna di un benestante nella maggior parte dei paesi africani, asiatici e sudamericani. Non vale neppure la pena di parlare delle inchieste sulla vita privata o sessuale della popolazione. In questi sondaggi non solo risponde solo chi vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi delle proprie performances, per sfogare le proprie frustrazioni con la mitomania, o semplicemente per il piacere di beffare l’intervistatore. Basti al proposito l'esempio del famoso rapporto Kinsey sul comportamento sessuale degli americani che, com' è noto, fece scalpore dando un'immagine dei comportamenti sessuali americani diversa da quella immaginata dai benpensanti. Al proposito basti osservare due cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non rispondere potrebbe dipendere da qualche atteggiamento verso la sessualità che non è quello della media dei soggetti (2) per semplificare il lavoro i Kinsey inclusero nella classe dei soggetti intervistati un numero piuttosto elevato di carcerati, i cui comportamenti sessuali erano spesso più trasgressivi di quelli praticati dalla media degli americani. Questi due fattori evidentemente non permettono di dire che in questa indagine veniva soddisfatto il requisito dell’ omogeneità della classe di riferimento , che si cerca di raggiungere con la randomizzazione. Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche motivo di vergognarsi delle inclinazioni che sono chiamati a manifestare. Quando, per esempio, si fanno dei sondaggi per stabilire la proporzione tra quanti amano la musica classica piuttosto che il rock, la risposta risulta lusinghiera per i musicisti di musica classica, ma è purtroppo incompatibile con quanto risulta dal consumo di dischi e di partiture di rock, rapportato al consumo di dischi e partiture di musica classica. Incidentalmente, questi sondaggi non tengono conto dal fatto che c’è una quota consistente di persone che detestano la musica in qualsiasi forma, anche se tali soggetti nei soondaggi tendono mascherare la loro antimusicalità. Naturalmente, come già sappiamo, il problema è trovare un campione che sia rappresentativo dell’universo, e si ritiene che questo si ottenga con un campione ampio e randomizzato. Ma è difficile soddisfare simultaneamente questa coppia di requisiti con i metodi usati dai sondaggisti.. In un paese poco sviluppato, per esempio, il metodo del sondaggio telefonico esclude chi non possiede un telefono, il che significa escludere una parte rilevante della popolazione. Altri inganni statistici sono dovuti al disinvolto impiego del concetto di media e di costruzioni teoriche come “l’italiano medio”, l”’operaio medio” ecc. Non parliamo del fatto che il lessico ormai di comune impiego nei giornali ha reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5 figli”, suggerendo l’idea che oltre al primo figlio si possa avere anche mezzo figlio. In effetti la parola “media” ha diversi significati. Si dice, per esempio, che Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente non si intende dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si intende dire, a quanto pare, che il reddito medio pro capite dei milanesi è superiore a quello medio delle altre città italiane. Ma il concetto di reddito medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro che la mediana è x. La differenza è percepita dagli statistici professionali ma non dal grande pubblico. Per restare nell’esempio, la ricchezza media dei milanesi si ottiene sommando i redditi di tutte le famiglie di Milano e dividendo per il numero di queste. La mediana invece è il valore intermedio entro la popolazione, cioè è il valore x di cui si può dire che il 50% delle famiglie si trova al di sotto di x, mentre il restante 50% si trova al di sopra di x. Media e mediana non coincidono affatto. Basti pensare che ci sono paesi del terzo mondo in cui il 10% della popolazione è ricchissima: questo porta in alto il valore medio del reddito, anche se il 90% della popolazione è in alcuni casi drammaticamente povera. Questa povertà è evidenziata dal fatto che il 50% della popolazione ha un reddito che è al di sotto del reddito medio, il che significa che la madiana è molto al di sotto della media. Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. curve a campana (per esempio la distribuzione dei ritardi del lotto) media e mediana spesso coincidono, ma questo non accade nelle statistiche dei fenomeni non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche come i tavoli) si riscontra sempre un certo margine di errore possibile, anzi probabile. Se si fissa a 100, per esempio, il QI medio e nostro figlio ha un punteggio di 99, risulta al di sotto della media; ma dato che è probabile che ci sia un errore nel rilevamento, la cosa probabile è che abbia un valore diverso da 99. Il modo in cui si usano le statistiche per influenzare in modo più o meno fraudolento le vendite dei prodotti è ben noto ed è stato analizzato a lungo anche dagli psicologi. È più grave il fatto che le statistiche si usano anche con finalità politiche ed economiche importanti. Esempio. La percentuale di morti durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i civili a new York ebbero un tasso di mortalità del 16 per mille. Il dato venne usato dai militari per sostenere che arruolarsi in marina rendeva quanto mai sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani marinai dovevano essere confrontati con i giovani della stessa fascia di età non militanti nella marina, non certo con una popolazione che comprendeva vecchi, malati. Il sofisma statistico più comune e più insidioso consiste nello scambiare correlazioni statistiche con correlazioni causali. Si tratta di una versione particolare e amplificata della vecchia fallacia “post hoc, propter hoc”. Per una comprensione del problema si dovrebbe disporre di una definizione precisa del concetto di causa, su cui torneremo in seguito. Ma questo concetto ha un nocciolo abbastanza intuitivo da rendere comprensibile la fallacia. Si osservi al proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il collante che unisce cause ed effetti secondo Hume non sta nel mondo esterno ma solo nella capacità associativa della mente. È singolare però che Hume non si rendesse conto che in base a questa teoria dovremmo classificare come causali relazioni che non sono tali. Per esempio, è chiaro che si dà una correlazione statistica e anche associativa (nel senso psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può convenire sul fatto che questo nesso non è causale. Per fare un esempio più moderno, si pensi che il barometro è stato costruito in modo tale da segnalare anticipatamente il verificarsi dei temporali. Possiamo assumere senza problemi che ci sia una comprovata correlazione statistica tra i due tipi di fenomeni. Ma, chiaramente, l’abbassamento del barometro non ha mai causato nessuna tempesta: diciamo che non è una causa ma un indizio del futuro temporale. La parola indizio è usata con significati leggermente diversi in vari contesti ma il suo senso è chiaro: A è indizio di B quando la conoscenza di A aumenta la probabilità che B sia vero. Un indizio di colpevolezza non è una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio di un possibile futuro incidente cardiovascolare. Nel gergo della medicina si usa al proposito il termine “sintomo” e anche “fattore di rischio”, da non confondersi con la causa. L’illusione causale è creata dall’esistenza da quella che gli epistemologi chiamano biforcazione causale: nel caso dell’ultimo esempio c’è una causa comune D (una depressione atmosferica anteriore) che produce tanto B(l’abbassamento del barometro ) che T (la tempesta). Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare un ordinamento temporale degli eventi. Di fatto, ciò che viene correlato nelle analisi non è mai un evento singolo (event-token) ma un tipo di evento o evento generico (p.es. quantità di sigarette consumate, incidenza di una malattia ecc.) e non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente, Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. peraltro, le correlazioni statistiche intercorrono tra variabili, per cui la ricerca della causa comune della variabile x e y si risolve di fatto nella ricerca di una terza variabile z il cui variare è associato alla covariazione tra x e y. In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio non si riscontra nessuna terza variabile rappresentabile come causa comune. Ma questo non significa che si sia autorizzati a concludere che l’antecedente statistico è anche un antecedente causale. Si danno infatti diverse possibilità: a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto piccoli questo è senz’altro possibile, anzi abbastanza comune. b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la causa e quale l’effetto . Per esempio c’è una correlazione tra ricchezza e possesso di tutoli obbligazionari, e si può sostenere che l’una è causa dell’altro, che vale il converso. Se si crede che abbia senso parlare di interazione causale, si possono anche sostenere ambedue le cose. c) La covarazione non è causale in nessuna delle due direzioni. Risulta per esempio una correlazione tra longevità e status matrimoniale, ma è falso sia dire che il matrimonio allunga la vita (ipotesi falsificata guardando alla longevità di sacerdoti cattolici o buddisti, sottomessi a regole che vietano il matrimonio) sia dire che la longevità è causa di matrimoni. Quando è applicata a macrofenomeni, la fallacia causale può portare a errori di valutazione che possono avere enormi conseguenze. Basta citare che la correlazione osservata tra sottosviluppo e sovrapopolazione in molti paesi ha diffuso per anni la convinzione che un’alta pressione demografica fosse il principale ostacolo allo sviluppo economico. Questa presunta cauisazione negli ultimi anni è risultata smentita dal fatto che i paesi più densamente popolati del mondo, Cina e India, hanno il tasso più alto di sviluppo economico. Purtroppo la mente umana sembra abbia una tendenza invincibile a trasformare le correlazioni statistiche in correlazioni causali. Questo è all’origine di ciò che si chiama superstizione, la quale dipende da un atteggiamento mentale che si riscontra anche in insospettabili uomini di scienza. Tra la gente delle Nuove Ebridi per esempio si diffuse la convinzione che i pidocchi facevano bene alla salute. Il motivo di questa singolare pregiudizio venne scoperto facilmente. Quasi tutti in quelle isole avevano i pidocchi. Ma nel momento in cui a qualcuno saliva la febbre per qualche tipo di patologia, i pidocchi abbandonavano rapidamente il corpo divenuto troppo caldo e inospitale. Ciò che era vero di fronte a questo fenomeno, dunque, è che semmai la malattia è causa dell’assenza di pidocchi, ma non che i pidocchi sono causa di buona salute. Usando una simbologia in cui C sta per una qualsivoglia relazione causale, “non-S C non-P” è diverso da “P C S”. Vediamo dunque che la relazione causale non gode della proprietà contrappositiva. Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose quando vengono usate spregiudicatamente nell’ambito della medicina. Da una statistica risulta,per esempio, che esiste una correlazione negativa tra check up e longevità. Siamo portati a concluderne che il check up accorcia l’esistenza. Ammesso che la statistica sia stata condotta correttamente, il presunto motivo della correlazione è che chi decide di sottoporsi a check up di solito non scoppia di salute, mentre chi non intende sottoporsi a check up è in condizioni di salute molto buone, per cui è più probabile che rientri nella classe dei longevi piuttosto che dei non-longevi. Molte statistiche sul cancro o sulle malattie cardiovascolari sono comunque viziate dall’omissione di un fatto importante: che con il progredire dell’età, qualunque siano le condizioni date, aumenta la probabilità di ammalarsi di malattie di questi due tipi. Ne consegue che tutto ciò che può essere casualmente rilevante per allungare la vita, quindi sostanzialmente salutare, risulta statisticamente correlato con una maggiore incidenza di cancro o malattie cardiovascolari. Viceversa, in popolazioni Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. con bassa speranza di vita queste malattie risulteranno meno frequenti o addirittura assenti. Questo tipo di errore è comune in quella disciplina dal dubbio carattere scientifico, che dilaga su giornali e riviste più o meno specializzate, dal nome di dietologia. Intorno alla dietologia gravitano interessi enormi, che spaziano dal campo medico-farmaceutico a quello alimentare. Sembra che in particolare negli ultimi decenni il colesterolo sia diventato, grazie a una martellante campagna di stampa, il nemico numero uno delle arterie. Ciò che è passato nell’ immaginazione popolare è la c.d. “teoria lipidica” e in particolare la seguente la catena causale : aumento di consumo di grassi animali - aumento di colesterolo -aumento di placche aterosclerotichemaggiore rischio di ictus e infarti. Da ciò si è indotti a pensare che valga una seconda catena causale che a rigore non è logicamente equivalente alla prima: diminuzione consumo grassi animali - diminuzione di colesterolo - diminuzione di rischio di aterosclerosi - diminuzione di rischio di ictus e malattie coronariche. Per cogliere la differenza basta osservare che il maggior rischio di ictus e infarti è correlato non solo a un livello molto alto di colesterolo nel sangue ma anche a un livello molto basso dello stesso. Sull’onda di queste associazioni di idee si è scatenata una campagna di demonizzazione dei grassi animali, che è andata di pari passo alla promozione della cosiddetta dieta mediterranea, ricca di carboidrati e povera di grassi animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè diminuire, sia aumentato in modo da preoccupare i governi dei paesi occidentali, fa pensare che la campagna anti-grassi abbia fondamenti dubbi. Uno dei punti deboli della prima catena di sui sopra è la correlazione statistica tra consumo di grassi animali e formazione del colesterolo. Il colesterolo è stato scoperto nel 1812 ; prima fu ritrovato nel sangue e poi, dopo diversi anni, nelle placche coronariche: da ciò l’ardita conclusione per cui il colesterolo sarebbe causa delle placche coronariche. A partire dalla fine dell’800 si è continuato a registrare statisticamente un incremento della mortalità da infarto, al punto di configurarsi come una vera e propria epidemia. Su questo fenomeno vale la pena di prendere atto dell’enorme importanza ai fini statistici che ha la tassonomia - cioè il modo di classificare i fenomeni sotto indagine. Tra il 1900e il 1920 si elencavano quattro tipi di malattie cardiache 1) angina pectoris 2) pericardite 3) endocardite acuta 4) malattie cardiache organiche Nel 1949 venne introdotta una nuova tipologia, la "malattia arteriosclerotica con incluse le coronarie". Con la nuova tassonomia aumentarono a dismisura i casi registrati di malattie coronariche. Nel 1968 si ebbe una nuova revisione tassonomica e l'ipertensione arteriosa fu integrata tra le malattie coronariche (mentre prima era considerata indipendente). Questo fece innalzare le percentuali di malattie riscontrate, ma nel 1979 l'ennesima revisione separò di nuovo l'ipertensione dalle malattie coroniche e l'infarto del miocardio diminuì vistosamente. Dunque, a quanto appare, ciò che ha fatto aumentare la mortalità per malattie cardiovascolari in determinati periodi è stato la modificazione della tassonomia, mentre la diminuzione della mortalità per infarto registrata dal 64 all' 86 (-45%) potrebbe essere attribuibile al progresso farmacologico e soprattutto chirurgico (bypass, angioplastica). La spiegazione di questa riduzione con la riduzione dei fattori di rischio (dieta, fumo, ipertensione) è plausibile ma non è giustificata. Gli studi fatti su rapporto tra colesteromia e mortalità cardiovascolare hanno prodotto dati che confermano l'ipotesi della correlazione causale a patto di ignorare i numerosissimi risultati che danno una risposta opposta. In particolare, le nazioni esaminate da A. Keys (il padre della c.d. "dieta mediterranea") sono le seguenti: Italia, Grecia, Yougoslavia, Olanda, USA, Giappone, Finlandia. Se Keys avesse esaminato, invece di questi, paesi come Israele, Olanda , Germania, Svizzera, Francia, Svezia avrebbe riscontrato che quanto più alto era il consumo di grassi saturi tanto inferiore risultava il Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. rischio di infarto. Del resto di recente ha fatto scalpore il c.d. "paradosso francese": la Francia ha notoriamente una cucina ricca di grassi animali e tuttavia l'incidenza di malattie cardiovascolari è più bassa che in Italia. Questo sarebbe sufficiente a refutare popperianamente la tesi lipidica, ma invece venne lanciata un 'ipotesi di salvataggio, consistente nel dire che in Francia è alto il consumo di vino rosso, che sarebbe in grado di neutralizzare -grazie a una sostanza chiamata resveratrolo - i nocivi effetti dei lipidi. Ma, a parte il fatto che è stato dimostrato che per raggiungere la quota di resveratrololo giudicata ottimale bisognerebbe ingerire almeno 25 litri quotidiani di vino, resta da spiegare perchè gli italiani hanno pure un alto consumo di vino rosso ma una maggiore incidenza di malattie cardiache. Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e cattivo, passato pure nella vulgata. Secondo un commento pubblicato sull’Herald Tribune e firmato da Gary Taubes, corrispondente della rivista Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il colesterolo con le proteine che lo trasportano nel sangue, le lipoproteine, che è come confondere il carico con il mezzo di trasporto. E il colesterolo è diventato buono o cattivo a seconda che sia veicolato da lipoproteine ad alta densità (Hdl) o a bassa densità (Ldl). Potrebbe, dunque, non essere il colesterolo in sé il vero nemico (l’infarto colpisce anche persone con colesterolo normale), ma un’anomalia delle lipoproteine. Per aumentare lo scetticismo si dovrebbe tener conto dell’ipotesi secondo cui la formazione di placche potrebbe essere dovuta non al colesterolo ma a un difetto genetico delle pareti delle arterie. Il bilancio di questa discussione non vuole in ogni caso essere pessimistico. In primo luogo, prima di accogliere un dato statistico come elemento di prova o di refutazione, bisogna acclarare che il dato sia stato ricavato secondo procedure che rispettino i canoni metodologici elaborati dalla stessa scienza statistica. La metodologia corretta impone in primo luogo di seguire il criterio per cui, oltre al campione sperimentale estratto da un certo universo in cui la proprietà indagata è presente, si proceda ad esaminare un secondo campione (detto campione di controllo) in cui le proprietà indagata è assente. Il campione deve essere costruito con accorgimenti che eliminino ogni rischio di inquinamento. L’esempio appropriato è quello delle ricerche sui farmaci eseguite in “doppio cieco”. La particolarità sta nel fatto che né il paziente né il medico conoscono la natura del farmaco effettivamente somministrato. Si differenzia quindi dallo studio "in cieco semplice", dove solo il paziente è all'oscuro del procedimento che sta seguendo. Per chiarire il punto, è noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto dell'inevitabile effetto placebo. Per fare questo occorre prendere in considerazione due campioni omogenei di pazienti. A uno di essi si somministra il farmaco oggetto di studio (campione sperimentale) mentre all'altro si somministra un placebo (campione di controllo). Ovviamente (e in ciò consiste il "cieco semplice") nessun paziente a cui sono somministrati entrambi i campioni deve sapere se sta assumendo il farmaco o il placebo. La procedura del "cieco semplice", tuttavia, si è dimostrata in alcuni casi insufficiente per il motivo che i risultati possono essere falsati dall'atteggiamento psicologico degli stessi sperimentatori. Se il medico sperimentatore sa di somministrare il farmaco piuttosto che il placebo può involontariamente suggestionare il paziente. Per questo motivo, al fine di ottenere risultati attendibili, è necessario che neppure gli sperimentatori conoscano informazioni rilevanti circa il farmaco. In campo medico il doppio cieco è l'unica metodologia possibile e soltanto i farmaci e le terapie che superano tale procedura possono essere definiti efficaci. Il nucleo metodologico di queste procedure è quello di stabilire un raffronto tra la percentuale di U che hanno la propretà A (probabilità che, se x è U, x è A, cioè Pr (A|U), e quella di non-U che hanno A (Pr A|-U). Bisogna confrontare, per esempio, la percentuale di fumatori (F) tra gli ammalati di cancro (C) (Pr(C|F) e la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|-F). Se Pr(C|F) > Pr(C|-F) significa che F “fa una differenza”, cioè è statisticamente rilevante per C . Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Ricordando che Pr(C|F) significa Pr(C ∩ F)/Pr(F) , mentre Pr(C|-F) significa Pr(C ∩-F)/Pr(-F), la forza di questa correlazione è data dalla differenza δ= Pr(C|F) - Pr(C|-F, cioè la differenza tra la quantità di fumatori ammalti di cancro e non-fumatori ammalati di cancro. Calcolando questa differenza abbiamo effettuato una corretta statistica, ma non è ancora detto che il rapporto di rilevanza così stabilito sia causale. Un’idea sviluppata da Ronald Giere e da altri metodologi, molto discussa negli ultimi decenni, è quella di non concentrasi sulle frequenze attuali entro un singolo campione ma sulle frequenze entro popolazioni ipotetiche; più esattamente, sulle frequenze entro due popolazioni ipotetiche o controfattuali in cui la proprietà che si suppone rilevante sia posseduta da tutti o da nessuno. Per restare nell’esempio, bisogna immaginare una popolazione in cui tutti fumano e una in cui nessuno fuma. Se siamo in grado di stabilire che la percentuale di ammalati nella prima è maggiore che nella seconda allora secondo Giere siamo autorizzati a parlare di nesso causale, altrimenti no. Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire con verità quanto segue: “se tutti fumassero ci sarebbe una frequenza di casi di cancro superiore a quella che si avrebbe se nessuno fumasse”. Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati non intesi. Per fare un esempio, in un campione non ipotetico ma attuale chi ha un livello di reddito superiore alla media ha anche un livello di salute superiore alla media. Per stabilire un nesso causale dovremmo fare una verifica facendo due ipotesi controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e 2) nessuno abbia un reddito superiore alla media . Ma questo è impossibile per ragioni logiche data la definizione stessa di media: è impossible che tutti abbiano un reddito superiore alla media!. Ci sono anche ragioni non –logiche per dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno di noi ritira i propri risparmi da una certa banca questo può far abbassare i tassi di interesse di una banca, ma certo la banca non fallisce per questo. Ma se tutti ritirano simultaneamente i risparmi da una banca la banca semplicemente fallisce perché non è in grado di pagare i suoi debiti. Quindi i nessi causali non vengono universalmente conservati passando da campioni con pochi esemplari a campioni con tutti gli esemplari. Per essere più precisi, la tesi di Giere si può parafrasare dicendo che c’è un rapporto causale fumocancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale che se nessuno fumasse, Pr C = z, e se tutti fumassero Pr(C) > z . La verità di questa proposizione si accerta in due passi: a) esaminando varie popolazioni in cui nessuno fuma ed estraendo da esse campioni diversi così da fissare il valore di z. b) esaminando popolazioni in cui tutti fumano ed estraendo campioni per vedere se la percentuale degli ammalati di cancro supera o non supera z. E chiaro che, campionamenti a parte, l’accertamento dei nessi causali viene così a dipendere dall’ accertamento della verità di condizionali controfattuali. E offrire una semantica per i controfattuali è stato un problema che i logici hanno cominciato ad affrontare verso il 1970 con risultati interessanti ma non perfettamente univoci. Una cosa comunque è della massima importanza. Nessuno più dei giuristi dovrebbe apprezzare l’importanza del ragionamento controfattuale o contrario ai fatti , dato che per secoli si è proposto nei tribunali come metodo di accertamento delle connessioni causali la c.d. formula della condicio sine qua non , che consiste nel chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o assente la presunta causa. Prima di toccare questo argomento è opportuno discutere una forma di inferenza ampliativa che riveste pari importanza nell’ambito sia scientifico che giudiziario , l’inferenza abduttiva. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. LEZIONE 7. L’abduzione Prima di passare alla discussione dei condizionali controfattuali ricordiamo che , in presenza della verità di A e B, la forma del controfattuale è ¬A > ¬B , mentre la forma del condizionale standard (fattuale) è A > B. Parlando liberamente , nel primo caso si dice che A è condizione necessaria per B, nel secondo caso che A è condizione sufficiente per B. Questo linguaggio tuttavia è approssimativo. Se il fiammifero è sfregato, non ne segue al 100% che il fiammifero si accenderà; così come, se il fiammifero non è stato sfregato, non segue al 100% che non si è acceso. La conclusione nei due casi si può difendere, ma solo una volta che si sia accertata la presenza di un insieme di condizioni favorevoli al verificarsi del conseguente: p .es. presenza di sufficiente ossigeno, di capocchia asciutta ecc. Quindi ciò che è sufficiente per l’effetto non è l’antecedente ma l’antecedente congiunto con tutto questo insieme di condizioni ottimali K compatibili con l’ antecedente, di cui si può considerare parte anche la stessa legge di natura che consente l’inferenza. Per dire che la congiunzione K ∩ C implica con alto grado di probabilità E abbiamo convenuto di scrivere (K ∩ C) => E, come abbreviazione di Pr(E/K ∩ C)=1-∈. Ora abbrevieremo questo asserto, eliminando il riferimento a K, con C > E. Nel caso controfattuale avremo quindi ( K ∩ ¬C) => ¬E e ¬C > ¬E. Ma bisogna tener presente che il K del caso controfattuale non è lo stesso K del caso fattuale, perché non può contenere informazioni che sono incompatibili con l’antecedente ¬C. Per esempio, la proposizione che il fiammifero non è stato sfregato e non si è acceso deve essere rimossa da K, altrimenti sarebbe incompatibile con l’antecedente controfattuale. Ora, se per ipotesi > fosse un operatore contrappositivo , ¬C > ¬E sarebbe equivalente a E > C. Ma il condizionale controfattuale, così come la relazione di rilevanza statistica, non è contrappositiva. Quindi il condizionale E > C ha proprietà diverse tanto da C> E quanto da ¬C > ¬E. Per sottolinare la distinzione chiameremo E > C condizionale abduttivo e per, capirne le condizioni di verità, faremo un passo indietro che ci riporta all’Organon di Aristotele. Nell’ Organon di Aristotele viene chiamata apagogè un tipo di ragionamento con conclusioni non necessarie ma meramente possibili. La apagogè non va confuso con la epagogè, che per Aristotele designa il ragionamento induttivo.Una traduzione a volte usata di apagogè è “riduzione”, mentre un termine sinonimo a volte usato, e forse più felice, è quello di “retroduzione”. Il termine “abduzione”, che ha avuto fortuna soprattutto per impulso di Peirce, è stato coniata da Julius Pacius nel Rinascimento. In senso stretto, l’abduzione è una forma di ragionamento in cui la conclusione è accettata in virtù del fatto che spiega nel modo ottimale i dati disponibili. In senso lato, l’abduzione è il processo della formazione di ipotesi esplicative, e la logica dell’abduzione viene a coincidere con la stessa logica della scoperta scientifica. Dato che la logica di Aristotele è essenzialmente sillogistica, la differenza si può chiarire guardando a ciò che si ottiene ricombinando in modo diverso le proposizioni che entrano nel primo sillogismo della prima figura (BARBARA). A: 1) Tutti gli asini hanno la coda 2) Federico è un asino ========================= 1) Federico ha la coda Considerando che l’ordine delle due premesse non ha importanza, ci sono in effetti solo due ragionamenti diversi con due premesse e una conclusione che si possono formulare impiegando le stesse proposizioni : Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. B: 1) Federico è un asino 2) Federico ha la coda ========================== 3)Tutti gli asini hanno la coda C: 1) Tutti gli asini hanno la coda 2) Federico ha la coda ========================== 3)Federico è un asino Il ragionamento B è un ragionamento “ampliativo”, che estrapola cioè dal campione all’universo, ed è un esempio, sicuramente discutibile, di quello che viene chiamato ragionamento induttivo per enumerazione semplice. Certo un ragionamento induttivo come quello dell’esempio B presenta un’inferenza non “da alcuni a tutti” ma “da uno a tutti”, e sembra il tipico caso di un ragionamento che è considerato erroneo o addirittura tipico di menti insane. Eppure ci sono casi in cui l’applicazione di questo schema si potrebbe considerare ineccepibile. Eccone uno: 1) La bomba di Hiroshima era una bomba atomica 2) La bomba di Hiroshima era spaventosamente distruttiva ============================================= 3)Tutte le bombe atomiche sono spaventosamente distruttive La conclusione 3) doveva essere evidente a tutti dopo il bombardamento di Hiroshima e, a dir la verità, doveva essere nota anche prima, dato che la bomba era stata costruita con lo scopo di creare spaventose distruzioni: per crederla vera comunque non c’ era sicuramente bisogno di un secondo esperimento, come per esempio quello di Nagasaki.. Quanto all’esempio specifico presentato in B) si potrebbe anche osservare che se dicendo “Federico è un asino” intendo dire “Federico è un tipico asino” e poi aggiungo che un tipico asino è mortale, c’è poco da eccepire sul fatto che tutti i tipici asini (quindi tutti gli asini) sono mortali. Per molti decenni si è manifestata la tendenza a identificare ragionamenti ampliativi e ragionamenti induttivi. Questo è errato per vari motivi. Molti ragionamenti controfattuali sono ampliativi senza perciò essere induttivi. Inoltre secondo alcuni (è il caso di Carnap) i più autentici ragionamenti induttivi non hanno conclusioni di forma universale ma di forma particolare: per esempio “il prossimo asino che verrà esaminato avrà la coda” (eduzione) oppure “ i prossimi cento asini che verranno esaminati avranno la coda”. Aggiungiamo che lo schema di ragionamento C) è molto diverso da quello induttivo, anche se condivide con B), oltre alla natura ampliativa, un certo grado di aleatorietà nella conclusione. Ma c’è una differenza sostanziale tra B) e C). La conclusione “Federico è un asino” è usata per rispondere alla domanda “Qual è la ragione per credere che Federico ha la coda sapendo che tutti gli asini hanno la coda?” Il motivo per cui questo particolare sillogismo sembra poco cogente è che ci sono altri sillogismi con diverse conclusioni che possiamo costruire con la stessa struttura. Per esempio, dato che sappiamo che tutti i cani hanno la coda, allora sotto la premessa “Federico ha la coda” si potrebbe anche concludere a pari merito“Federico è un cane”. Quindi siamo di fronte a due conclusioni incompatibili, perché Federico (lo stesso Federico) non può essere tanto un asino che un cane: e noi dobbiamo scegliere una delle conclusioni, ammesso che una scelta sia possibile. Quindi, in realtà, nel caso dell’abduzione possono manifestarsi dei casi di parità in cui è giocoforza dover scegliere: ciò che va scelta, infatti, non è una spiegazione qualsiasi dell’explanandum e nemmeno una plausibile Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. spiegazione ma la migliore spiegazione possibile. Questa caratteristica, che sembra distinguere il ragionamento abduttivo dagli altri, può essere illustrata ricordando due fatti importanti : 1) che il modello nomologico-deduttivo di Hempel-Oppenheim ha una forma sillogistica (mentre il modello statistico-induttivo costituisce un’approssimazione a questa in cui la conclusione segue dalle premesse con grado 1-ε) 2) Nelle spiegazioni in senso pieno si esige che le premesse siano vere e note come vere, mentre nel caso le premesse siano solo ipotetiche si parla di spiegazione potenziale. Supponiamo di chiedere la spiegazione di un fatto E (perchè E?). Allora, come è noto, diciamo explanandum questo E, e lo riteniamo spiegato quando è derivato da un explanans, che contiene essenzialmente un certo numero di leggi di natura e di condizioni iniziali che fungono da premesse minori del sillogismo L1….Ln (leggi) C1 …… Ci?….Ck condizioni –––––––––––––––––––––––––––––- –––––––––– Explanans E Explanandum Il punto interrogativo ? sta a indicare che l’elemento dell’Explanans così indicato non ha un preciso valore di verità , mentre tutti gli altri elementi sono veri. In questo caso diciamo che Ci è un fattore che fa parte di una spiegazione potenziale (meglio “possibile”) di E. È normale avere una pluralità di spiegazioni potenziali per lo stesso explanandum. Per esempio, può verificarsi una situazione così rappresentabile: L1….Ln vere (leggi) L1….Ln vere (leggi) C1a? , C2, ….Ck C1b?, C2,….Ck --------------------------------------------------------------------------------------------E (Explanandum) vero. Ci chiediamo per esempio: che cosa spiega il fatto che il fiammifero si è acceso? Sia C1a l’ipotesi “il fiammifero è stato sfregato” ; sia C1b l’ipotesi ” la capocchia del fiammifero è stata posta nella fiamma di una candela”. Allora potremmo retroduttivamente risalire da E a C1a, ma anche da E a C1b. Come operare la scelta? Dipende dalle altre informazioni circostanti. Se, per esempio, vicino al fiammifero che è stato acceso si trova una candela accesa ma nessuna superficie sufficientemente ruvida tipo carta vetrata, ecc. è plausibile pensare che il fiammifero sia stato acceso mediante la candela. In assenza di questa però, la retroduzione più plausibile è l’altra. Tenendo presente lo schema hempeliano. mentre il condizionale standard (nomologico) ha la forma C1> E, cioè (C1 & K) => E , il condizionale abduttivo ha forma E > C1 (il fiammifero si è acceso perchè sfregato). Secondo Peirce - il filosofo che ha proposto l’abduzione come grande tema epistemologicol’inferenza abduttiva è un processo in base a cui “si osserva un fatto sorprendente C; ma se A fosse vero, C sarebbe la conclusione naturale; perciò si ha motivo di sospettare che A sia vero” . Si noti che Peirce qui usa un periodo ipotetico (“se A fosse vero…”), evidenziando che la proposizione A con cui poi si conclude il ragionamento abduttivo è, all’atto dell’ipotesi, solo una possibilità. Questa definizione ha fatto molto discutere. Nella conclusione del ragionamento compare A. Ma A compare già nelle premesse del ragionamento, il che fa dubitare del carattare ampliativo dell’inferenza – anzi crea un sapore di circolarità - e ci pone legittimamente questo problema: da dove proviene l’ipotesi A ? In secondo luogo, l’operazione che coinvolge A si potrebbe applicare ad altre congetture A’, A”, Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. A”’…. delle quali si potrebbe pure dire che, se fossero vere, renderebbe naturale la conclusione C. Ciò non sarebbe importante se A’, A” ecc fossero logicamente interdipendenti con A: per esempio potrebbero essere sue varianti generiche o specifiche. Ma nei casi più interessanti queste alternative potrebbero essere indipendenti da A , o a- come di solito accade- incompatibili con A. Come già detto, oggi si tende a dire che l’abduzione non è la ricerca di una qualsiasi spiegazione di un evento anomalo, ma la ricerca della migliore spiegazione entro una rosa di spiegazioni potenziali e alternative di uno stesso fenomeno. Questa intuizione è in un certo implicita in ciò che dice Peirce quando parla conclusione “spiegata in modo naturale”. Peirce in alcuni scritti suggerisce che la migliore spiegazione è la spiegazione più economica (cioè, diremmo oggi, la più semplice e la più informativa). L’ idea dell’economicità è seducente ma poco applicabile: in primo luogo non è ovvio che ci sia sempre una spiegazione classificabile come “la più semplice”, e secondariamente la semplicità sembra avere carattere che potremmo dire “interno ai paradigmi”: è più semplice pensare che la terra stia ferma al centro dell’universo o che abbia un doppio movimento di rotazione e rivoluzione? Peirce stesso, che è tornato a più riprese su questo controverso argomento, ha ammesso negli ultimi anni di aver dato inizialmente una versione troppo limitata dell’abduzione. L’abduzione è in realtà un processo complesso, che comprende tanto il lancio delle ipotesi che la loro valutazione. Bisogna dunque cominciare col distinguere nettamente due aspetti dell’abduzione o anche due tipi diversi di abduzione, una creativa e una selettiva. Un approccio all’abduzione che potremmo approssivamente classificare come popperiano è il seguente. La migliore spiegazione di un evento è l’unica che resiste alla falsificazione entro un ventaglio di ipotesi disgiunte. Supponiamo di sapere con certezza che in un ambiente isolato erano presenti Tizio, Caio e Sempronio. Si scopre il cadavere di Rossi, colpito da un solo proiettile di pistola. Il primo passo legittimo è una semplice inferenza ampliativa che possiamo considerare inattaccabile: ( R) “Se Rossi è stato colpito da un proiettile di pistola, qualcuno ha sparato a Rossi”. Scoprire il colpevole significa semplicemente passare dall’asserto generico “qualcuno ha sparato a Rossi” a un asserto vero della forma “b ha sparato a Rossi”, dove b è il nome di una persona (che potrebbe essere anche Rossi stesso, non essendo a priori escluso il suicidio). Ora, per la logica deduttiva, asserire “qualcuno ha sparato a Rossi” in quel particolare contesto di informazioni comporta eliminare ogni possibile valore di b salvo i quattro nomi citati: equivale ad asserire la disgiunzione “o Tizio o Caio o Sempronio o Rossi ha sparato a Rossi”, dove Sempronio è il miglior amico di Rossi. Supponiamo di poter escludere con assoluta certezza che Rossi si sia suicidato e poi eliminare, sempre con assoluta certezza, le ipotesi che Tizio e Caio hanno sparato. Allora la conclusione, per quanto sorprendente possa apparire, è che Sempronio ha sparato a Rossi. La procedura eliminatoria qui prospettata è conforme alla celebre massima di Sherlock Holmes secondo cui “escluse tutte le ipotesi meno una quella che rimane, per quanto improbabile, deve essere la verità”. Se è così l’abduzione si risolve in una serie di falsificazioni successive e l’ipotesi vincente. se ce n’è una, è quella che sopravvive. Per completare la procedura occorre però un’integrazione importante. Nel caso l’ipotesi sopravvissuta fosse ancora oggetto di ragionevole dubbio (cioè quasi sempre,se non altro per errore nella procedura eliminatoria), essa è soggetta ad essere confermata induttivamente da altri elementi di informazione indipendenti che ne costituiscono la controprova o prova di controllo: superata questa l’ipotesi si consoliderà guadagnando per sè, se vogliamo usare il termine, la qualifica di “vera”. Si noti che questo va fatto anche nel caso che le ipotesi siano h1…hn e che emerga una fortissima evidenza a favore di h1, che ne porta molto in alto il suo valore di probabilità. In tal modo si abbassa il valore di probabilità delle altre ipotesi h2…hn, che potrebbe scendere al di sotto della soglia ɛ. Ma anche in tal caso è opportuno cercare una controprova di h1 andando alla ricerca di elementi di Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. informazioni che falsificano indipendentemente h2,…hn. Se si esclude l’introduzione della controprova, l’inferenza alla migliore spiegazione così delineata non si distingue dal procedimento baconiano dell’ induzione eliminatoria e si riconduce al processo che si può chiamare di determinazione della conoscenza. La determinazione consiste nel passaggio dal generico allo specifico, dall’indeterminato al determinato. Ogniqualvolta si passa dalla disgiunzione esclusiva “A o B” ad uno dei suoi disgiunti si produce un incremento di determinazione. Aumentare la determinazione della conoscenza significa diminuire l’incertezza e aumentare l’ informazione disponibile; per converso, l’ aumento di informazione disponibile riduce l’incertezza e quindi aumenta la determinazione della conoscenza. Se E è l’ explanandum con due possibili spiegazioni siamo di fronte ad una disgiunzione che nel caso più semplice è della forma “A è un elemento nell’explanans di E o B è un elemento nell’ explanans di E” . L’abduzione selettiva consiste nell’eliminare tutti i disgiunti salvo uno, e quindi nel“determinare l’ explanans” . Stando così le cose, non c’è motivo di negare che l’abduzione selettiva è una procedura di tipo razionale, stante che l’eliminazione dei disgiunti non ha niente di arbitrario ma obbedisce a principi ben acquisiti dalla logica e dalla filosofia della scienza. C’è da osservare che la conclusione del ragionamento abduttivo non è detto debba essere una proposizione singolare come “il fiammifero si è acceso” o “il mio cane scodinzola”. Potrebbe essere una proposizione quantificata esistenzialmente (p.es. “c’è vita su Saturno”) oppure una proposizione quantificata universalmente (“tutti i corpi presenti nella zona Y sono contaminati radioattivamente”) oppure la congiunzione di proposizioni di diversa forma logica. Nei casi che più interessano gli epistemologi, la conclusione abduttiva può essere non una delle condizioni fattuali C1…Cn ma una parte dell’explanans costituita dalle leggi L1…L m, quindi può essere una legge o addirittura una vera e propria teoria. La matematica stessa, come ha sottolineato Polyà, non è affatto aliena da ragionamenti di tipo abduttivo. Osservando che somme di numeri primi naggiori a 2 come 11,7, 13 … danno sempre un numero pari, si può trarre la conclusione che sommando due numeri primi si ottiene un numero pari. Questa conclusione è in effetti una conclusione deduttiva: infatti i numeri primi maggiori di 2 sono dispari, e la somma di due numeri dispari è un numero pari per ragioni logiche, cioè per la definizione stessa di numero pari e dispari. Ma esaminiamo la c.d. “congettura di Goldbach”, che è sostanzialmente la conversa della precedente e si formula in questo modo: (CG) “Ogni numero pari maggiore di 2 è la somma di due numeri primi”. La congettura è stata confermata dai calcolatori fino a numeri pari vertiginosamente alti, ma nessuno è riuscito a trasformare la congettura in un teorema matematico. L’unico ragionamento che potrebbe dimostrarlo sarebbe quello detto per “induzione matematica”, che comunque, anche se fosse disponibile, è un tipo di ragionamento diverso dall’induzione “da molti a tutti” che si applica a dati di fatto. Non resta che concludere che la migliore ipotesi che spiega questa straordinaria coincidenza di risultati è il fatto che tra numeri primi e numeri pari esiste qualche tipo di connessione trale per cui è veor dire che tutti i numeri pari superiori a 2 sono somme di numeri primi : e l’attendibilità di questa ipotesi è frutto di un'abduzione, non di qualche altro tipo di ragionamento. Secondo Polyà in effetti non c’è nessuna differenza essenziale tra la scoperta matematica e quella delle scienze empiriche.In ambedue i casi si osservano dei casi sparsi o delle regolarità stabilite induttivamente, e si cerca di trovare delle connessioni che li spiegano. L’unica differenza è che in matematica, una volta che tali correlazioni vengono dimostrate rigorosamente, sono irreversibili, o in altri termini non sono soggette a controesempi. Leggendo le belle pagine dedicate da N.R. Hanson alla scoperta delle leggi di Keplero veniamo posti di fronte a quella che è giustamente considerata la più importante abduzione della storia del pensiero. Keplero giunse alla scoperta della sua prima legge cercando di liberarsi dell’ipotesi del cerchio ed Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. eliminando le altre ipotesi suggerite dalle osservazioni (ovoide ) fino a restare con quella dell’ellissi che combacia con tutti i dati. Per rendersi conto della differenza tra la natura dell’induzione e quella dell’abduzione, basta osservare che l’induzione fornisce delle generalizzazioni empiriche che descrivono, per così dire, i “meccanismi” della natura, ma non può darci leggi teoriche (cioè leggi che contengono termini per enti inosservabili). In effetti, non ha senso assegnare un valore di probabilità alle inferenze garantite da leggi teoriche. Ha un senso chiedersi qual è la probabilità che il prossimo corvo sia nero, ma non qual è la probabilità che la prossima molecola sia costituita di atomi. Viceversa, la formulazione delle leggi teoriche è l’obiettivo più nobile delle procedure abduttive, e quello scientificamente più significativo. Tutto questo rende dubbia l’utilità di associare dei valori probabilistici alle conclusioni abduttive, come vorrebbero i bayesiani. Nell’ambito giudiziario è indubbio che si abbia a che fare con abduzioni che concludono a fatti o a insiemi di fatti, mentre è difficile immaginare un contesto giudiziario in cui si concluda con leggi o generalizzazioni. A questo dobbiamo aggiungere una qualificazione che finora non abbiamo trattato. L’inferenza abduttiva più frequentata è quella che ci porta a concludere con la miglior spiegazione causale possibile: in altre parole è un’inferenza dagli effetti alle cause. Ma le cause, come abbiamo visto, sono preferibilmente da considerare non condizioni necessarie, non come condizioni sufficienti per l’effetto. Le due proprietà in effetti non si escludono, soprattutto nel modello statistico-induttivo. Supponiamo di avere un certo stock di ipotesi esaustive e disgiunte h1…hn. Ciascuna di queste, congiunte ad altri dati informativi, costituisce un explanans che implica l’explanandum E. Supponiamo inoltre di sapere che ¬h1…¬hn, congiunte a vari sottoinsiemi di K opportunamente strutturati, implicano tutte ¬E, cioè la negazione dell’explanandum. Dunque esse sono condizioni necessarie, o cause, per l’explanandum. Nell’abduzione causale si tratta dunque di fare una scelta che esige un doppio controllo nella fase creativa, dal momento che dobbiamo controllare che le varie h1…hn siano condizioni tanto sufficienti che necessarie per l’explanandum. Uno dei maggior studiosi contemporanei dell’abduzione, John Woods, ha visto una difficoltà concettuale nell’abduzione applicata nei processi. Infatti da un lato si richiede di condannare con un verdetto sulla base di fatti stabiliti “oltre ogni ragionevole dubbio”, dall’altro l’abduzione è un procedimento di tipo congetturale, quindi con una buona dose di incertezza: “ This is trouble bad enough to deserve a name. My choice is the Criminal Abduction Paradox. “ Bayesianamente potremmo semplicemente dire che se , date due ipotesi alternative H e H’ , Pr(H/E ∩ K) > Pr(H’|E ∩ K), allora H è più credibile di H’. Ma questa relazione ci dà una condizione minimale e necessaria, non certo sufficiente per scegliere H come conclusione abduttiva. Dobbiamo infatti tener conto, con buona pace dei bayesiani, di quanto segue: 1) La differenza tra i due valori probabilistici delle ipotesi deve essere significativamente alta. Se Pr(H|E ∩ K) - (Pr(H’|E ∩ K) è, poniamo, 0.1, bisogna tener conto che uno scarto così basso potrebbe essere dovuto a un errore d valutazione o a un errore di informazione. Ragione per cui passando da uno stock di informazione K a uno stock nuovo K’ , cioè a una nuova informazione, la differenza potrebbe ridursi facilmente a 0 o addirittura invertirsi di segno. 2) La creazione del ventaglio di ipotesi deve essere fatto in modo tale che tali ipotesi siano esaustive e disgiunte. Questo è molto più difficile di quanto si pensi. In genere si omette il requisito cartesiano (Regulae ad Directionem ingenii) che richiede che venga fatto un elenco combinatoriamente completo delle ipotesi entro cui scegliere. li. Per esempio nel delitto di Cogne è stato fatto osservare che la causa della morte poteva anche essere un agente non-umano (per esempio un’ aquila selvaggia, peraltro già nota nella zona per aggredire anche animali e bambini). Insegni al proposito il primo racconto giallo della storia, “il duplice delitto della Rue Morgue” di Allan Poe, in cui alla fine l’autore del delitto Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. risulta essere un gorilla. 3) Quando due ipotesi alternative sono ambedue inizialmente molto improbabili accade che, se si acquisisce anche una piccola evidenza favore di un’altra ipotesi, per quanto poco plausibile, questa viene erroneamente scambiata per una falsificazione definitiva dell’ipotesi alternativa. Nel famoso delitto della penna a sfera –in cui si trattava di spiegare come una donna potesse morire con una penna a sfera nel cervello- per esempio, venne presa in considerazione la possibilità che la penna a sfera fosse entratanel cervello della vittima per un incidente, ma considerata fin dall’inizio inattendibile (anche se si conoscevano rarissimi casi in cui questo era avvenuto). L’alternativa –che il figlio le avesse sparato la penna a sfera nel cervello con una balestra– era pure improbabile ma sembrava suffragata da una confessione , per quanto confusa, rilasciata dallo stesso. Altre ipotesi erano inconcepibili. Successivamente una serie di esperimenti effettuati su cadaveri di animali portavano ad escludere non la prima ma la seconda ipotesi, ragion per cui il figlio venne scagionato e venne stabilita la “verità” giudiziaria. Quando venne incriminato il figlio si ritenne che l’evidenza,o presunta tale, a favore di questa ipotesi, costituisse un’eliminazione dell’altra, in quanto ne abbassava la probabilità al di sotto della soglia di credibilità. In effetti questa non era un’applicazione del metodo eliminatorio attraverso la falsificazione popperiana. Ma anche quando fosse applicato questo metodo, bisogna tener conto che nell’eliminazione della ipotesi la valutazione delle probabilità e il calcolo di queste può essere errato; inoltre, spesso la falsificazione delle ipotesi è a sua volta probabilistica, quindi soggetta ad errore, e tali errori possono accumularsi in proporzione al numero delle ipotesi alternative. In realtà scegliere un’ipotesi con il metodo eliminatorio, anche se questa risulta valida al di là di ogni ragionevole dubbio, non è sufficiente. Per chiudere il cerchio, come abbiamo visto, ci vuole una controprova dell’ipotesi vincente, cioè una prova indipendente, che non abbia rapporti statistici o causali con le altre informazioni usate nel processo eliminatorio. Il celebre caso di Sally Clark mostra come sia rischioso condannare qualcuno in base a ragionamenti probabilistici. Sally Clark era un avvocato inglese (morta nel 2007) diventata famosa per un clamoroso caso giudiziario. Nel 1996 perde il primo figlio dopo 11 settimane dalla nascita, apparentemente a causa della rara Sudden Infant Death Sindrome (SIDS). Nasce il secondo figlio mentre la madre era ricoverata per alcolismo dovuto a una crisi depressiva da parto. Anche il secondo figlio muore per la stessa sindrome a 8 settimane dalla nascita. In ambedue le occasioni di morte la madre era sola nella stanza con i figli, uno dei quali presentava anche segni di soffocamento. Arrestata insieme al marito, nega sempre, anche se rifiuta di rispondere alle domande. Un pediatra, Roy Meadow, calcolò che la probabilità che due bambini di famiglia benestante morissero di questo tipo di morte era di 1 su 73 milioni. Dato che le alternative erano solo due –morte naturale o infanticidio- in tal modo si escludeva al di là di ogni ragionevole dubbio l’ipotesi della duplice morte naturale, quindi la madre appariva colpevole oltre ogni ragionevole dubbio. Più tardi alcuni test microbiologici condotti sui tessuti suggerivano l’ipotesi che il secondo figlio poteva essere morto di morte naturale. Inoltre si cominciò a sospettare dei calcoli su cui poggiava la cosiddetta evidenza statistica . Si passò quindi alla revisione del processo. Dopo il processo di appello la Clark venne scarcerata, ma nel frattempo la prigionia aveva compromesso la sua salute mentale e fisica. Nel 2007 venne trovata morta, a quanto pare a causa di intossicazione alcolica acuta. Dove stava l’errore di Meadow? Principalmente nell’assunzione di indipendenza che, come sappiamo, è la premessa per l’applicazione più elementare del principio delle probabilità composte, che Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. consiste nel moltiplicare le probabilità di eventi congiunti. E’ certo che, dati due eventi indipendenti costituiti dalla morte per SIDS, la probabilità che si verifichino ambedue a poca distanza nello stesso ambiente (si aggiunge: benestante , quindi presumibilmente in ambiente salubre) è prossima a zero. Ma è il requisito di indipendenza che suscitava dubbj proprio in quel caso specifico. Qui erano in gioco le morti non di due bambini estranei tra loro ma di due fratelli (sibling) nati dagli stessi genitori e allevati nello stesso ambiente, in cui potevano essere intervenuti fattori comuni ambientali o genetici. In effetti fu fatto vedere da un matematico inglese, R.Hill, che, se la probabilità calcolata è basata sulla probabilità dell’indipendenza, tale indipendenza è di fatto improbabile. In base ad altri calcoli si stimò che la probabilità che i bambini fossero stati assassinati era del 50%, il che è sufficiente a scagionare l’accusata. Il ragionamento che alla fine scagionò la Clark è ineccepibile, ma possiamo anche vedere le cose in altro modo: la signora Clark era stata incarcerata non per una evidenza diretta ma per il tipo di evidenza che Woods chiama circostanziale (inferita per ragionamento) che, come abbiamo visto, è quella più soggetta ad errori. Ciò che è grave nel caso di Sally Clark non è tanto che ci fosse un errore nel ragionamento statistico, ma che nessuno si fosse preoccupato di trovare almeno un indizio supplementare e indipendente per l’ipotesi dell infanticidio. In ogni giallo che si rispetti alla fine l’assassino, individuato con un ragionamento abduttivo dal sagace detective, o confessa (quindi offre una prova indipendente) oppure si incontra una prova ulteriore e definitiva –la controprova- che lo inchioda alla sua colpevolezza. LEZIONE 8. Il ragionamento controfattuale e la nozione di inferenza razionale. Prima di proseguire cerchiamo di formulare alcune considerazioni ai fini di un bilancio provvisorio. Nessuno può negare che il calcolo della probabilità e i metodi statistici siano imprescindibili nella ricerca scientifica e nell’accertamento della verità giudiziaria. Il problema che abbiamo riscontrato è però il seguente: tanto nella scienza che nel diritto si fa largo impiego di ragionamenti non- deduttivi (chiamiamoli ampliativi includendo per semplicità anche i ragionamenti controfattuali) in cui non è affatto chiaro che la probabilità abbia un ruolo unificante. Abbiamo anzi visto che un uso incontrollato degli assiomi di Kolmogorov porta a risultati paradossali. Di qui l’ insistente ricerca di logiche alternative, come la logica neobaconiana di Cohen o la fuzzy logic di Zadeh. Aggiungiamo qui una considerazioni di solito trascurata. Spesso si fanno asserti come “la probabilità che si tratti di una coincidenza è x” , “la probabilità che i due eventi siano interdipendenti è molto alta” o come la massima pratica “tre coincidenze fanno una prova” (cioè garantiscono la quasicertezza). Ma se si insiste nel trattare l’ indipendenza o la coincidenza (quindi anche la rilevanza) come una proprietà definibile in termini probabilistici, asserti come i suddetti diventano asserti del secondo ordine, cioè asserti probabilistici vertenti su asserti probabilistici. Orbene, il modo per calcolare probabilità del secondo ordine non è governato dagli assiomi di Kolmogorov, e i tentativi di estendere questi assiomi con principi per la probabilità di secondo ordine sono finora insufficienti. Sembra ci siano buoni motivi, dunque, per evitare una definizione probabilistica (nel senso della probabilità classica) delle nozioni che entrano nei ragionamenti ampliativi, anche se ovviamente questi ragionamenti sono strutturalmente esposti a manifestare un certo grado di fallibilità. Bisogna prendere atto in ogni caso che manca a tutt’oggi una teoria comprensiva del ragionamento ampliativo che abbracci tutti questi tipi di ragionamento in modo soddisfacente. Senza pretendere di dire l’ultima parola, cercheremo rapidamente di abbozzare, se non una teoria, almeno alcuni punti fermi per stabilire ciò che si intende per inferenza razionale e inferenza ragionevole. Queste considerazioni Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. serviranno come premesse per gli sviluppi successivi. Cominciamo con l’osservare che nell’ inferenza non-deduttiva si danno casi in cui gli stessi dati possono portare a conclusioni che sono egualmente plausibili ma incompatibili tra loro. Per illustrare questo fenomeno è utile ricorrere all’effetto gestaltico in psicologia. Il più noto dei disegni Gestaltici è il c.d. “cubo di Necker”. Nella letteratura epistemologica è diventato popolare l’effetto duck-rabbit (si trova in Wittgenstein , ma fu ripreso da Kuhn per illustrare il concetto per cui la visione è sempre “carica di teoria”).: si tratta di un disegno in alcuni soggetti vedono un coniglio, mentre altri altrettanto legittimamente vedono un papero. In tutti i casi di effetti gestaltici ottici si ha motivo di credere che l’aggiunta o la sottrazione di informazione grafica o percettiva disambigui l’immagine iniziale. Si dice a volte che queste esperienze visive non sono verbalizzabili. Ma noi supporremo che esse possono descritte con enunciati veri o falsi. Per esempio nel caso del duck-rabbit possiamo dire: a) Il disegno a è la rappresentazione corretta un papero b) Il disegno a è la rappresentazione corretta di un coniglio Ma noi accettiamo anche il postulato che (I) Se un segno a rappresenta correttamente un oggetto O, non può rappresentare correttamente anche un O’ diverso da O. Questo perché una rappresentazione è corretta quando esiste una funzione, cioè una corrispondenza univoca, tra il segno e ciò che essa intende rappresentare. Diverse immagini possono rappresentare uno stesso oggetto, ma un’immagine non può rappresentare più oggetti simultaneamente. Quindi i due enunciati a) e b) non possono essere simultaneamente veri, anche se possono essere simultaneamente falsi. Qualcuno può pensare che il disambiguamento si abbia non aggiungendo ma cancellando informazione da K. Questo certo si può fare per le immagini – cancellando dei punti o dei segni da un disegno- ma con la verità è un’operazione più difficile. Un’ obiezione in merito potrebbe essere questa: io posso ipotizzare che in un certo mondo possibile qualcosa di attualmente vero non sia vero (come nelle ipotesi controfattuali o nel gioco “facciamo finta che”)ma non posso intenzionalmente eliminare dal mio stato di conoscenza informazione che ne fa parte. Si può discutere molto sul concetto stesso di informazione, che è stato oggetto di varie analisi. Si noti comunque che un soggetto può perdere informazione in modo nonintenzionale, semplicemente per amnesia, per il morbo di Alzheimer o per qualche alterazione irreversibile dello stato di coscienza. L’argomento più importante comunque è che non è obbligatorio identificare l’informazione con lo stato epistemico di un soggetto, sia pure privilegiato. In tal caso, se l’informazione è una grandezza in qualche modo indipendente dalla coscienza dei soggetti allora la distruzione di informazione è una possibilità innegabile. La distruzione di un data-base o di un libro – per non parlare di un’intera biblioteca, come l’antica biblioteca di Alessandria - comporta una perdita secca di informazione in questo secondo senso. Daremo per scontato, comunque, che la scienza procede conservando cumulativamente informazione passata e che, entro la scienza, l’informazione è una grandezza che,come l’entropia, è destinata a crescere senza limiti. Questo distingue la scienza da altri tipi di attività come il giornalismo e la storiografia, che pure hanno a che fare con l’informazione. Il problema è però che l’ accrescimento di informazione può portare a una modifica delle relazioni inferenziali tra proposizioni. Supponiamo che rispetto all’informazione K da A si inferisca B. Se K è esteso con nuova informazione K’ può darsi che da K+K’ non si riesca più a fare l’inferenza da A a B. Quando una relazione inferenziale ha questa Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. proprietà si dice che è non-monotòna. Si ricorderà che abbiamo già incontrato una relazione di inferenza non monotòna, che è quella operante nella spiegazione statistico-induttiva. Supponiamo infatti che l’explanandum E sia inferibile dall’explanans CL in modo tale che Pr(E| CL) =1-∈. Può darsi benissimo che aggiungendo altri elementi informativi a CL il valore di probabilità di Pr(E| CL) sia più basso di 1-∈, cosicché la nuova informazione cancella la validità dell’inferenza esplicativa. I condizionali controfattuali soffrono dello stesso inconveniente: Infatti se può essere vero a) Se il fiammifero f fosse stato sfregato si sarebbe acceso ma a) potrebbe risultare falso nel caso in cui si venisse ad acquisire la nuova informazione che il fiammifero f proviene da un partita di fiammiferi conservata in un magazzino alluvionato. Se anche così non fosse , è comunque chiaro che il controfattuale b) Se il fiammifero fosse stato bagnato e sfregato si sarebbe acceso. non può conseguire da a) se a) è vero. Si può mostrare ora come il ragionamento controfattuale può produrre un fenomeno simile a quello delle immagini gestaltiche ricorrendo a un celebre esempio con cui Quine riteneva di evidenziare la vaghezza ineliminabile del ragionamento controfattuale, e quindi la sua inutilità scientifica. Supponiamo di avere un K che è il seguente : 1) Compatrioti sono persone della stessa nazionalità 2) Bizet era francese 3) Verdi era italiano Supponiamo ora controfattualmente : 4) Bizet e Verdi erano compatrioti. L’insieme formato da 1-4 (K + 4) è incoerente e quindi Se vogliamo distinguere controfattuali veri da controfattuali falsi dobbiamo identificare dei sottoinsiemi coerenti di K + 4). Possiamo eliminare da K 1),2) o3). Eliminando 2) otteniamo come conclusione (BI)“Bizet era italiano” mentre eliminando 3) abbiamo (VF) “Verdi era francese”. Le conclusioni sono ambedue legittime. Ma non possono essere simultaneamente tali perché lo sarebbe anche la loro congiunzione . Quindi dall’ipotesi che i due grandi operisti sono compatrioti seguirebbe che l’uno è italiano e l’altro francese, il che è un’assurdità. Ciò che è certo è che è vera la disgiunzione (BI oVF): Bizet era italiano o Verdi era Francese ma i casi in cui essa è vera ci riportano alla difficoltà originaria. Dunque BI e VF sono due condizionali falsi? Questo è quanto sostenuto da molti filosofi. Il problema si pone anche per condizionali leggermente diversi, che Goodman chiamava controidentici Per esempio (+) Se fossi Verdi avrei scritto “La donna è mobile” (Si noti , incidentalmente, che questo non è esattamente lo stesso di (++) Se Verdi fosse me, Verdi avrebbe scritto “La donna è mobile” Infatti (++) è falso perché io non ho mai scritto “La donna è mobile”) Dove entra in gioco l’effetto Gestalt è nella equiplausibilità delle conclusioni per certi valori di K. Per esempio, può darsi che K contenga “ io detesto ‘La donna è mobile’”. Se aggiungo questa vera informazione a K, ottengo (+-) Se fossi Verdi non avrei mai scritto “La donna è mobile”. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. che è incompatibile con (+) Questo è un caso in cui l’aumento di informazione crea un effetto gestaltico, anziché eliminarlo: è quindi effetto del carattere non-monotono dell’inferenza. Qualche premessa può essere utile. a)Uno dei fini distintivi della scienza è l’accrescimento dell’informazione. b) Lo scienziato, a differenza p.es. del giornalista o del critico d’arte, deve tener conto di tutta l’informazione disponibile e non solo di una parte, anche se selezionata. di questa . Una volta questo si chiamava requisito dell’evidenza totale Ovviamente questa non è l’unica massima che dirige l’attività scientifica, perché la scienza tende all’astrazione, che in un certo senso opera in direzione opposta : astrarre vuol dire semplificare, cioè eliminare informazione irrilevante. Inoltre il principio vale solo come idealizzazione, perché ovviamente non si può conseguire in tempo finito.Nello spirito del principio dell’evidenza totale si ha comunque che dovendo scegliere tra insiemi di enunciati da usare come premessa per un ragionamento si sceglierà quello più informativo. Ora un fatto di solito trascurato è che in tutti i casi, se da un certo insieme K di informazioni si può derivare un controfattuale, si può anche derivare da K un controfattuale con lo stesso antecedente del primo ma con consegeunte incompatibile. Sia K per esempio L: Tutti i fiammiferi sfregati in condizioni ottimali si accendono Pr(B/A) = 1- ∈ 1) Il fiammifero a non è stato sfregato 2) Il fiammifero a non si è acceso Supponiamo ora di aggiungere l’ipotesi controfattuale che nega 1): H) Il fiammifero a è stato sfregato in condizioni ottimali. I controfattuali con premessa H asseribili con verità in realtà sono due: i)-Se il fiammifero a fosse stato sfregato in condizioni ottimali si sarebbe acceso. ii)-Se il fiammifero a fosse stato sfregato a sarebbe l’esempio di un fiammifero sfregato in condizioni ottimali che non si accende . E' chiaro che, i) e ii) sono enunciati incompatibili esattamente come nel caso Bizet-Verdi. Quindi a rigore l'unica conclusione inoppugnabile sarebbe questa disgiunzione: (*) O il fiammifero sfregato a si sarebbe acceso o a sarebbe l’esempio di un fiammifero sfregato in condizioni ottimali che non si accende. Per quale motivo si tende invece a concludere con i) ? La conclusione del controfattuale (i) si ottiene eliminando il fatto 2), mentre (ii) è ottenuta eliminando L, ossia una legge di natura. E, comunque si voglia definire il contenuto informativo, il contenuto informativo di una legge di natura è sempre superiore a quello di un qualsiasi fatto singolare. Anche in casi in cui il contesto K è ridotto al minimo le ipotesi controfattuali generano due conclusioni incompatibli. Esempio: §) Se Apollo fosse uomo sarebbe mortale §§)Se Apollo fosse uomo sarebbe l’esempio di un uomo immortale Il motivo per cui i condizionali ordinari non sono normalmente controfattuali gestaltici è dunque che abbiamo una base per fare una scelta tra due conclusioni incompatibili: una delle due implica una minore perdita di informazione, e suona talmente plausibile che l'altra alternativa spesso non viene nemmeno presa in considerazione dai parlanti per una sorta di automatismo psicologico. Il ragionamento controfattuale, per offrire conclusioni attendibili, consiste di fatto nella scelta di un sottoinsieme di K compatibile con h che contiene il massimo di informazione compatibile con h.A volte si parla di questo fenomeno come di "risoluzione standard della vaghezza". Che accade quando questa scelta non è possibile perché le due conclusioni ci sembrano Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. indifferenti? L’aggiunta di informazione allo stock K può eliminare l’ambiguità e può risolvere i casi dei controfattuali gestaltici. Riprendiamo il caso Bizet-Verdi. Supponiamo di scoprire una lettera di Verdi da cui si viene a sapere che Verdi odiava la Francia e la popolazione francese. Inoltre si viene a sapere che Bizet voleva chiedere la cittadinanza italiana. Inoltre aggiungiamo la legge L°: Chi odia una nazione, non accetta di essere cittadino di questa nazione. In tal caso non si può dire che le conclusioni sono egualmente plausibili. La conclusione “Verdi sarebbe stato francese” è incompatibile con questa informazione supplementare, quindi ci costringe a rimuovere più informazione che nell’altro caso. Dunque abbiamo stabilito che ciò che entra in gioco nell’ inferenza controfattuale è una scelta tra conclusioni conflittuali. Ma qual è la natura dell’inferenza che porta a ciascuna di tali conclusioni? Un' idea che viene spontaneo sottoscrivere è che c’è una legge, logica o non-logica, che fa da ponte tra antecedente e conseguente. Secondo alcuni filosofi è sufficiente il linguaggio probabilistico per rendere questo rapporto. Come già sappiamo, è disponibile la relazione Pr(B|A) = 1 - ε (rappresentata da A => B) per indicare la quasi-certezza che B sia implicato da A. ε è un valore di soglia (margine di errore) che può variare contestualmente, con cui vogliamo così esprimere l’ideale della conclusione “al di là di ogni ragionevole dubbio” che è richiesta dal diritto penale. In questa sede possiamo darne una versone modale: quasi tutti o tutti i mondi possibili in cui è vero A sono mondi in cui è vero B. Quando si impone una scelta tra conclusioni in conflitto possiamo parlare di inferenza razionale. I controfattuali sono basati su inferenze razionali in cui l’antecedente è noto essere falso. Se l’antecedente è vero siamo di fronte a quelli che chiamiamo condizionali fattuali. Se il valore di verità dell’antecedente è sconosciuto parliamo di condizionali afattuali. (I latini parlavano di periodi ipotetici della irrealtà, della realtà e della possibilità). Si è visto dunque che i controfattuali ci pongono sempre di fronte alla scelta razionale tra conclusioni incompatibili. Ma anche nei condizionali fattuali, anche se meno evidente, si impone una scelta del genere. È questa la lezione che si ricava dal cosiddetto “ paradosso di Goodman”, che abbiamo già esaminato a suo tempo. Qui in base a due ragionamenti inoppugnabili, ci troviamo di fronte a due conclusioni incompatibili : gli smeraldi futuri saranno verdi /gli smeraldi futuri sarannno blu. Abbiamo gli elementi per compiere una scelta? Sì, se si considera che ogni stock di informazione dovrebbe contenere idealmente il principio di Uniformità della Natura (UN), che essendo di tipo infinitario (cioè si riferisce a un numero infinito di fatti) ha un altissimo contenuto informativo. Allora in base a UN bisogna respingere qualsiasi conclusione che comporta la trasformazione cromatica degli smeraldi e accettare semplicemente che i prossimi smeraldi saranno dello stesso colore che hanno manifestato nel campione soservato, cioè verde. Anche qui, dunque, l'unica conclusione incontrovertibile è una disgiunzione. (Dopo il 2500 gli smeraldi saranno blu o saranno verdi), ma la razionalità consiste nell’eliminare un disgiunto che è incompatibile con una legge di alto contenuto informativo come il principio di uniformità della Natura. Quindi si può legittimamente sostenere che anche il ragionamento induttivo è ottenuto per selezione razionale di una conclusione. Qualcuno può pensare che non si diano casi di induzione gestaltica, analoghi a quello Bizet-Verdi, ma questo non è vero: anzi fa parte della vita quotidiana sperimentare situazioni di questo tipo. Un esempio è questo. Supponiamo che K contenga queste informazioni: 1) Un certo aereo a ha i motori costruiti dalla casa X ed appartiene alla compagnia Y 2) La compagnia Y non ha mai avuto incidenti Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 3) I motori della casa X si sono rivelati difettosi in qualche occasione Conclusione 1: I prossimi voli dell’aereo a sono rischiosi Conclusione 2: I prossimi voli dell’aereo a sono sicuri. Perché scegliere 1 piuttosto che 2 o 2 piuttosto che 1? Fenomeni gestaltici di questo tipo sono ben noti ai serivizi di marketing delle compagnie aeree. Si sarà notato che molte compagnie nascondono i dati sullla sicurezza dei propri voli perché molti ritengono che le compagnie aeree che non hanno mai avuto incidenti, anziché essere le più sicure, sono le più rischiose. In effetti questa conlusione apaprentemente assurda dipende dal fatto che abbiamo due generalizzazioni in K che possono generare conclusioni incompatibili: 1) La compagnia X non ha mai avuto incidenti 2) Tutte le compagnie aeree prima o poi hanno incidenti Dalla generalizzazione 1) si può derivare la conclusione che la compagnia X non avrà incidenti in futuro. Ma dalla generalizzazione 2), ammesso che sia vera, si può derivare la conclusione che la compagnia X, non avendo avuto incidenti in passato, è destinata ad avere un incidente in futuro e magari nel prossimo futuro. Un altro esempio più ingannevole è questo. Si supponga che qualcuno trasferisca una coppia di orsi bruni al Polo Nord e si chieda: di che colore saranno i cuccioli? Qui ci sono, a quanto sembra, da considerare due leggi di natura: a) Tutti gli animali che vivono al Polo Nord sono bianchi. b) Tutti i cuccioli di orsi bruni sono bruni Prima facie sono legittime tutte e due le risposte. (Si noti che la probabilità è in ambedue di casi 1-∈). Ma c'è un serio motivo per cui va respinto a) : a) non è una vera legge scientifica, anche se può essere accidentalmente vera per un tempo molto grande. La legge è un’altra, cioè che tutte le specie animali che hanno il Polo come habitat naturale sono tendenzialmente bianche; e questo non riguarda singoli animali accidentalmente trasferiti al Polo. Chi ha dato la dovuta considerazione al ruolo dell’informazione di sfondo nel ragionamento è stato Hempel nel precisare la teoria della spiegazione statistico-induttiva. Hempel ha visto chiaramente che, a differenza della spiegazione nomologico-deduttiva, la spiegazione IS è sensibile alla quantità di informazione che compare nella premessa. Come abbiamo già visto, questo è ciò che si intende per “inferenza non-monotòna”. Nella spiegazione IS - come noi abbiamo richiesto- la conclusione deve seguire dalle premesse con probabilità 1-∈. Supponiamo per esempio che la domanda (il problema ) sia: Perché Rossi si è ristabilito in tre giorni dall’ operazione? Spiegazione: Perché è stato operato di appendicectomia e quasi tutti quelli che sono operati di appendicectomia, come lui, si ristabiliscono in fretta. Ma supponiamo di aggiungere - informazione supplementare che Rossi ha 95 anni. Allora qui dobbiamo tener conto di una seconda legge, L*: Quasi tutti coloro che hanno 95 anni non si ristabiliscono da operazioni chirurgiche. La spiegazione precedente quindi è errata. Se Rossi è sopravvissuto, non può essere per la ragione sopra menzionata ma per qualche altro motivo, per esempio il fatto che Rossi ha una fibra particolarmente robusta . Per ovviare a questo problema Hempel esige la regola dell’evidenza totale o meglio una sua variante che è il principio della massima specificità: ogni explanandum deve essere descritto con la massima specificità consentita dalle informazioni disponibili. In altri termini qualsiasi spiegazione deve tener conto del massimo di evidenza favorevole e contraria. Si noti che il problema posto nell'ultimo esempio è un problema abduttivo, cioè un problema di Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. ricerca della miglior spiegazione possibile di un certo evento. Non è qui la sede per fare un discorso sulla diversa posizione dei positivisti e degli anti- o post- positivisti sul problema della spiegazione e quindi dell'inferenza abduttiva. Thomas Kuhn ha paragonato il mutamento teorico a un cambiamento gestaltico. Per lui possono esserci spiegazioni gestalticamente diverse dello stesso fenomeno (per esempio il tramonto del sole) in dipendenza da "paradigmi" diversi. Nella sua concezione sono i paradigmi che selezionano l’evidenza, e non l’evidenza che seleziona i paradigmi. Altrimenti detto, sono le teorie che condizionano i fatti e non, come ritenevano i positivisti, i fatti che condizionano le teorie. Questo modo di pensare è correttamente chiamato relativista in quanto ha molte affinità con il relativismo culturale, cioè con l'idea secondo cui sono le culture umane- e in particolare le lingue naturali a cui sono associate- a condizionare i dati percettivi. Il punto di vista qui sostenuto è antirelativista. Si ritiene che i fenomeni gestaltici siano dovuti solo a insufficienza della conoscenza disponibile, e non alla relatività dei punti di vista. Il progresso della conoscenza quindi normalmente risolve i casi perplessi, anche se l'aumento di informazione che produce potrebbe introdurne di nuovi. Il caso dell’abduzione presenta, proprio in tema di relatività, un problema supplementare rispetto alla deduzione e all’induzione. La selezione infatti è effettuata entro un insieme di ipotesi che sono fissate dal ricercatore stesso con un certo grado di arbitrarietà. Anche qui ci troviamo pure di fronte a situazioni gestaltiche, così come nel caso dell’induzione e del ragionamento controfattuale. Sherlock Holmes nelle sue indagini di tipo abduttivo si basa sullo slogan più volte ripetuto “Eliminate tutte le ipotesi salvo una quella che rimane, per quanto improbabile, deve essere la verità”. (“Il segno dei quattro” contiene un capitolo intitolato “The Science of Deduction”). Tuttavia in Holmes si ha da un lato il culto positivista dei “duri fatti” in quanto opposti a rischiose ipotesi teoriche, dall’altro si trova la consapevolezza che non ci sono fatti che parlano da soli. Si consideri questo passo: << “Le prove schiaccianti sono un vero imbroglio” replicò Holmes con aria pensierosa.“Sembrano indicare una cosa con la massima chiarezza, ma se si sposta appena un po’ il proprio punto di vista, possono indicare con altrettante chiarezza una cosa completamente diversa” (Il mistero di valle Boscombe). >>Riparafrasando le idee in termini a noi familiari, Holmes sembra dire che ci sono casi in cui l’informazione disponibile suggerisce due conclusioni completamente diverse o addirittura opposte. Per trattare astrattamente la situazione in linguaggio modale: abbiamo uno stock di informazioni K e due sottoinsiemi K’ e K” tali che si potrebbe dire, per esempio, 1)Quasi tutti i mondi in cui è vero K ‘ sono mondi in cui Rossi è innocente 2)Quasi tutti i mondi in cui è vero K’’ sono mondi in cui Rossi è colpevole. Ma, rispetto al caso dell’inferenza induttiva o controfattuale, con l'abduzione si pone un problema . Nel caso dell’induzione e del ragionamento controfattuale la nuova informazione acquisita elimina la disgiunzione tra conclusioni incompatibili , mentre nel caso dell’abduzione l’informazione aggiuntiva potrebbe elimnare alcune delle vecchie ipotesi , ma portare a introdurre nuove ipotesi non prese in considerazione prima. Dunque il problema primario da risolvere nel caso dell’abduzione è quello di garantire fin dall'inizio l' esaustività delle ipotesi generate. In altri termini bisogna cercare di generare tutte le ipotesi possibili, senza trascurare le più improbabili, in modo tale che la probabilità della loro disgiunzione si approssimi a 1. Il problema della generazione è aggravato dal fatto che si esige non solo l’esaustività delle ipotesi ma la loro incompatibilità. Si pensi che si è ritenuto per anni che la teoria corpuscolare e quella ondulatoria fossero incompatibili. Ma oggi non siamo sicuri che le ipotesi fossero esclusive tra loro. La luce potrebbe essere qualcosa di differente da un’onda e da un corpuscolo (potrebbero essere.come si dice, una wavecle), oppure potrebbe essere un entità non assimilabile ad altre, tale da presentare simultaneamente aspetti tanto corpuscolari che ondulatori. Al proposito si noti, incidentalmente, che si possono anche dare dei casi di ridondanza esplicativa. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Ci resta il dubbio, per esempio, sulle cause di un incidente automobilistico senza testimoni: improvvisa rottura dei freni o malore del guidatore? La probabilità (statistica) che si siano verificate insieme le due sfortunate circostanze è talmente bassa da superare la soglia di ciò che giudichiamo ragionevolmente possibile. Ma non si può logicamente escludere che si siano verificate insieme in quello specifico caso, o che l'una abbia causato l'altra. Si noti che questo ci porta a riformulare meglio dal punto di vista combinatorio il ventaglio delle ipotesi. Invece di esaminare la disgiunzione h1 o h2 , dovremo esaminare la disgiunzione h1 o h2 o (h1 & h2). Il discorso sull’abduzione si salda con il discorso sulla percezione Gestaltica. Infatti Peirce ha insistito sul fatto che la categorizzazione dei dati percettivi non è qualcosa di immediato o automatico ma dipende da un ragionamento abduttivo compresso, dovuto ad automatismi psichici. Supponiamo di entrare in una stanza chiusa, tocchiamo un tessuto e lo classifichiamo come lana. Questo significa operare, anche se in modo inconscio, un’abduzione, cioè inferire che la causa (la spiegazione) della sensazione è un tessuto di lana. Recentemente si è parlato anche di abduzione visuale. Il caso della percezione gestaltica del Duck-Rabbitt sarebbe quindi un caso di abduzione visuale in cui soggetti diversi derivano una conclusione sulla base di insiemi di dati differenti. Se così, quella che viene spesso chiamata interpretazione dei dati percettivi non sarebbe altro che un tipo particolare di abduzione. Concludendo, le varie forme di ragionamento non dimostrativo che abbiamo esaminato hanno tutte in comune il fatto di comportare una scelta tra conseguenze in un certo senso incompatibili. La conclusione che viene scelta è quella derivata da un sottoinsieme di K che conserva il massimo di informazione disponibile. Ogni inferenza razionale quindi è tipo di inferenza basato sul criterio della minima perdita di informazione. Si può usare il termine ragionevole per indicare il caso di una inferenza razionale nel quale il nesso inferenziale tra A e B non è stabilito solo con ragionamenti probabilistici o statistici ma con l’impiego effettivo di leggi di natura che facciano da ponte tra antecedente e conseguente. Naturalmente altri criteri di selezione tra le conclusioni potrebbero essere adottati, per esempio usando come criterio di scelta la maggiore probabilità o maggiore verosimiglianza o maggiore semplicità della conclusione. Ma la quantità di informazione è il più importante, in quanto la massimizzazione di questa grandezza, per quanto abbiamo detto, è uno degli obiettivi che distinguono la scienza da altri sistemi di pensiero. Resta solo da considerare che la teoria dei controfattuali dominante oggi, dovuta sostanzialmente a David K.Lewis, è molto diversa da quella sopra delineata. Infatti è basata non sul confronto tra le quantità di informazione ma sull’idea del confronto di somiglianza tra mondi possibili. Secondo Lewis, il condizionale A > B è vero in un mondo w se gli A-mondi più simili a w sono B – mondi. Esempio: “Se Hitler avesse invaso l’Inghilterra nel 1940 avrebbe vinto la guerra” significa per Lewis “I mondi possibili più simili all’attuale in cui Hitler ha invaso l’Inghilterra nel 1940 sono mondi in cui Hitler ha vinto la guerra”. Purtroppo ci sono inferenze valide per Lewis che non lo sono per la teoria dell’ inferenza razionale/ragionevole sopra enunciata. “Se Bizet e Verdi fossero compatrioti la terra sarebbe sferica” è valido per Lewis in quanto i mondi possibili più simili al nostro in cui Bizet e Verdi sono compatrioti sono mondi in cui la terra è sferica. Ma il conseguente non è derivato dall’antecedente per via di qualche legge logica o fisica, e l’inferenza non appare ragionevole nel nostro senso. Del resto per la teoria di Lewis risulta valido un teorema che consente di inferire, da (A &B), sia A > B che B > A. questo teorema non riguarda i controfattuali ma condizionali fattuali, cioè con antecedente e conseguente vero, e dipende Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. dall’inevitabile assunto che il mondo attuale è quello più simile a se stesso. Questa formula asserisce che ogni condizionale è vero purchè le due clausole siano vere – per esempio “se i prati sono verdi Giulio Cesare ha conquistato la Gallia” – il che in un certo senso banalizza tutta la teoria per la parte riguardante i condizionali fattuali. C’è un senso tuttavia in cui anche la teoria di Lewis si può pensare basata sulla conservazione dell’informazione. Secondo Lewis nel ragionamento controfattuale c’è un’asimmetria tra passato e futuro. Facendo un’ ipotesi controfattuale a suo avviso bisogna conservare la maggior parte possibile dei fatti antecedenti cronologicamente all’ipotesi, ma non quelli cronologiamente successivi. A suo avviso i mondi possibili più simili all’attuale sono quelli che hanno in comune con il mondo attuale la maggior parte dei fatti che precedono il momento in cui dovrebbe aver luogo l’ipotesi controfattuale. Il prezzo da pagare per questa asimmetria però è la sospensione di leggi di natura, cioè l’ammissione di ipotetici miracoli. Se per esempio dico “Supponiamo che il barometro ieri non si sia abbassato ” secondo Lewis i mondi più simili all’attuale in cui l’ipotesi è vera sono mondi in cui viene conservata una depressione atmosferica precedente, il che significa che nei mondi più simili all’attuale il barometro ieri ha mancato di abbassarsi senza causa apaprente, per un "piccolo miracolo".. Viene quindi eliminata la legge di natura secondo cui la depressione è sempre seguita dall’abbassamento del barometro. Dal nostro punto di vista questo è però errato perché le leggi hanno un contenuto informativo maggiore dei fatti singoli, e quindi vanno sempre conservate nel caso in cui si sia di fronte ad una scelta tra conservazione dei fatti e conservazione delle leggi. LEZIONE 9. La teoria controfattuale della causa e l’accertamento delle cause. L’abduzione, come abbiamo visto, si può definire come il processo di inferenza alla migliore spiegazione. L'explanandum E, cioè l'oggetto di cui ci si chiede il perchè, può essere un fatto singolare, un fatto complesso, una generalizzazione o una legge. Nel caso in cui E è una generalizzazione o una Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. legge, la spiegazione di E consiste nel derivare E da leggi più generali, e l'abduzione sarà quindi la ricerca della migliore spiegazione in questo senso (a volte questo tipo particolare di abduzione viene chiamato retroduzione). L'esempio più glorioso di questo processo nella storia della scienza è stata la scoperta della leggi di Keplero descritta da Hanson in "Modelli della scoperta scientifica". In ambito giudiziario normalmente l'abduzione attiene la spiegazione di fatti singolari mediante il ricorso ad altri fatti singolari, ed è giusto osservare che in questo caso le spiegazioni più soddisfacenti sono le spiegazioni causali. Per questo motivo si trova frequentemente definita l' abduzione come inferenza dagli effetti alle cause, anche se a rigore la definizione è errata. La definizione potrebbe essere parzialmente giustificata se facciamo coincidere la relazione esplicativa con la relazionecausale. Questa identità in effetti è stata teorizzata da Hempel e dai neopositivisti, con il sostanziale consenso di antiinduttivisti come Popper. Come si è visto, dal punto di vista Hempeliano la relazione esplicativa è quella che intercorre tra explanans ed explanandum. Complessivamente l’explanans è una condizione sufficiente per l’explanandum nel caso nomologico-deduttivo mentre è sufficiente con alto grado di probabilità nel caso statistico-induttivo. . L’inconveniente di questa dottrina è che qualsiasi alta correlazione statistica che connette elementi dell'explanans con l'explanandum può essere classificata come causale, portandoci quindi a cadere nella più classica e fastidiosa fallacia di ragionamento causale. Il neopositivismo, che ha sempre professato qualche forma di riduzionismo causale , ha tentato di eliminare il linguaggio causale a favore di quello probabilistico, con tentativi spesso ingegnosi ma poco soddisfacenti. Per esempio la teoria probabilistica della causa di P.Suppes, ispirata da Reichenbach, si riduce ad asserire che la causa è ciò che incrementa la probabilità dell’effetto, a meno che non esista un terzo evento antecedente che annulla il peso probabilistico della presunta causa. L'esempio del barometro, il cui peso probabilistico è annullato dalla precedente depressione, si presta a illustrare la teoria. La correlazione barometro-tempesta è una correlazione spuria, mentre la correlazione depressione tempesta è una correlazione genuina. Sono molti i controesempi che si potrebbero opporre a questa tesi, alcuni dei quali dovuti alla scelta di valori probabilistici. Se, per esempio, l’evento effetto ha già un grado di probabilità pari a 1 (sia per esempio il sorgere del sole domani mattina) , non c’è niente che possa innalzare il suo valore di probabilità , e quindi risulta, paradossalmente, non causato da nulla. Che dire inoltre quando la presunta causa abbassa la probabilità dell’effetto: per esempio quando una pallina da golf urta contro un ramo e , a causa di questo accidente, finisce in buca per un improbabile ma possibile colpo di fortuna ? La dottrina della condicio sine qua non, impiegata nei tribunali da secoli e probabilmente derivata dal diritto romano, non presenta i problemi della teoria probabilistica della causa. Come è noto, in virtù di questa concezione, possiamo dire che a è causa di b quando si può asserire il controfattuale " se non ci fosse stato a, non ci sarebbe stato b". Per evidenziare la differenza con la teoria probabilistica si può anche sostenere che i controfattuali, se correttamente formulati, si possono presentare come strumento principe per l’eliminazione delle correlazioni spurie. Viene quasi spontaneo osservare che l’abbassamento del nostro barometro oggi non può essere causa del temporale di stasera perché, se non ci fosse nessun abbassamento del barometro a ragione dell’assenza di barometri in casa, il temporale si verificherebbe egualmente. Questo esempio però è utile a far riflettere sulla forma logica di questo tipo di giudizi. L’asserto “l’abbassamento del mio barometro è causa di tempesta” implica il controfattuale (°°) Se il mio barometro non si fosse abbassato non ci sarebbe tempesta Secondo la semantica d David Lewis, che ha rilanciato la teoria controfattuale della causa nel 1970, (°°) va reinterpretata così: Nei mondi possibili più simili all’attuale in cui il mio barometro non si è abbassato non c’è stata tempesta. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. È vero o falso? Dipende da come intendiamo la somiglianza tra mondi. Secondo Lewis, come abbiamo già detto, i mondi più simili all’attuale sono quelli uguali all’attuale per quanto riguarda la storia passata fino al momento in cui il barometro si abbassa; in questi mondi c’è una depressione atmosferica antecedente ma, per qualche misterioso fenomeno (piccolo miracolo) il barometro che dovrebbe abbassarsi non si abbassa. Dunque la somiglianza è garantita dalla conservazione quanto più possibile estesa dell'informazione circa il passato, ma non nella conservazione delle leggi di natura. Tutto questo è inammissibile se vogliamo poter dire che le leggi (v.paragrafo precedente) servono a stabilire un rapporto consequenziale tra antecedente e conseguente. Quando si ipotizza la negazione di un fatto quindi si sottintende che la classe delle leggi accettate resti stabile, in base al principio della conservazione di informazione. Questo non significa escludere che anche una legge potrebbe essere ipotizzata falsa. In questo caso si parla non di controfattuali ma di controlegali. P.es. “Se i pianeti ruotassero attorno al sole in orbite circolari anche la terra ruoterebbe in un’ orbita circolare” Queste ipotesi non sono oziose perché ci permettono di capire le conseguenze di teorie false che un tempo erano considerate vere. Si noti che anche per i controlegali vale il principio di conservazione dell’informazione, nel senso che viene rimossa solo la legge ipotizzata falsa e tutti gli enunciati interconnessi con essa, mentre vengono conservate tutte le leggi indipendenti dalla legge in questione (tra cui quelle di livello superiore come, per esempio, il principio di gravitazione universale). Nel caso dei controfattuali che intervengono nell’accertamento delle cause, invece, vengono ipotizzate delle mancate occorrenze di eventi singolari (token-eventi). Gli eventi singolari sono eventi spazio-temporalmente determinati (es. “il gatto Micifuf miagola alle 10.30 del 20 settembre 2008”), mentre gli eventi generici (type -events) non hanno determinazioni spazio-temporali. Senza entrare in una complessa discussione filosofica, qui stiamo assumendo che le relazioni causali intervengono tra token-eventi, non tra eventi generici, leggi, proprietà, proposizioni o altri tipi di relata. In particolare, sono da considerare improprie asserzioni come “il sasso causò la rottura del vetro”, che fanno pensare a una ontologia aristotelica secondo cui le relazioni causali intervengono tra corpi o sostanze dotate di poteri causali. Per essere più precisi, un evento semplice nel senso che qui si vuole privilegiare è una tripla [P, a, t] dove P è una proprietà, a è un oggetto , t è l’istante di inizio dell'evento. Per esempio se P= essere aperto, a=l’ingresso principale dell’Università Statale di Milano, t= 8.10 di oggi, l’evento in questione è l’evento per cui il portone della Statale è aperto alle 8.10 di oggi . Un evento complesso è una generalizzazione di un evento semplice. In esso intervengono relazioni a più posti (p.es. “essere padre di”) anziché predicati semplici, una molteplicità di enti anziché un unico soggetto, e un intervallo I anziché un istante atomico t. Scriveremo Oe, dove e = [P, a, t] per indicare che l’evento e occorre , cioè si verifica. Asserire Oe significa tre cose distinte circa l'evento e : 1) Esiste realmente in t l’entità a 2) a ha la proprietà P nel corso di un intervallo iniziante con t 3) Prima di t a non ha la proprietà P In altri termini 2) e 3) asseriscono che t è l’istante d’inizio della verità della proposizione espressa da “a è P”. Da questa definizione segue che ipotizzare la negazione di Oe è una faccenda complessa. Infatti negare Oe significa negare la congiunzione dei tre asserti 1,2,3, cioè affermare uno dei tre almeno è falso. Quindi la negazione è ambigua perché significa che è falso o 1 o 2 o 3. Supponiamo per esempio di fare l’ipotesi che il mio barometro non si sia abbassato alle 20.30 di ieri (istante di inizio del suo reale abbassamento). Omettendo per semplicità di considerare la clausola 3, questa ipotesi è ambigua perché in realtà si riduce ad una disgiunzione: o non esisteva il mio barometro alle 20.30 di ieri o , (se esisteva) non si Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. abbassato a partire dalle 20.30 di ieri. Si noti che il secondo disgiunto è pure ambiguo, perché può essere inteso nel senso che il barometro non si è abbassato affatto oppure che si è abbassato in qualche momento diverso dalle 20.30 di ieri. Per restare in questo esempio paradigmatico, chiediamoci se c’è un nesso causale tra l’abbassamento di questo barometro alle 20.30 di ieri e l’evento “tempesta verificatasi ieri a partire dalle 21.00 ”. Per rispondere dobbiamo esaminare le risposte a due domande distinte: 1) Se non fosse esistito il barometro in quel momento dello spazio-tempo ci sarebbe stata egualmente la tempesta delle 21.00? Risposta : Sì, ci sarebbe stata 2) Se l’abbassamento del barometro non si fosse verificato alle 20.30 ci sarebbe stata la tempesta delle 21.00? Risposta : No, non ci sarebbe stata. Le due domande controfattuali danno quindi delle risposte differenti, il che significa che il nesso causale ipotizzato non sussite. Il lettore può rendersi conto della differenza tra queste risposte e quelle che si avrebbero con una domanda in cui invece del non- abbassamento del barometro si ipotizza il non-abbassamento della pressione atmosferica in un momento antecedente. Bisogna evidenziare che la relazione causale non va confusa con quella esplicativa, anche se molti neopositivisti come lo stesso Hempel tendevano a fare questa identificazione. Un celebre controesempio alla teoria hempeliana della spiegazione scientifica (quindi alla teoria hempeliana della causalità) è quello, dovuto a S. Bromberger, dell’asta della bandiera. La lunghezza dell’asta rende calcolabile esattamente, data una certa posizione del sole, la lunghezza dell’ombra, ma con la stessa esattezza si può risalire dalla lunghezza dell’ombra alla lunghezza dell’asta. In primo luogo l'esempio significa che la relazione di spiegazione può essere simmetrica, forse contro le intenzioni di Hempel. Tutto sommato questo non sembra così dannoso come alcuni sembrano pensare. Nei rapporti di interazione, privilegiati dai pensatori dialettici, ha un senso preciso spiegare a in termini di b e b intermini di a. Supponiamo, riprendendo un vecchio esempio di Vailati, che due sfere vengano fatte cadere simultaneamente entro un imbuto e si fermino una contro l’altra. È giusto dire che la posizione della prima spiega la posizione della seconda e la seconda spiega la posizione della prima. Ma è fuorviante, secondo noi, dire che la posizione della prima causa la posizione della seconda e anche viceversa. I motivi per negarlo sono almeno due: 1) per ammettere questo bisogna ammettere che esistono dei casi di causalità simultanea, mentre questo è escluso dal principio di azione ritardata, cioè dall'idea comunemente accettata in fisica secondo cui qualunque azione si esercita entro un periodo di tempo non-nullo. 2)Se si ammette la transitività della causazione almeno entro intervalli brevi allora, se a causa b e b causa a , a causa a. Quindi bisogna ammettere l’autocausazione di a, il che è contrario ad ogni concepibile definizione di causa. Applicando il metodo proposto è facile invece verificare che un controfattuale come “se il fiammifero non si fosse acceso alle 20.30 il pagliaio non si sarebbe incendiato alle 20.31” è vero in quanto si fonda su una risposta univoca ai tre quesiti di cui sopra. In particolare, se non ci stato nessun fiammifero in quella collocazione il pagliaio non si sarebbe incendiato (in quelle condizioni). La lezione che si apprende da queste considerazioni è che normalmente, nel caso sussista un nesso causale, la presenza o esistenza reale dell’oggetto che fa parte del token-evento ha qualche peso sull’accadimento dell’effetto. Infatti l'esistenza reale dell'oggetto corrisponde a quella che Aristotele chiamava causa materiale. Quando l'esistenza reale dell'oggetto non alcuna influenza sul presunto effetto siamo di fronte a un fenomeno che ci impedisce di parlare di nesso causale. Indubbiamente gran parte della confusione nelle discussioni sulla causalità risiede nel fatto che c’è un numero ampio di nozioni causali di diversa forza e complessità. È diverso dire che un evento rispetto a un altro è causa scatenante , determinante, immediata, remota, … La teoria controfattuale Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. della causa mira a individuare in un condizionale controfattuale semplicemente la nozione di causa che è minimale, quella cioè che è semplicemente il minimo comune denomiatore di tutte le nozioni di causa. In quanto tale esso funziona in molti più come come marchio per discriminare le relazioni causali da altri tipi di relazione che non come espressione di causalità in senso pregnante. Per fare un esempio, prendiamo questi controfattuali veri in cui l’antecedente precede il conseguente: 1)“Se Rossi non si fosse sposato non sarebbe divorziato” 2)“Se Cesare non fosse nato, non sarebbe morto assassinato” 3)“Se la fabbrica non avesse prodotto questo fiammifero, questo fiammifero non si sarebbe acceso”. In questi casi la nostra intuizione non suggerisce immediatamente la presenza di un nesso causale, vuoi per la banalità della relazione, vuoi per la distanza cronologica tra presunta causa e presunto effetto. Ma, se è vero che nessuno abitualmente si sente di enunciare proposizioni causali di questo tipo (a meno che non si intenda essere intenzionalmente scherzoso), bisogna anche ammettere che nessuno negherebbe che un certo nesso qualificabile come causale, anche se debole, sussista tra i suddetti eventi. Questo nesso può essere descritto come un nesso di rilevanza causale e gli antecedenti si possono chiamare fattori causali. Tutte le relazioni causali più importanti si lasciano descrivere come costruzioni basate sulla relazione basilare di rilevanza causale. Per esempio la relazione di causa determinante, che è la relazione causale più forte, di può definire in questo modo: e1 è causa determinante di e2 = e1 è causalmente rilevante per e2 e e1 è un elemento nella spiegazione hempeliana di e2. Può anche essere che e1 non solo spieghi e2 ma che e1 sia inferibile abduttivamente da e2 come la spiegazione migliore di e2 . in questo caso diremo che e1 è causa completamente determinante di e2. e1 è causa diretta di e2 = e1 è causa determinante e non esistono altre cause determinanti intermedie tra e1 e e2. e1 è la causa di e2 = e1 è causa determinante di e2 e non esistono altre cause determinanti di e2 (almeno tra quelle che vengono prese in considerazione nell’attuale contesto di ricerca). Si noti che, anche se il termine “causa” e “relazione causale” in italiano si prestano a molte ambiguità, ci sono termini che opportunamente parafrasati esprimono queste sfumature concettuali. Si pensi per esempio al verbo “determinare”, che indica per l’appunto la relazione di causa determinante. È il caso di osservare che l’affermarsi della concezione controfattuale della causa, anche nel diritto, ha avuto una storia abbastanza complessa. Osserviamo prima di tutto che Mill, rifacendosi sostanzialmente a Bacone, formulava quattro metodi per la scoperta delle cause, che come è noto sono i seguenti: 1)Metodo dell’Accordo 2) Metodo della Differenza 3) Metodo congiunto dell' Accordo e della Differenza 4) Metodo delle Variazioni Concomitanti 5) Metodo dei Residui. Studiando attentamente questi metodi ci si acccorge che il metodo più importante è il metodo della Differenza. Per esempio se dopo una gita scolastica alcuni sono colpiti da qualche tipo di intossicazione alimentare ci si può chiedere 1) che cosa hanno in comune i ragazzi intossicati? Questo significa applicare il metodo dell’Accordo, ma è abbastanza chiaro che esso può portare a stabilire qualche correlazione spuria. Per esempio i ragazzi intossicati potrebbero avere mangiato tutti dei funghi, ma non è detto che questa sia la causa perché si potrebbe poi osservare che anche alcuni non-intossicati hanno mangiato dei funghi. Forse si potrebbe scoprire anche che gli intossicati portano tutti scarpe marroni, ma questa non si può certo chiamare causa. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 2) che cosa hanno in comune i ragazzi non intossicati che li differenzia dagli intossicati? Supponiamo di scoprire che la differenza è il fatto che non hanno mangiato alcune barrette di cioccolato che hanno mangiato gli intossicati. Questa dunque fa la differenza tra chi è stato intossicato e chi no. Allora queste barrette, non i funghi, sono state la probabile causa dell’intossicazione. Si noti che questa evidenza sostiene il controfattuale “se i ragazzi intossicati non avessero mangiato cioccolato di quel tipo non risulterebbero intossicati” perchè si ritiene stabilita la generalizzazione“Tutti i ragazzi che in condizioni pari a quella della situazione data non mangiano cioccolato non risultano intossicati”. Con il metodo congiunto dell’accordo e della differenza riusciamo a stabilire qual è la causa determinante dell 'evento in questione. Supponiamo infatti di aver riscontrato tanto che i non intossicati non hanno mangiato cioccolato quanto che gli intossicati hanno mangiato cioccolato. Così l’aver mangiato cioccolato spiega il verificarsi dell’intossicazione (in quanto descrive una condizione sufficiente per questa) e nello stesso tempo stabilisce la condizione necessaria per lo stesso fenomeno. Si noti che, se le correlazioni stabilite sono di tipo statistico, l’applicazione del metodo congiunto ci riporta al metodo statistico standard, visto a suo tempo, per cui dobbiamo estrarre dall’universo un campione sperimentale e confrontarlo con un campione di controllo: nel caso dell’esempio dobbiamo calcolare la percentuale di quanti hanno mangiato cioccolato tra gli intossicati e confrontarla con la percentuale di intossicati che non hanno mangiato cioccolato (che nel caso dell’esempio ha un valore pari a 0). Il Metodo delle Variazioni Concomitanti chiede di riconoscere come relazioni causali quelli in cui il presunto effetto varia in dipendenza dalla presunta causa. Per esempio potrebbe essere che l’intensità dell’intossicazione varia in funzione della quantità di cioccolato consumata dai singoli ragazzi. Anche questo si presta all’enunciazione di un controfattuale del tipo che è stato chiamato “controcomparativo”: per sempio, “se Pierino avesse mangiato meno cioccolato avrebbe avuto un minor grado di intossicazione”. In molti contesti scientifici in cui le leggi funzionali correlano valori numerici (esempio: misura della pressione e del volume nella legge di Boyle –Mariotte) i controcomparativi possono avere delle quantificazioni: p. es. “Se Pierino avesse mangiato grammi x di cioccolato avrebbe avuto un intossicazione al grado z”. Ma qui naturalmente l’esempio mostra che c’è una forzatura nell’usare dei valori numerici. Non ha molto senso stabilire dei gradi di intossicazione espressi numericamente, anche se naturalmente si possono trovare degli indici utili (p.es. numero di giorni di malattia, valori febbrili ecc.). In effetti il Metodo delle Variazioni concomitanti è un’utilissimo metodo di riprova della validità dei controfattuali causali, ma è un errore pensare che da solo conduca all’accertamento dei nessi causali. Ciò si può dire per due sostanziali motivi: 1) Nei casi di biforcazione causale la causa spuria, che possiamo anche chiamare indizio o epifenomeno, può benissimo essere correlato funzionalmente con l’effetto, senza che ciò abbia a che vedere con il nesso causale. Il caso del barometro è ancora indicativo. A valori barometrici molto bassi possono corrispondere tempeste di particolare lunghezza e intensità e, volendo, si può redigere una tavola di correlazioni tra valori del primo e del secondo tipo. Ma, come abbiamo visto, il controfattuale in questione risulta falso perché è l’esistenza o inesistenza dell’oggetto barometro che va presa in considerazione per stabilire se la correlazione è spuria. 2) Ci sono molti casi di correlazione causale in cui la proporzionalità tra causa ed effetto o non sussiste o sussiste entro una fascia limitata di valori. Un bicchiere d’acqua lenisce la sete e due bicchieri ottengono un effetto proporzionalmente maggiore. Ma questo non si può dire di 10 bicchieri d’acqua, mentre far bere a qualcuno 100 bicchieri d’acqua si può considerare solo un metodo di tortura. Non bisogna inoltre dimenticare che la causa precede temporalmente l’effetto, mentre in molte correlazioni funzionali tra tipi di grandezze non ha senso stabilire la correlazione cronologica tra una variabile e l’altra. Così nei fenomeni Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. economici a spirale, p.es. nella correlazione aumento dei prezzi-aumento dei salari, non viene fissato l’indice cronologico degli eventi, anche perché gli eventi in questione sono processi continui che si verificano più o meno simultaneamente, quindi è difficile distinguere causa ed effetto. Per questo è importante che nei giudizi causali entrino sempre token-eventi dotati di un indice temporale. Quanto al Metodo dei residui, questo asserisce che se un fenomeno complesso E è stato parzialmente spiegato da una parte di un fenomeno complesso C, quello che resta da spiegare in E è prodotto dalla parte residua di C. Ciò che interessa qui è valutare la concezione della causa di Mill. Secondo Mill la causa è necessaria all’effetto in un senso leggermente diverso da quello finora definito. Infatti la sua idea è che la causa è un elemento necessario (cioè imprescindibile) per costituire un insieme di fattori che congiuntamente formano una condizione sufficiente per l’effetto. Questa nozione di causa viene a volte designata con l’acronimo NESS (Necessary Element of a Set of Sufficient Conditions) e la si ritiene più debole di quella di causa come condizione necessaria. Il filosofo del diritto Richard Wright ha recentemente sostenuto che NESS è la sola forma difendibile di causalità. Ma qui è doversoso aprire una parentesi sul fatto che nell'ambito del diritto le definizioni delle nozioni causali sono frequentemente integrate da considerazioni inerenti la condotta volontaria umana o la sua obbligatorietà. Secondo Wright la responsabilità per danno si basa su tre elementi: a) comportamento illecito b) causa effettiva c) causa prossima Cosa si intende per causa prossima? Si tratta di un concetto normativo in quanto coinvolge la nozione di danno : una causa prossima è tipicamente definita come ” una causa che produce danno in una sequenza naturale, diretta e continua senza cause sopraggiunte che interrompano la catena causale". Wright aggiunge : “Alternativamente, una causa prossima è definita come una causa lesiva che ha come risultato un danno ragionevolmente prevedibile a un danneggiato ragionevolmente prevedibile”. Sul piano giuridico e morale, l'espressione « la causa » è un modo ellittico per indicare « la causa (responsabile) ».Hart e Honorè hanno chiarito un concetto analogo in questo modo, quello di "la causa", nel modo che segue: “Secondo questi principi del senso comune, tratti da un'analisi delle affermazioni comunemente utilizzate per attribuire la responsabilità, un fattore contributivo è « la causa », invece che una « mera condizione », se soddisfa due requisiti: (1) deve essere (a) un intervento umano volontario inteso a provocare una data conseguenza — ad esempio, sparare deliberatamente a qualcuno — oppure (b) un evento, azione o condizione anomala nel contesto particolare — per esempio, una tempesta anomala, o la guida disattenta — e inoltre (2) deve essere, in ordine temporale, l'ultimo intervento deliberato o evento indipendente anomalo. Libertari come Epstein hanno puntato il dito sul concetto di danno usato da Wright. Supponiamo che sia vero"a minaccia di sferrare un pugno sul naso di b e c interviene per bloccare il colpo. Questo è un caso in cui l'intervento di c arreca un benefìcio a b, o un caso in cui, se c non avesse bloccato il colpo, il suo mancato intervento avrebbe provocato un danno a b?" Epstein osserva che possiamo mantenere la distinzione tra « arrecare un beneficio » e « provocare un danno » solo dopo aver deciso se la persona che ha bisogno di aiuto ha diritto all'aiuto stesso. Qui entra in gioco la nozione di diritto e quella di dovere ( tenendo presente che i diritti di una persona sono i doveri degli altri nei suoi confronti), cioè due nozioni che fanno parte della sfera normativa, non di quella fisica o filosofica. Secondo Hart e Honorè, la teoria della condicio va integrata con la considerazione degli elementi intenzionali , che sono quelli che caratterizzano l’azione umana. Dice Santoni De Sio : “Il ruolo delle azioni volontarie nelle spiegazioni causali è inoltre decisivo al punto da far degradare al ruolo di meri «mezzi» condizioni straordinarie che, in assenza dell’intervento umano, meriterebbero il titolo di Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. causa. Una strada insolitamente ghiacciata è normalmente considerata causa di un incidente d’auto. Ma se, per esempio, il ghiaccio si è formato perché qualcuno, approfittando di una nottata insolitamente fredda, ha rovesciato alcuni secchi d’acqua sulla strada per fare av re un incidente stradale al suo nemico, la sua azione sarà considerata causa dell’incidente e la strada ghiacciata soltanto un mezzo da lui utilizzato”. Omettendo le considerazioni circa la responsabilità, su cui torneremo, qual è la distinzione logica tra il test NESS e il test controfattuale classico (detto anche “teoria but for”)? I due tests coincidono quando vi sia un insieme di condizioni realmente o ipoteticamente sufficiente, in una particolare occasione, per il verificarsi dell'evento. Tuttavia, il test NESS include più elementi del test controfattuale . L’esempio che fa Wright è il seguente. Supponiamo che l'incendio a e l'incendio b siano, ciascuno indipendentemente dall'altro, sufficienti — cioè sufficienti in assenza l'uno dell'altro, ma in presenza di altre condizioni preesistenti — a distruggere una determinata casa, se il raggio dell'incendio si estende fino a raggiungerla. Pochi di noi, se non nessuno, sarebbero in disaccordo con le seguenti proposizioni: (1) l'incendio a è stato una causa contributiva della distruzione della casa, se l'incendio a ( ma non l'incendio b) ha raggiunto la casa e la casa non sarebbe stata distrutta senza l'incendio a; (2) gli incendi a e b sono stati entrambi causa della distruzione della casa, se l'hanno raggiunta simultaneamente e la casa non sarebbe stata distrutta se nessuno dei due incendi si fosse verificato; (3) l'incendio a è stato causa della distruzione della casa, ma l'incendio b non lo è stato, se l'incendio a ha raggiunto la casa prima dell'incendio b, perché la casa è stata distrutta prima dell'arrivo di quest'ultimo e non sarebbe andata distrutta se entrambi gli incendi non si fossero verificati. Orbene, Wright è convinto che il test but for comporti la risibile conclusione che nessuno dei due incendi è stata causa del danno, perché in assenza del primo l’altro avrebbe distrutto la casa. Scrive il Nostro: “Nella situazione (2), nella quale entrambi gli incendi hanno raggiunto la casa simultaneamente, ci sono due insiemi sufficienti che si sovrappongono. Un insieme contiene l'incendio a, ma non l'incendio b, rendendo così l'incendio a elemento necessario di un insieme sufficiente; l'altro insieme contiene l'incendio b, ma non l'incendio a, rendendo l'incendio b un elemento necessario di un insieme sufficiente. Quindi, benché nessuno dei due incendi sia stato una condizione but for della distruzione dell'edificio, ciascuno di essi rappresenta una causa NESS supplementare”. Come già accennato, il test NESS è uno dei molti modi escogitati dagli epistemologi per realizzare un compromesso tra le ragioni a favore della causa come condizione necessaria e quelle a favore della causa come condizioni sufficiente. L’idea di “essere necessario per la sufficienza” tuttavia dovrebbe essere chiarita meglio in termini logici. Come si deve intendere? Per riprodurre un esempio di repertorio, l’accensione di un fiammifero in un pagliaio è condizione NESS per l’incendio del pagliaio. Per esplicitare il nesso causale, secondo la dottrina NESS questo significa dire che il complesso di tutte le circostanze occorrenti meno l’accensione del fiammifero è insufficiente per l’incendio, mentre è sufficiente se comprende l’accensione del fiammifero. Prendendo alla lettera la tesi di Wright, appare che la forma di “A causa B” -dove K e` un insieme di circostanze di sfondo che non contiene A e CS sta per la relazione di essere condizione sufficiente - è quindi costituita da una coppia di asserti con le due forme seguenti: (a) (A e K) CS B (b) è falso ((non-A e K) CS B) Esaminiamo ora analiticamente il test NESS. È vero, inanzitutto, che il test NESS smaschera facilmente alcuni errori della dottrina della causa come condizione sufficiente, che di solito rientrano nello schema della fallacia “post hoc propter hoc”. Supponiamo che il signor Rossi nei giorni pari beva whisky con selz, nei giorni dispari beva Campari con selz, con il che regolarmente si ubriaca. Conclusione: applicando senza correttivi il Metodo dell´ Accordo di Mill, la causa del suo alcolismo Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. non risulta essere nè il whisky né il gin ma il selz. Il test NESS rende impossibile questa conclusione. Guardando alle clausole (a) e (b), K stia per “Rossi beve Campari o whisky”, A per “Rossi beve selz” e B per “Rossi si ubriaca”. Dato che il selz non annulla gli effetti dell’alcool, è vero (A e K) CS B . Ma la clausola (b) non è soddisfatta: è vero, non falso, che il Campari o il whisky senza selz (cioè non-A e K) rendono possibile inferire B. Il bere selz quindi non risulta causa dello stato di ubriachezza, come ci si attende. Un’obiezione alla teoria NESS consiste però nel mostrare che la coppia di condizioni (a),(b) è soddisfatta anche da esempi indesiderati. Può essere, per esempio, che A da solo sia ceteris paribus sufficiente per B, senza che, però, la relazione tra A e B sia causale. Il cantare del gallo il 25 Aprile (A), supporremo, è seguito infallibilmente ogni anno (al 100%) dal sorgere del sole esattamente 10 minuti dopo (B): è vero quindi A CS B. Per la legge logica dell’ a fortiori abbiamo però (A e K ) CS B, dove K è una qualsiasi congiunzione di enunciati veri che descrivono un arbitrario insieme di condizioni di contorno. Inoltre da non-A (mancato canto del gallo) e K non è inferibile B, con il che si soddisfa la clausola (b). Il test NESS risulta quindi soddisfatto e si dovrebbe concludere che il cantare del gallo il 25 Aprile ogni anno è causa del sorgere del sole 10 minuti dopo. Un’ obiezione al precedente controesempio è che, nelle intenzioni di chisostiene il test NESS, K dovrebbe essere non un qualsiasi enunciato vero ma il complesso delle condizioni sussistenti che integrano A. In tal caso però K dovrebbe essere abbreviazione di una congiunzione infinita di enunciati veri inesprimibile nel linguaggio logico e nel linguaggio ordinario, e nessun test allora potrebbe controllare la verità di enunciati contenenti K. Se invece si vuole intendere che K sta per una congiunzione finita di condizioni che hanno qualche rilevanza per A e/o per B, la rilevanza di cui si parla o è di tipo causale o di tipo statistico: ma nel primo caso si dà per scontata la nozione di causa che si intende definire, nel secondo caso la correlazione potrebbe essere causalmente spuria, aprendo la porta a controesempi come quelli sopra esemplificati. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 10. Problemi della teoria della conditio sine qua non. Come abbiamo visto, la concezione della causa come condizione sufficiente, anche se si presta ad essere riformulata in forme più o meno sofisticate, non sembra in grado di assicurare in tutti i casi una distinzione tra cause genuine e cause spurie. Viceversa, un merito della concezione controfattuale della causa appare proprio la sua capacità di tracciare la differenza richiesta. Come si è visto, tuttavia, gli esperimenti mentali richiesti dalla vecchia teoria della conditio sine qua non vanno compiuti alla luce di una ben precisa nozione di evento e di occorrenza di evento, che abbiamo cercato di rigorizzare nella lezione precedente. E’ opportuno ora valutare analiticamente le difficoltà della teoria controfattuale della causa. Primo problema: l’eccessiva debolezza della conditio sine qua non. L’impressione è che non tutte le condizioni necessarie sono cause. Supponiamo ci sia una catena di eventi di cui fanno parte la partenza di un aereo, il viaggio, un guasto e un incidente. Se non ci fosse stato un guasto, l’aereo non sarebbe caduto. Ma potrei anche dire con verità : se l’aereo non fosse partito non sarebbe caduto. Diremmo che la partenza è una causa dell’incidente? Una premessa abbastanza ovvia da cui si può partire per rispondere al problema è che non c’è una sola nozione di causa ma una pluralità di nozioni causali con differente grado di forza, di cui il concetto di conditio sine qua non costituisce il comune denominatore. Un conto è dire che x è causa determinante di y, altro è dire che è causa predisponente, causa concorrente, causa concomitante ecc. Si può suggerire che il compito specifico della filosofia della causalità sia proprio quello di trovare un quadro concettuale coerente in cui collocare queste diverse nozioni e valutare comparativamente il loro grado di forza. La più semplice nozione di causa è quella di rilevanza causale (cioè la elementare idea del "fare una differenza"). Stabilire la rilevanza di A per B significa stabilire il puro e semplice asserto controfattuale ¬A > ¬B (implicante che A è conditio sine qua non per B). Per tornare all’esempio dell'aereo, non si può negare che ci sia una qualche relazione causale tra la partenza dell’aereo e l’incidente. Forse in molti casi eviteremmo di dire che è una causa, ma non ci sentiremmo neppure di negarlo.Ne potremmo parlare comunque come di un fattore causale, e ci sentiremmo giustificati a farlo osservando che in alcuni casi potrebbero esserci in gioco delle conseguenze penali. Supponiamo per esempio che al momento della partenza ci sia stato un forte temporale (un uragano). Il pilota era incoraggiato a partire dalla compagnia anche se, a suo avviso, il volo in quelle circostanze era rischioso. Se ne è seguito un incidente, è difficile negare che il partire in quelle particolari circostanze è stato rilevante casualmente per l’incidente, anche se in quel momento c’erano valutazioni diverse sulla rischiosità della partenza stessa. Si potrebbe anche dire che in quelle circostanze la partenza, oltre che un fattore causale, era una causa predisponente per l’incidente. Questa nozione causale complessa si potrebbe chiarire dicendo che la partenza in quelle circostanze, oltre a essere una condizione necessaria per l'incidente, riduceva, anche se di poco, il grado di sorpresa prodotto dal verificarsi di un incidente che è di per sè altamente improbabile. Nessi causali indiscutibili sono stati stabiliti anche in presenza di una bassa probabilità dell’effetto data la causa. E’ noto il caso di un giudice che ha ravvisato una responsabilità di omicidio nel caso di un uomo sieropositivo che ha avuto rapporti non protetti con la moglie, dopo aver escluso che questa avesse avuto contratto il virus in altro modo. Il nesso causale è stato ravvisato anche se la probabilità di contrarre la malattia in casi del genere è al massimo del 4%. Ciò che importa è che risulta vero il controfattuale che stabilisce il rapporto che abbiamo chiamato di rilevanza causale. La nozione di causa di più comune impiego nel linguaggio ordinario è la nozione di causa determinante. Parlando liberamente, la causa determinante è una condizione tanto ceteris paribus necessaria che ceteris paribus sufficiente per l’evento-effetto. La determinazione si lascia definire come il rapporto tra due eventi che sussiste quando il primo riduce a zero il grado di sorpresa del secondo. Certo possiamo raffinare ulteriormente la classificazione delle cause. Se, per esempio, non solo Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. possiamo inferire l’effetto ma possiamo anche fare un’ inferenza in direzione conversa (abduttiva) allora il concetto di causa usato è ancora più forte e possiamo dire che in questo caso siamo di fronte alla nozione di causa completamente determinante. Qui si innesta un’annosa controversia sul rapporto tra condizioni di sfondo e cause. Se un fiammifero viene sfregato, l’accensione del fiammifero è resa possibile dal fatto che c’è sufficiente ossigeno, sufficiente fosforo sulla capocchia ecc. Circostanze di questo tipo a volte vengono chiamate condizioni di contorno o condizioni rilevanti, e qualcuno nega ad esse la qualifica di cause. Si tratta però in ogni caso di condizioni necessarie all’effetto e , dato che in contesti appropriati potrebbero giocare un ruolo importante, si possono chiamare cause concomitanti, cause contributive o concause rispetto alla causa principale. Un secondo problema della teoria controfattuale della cause, molto più insidioso del primo, è offerto dai casi di ridondanza causale. Questo in effetti è il problema evidenziato da Wright nell’ esempio, già visto, dei due incendi. Seguendo la tradizione epistemologica, si distinguono due tipi di ridondanza: la sovradeterminazione e il sopravanzamento. Se ci sono più condizioni sufficienti (determinanti) per lo stesso identico evento, tali non possono essere qualificate come necessarie. La giurisprudenza americana registra il caso di un malcapitato che è stato ucciso da due criminali, uno che lo colpiva al cranio con una pietra mentre l’altro lo accoltellava. I due colpi erano ambedue mortali; ma qui è un problema applicare la formula della condicio (cioè il test but for) in quanto non possiamo dire che, se il primo (o il secondo) non avesse colpito, la vittima non sarebbe morta. Certo quasi sempre uno dei due, poniamo A, raggiunge l’obiettivo qualche frazione di secondo prima del secondo, B. Se riusciamo a stabilirlo con esattezza, in un caso del genere possiamo dire che la morte della vittima è stata provocata da A, perché se A non avesse agito in quel modo non si sarebbe verificata la morte della vittima in quel preciso istante t in cui si è verificata. Ma ci sono casi in cui non si riesce a stabilire questa priorità in modo preciso,e allora si può stipulare i due eventi effetto prodotti dalle due diverse cause sono (convenzionalmente) simultanei. Una scuola di pensiero molto accreditata risponde al problema della sovradeterminazione chiedendo di specificare meglio l’evento-effetto, in base all’idea che la causa lascia sempre una traccia nell’effetto e quindi il sommarsi di due cause diverse produce in realtà un effetto diverso. Come si ricorderà, Hempel rispondeva al problema della non-monotonicità della spiegazione statistico-Induttiva esigendo la massima specificità nella descrizione dell'explanandum. Una strategia analoga si dovrebbe usare quindi nella descrizione degli effetti. Così se una vittima, poniamo Kennedy, è colpito da due proiettili sparati uno da Oswald e il secondo da un killer nascosto, la sua morte sarà descrivibile come << morte con due proiettili in corpo>>. In questo caso, naturalmente, risulta vero dire che, se Oswald non avesse sparato, Kennedy non sarebbe morto con due proiettili in corpo. Ma è dubbio che questa procedura sia risolutiva . Anche ammesso che le descrizioni siano effettuabili senza usare un linguaggio causale, chi ci dice che riusciamo sempre a distinguere gli effetti in base alle cause? Pensiamo a due interruttori che simultaneamente accendono una lampadina a incandescenza . Come si fa seriamente a distinguere tra la lampadina come si presenta accesa dall’interruttore A, da B o da tutti e due simultaneamente? Secondo Lewis e altri (M.Bunzl), quasi tutti (se non tutti) i casi di sovradeterminazione sono casi in cui una causa sopravanza l’altra. Il caso della lampadina non fa eccezione. Un elettrone proveniente dall’interruttore A sopravanzerà un elettrone proveniente da B. La teoria di Lewis-Bunzl in effetti dipende dal presupposto che ci sia sempre una grandezza che viene trasferita dalla causa all’effetto. Su questa idea di fondo si basano le cosiddette teorie causali del trasferimento, secondo cui nel rapporto causale c’è sempre una grandezza (peso, calore, velocità, ecc.) che si trasferisce dalla causa all’effetto. Ma questo non ha senso nel caso della causalità omissiva, quando si dice, per esempio, che il digiuno ha causato la perdita di peso. Inoltre, a meno di non introdurre correttivi ad hoc, il trasferimento non è Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. transitivo: se il sasso urta il vetro, e il vetro frantumandosi ferisce il gatto, non c'è un trasferimento di grandezza fisica dal sasso al gatto. Comunque sia, l’idea-chiave di Lewis è che quando una causa sopravanza un’altra c’è una catena causale che va dalla causa all’effetto, mentre non c’è dalla causa sopravanzata all’effetto: il che dal suo punto di vista risolverebbe il problema della ridondanza causale. Un esempio di sopravanzamento che vale la pena di ricordare è quello del viaggiatore nel deserto raccontato da Hart e Honorè (che secondo alcuni è antico quanto il Talmud). Due malviventi tentano indipendentemente di uccidere un viaggiatore nel deserto: uno gli perfora la borraccia piena d’acqua, l’altro mette del veleno nell’acqua. La vittima muore disidratata. L’ analisi apparentemente più ovvia è questa: il malvivente che ha perforato la borraccia ha impedito all’altro di bere acqua avvelenata, quindi ha sopravanzato la seconda causa potenziale, interrompendo una catena causale messa in moto dall’avvelenatore. Si noti, incidentalmente, che ambedue le operazioni sono, congiuntamente alle circostanze date, sufficienti per determinare la morte, per cui il problema si pone solo per la concezione condizionalista della cause. Accogliendo la proposta della massima specificità, se descriviamo l'effetto come morte -in-stato-di- disidratazione, questa non ci sarebbe stata in assenza di perforazione : l’omicida quindi risulterebbe il perforatore, mentre l’altro potrebbe essere incriminato tutt'al più per tentato omicidio. Altri però potrebbero difendere intuizioni completamente diverse. Bisogna infatti considerare che normalmente veleno e disidratazione agiscono nel corpo con tempi diversi. Supponiamo che il veleno usato fosse tale da agire in tempi più lunghi della disidratazione. Se è così il perforatore ha di fatto anticipato la morte della vittima, e quindi dovrebbe essere incriminato per omicidio. Ma se il veleno era un tipo di veleno tale da agire con tempi più brevi della disidratazione -come di solito accade - allora si potrebbe sostenere che la perforazione ha rallentato la morte impedendo alla vittima di bere il veleno che lo avrebbe stroncato in tempi più brevi. In tal caso il perforatore potrebbe vantarsi di essere un benefattore, anziché un omicida! Come si vede, appare esserci un'asimmetria tra cause acceleranti e cause ritardanti che non dipende dall'esistenza o meno di un sopravanzamento e nemmeno dal modo in cui viene descritto l'eventoeffetto. Una proposta che si può avanzare in alternativa alla teoria di Lewis è quella di abbandonare l’idea della relazione causale come relazione a due posti. Questo non dovrebbe essere una novità perché la nozione di causa contributiva, o concausa, è una relazione a tre posti: a è concausa con b per c. Questa relazione però si può ridurre alla congiunzione di condizioni a due posti: a è causa di c & b è causa di c. Si possono però definire relazioni a tre posti che non sono riducibili definitoriamente a relazioni a due posti. La relazione di essere causa concorrente è di questo tipo: Definizione. a è causa concorrente con b per c quando è vero che in assenza di a, se non ci fosse stato b non ci sarebbe stato c. Questa locuzione si presta ad essere rappresentata come un controfattuale doppio o iterato: "se non ci fosse stato a allora (se non ci fosse stato b non ci sarebbe stato c)". Date le definizioni sopra poste, il precedente condizionale equivale a: “se non ci fosse stato a, b sarebbe stato causalmente rilevante per c”. Per esempio: “se il primo killer non avesse sparato allora, in assenza del secondo, non ci sarebbe stata la morte di Kennedy”. Un problema ravvisabile è che in questo modo non si distingue, apparentemente, la sovradeterminazione dal sopravanzamento. Supponiamo che una causa sopravanzi un’altra, per esempio che la perforazione sopravanzi l’avvelenamento dell’acqua. Allora sarebbe vero tanto dire “in assenza della perforazione, se non ci fosse stato l’avvelenamento non ci sarebbe stata la morte” quanto“ in assenza dell’ avvelenamento, se non ci fosse stata la perforazione Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. non ci sarebbe stata la morte”. Certo così si apre il problema di distinguere tra causa sopravanzante e causa sopravanzata, che non si pone nei casi di sovradeterminazione simmetrica. Una proposta risolutiva sta nel dire che la distinzione è possibile mediante quanto si aggiunge alla nozione basilare di concorrenza. Allo stesso modo in cui la nozione di causa determinante è più complessa di quella di rilevanza causale, la nozione di causa sopravanzante è più complessa di quella di causa concorrente. La differenza sta sostanzialmente in questo: se una causa è sopravanzata da una seconda causa non c’è modo, in presenza della seconda causa, di inferirla abduttivamente dall’effetto, mentre questo è possibile per la causa sopravanzante. Per fare un esempio, l’osservazione del fatto che la borraccia è stata perforata prima del viaggio impedisce a qualsiasi investigatore di inferire dai dati acquisiti che la miglior spiegazione della morte della vittima è l'avvelenamento (in quanto il presupposto di tale spiegazione è il recipiente sia integro), mentre la conoscenza del fatto che l'acqua è stata avvelenata non impedisce di spiegare la morte ricorrendo a un fatto come la perforazione della borraccia. Questo crea quindi un’asimmetria tra i due tipi di possibili cause. Trattare la causa sopravanzante e sopravanzata come cause concorrenti per l’effetto consente di trattare i due criminali sullo stesso piano dal punto di vista causale. Una causa sovradeterminante può avere o non avere rilevanza penale. Nel caso paradigmatico di due o più fucilieri che fanno parte del plotone di esecuzione i loro colpi sono sufficienti (determinanti) per la morte e, in base alla precedente teoria, sono tutti cause concorrenti per questa. Quindi se il plotone ha agito fuori della legge i fucilieri sono tutti, quindi, imputabili di omicidio (mentre non lo sono, ovviamente, se eseguono una condanna a morte erogata da un tribunale dello stato). Può essere che uno dei fucilieri a,a',a",a"',a"" abbia, come vuole la tradizione, una cartuccia a salve, senza che sia dato sapere chi è il privilegiato. In tal caso non possiamo dire che a,a',a",a"',a"" sono tutti cause concorrenti ma possiamo solo fare un’affermazione più debole che è una disgiunzione: o a ha ucciso b, o a’ ha ucciso b, o a” ha ucciso b o…” . Questo non esclude un nesso causale, ma lascia indeterminato il nome della causa. Stante questo insufficiente livello di informazione, se l'esecuzione è illegale non ci sono elementi per incriminare i singoli fucilieri, anche se ci sono elementi per incriminare, per esempio, chi ha organizzato l’esecuzione. Un' indagine che conduca a stabilire che una determinata cartuccia non contiene un proiettile consentirà di eliminare uno dei disgiunti e quindi di determinare esattamente quali sono le cause concorrenti, con eventuali conseguenze penali. Certamentente sulle cause sopravanzate si potrebbe discutere a lungo perché si può sostenere che, proprio per il fatto di essere sopravanzate, hanno un carattere in un serto senso fantomatico. Si pensi a un PC portatile con doppia alimentazione: batteria e corrente elettrica. L'apparecchio è costruito in modo tale che, nel momento in cui cessa l’alimentazione della rete immediatamente entra in azione la batteria. La causa sopravanzata in condizioni di normale funzionamento risulta bloccata dalla sopravanzante. In condizioni normali, a fronte di una domanda circa le cause del funzionamento dell’apparecchio non nomineremmo la batteria. Ma forse neanche la escluderemmo dal novero delle cause, perché insieme alla causa sopravanzante essa costituisce un sistema integrato di funzionamento dell’apparecchio. Se nell’arco di un’ ora mancasse la corrente, diciamo, due o tre volte diremmo che le due alimentazioni in quell’intervallo di tempo hanno cooperato (quindi sono state concorrenti) per il corretto funzionamento della macchina. Recentemente il dibattito sul sopravanzamento è stato animato da Jonathan Schaffer con un articolo dedicato alla trumping preemption (che possiamo tradurre con “ scavalcamento causale”). Esempio. Un capitano e un sergente urlano simultaneamente un ordine a un plotone, per esempio quello di mettersi sull’attenti. I soldati lo eseguono, ma questo accade perché eseguono l’ordine del superiore, non dell’inferiore: il primo ordine “scavalca” il secondo in base al principio ubi maior minor cessat. Si noti che questo fa cadere l’idea che le cause si possano discriminare con una differente descrizione Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. degli eventi-effetto, e anche l’idea di una catena causale che sbarra la strada alla causa sopravanzata. La proposta teorica sopra delineata sembra che si applichi facilmente a questo esempio. Se si potesse inferire abduttivamente (quindi come migliore spiegazione) che i soldati si sono messi sull’attenti, poniamo, in seguito all’ordine del sergente, ciò escluderebbe la possibilità di spiegare il loro comportamento in termini di un ordine impartito simultaneamente da qualsiasi militare di grado superiore al sergente, perchè la spiegazione data non sarebbe più la migliore spiegazione. Se viceversa potessimo fare un’ abduzione spiegando il fatto suddetto con un ordine del capitano, ciò non farebbe escludere che sia stato anche impartito un ordine da suoi subordinati. Si noti, comunque, che in questa concezione i due ordini sono ambedue cause che concorrono al risultato. Dal punto di vista giudiziario le conseguenze sono che in caso di errore eventuali responsabilità esistono per ambedue gli agenti, anche se uno sopravanza o scavalca l’altro. Il che non significa, naturalmente, in questo come in altri casi di sopravanzaamento, che le responsabilità siano tali in pari misura e che la sanzione erogata deva essere la stessa. Resta da esaminare un altro problema circa le cause che Lewis lascia aperto, quello della causalità omissiva. Per intenderci è bene chiarire la distinzione tra causalità omissiva e causalità negativa o impediente. Chiamiamo causalità negativa o impediente quella in cui un certo evento ha come effetto un evento negativo: p.es. “lo sparo della guardia giurata ha impedito l’ingresso in banca dei banditi” significa che lo sparo è stato causa del mancato ingresso dei banditi. Chiameremo invece causalità omissiva quella in cui un evento negativo (o omissivo) è causa di qualche effetto (per esempio: “la mancata illuminazione delle scale lo fece cadere” oppure “il fatto che Giacomino ha omesso di lavarsii denti ha causato un rimprovero della madre”). Ovviamente una relazione causale può essere tanto omissiva che impediente. La medicina preventiva è spesso orientata alla ricerca non solo di cause impedienti ma anche di cause omissive: si dice per esempio che l’ evitare eccessi alimentari allunga la vita o elimina il richio di incorrere in una certa classe di malattie. Lewis non ha difficolta’ ad ammettere che sia legittimo parlare di omissioni come cause. Il problema retrostante ovviamente è, come aveva visto Mill, che ‘From nothing, from a mere negation, no consequences can proceed’. Ma di fatto lostesso Mill fa vedere che la causalità omissiva esiste ed è riconoscibile. Questo, incidentalmente, implica il rifiuto delle cosiddette “teorie del trasferimento”-già esaminate- secondo cui ogni relazione causale consiste in un trasferimento di grandezza fisica (calore, velocità ecc.) da un corpo all’altro. Il primo problema della causalità omissiva è quello ontologico: riguarda cioè la natura degli eventi omissivi. In primo luogo secondo Lewis gli eventi omissivi sono eventi “altamente disgiuntivi”, cioè eventi i cui disgiunti sono “overly varied disjuncts”. Per esempio, se Fred omette di prendere precauzioni ciò significa che sta facendo qualcosa altro, p.es “ camminare - o - dormire”. Ma come si fa a dire che questa disgiunzione causa qualcosa? Un evento nella concezione di Lewis è una proprietà di una regione dello spazio-tempo. Quindi non esistono relazioni causali che coinvolgono disgiunzioni perchè non ha senso parlare di eventi disgiuntivi: non esiste per esempio l’evento “piove a Milano o nevica a Seattle”, perché l’evento esiste nella misura in cui possiede una continuità spaziotemporale. Inoltre è ovvio che la causazione deve intercorrere tra eventi distinti; ma come distinguere per esempio il fatto che Piero, mentre dorme, omette precauzioni contro l’incendio dal fatto che omette precauzioni anche contro i ladri? Come distinguere le omissioni genuine da altri fenomeni simili ma distinti? Per esempio l’universo manca di contenere eventi che violano il secondo principio della termodinamica, ma questo non è chiaramente un evento omissivo. Dopo un’articolata analisi delle varie possibilità di trattare la causalità omissiva nel quadro controfattuale onestamente Lewis ammette: “mi piacerebbe poter render conto della causazione per omissione entro il quadro generale dato in questo articolo e in Events (nello stesso volume). Purtroppo non vedo come farlo quadrare con tutto ciò che dico in generale circa gli eventi e circa la loro Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. dipendenza causale” . E’ opportuno avvertire che la presenza o assenza di negazioni nella forma degli enunciati che descrivono gli eventi è irrilevante per qualificarli come positivi o negativi. Il buio è l’assenza di luce, il digiuno è l’assenza di alimentazione, il silenzio è l’assenza di rumore. Casi particolari di questi fenomeni sono di solito qualificati come eventi negativi, anche se la negazione non compare a rigore nella forma superficiale degli enuciati che li esprimono. È chiaro comunque che la distinzione che cerchiamo non può essere basata sulla forma superficiale dell’enunciat,o perchè a volte eventi positivi sono descritti negativamente e viceversa. Ci limiteremo qui a sottoscrivere l’idea che un evento negativo è tale relativamente a un evento positivo di cui è complementare, ed anche viceversa. Se [P,a,t] è un evento positivo, [-P,a,t] è un evento negativo rispetto al primo, ma anche la conversa è vera. L’importante è non-confondere un evento negativo [-P,a,t] con la mancata occorrenza di un evento positivo, che rappresenteremmo con non-O [P,a,t]. Quando entra in gioco anche la causalità il problema si complica. Qui vale la pena di richiamare l’attenzione sul esistenza reale dei soggetti coinvolti negli eventi ai fini dell'accertamento della relazione causale: nel caso dei soggetti umani l'esistenza reale coincide con la loro storia, cioè l’insieme di eventi in cui essi hanno un ruolo. Supponiamo che Gianni, dopo aver acceso il gas, si dimentichi di spegnerlo e questo causa un’esplosione. Gianni ha omesso di spegnere il gas: ma anche di me, che abito vicino a lui, si potrebbe dire che ho omesso di spegnere il gas. La differenza è che la mia storia personale (la mia esistenza) non aveva alcuna rilevanza per la storia che ha portato a quella esplosione, mentre questo non si può dire dell’esistenza di Gianni. Se io non fossi esistito nel momento in cui il gas è stato acceso l’esplosione ci sarebbe stata egualmente, mentre se Gianni non fosse esistito nel momento in cui il gas è stato acceso l’eplosione non ci sarebbe stata. La mia estraneità all’accaduto è quindi semplicemente provata dal fatto che nel periodo rilevante la mia biografia non si interseca con quella dell’ oggetto che compare nel presunto effetto. È bene ricordare ancora che nella filosofia di Aristotele vengono elencati quattro tipi di cause (materiale, efficiente, finale e formale:valga il famoso esempio della statua ). Va osservato, però, che le quattro cause non sono sullo stesso piano in quanto la causa materiale è precondizione per il manifestarsi delle altre tre cause . Nella concezione degli eventi che intendiamo proporre, ispirata a quella di J.Kim , l’esistenza reale del soggetto soggiacente ha un ruolo speciale, analogo a quello della causa materiale in Aristotele. Infatti, come ricordiamo, un Kim- evento è un tripla [P,a,t] dove P è un predicato, a è un soggetto, t è un istante. Ripetendo quanto già detto a suo tempo, dire che un evento [P,a,t] occorre -O[P, a,t]- implica dire che a esiste realmente nel momento t. Il requisito dell’esistenza reale non deve essere trascurato per caratterizzare l’occorrenza di eventi. Si può benissimo voler essere creduti quando si dice che Babbo Natale porta regali ai bambini, e questa proposizione si può anche considerare vera, ma con ciò non si descrive l’occorrenza di un evento in quanto Babbo Natale nel mondo reale non esiste. Allo stesso modo, si può dire correttamente che l’etere cosmico spiegava molti fenomeni fisici, ma questo non descrive un evento perché è ormai provato che l’etere cosmico non ha esistenza reale. Ciò detto, qui interessa chiedersi che cosa consegue dall’ipotesi controfattuale in cui si suppone che un certo Kim-evento non sia occorso. Quando si ipotizza controfattualmente non-O[P, a, t] ciò significa, come già detto, considerare una disgiunzione di tre ipotesi. Quindi, per poter asserire che il controfattuale è vero bisogna provare che il conseguente segue dalla falsità di ciascuna delle ipotesi alternative singolarmente prese. In tal modo si provvede a un disambiguamento dell’ ipotesi di nonoccorrenza. Un esempio può essere utile. Abbiamo già esaminato l’esempio del barometro. Dall’ ipotesi “controesistenziale” secondo cui il barometro di casa non esisteva realmente in t non segue la mancanza di una tempesta successiva, in quanto nessuna legge di natura conosciuta correla l’esistenza o l’inesistenza di barometri allo scatenarsi di tempeste. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Basta questo per concludere che la correlazione causale tra abbassamento del barometro e tempesta è spuria. Usando il linguaggio caro agli aristotelici, il barometro non è causa materiale della tempesta, quindi non può offrire la base per qualsiasi altro tipo di rapporto causale. L’esistenza reale va distinta dall’esistenza “meramente quantificazionale” rappresentata in logica dal simbolo ∃ . L’esistenza reale, definita in vari modi nella letteratura specializzata, è rappresentata di solito con il simbolo E!. Per semplificare una complessa questione, anche tecnica, qui parleremo di “esistenza reale di a in t” per intendere che a è uno degli enti presenti nel momento t entro il mondo attuale. L’utilità di questa rappresentazione emerge anche da un altro particolare. Se P è una proprietà positiva (p.es. essere acceso), non-P è una proprietà negativa (essere spento). Se dico che si è verificato che la lampadina era accesa, posso rappresentare questo evento con la forma O[P, a, t], mentre se dico che si è verificato che la lampadina era spenta (non-accesa), questo ha la forma O[non-P, a, t]. Nel secondo caso diciamo che è occorso (ha avuto luogo) un evento che era negativo rispetto al primo. Si può dire anche che i due eventi che occorrono sono contrari l’uno rispetto all’altro, ma non incompatibili, perchè hanno qualcosa in comune: in ambedue infatti i casi esiste realmente il soggetto a cui si applica un elemento della coppia di predicati P e non-P. Diverso è asserire non-O[P,a,t], cioè negare l’occorrenza dell’evento in questione. Certamente la logica retrostante dovrà autorizzare l’implicazione da O[non-P, a, t] a non-O[P, a, t ], ma non l’equivalenza dei due asserti. La differenza, come abbiamo visto, sta proprio nel fatto che O[non-P, a, t] comporta l’esistenza reale di a, mentre non-O[P, a, t ] non ha questo sottinteso. L’importanza giuridica e morale della causalità omissiva dovrebbe essere ovvia. Il codice penale prevede reati come l’omissione di soccorso, la negligenza professionale (tipica del campo medico: per esempio la sospensione di una cura, o addirittura la sospensione volontaria o involontaria delle terapie che tengono in vita un paziente. Un topos filosofico molto dibattuto comunque è quello della distinzione tra “doing harm”e “allowing harm”, rispetto alla quale si cita come caso esemplare la distinzione tra uccidere e lasciar morire. Il test but for nella versione che proponiamo sembra offrire una buon criterio di distinzione tra uccidere e lasciar morire. Si supponga per esempio che Tizio muoia perché Caio gli mette la testa sott’ acqua: se Caio non l’avesse fatto, si dirà, Tizio non sarebbe morto; e aggiungiamo - ottemperando alla definizione di occorrenza sopra proposta - non sarebbe morto nemmeno se Caio non fosse esistito in quel momento. Si immagini invece questo scenario: Tizio sta affogando in un fiume nel momento t, Caio si trova accidentalmente in quel posto, sa nuotare bene ma non si getta per salvarlo. Siamo in grado di dire con certezza che se si fosse lanciato nel fiume lo avrebbe tratto in salvo. Caio quindi, possiamo dire, lascia morire Tizio. E’ vero dire, però, che se Caio non fosse esistito in quel momento t Tizio sarebbe morto egualmente. Si noti che la conclusione cambia completamente se l’antefatto è stato che Caio ha buttato Tizio nell’acqua pochi minuti prima, in t*. In questo caso dall’ipotesi “controesistenziale” che Caio non esistesse nel momento in cui Tizio stava affogando segue che, ceteris paribus, Caio non sarebbe esistito neppure in t* : quindi non avrebbe buttato Tizio nell’acqua in t* e Tizio quindi non avrebbe corso il rischio di affogare. Questo esempio offre l’occasione di riflettere sul significato della nozione di uccidere. Uccidere non significa causare la morte di qualcuno: significa accorciare la prevedibile durata della vita di qualcuno. La differenza emerge proprio per il modo in cui è stata definita la causalità in termini di Kim-eventi. Si supponga infatti che un medico prolunghi la vita di un comatoso di qualche ora o di qualche giorno. Se il paziente muore alle 10.00 del 24 Dicembre, il medico è causa di questo Kim-evento: di fatto si può dire correttamente che la sua azione è stato causa ritardante, non anticipante, dell’evento stesso. Ma nessuno può dire che il medico abbia ucciso il paziente; si può anzi sostenere che si è comportato come un buon medico. Uccidere dunque significa “essere causa anticipante” della prevedibile fine della vita o, come si suol dire, “accorciare l’esistenza” di qualcuno. Sul tema dell’ equivalenza tra uccidere e lasciar morire è importante ricordare l’articolo 40, ultimo comma, del codice Rocco, il quale asserisce che "non impedire un evento, che si ha l'obbligo giuridico Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. di impedire, equivale a cagionarlo". Per esempio, dato che un medico ha l’obbligo professionale di impedire che il paziente peggiori le sue condizioni di salute, secondo questa norma il non impedire tale peggioramento equivale a causarlo. Da un punto di vista logico la differenza tra non-impedire e causare è però piuttosto chiara: se C è simbolo per una qualsivoglia relazione causale, la forma della prima relazione è non-(e1 C non-e2), e questa non equivale a e1 C e2 , che è la forma della seconda. Ma il codice evidentemente usa la nozione di causa in un senso diverso da quello strettamente fisico. Nelle prospettiva che abbiamo sostenuto il medico potrebbe dire: se io non fossi esistito nel periodo in cui avrei dovuto impedire l’evento in questione il paziente avrebbe comunque peggiorato le sue condizioni di salute, quindi io non posso essere causa di tale peggioramento. Ciò che il precetto del codice intende dire è verosimilmente un’altra cosa: e cioè che il medico, non avendo fatto ciò che era doveroso fare, è responsabile o corresponsabile dei danni che provengono dal mancato intervento. Ciò che viene omesso in questi casi infatti non è un’azione qualsiasi ma un’azione che avrebbe dovuto essere eseguita. L’equivalenza di cui si parla nell’articolo 40 è un’equivalenza morale, non un’equivalenza logica. C’è indubbiamente una certa simmetria tra l’omissione di azioni e l’omissione di eventi fisici. Se accendo il motore e la macchina non parte, dico che la macchina ha mancato di partire proprio perché mi sarei aspettato l’opposto: la macchina avrebbe dovuto partire oppure ci si aspettava che la macchina partisse (altrimenti detto: desta sorpresa il fatto che la macchina non parte). Quando un’auto sta ferma in un parcheggio, invece, non si ha certo l’abitudine conversazionale di dire che la macchina manca di partire: anche se dire questo è innegabilmente vero e chiunque può enunciarlo senza essere contraddetto. Lo stesso accade per le azioni: di solito si dice che un soggetto omette di aprire l’ombrello quando piove perchè ci si aspetta che faccia l’opposto, ma non si dice che omette di aprirlo quando c’è bel tempo, anche se a rigore non sarebbe scorretto fare questa asserzione. La simmetria non si riscontra però nell’omissione di tipo etico. Se manca l’obbligo - cioè la necessità non fisica ma deontica -di compiere una determinata azione, non è solo inusuale ma improprio parlare di responsabilità. A volte nella letteratura si incontra la nozione di causa responsabile, ma questo significa confondere due nozioni che stanno a livelli concettuali diversi, quello morale e quello fisico. Questa confusione è stata indubbiamente incoraggiata dal fatto che, come ha fatto vedere convincentemente Hans Kelsen, la nozione primitiva (antropomorfa) di causa è scaturita da quella di responsabilità, al punto che ancor oggi è comune esprimersi con frasi come “i gas di scarico delle auto sono responsabili dell’inquinamento armosferico” oppure “il buco di ozono è imputabile all’azione delle bombolette spray”. Per capire il punto bisogna osservare che le intuizioni causali e le intuizioni circa le responsabilità morali possono essere seriamente divergenti, almeno se si impiegano nozioni di causa non adeguatamente definite. A parte il caso delle omissioni, il caso della ridondanza causale ne è l’esempio più vistoso. Se due killers sparano simultaneamente a un uomo, l’intuizione morale dice che sono ambedue responsabili, mentre la teoria della condicio applicata senza correttivi non ci dà una risposta chiara, come abbiamo già visto a proposito della teoria di Lewis. Dobbiamo anche aggiungere che i due problemi più importanti emersi a carico della teoria controfattuale - quello della causalità omissiva e quello della ridondanza - possono sommarsi: potremmo avere infatti casi di ridondanza in cui uno degli antecedenti causali è un evento omissivo. E’ conveniente ai fini classifiteorici intendere le azioni omissive come una sottoclasse degli eventi omissivi. Rispetto ad altri tipi di eventi, le azioni sono caratterizzate dalla volontarietà. Per usare le parole di Wright, “Un’azione è semplicemente un movimento fisico volontario oppure l’uso volontario di qualche parte del corpo; mentre un’omissione è la volontaria mancanza di movimento o di uso di qualche parte del corpo in modo specifico”. Naturalmente si può discutere sul fatto se certi fenomeni, come il latrato di un cane o certi riflessi condizionati, siano a no azioni nel senso descritto. Ciò che interessa ai nostri fini è che le azioni sono Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. comunque una sottoclasse degli eventi, e quindi sono trattabili come Kim-eventi e soggette alla stessa trattazione sul piano delle relazioni causali. Secondo quanto abbiamo visto, ipotizzare non-Oe , dove e è un evento, è un esercizio complesso che in effetti porta all’analisi di una disgiunzione. Ricordiamo che un evento nel senso qui definito è una tripla [P, a, t] dove P può essere anche un predicato negativo, per esempio “non bruciare”. Supponiamo dunque che Rossi ometta il soccorso ad una persona, Bianchi, che poi decede per le ferite qualche ora dopo. Supponiamo anche che, conoscendo le condizioni di contorno, non ci siano dubbi sul fatto che, se Rossi non avesse omesso il soccorso (quindi avesse soccorso Bianchi) Bianchi non sarebbe morto. Questo però non esaurisce quanto c’è da sapere per stabilire il nesso causale perché, come abbiamo già rilevato, c’è il problema della presenza, o dell’esistenza, del soggetto del Kim-evento (Rossi) nel momento in cui questo si è verificato. A meno che non sia stato proprio Rossi a ridurre in quello stato Bianchi, bisogna concludere che l’omissione suddetta non è a rigore causa di morte, perché è lecito dire: ”se Rossi non fosse esistito in quel momento Bianchi sarebbe morto ugualmente”. A sostegno di questa conclusione si osservi, tra l’altro, che in certi casi le condizioni di contorno potrebbero essere state molto diverse da quelle che si immaginano come normali: per esempio, si può immaginare una situazione in cui Rossi si trovava a pochi metri da una squadra inviata dalla Croce Verde a salvare la vita dell’incidentato, per cui Rossi per difendersi potrebbe anche aggiungere che la Croce Verde poteva - anzi doveva- intervenire, anche se poi per qualche ragione non lo ha fatto. Come abbiamo già in parte notato, dunque, tra causazione e responsabilità c’è una differenza logica. Può esserci causazione senza responsabilità e responsabilità senza causazione. Se Rossi era in condizioni di soccorrere Bianchi e non lo ha fatto, indipendentemente dal fatto che fosse in grado di prevedere o no l’esito della sua azione, tale azione era in ogni caso doverosa: ragione per cui se Bianchi decede, Rossi è responsabile di questo evento purchè si provi che, se avesse soccorso Bianchi, Bianchi non sarebbe morto. Il caso è strutturalmente uguale a quello in cui, poniamo, Rossi vende una dose di eroina a Bianchi, Bianchi muore e si stabilisce che se Rossi non avesse venduto l’eroina a Bianchi Bianchi non sarebbe morto. Qui non solo Rossi è un fattore causale della morte di Bianchi ma ne è anche responsabile, perchè è proibito dalla legge vendere eroina. Come si sa, nella legge italiana esistono due tipi di reati omissivi: propri, che si configurano come il mancato compimento di un'azione imposta dalla norma penale; impropri, che si configurano come reati omissivi propri che comportano un danno materiale. L’omissione di soccorso è un reato omissivo improprio. L’azione di soccorso nei confronti di chi ne ha oggettivamente bisogno è doverosa anche se, per ipotesi, altri soggetti fossero stati in condizione di prestare soccorso in quella stessa circostanza. In una situazione che diremmo di ridondanza di responsabilità, simile ma diversa da quella della ridondanza causale, nessuno è esonerato dalle sue responsabilità semplicemente perché altri avrebbero potuto agire al suo posto. Possiamo aggiungere che la responsabilità sommata alla relazione causale appare moralmente più grave della responsabilità senza relazione causale, quale è normalmente presente nella responsabilità omissiva. La teoria sopra esposta quindi consente di giustificare una gradazione tra responsabilità. Si può anche ipotizzare che, data l’importanza del nesso causale, la legge esige un alto grado di rigore nell’accertare che il soccorso avrebbe, in quelle condizioni, portato un reale vantaggio al soggetto danneggiato Una recente sentenza della Cassazione riguardante la verifica del nesso di causalità e dell’attribuzione di responsabilità ha affermato il principio che“nel reato colposo omissivo improprio il rapporto di causalità tra omissione ed evento non può ritenersi sussistente sulla base del solo coefficiente di probabilità statistica, ma deve essere verificato alla stregua di un giudizio di alta probabilità logica, sicché esso è configurabile solo se si accerti che, ipotizzandosi come avvenuta l’azione che sarebbe stata doverosa ed esclusa l’interferenza di decorsi causali alternativi, l’evento, con elevato grado di credibilità razionale, non avrebbe avuto luogo ovvero avrebbe avuto luogo in epoca significativamente Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. posteriore o con minore intensità lesiva” (Cass. pen., sez. IV, sent. 20 settembre 2007, n. 35115, Franzese). La sentenza rigaurda i reati omissivi impropri.C’è solo da aggiungere che nei casi di causalità nonomissiva la dissociazione tra responsabilità e causalità non prende forme evidenti. Se un automobilista ubriaco passa con il rosso e uccide un passante è a tutti gli effetti causa della morte di questo (la vittima non sarebbe morta sel’automobilista non fosse stato ubriaco, e a fortiori se non fosse esistito in quel momento); è inoltre anche responsabile della morte di questo, stante che per lui era doveroso non guidare in stato di ubriachezza e non passare con il rosso. La considerazione della volontarietà dell’ azione e delle intenzioni che la guidano fa parte di una sfera di considerazioni diverse miranti a stabilire non tanto la sua responsabilità del soggetto ma il tipo di reato per il quale deve essere giudicato colpevole: un omicidio può essere volontario o colposo, ma chi lo causa ne è responsabile, in quanto è vietato dalla legge. La tesi secondo cui causalità e responsabilità sono concetti indipendenti non è una novità filosofica. Alcuni filosofi si tracciano la distinzione richiamandosi alla prevedibilità del danno. Citando dalla letteratura anglosassone (Copi-Cohen, Introduzione alla logica 1961) : “nei casi di presunta negligenza una persona può essere ritenuta responsabile se,in condizioni normali, avrebbe dovuto essere in grado di prevedere che il suo atto sarebbe stato decisivo nel provocare l’offesa”(trad.it.Il Mulino, Bologna,1997, p.622). Il difetto di questa tesi è che lega la responsabilità alla capacità soggttiva di prevedere. Ci sono soggetti ( che in buon italiano si dicono persone irresponsabili) i quali hanno una ridotta capacità di prevedere le conseguenze delle proprie azioni ; ma non si può pensare che la legge debba trattarli in modo differente da soggetti di normale intelligenza solo per le loro ridotte capacità mentali. Si guardi invece a questa semplice riflessione di David Aronovitch, che tre anni or sono sul Times scriveva:“Responsabilità e causazione non sono la stessa cosa. Per esempio, se io ti faccio cadere sulla strada, tu sei causa della caduta di un ciclista dalla sua bici; se tu non fossi stato lì, lui non sarebbe caduto. Ma tu non sei responsabile della sua caduta. E io sospetto che sia possibile che si dia responsabilità senza causazione. Nei tradizionali plotoni di esecuzione, solo un membro del plotone riceve un una cartuccia a salve, mentre gli altri ricevono cartucce vere, senza che nessuno sappia chi ha la cartuccia vera. Pertanto non sapremmo dire chi ha causato la morte del condannato. Ma, ragionevolmente, potremmo ritenere responsabile della morte di questo un volontario che chiedesse di partecipare all’esecuzione”. Qui per distinguere tra causazione e responsabilità l’accento viene messo sulla volontarietà dell’azione, anziché sulla doverosità della stessa, diversamente da quanto abbiamo sostenuto nelle pagine precedenti. Sulla tesi di Aronovitch ci sarebbe molto da discutere: se il volontario del plotone di esecuzione è ammesso a prendere parte alla fucilazione è chiara la sua intenzione di uccidere in qual particolare momento, ma diremmo che è responsabile della morte del condannato? La rilevanza causale del suo sparo per la morte del condannato può essere positiva o nulla a seconda del tipo di cartuccia che si trovava in canna, ma secondo il punto di vista qui sostenuto in ogni caso la sua responsabilità è nulla perché non ha commesso nessuna trasgressione. Infatti il suo obbligo in quanto membro del plotone è quello di premere il grilletto insieme agli altri fucilieri, non di astenersi da questa azione. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 11. Il relativismo e il problema della ricostruzione dei fatti. Il mito dei “duri fatti” è apparso, nell’epistemologia cosiddetta “postpositivista”, una delle eredità negative del positivismo dell’800. Ma già prima della seconda guerra mondiale sporadiche voci si opponevano a queste certezze. Nel 1935 appariva un libro originariamente misconosciuto, “Genesi e sviluppo di un fatto scientifico” (1935) scritto da un microbiologo ebreo polacco, Ludwig Fleck, in cui l' autore metteva a fuoco storicamente, sotto l’influenza di Scheler, Weber e Mannheim, le ricerche sulla sifilide e la scoperta della reazione Wassermann in una chiave molto lontana da quella suggerita dall'ortodossia positivista e neopositivista. Nel libro l’accento viene posto sul carattere sociale e collettivo della ricerca scientifica, svalorizzando il ruolo del singolo ricercatore nella misura in cui questo non può non essere condizionato da un modo di pensare, che Fleck chiama “stile di pensiero”(Denkstil) che dipende da una comunità o “collettivo di pensiero”. Le idee di Fleck rimasero praticamente sconosciute, almeno finché non furono in parte riscoperte (nonché adottate e adattate) dal filosofo della scienza americano Thomas Kuhn – in realtà uno storico delle idee con interessi filosofici - autore di La struttura delle rivoluzioni scientifiche (1962). Il testo di Kuhn in effetti nasceva dal convergere di una pluralità di influenze, tra cui quella di Quine, del linguista B.L.Whorf e del filosofo Michael Polanyi. Va anche detto che il successo del saggio di Kuhn ha oscurato un testo filosoficamente più significativo apparso qualche anno prima, “Modelli della scoperta scientifica” di N.R.Hanson. Alle spalle di Hanson è evidente l’influenza del secondo Wittgenstein e della teoria del significato come uso, con cui si nega che il significato dei termini dipenda da un rapporto descrittivo con il mondo (teoria corrispondentista della verità). In realtà all’epoca del Circolo di Vienna la c.d. "polemica sui protocolli" aveva già in parte anticipato le difficoltà del punto di vista tradizionale secondo cui le proposizioni rappresentano i fatti allo stesso modo in cui una fotografia rappresenta un frammento di mondo. I protocolli sono registrazioni di sensazioni elementari che dovrebbero essere la base si cui poggia l’edificio della scienza. La posizione di Otto Neurath era che in ultima istanza la scelta era sempre tra proposizioni, in quanto il rapporto tra proposizioni e il cosiddetto mondo esterno non può essere a rigore un rapporto né di concordanza né di incompatibilità. La scienza veniva paragonata ad una nave che non tocca mai terra e deve riparare le proprie falle ricorrendo al suo stesso materiale. Secondo Neurath l’unico criterio per la validità di una teoria scientifica è la coerenza interna della costruzione (coerentismo),mentre Popper evidenzia il loro lato convenzionale degli asserti-base, cioè delle proposizioni che servono a controllare le ipotesi: essi sono scelti in base ad una decisione metodologica della comunità scientifica. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. In ambedue i casi si nega l’esistenza dei duri fatti come elementi basilari del mondo, e si teorizza che in realtà si opera sempre con dati linguistici. Questi però hanno inevitabilmente un rapporto con il tipo di linguaggio impiegato, con le teorie presupposte e con i pregiudizi ambientali, e quindi perde senso l’idea di parlare di fatti neutri oggettivi, o della cosiddetta evidenza . Alla luce delle considerazioni precedenti diventa comprensibile come negli anni '60 -'70 si sia operato il rovescimento del rapporto tra fatti e teorie. Mentre per i neopositivisti i fatti entravano a costituire le teorie, la nuova concezione impone di dire che sono le teorie a costituire i fatti. Kuhn chiama paradigma l’insieme dei preconcetti, dei modi di vedere e di pensare, condivisi in una certa epoca storica da una comunità scientifica nella fase diella cosiddetta scienza normale, in cui gli scienziati operano sui tranquilli binari fissati dai manuali. Quando i paradigmi entrano in crisi si entra in una fase rivoluzionaria, al termine della quale emerge un paradigma alternativo, che impone un nuovo modo di vedere e quindi modifica l’insieme di fatti che stanno alla base del precedente paradigma. Il “vedere carico di teoria” è esemplificato da Hanson immaginando che un tolemaico e un copernicano assistano a un tramonto sul mare. Anche se in un certo senso i due vedono la stessa cosa(perché la stimolazione retinica è la stessa) , il resoconto linguistico che daranno di ciò che vedono è diverso. Uno dirà che il sole si è abbassato, l’altro dirà che l’orizzonte si è alzato. Il sole del copernicano non è lo stesso sole dell’aristotelico: all’interno del paradigma tolemaico il sole è un oggetto per sua natura mobile, mentre nel primo paradigma è un oggetto per sua natura immobile. Il tramonto del sole appartiene alla categoria di quelli che si chiamavano “duri fatti” : essi sono più o meno coincidenti con quelli che abbiamo chiamato Kim eventi elementari , la cui forma, come sappiamo , è [a,P,t]. Kim accompagna la sua teoria con un criterio di identità per eventi che è questo: un evento [P,a,t] è identico a un altro [Q,b,t’] se e solo se P=Q, a=b, t=t’. Quindi se sono differenti i predicati che intervengono nei due eventi sono diversi gli eventi stessi. Questo crea una proliferazione sicuramente imopportuna di eventi. “Rossi guidava l’auto alle 20.30 di ieri alla Bicocca” è diverso da “Rossi guidava l’auto alle 20.30 di ieri ubriaco alla Bicocca” , anche se intuitivamente si riferiscono allo stesso evento. I Kim-eventi che li contengono sono dunque diversi, anche se intuitivamente sono solo una specificazione uno dell’altro. Ricorrendo alla venerabile distinzione tra connotazione e denotazione si può dire che le due descrizioni denotano lo stesso evento ma lo connotano in modo diverso. Questa distinzione si applica di solito a corpi tridimensionali e non a eventi. Posso connotare Cesare come “il conquistatore delle Gallie”(a) o il “massacratore delle Gallie”(a’) , con una notevole variazione di significato. Se a=a’ in questo caso il Kim-evento [a,P,t] è uguale al Kim-evento [a’,P,t]. In tal caso l’identità tra a e a’ stabilisce un’identità tra Kim-eventi, che però potrebbero essere in certi contesti usati con valori diversi. L’importanza di queste distinzioni emerge quando dai cosiddetti “hard facts” si passa ai “soft facts”, cioè i fatti morbidi, con un alto grado di dipendenza contestuale e linguistica. Per semplificare, diremo che i fatti morbidi sono in genere fatti relazionali, e cioè fatti che sono correlazioni tra Kim-eventi atomici. Esempio : il fatto a ha preceduto il fatto b, il fatto a ha causato il fatto b, il fatto a è inferibile dal fatto b eccetera. Quanto alle leggi di natura, i veteropositivisti li vedevano come “megafatti” che erano oggetto di scoperta, non di costruzione, e costituivano quindi non i mattoni ma le travi portanti dell’edificio scientifico. Questa immagine delle leggi e delle teorie cominciò a dissolversi con l’irruzione della statistica nella fisica (si pensi alle leggi dei gas) e scomparve definitivamente con la meccanica quantistica, le cui leggi enunciati correlazioni anche per basse probabilità. Abbiamo già visto che il fattore linguistico-connotativo (che per semplicità chiameremo fattore intensionale) entra in gioco nella identificazione dei Kim-eventi. Questa dipendenza ovviamente Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. aumenta quando si passa a fatti relazionali, cioè a relazioni tra Kim-eventi. Per cominciare, la relazione causale tra Kim-eventi non ha lo stesso grado di evidenza che è presente nella relazione "prima-dopo". Ci sono diverse teorie della causalità, e adottarne una – per esempio la teoria della condicio – già significa introdurre una certa forma di relativizzazione. Secondariamente, a parte la scelta teorica circa la natura della relazione causale, il fattore intensionale può introdurre una distorsione nell’accertamento dei nessi causali. Il caso della vittima uccisa simultaneamente da due killers si presta ad esemplificare il caso. Se nel Kim-evento che è effetto usiamo la descrizione [a, Morto con due proiettili in corpo, t] allora si stabilisce la corretta relazione causale: Se Tizio non avesse sparato a non sarebbe morto con due proiettili in corpo , e idem dicasi per Caio. Questa costruzione sembra seguire dal criterio della massima specificità introdotto da Hempel per la spiegazione, nonchè da un criterio generale che è certamente condivisibile: (I)Si introduca il massimo di informazione rilevante per la soluzione del problema a cui è finalizzata la ricerca. Ma, come abbiamo già visto, il connotare in modo più specifico l’evento- effetto può non funzionare in tutti i casi di sovradeterminazione. Ciò che infatti fa inceppare il metodo non è il modo insufficiente in cui si descrivono gli eventi ma un'idea troppo limitata dei controfottuali che entrano in gioco. Più esattamente: se le descrizioni diverse di uno stesso evento danno origine a distorsioni nell’accertamento delle cause, vuol dire che per essere accettabile una buona teoria controfattuale della causa ha il compito di minimizzare il peso del fattore intensionale, fino a renderlo inoperante. Se è vero che l’accertamento delle cause è relativo al tipo di connotazione operato, e questo , a sua volta, relativo alle teorie o ai pradigmi, si può sostenere che una teoria adeguata della causa si può valutare come positiva nella misura in cui tende ad annullare il peso del fattore intensionale, realizzando così un tipo particolare di derelativizzazione. Abbiamo visto molte volte che l’aumento di informazione può aiutare a eliminare l’indeterminazione e il peso di altri tipi di relativizzazione. A commento della massima (I) si può dire che bisogna evitare due scogli opposti: il primo naturalmente è l’omissione di informazione, o selettività arbitraria, che fa incorrere nel rischio di travisamento dei fatti. Ma c’è anche il rischio opposto: l’eccesso di informazione irrilevante può creare serie difficoltà nella risposta a un problema, come chiunque può sperimentare facendo una ricerca in Internet con un motore di ricerca che ci costringe a considerare centinaia di dati per lo più irrilevanti. Rilevanza informativa e semplicità sono due grandezze interconnesse, al punto che filosofi come Elliott Sober hanno proposto l’ identificazione tra semplicità e informatività. Che significa ricostruire un fatto o una serie di fatti? Significa pervenire alla formulazione (di solito in forma narrativa) di un enunciato complesso che ottimizzi semplicità e quantità di informazione nel rispondere alla domanda “che cosa è accaduto nel luogo a durante l’intervallo t’-t”?” Ricostruire una serie di fatti non è lo stesso che spiegarli o comprenderli. Per chiarire questo punto riprendiamo la tradizionale distinzione tra fatti riproducibili e non riproducibili. I primi sono quelli che entrano in gioco nelle cosiddette scienze sperimentali, in cui le leggi connettono fatti che sono normalmente oggetto di esperimento. Le leggi naturali connettono fatti che o sono umanamente riproducibili o, ricorrendo a una metafora, sono riproducibili dalla natura. Le cosiddette scienze “idiografiche” hanno a che fare con fatti irripetibili,e quindi a fortiori non riproducibili. La ricostruzione dei fatti nel problem solving giudiziario da questo punto di vista è assimilabile alla trattazione dei fatti nelle scienze idiografiche, e in particolare nella storiografia. Quali sono le differenze tra ricostruzione storiografica dei fatti e ricostruzione giudiziaria? Le differenze in prima approssimazione sembrano queste: 1) lo storico è impegnato nella ricerca su un frammento di realtà passata che lui stesso ha prescelto; 2) la ricerca storica è illimitatamente aperta alla revisione, mentre lo scopo del processo è quello di porre un termine alle ricerche ottenendo una Generated by Foxit PDF Creator © Foxit Software Edited by Foxit Reader http://www.foxitsoftware.com evaluation only. Copyright(C) by Foxit SoftwareFor Company,2005-2008 For Evaluation Only. ricostruzione fattuale che si propone di essere definitiva; 3) nel lavoro dello storico la selezione dei dati di partenza è largamente arbitraria in quanto spesso non è orientata da una domanda precisa a cui la ricostruzione è finalizzata; 4) la metodologia dello storico è “libera”, mentre quella del giudice è vincolata da regole procedurali. Nessuna di queste differenze è tale da nascondere le profonde affinità di obiettivi e di metodo. Vediamo dunque cosa si può imparare dalla più importante opera dedicata alla metodologia storica, il ponderoso lavoro di J.Topolski “Metodologia della ricerca storica”. Prima di tutto Topolski distingue tra il fatto come “ciò che è realmente accaduto” e la sua ricostruzione storiografica”, che sarebbe meglio chiamare “fatto storiografico”. L’idea di Topolski, influenzata dal materialismo dialettico, chiede che la ricerca storica crei una continua approssimazione del fatto storiografico alla cosiddetta verità. Non viene menzionato un criterio di razionalità suggerito sopra, cioè che l’esposizione del fatto deve rispondere al requisito di esporre il massimo di informazione in forma non-ridondante e semplice. In ambedue i tipi di indagini, comunque, è essenziale il ruolo delle ipotesi. In storiografia si parte da domande di spiegazione (perché?) e domande fattografiche (che cosa è accaduto?) e si avanzano delle risposte che sono le ipotesi da cui si parte. Analogamente accade nei processi, dove il capo d’accusa è considerato un’ipotesi da sottoporre a controllo. Per il controllo dell’ipotesi lo storiografo userà le fonti, il giudice le testimonianze e i reperti, ma la procedura è analoga.SecondoTopolski nella verifica delle ipotesi si distingue tra metodo diretto e metodo indiretto. Metodo diretto. Se le fonti parlano direttamente del fatto su cui ci si interroga, si adotta un preciso principio che è il seguente: “Se la fonte è autentica e le informazioni credibili, allora i fatti dei quali queste informazioni parlano sono realmente o molto probabilmente avvenuti”. La conclusione che i fatti sono avvenuti si può quindi ottenere come conclusione di un'inferenza ampliativa (abduttiva, induttiva, controfattuale) e ciascuno di questi fatti può essere considerato indubitabile e immagazzinato nello stock di informazione accettata. Metodo indiretto. Ci sono due livelli di analisi. Il primo verte sull’autenticità della fonte e sulla credibilità dell’informazione che verte sui datti A1...An, quindi consiste nell’applicazione del metodo diretto. Il secondo è la verifica dell’ipotesi H valutando A1…An come possibili consegeunze di H . Se queste si sono veramente verificate allora H si può considerare eventualmente una buona spiegazione delle conseguenze. Come sappiamo, la spiegazione non è necessariamente una spiegazione causale: la correlazione potrebbe essere statistica o indiziaria. L’importante è che il ragionamento sia ottenuto applicando forme di inferenza razionale, cioè –come abbiamo visto – forme di inferenza che conservano il massimo di informazione disponibile. Questo è quanto propone Topolski. La differenza con quanto sostenuto nelle pagine precedenti è che H non va valutata in stato di isolamento ma insieme a un insieme di ipotesi alternative esaustive e disgiunte H2…Hn . La ricerca di informazione ha lo scopo di raggiungere una risposta determinata, il che consiste nell’ eliminare la disgiunzione delle ipotesi fino a restare con un’ipotesi vincente . Abbiamo sottolineato che il risultato della procedura, che può essere anche foriera di errori, va confermata da una controprova- che va conseguita su basi indipendenti da quelle impiegate nella procedura stessa. Va notato che gli epistemologi che aderiscono ad una teoria coerentista della verità (come Nicholas Rescher, che riprende l’orientamento già citato di Neurath), secondo i quali la verità di una proposizione consiste nella sua coerenza con la conoscenza acquisita, preferiscono adottare un metodo diverso, anche se ovviamente in alcuni casi può produrre gli stessi risultati di quello qui esposto. Secondo i coerentisti si parte non da informazioni certe ma da dati, con o senza pedigree, che sono pertinenti per una certa ipotesi H. Si accerta poi la loro coerenza interna e in molti casi può accadere che tali dati (p.es. testimonianze) risultano contraddittorie tra loro. Nell’ insieme dei dati si scelgono allora dei sottoinsiemi coerenti. Si accerta quindi la “plausibilità” di tali sottoinsiemi con lo scopo di Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. scegliere l'insieme "più plausibile". I criteri per determinare tale plausibilità non vengono tuttavia fissati univocamente : in particolare non si invoca il ricorso alla corrispondenza con la cosiddetta realtà, che viene considerato filosoficamente spurio . Rescher elenca vari possibili criteri di plausibilità, uno dei quali è il criterio dell’utilità pragmatica. Ma è chiaro che l’adozione di tale criterio può portare a risultati che non solo solo arbitrari, ma conformi agli interessi più o meno nobili di chi compie la selezione. Questo in particolare può verificarsi quando si è di fronte a due insiemi coerenti di dati equiplausibili, la scelta tra i quali verrebbe a dipendere dall’arbitrio del giudice. Dovrebbe essere chiaro come il coerentismo apra uno spiraglio all'idealismo soggettivo. Il metodo soggettivista-bayesiano esposto nei primi capitoli è un metodo classificabile come coerentista, una volta che si espliciti la peculiare nozione di coerenza intesa nel quadro del soggettivismo probabilistico.. Nella diversa prospettiva suggerita in queste lezioni invece la ricerca non può prescindere da uno stock di elementi di informazione rilevanti per gli obiettivi della ricerca stessa, che sia ovviamente coerente (e tale deve essere perché i suoi elementi sono selezionati per aver superato un livello di soglia prefissato) e tendenzialmente completo (nel senso che è allo stato attuale della conoscenza è la migliore approssimazione a una completezza ideale). Tali elementi di informazione non possono essere rimessi in discussione nel corso dell'indagine e non possono essere cancellati solo perché incompatibili con una o più delle ipotesi testate. Se un’ipotesi è accettata in base a questo tipo di evidenza dopo essere stata confrontata con ipotesi rivali, la sua validità va considerata assoluta rispetto al'evidenza in questione: anche se in linea di principio rivedibile una volta che il sostegno informativo fosse esteso con nuovi elementi. In tema di ricostruzione dei fatti, dovranno quindi essere confrontate tra loro diverse ricostruzioni ipotetiche , procedendo poi all’ identificazione della migliore delle ipotesi ricostruttive. Nei casi non infrequenti di parità tra una ipotesi H ' e una H'' viene escluso il ricorso all’arbitrio del giudice: o si accetta la conclusione disgiuntiva H' o H'' –il che equivale alla rinuncia a risolvere il problema- o si ricorre a un’estensione della base informativa per risolvere il caso di parità . Questo modo di procedere appare conforme alla prassi con cui nei tribunali veniva applicata la formula Non liquet in virtù della quale, nei casi in cui la ricostruzione dei fatti si fosse presentata incerta, il giudice chiedeva un supplemento di istruttoria. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. LEZIONE 12. La scientificità come oggetto di prova. Nel momento il cui il giudice deve scegliere un perito o un collegio di periti, deve affrontare il problema di scegliere periti che non solo siano affidabili, ma competenti in discipline qualificabili come scientifiche. Per questo il giudice ha il problema di applicare criteri affidabili di scientificità. Come vedremo, però, in alcuni casi la scientificità non interessa il giudice per guidare le sue scelte, ma diventa essa stessa oggetto di controversia giudiziaria. In ambedue i casi è inevitabile un ricorso non alla scienza ma alla riflessione sulla scienza, cioè all’epistemologia. Si può presentare il nucleo della filosofia della scienza come il tentativo di rispondere alla domanda circa la demarcazione tra scienza e non-scienza. Autorevoli filosofi come Larry Laudan hanno messo in dubbio la possibilità di questa demarcazione. Ma essere scettici sulla possibilità della demarcazione significa essere scettici sulla stessa filosofia della scienza e forse sulla stessa scienza. Come è noto, è stato soprattutto Popper il filosofo che ha dato centralità a questo tema, guidato sicuramente da un certo gusto per la provocazione. La questione sollevata da Popper è stata spesso confusa con altre questioni diverse, anche se apparentate, discusse dai filosofi. Anche i neopositivisti del Circolo di Vienna si ponevano un problema di demarcazione, ma era il problema della demarcazione tra senso e non senso. Nella visione dei neopositivisti la classe di enunciati classificati come sensati coincideva con la scienza stessa. Nel dominio dell’insensato finivano così, a pari merito, la metafisica, i sistemi normativi, le valutazioni estetiche e morali, le esclamazioni dettate da emozioni occasionali. Sull’ identificazione tra scienza e sensatezza operata dai neopositivisti si è appuntata con successo la critica di Popper. Sono pochi ora a pensare che si ottenga qualche vantaggio negando sensatezza alla metafisica o al linguaggio normativo. Scienza e metafisica sono più intrecciate di quanto gli scienziati amino credere (c’ è sicuramente una metafisica rilevante per la scienza, come è stata a suo tempo quella di Aristotele); e, quanto alla sensatezza delle norme, senza scomodare il diritto basta osservare che la scienza fa largo impiego di regole inferenziali o procedurali che, pur essendo norme, sono pienamente sensate in contesto scientifico. Il cosiddetto principio di verificabilità, o criterio empirico di significanza, originariamente enunciato dai neopositivisti come criterio di sensatezza, ha fatto poca strada. Come si sa, la sua prima formulazione consisteva nel dire che un enunciato è sensato se e solo se è verificabile conclusivamente in linea di principio. Dato però che le leggi di natura, espresse da enunciati infinitari, sono inverificabili anche in linea di principio, dovrebbero finire nel calderone del non significante in compagnia della non-scienza, il che è ovviamente assurdo. Si sa che il criterio è stato riveduto e corretto in vari modi, il più raffinato dei quali era il criterio della conferma probabilistica. Ma gli esiti sono comunque dubbi, considerando che il probabilismo non può sfuggire a conclusioni imbarazzanti, come il fatto che le leggi ricevono probabilità uguale a 0 (nel continuo carnapiano dei metodi induttivi) e comunque molto bassa con i metodi induttivi della scuola di Hintikka. Prima di discutere il problema della demarcazione tra scienza e non-scienza è bene comunque Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. sottolineare che vi sono altri problemi di demarcazione che dovrebbero interessare l’epistemologo. Un interessante e poco studiato problema di demarcazione è quello tra scienza ed arte, e in subordine quello tra scienza e letteratura. I dialoghi di Galileo sono un’opera d’arte o un’opera scientifica? I disegni di Leonardo sono opere scientifiche o opere artistiche? La storiografia è arte o scienza ? Se rispondiamo che sono ambedue le cose tocchiamo con mano che forse la distinzione tra arte e scienza non è chiara come si vorrebbe. Un’altra distinzione su cui ci si trova a discutere, soprattutto nell’ambito di scienze come la psicologia, è la demarcazione tra costruzione mentale paranoica e costruzione mentale razionale. La storia della scienza è piena di personalità paranoiche ma soprattutto lo è la pseudoscienza (si veda M.Gardner ,”Fads and Fallacies in the name of Science”) Faccio solo l’esempio di W. Reich, il teorico della rivoluzione sessuale, che aveva inventato una macchina per catturare l’energia orgonica e che negli anni ‘50 cercò di convincere il governo americano che i dischi volanti stavano tentando un’ invasione della terra. La discussione sulla demarcazione tra scienza e non-scienza farebbe un passo importante se fosse possibile distinguere la scienza da altri sistemi di pensiero che hanno pretese conoscitive come la filosofia, la religione e l’ideologia. La demarcazione tra scienza e ideologia merita una parentesi. L’ideologia ha delle affinità con la religione e con le costruzioni mentali paranoiche. Nel modo di pensare ideologico viene identificato un nemico numero uno, che ha lo stesso ruolo di Satana nelle religioni, e ci si pone come obiettivo primario la lotta contro tale nemico ( può essere l’ebraismo nell’ideologia nazista, le multinazionali in quella terzomondista ecc.). La lettura della realtà viene effettuata in funzione della lotta all’arcinemico. L’ homo ideologicus attua una selezione dei dati informativi, nel senso che prende in considerazione tutto ciò che può essere impiegato nella lotta al nemico, mentre viene cancellato o minimizzato tutto ciò che interferisce con il perseguimento degli obiettivi polemici. Il modo di pensare ideologico è, da questo punto di vista, un caso speciale di sistema di pensiero paranoico: ciò che conta è la conservazione delnucleo delirante e la coerenza interna del sistema, che viene di solito ottenuta con la rimozione dell’evidenza contraria (si pensi all’ hegeliano “tanto peggio per i fatti”). Questo risultato, incidentalmente, è uno dei possibili esiti dell’adesione alle cosiddette “teorie coerentiste della verità”, che trovano concordi vari sostenitori dell’idealismo, e non solo questi (si veda p.es. Neurath, che era un membro del Circolo di Vienna). Dobbiamo a Neurath la metafora della nave: la scienza è paragonata ad una nave che non può mai toccare terra ed è costretta a riparare le proprie falle ricorrendo ai materiali che si trovano a bordo. La metafora della nave ha qualche punto in comune con quella popperiana della scienza su palafitte. Le palafitte non toccano mai uno strato roccioso, ma possono essere spinte più a fondo, rendendo possibile un ampliamento e un consolidamento dell’intera struttura. Ma, a differenza di Neurath, Popper ammette, anzi esige, che le teorie superino dei controlli rigorosi miranti alla loro falsificazione. I popperiani hanno buon gioco a dire che la religione e l’ideologia sono costruzioni extrascientifiche perché non falsificabili: gli asserti che li costituiscono non sono refutabili da nessun controesempio perché questi sistemi di pensiero autorizzano sempre delle Va detto che anche i neopositivisti avevano dalla loro uno strumento metodologico efficace, che è il principio dell’evidenza totale. Nella scienza qualsiasi ipotesi, sia categorica che probabilistica, deve essere controllata esaminando tutta l’informazione disponibile. In una variante più debole ma più appl icabile, ogni ipotesi va controllata esaminando tutta l’informazione rilevante per l’ipotesi stessa, dove la rilevanza può essere positiva o negativa. Qui il divario tra scienza e ideologia risulta piuttosto chiaro: le “verità” ideologiche sono sostenute da un uso selettivo dell’informazione, che a volte si può spingere fino a negare l’evidenza diretta (come quando qualcuno arrivò a negare l’urto degli aerei contro le due torri l’11 settembre del 2001). Lo stesso principio dell’evidenza totale dovrebbe essere applicato, almeno in teoria, nelle corti di giustizia. Qui i giudici, nel valutare un’ipotesi di colpevolezza, dovrebbero in linea di principio tener conto di tutta l’informazione che può essere positivamente o negativamente rilevante perl’ipotesi. Ne Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. potremmo parlare come di criterio di non-selettività. La non-selettività si impone dunque come principio guida per tracciare una prima discriminante tra ciò che aspira legittimamente ad essere considerato scienza e ciò che non può avere questa pretesa. L’espressione “ciò che aspira ad essere considerato scienza” vuole render chiaro che non tutte le discipline insegnate nelle nostre facoltà con il nome di scienza, come le scienza motorie o le scienze teologiche, sono effettivamente scienze. Tanto meno qualcosa è scienza per avere nel proprio nome il suffisso “logia”, come la grafologia o ladietologia. Si può dire che alcune di queste, pur non essendo scienze, sono tuttavia discipline a carattere scientifico. La distinzione dovrebbe prendere il posto di quella, meno convincente, che spesso si fa tra scienze fisiche e scienze umano-sociali. Sarebbe facile tracciare che la distinzione tra discipline a carattere scientifico e altre discipline non scientifiche dicendo che chi opera nelle prime è dotato della cosiddetta mentalità scientifica. Ma questo da un lato sembra implicare una connotazione psicologica che purtroppo è difficile dettagliare, dall’altro sembra suggerire l’esistenza di un codice di comportamento scientifico (un’etica scientifica) che viene spesso invocato ma non è mai stato scritto. Un’idea che potrebbe sembrare plausibile sta nel dire che una disciplina è scientifica quando, anche in assenza di una teoria dominante condivisa e confermata, impiega dei metodi di accertamento che sono caratteristici dellescienze in senso pieno come la fisica e la biologia: per esempio metodi matematici, statistici, tecnologie avanzate di misura e di calcolo eccetera. Si noti però che anche l’astrologia, per fare un esempio banale, fa uso di metodi matematici, anche se è piuttosto chiaro che non può essere considerata né una scienza né una disciplina scientifica. Come aveva visto Popper, nell’ambito delle non-scienze le pseudo-scienze sono particolarmente insidiose, perché si presentano ai profani come scienze: si assicurano così il successo da un lato per l’innata tendenza umana alla credulità, dall’altro per l’ambiguità che si è venuta a creare sul concetto stesso di scienza, purtroppo imputabile alle oscillazioni che ha avuto l’epistemologia sul tema della demarcazione. Il riferimento all’astrologia è naturalmente un richiamo a Popper, che ne aveva fatto un esempio paradigmatico di pseudoscienza insieme a due altre discipline sempre citate insieme ad essa, la psicoanalisi (di Freud, ma anche di Adler e Jung) e l’economia marxista. Il metodologo Adolf Grünbaum ha contestato questa pretesa non- falsificabilità delle affermazioni freudiane, notando che più volte Freud è stato costretto a cambiare le sue teorie perché l’esperienza clinica le mostrava false. Per Grünbaum esiste un criterio più convincente per stabilire la scientificità della psicoanalisi, ed è quello del successo terapeutico. Per dimostrare la scientificità della psicoanalisi, dunque, bisognerebbe dimostrare 1) che essa riesce effettivamente a guarire le nevrosi e 2) che nessuna altra disciplina può farlo. Purtroppo, però, le cose non stanno così. Lo stesso Freud espresse qualche perplessità sulla possibilità di guarire effettivamente grazie all’analisi. D’altra parte, i sintomi delle nevrosi possono essere guariti anche con mezzi alternativi alla psicoanalisi, per cui nemmeno la seconda condizione sembra verificabile. Per Grünbaum non è giusto escludere a priori la scientificità della psicoanalisi; semplicemente, essa non è al momento confortata dai fatti. Per quanto Popper sia stato visto per diversi decenni come un positivista eretico, è abbastanza chiaro che la sua concezione ha un impianto diverso da quello che discende dal positivismo. In primo luogo i popperiani negano sia il ragionamento induttivo , sia l’esistenza di osservazioni neutre che, estrapolate induttivamente, stanno alla base della scienza. Secondariamente, se ciò che caratterizza la scienza è la falsificabilità, allora la scienza si distingue non per darci certezze poggianti sui fatti, ma al contrario per la sua fallibilità e per la sua rivedibilità perpetua. Negli anni ’50 l’attacco ai capisaldi del positivismo avviato da Popper è passato anche per vie diverse. E’ sufficiente citare la critica alla distinzione tra enunciati analitici e sintetici proposta da Quine già negli anni ‘40 e la critica alla distinzione tra enunciati osservativi e teorici, sostenuta da Sellars negli anni ‘50. L’ influenza più profonda dopo gli anni 40 è stata però quella del secondo Wittgenstein. Il secondo Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Wittgenstein ha proposto una concezione antropologica del linguaggio, per la quale l’unico criterio di significato non è offerto dalla corrispondenza con il mondo ma dalla presenza di regole d’uso condivise, anche se non necessariamente codificate. Per usare una sua frase famosa di Wittgenstein, “i limiti del mondo sono i limiti del linguaggio”. Indipendentemente da Wittgenstein, comunque, antropologi come Sapir e Whorf proponevano una forma estrema di relativismo, per il quale lingue naturali diverse, come per esempio l’inglese e l’esquimese, determinano diverse percezioni del mondo e, essendo tra loro intraducibili, determinano mondi inconfrontabili tra loro. Il passo compiuto da Hanson e poi da Kuhn con la cosiddetta “svolta relativistica” è stato una conseguenza di queste premesse. Dato che teorie scientifiche diverse impiegano regole d’uso diverse per termini acusticamente uguali come “luce”, “sole”, “spazio”, se ne conclude che ogni teoria scientifica, nel momento in cui condiziona il pensiero di una generazione di scienziati, determina una visione del mondo incommensurabile con le visioni che storicamente la precedono. Il passaggio da una teoria a un’altra, che Kuhn chiama mutamento di paradigma, è una rivoluzione scientifica, nel senso che propone un nuovo modo di vedere le cose, e con ciò modifica lo stesso insieme di dati osservativi che i positivisti mettevano a base della scienza. Esempio standard è quello della rivoluzione copernicana. Si nega quindi non solo l’effettiva applicazione del ragionamento induttivo, ma anche l’applicazione della falsificazione teorizzata da Popper. Dato che è il paradigma stesso che funziona come filtro per i dati empirici, non può essere falsificato da questi. Nella cosiddetta “nuova filosofia della scienza”, emersa negli anni 60, il requisito dell’evidenza totale è stato abbandonato come uno dei miti del positivismo, e condannato insieme ad altre idee considerati pregiudizi positivisti, come quello del progresso cumulativo della conoscenza, l’ideale della matematizzazione e dell’uso sistematico della logica simbolica. Se la scienza è una costruzione che non poggia sull’evidenza sperimentale ma si regge sul consenso, non è per sua struttura diversa da altre costruzioni umane che si reggono sul consenso, e in particolare alla religione e alle ideologie. Insieme alle classiche dicotomie tra analitico e sintetico, descrittivo e normativo, osservativo e teorico viene a cadere così anche la più antica e venerabile delle dicotomie, che è quella tra doxa ed episteme, cioè tra credenza e conoscenza. Il confine tra scienza e non-scienza, e quindi anche tra scienza e pseudo-scienza, diventava così labile che l’esponente più oltranzista di questa corrente, Paul Feyerabend, volle che una delle sue foto ufficiali avesse come sfondo lo zodiaco usato dagli astrologi. Con l’anarchismo di Feyerabend non solo si nega recisamente l’esistenza di un metodo scientifico, ma si afferma in positivo che “tutto va bene”: ciò che importa infatti è solo la libera competizione tra discipline, sistemi di pensiero e punti di vista diversi (fossero pure la fantascienza o la magia nera) senza farsi domande sulle loro credenziali di scientificità. In vista di questo obiettivo la metodologia normativa e la stessa riflessione sui confini della scienza diventa un ostacolo al progresso della conoscenza complessiva. Feyerabend va apprezzato per aver portato alle estreme conseguenze un modo di pensare che si presta a incoraggiare orientamenti che sono lontani dalla scienza o esplicitamente antiscientifici. La deregulation Feyerabendiana aveva fortuna, forse non a caso, negli stessi anni della deregulation reaganiana. Forse non a caso una volta Reagan se ne uscì con la splendida boutade: “i fatti sono stupidaggini”. Non è forse nemmeno un caso che a seguito dell’ondata postpositivista negli anni ‘80 si sia assistito al dilagare in Europa dell’ermeneutica, dell’heideggerismo, del pensiero di Nietzsche e, in Italia, del cosiddetto pensiero debole. Il decostruzionismo di Rorty negli Stati Uniti esemplificava in forma brillantemente anglosassone lo stesso orientamento. Questi sviluppi riguardano il pensiero filosofico. Nell’ambito delle scienze l’influenza del postpositivismo delle scienze avanzate è più difficile da valutare. In Europa, soprattutto tra gli economisti, ha avuto credito la cosiddetta metodologia dei programmi di ricerca di Lakatos, che ha proposto un “falsificazionismo sofisticato” che è una ragionevole mediazione tra la filosofia di Popper e quella di Kuhn. La metodologia di Lakatos è più descrittiva che Generated by Foxit PDF Creator © Foxit Software Edited by Foxit Reader http://www.foxitsoftware.com evaluation only. Copyright(C) by Foxit SoftwareFor Company,2005-2008 For Evaluation Only. normativa. Un programma di ricerca non viene abbandonato per una falsificazione singolare, ma solo quando, essendo incapace di progresso e carico di problemi irrisolti, viene spodestato da un nuovo programma di ricerca che è più ricco di contenuto, nel senso che è in grado di risolvere un più ampio numero di problemi. Viene così assicurata la razionalità dello sviluppo della scienza, che appariva perduta nella prospettiva kuhniana, spesso tacciata di irrazionalismo o di sociologismo. I dati osservativi nella concezione di Lakatos non hanno un ruolo di primo piano. Si insiste invece sulla razionalità del consenso, anche se la razionalità di cui parla Lakatos è una razionalità impersonale, di tipo hegeliano. Su questo terreno bisognerebbe anche ricordare contributi diversi da quello di Lakatos, poco studiati in Italia, come la teoria del consenso razionale di Lehrer-Wagner. In questa si mostra come una comunità di scienziati razionali può partire da assegnazioni probabilistiche soggettive a un certo enunciato h, ma correggere questa assegnazione iniziale ponderandola con il grado di fiducia nell’autorità e nella competenza di altri scienziati. Al proposito, si ricorda che Keith Lehrer e R.Wagner nel loro “Rational consensus in science and society” hanno proposto un modello probabilistico di discussione critica che dovrebbe essere valutato come una seria alternativa al soggettivismo. Siano Pr1(S)… Prn(S) i valori valori di probabilità che n esperti di un certo gruppo assegnano alla poposizione S dopo essersi scambiata tutta l’informazione disponibile. Ciascuno dei membri del gruppo ha un’idea dell’affidabilità del parere degli altri membri e assegna ad essi un determinato peso w , espresso da un numero reale tra 0 e 1 (grado di rispetto). Facendo una media ponderata della propria opinione originaria Pr(S) e del grado di rispetto ciascuno degli esperti arriva ad una seconda probabilità corretta Pr(S)’. Questa seconda distribuzione può essere di nuovo riaggiornata in base alle probabilità aggiornate degli altri,, e così via fino a quando si raggiunge un punto fisso, cioè una distribuzione che è insensibile ad altri aggiustamenti. La costruzione di Lehrer-Wagner - che, incidentalmente, non descrive l’unica strategia possibile di ponderazione delle probabilità- mostra come è possibile costruire una valutazione intersoggettiva che si può considerare razionale, o a fortiori ragionevole, partendo da assegnazioni puramente soggettive. In questo schema si mostra tramite un modello matematico come la progressiva correzione delle valutazioni probabilistiche iniziali porti a un valore unico, che è il risultato di una discussione critica e non di un consenso dovuto alla “persuasione” , alla retorica o a pressioni di ambienti politici o economici. L’idea di razionalità che viene qui sottinteso, in un certo senso, è quello di una razionalità procedurale. La razionalità del consenso, in altri termini, non dipende da qualche aggancio ai dati empirici ma dipende da una procedura che corregge le eventuali aberrazioni delle valutazioni individuali. Nel modello di Lehrer-Wagner il rispetto di quella che Galileo chiamava la “sensata esperienza” è sostituita dal rispetto per l’ autorità di altri ricercatori. Questo però è un larvato riconoscimento del ---------principio di autorità. Il principio di autorità, purtroppo, anche se ufficialmente riprovato,continua contiene ad operare di fatto nella scienza quotidiana, per esempio quando si tratta di affidare a un referee la scelta un articolo su una rivista internazionale o di promuovere un giovane ricercatore. Neppure la metodologia popperiana in realtà è in grado di eluderlo, stante che la falsificazione o mancata secondo Popper falsificazione delle ipotesi riposa su asserti-base che in ultima analisi dipendono da una decisione degli scienziati stessi. Eppure, come in fondo ha evidenziato lo stesso fallibilismo di Popper, grandi scienziati umanamente possono sbagliare, e anzi umanamente sbagliano, soprattutto quando non parlano ex cathedra. Basti ricordare, e non è una battuta, che lord Kelvin dichiarò solennemente nel 1895 che era impossibile per un corpo più pesante dell’aria levarsi in volo, e questo pochi anni prima che i fratelli Wright nel 1903 facessero volare il primo aereo a motore. Negli ultimi anni anche il peso del post-positivismo e di quella che è stata chiamata “la svolta relativistica” si è notevolmente ridimensionato. Filosofi della generazione più giovane come Bas van Fraassen e Clark Glymour non hanno esitato a dichiarare il loro debito verso il neo- empirismo, mentre Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. figure influenti come quella di Hilary Putnam hanno tentato una sintesi di sapore kantiano. Non si può neppure dire, però, che si sia verificato un ritorno a Carnap o al Circolo di Vienna, che appaiono irrimediabilmente remoti, anche se nessuno mette in discussione la loro grandezza. Il panorama attuale della filosofia della scienza, messa in ombra dall’emergere della scienza cognitiva, è piuttosto desolante, non tanto per la mancanza di forti personalità, quanto per la rinuncia a ridiscutere proprio i temi che hanno caratterizzato sin dall’origine la disciplina, tra cui anche quello della distinzione tra scienza e non-scienza. E’ positivo che una richiesta di riflessione sul tema della demarcazione provenga dall’ambiente giudiziario. In primo luogo, l’interesse del giudice naturalmente è quello di appoggiarsi all’operato di periti che abbiano credenziali scientifiche. Dato che l’obiettivo è la ricerca di un accertamento veridico dei fatti, è comprensibile che un criterio di verità basato sul consenso o sulla coerenza interna sia da molti considerato insufficiente. E’ comprensibile quindi che per questo motivo molti ritengono opportuno che le corti di giustizia tornino a ispirarsi alla vecchia concezione corrispondentista (aristotelica), secondo cui la verità è corrispondenza ai fatti. Su questa legittima aspirazione ad avere criteri solidi di verità bisogna fare alcune precisazioni. Nel veteropositivismo si partiva dall’idea che la scienza parte dalla scoperta dei fatti, e questi fatti sono scoperti allo stesso modo in cui vengono scoperte le tombe etrusche sotto uno strato di terra. Su questa immagine si appoggiava il mito positivistico degli “hard facts” o “duri fatti”, che dovevano essere i mattoni elementari con cui si costruisce l’edificio della scienza. In questa visione c’è indubbiamente una certa dose di ingenuità, non tanto nell’aspirazione alla scoperta quanto nel concetto stesso di fatto che viene presupposto. Cominciamo col dire che i fatti possono essere fatti semplici, di solito identificati con eventi atomici (come il fatto che ora piove), ma possano essere aggregati di fatti elementari, come p.es. “la partecipazione degli studenti della scuola x a una manifestazione pacifista ”. Secondariamente, ci sono fatti difficilmente riducibili a eventi, come per esempio il fatto “maggiore incidenza di casi di cancro nella fabbrica x rispetto alla media nazionale”. Qui entriamo, come già detto, nella sfera dei “soft facts”, cioè fatti con un certo grado di dipendenza dal linguaggio e dal contesto. Ma il relativismo nasconde un grosso equivoco. Una cosa è dire che la verità di un enunciato è relativa a un contesto o a un punto di vista, (cosa difficilmente contestabile) altro è dire che la derelativizzazione è un compito impossibile in linea di principio. Per fare un esempio banale, dire che la porta d’ingresso si trova sulla destra può essere vera per Tizio e falso per Caio, ma questo non significa che non si riesca a riformulare la stessa proposizione con enunciati derelativizzati che non dipendono dalla posizione di Tizio o di Caio. In particolare, se un enunciato, per esempio “la probabilità di Tizio di ammalarsi di diabete è 0,5” è vera rispetto a uno insieme di informazioni X , tale verità cessa di essere relativa una volta che venga resa esplicita questa relatività. Lo stesso vale per la ricostruzione dei fatti effettuata da un giudice. Una volta specificato che la ricostruzione è operata rispetto a uno insieme di informazioni acquisite X, tale verità cessa di essere relativa se si prova che il rapporto tra essa e l’insieme X è unico e incontrovertibile. L’interesse in tal modo si sposta sulle proprietà dell’insieme X, che naturalmente non può essere un qualsivoglia insieme. Se X è un campione statistico, sappiamo qual è la risposta che si dà nella metodologia statistica: il campione deve essere il più possibile ampio e randomizzato. Vorrei solo notare che il conseguimento della derelativizzazione obbedisce a un principio che Grice ha codificato tra le regole della conversazione: “Si introduca il massimo di informazione rilevante per le risposte a cui è finalizzata la ricerca”. Ci si accorgerà che questa è una variante del principio dell’evidenza totale a cui abbiamo accennato all’inizio. Senza entrare in dettagli complessi, si usa il concetto di informazione, anziché quello di dato empirico, intendendo per “elemento di informazione” un dato la cui certezza Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. supera la soglia del ragionevole dubbio e che pertanto non è lecito mettere in discussione (cioè è “indiscutibile”) nel corso di una certa indagine. Possiamo dire che tra gli obiettivi distintivi della scienza c’è l’incremento di informazione, perché solo l’incremento di informazione consente di risolvere problemi vecchi, di vedere problemi nuovi, e di eliminare il grado di incertezza e di errore presente in teorie deboli. Oltre al problema dei criteri di scientificità nella valutazione delle prove è degno di nota che la stessa scientificità può essere oggetto di discussione nei tribunali. Non si può non citare al proposito un caso storico esemplare in cui i tribunali hanno avuto a che fare con la questione della scientificità. Il riferimento è alla memorabile causa McLean v. Arkansas curata dal giudice Overton negli nni 90: oggetto del dibattito era la tesi creazionista del disegno intelligente, che era contrapposta alla tesi darwiniana e proposta per l’insegnamento nelle scuole superiori. Si noti che i creazionisti hanno usato (o abusato) del termine “scienza” chiamando la loro dottrina “scienza della creazione”. Il processo come è noto, si è concluso con la condanna della tesi creazionista e con il conseguente divieto dell’insegnamento di questa dottrina nelle scuole. La testimonianza del darwinista Michael Ruse è stata della massima importanza nel guidare le decisioni della corte . Ruse ha annoverato in varie sedi una serie di qualità che una teoria dovrebbe possedere per essere qualificata come scientifica: questo elenco nasce da una sintesi tra l’epistemologia popperiana e quella positivista (). Schematicamente, Ruse proponeva di considerare scientifica una teoria quando è a) consistente (non contraddittoria), internamente ed esternamente b) parsimoniosa, cioè propone entità o spiegazioni nella misura strettamente necessaria allo scopo, applicando il c.d. rasoio di Occam c) utile, in quanto descrive e spiega i fenomeni osservati d) provabile e falsificabile empiricamente e) basata su esperimenti ripetibili e controllabili f) correggibile e dinamica, in quanto deve essere possibile l’applicazione dei. cambiamenti alla luce di nuovi dati g) progressiva, in quanto una nuova teoria deve essere migliore delle teorie precedenti e nello stesso tempo spiegare quanto era spiegato da queste h) provvisoria, nel senso che non proclama certezze ma ammette la sua fallibilità. Secondo le opinioni degli esperti, la teoria del Disegno Intelligente (ID) mancherebbe di molte delle suddette proprietà: 1. manca di consistenza: l'ID è infatti basata sul presupposto che la complessità e improbabilità dell’evoluzione debbano implicare un progettista intelligente, ma nello stesso tempo asserisce che l'identità e le caratteristiche di tale progettista non possono, nè devono, essere identificate o quantificate (quindi si descrivono le proprietà di un soggetto le cui proprietà sono contestualmente dichiarate ignote) 2.viola il principio di parsimonia: la presenza di un progettista non è necessaria e dunque la sua introduzione rende l'ID non parsimoniosa; 3.non è utile: l’ ID non ha infatti capacità predittiva, cioè non consente di predire in anticipo il verificarsi di uno specifico fenomeno e i suoi dettagli date le condizioni iniziali; 4. non è falsificabile: il progettista viene infatti posto oltre il dominio dell'osservabile, ragione per cui le assunzioni circa la sua esistenza non possono essere avallate né confutate dall'osservazione; 5.non è correggibile, nè dinamica, provvisoria o progressiva: l´ÍD introduce un elemento, il progettista, di cui non si deve rendere conto, in quanto al di là dell'oggetto della scienza, e dunque la teoria non dovrebbe essere cambiata in nessun caso a seguito di nuove scoperte. Guardando a questa controversia in modo più distaccato, c’é da osservare che la teoria del Disegno Generated by Foxit PDF Creator © Foxit Software Edited by Foxit Reader http://www.foxitsoftware.com evaluation only. Copyright(C) by Foxit SoftwareFor Company,2005-2008 For Evaluation Only. Intelligente ha potuto prosperare perchè la teoria darwiniana si presentava a sua volta con diversi punti deboli, in parte riconosciuti inizialmente dallo stesso fondatore. Non va neppure dimenticato che per molto tempo Popper ha negato legittimità alla teoria darwiniana perché formulata in modo non falsificabile. Anche dopo il ripensamento di Popper su questo punto, resta il fatto che la teoria evoluzionista si presente dotata di potere esplicativo ma non di potere predittivo, e sotto questo aspetto non differisce molto dalla teoria del Disegno Intelligente. In effetti solo le correzioni apportate alla teoria di Darwin dai cosiddetti neodarwinisti, dai teorici della sintesi evolutiva (Dobzhansky, Mayr e Simpson) e da recenti sviluppi come la teoria dell’equilibrio punteggiato di Eldredge e Gould hanno dato alla teoria della selezione naturale una piena rispettabilità scientifica ( ). Larry Laudan ha opposto un commento negativo alla sentenza Overton, osservando che alcune delle ipotesi del creazionismo, come quelle circa i fossili e l’età della terra, sono controllabili, ma di fatto errate . Dunque la tesi ID sarebbe a suo giudizio un esempio di scienza “debole” ma non di pseudoscienza. Laudan in questa polemica esprime un orientamento postpositivista, diverso da quello più tradizionale di Ruse. La questione non è solo accademica ma ha dei risvolti pratici e politici rilevanti. Una pseudo-scienza non può essere oggetto di insegnamento nelle scuole, anche perchè creerebbe un precedente pericoloso, mentre presentare un’ ipotesi scientifica alternativa a quella dominante, anche se parzialmente screditata, potrebbero essere legittimo e addirittura didatticamente utile. Si può concludere osservando che nella lista di requisiti di scientificità sopra riportati manca una menzione al requisito dell’evidenza totale o a qualche sua variante, come quello che abbiamo chiamato criterio di non-selettività. Al proposito notiamo che il criterio di specificità massimale richiesto da Hempel a integrazione della teoria della spiegazione Statistico-Induttiva si può presentare come un’applicazione del principio di evidenza totale . Si noti un aspetto non secondario della questione: cioè che per formulare una descrizione massimamente specifica di un qualsiasi dato da spiegare occorre usare un linguaggio con alto grado di precisione e di esattezza (esattezza di cui, incidentalmente, non si fa cenno nell’elenco, come se non fosse uno dei caratteri distintivi del linguaggio scientifico). Una banale obiezione al requisito dell’evidenza totale è che il suo soddisfacimento è impossibile in linea di principio per qualsiasi agente umano o meccanico, stante che la descrizione della totalità dell`evidenza non si può concludere in un tempo finito. Ma critiche di questo tipo sono applicabili a qualsiasi tipo di idealizzazione: a parità di ragionamento, per esempio, non si potrebbe mai costruire un macchina di Turing perchè per definizione esige un nastro infinito. Allo stesso modo in cui si chiede sensatamente di raggiungere la certezza oltre ogni ragionevole dubbio, si può anche chiedere di raggiungere un’approssimazione ragionevolmente adeguata al requisito dell’evidenza totale e a quello di non-selettività. Trascuriamo pure il fatto che oggi sono disponibili metodi computerizzati che sono in grado di selezionare in tempi ragionevolmente brevi (a rischio sicuramente di errore) tutti gli elementi informativi pertinenti. Ciò che comunque è umanamente possibile è fissare un insieme finito di elementi infomativi K che abbia le seguenti caratteristiche: 1) si ha motivo di ritenere che ciò che è escluso da K non aumenti in maniera significativa l’informazione rilevante per il problema; 2) I motivi dell’esclusione vanno motivati; 3) Si evidenzia che il risultato dell’indagine non è assoluto ma relativo a K , con ciò intendendo che il risultato è rivedibile alla luce di eventuale nuova informazione che estende K ed è compatibile con K; 4) I casi di parità tra ipotesi diverse alla luce di K non autorizzano una scelta arbitraria tra le ipotesi. Tale scelta può essere autorizzata solo da ulteriori indagini che estendono K. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. Questi principi accomunano la procedura di accertamento scientifica e quella di accertamento giudiziario. Su un punto, però, si deve riscontrare una differenza. Un’ ipotesi scientifica può essere razionalmente condivisa anche a fronte di elementi informativi che sono dissonanti con l’ipotesi stessa. Le teorie , come diceva Lakatos, navigano in oceani di anomalie, e la razionalità consiste nell’accettare una certa ipotesi semplicemente perché, rebus sic stantibus, non potrebbe essere rimpiazzata da un’ipotesi migliore. Si noti comunque che c’è una grande differenza tra il nascondere o negare l’evidenza e sostenere una teoria ammettendo che alcune sue parti risultano debolmente provate, o addirittura incompatibili con l’evidenza disponibile (basta leggere Darwin per avere uno splendido esempio dell’onestà intellettuale che caratterizza il vero scienziato). Il giudice non può godere del privilegio di sostenere una tesi ammettendo che è in conflitto con una parte dei fatti noti. Il verdetto che è chiamato ad emettere non ha carattere dubitativo e nella motivazione della sentenza non dovrebbe comparire menzione di evidenza contraria. D’altro canto, se il verdetto è ottenuto cancellando evidenza, questo si può fare a prezzo di aprire la porta all’errore giudiziario e di screditare la reputazione dello stesso giudice.