Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il

Transcript

Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.
Claudio Pizzi
LEZIONI DI LOGICA DELLA PROVA
LEZIONE 1.
Il calcolo delle probabilità
Sembra che la nascita del calcolo delle probabilità sia stata in qualche misura favorita dalla
cosiddetta “piccola glaciazione”, un mutamento climatico verificatosi in un arco di tempo che va
dall'inizio del XIV secolo alla metà del XIX secolo. In questo periodo venne registrato un
raffreddamento del clima che raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il
1800. Non stupisce constatare che, nel periodo in cui grandi filosofi come Cartesio e Bacone
morivano per un’infreddatura, i pittori davano la preferenza a ritratti e situazioni ambientate in interni.
I nobili limitavano il tempo destinato alla caccia e alle attività all’aria aperta, dedicando una buona
parte del loro tempo alle letture e ai giochi di società. Questi ultimi erano frequentemente giochi
d’azzardo con uso dei dadi, come il gioco della barca o quello del tric-trac. Di solito si fa risalire la
prima trattazione della probabilità a un libro di Girolamo Cardano dedicato al gioco d’azzardo, il Liber
de ludo aleae (scritto nel 1560, ma pubblicato solo nel 1663) che contiene tra l’altro una sezione
dedicata a metodi per barare efficacemente.
Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia stato originato da una
serie di quesiti che il cavaliere de Méré pose all’austero giansenista Blaise Pascal. Per esempio: “se
lanciamo due dadi, quanti lanci sono necessari per avere almeno il 50% di probabilità di ottenere due
sei almeno una volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano pubblicate
alla fine della Logique de Port Royal (1662). Il salto di qualità rispetto a trattazioni precedenti fu che
per la prima volta si cercava di trattare la nozione di probabilità in modo astratto, cioè svincolato dal
riferimento all soluzione di specifici problemi. È anche degno di nota che Pascal considerasse la
probabilità applicabile alla valutazione delle prove giudiziarie, idea che venne sviluppata da Leibniz
nel suo Nova methodus discendae docendaeque jurisprudentiae (1667).
Nel 1655 Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una cena, venne a sapere
di questi studi e se ne interessò al punto tale da pubblicare nel 1657 il primo trattato conosciuto di
calcolo delle probabilità, “De ratiociniis in ludo aleae”. Per la prima volta viene introdotta una nozione
che avrebbe avuto fortuna, quella di speranza matematica. La speranza matematica o utilità attesa di
un singolo evento è il prodotto del guadagno che si spera di conseguire con il verificarsi dell’evento
per la probabilità che tale evento si verifichi. La speranza matematica o utilità attesa di una pluralità di
eisti di uno o più esperimenti casuali è la somma dei valori della speranza matematica dei singoli esiti
Per esempio, supponiamo di fare una partita a testa e croce con un altro giocatore . Il gioco prevede un
solo lancio di moneta: si stipula che se esce Testa vinco €100 e se esce Croce vinco €0, cioè non
vinco nulla. L’utilità attesa del gioco è €50. Infatti, stimando al 50% la probabilità di entrambi gli
esiti, la somma
( * ) 100 • 0,5 + 0 • 0,5
(cioè il guadagno di "Testa" per la sua probabilità più il guadagno di "Croce" per la sua probabilità) dà
come valore 50 +0, cioè 50. Questo valore si può anche chiamare il costo del gioco. E’ quanto ogni
giocatore deve spendere per partecipare al gioco con una ragionevole possibilità di successo.
Nel caso precedente si assume che i due eventi siano indifferenti o equiprobabili. Ma se sapessimo
che la moneta è sbilanciata a valore di Teste, in modo tale che la probabilità di Teste è 0,6 e la
probabilità di Croce 0,4, avremo un risultato diverso, cioè
( °)100 • 0,6 + 0 • 0,4 = 60
Si noti che il rapporto tra probabilità matematica e speranza matematica è bidirezionale, nel senso
che conoscendo la speranza matematica di un singolo evento e dell’evento opposto, quindi il costo
del gioco, potremmo derivare la probabilità dell’evento stesso. Per esempio, dalla relazione (°),
ponendo come valore incognito x la probabilità di Teste e quindi 1-x quello di Croce avremmo
(1) 100 • x + 0 • (1-x) = 60
(2) 100 • x + 0 = 60
(3) 100 • x = 60
(4)
x= 60/100 = 0.6
La probabilità dell’uscita di Testa quindi viene espressa come un rapporto tra il costo del gioco e il
guadagno sperato dal verificarsi dell’uscita di Teste. La conclusione suggerisce fortemente la
possibilità di definire la nozione di probabilità in termini di rapporti tra somme di danaro, idea che è
diventata quasi un luogo comune nella corrente novecentesca nota come “soggettivista”.
D’altro canto, nel calcolo della speranza matematica l’assegnazione di valori come
0,6 nell’
esempio precedente può derivare non da valutazioni aprioristiche o semplicemente soggettive ma dalla
conoscenza di fatti oggettivi circa le proprietà della moneta, o più semplicemente dalle frequenze
statistiche dell’uscita di testa in un grande numero di lanci. Quando Huygens inaugurava queste
ricerche la statistica muoveva i suoi primi passi sull’onda degli interessi delle compagnie di
assicurazione, alle quali premeva conoscere con esattezza la speranza di vita dell’assicurato al
momento della stipula della polizza.
È degno di nota, come ha osservato Ian Hacking in “The Emergence of Probability”, che la
probabilità fin dall’inizio reca il marchio di una “dualità” concettuale di fondo: da un lato è
interpretabile come il grado di credenza soggettiva, dall’altro si può rappresentare come una misura di
frequenze statistiche oggettive (chance). Lo stesso Pascal mostrava una certa ambivalenza nel
momento in cui da un lato studiava statisticamente le distribuzioni di risultati nei giochi di azzardo, ma
dall’altro usava il celebre argomento della scommessa per mostrare la superiore razionalità di chi
sceglie di credere in Dio.
Inoltre, in tema di probabilità statistica o “oggettiva”, va subito considerato che questa va distinta
dalla probabilità teorica dell’evento a cui si riferisce. Il modo in cui va determinata la probabilità
teorica, come vedremo, è oggetto di discussione filosofica: per ora possiamo dire che è quella che si
può stabilire a piori in base a una considerazione idealizzata delle proprietà dell’oggetto in questione.
Se la probabilità teorica p dell’uscita di testa è, poniamo, 0,5, le percentuali di testa m che vengono
effettivamente osservate dopo un certo numero di lanci n, espresse dalla frazione m/n,possono essere
inferiori, superiori o uguali a 0,5.
La differenza in valore assoluto tra frequenza osservata m/n e la probabilità teorica p, |m/n - p|, è detta
scarto e le sue proprietà sono stata oggetto di uno studio matematico rigoroso. Il famoso teorema di
Bernoulli, detto anche legge debole dei grandi numeri, asserisce che con l’aumentare del numero n di
esperimenti aumenta la probabilità che lo scarto diventi più piccolo di un qualsiasi numero positivo ε è
preso piccolo a piacere. In parole povere, con l’aumentare degli esperimenti è sempre più probabile che
lo scarto diventi sempre più piccolo.
Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra probabilità teoriche e
frequenze. Contrariamente a quanto molti sono inclini a pensare, la proposizione non asserisce che
nella realtà le frequenze a lungo andare tendono a coincidere con le probabilità teoriche. Questo
secondo asserto non è una proposizione matematica - viene a volte chiamato Postulato empirico del
caso- e descrive una
proprietà riscontrabile da sempre nel nostro mondo reale, cioè quella di
presentare una persistente uniformità spazio-temporale delle manifestazioni fenomeniche. Grazie a
tale Uniformità della Natura, di fatto, le frequenze osservate tendono a convergere a lungo andare
verso la probabilità teorica: ma, ripetiamo, questa non è una verità di fatto ma non una verità
matematica.
I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità tra il 600 e l’ 800 sono
quello di Leibniz – che, incidentalmente, essendo laureato in legge era interessato ad applicare il
calcolo alla valutazione delle prove – e quelli di De Moivre, di Bernoulli e di Laplace . Inoltre vanno
ricordati Thomas Simpson e Carl Friedrich Gauss (che posero le basi della cosiddetta teoria degli
errori).
Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due regole di calcolo
fondamentali, che vennero considerate veri e propri principi basilari fino a raggiungere la loro forma
definitiva nell’ assiomatizzazione insiemistica formulata da A. Kolmogorov (1932). Ne parleremo
come di Principio delle Probabilità Totali e delle Probabilità Composte: il primo utilizzabile per
sommare probabilità, il secondo per moltiplicare probabilità.
Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 ∪E2 la loro unione (piove oppure tira vento),
E1 ∩ E2 la loro intersezione (piove e tira vento) –E1 il complemento di E1 (non piove). Queste entità
sono da intendere come insiemi,
e precisamente come insiemi di casi in cui si verifica un certo evento. Volendo
intendere queste grandezze come proposizioni, si preferisce usare un’altra notazione, cioè E1 ∨ E2, E1
∧ E2, ¬E1.
Pr sia una funzione che associa ad ogni evento un numero razionale o irrazionale tra 0 e 1 (funzione
di probabilità). Questo si esprime dicendo che, per ogni evento Ei,
(Pr) 0 < Pr(Ei) < 1
Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a “piove”) nessun
evento può avere probabilità maggiore dell’ evento totale Ei ∪ –Ei (es. piove o non piove), dato che
questo evento ha la stessa certezza delle verità logico-matematiche. Quindi integreremo (Pr) con questo
secondo principio:
(N) Per ogni Ei, Pr (Ei ∪ -Ei )=1 .
Fatte queste premesse, il principio delle probabilità totali asserisce questo:
(PT)
Pr (E1 ∪ E2) = Pr E1 + Pr E2 – Pr(E1 ∩ E2)
Per calcolare il valore della probabilità dell’evento composto sulla sinistra bisogna conoscere i valori
di input che si trovano sulla destra, che sono le c.d. “probabilità iniziali”. Nel caso del nostro esempio
è difficile determinare la probabilità che piova, che tiri vento o che piova e tiri vento insieme, a meno
di ricorrere a qualche statistica metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo
ricorrere a valutazioni “a priori” : per esempio pochi troveranno da ridire sul fatto che in un mazzo di
52 carte non truccato la probabilità di sorteggiare un asso è 1/13 e quella di sorteggiare una carta di
picche è 1/4. Se le cose stanno così, qual è la probabilità di sorteggiare un asso o una carta di picche?
Risposta. La probabilità richiesta è la probabilità di sorteggiare un asso (1/13) più la probabilità di
sorteggiare una carta di picche (1/4) meno la probabilità di sorteggiare un asso di picche (1/52).
Quindi abbiamo (1/13 + ¼) – 1/52 = (4/52+ 13/52) – 1/52 = 16/52=0,3076923.
Se gli eventi E1 ed E2 sono incompatibili il calcolo delle probabilità totali viene semplificato perché
Pr(E1 ∩ E2)= 0. In particolare, se E2 è –E1, avremo
Pr (E1 ∪ -E 1) = Pr (E1) + Pr(-E1)
Quindi, stante che per (N) Pr (E1 ∪ -E1) =1, avremo
1 = Pr (E1) + Pr(-E1).
Da ciò naturalmente segue
Pr(-E1) = 1 – Pr(E1)
Il Principio delle Probabilità Composte invece consente di calcolare le probabilità di eventi congiunti.
Indichiamo con Pr(E2| E1) la probabilità di E2 dato E1 (detta probabilità subordinata o condizionata):
per esempio la probabilità che piova sapendo che tira vento. Allora il principio asserisce questo:
(PC)
Pr(E1 ∩ E2) = Pr(E1) • Pr(E2| E1)
Dato che E1 ∩ E2 = E2 ∩ E1, vale però anche
(PC*)
Pr(E1 ∩ E2) = Pr(E2) • Pr(E1| E2)
Pr(E2| E 1) = Pr(E2) significa che i due eventi sono indipendenti, o in altre parole
che E1 non
influenza E2 e E2 non influenza E1. Se vale l’indipendenza tra E1 e E2, però, la formula PC si riduce a
(PC**) Pr(E1 ∩ E2) = Pr(E1) • Pr(E2)
Esempio1: Qual è la probabilità che in un lancio di due dadi non truccati
escano due 3? Pr E1= 1/6, Pr(E2) = 1/6, Pr(E2| E1)=1/6 (perché i due eventi sono indipendenti): quindi
Pr( E1∩ E2) = 1/6 • 1/6 = 1/36
Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P) non sono indipendenti,
anzi la pioggia implica il maltempo! Quindi Pr(M|P) =1. Quindi la probabilità che piova e ci sia
maltempo (Pr(P ∩ M) è uguale a Pr(P) • Pr(M|P) = Pr(P) •1 =Pr(P).
Dal principio delle probabilità composte seguono alcune conseguenze interessanti.
La prima è che la nozione di probabilità condizionata o subordinata risulta definibile in termini di
probabilità assoluta. Infatti, se A e B sono eventi qualsiasi, come sappiamo,
(PC)
Pr(A ∩ B) = Pr(A) • Pr(B|A)
Ma da ciò abbiamo (se Pr(A) ≠ 0)
(ProbC)
Pr(B|A) = Pr(A ∩ B)
Pr (A)
Questo non va confuso con l’eguaglianza
(ProbC*)
Pr(A|B) = Pr(A ∩ B)/Pr(B)
(se Pr(B)=/0)
da cui
(PC*) Pr(A ∩ B) = Pr(B) • Pr(A|B)
Facendo in ProbC una semplice sostituzione garantita dall’identità PC*,
(se Pr(A) ≠0)
(TB) Pr(B|A) = Pr(B) • Pr(A|B)
Pr(A)
Volendo eliminare la frazione avemo
(TB-) Pr(B|A) = Pr(B) • Pr(A|B) • Pr 1/A
(se Pr(A) ≠0)
Questa formula si può trasformare in formule equivalenti più complesse. Se
-B è un’ipotesi alternativa incompatibile con B (p.es. “pari” e “dispari”), abbiamo ovviamente per il
principio delle probabilità composte
Pr(A ∩ -B) = Pr(-B) • Pr(A|-B)
Ora osserviamo che , per la teoria degli insiemi, A = (A ∩ B) ∪ (A ∩ -B), come si vede da una
semplice diagrammazione.
Si noti ora che il denominatore della frazione in TB è equivalente a
Pr ((A ∩ B) ∪ (A ∩ -B)). Questo per il teorema delle probabilità totali, essendo incompatibili i due
eventi A ∩ B e A ∩ -B, equivale alla somma Pr(-B) • Pr(A|-B) + Pr( B) • Pr(A|B). In tal caso la
formula TB prende la segueunte forma più complessa:
(se Pr(A) ≠0)
(TB*) Pr(B|A) = ____Pr(B) • Pr(A|B)
Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B)
Ovviamente, se le ipotesi incompatibili sono non solo due ma n (B1...Bn), la formula TB* si può
generalizzare a n ipotesi.
TB (insieme alle sue varianti come TB*) è un fondamentale teorema, noto come teorema di Bayes,
considerato un pilastro del calcolo delle probabilità. Il suo nome deriva a dal matematico che ne diede
la prima formulazione in un saggio pubblicato postumo nel 1763 (in realtà, Bayes era un reverendo
presbiteriano nato nel 1702 e morto nel 1761) . Secondo un luogo comune, Il Teorema di Bayes ha
per il calcolo della probabilità la stessa importanza che ha il teorema di Pitagora per la geometria.
Conoscendo o assumendo i valori di Pr(B) e Pr(A), infatti, è possibile calcolare la probabilità di B dato
A in termini della probabilità inversa di A dato B, che viene talvolta chiamata verosimiglianza
(likelyhood). È quindi possibile calcolare la probabilità della causa dato l’effetto, o dell’ipotesi
esplicativa (explanans) dato l’ explanandum, una volta che sia nota la probabilità dell’effetto data la
causa o dell’explanandum dato l’explanans.
Alcune considerazioni sul calcolo delle probabilità sono a questo punto opportune.La funzione di
probabilità in effetti è solo una speciale funzione di misura. Le grandezze misurate si possono pensare
nella fattispecie come le dimensioni di classi di punti dello spazio-tempo: la classe totale dei punti
(quella in cui sono vere le tautologie) ha probabilità 1, la classe vuota (in cui sono vere le
contraddizioni) ha probabilità 0. Un’ interpretazione più restrittiva ma più efficace sta nel vedere le
classi di punti come classi di mondi possibili. Gli eventi contingenti hanno probabilità intermedie tra 0
e 1. Il calcolo delle probabilità non è altro che un insieme di metodi per calcolare le misure di eventi
complessi (uniti o congiunti) partendo dalle misure di eventi più semplici. Si tratta dunque
semplicemente di un meccanismo input-output che, dati certi valori in ingresso, produce altri valori in
uscita. Questo ci pone di fronte a un problema che il calcolo in quanto tale non è in grado di risolvere.
Per quanti calcoli si possano fare, dobbiamo sempre prendere le mosse da un input costituito da certi
valori probabilistici iniziali, i quali non si possono a loro volta calcolare da altri valori probabilistici.
Il problema di stabilire le probabilità iniziali non ha risposte di tipo matematico. La sua soluzione
dipende da assunzioni filosofiche ben precise circa la nozione stessa di probabilità. A seconda della
risposta che viene data, cambiano i critieri di assegnazione dei valori di input, il che può avere
conseguenze considerevoli anche sulle applicazioni del calcolo. È inevitabile quindi esaminare le
alternative elaborate dai filosofi per rispondere a questa basilare e difficile domanda: che cosa è la
probabilità?
Vedremo anche che il calcolo delle probabilità classico (che è quello che è stato qui presentato) ha
dato adito a critiche,e proprio nell’applicazione al diritto. Sono state proposte altre assiomatizzazioni e
quindi, dato che gli assiomi definiscono implicitamente il loro oggetto, altre nozioni di probabilità. Le
seguenti curiosità probabilistiche, alcune delle quali hanno aspetti sicuramente paradossali, hanno
sicuramente offerto spunti per l’elaborazione di costruzione alternative a quella classica.
Curiosità probabilistiche.
A)
Se la probabilità di avere un figlio maschio dato che si hanno già avuti due figli maschi è ½,
qual è la probabilità di avere tre figli maschi in fila? La risposta è 1/3 ● 1/3●1/3, cioè 1/8. Si noti che
qualunque successione di maschi e femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A
parità di ragionamento , qualunque successione di uscite di numeri rossi e neri alla roulette (ignorando
lo zero, che è verde) ha sempre la stessa probabilità di qualsiasi altra sequenza ordinata di uscite della
stessa lunghezza.
Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la domanda “qual è la
probabilità di avere un figlio maschio dato che si sono già avuti due figli mschi non è 1/8 ma ½.
Analogamente, la probabilità che esca un numero rosso alla roulette dato che sono usciti 10 numeri
neri è sempre invariabilmente ½.
B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità, ha immaginato che un
medico privo di scrupoli potrebbe pubblicare su un quotidiano la seguente inserzione, rivolta ai coniugi
desiderosi di avere un figlio maschio :«Dietro invio di 500 euro, riceverete da me la ricetta infallibile
per avere un maschio. Soddisfatti o rimborsati». Il rimborso ha lo scopo naturalmente di garantire
l'affidabilità del metodo. La ricetta può essere una qualsiasi pillola di zucchero colorata. In tal modo
egli può incassare, poniamo, su 1000 adesioni, 500.000 euro. Poiché il 50% dei neonati sono in ogni
caso maschi, egli dovrà rimborsare al rimanente 50% un totale di 500 x 500 =250.000 euro, con un
guadagno netto di 250.000 euro. Anzi, per ogni femmina nata egli potrebbe tranquillamente aggiungere
altri 250 euro ai 500 rimborsati e guadagnare comunque nel lungo periodo una somma di tutto rispetto.
.
3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente nel pubblico potete
procedere come racconta Richard Dawkins. «Prima di tutto vediamo se il sensitivo si trova nella metà
destra o nella metà sinistra della sala» esordii. Quindi invitai la gente ad alzarsi e pregai il mio
assistente di lanciare una moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere»
che venisse fuori testa, a tutte quelle sul lato destro di «volere» che venisse fuori croce. Ovviamente
uno dei due schieramenti perse, e venne invitato a sedersi. Quelli che erano rimasti in piedi furono
divisi in due: metà che «volevano» che uscisse testa e metà che «volevano» che uscisse croce. Ancora
una volta i perdenti furono fatti sedere e ancora una volta si procedette a dividere i vincenti, finché,
dopo sette o otto lanci di monetina, com'era inevitabile, rimase in piedi una sola persona. «Un grande
applauso per il nostro sensitivo!» esclamai. Non era forse un sensitivo uno che era riuscito a
«influenzare»
la
moneta
otto
volte
di
seguito?
4)-La probabilità che due persone scelte a caso abbiano lo stesso compleanno, sulla base di
considerazioni
sia
a
priori
che
a
posteriori,
è
1/365.
Ora prendiamo una stanza in cui siano presenti solo 23 individui: i matematici possono dimostrare
che vi sono più di 50 probabilità su cento che almeno due di essi siano nati lo stesso giorno. Lasciamo
perdere gli anni bisestili, che complicano inutilmente le cose, e supponiamo di scommettere con voi
che delle 23 persone presenti, come minimo due siano nate lo stesso giorno. Tanto per stare al
gioco,voi scommettete che non ci siano compleanni comuni. Faremo il calcolo in modo da arrivare ai
23 individui gradualmente: cominceremo da uno solo e aggiungeremo gli altri uno alla volta. Se a un
certo punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di giocare e non staremo
a curarci dei rimanenti individui. Se invece arriveremo al ventitreesimo senza avere trovato il
«gemello»,
a
vincere
sarete
voi.
Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le probabilità che non vi sia alcun
«gemello» sono, banalmente, pari a 1 (365 probabilità su 365). Aggiungiamo adesso il soggetto B: le
probabilità diventano che vi siano due gemelli sono 1 su 365, quindi la probabilità che non vi siano
«gemelli», l’evento complementare, è data da 364/365. Facciamo entrare ora una terza persona, C: c’è
1 una probabilità su 365 che C sia nato lo stesso giorno di A e una su 365 che sia nato lo stesso giorno
di B, sicché le probabilità che non sia «gemello» né di A né di B sono 363/365, (non può essere
«gemello» di entrambi, perché sappiamo già che A e B non sono nati lo stesso giorno). Per sapere quali
siano complessivamente le probabilità che non si verifichi un «gemellaggio», dobbiamo prendere
363/365 e moltiplicarlo per le probabilità che non si sia verificato
un gemellaggio
nei casi
precedenti, ovvero, nell'esempio specifico, moltiplicarlo per 364/365. Lo stesso ragionamento vale
quando aggiungiamo la quarta persona, D. Le probabilità totali che non vi siano «gemelli» diventano
364/365 ● 363/365 ● 362/365. E così via, finché nella stanza non abbiamo 23 persone. Ogni nuova
persona ci porta un nuovo termine da aggiungere alle moltiplicazioni da fare per calcolare le probabilità
che il «gemello» non si presenti. Se si procede con tali moltiplicazioni fino ad avere 23 termini
(l'ultimo dei quali sarà 343/365), l'esito sarà 0,49: ed è questa la probabilità che non vi siano nella
stanza individui nati lo stesso giorno. Vi sono quindi probabilità lievemente superiori al 50 per cento
(0,51) che almeno due persone in una compagnia di 23 siano «gemelle». Basandosi sull'intuizione, la
maggior parte della gente scommetterebbe contro il «gemellaggio», ma sbaglierebbe. È proprio questo
il tipo di errore intuitivo che ci induce a considerare arcane alcune coincidenze che sono normalissime.
4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria con un milione di
biglietti, uno solo dei quali sarà vincente. Comprando un biglietto si ha la certezza pratica di perdere
(stante che la certezza pratica è data da 1- ε). Così chiunque compri un biglietto ha la stessa certezza
pratica. È dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si sa che
certezza che qualche biglietto vincerà. Questo paradosso, evidenziato da Henry Kyburg, mira a
evidenziare le difficoltà del concetto di accettazione razionale: Infatti appaiono consistenti tra loro
questi tre principi:
i) è razionale accettare una proposizione che è molto probabilmente vera
ii) non è razionale accettare una proposizione inconsistente (autocontraddittoria)
iii) se è razionale accettare A e accettare A’, è razionale accettare la congiunzione A & A’. (Nel caso
dell’esempio: se è razionale accettare la perdita di Tizio perchè praticamente certa e anche la perdita
di Caio perchè praticamente certa, allora è razionale accettare la perdita di Tizio e Caio).
Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo stesso Kyburg a proporre la sua
rimozione.
Il paradosso mette sotto accusa la nozione di certezza pratica, che può essere identificata con la
nozione di certezza oltre ogni ragionevole dubbio. Questa nozione, come è noto, è di uso corrente nei
processi penali quando si tratta di valutare il peso delle prove.
LEZIONE 2. Concezioni della probabilità
La più semplice e intuitiva definizione di probabilità è ancor oggi quella chiamata “classica”, la cui
formulazione si deve al sommo astronomo Pierre Simon de Laplace (1742-1826), detto il “Newton
francese”. Secondo la concezione laplaceana, la probabilità di un evento E è il rapporto tra i casi
favorevoli al verificarsi di E e i casi possibili, purchè egualmente possibili.
Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al lotto sulla ruota di
Milano con una sola estrazione, i passi da fare per determinare questo valore sono i seguenti : (1)
osservare che i casi possibili sono 90 (2) osservare che tali casi sono equipossibili (3) osservare che le
possibilità di estrarre un numero pari entro le 90 possibilità sono 45, quindi i casi favorevoli sono 45.
La risposta è data dunque dal rapporto tra 45 e 90, ossia 0,5.
Se i casi non sono equipossibili la risposta non può essere data. Se, per esempio, mi chiedo qual è la
probabilità che un certo aereo cada nella prossima settimana, i casi possibili sono due (cade/non cade),
ma fortunatamente in condizioni normali non c‘è motivo di considerarli equipossibili.
La clausola della equipossibilità è una fonte di dubbi filosofici. Se equipossibile vuol dire
“equiprobabile” la definizione complessiva diventa circolare perché si definisce la probabilità in
termini di probabilità. La soluzione è offerta dal cosiddetto “principio di indifferenza” o di “ragione
insufficiente”: sono probabilisticamente uguali quelle alternative per le quali non abbiamo motivo di
attenderci il verificarsi dell’una piuttosto che dell’altra.
È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle probabilità dal dominio
dei fatti naturali a quello dei fatti umano -sociali, compresa la probabilità delle testimonianze nei
processi e delle sentenze nei tribunali. Da questo punto di vista egli seguiva una linea di ricerca già
avviata da Leibniz, che prima di darsi alla filosofia aveva praticato studi di giurisprudenza.
La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile determinismo che lui riteneva
ad esso connaturato è espresso dalla brillante metafora del “demone di Laplace”: un demone
onnisciente che conosca con esattezza al momento attuale la posizione e la velocità di ogni particella è
in grado di predire con precisione assoluta tutti gli eventi futuri e retrodire tutti gli eventi passati. Nella
mente del demone onnisciente non esistono incertezze. La probabilità è in effetti il prodotto della
nostra ignoranza, che ci distingue dalla condizione divina : “parlando rigorosamente, quasi tutte le
nostre conoscenze non sono che probabili: e anche quelle pochissime che stimiamo certe, persino nelle
scienze matematiche, ci sono date dall’induzione e dall’analogia che, strumenti principali per giungere
alla verità, si fondano sulle probabilità “. Così egli scrive nella prima pagina del celebre “Saggio
filosofico sulle probabilità”.
Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal c.d.Principio di
Indeterminazione di Heisenberg (1925) e più generalmente dalla meccanica quantistica, che esclude
che sia possibile misurare con precisione illimitata posizione e velocità di ogni particella (per tacere di
altre coppie di proprietà dette “coniugate”). Di fatto. anche se non in teori, gli eventi singoli sono
imprevedibili anche in fenomeni caotici con alto grado di complessità. L’urto di milioni di molecole in
un millimetro cubo di gas rende di fatto imprevedibile la loro posizione un secondo dopo che la
posizione di tutte fosse stata accertata, per assurdo, con totale esattezza. Quindi, anche se in teoria un
demone laplaceano potrebbe in teoria prevedere la posizione di tutte le molecole, da un punto di vista
pratico non c’è differenza tra l’indeterminazione dei fenomeni quantistici e dei fenomeni prodotti dal
caos deterministico.
Secondo la concezione classica la determinazione delle probabilità è una procedura aprioristica, o in
altri termini non dipende da informazioni derivate dall’esperienza ma dallo stato di conocenza del
soggetto. In quanto tale ha tutti i numeri per essere mal vista dagli empiristi, secondo i quali ogni
conoscenza genuina deve provenire dall’esperienza stessa. A parte i pregiudizi filosofici, l’ idea di
basare la conoscenza non sull’esperienza vissuta ma sull’ignoranza di qualcosa è una fonte di difficoltà
e di paradossi.
Supponiamo per esempio che una persona che estrae una pallina da un’urna a sappia che l’urna a
contiene un numero uguale di palline bianche e nere, mentre tutto ciò che sa circa l’urna b è che
contiene palline bianche e nere, senza sapere se sono in numero uguale o diverso. Secondo il principio
di indifferenza, questa persona in ambedue i casi deve assegnare ½ all’estrazione di una biglia bianca
(o nera), mentre è chiaro che nei due casi il grado di incertezza è differente.
A parte riserve di indole filosofica come quella citata, bisogna ammettere che l’applicazione della
teoria laplaceana è spesso problematica fuori dal settore dei giochi d’azzardo. Alcune difficoltà
dipendono dal fatto che è arduo enumerare tutte le alternative possibili entro un dato esperimento,ed è
ancora più difficile dire se esse sono equipossibili nel senso descritto dal principio di indifferenza. Fa
capolino qui il fastidioso germe del soggettivismo: soggetti diversi possono avere informazioni diverse
circa le alternative, cosicchè le alternative che appaiono indifferenti ad uno possono apparire differenti
a qualcun altro.
A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i c.d. “paradossi di
Bertrand”. Esempio. Supponiamo di sapere che un’auto ha impiegato un tempo compreso tra 1 e 2
minuti (quindi tra 60 e 120 secondi) per percorrere 1 Km. Diremo che per noi è indifferente la stima di
60-90 secondi e quella di 90-120 secondi: quindi la probabilità che la lunghezza del viaggio
appartenga al primo intervallo è uguale a quella che appartenga al secondo.
Il valor medio di questa stima del tempo impiegato è qundi di 90 secondi per 1Km.
Veniamo poi a sapere che la velocità media della macchina era compresa tra i 30 km/h e i 60 Km/h.
Applicando il principio di indifferenza, quindi, per noi la probabilità che viaggiasse tra 30 km/h e 45
km/h è la stessa che viaggiasse tra 45 km/h e 60 km/h. Ora il valor medio della prima stima
dovrebbe corrispondere al secondo valor medio, cioè 45 km/h. Ma così non è: se una macchina
impiega 90 secondi per percorrere 1 Km vuol dire che in un’ora, cioè in 3600 secondi, percorrerà 40
Km, non 45 Km !
John Maynard Keynes nel suo Treatise of Probabilities ha individuato un’ampia classe di problemi
inerenti al principio di indifferenza, evidenziando che molte difficoltà sono prodotte non solo da aspetti
matematici, ma anche da aspetti linguistici. Se, per esempio, in una libreria buia mi chiedo qual è la
probabilità di toccare un libro nero, posso dire che in condizioni di ignoranza le alternative che mi sono
indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta uguale a ½. Me se
tengo conto del fatto che i colori dell’iride sono 7, allora tale probabilità è 1/7. Per cui dovremmo avere
½=1/7, il che è assurdo.
A queste difficoltà concettuali si sommano difficoltà di indole pratica. Di fatto, nel quadro classico
l’applicazione del calcolo della probabilità sarebbe giustificata solo nei casi in cui si danno alternative
equipossibili, o presunte tali. Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo, qual è
la probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i ferri di una certa
operazione chirurgica, perché le alternative da esaminare non sono equipossibili - anzi è da notare che è
proprio la bassa probabilità dell’alternativa infausta che rende interessante la domanda, in quanto ci fa
valutare se vale la pena di correre o non correre il rischio ad essa connesso. Secondo Keynes ed altri
che hanno tentato di modernizzare la concezione classica, nei casi in cui i calcoli numerici non sono
applicabili possiamo sempre ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo,
che un’alternativa è più probabile di un’altra e ambedue sono più probabili di una terza.
Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità empiristica, per la quale
non esistono conoscenze a priori (e nemmeno sintetiche a priori, con buona pace dei kantiani),
spingeva verso una definizione oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi
di R. Ellis e J.Venn, per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso
accomunati sotto la denominazione di frequentisti.
Da un punto di vista strettamente empirista, l’affermazione che le varie alternative, per esempio nel
lancio di un dado, sono equipossibili, ha un senso solo se si può provare sperimentalmente che il dado
in questione non è stato truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a
scapito delle altre. Ma a rigore l’unico modo per raggiungere la certezza dell’equipossibilità sta nel
lanciare il dado in questione un numero illimitato di volte e verificare poi che le percentuali di uscite di
tutte le facce “tendono”, a lungo andare, ad essere uguali. Con ciò però si compie un salto da un
campione finito di dati a un insieme infinito di dati che mal si concilia con l’oggettività sperimentale
richiesta dagli empiristi. Secondo Ellis questo ricorso a una serie infinita di esperimenti, cioè a
qualcosa di non sperimentabile in linea di principio, è un’ idealizzazione che si giustifica come tutte le
altre idealizzazioni impiegate nella scienza (p.es. quando si immagina il movimento di un corpo su un
piano senza attrito). Venn chiamava serie queste successioni in cui le fluttuazioni di frequenze
registrate a un certo punto si stabilizzano e convergono verso un valore che si può considerare il limite
della serie stessa.
Il passo successivo, che poi verrà perfezionato da von Mises, è quello di identificare questo limite
con la probabilità del tipo di evento in questione (non, si badi, del singolo evento, dato che la
probabilità riguarda classi di eventi dello stesso tipo). Si noti che, ovviamente, il limite di cui si parla
qui è diverso da ciò che in matematica si chiama limite delle successioni numeriche convergenti, dato
che quest’ ultimo si può calcolare rigorosamente con metodi matematici.
Nelle successioni
empiriche un calcolo matematico di questo genere è impossibile. Anzi, a rigore, non si ha neppure la
certezza che il limite cercato esiste, perché non c’è contraddizione nel ritenere che la parte sconosciuta
della serie abbia proprietà diverse da quella conosciuta. Più generalmente, estraendo un campione da
un universo di dimensioni illimitate, non abbiamo nessuna garanzia che le proprietà riscontrate nel
campione siano le stesse presenti nell’universo. Ma questo è il vecchio problema dell’Uniformità della
Natura. Non c’è una garanzia logica che il futuro di una successione di eventi sarà uguale al passato,
anche se è perfettamente irragionevole supporre il contrario.
Von Mises divenne un esponente di spicco del circolo di Berlino, nato alla fine degli anni 20 per
gemmazione del circolo di Vienna. L’idea basilare di von Mises è che si può parlare di probabilità di
un evento E quando
entro un certo “collettivo” (insieme di eventi o dati dello stesso genere) si ha
ragione di pensare che le frequenze osservate di E, se protratte illlimitatamente, tendano verso un
limite. Von Mises non tardava tuttavia a rendersi conto che, perché si possa calcolare la probabilità,
non tutti i collettivi si prestano al calcolo del limite. Una successione di pietre miliari che presenti
delle pietre bianche ogni cento metri e una pietra rossa ogni chilometro rende facile calcolare che la
probabilità di trovare una pietra rossa è 1/10, ma non ha molto senso parlare di probabilità di un
risultato che è prevedibile, e quindi necessario, in quanto costruito esattamente con quello scopo. Se,
per ipotesi, si togliessero dalla successione tutte le pietre che si trovano al 10° posto, la probabilità di
incontrare pietre rosse scenderebbe dal 10% a 0 : in realtà la successione in oggetto è priva di una
qualità essenziale per stabilire il limite delle frequenze osservate, quella di essere irregolare o
randomizzata. Von Mises ha cercato di definire con grande accuratezza la nozione di collettivo
irregolare, puntando sull’idea che un collettivo è irregolare quando il limite stimato è insensibile alle
c.d. “scelte di posto”. effettuate secondo qualche regola prefissata (per esempio, risulta lo stesso entro
le sottosuccessioni determinata dalla scelta dei posti pari).
Nonostante questo importante contributo matematico, che lo ha portato a definire anche operazioni su
collettivi, von Mises non ha potuto evitare che la sua teoria andasse incontro a banalizzazioni. A meno
che non si definisca rigorosamente il concetto di regola, si può trovare sempre una regola stramba che
genera un sottosuccessione tale da modificare il valore del limite. Più in generale, come avevano già
osservato Schlick e Wittgenstein, data qualsiasi successione finita di numeri, per quanto bislacca, (p.es.
1, 177, 176) troviamo sempre una regola altrettanto bislacca che concorda con la successione (si tratta
di un paradosso a volta indicato come “paradosso di Wittgenstein”).
Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il ragionamento
induttivo, come è noto, consiste nel riscontrare nel campione una certa proprietà e proiettarla
sull’universo: per esempio dopo aver osservato un campione di smeraldi che sono solo solo verdi
inferiamo che tutti gli smeraldi sono verdi. Ma allo stesso modo in cui ci regole abnormi ci sono anche
predicati abnormi, come ravvisato da N.Goodman nel c.d. “paradosso del grue-bleen”. Il predicato
“verde ed esaminato prima del 3000” implica un predicato bizzarro ma perfettamente legittimo come
“verde ed esaminato prima del 3000 oppure blu ed esaminato dopo il 3000”(grue o verdlù) . Si noti
però che se è vero che tutti gli smeraldi sono verdlù, questa è una disgiunzione in cui il primo disgiunto
risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto risulta necessariamente vero.
Dunque concludiamo che dopo il 3000 tutti gli smeraldi saranno blu.
Con ciò non si fa altro che ribadire che l’uniformità della natura non è giustificata né da
ragionamenti deduttivi né da ragionamenti induttivi: infatti il paradosso di Goodman evidenzia che non
c’è nessuna contraddizione logica nel pensare che gli smeraldi nel 3000 si trasformino da verdi in blu.
Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua teoria dei collettivi, ma
trascurava il fatto che in meccanica quantistica si parla di probabilità di eventi singoli (p.es. la
probabilità che un atomo isolato si trovi in una certa condizione) e non di tipi di eventi, come richiesto
dalla sua versione del frequentismo.
Hans Reichenbach ha fatto progredire la scuola frequentista mostrando che si può, comunque,
definire la probabilità come limite delle frequenze lasciando cadere le restrizioni poste da von Mises.
Abbandonando la nozione di collettivo, Reichenbach chiedeva, in primo luogo, che quella che lui
chiama classe di riferimento (quella, cioè, entro cui vengono rilevate le frequenze) oltre ad essere il
più possibile grande sia formata da elementi che sono simili per aspetti rilevanti a quelli dell’elemento
dotato del predicato di cui intendiamo calcolare la probabilità. Per fare un esempio, se voglio sapere
qual è la probabilità che il Sig. Rossi abbia un incidente automobilistico, sceglierò una classe di
riferimento costituita da soggetti del tipo di Rossi. Includerò in primo luogo elementi che siano
soggetti al rischio di avere un incidente automobilistico. Escluderò quindi pietre, gatti, pappagalli e mi
atterrò a soggetti umani, anzi a soggetti simili a Rossi per aspetti importanti: escluderò pertanto
soggetti a lui simili per avere calzini blu (perché l’avere calzini blu piuttosto che di altro colore è
irrilevante per l’attributo) oppure per il fatto che come lui leggono libri gialli. Viceversa la classe di
riferimento dovrà contenere soggetti, per esempio, che siano simili a lui per il sesso, per l’età e per il
tipo di macchina che possiedono.
Secondariamente, la frequenza dell’attributo riscontrata nella classe di riferimento deve essere la
stessa anche in tutte le sue sottoclassi di questa.
Nella terminologia di Reichenbach la classe di
riferimento deve essere omogenea, cioè deve essere insensibile, nel rilevamento delle frequenze,
rispetto a partizioni operate secondo qualche attributo che influenzi la frequenza dell’attributo in
questione (“avere incidenti automobilistici”). Non compariranno, quindi, nella classe dell’ esempio,
soggetti che sono proprietari di macchine le quali, pur essendo della stessa marca di quella di Rossi,
abbiano un difetto ai freni, perché nella sottoclasse costituita da questi si potrebbero riscontrare
frequenze diverse negli incidenti automobilistici.
Una volta individuata una classe di riferimento il più possibile grande e omogenea, si calcola il limite
a cui tendono le frequenze osservate di incidenti automobilistici che subiscono soggetti del tipo di
Rossi entro sottoclassi via via più estese tratte da di questa classe. Si identifica quindi questo limite con
la probabilità richiesta. Si noti che questo non è esattamente la stessa cosa che calcolare la probabilità
che il Sig. Rossi nella sua singolarità abbia un incidente, ma possiamo identificare la probabilità di
questo evento singolare (event- token) con quella dell'evento tipico (event- type) di cui l’evento singolo
si può considerare rappresentativo: ciò mediante un artificio concettuale che Reichenbach chiama posit
(“asserzione che noi consideriamo come vera anche se il suo valore di verità è sconosciuto”). Questa
distinzione tra eventi singolari concreti e tipi di evento ricorrerà più volte nelle pagine seguenti.
La classe di riferimento omogenea nel senso di Reichenbach in sostanza è un’idealizzazione
infinitaria di quello che gli statistici chiamato "campione non -tarato" (non-biased) o “campione
randomizzato”, che ha un ruolo essenziale nella pratica statistica. La scelta del campione pone
problemi di difficile soluzione (ne parleremo nel paragrafo sulle menzogne statistiche) in quanto la
presenza di una taratura del campione può dare origine a distorsioni gravi nel rilevamento delle
frequenze.
Per quanto ispirato ad alcuni criteri comunemente usati nella pratica statistica, il frequentismo nella
formulazione di Reichenbach presta il fianco a diverse critiche. Una di queste è squisitamente
matematica e muove dall’osservazione che la classe di riferimento e gli esperimenti eseguiti nella realtà
devono essere necessariamente, anche se di grandi dimensioni, in numero finito. Se così non fosse, in
un numero infinito di lanci di una moneta ci sarebbe un numero infinito di uscita di teste e un numero
infinito di uscite di croci, generando una frazione che è sempre uguale a ∞/∞, contro l’intuizione che ci
dice che questo valore è 1/2. La concezione della probabilità come limite di sequenze finite mira a
disinnescare questa difficoltà. Succede però che l’ordine in cui si distribuiscono gli esperimenti in
una classe finita potrebbe determinare limiti diversi a seconda dell’ordine in cui si presentano i dati. In
realtà non esiste un ordine unico associato a una determinata classe di riferimento. Qual è, per esempio,
l’ordine in cui “oggettivamente” sono disposte tutte le automobili rosse fabbricate in Italia?
Un secondo problema attiene la probabilità di eventi singoli, dato che in questa concezione appare
privo di senso chiedersi, poniamo, qual è la probabilità dell'uscita di testa al 40° lancio. Queste
domande sono però di uso corrente, soprattutto nella meccanica quantistica. Questo problema è stato
sottolineato in particolare da Karl Popper, che si è fatto portabandiera di una particolare versione del
frequentismo detta propensionismo .
Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento dotate delle proprietà
richieste se si vuole conoscere la probabilità di eventi rari o unici. Basta pensare che quando si inviò
per la prima volta una spedizione sulla Luna si assegnava un'alta probabilità al successo dell'impresa,
ma questa non poteva sicuramente essere calcolata sulla base della frequenza statistica dell'evento.
Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il fatto che per dimostrare
che i limiti delle frequenze sono valori di probabilità, e non grandezze di altro genere, bisogna
dimostrare che tali limiti soddisfano gli assiomi di Kolmogorov, e in particolare i due principi delle
probabilità totali e delle probabilità composte. È stato provato tuttavia che questa dimostrazione non è
banale, anzi che a rigore non è possibile. Se è così, avrebbero ragione quanti distinguono, come più
volte enfatizzato da Keynes o da Carnap, tra due nozioni diverse di probabilità - una epistemica e una
statistica- che sarebbero ditinte anche per il fatto di avere probabilità matematiche diverse.
Con ciò è necessario esaminare in dettaglio la concezione detta “epistemica” della probabilità, di cui
la concezione classica di Laplace è stata la prima anticipazione. Qualcuno, come Popper, ha voluto
raggruppare tutte le varie articolazioni della concezione epistemica sotto l’etichetta di “concezione
soggettivista”, con l’intento di sottolineare l’opposizione tra il concepire la probabilità come proprietà
oggettiva del mondo e il concepirla come qualcosa di dipendente dalla coscienza di uno o più soggetti.
Nella concezione epistemica tuttavia sono riconoscibili almeno due orientamenti diversi,
incompatibili per il diverso atteggiamento che comportano verso le proprietà
degli enunciati
probabilistici. Secondo i cosiddetti logicisti (Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli
enunciati probabilistici, se veri, sono logicamente veri. In essi viene enunciato un certo rapporto tra un’
ipotesi h (p.es. il prossimo corvo sarà nero) e un certo stock di evidenza disponibile a suo favore (p.es.
il fatto che 100.000 corvi osservati sono neri e nessun corvo osservato è di colore diverso). Keynes
parla per esempio del suddetto rapporto come grado di credenza razionale, e la logica del probabile
diventa quindi una logica della ragionevolezza. Se è vero che la scelta dell’ informazione da inglobare
nell’evidenza e varia da soggetto a soggetto, la relazione in sè è puramente logica.
Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi di probabilità
condizionale di h dato e, che lui fa coincidere con la conferma induttiva di h data da e.. A differenza di
Keynes e altri logicisti, tuttavia, Carnap introduceva due coefficienti parametrici, λ ed η, esprimenti
diverse valutazioni possibili del fattore logico-linguistico (λ) e del fattore costituito dal peso
dell’esperienza (η). Se, per restare nellèsempio, svalutiamo lèvidenza sperimentale ponendo uguale
a 0 il coefficiente η , allora la probabilità che il prossimo corvo sia nero dipende unicamente dai
predicati esprimibili nel linguaggio presupposto. Se il linguaggio, per esempio, contiene nomi per i soli
7 colori dell’iride, tale probabilità è di 1/7, mentre se si ammette un numero piu` ampio di nomi per le
sfumature dei vari colori (scarlatto, porpora,...) allora il valore di tale probabilità sarà molto più basso.
Comunque sia, indipendentemente da come vien fissato il valore parametrico, la conclusione avrà
sempre la forma
Pr(h/e) = x ; questa esprime un partial entailment, cioè unìmplicazione parziale di cui lìmplicazione
logica è solo il caso speciale in cui Pr(h/e) = 1.
Come si è detto, Carnap identifica le funzioni di probabilità con le funzioni di conferma: in questo
modo la logica della probabilità viene a coincidere
con la logica della conferma induttiva.
Sfortunatamente, dato che ciò che viene confermato di solito è una legge, cioè una generalizzazione
infinitaria (p.es. “Tutti i corvi sono neri”), per ragioni puramente matematiche tale grado di conferma
per le leggi tende ad essere molto basso se il numero di individui dell’universo è molto grande, ed è
addirittura uguale a 0 se si assume che il numero di individui dell’universo è infinito. (Per capire questo
apparente paradosso, si rifletta sulla domanda: “sapendo che un urna infinita contiene palline di sette
colori, qual è la probabilità di estrarre un numero infinito di palline rosse e nessuna di colore
diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola introducendo nuovi
coefficienti parametrici, ma ottenendo sempre valori bassi per le generalizzazioni infinitarie: cosa che,
del resto, appare in linea con concezioni epistemologiche come quella popperiana, per la quale, come è
noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche falsificazione.
Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante si ammetta la
variabilità dei risultati delle conclusioni probabilistiche con conseguente abbandono dell’univocità, le
credenze di cui si postula la misura sono credenze razionali, cioè credenze proprie di un soggetto
idealizzato. La variabilità, come già detto, dipende dall’arbitrarietà dei valori di λ ed η, cioè del
parametro logico e quello empirico. La valutazione di questi parametri (espressi da numeri reali tra 0 e
1) può variare a seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi se
negli ultimi anni Carnap fosse incline a considerare il logicismo compatibile con un orientamento a
cui abbiamo già accennato – il soggettivismo.
Nella corrente detta soggettivista (Ramsey, DeFinetti, Savage) il requisito di razionalità dettato da
Keynes e Carnap viene abbandonato, così come l'idea che gli asserti probabilistici veri siano verità
logiche. I valori probabilistici esprimono solo gradi di credenza di soggetti umani concreti, che possono
tener conto dellèvidenza disponibile nel modo che preferiscono. I gradi di credenza sono misurati
considerando ogni soggetto alla stregua di un giocatore, razionale o irrazionale, che sia impegnato in
un gioco di scommesse contro un secondo giocatore (allibratore). Se un giocatore è convinto, per
esempio, che la probabilità di sorteggiare un certo numero al lotto sia di 1/50 anzichè di 1/92, non c'è
nessun argomento che possa impedirgli di fare questa valutazione. Come abbiamo notato all’inizio,
l’idea di definire la probabilità in termini di rapporti tra somme di denaro non è una novità, dato già
nel ‘7oo era chiaro che la nozione di probabilità si poteva defnire il termini di speranza matematica.
L’ unico criterio di razionalità che si richiede a un giocatore è la coerenza interna del suo sistema di
credenze: se il giocatore ritiene veramente che la probabilità che esca il numero 20 in un certa uscita
della roulette sia del 90%, l’intuizione ci dice che non può anche credere che la probabilità che esca il
numero 21 nella stessa uscita sia pure del 90%, dato che l’uscita del 20 e del 21 sono incompatibili tra
loro e che la somma delel due stime darebbe 180%. Per dare una veste matematica a questa intuizione
sono praticabili metodi diversi, anche se i soggettivisti non sono concordi sul fatto che le probabilità
siano da esprimere invariabilmente mediante valori numerici. In ogni caso, il metodo più semplice per
misurare il grado di credenza è dato dalla misura del quoziente di scommessa, cioè dal rapporto tra
quanto si scommette e quanto si incassa in caso di vincita. Chi scommette su un certo cavallo, magari
alla sua prima corsa, 10 euro per averne 100 in caso di vincita (quoziente di scommessa 1 / 10, o
ragione di 1 contro 9) mostra una bassa propensione a rischiare denaro su questo cavallo, quindi un
basso grado di credenza nella sua vittoria; mentre il contrario vale per chi scommette 90 euro per
incassarne 100 in caso di vincita (quoziente 9/10,o ragione di 9 contro 1). La coerenza di un sistema di
scommesse consiste nell’escludere che nel bilancio finale si vada incontro a una perdita certa, come
sarebbe il caso dello sprovveduto che facesse una scommessa di 100 euro su testa per averne 200 e
anche una seconda scommessa di 150 euro su croce per averne 200: in complesso, costui affronterebbe
una spesa complessiva di 250 euro per incassare 200 euro. Un sistema di scommesse incoerente viene
nel gergo chiamato Dutch Book (allibramento olandese). Ramsey e DeFinetti hanno fatto vedere che il
requisito della coerenza delle scommesse implica il soddisfacimento degli assiomi di Kolmogorov, anzi
equivale ad esso.
Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente successo, è dovuto al
fatto che risolve in modo indolore il problema della probabilità iniziali, dato che in questa prospettiva
queste rispecchiano solo le convinzioni iniziali di un soggetto dato. Può naturalmente sconcertare il
fatto che
un soggettivista radicale ammetta anche valutazioni di probabilità che il senso comune
tenderebbe a considerare forsennate. Ma dal suo punto di vista esistono due principi importanti che,
oltre alla coerenza, possono riconciliare il soggettivismo con il senso comune. Il primo è il già
ricordato teorema di Bayes. Tale teorema ci garantisce un modo per calcolare il passaggio da una certa
assegnazione di probabilità, poniamo h, alla probabilità revisionata (updated) di h data una certa
evidenza e. Possiamo calcolare, per esempio, la probabilità che tutti i corvi siano neri dato che 100
corvi sono neri (Pr h/e ) una volta che si conosca, oltre alla probabilità di h e quella di e, la probabilità
inversa che 100 corvi siano neri dato che tutti i corvi sono neri (Pr e/h, che ovviamente è 1 per ragioni
logiche). In tal modo il teorema di Bayes, a volte impropriamente chiamato teorema della probabilità
delle cause, ci consente di rappresentare molte forme - secondo i soggettivisti tutte – di ragionamento
ampliativo, con ciò intendendo il ragionamento non deduttivo.
Oltre alla coerenza, che è un criterio minimale di razionalità, secondo i soggettivisti c’è da tenere
conto di un secondo principio, valorizzato specialmente da De Finetti. E’ il cosiddetto principio di
scambiabilità, formulato per la prima volta in modo esplicito da W.E.Johnson con il nome di “principio
di simmetria”. In esso si dice che lòrdine in cui si presentano gli elementi che costituiscono l’
evidenza positiva a favore di una certa ipotesi è indifferente, nel senso che non influenza la suddetta
valutazione. Supponiamo di per dieci volte una moneta che sappiamo essere truccata. I lanci non
saranno indipendenti in quanto gli esiti di ogni lancio forniranno indicazioni sulla probabilità che
esca testa nel lancio successivo. D’altro canto, stabilito il numero di volte in cui esce testa in dieci
lanci della moneta, sapere in quali lanci sia uscito testa non è rilevante. In altri termini, si verifica
una invarianza permutazionale nel senso che la probabilità che si abbia una sequenza di 10 esiti con
un certo numero di teste è sempre la stessa a prescindere da quali siano esattamente le volte in cui è
uscita testa. Pertanto, se per esempio è uscita testa per tre volte su dieci, non importa se ciò si è
verificato nei primi tre tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che
l’impiego contestuale del teorema di Bayes e del principio di scambiabilita`è sufficiente ad assicurare
la ricostruzione del ragionamento statistico con risultati identici a quelli cercati dai frequentisti.
Il soggettivismo è diventato il paradigma dominante nelle ricerche probabilistiche degli ultimi
trent’anni. Le critiche a cui va incontro sono state oggetto di un ampio dibattito che non ha minato le
sue radici ma sembra aver contribuito al suo raffinamento.
Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra somme di denaro per
misurare le probabilità, dato che anche per un privilegiato con un ricco conto in banca rischiare 50
euro per averne 100 non è la stessa cosa che rischiare 50000 euro per averne 100.000. Eppure nei due
casi il rapporto tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo stesso
grado di credenza. A questo problema si può ovviare con strategie diverse. Una è quella, proposta già
da Ramsey negli anni ‘30, che consiste nel parlare non di scommesse ma di preferenze tra beni dotati di
un certo valore di utilità. In tal modo si è stabilito uno stretto rapporto tra la teoria della probabilità e
quello delle preferenze:
La seconda strategia, sottoscritta dallo stesso DeFinetti, consiste nel rinunciare all’assegnazione di
valori numerici in tutti i casi. È sufficiente avere una relazione “è più probabile di”, definita su
proposizioni, le cui proprietà siano descritte da un certo numero di assiomi, che in ogni caso risultano
tali da rendere derivabili gli assiomi di Kolmogorov.
Si noti che la probabilità comparativa ha una rilevanza dal punto di vista giudiziario, perché una
comune obiezione all’impiego del calcolo delle probabilità è che nelle aule dei tribunali non ha molto
senso impiegare valori numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima
con il 93% di probabilità. Come vedremo, questo è soltanto una dei molti problemi sollevati
dall’impiego del linguaggio probabilistico e del calcolo delle probabilità in ambito giudiziario.
Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo un’obiezione che è
stata condivisa da autorevoli filosofi del diritto (in Italia da M.Taruffo, che propende per una visione
logicista della probabilità): se si aderisce al soggettivismo, le valutazioni probabilistiche diventano
soggettive, con il rischio che un tribunale assolva un imputato che un altro può condannare in base a
diverse valutazioni soggettive. Questa obiezione è importante perché non è rivolta contro l’impiego del
calcolo delle probabilità nei tribunali ma contro la filosofia soggettivista. Vediamo come potrebbe
rispondere un soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi di
come dovrebbe procedere una corte di giustizia che volesse applicare la concezione soggettivista.
1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti, intese come insiemi di
credenze soggettive, evidenziando la loro coerenza interna.
2) il giudice sceglie la versione dei fatti che gli sembra più probabile, in base al principio del libero
convincimento del giudice.
Si sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche se i soggetti coinvolti
potrebbero in buona fede sentirsi guidati da obiettivi più elevati, come l’ aspirazione ad “accertare
la verità”. Di qui una possibile obiezione antisoggettivista: è meglio,uno potrebbe dire, una
ricostruzione probabilisticamente incoerente che risulta vera piuttosto che una coerente ma falsa. Il
soggettivista risponde che nessuno può garantire che una certa ricostruzione sia vera, anche se si
può dire che è più o meno approssimata al vero (Popper parla di verisimilitudine). Molti
soggettivisti rifiutano di usare la nozione stessa di verità associandosi polemicamente alla domanda
di Ponzio Pilato (Quid est veritas?). Quanto alla verosimilitudine, il soggettivista si chiede però che
vuol dire “verosimile”. Se si intende con ciò “credibile” si ricade nel soggettivismo. Se si intende
“approvabile” (quindi in accordo con il parere di esperti qualificati), che è il senso antico che aveva
la parola “probabile” nel Medio Evo, si regredisce a una concezione prepascaliana della probabilità.
Sembra che non resti che la probabilità in termini di frequenze relative, ma il soggettivista si
oppone al frequentismo non solo evidenziando le difficoltà interne che abbiamo già discusso, ma
osservando che tanto Carnap che Reichenbach hanno introdotto dei parametri per ponderare le
conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente delle variabili la cui
determinazione può essere solo soggettiva.
Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul significato della nozione di
probabilità hanno lasciato posto a un atteggiamento più flessibile e pluralista. Si ammette, in altre
parole, che in alcuni contesti potrebbe essere utile applicare la nozione classica, in altri quella
statistica, in altri ancora quella soggettivista, fermo restando che la sintassi impiegata e le regole
del calcolo, sono invarianti e devono restare tali.
LEZIONE 3. Il bayesianesimo
Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista l’unico strumento
disponibile per effettuare inferenze non-deduttive. Tali inferenze, che si chiamano a volte ampliative,
nella tradizione logica venivano classificate in due sottocategorie: quella delle inferenze induttive e
quella delle inferenze abduttive. L’induzione e l’abduzione vengono spesso presentate come processi
inferenziali conversi tra loro. Si guardi a questi due esempi :
(1) Se il fiammifero è stato sfregato, si è acceso
(2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato .
Nella (1) si passa da un evento ad un altro che può dirsi spiegato in termini del primo in base ad una
legge stabilita induttivamente. Dato che tra i due eventi sussiste un gap temporale e che la legge in
questione appare la descrizione di un nesso causale, si può anche dire che il primo evento è causa e il
secondo effetto. Nella proposizione (2) l’inferenza procede invece nella direzione inversa.
L’antecedente enuncia un evento del quale il conseguente descrive una spiegazione causale
attendibile.
In ambedue i casi la conclusione non segue dalla premessa con necessità ma solo con un certo grado
di probabilità, la cui esatta determinazione naturalmente può essere certo problematica. Nel secondo
esempio, comunque, l’intuizione dice che il grado di probabilità della conclusione è più basso di quello
della conclusione nel primo esempio. La conclusione di (2) è in effetti lecita una volta che si sia in
grado di escludere che non esistono spiegazioni migliori del fenomeno descritto nell’antecedente, in
cui si asserisce che il fiammifero si è acceso. Dunque quella che viene eseguita è un’inferenza “alla
miglior spiegazione”.
Come vedremo in seguito, la classificazione delle inferenze ampliative in induttive e abduttive
appare insufficiente se si tiene conto di un tipo di inferenza- l’inferenza controfattuale- che era
ignorato nella tradizione aristotelica e postaristotelica ma che ha un’importanza che la logica
contemporanea ha messo adeguatamente in luce.
È giunto il momento di vedere come si applica il teorema di Bayes nella trattazione dell’inferenza
ampliativa, sottolineando fin dall’inizio che insistere sulla centralità del teorema di Bayes non è solo
prerogativa dei soggettivisti, ma di una categoria di metodologi che vengono genericamente
raggruppati sotto l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di credenza
calcolabile che dipende dal grado di probabilità dalle prove disponibili. Data questa definizione ampia
di “bayesiano”, anche epistemologi non soggettivisti come Carnap si possono chiamare bayesiani.
Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di pensiero che ritiene che
ogni inferenza probatoria si basi, magari in modo implicito o inconscio, su un’applicazione del
teorema di Bayes .
Per fare un esempio,supponiamo si debba la stabilire la probabilità che Rossi abbia avvelenato il
caffè alla luce di certe evidenze disponibili.
Il detective comincia assegnando un certo valore a priori alla probabilità di H (Rossi ha avvelenato
il caffè) prima di esaminare le evidenze E1, E2, E3… En, dove E1 è, supporremo, il fatto che Rossi ha
comprato una dose di veleno. Egli assegna anche un valore a priori a Pr(E1|H), cioè alla probabilità
che Rossi abbia comprato il veleno dato che ha avvelenato il caffè (verosimiglianza). Se si assegna
anche un valore a Pr(E1), grazie al teorema di Bayes si trova Pr(H|E1). Dunque con questo metodo si
passa dalla probabilità di H a quella revisionata (updated) di H|E1. Chiamiamo Pr(H’) questa
probabilità revisionata. Si passa poi con lo stesso procedimento a calcolare Pr (H’|E2), ripetendo poi la
procedura per ogni presunta prova E1…En. Questa iterazione di revisioni porta a Pr(H’’’’|En). Si può
anche dimostrare che più aumenta il numero delle condizionalizzazioni più le valutazioni soggettive
tendono a convergere verso un valore unico, limitando quindi l’ arbitrarietà delle valutazioni a priori.
Un importante teorema noto come teorema di de Finetti è stato considerato dai bayesiani la
carta vincente per ridurre il peso dell’ arbitrarietà delle valutazioni iniziali. De Finetti ha dimostrato
che, se la sequenza delle prove è scambiabile e se le credenze di un ricercatore sono coerenti, allora il
valore che verrà assegnato all’ipotesi dopo un numero alto di esperimenti si approssima a quello della
frequenza relativa (come si asserisce nella legge dei grandi numeri). Come osserva Jonathan Cohen,
però, c’è un problema: due eventi E1 e E2 sono scambiabili purchè nella stessa misura irrilevanti per
H: ma la rilevanza è una nozione probabilistica e quindi la stessa nozione di scambiabilità risulta essere
una nozione probabilistica –e quindi, per i soggettivisti, sempre dipendente dai soggetti.
Le applicazioni del teorema di Bayes sono ad ampio raggio. Un esempio di come si applica il
teorema di Bayes è offerto, in medicina, dallo studio statistico dei falsi positivi e delle loro
conseguenze. I falsi positivi si verificano quando un test medico dà esito positivo in modo falso o
scorretto o, in altre parole, il test indica che il paziente ha una malattia che in effetti non ha. Possiamo
usare il teorema di Bayes per determinare la probabilità di essere vittima di un falso positivo.
Sorprendentemente risulta che, se una malattia è rara, allora tale probabilità è molto alta anche nei casi
in cui il test è accurato. Supponiamo che un test per una certa malattia produca i risultati seguenti:
1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato positivo il 99% delle
volte, cioè con probabilità 0.99.
2) Se un paziente sottoposto a test non ha la malattia, il test produce un risultato positivo il 5%
delle volte, cioè con probabilità 0.05 (falso positivo).
Ingenuamente uno potrebbe pensare che ciò significa che solo il 5% dei risultati sono sbagliati, ma
questo è un errore. Supponiamo che la malattia sia rarissima, per esempio che colpisca solo lo 0.1%
della popolazione, cosicchè un paziente scelto a caso ha una probabilità a priori pari a a 0.001 di avere
la malattia. Possiamo usare il teorema di Bayes per calcolare sia la probabilità di essere veramente
malati a fronte di un test positivo sia la probabilità di essere sani a fronte di un test positivo. Sia
A = il paziente è malato
B = il test è positivo.
Allora per quanto detto vale quanto segue:
1) Pr (B|A) = 0.99 (positivo se malato)
2) Pr (B|-A) = 0.05 (positivo se sano)
3) Pr (A) = 0.001
Quindi la probabilità che il paziente abbia effettivamente la malattia, dato il test positivo, per la
formula di Bayes è
(TB*) Pr(A|B) = ____Pr(A) • Pr(B|A)
---------se Pr(A) ≠0) =
Pr( A) • Pr(B|A) + Pr(-A) • Pr(B|-A)
0.99 • 0.001
= 0.019.
0.99 •0.001 + 0.05 • 0.999
In base al principio delle probabilità totali, per quanto già sappiamo,
la probabilità che il paziente
sia sano alla luce di un test positivo è il complemento della probabilità appena calcolata. Nel caso
dell’esempio è
Pr(-A|B), è circa 1-0,019 = 0.98 ( 98%). Quindi la probabilità di essere sani
nonostante il test dica il contrario risulta altissima: nonostante l’apparente accuratezza del test,
l’incidenza della malattia è così bassa che la grande maggioranza dei pazienti che risultano positivi al
test sono in realtà sani!. Si valuti bene però la percentuale di pazienti che risultano malati in base al
controllo (0.019) : questa è 19 volte la percentuale di quanti, a prescindere dal controllo, sono
realmente malati (0.001). Pertanto il test non è inutile e la ripetizione del test può migliorare
l’affidabilità del risultato.
Allo scopo di ridurre il danno prodotto dai falsi positivi è chiaro che, quando il paziente è sano, un
test dovrebbe mirare a dare esito negativo. Se il test producesse molto spesso un risultato negativo
in pazienti sani, diciamo con probabilità 0.999, allora la probabilità del vero positivo, Pr (A|B),
scenderebbe a 0.001: quindi avremmo, per “malato se positivo”
cosicchè in questo caso la probabilità di
sarebbe 1-0.5 = 0.5.
essere sano a fronte di un test positivo (cioè Pr -A|B)
I falsi negativi sono più pericolosi dei falsi positivi. La ragione è che con il falso positivo si rischia di
curare qualcuno per una malattia che non ha, mentre con i falsi negativi si rischia di non curare
qualcuno che è seriamente malato.
Il teorema di Bayes ci aiuta a calcolare la probabilità di essere vittima di un falso negativo , cioè di
essere malati in presenza di un test è negativo: Pr (A|non-B). Fatte le debite sostituzioni con gli stessi
inputs precedenti e stante che , se Pr (B|A) = 0.99, Pr(-B|A) = 0.01, avremo
Quindi, se una malattia è rara, la probabilità di incorrere in una situazione del genere è
fortunatamente bassa. Ma se il 60% della popolazione fosse esposto alla malattia, la probabilità di
essere vittima di un falso negativo sarebbe più elevata. In questo caso Pr(A) = 0.6 , donde
In caso di malattia diffusa o epidemica, quindi, la probabilità di essere vittima di un
negativo, pur essendo sempre abbastanza bassa, sale a 0.0155, cioè a 1,55%.
falso
Si noti che tutti i valori probabilistici inseriti nella formula di Bayes sono derivati da statistiche, non
da stime soggettive.
Passiamo ora dalla medicina al diritto. Qui ci si imbatte immediatamente nel problema di
distinguere tra indizi e prove, dove per “prova” si intende qualcosa che attribuisce all’ipotesi un elevato
grado di probabilità, mentre si intende di solito per “indizio” ogni elemento di informazione che rende
più probabile l’ipotesi .
Cominciamo con il discutere una regola giudiziaria basata su quello che si potrebbe dire
bayesianesimo ingenuo. Come è noto, nel diritto penale si chiede normalmente che le conclusioni
vengano raggiunte “oltre ogni ragionevole dubbio”, che si potrebbe parafrasare dicendo che la
probabilità deve essere sopra una soglia di 1-ε. Questa soglia, in prima approssimazione, fissa la
differenza tra ciò che si può dire provato e ciò che non lo è. La regola che si può formulare è allora
questa:
(R) Il giudice al termine del processo decide nel merito sulla sola base del valore di probabilità
dell’ipotesi: accetta il thema probandum se la sua probabilità è superiore a certa soglia di 1- ε e lo
respinge altrimenti.
Dunque la convinzione di tutti i bayesiani è che, potendosi assegnare dei valori di probabilità a tutte
le inferenze ampliative, si possa anche calcolare con esattezza se gli asserti che interessano il giudice
superano o meno la soglia dell “oltre ogni ragionevole dubbio” o di 1-ε.
Sull’ esatta determinazione del valore di € bisogna osservare che ci sono state diverse controversie. Il
valore di certezza pratica in molti contesti è fissato convenzionalmente in 0,999999. Adottare la
condotta (R) con questo valore di ε è quello che diremmo un comportamento razionale. Ma non c`è
dubbio che un livello così alto di certezza, se è giustamente richiesto, poniamo, per la sicurezza aerea,
non è quasi mai raggiungibile in un processo penale. Il dilemma, naturalmente, è il seguente: se punire
un numero troppo alto di innocenti (accettando soglie più basse di probabilita`) o lasciare in libertà un
numero troppo alto di malfattori (accettando una soglia eccessivamente alta di probabilita`).
Come afferma Eggleston, il diritto inglese assegna alla giuria lònere di stabilire cosa sia una misura
"ragionevole" di probabilità in quel particolare contesto. Si parla infatti di "convinzione oltre ogni
ragionevole dubbio". Ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è razionale ma non
ragionevole. In ogni caso di scomparsa di persona, per esempio, possiamo tra le varie ipotesi
considerare quella per cui lo scomparso sia stato rapito dagli extraterrestri. Infatti, in tali casi
prendiamo in considerazione è una possibilità logica ma non una possibilità fisica, stante che non
disponiamo di leggi fisiche che riguardano soggetti extraterrestri.
L’ipotesi come quella di una sostituzione di persona o di una diabolica messinscena (su cui
torneremo) rientra nel repertorio giornalistico e anche giudiziario, ma è dubbio sia ragionevole.
Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore di ε come quello di
un valore trascurabile non specificato. Si tratta di una procedura di idealizzazione che non è lèccezione
ma la regola anche nella scienza. Dal punto di vista applicativo, infatti, questo valore sarà quello in cui
converge la convinzione della giuria una volta che non sia influenzata da fattori di qualche genere.
Lord Dennig scrisse :"Nei processi penali làccusa deve essere provata oltre ogni ragionevole
dubbio, ma possono esserci dei gradi allìnterno di questo standard" .La solidità della prova dovrebbe
essere proporzionata alla gravità del reato. Sono state anche fatte delle ricerche sui valori di probabilità
che vari soggetti chiamati a giudicare stimano sufficienti in rapporto a diversi reati. Per la prova di
omicidio, per esempio, i giudici richiederebbero 0.92 mentre i giurati 0.86.
Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni ragionevole dubbio"
ciascun elemento di prova deve a sua volta risultare tale oltre ogni ragionevole dubbio. Questo è
eccessivo, perché le singole prove potrebbero non essere certe ma la loro somma complessiva potrebbe
portare l’ipotesi al livello di credibilità richiesto.
Nei processi civili anglosassoni ci si conforma a uno standard diverso da quello di "oltre ogni
ragionevole dubbio" richiesto per i processi penali, ma le opinioni sul grado di probabilità richiesto
sono divergenti. Il minimo che si chiede è che la probabilità di A superi la probabilitàdi -A, cioè il
50%., anche se si tende a usare la locuzione più vaga "preponderanza della probabilità". Sempre
Lord Denning sostiene che, allo stesso modo in cui c'è una variabilità del concetto di ragionevole
dubbio, c`è una variabilità anche nel concetto di “preponderanza di probabilita`. Una regola pratica
condivisa è per esempio questa: il tribunale puo` accontentarsi di un minor grado di prova quando
ritiene che la reputazione dellìmputato sia talmente cattiva che una condanna in piu` non potra
peggiorarla.
Si noti che i processi penali e civili possono essere intrecciati: può capitare per esempio che un
tribunale civile impedisca la trasmissione di un patrimonio a un soggetto che si sospetta abbia
assassinato la donna che ha steso il testamento.
Una classe importanti di problemi nell’impiego del calcolo delle probabilità è posta dalla credibilità
dei testimoni. Una volta stabilito che i testi sono indipendenti, la credibilità della testimonianze
dovrebbe essere ottenuta moltiplicando le varie probabilità mediante il principio delle Probabilità
Composte. Ma il primo problema riguarda l’attendibilità delle singole testimonianze.
Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo qualcosa di falso in
buona fede o mala fede. Bisogna considerare anche la probabilita` che abbia visto bene, che sia
intimidito o ricattato da altri, che si ricordi esattamente cio` che ha visto, che non venga frainteso e che
non sia ostacolato nel raccontare cio` che intende raccontare.
La sociologia dei mass-media ha reso familiare questo fenomeno : che quando un presunto fatto
viene trasmesso reiteratamente e a tutto campo dai media, si trova quasi sempre qualcuno che è
disposto a testimoniare della veridicità del fatto stesso – e si noti che costui non è necessariamente
subornato o in mala fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare
qualcosa che non esisteva prima di comparire su un giornale o in TV . Lo spazio concettuale
dell’uomo medio, che è quotidianamente condizionato dai media, è saturo di fattoidi che sono in grado
di orientare i suoi comportamenti anche sul piano politico. Vale certamente il principio per cui una
falsità più volte ripetuta tende a diventare inerzialmente una “verità”.
Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le cui testimonianze cioè
non siano convergenti con quelle di altri testimoni indipendenti. In ogni caso, comunque, ci sono dei
criteri per valutare la versione di un testimone singolo:
1) coerenza interna della versione
2) coerenza con le versioni di altri testimoni
3) coerenza con fatti non controversi
4) "credito " del testimone (che esclude, per esempio, soggetti con disturbi psicofisici)
5) accuratezza dell’osservazione del testimone (per esempio potrebbe fingere un difetto fisico)
Il requisito della coerenza non va inteso solo in senso logico-formale. "Andò e tornò da Roma in un
giorno" un secolo fa sarebbe stato considerato incoerente con le leggi fisiche, oggi sicuramente no.
I testimoni a volte mentono quando è in gioco la loro reputazione o la loro dignità personale. Si noti
che il testimone giura di dire "la verita`, tutta la verita`, niente altro che la verita`". Questo implica che
l'omissione nella esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto l’omissione non e
considerato reato a meno che non comporti la falsità di una parte della testimonianza. In realtà molti
testimoni non si sentono in colpa se pensano di mentire a fin di bene.
Un errore comune, in ogni caso, è pensare che i testimoni siano completamente veridici o
completamente mendaci. Si tende a sottovalutare la facilità con cui molta gente dimentica le cose più
banali, anche la stessa lingua madre. E si tende anche a trascurare il fatto che i mentitori più astuti
conoscono l’arte di mescolare verità e menzogne, o dire “mezze verità”, in modo da risultare il più
possibile credibili.
Che dire quando un testimone enuncia un fatto eccezionale o improbabile? Secondo Hume e Laplace
anche la veridicità del testimone in questo caso deve essere giudicata improbabile. Esempio tratto dalla
cronaca: un testimone che dichiara di aver preso un candelotto di dinamite da suo fratello e di esserselo
dimenticato in tasca. Ma a volte i testimoni raccontano in modo veridico dei fatti assurdi , e làssurdità
di quello che raccontano si potrebbe usare per provare la loro buona fede, dato che chi mente di solito
non ha interesse a raccontare qualcosa che si stenta a credere.
Un problema importante connesso a quello appena menzionato riguarda ciò che si intende
esattamente per improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente, e probabile
ciò che non lo è. Se in una mano di bridge mi vengono serviti 13 carte di picche questo è sorprendente,
anche se a rigore ha la stessa probabilità di qualsiasi altra distribuzione. Dunque ci vuole cautela
nell'usare concetti come quello di sorpresa potenziale di Shackle (di cui parleremo) o di "indice di
sorpresa" di Weaver.
L'idea di Eggleston è che la probabilità, anche nei giochi d’azzardo, deve essere stabilita a fronte di
tutte le alternative possibili. Se, per esempio, le carte dell’esempio appena proposto sono state
distribuite ieri e il fatto viene riportato oggi a gioco finito, dobbiamo considerare anche l'alternativa
che le carte siano state truccate oppure che il teste che riporta il fatto a distanza di un giorno sia
menzognero: alternative che non sono affatto trascurabili. Si pensi al famoso argomento di Hume sui
miracoli. Che cosa è piu` probabile? Che ci sia una violazione di una legge di natura o che qualcuno
dica il falso perchè ha avuto le traveggole o è un mitomane?
Ora, in tema di testimonianze, il teorema di Bayes si rivela uno strumento prezioso. Nel caso piu`
semplice, abbiamo due testimoni per valutare l’attendiblità di un certo enunciato S. Supponiamo di
porre
As = Il teste A afferma S con verità
Bs = Il teste B afferma S con verità
S = la dichiarazione S è vera
-S = la dichiarazione S è falsa.
Utilizziamo qui una nuova nozione, la nozione di ragione o quota di scommessa (in inglese odds: da
non confondere con il quoziente di scommessa) su B dato A, che è il rapporto tra Pr(B|A) e Pr(–B|A) :
Pr(B|A)
10/100
--------------- (per esempio –––––––- = 1/9 (1 contro 9).)
Pr(-B|A)
90/100
E’ matematicamente interessante osservare che, così come si può passare dalla probabilità alla
ragione di scommessa (odds), esiste anche il passaggio inverso. Infatti, dato il rapporto O della
probabilità di un evento E rispetto a quella complementare, si dimostra che la probabilità dell’evento E
in questione è espressa da
Pr(E) = O(E)/1+O(E).
Utilizziamo ora questa variante equivalente del teorema di Bayes, , in cui la formula di Bayes
compare sia al numeratore che al denominatore in due esemplificazioni diverse, una con H e l’altra con
-H ():
=
Pr H • Pr(E| H)
● 1/Pr E
(OB) Pr(H|E)
Pr(-H |E)
Pr- H • Pr(E|- H) ● 1/Pr E
Sulla sinistra compare la ragione di scommessa, anzichè la semplice probabilità condizionata di H
rispetto ad E. La formula equivale
naturalmente per semplificazione a
=
Pr H • Pr(E| H)
Pr(H |E)
Pr(-H |E)
Pr( - H) • Pr(E|- H)
Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore probatorio dell’evidenza E o
rapporto di Bayes. Quanto alla probabilità a posteriori Pr (H|E) a volte viene chiamata credibilità.
Quindi la probabilità di unì’ipotesi espressa dalla ragione di scommessa si riduce sostanzialmente a un
prodotto tra il rapporto a priori e il valore probatorio dell’evidenza.
Tornando all’esempio, avremo quindi come caso speciale, ponendo H=S e E= As ∩ Bs, Pr(S|As ∩
Bs)/ Pr(-S|As ∩Bs) = Pr(S)/Pr(-S) • Pr(As ∩ Bs| S)/ Pr(As ∩ Bs| -S).
Viene così espressa in termini di ragioni di scommessa la risposta a questa doamanda: qual è la
probabilità che S sia vera se i testi sono veridici ?.
La frazione Pr(S)/Pr(-S) entro la formula indica la ragione iniziale di scommessa su S prima che
si sentano i testi, cioè il valore a priori della probabilità di S.. Circa As e Bs bisogna stabilire se si
considerano i testi indipendenti oppure no. Nel primo caso Pr(As ∩ Bs|S) si riduce, applicando il
teorema delle probabilità composte, a Pr(As|S) • Pr(Bs|S). Altrimenti bisogna ricorrere ad una
espressione piu` lunga che il lettore puo` calcolare da sè.
Al proposito alcune osservazioni.
Naturalmente, per applicare il teorema di Bayes bisogna fare qualche assunzione circa le probabilità
iniziali. In casi di incertezza tra due alternative si assume convenzionalmente, ispirandoci al principio
di indifferenza, che la probabilità iniziale sia 0.5. Ma i testi potrebbero avere a disposizione più di due
versioni possibili dei fatti, poniamo cinque. In questo caso, per esempio, Pr (As|S) = Pr(Bs|S) = 1/5.
È importante osservare che la richiesta di alta probabilità della conclusione è stata proposta anche
nell’ambito della metodologia delle scienze fisiche. Il cosiddetto modello hempeliano di spiegazione
SI (ossia Statistico-Induttiva) esige che l’explanandum venga derivato dall’explanans con un alto grado
di probabilità. Ma le difficoltà che sono state riscontrate nella teoria hempeliana si applicano
immediatamente alla regola R. Infatti, mentre nella logica deduttiva l’aggiunta di altre informazioni
alle premesse non altera la conclusione, questo non si verifica nella logica probabilistico-induttiva. Nel
linguaggio dei logici, questa inferenza è non-monotòna. Se, per esempio Pr(H| K) = 1-ε, per valori non
banali di E può accadere che Pr (H|K ∩ E) < (1 – ε). In altri termini, nuova informazione indipendente
può abbassare il livello di probabilità della conclusione. Supponendo che la probabilità che un verdetto
raggiunto sia molto alta, questo significa che il risultato è però rischia di essere revocato in dubbio alla
luce di nuova informazione, e questa instabilità sembra che non ci consenta di dire che la conclusione
valga oltre ogni ragionevole dubbio.
Per un motivo analogo non è transitiva la relazione implicativa che possiamo definire così:
(Def. =>) A => B =Df Pr(B|A) = 1-ε.
Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1- ε, ed è vero B => C ,
ossia Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1- ε. Quindi una catena di ragionamenti
ciascuno dei quali è ragionevolmente certo potrebbe avere una conclusione che non è ragionevolmente
certa.
La difficoltà di raggiungere una conclusione stabile è aggravata dal fatto che i soggettivisti negano
che ci debba essere necessariamente un consenso intersoggettivo (a fortiori “oggettivo”) sulla
assegnazioni iniziali. I soggettivisti più intransigenti (in genere seguaci di De Finetti) respingono per
ragioni di principio anche la possibilità di distinguere tra valutazioni ragionevoli e valutazioni che
dipendono dai gusti o dalle preferenze individuali, introducendo un elemento supplementare di
incertezza. Non è quindi detto che le assegnazioni iniziali in caso di ignoranza siano 0.5 per ogni
soggetto, e non c’è garanzia che ci sia uniformità nel giudizio collettivo.
Il soggettivista ha gioco facile nel rilevare che il bayesianesimo di stampo logicista, è naufragato
insieme al sogno di Carnap di creare una teoria formale espressa nel linguaggio della logica dei
quantificatori. La visione di Carnap inoltre presuppone la neutralità dei dati su cui si valutano le
ipotesi, idea notoriamente respinta dall’epistemologia postpositivista.
Il punto debole del logicismo starebbe in particolare nel fatto che ignora il momento della dialettica
probatoria, cioè il fatto che la ricostruzione del fatto avviene attraverso la discussione e la controversia.
Tenendo presente l’idea della dialettica probatoria, recentemente Alberto Mura ha proposta una terza
via, oltre al logicismo e al soggettivismo bayesiano, che ha chiamato bayesianesimo critico. Per capire
la differenza , riprendiamo l’idea già accennata secondo cui è normale definire probabilisticamente la
nozione di rilevanza in questo modo:
1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B)
2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B)
3) A è irrilevante per B quando Pr (B|A)=PrB
Su questa nozione si basano tutte le teorie probabilistiche della causa
come quella di Suppes e Salmon. Ma, se le probabilità iniziali sono soggettive, ne segue anche che
anche i nessi di rilevanza risultano tali. Essi quindi non sarebbero oggetto di conoscenza ma di
opinione. In tal modo si perde la speranza di costruire un consenso razionale nella ricostruzione dei
fatti e di adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza, che deve
basarsi su ragioni universalmente condivisibili. Inoltre, come già ancitcipato, si può mostrare che in tal
modo si rende impossibile addirittura applicare lo stesso principio di indifferenza. Viceversa, bisogna
ammettere che le valutazioni di rilevanza possono essere in molti casi antecedenti a quelle di
probabilità e tali da condizionare la revisione delle probabilità richiesta dal teorema di Bayes. Una
critica di questo tenore era già stata menzionata a proposito del principio di scambiabilità di de Finetti.
Al proposito si noti che nel ragionamento giudiziario è essenziale far leva sulle cosiddette “massime
d’esperienza”, che non sono leggi di natura ma sono però generalizzazioni affidabili. Per esempio “un
teste disinteressato normalmente dice la verità” in termini probabilistici si potrebbe tradurre con
(ME) Pr (x dice la verità|x è disinteressato) > 1/2
E’ dubbio infatti che si possa rendere con
(ME’) Pr (x dice la verità|x è disinteressato) = 1- ε
dato che diverse cause possono influire sulla veracità dei testi.
Una variante della stessa massima sarebbe forse meglio resa da
(ME’’) Pr (x dice la verità|x è disinteressato) > Pr (x dice la verità|x è interessato)
Tali probabilità non possono essere considerate prodotti di valutazioni soggettive. Il bayesianesimo
critico asserisce che i giudizi di probabilità sono opinioni non definitive ma aperta all’altrui critica,
intrattenute con l’obiettivo di convincere gli altri a raggiungere il consenso.
Di fatto le applicazioni del teorema di Bayes, come già osservato, sono di solito appoggiate a dati
la cui origine non è necessariamente soggettiva: potrebbero essere, per esempio, dati accettati con
solide basi statistiche. Questo è ciò che accade, come si è visto, nel campo diagnostico.
Per illustrare questi usi, cominciamo con l’osservare che la formula di Bayes di p.000 è solo la più
semplice di varie formulazioni equivalenti o estese. Una di queste è già stata usata a p.000. Un’altra è
la seguente, che si ottiene tenendo conto dell’ informazione disponibile K (Background Knowledge)
nella valutazione di probabilità. Abbiamo già visto che se Pr(A) è molto alta, Pr( A ∩ K) potrebbe
essere più bassa dato che l’informazione accessoria può avere un suo peso. C’ è una differenza tra
valutare la probabilità di un evento astratto o generico (p.es. la probabilità che un fiammifero si
accenda quando è sfregato) e la probabilità dello stesso evento rebus sic stantibus, cioè in circostanze
note e ben determinate (che possono essere anche inibitorie: per esempio presenza di umidità sulla
capocchia del fiammifero). In effetti
la valutazione delle probabilità dovrebbe essere sempre fatta tenendo conto della conoscenza di sfondo
K, tenendo conto che il valore probabilistico di K si può eventualmente annullare in contesti adeguati.
In effetti quindi una formulazione più generale della precedente formula di Bayes in termini di
ragioni di scommessa sarebbe
Pr(H|E ∩ K)
Pr(-H |E ∩K)
=
PrH
• Pr(E ∩ K|H)
Pr -H • Pr(E ∩ K|-H)
Questa probabilità è la probabilità a posteriori di H (credibilità)alla luce dell’informazione E ∩ K.
Se K non trasmette informazione, lo si può porre uguale a x=x o qualsiasi truismo equivalente (donde
Pr(K)=1) , il suo peso si annulla e si ritorna alla formula originaria.
Il rapporto di Bayes o valore probatorio dell’evidenza E, cioè il rapporto tra verosimiglianze, che
ora prende questa forma:
Pr(E ∩ K|H)
(RB) V = ------------------Pr(E ∩ K| -H)
Intuitivamente è la forza con cui rebus sic stantibus E sostiene H piuttosto che la sua negazione –H.
Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1(quindi non è una
funzione di probabilità, perchè questa ha come massimo valore 1). Per esempio un rapporto come 0.9 /
0.10 , ossia 9, esprime un alto grado di forza della prova per l’ipotesi H alla luce di E, mentre un
rapporto inverso 0.1/ 0.9 rappresenta un basso grado di forza dell’ipotesi alla luce di E.
Supponiamo che l’evidenza che si ritiene importante per la colpevolezza sia data dall’impronta
digitale dell’imputato su un coltello. Allora valutiamo la probabilità che il rilascio dell’ impronta si
verifichi se l’imputato è colpevole ( Pr(E ∩ K|H) ) confrontandola con la probabilità che ciò si verifichi
se l’imputato è innocente, ossia Pr(E∩K|-H). Il rapporto tra questi due valori esprime il valore
probatorio dell’evidenza E.
Si noti che tale valore probatorio potrebbe derivare da statistiche ben
precise, come avviene spesso in medicina. Per esempio, nel caso in cui Pr(E|K ∩H) esprime il vero
positivo (p.es. la Wassermann mostra certi valori a e b se Tizio ha la sifilide) e Pr(E|K ∩ -H) il falso
positivo (p.es. se
Rossi non ha la sifilide m la reazione Wassermann mostra certi valori a e b b), V esprime il rapporto tra
le verosimiglianze dei due tipi di evento. Il valore probatorio della Wasserman è dunque il rapporto tra
veri positivi e falsi positivi.
Il teorema di Bayes ci consente di calcolare la probabilità che Rossi abbia la sifilide dati i risultati
della Wasserman, una volta fissati gli altri valori della formula di Bayes.
Certo il valore di Pr (H|E) e Pr(E|H) dipende dalla probabilità a priori di Pr(H). Se, per esempio, tale
probabilità a priori è molto bassa, anche il valore di Pr(H|E) tende ad essere molto basso anche a fronte
di prove sostanziose. Questa caratteristica ha un rilievo soprattutto in campo giudiziario. La c.d.
“presunzione di innocenza” dovrebbe indurre ad assegnare probabilità 0 all’ipotesi della colpevolezza
(H), con il risultato che Pr(H|E) =0 , il che vuol dire che nessuna prova può dimostrare la colpevolezza
dell’imputato!!
Naturalmente su questo si potrebbe discutere. Riflettendo bene sulla
precedente formula, assegnare probabilità 0 alla colpevolezza significare
affermare che è impossibile che l’imputato sia colpevole. Questo non è
quanto si intende con la presunzione di innocenza. Ciò che si intende dire semmai è che vale Pr(C) <
Pr( -C), cioè che è più probabile sia innocente che colpevole, che è quanto basta per ritenere che a
priori non sia meritevole di nessuna condanna. D’altro canto questa valutazione comparativa non fissa
un valore determinato e di per sè rende inapplicabile il teorema di Bayes.
Il modo di procedere potrebbe essere diverso. Come abbiamo già
suggerito, applicando intuitivamente il principio di indifferenza, è più
trasparente partire da un'opinione iniziale (antecedente alla considerazione degli indizi disponibili) che
assegni uguale probabilità a colpevolezza C e innocenza I:
Pr (C) = Pr (I) = 0.5
e ciò in base all’idea che a priori non v'è alcuna ragione per privilegiare l'una o l'altra delle due
possibilità. L'evidenza indiziaria E conduce ad aggiornare tali probabilità iniziali, non perché esse
fossero errate, ma perché siamo in presenza d'uno stato d'informazione di cui prima non si disponeva.
Le probabilità finali prodotte dal Teorema di Bayes sono quindi:
Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 ●Pr(E|I)/Pr(E)
Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 ● Pr(E|C)/Pr(E)
E’ interessante anche notare che il teorema di Bayes, pur rendendo
possibile un’inferenza dagli effetti alle cause (cioè un’abduzione causale) nel caso si disponga della
probabilità dell’inferenza inversa, rende trasparente una comune fallacia del ragionamento formale ma
anche induttivo : la c.d. “fallacia consequentis” o fallacia dell’affermare il conseguente. Per tornare all’
esempio del fiammifero, dalla legge che tutti i fiammiferi sfregati si accendono possiamo inferire che
se a è un fiammifero ed è sfregato molto probabilmente si accende. Ma è illecito operare l’inferenza dal
fatto che il fiammifero a si è acceso alla conclusione che molto probabilmente è stato sfregato. Idem
per l’inferenza dal fatto che il fiammifero non è stato sfregato al fatto che probabilmente non si è
acceso. Se vogliamo usare il simbolo >, che
poi useremo largamente in seguito, un conto è S > F , altro è F > S, e altro ancora ¬S > ¬F.
Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle corti di giustizia:
“Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi fosse innocente, allora E
sarebbe molto improbabile; ma E si è verificato; perciò è molto improbabile che Rossi sia innocente,
quindi è molto probabile che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo –ma è
più che discutibile - di voler rappresentare il fatto che E si verificato come Pr(E)=1, i passi sono
1)Pr(E|C) = 1- ε
2) Pr(-E|-C) = 1- ε
ergo
3)Pr(-C|E) = ε
4)Pr(C|E)= 1- ε
5)Pr (C) = 1 -ε
Come si può vedere il ragionamento poggia sulla illegittima transizione dalla verosimiglianza (o valore
probatorio dell’evidenza) Pr(E|C) - passo 1- alla credibilità Pr(C|E) (passo 4, equivalente al passo 3).
Ricordando la definizione di =>, si passa da 1) C => E a 4) E => C.
Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di questo tipo. L’accusa
sostenne che un certo documento trovato dal controspionaggio francese in un cestino della carta
straccia dell’ambasciata tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei
messaggi in codice. Questo perché in quel documento le lettere dell’alfabeto comparivano,
apparentemente, con una frequenza diversa da quella con cui comparirebbero nella prosa francese
“normale”. Nel processo del 1894 il celebre scienziato forense Alphonse Bertillon cercò di calcolare la
probabilità che quella particolare combinazione di lettere si fosse prodotta per caso, vale a dire
supponendo che Dreyfus fosse innocente e non avesse scritto
alcun messaggio cifrato. Poichè nei calcoli di Bertillon tale probabilità
Pr(E|-C) (valore probatorio) risultò estremamente bassa, si concluse che era anche estremamente bassa
la probabilità che Dreyfus fosse innocente, cioè che era basso il valore di credibilità o probabilità a
posteriori Pr(-C|E). Ma questo significa confondere Pr(E|-C) con Pr(-C|E). Nel secondo processo di
appello, nel 1904, una memoria scritta da tre“saggi”, fra i quali Henri Poincaré, faceva giustizia di
questa fallacia (e dei calcoli di Bertillon), ed affermava il corretto rapporto tra valori probatori e
credibilità ai fini della valutazione della colpevolezza dell’ umputato
LEZIONE 4 Bayesiani e antibayesiani
Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In comune tutti i bayesiani
hanno la convizione che il teorema di Bayes sia l’unico strumento per la resa delle inferenze
ampliative, che certo costituiscono un problema per chi vede nell’inferenza logico-matematica il
paradigma di ogni tipo di ragionamento. Secondariamente, hanno in comune la convinzione che
l’applicazione del teorema di Bayes consenta sempre di assegnare un valore numerico tra 0 e 1 a
qualsiasi rapporto tra premesse e conclusioni di un ragionamento ampliativo, per quanto complesso.
Il bayesianesimo ha acquisito un crescente consenso in vari settori della scienza soprattutto nella
seconda metà del XX secolo. Ma proprio nell’ambito dell’epistemologia si sono levate anche voci di
dissenso. Ricorderemo solo al proposito i nomi di Jonathan Cohen e Clark Glymour (altri nomi:
Tverski, Kahnemann). Glymour in “Why I am not a Bayesian” sottolinea il divario tra l’effettiva pratica
scientifica e l’idealizzazione del ragionamento offerta dai bayesiani. Diverso il caso della logica
deduttiva, pur essendo questa pure basata su un’idealizzazione. Pochi scienziati in effetti nella storia
della scienza hanno fatto ricorso a ragionamenti probabilistici e comunque, quando sono ricorsi a
questi, non lo hanno fatto partendo da assegnazioni di probabilità che erano arbitrarie. La critica vale
naturalmente contro il bayesianesimo soggettivista. In effetti, dato che le assegnazioni a priori per i
bayesiani soggettivisti sono arbitrarie, i soggettivisti devono essere disposti a giustificare i valori
probabilistici di ogni conclusione tratta con metodi bayesiani.
La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di convergenza,e in
particolare il teorema di De Finetti, assicurano in una certa misura l’intersoggettività, purchè si effettui
una reiterazione della procedura di revisione delle credenze.
Altre difficoltà tuttavia sono più nettamente tecniche.
(1) Supponiamo di considerare un dato dì evidenza già noto E che sia assolutamente certo, quindi tale
che Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E), ne segue, per il teorema di Bayes, Pr(H|E) = Pr (H )● Pr
(E|H)/ Pr (E) = Pr (H).
Quindi nel caso in cui si conosca con certezza una evidenza E prima di formulare l’ipotesi l’evidenza
E non conferma nulla. Questo è strano perché la “vecchia evidenza” è sempre servita a confermare
nuove teorie. Si pensi al fenomeno della precessione del perielio di Mercurio, che era già noto prima
che Einstein formulasse la teoria della relatività e che fu poi usata per confermare la teoria stessa.
Una risposta possibile alla difficoltà potrebbe essere che la probabilità 1 si assegna solo alle verità
logico –matematiche e la probabilità 0 alle contraddizioni logico-matematiche. Se vedo, o penso di
vedere, una gallina blu rivedrò le mie credenze circa il mio stato fisico e magari scoprirò di essere sotto
l’azione di una droga, ma non tratterò questo dato come una contraddizione logica. Ma l’ obiezione non
è decisiva: purtroppo il problema segnalato da Glymour si ripropone con il valore della certezza
pratica 1-ε, o con valori molto approssimati a 1.
(2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le
ipotesi più semplici rispetto alle altre. Le ipotesi più semplici sono intuitivamente più informative delle
ipotesi meno semplici. Nessuna applicazione del teorema di Bayes può rendere conto di questa
ragionevole preferenza per ipotesi semplici o informative.
Si può pensare che il ragionamento in ambito giudiziario possa trascurare le difficoltà in questione,
che sono state evidenziate in ambito epistemologico. Ma così non è, come è stato convincentemente
provato da Jonathan Cohen. La critica di Cohen al bayesianesimo è piu` radicale di quella di altri, in
quanto investe gli stessi assiomi di Kolmogorov e l’utilità del loro impiego in ambito giudiziario.
Cohen chiama "pascaliana" la trattazione classica della probabilità`, a cui contrappone una sua diversa
concezione, che chiama "neobaconiana".
Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una fonte di preoccupanti
paradossi.
Basti pensare a questi tre problemi:
a) Per il principio delle probabilità totali, dato che il valore massimo di probabilità è 1, come
sappiamo, Pr(-A)= 1 - Pr (A).
Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili prima
dell’acquisizione di nuova informazione. In tali casi, se la probabilità misura il grado di credibilità,
allora la probabilità di A e quella di -A sono ambedue più basse di 0.5. (Per esempi di questo
fenomeno tratti dalla casistica giudiziaria c’è solo l’imbarazzo della scelta).
Si noti, tra l’altro, che se il principio-guida nei processi civili deve essere quello della preponderanza
della probabilità, l’applicazione rigida dei teoremi del calcolo delle probabilità porta a risultati che
paiono contrari alle intuizioni etiche.
Se la probabilità che Tizio sia un evasore fiscale in una città in cui la percentuale di evasori è del
51%, quella che sia un onesto contribuente è del 49%. In base al principio della preponderanza quindi
dovrebbe essere condannato, ma così c’è un’alta probabilità che la condanna sia ingiusta. L’esempio è
solo un caso speciale di un paradosso a volte come paradosso “dello spettatore abusivo”. Un
organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci sono 1000 spettatori. Quindi 501 sono
entrati abusivamente. In base al principio della maggiore probabilità si potrebbe intentare causa contro
uno spettatore qualsiasi
in base al fatto che la probabilità che sia un abusivo è superiore a quello che non lo sia.
b) Una seconda difficoltà è generata dal principio delle probabilità composte. La probabilità di A ∩ B
è normalmente piu` bassa di quella di A e quella di B, per il principio delle probabilità composte. Ma se
due periti indipendentemente danno un giudizio convergente - per esempio sulla natura di una certa
sostanza chimica - la probabilità che ambedue dicano la verità e superiore a quella che ciascuno
singolarmente dica la verita: infatti la loro convergenza rafforza, anzichè diminuire, tale probabilita`.
Lo stesso grave problema riguarda le testimonianze Supponiamo che ogni teste abbia la scelta tra due
asserti, S e -S. Se due testimoni indipendenti, magari non molto credibili, concordano nell’affermare
S, la probabilita`che ambedue dicano il vero si abbassa per il teorema delle probabilità composte (p. es.
0.3 ● 0.4 = 0.12) mentre dovrebbe intuitivamente aumentare.
Mettere in dubbio il principio delle probabilità composte è esiziale per il bayesianesimo, dato che il
teorema di Bayes è derivato immediatamente da tale principio.
c) Le testimonianze di secondo grado - cioè le testimonianze su testimonianze - sono intuitivamente più
deboli di quelle dirette ai fini dell’ accertamento dei fatti. Ma questo non è rappresentabile entro la
probabilità pascaliana. In effetti non esiste una logica per trattare le probabilità di ordine superiore.
(Questo fatto, incidentalmente, non è registrato da Cohen). Tutto ciò che si può dire è che
(i)“se a dice la verità, b è un testimone credibile”,
(ii)” se b è credibile, allora l’imputato ha commesso il fatto “
implicano per la c.d. transitività del sillogismo
(iii) se a dice il vero, l’imputato ha commesso il fatto .
Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di (i) e (ii), mentre
intuitivamente è più debole perché basato su due livelli di testimonianze.
Il problema in effetti riguarda ogni tipo di inferenza ottenuto per transitività.La giurisprudenza esige
che ogni passo della catena inferenziale sia vero oltre ogni ragionevole dubbio, ma ciò non implica
che si debba accettare oltre ogni ragionevole dubbio ogni conclusione ottenuta per transitività. La
transitività in effetti vale se si pone ∈=0 (cioè per certezza matematica) ma non è affatto garantito che
la transitività valga per altri valori di ∈.
Un problema analogo in effetti è già stato affrontato nella prima lezione quando si è introdotto il
cosiddetto “paradosso della lotteria”. In quel caso abbiamo visto che l’ accettabilità basata sulla quasicertezza non si conserva passando da un singolo A e un singolo B alla congiunzione A & B: ora
dobbiamo aggiungere che lo stesso fenomeno si registra purtroppo per l’accettazione rispetto alla
transitività.
Cohen inoltre osserva che alcuni giudizi probabilistici, a differenza di altri, dipendono da premesse
controfattuali. Volendo identificare le probabilità con le frequenze, un conto infatti sono le frequenze
in una classe chiusa (p.es. gli attuali ospiti dell’Hotel Excelsior, di cui possiamo dire il 30% sono
italiani, per cui la probabilità che uno degli ospiti sia italiano è del 30%), altre le frequenze virtuali in
una classe aperta. Come è noto, i frequentisti propongono in questi casi di trattare le probabilità come
limiti di frequenze: ma è difficile dire quali dovrebbero essere questi limiti quando le proprietà da
esaminare dipendono da condizionali controfattuali: p.es. la probabilità di Tizio di morire in un
incidente se fosse un paracadutista.
Cohen insiste baconianamente sul fatto che la varietà del campione è tanto importante come la
numerosità dello stesso. Questo è un requisito che i frequentisti tendono a sottovalutare, anche se
Reichenbach insiste su quella che abbiamo chiamato “omogeneità” del campione. Un campione variato
è un campione che si presume non sia sbilanciato (tarato o biased) a favore di qualche ipotesi. Keynes
si è ispirato a Bacone introducendo il principio della “varietà limitata indipendente”. Ciò presuppone detto in modo semplificato - che c’è un numero finito e fisso di generi o specie naturali a cui i predicati
appartengono e all’interno dei quali hanno delle connessioni stabili.
Un caso nuovo osservato non ha nessun valore a meno che non mostri una combinazione di
caratteristiche nuove (variate) rispetto ad altri osservati. (Tale sarebbe per esempio un orso bianco
rispetto a un campione di orsi bruni). La persistenza di questi gruppi di caratteristiche dipende dall’
Uniformità della Natura: si tratta dell’idea che la collocazione spazio-temporale dei fenomeni non ha
nessuna rilevanza per le altre proprietà stabili dei fenomeni stessi o, altrimenti detto, che le proprietà
stabili riscontrate nei fenomeni sono spazio-temporalmente invarianti.
Cohen ha avuto sicuramente il merito di evidenziare che le intuizioni psicologiche circa le
probabilità discordano dai risultati delle procedure matematiche. Questa divergenza, che abbiamo già
notato nella prima lezione, vale anche per le applicazioni del teorema di Bayes. Abbiamo già visto che
per applicare il teorema di Bayes occorre fornire un input costituito dalle probabilità a priori,e già qui
nei tribunali sorgono dei problemi. Il bayesiano soggettivista avrà buon gioco a dire che il problema
non esiste perchè ciascuno puo` assegnare il valore che gli pare. Ma il problema è ovviamente che nei
tribunali la giuria deve raggiungere, se non lùnanimita`, almeno un ragionevole consenso.
Lòggettivista insisterà su due fatti: 1) ci vogliono delle convenzioni condivise per fissare le
probabilità a priori (per esempio 1/2 in caso di incertezza) e 2) altri valori che entrano nella formula di
Bayes dovrebbero essere derivati da fonti inoppugnabili (statistiche mediche).
E’ stato osservato che il modo intuitivo in cui il teorema di Bayes viene applicato dagli utenti in
effetti non è quello auspicato dai bayesiani.
Torniamo al teorema di di Bayes nella forma più articolata che, come abbiamo visto, è :
Pr (H|E ∩ K)
Pr (H)
Pr(E ∩ K |H)
------------------- = ----------- • ---------------------Pr(-H | E ∩ K)
Pr (-H)
Pr(E ∩ K |-H)
che connette la probabilità a posteriori (credibilità) con il rapporto a priori e il valore probatorio. La
probabilità a posteriori di H rispetto a una certa evidenza quindi equivale al prodotto del rapporto a
priori di H e del valore probatorio dell’evidenza. Nel caso in cui Pr(K)=1 questa formula coincide con
quella di p.000.
Ora anche se V (il valore probatorio) è alto, nel caso in cui il rapporto a priori è basso, la probabilità
Pr(H|E) resta bassa. Orbene, nella “versione psicologica” della regola di Bayes, il rapporto a priori
praticamente viene ignorato. Un esempio è il seguente (cito da un articolo di P.Cherubini ):
In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono blu, il 15%
verdi. Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone asserisce che si trattava di
un taxi verde. Una prova di acuità visiva dimostra che con quella luminosità e a quella distanza, il
testimone è in grado di riconoscere correttamente quei toni di blu e verde nell’80% dei casi. Qual è la
probabilità che il taxi visto dal testimone fosse effettivamente verde?
La risposta corretta è 41%. Infatti, ponendo Pr(K)=1(dato che qui non interessa) e applicando la
regola di Bayes abbiamo,se O è la ragione di scommessa:
O(taxi verde | testimonianza) = Pr( taxi verde|testimonianza / taxi
blu|testimonianza) = 0.15/0.85 • 0.8/0.2 = 0.71
quindi, alla luce della relazione già stabilita per cui Pr(Q) = O(Q)/ O(Q) + 1, si ha che Pr(taxi verde |
testimonianza) = 0.71/1.71 = 0.41.
La probabilità che il taxi fosse effettivamente verde alla luce della testimonianza quindi è piuttosto
bassa. Ma molte persone rispondono “80%”: usano la forza dell’evidenza testimoniale, ma non la
modificano in base alla probabilità a priori che il taxi fosse verde (15%). Altre aggiustano un poco la
loro stima: i taxi verdi sono rari, e a questi soggetti sembra allora ragionevole concludere che la
probabilità che il taxi fosse verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra
il 60% e l’80%).
Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde, mentre secondo una corretta
applicazione del teorema è più probabile che sia blu.
La tendenza a ignorare le probabilità a priori è stata molto discussa in
giurisprudenza, tanto da meritarsi un nome specifico: “fallacia dell’accusatore (Thompson e
Schumann, 1987). È stata però discussa quasi esclusivamente in relazione al test del DNA. La maggior
parte dei testi di statistica Bayesiana applicata al diritto dedica ampio spazio a questo test. Quando fu
introdotto, alcuni esperti asserirono che il test del DNA non poteva generare falsi positivi, ma ormai da
più di vent’anni è noto che non solo li può produrre, ma li ha effettivamente prodotti (Thompson,
1997).
La possibilità di sbagliare è così elevata che il risultato del test del DNA deve essere accompagnato in
aula dalla stima della “probabilità di corrispondenza nella popolazione” : la probabilità che a priori
una persona estranea ai fatti scelta a caso nella popolazione di riferimento abbia un profilo DNA che
coincide con quello del test .
Si sa che il test può essere usato in due modi diversi, a seconda che ci sia già un sospettato oppure
no.
(1) quando già esiste un sospettato per un certo crimine, si può confrontare il profilo DNA del
campione trovato sulla scena del crimine con quello del sospettato. Un’ eventuale corrispondenza
aumenta di molto le probabilità di colpevolezza del sospettato, perché il valore probatorio del test del
DNA, pur variando da situazione a situazione e in base al tipo di profilo DNA usato, è spesso molto
alto e la probabilità a priori di colpevolezza non è irrisoria (assumendo, naturalmente, che gli indizi
che hanno reso “sospetto” il sospettato siano fondati).
Se poniamo per semplicità Pr (corrispondenza | colpevole) = 1 e se supponiamo ora una
“probabilità di corrispondenza nella popolazione”, (cioè Pr(corrispondenza | non colpevole), pari a 1 /
1000000, il valore probatorio del test (rapporto di Bayes : 1/ [1/1000000] ) ha valore 1.000.000,
quindi è decisamente alto.
Se un indagato ha probabilità di colpevolezza a priori di 0.001 (1 / 1000), si può provare che sulla
base di questi dati la corrispondenza del profilo fa crescere la sua probabilità di colpevolezza da 0.001
fino a circa 0.999.(Infatti, definendo gli odds come a p.xx, O(H|E) = 1000000/999 = 1001 e Pr(H|E)=
O(H|E)/O(H|(E +1))
(2) Il secondo modo di usare il test consiste, in mancanza di un sospettato, nel confrontare il profilo
DNA del campione con i campioni contenuti in una banca dati (database). In questo caso, la scoperta
di una corrispondenza del profilo DNA rende “sospetta” una persona che prima non era stata messa in
relazione con il crimine.
Questo secondo modo di usare il test suscita vari problemi filosofici e
statistici. Per capire il problema si osservi che quando il sospettato è identificato esclusivamente nel
modo suddetto, le sue chances di colpevolezza a priori, cioè prima che iniziasse la ricerca, sono
irrisorie. Per fare un esempio. in un territorio con 10.000.000 di abitanti fisicamente in grado di
commettere un certo crimine, la probabilità di colpevolezza a priori di ciascuno di loro, compreso
Tizio, è 1 / 10.000.000. In queste circostanze, a parità di altri dati, la probabilità a posteriori della
colpevolezza di Tizio, lungi dall’essere la “quasi-certezza” come nel caso precedente, è inferiore al
10%. Ma se giudici, giurati e accusatori vengono informati da un perito della scarsa probabilità di
corrispondenza nella popolazione, tendono ad accettare il valore fornito dal perito senza revisionarlo
in base alla probabilità a priori della colpevolezza. Per esempio, se la probabilità di corrispondenza
nella popolazione per un dato profilo è 1/ 1.000.000 (come nel caso precedente) e Tizio corrisponde a
quel profilo, ritengono erroneamente che la probabilità che Tizio sia innocente
sia di circa 1 su
1.000.000.
Come si noterà, lo schema dell’errore è lo stesso che abbiamo evidenziato discutendo le probabilità
di essere vittima di un falso positivo.
Fortunatamente molti trattati di statistica forense hanno affrontato questo problema, diffondendo una
certa consapevolezza sulla fallibilità del test e sulle insidie nascoste in una sua lettura semplicistica,.
Per questo alcuni giustamente chiedono che l’esito del test sia sempre accompagnato in aula da una
stima del rapporto di probabilità a priori,
cioè di corrispondenza nella popolazione (ad es., Meester e Sjerps, 2004).
Nei paesi anglofoni si è discusso dettagliatamente sull'utilità del teorema di Bayes applicato a certi
problemi di identificazione. Esempio. Un tale, accusato di omicidio, era giaà noto per vessazioni e
violenze nei contronti della vittima. C’ era una sua impronta digitale sullàrma del delitto.
Lìmpronta era incompleta, ma lèsperto assicurò che solo una persona su 1000 aveva quel tipo di
impronta.
Ora valutiamo pari a 0 la probabilità a priori di trovare un’impronta del genere di qualche soggetto,
se questi è innocente. Assumiamo inoltre che tutti coloro che usano il coltello lasciano un’impronta. I
precedenti penali del sospettato portavano la probabilità di colpevolezza a un valore pari a 0.25. In
base a quanto già detto circa la presunzione di innocenza, la probabilità iniziale di colpevolezza si
poteva stabilire come pari a 0.5. Il valore a posteriori della colpevolezza risultava però
completamente diverso: 0.999.
Ma i dubbi erano in agguato. La conclusione seguiva ineccepilmente dalle premesse, ma queste erano,
come spesso accade, tutt’altro che scontate. Per quanto sia quasi incredibile, per esempio, si è
effettivamente verificato il caso di un poliziotto che aveva piazzato le
impronte di un innocente sullo sportello di una banca: quindi non è vero che la probabilità che un
innocente lasci un impronta è pari a 0.
Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario allìdea di insegnare il
teorema di Bayes ai giurati, perché diceva che il concentrarsi sul raggiungimento delle soglie di
certezza “oltre ogni ragionevole dubbio” faceva perdere di vista tutti gli elementi imponderabili che
invece erano rilevanti per la conclusione. Inoltre Tribe richiamava làttenzione sul fatto, più volte
sottolineato in precedenza, che la difficoltà di pervenire ad una stima adeguata delle probabilità iniziali
rende spesso inapplicabile il teorema di Bayes.
LEZIONE 5 –Alternative al bayesianesimo giudiziario
Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non
ha lasciato un segno tangibile nella pratica. Il successo di questo orientamento è dovuto all’affermarsi
della convinzione che la conoscenza vada di pari passo con la possibilità di misurare quantitativamente
i fenomeni e che le credenze siano assoggettabili a misure quantitative.
Una prima difficoltà, come abbiamo visto, è che la gente non tende a ragionare nel modo richiesto dal
teorema. Questo naturalmente non significa che lo schema bayesiano è errato ma che, evidentemente, il
ragionamento intuitivo tende ad essere fallace. Se è così però bisogna pensare a rieducarlo, il che non è
facile. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo delle probabilità con esercizi? Il
teorema di Bayes in effetti offre un modello ideale di ragionamento, così come la logica deduttiva
formalizzata, e quindi propone solo un modello normativo.
Il problema dell’input per l’applicazione del calcolo, cioè delle assegnazioni a
priori, è quello indicato concordemente come la difficoltà maggiore. Abbiamo già visto che , in caso di
incertezza, nonostante la presunzione di innocenza, si potrebbe porre il valore della colpevolezza pari a
½. Questo è ragionevole, ma si potrebbe anche risolvere il problema con una convenzione come quella
proposta dal celebre antropologo-fiolosofo David Lempert. Lempert suggerisce che in tutti i casi, civili
e penali, la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita da un quoziente 1/n , dove n è
il numero di possibili colpevoli nel mondo per quel reato. P.es. supponiamo che il numero di possibili
colpevoli al mondo per un certo specifico reato sia 1000. Allora la probabilità iniziale (a priori) di
colpevolezza non è 0.5 ma 1/1000 (1: 999). Le informazioni successive restringono il numero dei
possibili attori.
Ecco come può funzionare un meccanismo bayesiana.
Prima abbiamo il valore probatorio V
dell’evidenza E che, come si ricorderà,
è dato da Pr E|H / Pr E| -H
Poi alla luce di successivi elementi di informazione F,H, ecc. avremo
Pr (E ∩ F)|H / Pr (E ∩ F)| -H
Pr (E ∩ F∩ G)|H / Pr (E ∩ F ∩G) | -H
.......
Il valore probatorio dell’evidenza quindi si modifica con l’aumento dell’informazione, e
consequenzialmente si modifica, applicando il teorema di Bayes, la probabilità a posteriori di H data
l’evidenza disponibile. Per esempio, se sappiamo che il colpevole aveva una macchina rossa, il numero
dei possibili colpevoli si restringe da 1000 proporzionalmente, e il valore di Pr H condizionato alla
nuova evidenza varia di conseguenza.
Questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza
i cui colpevoli costituiscono un dominio finito e misurabile. Se,per esempio, H è l’ipotesi che un certo
delitto sia stato compiuto da un animale, questa probabilità a priori non può essere calcolata perché non
sappiamo quanti animali avrebbero potuto compierlo. In caso di ignoranza, potremmo fissare questo
valore come uguale allo stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una
difficoltà perché noi sappiamo anche che i delitti compiuti da animali sono molto più rari di quelli
compiuti da uomini.
Il bilancio della discussione dunque è che nell’assegnazione delle probabilità iniziali non ci sono
criteri inoppugnabili nemmeno nei casi in cui sarebbe lecito affidarsi al principio di indifferenza.
Ma di fatto il ragionamento probatorio presenta aspetti che non sono facilmente inquadrabili nello
schema bayesiano. Le critiche di Cohen e Glymour, già ricordate, fanno pensare che lo stesso calcolo
delle probabilità nell’assiomatizzazione classica (di Kolmogorov) sia una fonte di problemi.
Il problema da discutere è il seguente.: ci sono alternative praticabili alla teoria amtematica classica
della probabilità? Nel campo giudiziario si possono citare le proposte di tre studiosi, Cohen, Shackle e
Shafer, che si presentano interessanti perchè hanno parecchi punti in comune.
Sulla base delle critiche già avanzate Cohen ha elaborato una logica del
sostegno induttivo in cui non valgono i principi della probabilità pascaliana .
Non è stato l’unico ad abbandonare questa logica. La logica della sorpresa
potenziale di Shackle, per esempio, adotta una regola non moltiplicativa per la
congiunzione che è isomorfa a quella adottata da Cohen, ed è condivisa anche
dalla logica dell’accettabilità di Isaac Levi ( si rifletta al proposito sul “paradosso della lotteria esposto
a p.000).
Làlternativa neobaconiana di Cohen non puo` essere illustrata qui nei
dettagli. Basti dire che per Bacone lìnferenza ampliativa non fa leva sull’
induzione per enumerazione semplice (che Bacone trova puerile) ma sulla
ricerca di campioni variati. Dato che per lui esiste solo un numero finito di
forme (generi) un controesempio è molto piu` utile alla ricerca che non
l’accumulazione di molteplici esempi a favore: la cosiddetta induzione
eliminatoria consiste nel rafforzare un’ ipotesi eliminando tutte le ipotesi
alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i
cigni sono bianchi venne rimossa quando si scoprì che in Australia esisteva una
tribù di cigni neri. Questo aspetto del suo pensiero metodologico fa di Bacone
un Popperiano ante litteram, con ciò intendendo che il momento della falsificazione ha un ruolo più
importante di quello della conferma o delle verifica.
L’idea base è che le generalizzazioni hanno dei gradi di certezza diversi, a seconda della solidità del
ragionamento con cui vengono raggiunte.
Mill riprese questa idea con i c.d. “metodi induttivi”, che non sono metodi per la scoperta delle
cause ignote, ma metodi per provare o refutare l’esistenza di relazioni causali.
Come Bacone, Mill insisteva sull’importanza della varietà degli esperimenti,
mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla numerosità
degli stessi. Mill comunque ammetteva che nell’applicazione dei canoni
induttivi si dava sempre un certo margine di incertezza, che egli però
proponeva di calcolare nei termini della probabilità pascaliana.
Cohen sostiene che c’è una nozione di forza probatoria -il concetto di “peso” di
Keynes - che va aggiunto come correttivo all’apparato pascaliano . Il requisito
carnapiano dell’Evidenza Totale, il requisito della specificità massimale di Hempel a suo giudizio sono
sacrosanti in linea di principio, ma di fatto inapplicabili. L’idea di Keynes è che bisogna tener conto
non solo della differenza tra conferme positive e negative per un’ ipotesi H (e questa dà la misura della
probabilità), ma anche del volume complessivo dell’evidenza, che chiama peso dell’evidenza. Per fare
un esempio, l’aver estratto 20 biglie rosse e 80 verdi, quindi in totale 100 biglie, consente di dire che la
probabilità di estrarre una biglia rossa è di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse
e 800 verdi, ma il peso complessivo di questa somma di evidenze favorevoli e contrarie è ovviamente
superiore. Secondo Keynes il “peso” non è quantificabile, anche se può darsi un ordinamento
comparativo di pesi. Peso e probabilità quindi sono concetti relativamente indipendenti.
Secondo Cohen uno dei limiti dell’approccio bayesiano è proprio la mancata
attenzione alla esaustività delle conferme. Applicando il teorema di Bayes si può arrivare ad un valore
molto alto, o molto basso, di probabilità anche dopo aver considerato solo una o poche conferme: ma
l’aver considerato poche conferme implica che molte altre ne possono esistere, magari al momento
irreperibili, in grado di ribaltare il giudizio.(Si veda nelle pagine precedenti la critica del Prof. Tribe).
Se allo stesso giudizio invece si arriva dopo aver esaminato molte e variate conferme ,per quanto non
sia mai possibile ritenere che l’analisi sia esaustiva il giudizio è meno esposto al rischio di variabilità,
e quindi più solido.
Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico,
da lui detto “pascaliano” di probabilità, ed introdurre il concetto di probabilità
“baconiana”. Il metodo baconiano è basato, come già detto, sull’ induzione
eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi
alternative ad esso sono state considerate e poi eliminate per falisificazione.
Come vedremo, questo è il tipico schema di procedimento abduttivo.
Se non abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità baconiana è
minima (0): ciò implica, per esempio, che per la presunzione di innocenza la probabilità di
colpevolezza è posta uguale a 0. Ma a differenza che nel sistema pascaliano, tale probabilità può
crescere con l’accumularsi delle conferme, cioè eliminando le ipotesi alternative. In tal modo, tenendo
conto dell’ammontare di evidenza favorevole, Cohen intende avvicinarsi alla nozione keynesiana di
“peso”. Il concetto chiave in questa operazione è quello di legisimilitudine, con ciò intendendo
l’approssimazione allo status di necessità che è proprio delle leggi. Secondo Cohen il peso keynesiano
di Pr(H|E), se Pr(H|E)=n, dovrebbe risultare uguale alla legisimilitudine baconiana di E → (Pr(H)=n),
dove la freccia sta per la relazione implicativa.
Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla linea
antipascaliana chiedendo la rinuncia al principio delle probabilità totali, da cui
segue, come sappiamo, che Pr(-A)= 1-Pr(A). Il suo sistema cerca di catturare la
“sospensione del giudizio”. Se abbiamo pochi elementi per ritenere vera l’ipotesi H, possiamo
attribuire ad H una probabilità bassa, ad esempio 0.1: ma nel sistema di Shafer questo non significa
attribuire probabilità 0.9 a -H. Anche a -H possiamo attribuire probabilità bassa, ad esempio sempre
0.1, in quanto possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi ne
avevamo per ritenere che H fosse vera. La restante probabilità, 0.8 nel nostro esempio, quantifica la
propensione a non impegnarsi né su H né su -H, permanendo nel dubbio sulla stessa disgiunzione “H o
non H”.
La legge del terzo escluso sembra quindi messa in discussione in chiave probabilistica. Di fatto,
tuttavia, la situazione che si presenta è spesso un’altra. Se H è un’alternativa con bassa probabilità, ciò
che risulta con alta probabilità di solito non è la negazione di H. cioè non-H, ma un’altra alternativa H’
che appare , allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel famoso delitto
della penna a sfera, in cui le uniche due alternative ragionevoli sembravano avere bassa probabilità a
priori. Ma non esaurivano la campo logico delle alternative possibili. C’era quindi un terzo evento
sconosciuto B tale che
Pr(H ∪ H’ ∪ B)=1. Le informazioni acquisite in seguito poi furono tali da falsificare H e avvalorare
H’, abbassando significativamente il valore del terzo incognito B.
Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può
considerare derivata da una teoria molto originale introdotta dell’economista
R.S. Shackle. Shackle chiama la sua metrica sistema di misura dei “gradi di
sorpresa potenziale” o “gradi di disbelief” (cioè di “incredulità” o “sfiducia”) .
Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to
which we expose ourselves, when we examine an imagined happening as to its
possibility, in general or in the prevailing circumstances, and assess the obstacles,
tensions and difficulties which arise in our minds when we try to imagine it
occurring, that provides the indicator of degree of possibility. This is the
surprise we should feel, if the given thing did happen; it is potential surprise”.
(Shackle, 1961, p. 68)
Per capire la differenza tra questa nozione e quella di grado di credenza o
grado di probabilità, basta notare che, se B è il grado di sorpresa, tale grado
non si distribuisce su una congiunzione di ipotesi. Il grado di sfiducia (sorpresa), per esempio, nel fatto
che domani piova e che domani un cinese passeggi sulla luna, intuitivamente è pari o superiore al grado
di sfiducia (sorpresa) che un cinese domani cammini sulla luna, e questo chiaramente è il grado di
sfiducia (sorpresa) maggiore tra i gradi di sorpresa associati alle due ipotesi. Se il grado di sopresa
fosse identico al grado di probabilità, il principio delle probabilità composte ci obbligherebbe a dire che
il grado di sopresa delle congiunzione è uguale o minore al grado di sorpresa dei singoli asserti.
Shafer ha avuto il merito di operare la formalizzazione delle idee esposte
informalmente da Shackle , che poi ha applicato anche a sistemi esperti. La
logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice a questo capitolo)
C’è un aspetto interessante della concezione di Shackle – Shafer, non analizzato da Cohen . Secondo
Shackle credere in h ad un certo grado significa avere sfiducia in ¬h allo stesso grado. Sia d K il grado di
sorpresa potenziale di h
rispetto a K. Intuitivamente dK indica il grado di sfiducia o di non- credenza o di informatività di h. La
credenza, rappresentata dall’operatore di credenza (belief) b è il complemento di d (disbelief):
bK(h) = d K (¬h)
Il grado di sorpresa quindi è un’ interessante misura dell’informatività di un enunciato. Va detto che
Popper ha svolto, con obiettivi radicati nella sua teoria, un programma che ha certe analogie con quello
di Shackle-Cohen. Come si sa,
secondo Popper le teorie interessanti sono quelle falsificabili. Il numero di
falsificatori potenziali di h è per lui il contenuto informativo dell’ipotesi stessa h.
La probabilità e il contenuto informativo sono grandezze inversamente
proporzionali: nella proposta più semplice, sottoscritta da Popper,
cont(h) = 1- Pr(h).
Le tautologie pertanto sono prive di contenuto informativo, mentre le contraddizione sono
massimamente informative, dato che implicano tutto. Se c’è un numero di
ipotesi esaustive e digiunte h1…hn, il metodo popperiano ci impone di
scegliere la più informativa h e tentare di falsificarla. Popper ha proposto delle
misure di corroborazione, che non è la conferma probabilistica ma è il grado di resistenza dell’ipotesi
alla falsificazione mediante test severi. Entrando in gioco la nozione di “severità” o “rigore dei test”
non è possibile dare dei valori numerici ai gradi corroborazione, anches se è possibile stabilire dei
confronti .
Altri autori come Levi e Hintikka invece chiedono la massimizzazione dell’utilità epistemica, che
dipende dal prodotto della probabilità per il contenuto informativo. La grandezza così definita ha
proprietà intermedie tra quelle della probabilità e dell’improbabilità e la logica di questa nozione
presenta forti affinità con quella di Shackle .
APPENDICE . Per semplicità si assuma che l’universo del discorso W sia un insieme finito e
che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un
insieme –cioè l’insieme dei punti dello spazio-tempo in cui si verifica l’evento stesso. Una
distribuzione di possibilità è una funzione pos da W all’intervallo reale [0, 1] tale che:
Axiom 1: pos(∅ )=0
Axiom 2: pos (W=)=1
Axiom 3: pos(U ∪ ∨) = max(pos(U),pos(∨)) per sottoinsiemi disgiunti U e V.
Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella
teoria della probabilità. Supponiamo che U sia l’evento “estrazione di una
donna”e V “estrazione di un re di picche”. I due eventi sono disgiunti, la
probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di uno o l’altro
dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è
fissato a 1/13, cioè dal grado di possibilità più alto tra i due eventi.
La possibilità si dice dunque composizionale rispetto all’operatore di unione
insiemistica. Ma non è tale rispetto all’operatore di intersezione. In generale,
infatti,
pos(U ∩ V ) < min(pos(U), pos(V))
Come nella cosiddetta logica modale, la necessità è il duale della possibilità.
Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che
2+2 =4 sia falso”. Rappresentiamo in simboli il grado di necessità così:
nec(U) = 1 –pos(-U) > 1
Contrariamente alla teoria della probabilità, per ogni evento U , abbiamo la
diseguagliaza: pos(U) + pos(-U) > 1
Vale inoltre la seguente disgiunzione
Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0
Ci sono 4 casi:
nec(U) =1 significa che U è necessaria, cioè certamente vera. Essa implica pos(U)=1
pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0
. pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso
dell’occorrenza di U . nec(U) viene lasciato impregiudicato
nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei
affatto sorpreso del mancato verificarsi di U . pos(U) viene lasciato
impregiudicato.
La congiunzione di nec(U) =0 e . pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza corrisponde
alla contingenza in senso proprio, col significato che io non credo niente circa U. Stante che consente l’indeterminatezza in questo modo,
la teoria della possibilità è più vicina alla logica polivalente o alla logica intuizionista piuttosto che alla logica
classica bivalente.
Si può dimostrare in questo sistema:
per ogni U, nec(U) < pos(U)
e anche :
nec(U ∩ V) = min (nec(U), nec(V)
Recentemente il successo teoretico e applicativo della cosiddetta fuzzy logic
suggerisce di ricercare in quest’area strumenti utili al ragionamento
probatorio. Per cominciare è bene sottolineare, comunque, le differenze tra la
teoria della possibilit e la fuzzy logic.
Teoria della possibilità: La bottiglia è tutta piena o tutta vuota. “La possibilità che
la bottiglia sia piena è 0.5” descrive un grado di credenza e si fa interpretare
così: sono pronto a scommettere che è vuota nella misura in cui le ragioni di
scommessa pro e contro (odds) sono uguali (scommetto 1 contro 1), ma non
scommetterei mai che è piena.
Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la
bottiglia è, come dato reale, mezza piena!! La parola “piena” è un predicato
sfumato con cui si descrive la quantità di liquido nella bottiglia.
La fuzzy logic si appoggia su una fuzzy set theory , cioè su una teoria degli
insiemi sfumati, il che fa pensare che da queste premesse si ottenga solo
un fuzzy reasoning, quindi una classe di argomenti che non possiede canoni di
validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti
di giustizia.
Si noti che della teoria della possibilità si può dare una trascrizione
proposizionale in questo modo:
◊i(p ∧q) invece di Pos (P ∧Q) =i
◊i(p v q) invece di Pos (P vQ) =i
□i ( p ∧q) invece di Nec(P ∧Q) =i
□i(p v q) invece di Nec (P vQ) =i
Questa notazione è usata da Cohen in “The probable and the Provable” e in altri
saggi. I gradi di necessità vanno letti nella sua teoria in questo modo: ◊ip si
legge “p ha almeno un grado i-esimo di legisimilitudine”.
In questa logica ◊i p e ◊jq implica «i(p ∧q) quando i < j : questo è un principio
non-pascaliano, e risolve secondo Cohen le difficoltà della trattazione pascaliana
della congiunzione, cioè del problema delle probabilità composte, a cui
abbiamo accennato a suo tempo.
LEZIONE 6. Fallacie statistiche.
Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a
minimizzare l’importanza del ragionamento probabilistico nelle procedure
giudiziare. Negli ultimi anni, infatti, proprio nei tribunali, c’è stato un uso
crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli
già noti delle impronte digitali, dell’ identificazione di appartenenza di tessuti
organici ecc. sono soggetti ad argomentazioni di tipo statistico.
I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della conclusione.
Ma
quando si esemplifica l’applicazione del teorema di Bayes per calcolare la probabilità di un’ipotesi H
rispetto a un’evidenza E , di solito si tende a pensare ad H come un enunciato di tipo fattuale (p.es.
“l’imputato ha commesso il fatto”) oppure a un enunciato quantificato in forma universale o
esistenziale (“tutti gli elementi della banda hanno commesso il fatto”,o “qualche elemento della banda
ha commesso il fatto”). Ma che dire quando H è un enunciato di forma statistica (“il 70% dei cigni sono
bianchi”) o descrive una relazione causale (“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ?
In tal caso il teorema di Bayes dovrebbe consentire di calcolare Pr(H) , dove H però è a sua volta un
enunciato statistico o (nel caso causale) è un asserto che è in qualche modo dipende da leggi di forma
statistica.
In primo luogo sembra che nessun campo offre una maggiore possibilità di
errore, e quindi di manipolazione, di quello statistico. Basta dare una scorsa a
due libri apparsi in epiche diverse ma con titoli analoghi : “Mentire con le
statistiche” di Darrell Huff e „Wie man lügt mit Statistik“. [Come si mente con la
statistica] di Walter Krämer: Piper. München-Zürich: 2000. pp.1-206.
I due libri sembrano ispirarsi a una frase famosa di Mark Twain attribuita
anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le
statistiche”. Questo tra l’altro prova l’interesse giudiziario per l’argomento, in
quanto l’inganno operato con le statistiche risulta un tipo particolare di frode
che è estremamente difficile smascherare. In questi casi infatti ciò il giudice mira a stabilire per
sanzionare la frode non è un evento più o meno certo ma una coppia di fatti: (i) il fatto che un dato
ragionamento è viziato (ii) il fatto che questo vizio di ragionamento è risultato di un’ azione
intenzionale.
Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle
campagne elettorali non tanto per tastare il polso agli elettori ma per influenzare l’elettorato stesso. La
causa dell’inganno è abbastanza chiara: ai questionari e ai sondaggi risponde solo chi vuole, con il che
si deroga al requisito della randomizzazione del campione. Anche il sondaggio telefonico - che appare
più coercitivo e quindi in apparenza più attendibile- ha creato clamorosi errrori previsionali. Gli stessi
exit polls, che nelle intenzioni avrebbero dovuto anticipare le proiezioni elettorali, hanno prodotto
risultati inattendibili, al punto che sono stati aboliti nelle ultime tornate elettorali.
Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti
statistici. Per esempio, il concetto di disoccupazione è diverso da paese a paese,
per cui le statistiche sulla disoccupazione fatte in Germania danno risultati
diversi da quelli italiani senza che ciò implichi una significativa differenza nella
realtà dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali si stabiliscono soglie
diverse da paese a paese. La soglia della povertà in Italia è fissata convenzionalmente in una spesa
mensile pari a 582,20 euro per un single, 970,34 euro per una famiglia di due persone e 1581,65 euro
per una famiglia di quattro persone. Nel 2007 risultavano al di sotto di tale soglia 6 milioni di persone,
che è sicuramente un dato preoccupante. Nonostante questo, una capacità di spesa di 582 euro verrebbe
considerata degna di un benestante nella maggior parte dei paesi africani, asiatici e sudamericani.
Non vale neppure la pena di parlare delle inchieste sulla vita privata o sessuale della popolazione. In
questi sondaggi non solo risponde solo chi
vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi delle
proprie performances, per sfogare le proprie frustrazioni con la mitomania, o
semplicemente per il piacere di beffare l’intervistatore. Basti al proposito l'esempio del famoso
rapporto Kinsey sul comportamento sessuale degli americani che, com'
è noto, fece scalpore dando un'immagine dei comportamenti sessuali americani
diversa da quella immaginata dai benpensanti. Al proposito basti osservare due
cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al
sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non
rispondere potrebbe dipendere da qualche atteggiamento verso la sessualità
che non è quello della media dei soggetti (2) per semplificare il lavoro i Kinsey
inclusero nella classe dei soggetti intervistati un numero piuttosto elevato di
carcerati, i cui comportamenti sessuali erano spesso più trasgressivi di quelli
praticati dalla media degli americani. Questi due fattori evidentemente non
permettono di dire che in questa indagine veniva soddisfatto il requisito dell’
omogeneità della classe di riferimento , che si cerca di raggiungere con la randomizzazione.
Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche
motivo di vergognarsi delle inclinazioni che sono chiamati a manifestare.
Quando, per esempio, si fanno dei sondaggi per stabilire la proporzione tra
quanti amano la musica classica piuttosto che il rock, la risposta risulta
lusinghiera per i musicisti di musica classica, ma è purtroppo incompatibile con
quanto risulta dal consumo di dischi e di partiture di rock, rapportato al
consumo di dischi e partiture di musica classica. Incidentalmente, questi
sondaggi non tengono conto dal fatto che c’è una quota consistente di persone
che detestano la musica in qualsiasi forma, anche se tali soggetti nei
soondaggi tendono mascherare la loro antimusicalità.
Naturalmente, come già sappiamo, il problema è trovare un campione che sia
rappresentativo dell’universo, e si ritiene che questo si ottenga con un
campione ampio e randomizzato. Ma è difficile soddisfare simultaneamente
questa coppia di requisiti con i metodi usati dai sondaggisti.. In un paese poco sviluppato, per esempio,
il metodo del sondaggio telefonico esclude chi non possiede un telefono, il che significa escludere una
parte rilevante della popolazione.
Altri inganni statistici sono dovuti al disinvolto impiego del concetto di
media e di costruzioni teoriche come “l’italiano medio”, l”’operaio medio” ecc.
Non parliamo del fatto che il lessico ormai di comune impiego nei giornali ha
reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5
figli”, suggerendo l’idea che oltre al primo figlio si possa avere anche mezzo
figlio.
In effetti la parola “media” ha diversi significati. Si dice, per esempio, che
Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente non si intende
dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si
intende dire, a quanto pare, che il reddito medio pro capite dei milanesi è
superiore a quello medio delle altre città italiane. Ma il concetto di reddito
medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro
che la mediana è x. La differenza è percepita dagli statistici professionali ma non dal grande pubblico.
Per restare nell’esempio, la ricchezza media dei milanesi si ottiene sommando i redditi di tutte le
famiglie di Milano e dividendo per il numero di queste. La mediana invece è il valore intermedio entro
la popolazione, cioè è il valore x di cui si può dire che il 50% delle famiglie si trova al di sotto di x,
mentre il restante 50% si trova al di sopra di x. Media e mediana non coincidono affatto. Basti pensare
che ci sono paesi del
terzo mondo in cui il 10% della popolazione è ricchissima: questo porta in alto
il valore medio del reddito, anche se il 90% della popolazione è in alcuni casi
drammaticamente povera. Questa povertà è evidenziata dal fatto che il 50%
della popolazione ha un reddito che è al di sotto del reddito medio, il che significa che la madiana è
molto al di sotto della media.
Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose
curve a campana (per esempio la distribuzione dei ritardi del lotto) media e
mediana spesso coincidono, ma questo non accade nelle statistiche dei fenomeni
non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche
come i tavoli) si riscontra sempre un certo margine di errore possibile, anzi
probabile. Se si fissa a 100, per esempio, il QI medio e nostro figlio ha un
punteggio di 99, risulta al di sotto della media; ma dato che è probabile che ci sia
un errore nel rilevamento, la cosa probabile è che abbia un valore diverso da 99.
Il modo in cui si usano le statistiche per influenzare in modo più o meno
fraudolento le vendite dei prodotti è ben noto ed è stato analizzato a lungo
anche dagli psicologi. È più grave il fatto che le statistiche si usano anche con
finalità politiche ed economiche importanti. Esempio. La percentuale di morti
durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i
civili a new York ebbero un tasso di mortalità del 16 per mille. Il dato venne
usato dai militari per sostenere che arruolarsi in marina rendeva quanto mai
sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani
marinai dovevano essere confrontati con i giovani della stessa fascia di età non
militanti nella marina, non certo con una popolazione che comprendeva vecchi,
malati.
Il sofisma statistico più comune e più insidioso consiste nello scambiare
correlazioni statistiche con correlazioni causali. Si tratta di una versione
particolare e amplificata della vecchia fallacia “post hoc, propter hoc”. Per una
comprensione del problema si dovrebbe disporre di una definizione precisa del
concetto di causa, su cui torneremo in seguito. Ma questo concetto ha un
nocciolo abbastanza intuitivo da rendere comprensibile la fallacia. Si osservi al
proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni
causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il
collante che unisce cause ed effetti secondo Hume non sta nel mondo esterno
ma solo nella capacità associativa della mente.
È singolare però che Hume non si rendesse conto che in base a questa teoria dovremmo classificare
come causali relazioni che non sono tali. Per esempio, è chiaro che si dà una correlazione statistica e
anche associativa (nel senso psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può
convenire sul fatto che questo nesso non è causale.
Per fare un esempio più moderno, si pensi che il barometro è stato costruito in modo tale da
segnalare anticipatamente il verificarsi dei temporali. Possiamo assumere senza problemi che ci sia una
comprovata correlazione statistica tra i due tipi di fenomeni. Ma, chiaramente, l’abbassamento del
barometro non ha mai causato nessuna tempesta: diciamo che non è una causa ma un indizio del futuro
temporale. La parola indizio è usata con significati leggermente diversi in vari contesti ma il suo senso
è chiaro: A è indizio di B quando la conoscenza di A aumenta la probabilità che B sia vero. Un indizio
di colpevolezza non è una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio di
un possibile futuro incidente cardiovascolare. Nel gergo della medicina si usa al proposito il termine
“sintomo” e anche “fattore di rischio”, da non confondersi con la causa.
L’illusione causale è creata dall’esistenza da quella che gli epistemologi chiamano biforcazione
causale: nel caso dell’ultimo esempio c’è una causa comune D (una depressione atmosferica anteriore)
che produce tanto B(l’abbassamento del barometro ) che T (la tempesta).
Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare un ordinamento
temporale degli eventi. Di fatto, ciò che viene correlato nelle analisi non è mai un evento singolo
(event-token) ma un tipo di evento o evento generico (p.es. quantità di sigarette consumate, incidenza
di una malattia ecc.) e non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente,
peraltro, le correlazioni statistiche intercorrono tra variabili, per cui la ricerca della causa comune della
variabile x e y si risolve di fatto nella ricerca di una terza variabile z il cui variare è associato alla
covariazione tra x e y.
In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio non si riscontra nessuna
terza variabile rappresentabile come causa comune. Ma questo non significa che si sia autorizzati a
concludere che l’antecedente statistico è anche un antecedente causale. Si danno infatti diverse
possibilità:
a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto piccoli questo è
senz’altro possibile, anzi abbastanza comune.
b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la causa e quale l’effetto . Per
esempio c’è una correlazione tra ricchezza e possesso di tutoli obbligazionari, e si può sostenere che
l’una è causa dell’altro, che vale il converso. Se si crede che abbia senso parlare di interazione causale,
si possono anche sostenere ambedue le cose.
c) La covarazione non è causale in nessuna delle due direzioni. Risulta per esempio una correlazione
tra longevità e status matrimoniale, ma è falso sia dire che il matrimonio allunga la vita (ipotesi
falsificata guardando alla longevità di sacerdoti cattolici o buddisti, sottomessi a regole che vietano il
matrimonio) sia dire che la longevità è causa di matrimoni.
Quando è applicata a macrofenomeni, la fallacia causale può portare a errori di valutazione che
possono avere enormi conseguenze. Basta citare che la correlazione osservata tra sottosviluppo e
sovrapopolazione in molti paesi ha diffuso per anni la convinzione che un’alta pressione demografica
fosse il principale ostacolo allo sviluppo economico. Questa presunta cauisazione negli ultimi anni è
risultata smentita dal fatto che i paesi più densamente popolati del mondo, Cina e India, hanno il tasso
più alto di sviluppo economico.
Purtroppo la mente umana sembra abbia una tendenza invincibile a trasformare le correlazioni
statistiche in correlazioni causali. Questo è all’origine di ciò che si chiama superstizione, la quale
dipende da un atteggiamento mentale che si riscontra anche in insospettabili uomini di scienza. Tra
la gente delle Nuove Ebridi per esempio si diffuse la convinzione che i pidocchi facevano bene alla
salute. Il motivo di questa singolare pregiudizio venne scoperto facilmente. Quasi tutti in quelle isole
avevano i pidocchi. Ma nel momento in cui a qualcuno saliva la febbre per qualche tipo di patologia, i
pidocchi abbandonavano rapidamente il corpo divenuto troppo caldo e inospitale. Ciò che era vero di
fronte a questo fenomeno, dunque, è che semmai la malattia è causa dell’assenza di pidocchi, ma non
che i pidocchi sono causa di buona salute. Usando una simbologia in cui C sta per una qualsivoglia
relazione causale, “non-S C non-P” è diverso da “P C S”. Vediamo dunque che la relazione causale
non gode della proprietà contrappositiva.
Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose quando vengono usate
spregiudicatamente nell’ambito della medicina. Da una statistica risulta,per esempio, che esiste una
correlazione negativa tra check up e longevità. Siamo portati a concluderne che il check up accorcia
l’esistenza.
Ammesso che la statistica sia stata condotta correttamente, il presunto motivo della correlazione è che
chi decide di sottoporsi a check up di solito non scoppia di salute, mentre chi non intende sottoporsi a
check up è in condizioni di salute molto buone, per cui è più probabile che rientri nella classe dei
longevi piuttosto che dei non-longevi.
Molte statistiche sul cancro o sulle malattie cardiovascolari sono comunque viziate dall’omissione
di un fatto importante: che con il progredire dell’età, qualunque siano le condizioni date, aumenta la
probabilità di ammalarsi di malattie di questi due tipi. Ne consegue che tutto ciò che può essere
casualmente rilevante per allungare la vita, quindi sostanzialmente salutare, risulta statisticamente
correlato con una maggiore incidenza di cancro o malattie cardiovascolari. Viceversa, in popolazioni
con bassa speranza di vita queste malattie risulteranno meno frequenti o addirittura assenti. Questo tipo
di errore è comune in quella disciplina dal dubbio carattere scientifico, che dilaga su giornali e riviste
più o meno specializzate, dal nome di dietologia.
Intorno alla dietologia gravitano interessi enormi, che spaziano dal campo medico-farmaceutico a
quello alimentare. Sembra che in particolare negli ultimi decenni il colesterolo sia diventato, grazie a
una martellante campagna di stampa, il nemico numero uno delle arterie. Ciò che è passato nell’
immaginazione popolare è la c.d. “teoria lipidica” e in particolare la seguente la catena causale :
aumento di consumo di grassi animali - aumento di colesterolo -aumento di placche aterosclerotichemaggiore rischio di ictus e infarti.
Da ciò si è indotti a pensare che valga una seconda catena causale che a rigore non è logicamente
equivalente alla prima: diminuzione consumo grassi animali - diminuzione di colesterolo - diminuzione
di rischio di aterosclerosi - diminuzione di rischio di ictus e malattie coronariche. Per cogliere la
differenza basta osservare che il maggior rischio di ictus e infarti è correlato non solo a un livello molto
alto di colesterolo nel sangue ma anche a un livello molto basso dello stesso.
Sull’onda di queste associazioni di idee si è scatenata una campagna di demonizzazione dei grassi
animali, che è andata di pari passo alla promozione della cosiddetta dieta mediterranea, ricca di
carboidrati e povera di grassi animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè
diminuire, sia aumentato in modo da preoccupare i governi dei paesi occidentali, fa pensare che la
campagna anti-grassi abbia fondamenti dubbi.
Uno dei punti deboli della prima catena di sui sopra è la correlazione statistica tra consumo di grassi
animali e formazione del colesterolo. Il colesterolo è stato scoperto nel 1812 ; prima fu ritrovato nel
sangue e poi, dopo diversi anni, nelle placche coronariche: da ciò l’ardita conclusione per cui il
colesterolo sarebbe causa delle placche coronariche. A partire dalla fine dell’800 si è continuato a
registrare statisticamente un incremento della mortalità da infarto, al punto di configurarsi come una
vera e propria epidemia. Su questo fenomeno vale la pena di prendere atto dell’enorme importanza ai
fini statistici che ha la tassonomia - cioè il modo di classificare i fenomeni sotto indagine. Tra il 1900e
il 1920 si elencavano quattro tipi di malattie cardiache
1) angina pectoris
2) pericardite
3) endocardite acuta
4) malattie cardiache organiche
Nel 1949 venne introdotta una nuova tipologia, la "malattia arteriosclerotica con incluse le
coronarie". Con la nuova tassonomia aumentarono a dismisura i casi registrati di malattie coronariche.
Nel 1968 si ebbe una nuova revisione tassonomica e l'ipertensione arteriosa fu integrata tra le malattie
coronariche (mentre prima era considerata indipendente). Questo fece innalzare le percentuali di
malattie riscontrate, ma nel 1979 l'ennesima revisione separò di nuovo l'ipertensione dalle malattie
coroniche e l'infarto del miocardio diminuì
vistosamente. Dunque, a quanto appare, ciò che ha fatto aumentare la mortalità per malattie
cardiovascolari in determinati periodi è stato la modificazione della tassonomia, mentre la diminuzione
della mortalità per infarto registrata dal 64 all' 86 (-45%) potrebbe essere attribuibile al progresso
farmacologico e soprattutto chirurgico (bypass, angioplastica). La spiegazione di questa riduzione con
la riduzione dei fattori di rischio (dieta, fumo, ipertensione) è plausibile ma non è giustificata.
Gli studi fatti su rapporto tra colesteromia e mortalità cardiovascolare hanno prodotto dati che
confermano l'ipotesi della correlazione causale a patto di ignorare i numerosissimi risultati che danno
una risposta opposta. In particolare, le nazioni esaminate da A. Keys (il padre della c.d. "dieta
mediterranea") sono le seguenti: Italia, Grecia, Yougoslavia, Olanda, USA, Giappone, Finlandia. Se
Keys avesse esaminato, invece di questi, paesi come Israele, Olanda , Germania, Svizzera, Francia,
Svezia avrebbe riscontrato che quanto più alto era il consumo di grassi saturi tanto inferiore risultava il
rischio di infarto. Del resto di recente ha fatto scalpore il c.d. "paradosso francese": la Francia ha
notoriamente una cucina ricca di grassi animali e tuttavia l'incidenza di malattie cardiovascolari è più
bassa che in Italia. Questo sarebbe sufficiente a refutare popperianamente la tesi lipidica, ma invece
venne lanciata un
'ipotesi di salvataggio, consistente nel dire che in Francia è alto il consumo di vino rosso, che sarebbe
in grado di neutralizzare -grazie a una sostanza chiamata resveratrolo - i nocivi effetti dei lipidi. Ma, a
parte il fatto che è stato dimostrato che per raggiungere la quota di resveratrololo giudicata ottimale
bisognerebbe ingerire almeno 25 litri quotidiani di vino, resta da spiegare perchè gli italiani hanno
pure un alto consumo di vino rosso ma una maggiore incidenza di malattie cardiache.
Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e cattivo, passato pure nella
vulgata. Secondo un commento pubblicato sull’Herald Tribune e firmato da Gary Taubes,
corrispondente della rivista Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il
colesterolo con le proteine che lo trasportano nel sangue, le lipoproteine, che è come confondere il
carico con il mezzo di trasporto. E il colesterolo è diventato buono o cattivo a seconda che sia veicolato
da lipoproteine ad alta densità (Hdl) o a bassa densità (Ldl). Potrebbe, dunque, non essere il colesterolo
in sé il vero nemico (l’infarto colpisce anche persone con colesterolo normale), ma un’anomalia delle
lipoproteine. Per aumentare lo scetticismo si dovrebbe tener conto dell’ipotesi secondo cui la
formazione di placche potrebbe essere dovuta non al colesterolo ma a un difetto genetico delle pareti
delle arterie.
Il bilancio di questa discussione non vuole in ogni caso essere pessimistico. In primo luogo, prima di
accogliere un dato statistico come elemento di prova o di refutazione, bisogna acclarare che il dato sia
stato ricavato secondo procedure che rispettino i canoni metodologici elaborati dalla stessa scienza
statistica. La metodologia corretta impone in primo luogo di seguire il criterio per cui, oltre al
campione sperimentale estratto da un certo universo in cui la proprietà indagata è
presente, si proceda ad esaminare un secondo campione (detto campione di controllo) in cui le
proprietà indagata è assente.
Il campione deve essere costruito con accorgimenti che eliminino ogni rischio di inquinamento.
L’esempio appropriato è quello delle ricerche sui farmaci eseguite in “doppio cieco”. La particolarità
sta nel fatto che né il paziente né il medico conoscono la natura del farmaco effettivamente
somministrato. Si differenzia quindi dallo studio "in cieco semplice", dove solo il paziente è all'oscuro
del procedimento che sta seguendo.
Per chiarire il punto, è noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto
dell'inevitabile effetto placebo. Per fare questo occorre prendere in considerazione due campioni
omogenei di pazienti. A uno di essi si somministra il farmaco oggetto di studio (campione
sperimentale) mentre all'altro si somministra un placebo (campione di controllo). Ovviamente (e in ciò
consiste il "cieco semplice") nessun paziente a cui sono somministrati entrambi i campioni deve sapere
se sta assumendo il farmaco o il placebo. La procedura del "cieco semplice", tuttavia, si è dimostrata in
alcuni casi insufficiente per il motivo
che i risultati possono essere falsati dall'atteggiamento
psicologico degli stessi sperimentatori. Se il medico sperimentatore sa di somministrare il farmaco
piuttosto che il placebo può involontariamente suggestionare il paziente. Per questo motivo, al fine di
ottenere risultati attendibili, è necessario che neppure gli sperimentatori conoscano informazioni
rilevanti circa il farmaco. In campo medico il doppio cieco è l'unica metodologia possibile e soltanto i
farmaci e le terapie che superano tale procedura possono essere definiti efficaci.
Il nucleo metodologico di queste procedure è quello di stabilire un raffronto tra la percentuale di U
che hanno la propretà A (probabilità che, se x è U, x è A, cioè Pr (A|U), e quella di non-U che hanno
A (Pr A|-U). Bisogna confrontare, per esempio, la percentuale di fumatori (F) tra gli ammalati di
cancro (C) (Pr(C|F) e la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|-F).
Se Pr(C|F) > Pr(C|-F) significa che F “fa una differenza”, cioè è statisticamente rilevante per C .
Ricordando che Pr(C|F) significa Pr(C ∩ F)/Pr(F) , mentre Pr(C|-F) significa Pr(C ∩-F)/Pr(-F), la forza
di questa correlazione è data dalla differenza δ= Pr(C|F) - Pr(C|-F, cioè la differenza tra la quantità di
fumatori ammalti di cancro e non-fumatori ammalati di cancro. Calcolando questa differenza abbiamo
effettuato una corretta statistica, ma non è ancora detto che il rapporto di rilevanza così stabilito sia
causale.
Un’idea sviluppata da Ronald Giere e da altri metodologi, molto discussa negli ultimi decenni, è
quella di non concentrasi sulle frequenze attuali entro un singolo campione ma sulle frequenze entro
popolazioni ipotetiche; più esattamente, sulle frequenze entro due popolazioni ipotetiche o
controfattuali in cui la proprietà che si suppone rilevante sia posseduta da tutti o da nessuno. Per
restare nell’esempio, bisogna immaginare una popolazione in cui tutti fumano e una in cui nessuno
fuma. Se siamo in grado di stabilire che la percentuale di ammalati nella prima è maggiore che nella
seconda allora secondo Giere siamo autorizzati a parlare di nesso causale, altrimenti no.
Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire con verità quanto
segue: “se tutti fumassero ci sarebbe una frequenza di casi di cancro superiore a quella che si avrebbe
se nessuno fumasse”.
Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati non intesi. Per fare un
esempio, in un campione non ipotetico ma attuale chi ha un livello di reddito superiore alla media ha
anche un livello di salute superiore alla media. Per stabilire un nesso causale dovremmo fare una
verifica facendo due ipotesi controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e
2) nessuno abbia un reddito superiore alla media . Ma questo è impossibile per ragioni logiche data la
definizione stessa di media: è impossible che tutti abbiano un reddito superiore alla media!. Ci sono
anche ragioni non –logiche per dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno di noi ritira i
propri risparmi da una certa banca questo può far abbassare i tassi di interesse di una banca, ma certo la
banca non fallisce per questo. Ma se tutti ritirano simultaneamente i risparmi da una banca la banca
semplicemente fallisce perché non è in grado di pagare i suoi debiti. Quindi i nessi causali non vengono
universalmente conservati passando da campioni con pochi esemplari a campioni con tutti gli
esemplari.
Per essere più precisi, la tesi di Giere si può parafrasare dicendo che c’è un rapporto causale fumocancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale che se nessuno fumasse,
Pr C = z, e se tutti fumassero Pr(C) > z . La verità di questa proposizione si accerta in due passi: a)
esaminando varie popolazioni in cui nessuno fuma ed estraendo da esse campioni diversi così da
fissare il valore di z. b) esaminando popolazioni in cui tutti fumano ed estraendo campioni per vedere
se la percentuale degli ammalati di cancro supera o non supera z.
E chiaro che, campionamenti a parte, l’accertamento dei nessi causali viene così a dipendere dall’
accertamento della verità di condizionali controfattuali. E offrire una semantica per i controfattuali è
stato un problema che i logici hanno cominciato ad affrontare verso il 1970 con risultati interessanti ma
non perfettamente univoci.
Una cosa comunque è della massima importanza. Nessuno più dei giuristi dovrebbe apprezzare
l’importanza del ragionamento controfattuale o contrario ai fatti , dato che per secoli si è proposto nei
tribunali come metodo di accertamento delle connessioni causali la c.d. formula della condicio sine qua
non , che consiste nel chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o
assente la presunta causa.
Prima di toccare questo argomento è opportuno discutere una forma di inferenza ampliativa che
riveste pari importanza nell’ambito sia scientifico che giudiziario , l’inferenza abduttiva.
LEZIONE 7. L’abduzione
Prima di passare alla discussione dei condizionali controfattuali ricordiamo che , in presenza della
verità di A e B, la forma del controfattuale è ¬A > ¬B , mentre la forma del condizionale standard
(fattuale) è A > B. Parlando liberamente , nel primo caso si dice che A è condizione necessaria per B,
nel secondo caso che A è condizione sufficiente per B. Questo linguaggio tuttavia è approssimativo. Se
il fiammifero è sfregato, non ne segue al 100% che il fiammifero si accenderà; così come, se il
fiammifero non è stato sfregato, non segue al 100% che non si è acceso. La conclusione nei due casi si
può difendere, ma solo una volta che si sia accertata la presenza di un insieme di condizioni favorevoli
al verificarsi del conseguente: p .es. presenza di sufficiente ossigeno, di capocchia asciutta ecc. Quindi
ciò che è sufficiente per l’effetto non è l’antecedente ma l’antecedente congiunto con tutto questo
insieme di condizioni ottimali K compatibili con l’ antecedente, di cui si può considerare parte anche
la stessa legge di natura che consente l’inferenza. Per dire che la congiunzione K ∩ C implica con alto
grado di probabilità E abbiamo convenuto di scrivere (K ∩ C) => E, come abbreviazione di Pr(E/K ∩
C)=1-∈. Ora abbrevieremo questo asserto, eliminando il riferimento a K, con C > E. Nel caso
controfattuale avremo quindi ( K ∩ ¬C) => ¬E e ¬C > ¬E.
Ma bisogna tener presente che il K del caso controfattuale non è lo stesso K del caso fattuale,
perché non può contenere informazioni che sono incompatibili con l’antecedente ¬C. Per esempio, la
proposizione che il fiammifero non è stato sfregato e non si è acceso deve essere rimossa da K,
altrimenti sarebbe incompatibile con l’antecedente controfattuale.
Ora, se per ipotesi > fosse un operatore contrappositivo , ¬C > ¬E sarebbe equivalente a E > C. Ma il
condizionale controfattuale, così come la relazione di rilevanza statistica, non è contrappositiva. Quindi
il condizionale E > C ha proprietà diverse tanto da C> E quanto da ¬C > ¬E. Per sottolinare la
distinzione chiameremo E > C condizionale abduttivo e per, capirne le condizioni di verità, faremo un
passo indietro che ci riporta all’Organon di Aristotele.
Nell’ Organon di Aristotele viene chiamata apagogè un tipo di ragionamento con conclusioni non
necessarie ma meramente possibili. La apagogè non va confuso con la epagogè, che per Aristotele
designa il ragionamento induttivo.Una traduzione a volte usata di apagogè è “riduzione”, mentre un
termine sinonimo a volte usato, e forse più felice, è quello di “retroduzione”.
Il termine “abduzione”, che ha avuto fortuna soprattutto per impulso di Peirce, è stato coniata da
Julius Pacius nel Rinascimento. In senso stretto, l’abduzione è una forma di ragionamento in cui la
conclusione è accettata in virtù del fatto che spiega nel modo ottimale i dati disponibili. In senso lato,
l’abduzione è il processo della formazione di ipotesi esplicative, e la logica dell’abduzione viene a
coincidere con la stessa logica della scoperta scientifica.
Dato che la logica di Aristotele è essenzialmente sillogistica, la differenza si può chiarire guardando a
ciò che si ottiene ricombinando in modo diverso le proposizioni che entrano nel primo sillogismo della
prima figura (BARBARA).
A:
1) Tutti gli asini hanno la coda
2) Federico è un asino
=========================
1) Federico ha la coda
Considerando che l’ordine delle due premesse non ha importanza, ci sono in effetti solo due
ragionamenti diversi con due premesse e una conclusione che si possono formulare impiegando le
stesse proposizioni :
B:
1) Federico è un asino
==========================
3)Tutti gli asini hanno la coda
C:
1) Tutti gli asini hanno la coda
==========================
3)Federico è un asino
Il ragionamento B è un ragionamento “ampliativo”, che estrapola cioè dal campione all’universo, ed
è un esempio, sicuramente discutibile, di quello che viene chiamato ragionamento induttivo per
enumerazione semplice. Certo un ragionamento induttivo come quello dell’esempio B presenta
un’inferenza non “da alcuni a tutti” ma “da uno a tutti”, e sembra il tipico caso di un ragionamento che
è considerato erroneo o addirittura tipico di menti insane. Eppure ci sono casi in cui l’applicazione di
questo schema si potrebbe considerare ineccepibile. Eccone uno:
1) La bomba di Hiroshima era una bomba atomica
2) La bomba di Hiroshima era spaventosamente distruttiva
=============================================
3)Tutte le bombe atomiche sono spaventosamente distruttive
La conclusione 3) doveva essere evidente a tutti dopo il bombardamento di Hiroshima e, a dir la
verità, doveva essere nota anche prima, dato che la bomba era stata costruita con lo scopo di creare
spaventose distruzioni: per crederla vera comunque non c’ era sicuramente bisogno di un secondo
esperimento, come per esempio quello di Nagasaki..
Quanto all’esempio specifico presentato in B) si potrebbe anche osservare che se dicendo “Federico
è un asino” intendo dire “Federico è un tipico asino” e poi aggiungo che un tipico asino è mortale, c’è
poco da eccepire sul fatto che tutti i tipici asini (quindi tutti gli asini) sono mortali.
Per molti decenni si è manifestata la tendenza a identificare ragionamenti ampliativi e ragionamenti
induttivi. Questo è errato per vari motivi. Molti ragionamenti controfattuali sono ampliativi senza
perciò essere induttivi. Inoltre secondo alcuni (è il caso di Carnap) i più autentici ragionamenti induttivi
non hanno conclusioni di forma universale ma di forma particolare:
per esempio “il prossimo asino che verrà esaminato avrà la coda” (eduzione) oppure “ i prossimi cento
asini che verranno esaminati avranno la coda”.
Aggiungiamo che lo schema di ragionamento C) è molto diverso da quello induttivo, anche se
condivide con B), oltre alla natura ampliativa, un certo grado di aleatorietà nella conclusione. Ma c’è
una differenza sostanziale tra B) e C). La conclusione “Federico è un asino” è usata per rispondere alla
domanda “Qual è la ragione per credere che Federico ha la coda sapendo che tutti gli asini hanno la
coda?” Il motivo per cui questo particolare sillogismo sembra poco cogente è che ci sono altri
sillogismi con diverse conclusioni che possiamo costruire con la stessa struttura. Per esempio, dato che
sappiamo che tutti i cani hanno la coda, allora sotto la premessa “Federico ha la coda” si potrebbe
anche concludere a pari merito“Federico è un cane”. Quindi siamo di fronte a due conclusioni
incompatibili, perché Federico (lo stesso Federico) non può essere tanto un asino che un cane: e noi
dobbiamo scegliere una delle conclusioni, ammesso che una scelta sia possibile. Quindi, in realtà, nel
caso dell’abduzione possono manifestarsi dei casi di parità in cui è giocoforza dover scegliere: ciò che
va scelta, infatti, non è una spiegazione qualsiasi dell’explanandum e nemmeno una plausibile
spiegazione ma la migliore spiegazione possibile.
Questa caratteristica, che sembra distinguere il ragionamento abduttivo dagli altri, può essere
illustrata ricordando due fatti importanti :
1) che il modello nomologico-deduttivo di Hempel-Oppenheim ha una forma sillogistica (mentre il
modello statistico-induttivo costituisce un’approssimazione a questa in cui la conclusione segue dalle
premesse con grado 1-ε)
2) Nelle spiegazioni in senso pieno si esige che le premesse siano vere e note come vere, mentre nel
caso le premesse siano solo ipotetiche si parla di spiegazione potenziale.
Supponiamo di chiedere la spiegazione di un fatto E (perchè E?). Allora, come è noto, diciamo
explanandum questo E, e lo riteniamo spiegato quando è derivato da un explanans, che contiene
essenzialmente un certo numero di leggi di natura e di condizioni iniziali che fungono da premesse
minori del sillogismo
L1….Ln (leggi)
C1 …… Ci?….Ck condizioni
–––––––––––––––––––––––––––––- ––––––––––
Explanans
E
Explanandum
Il punto interrogativo ? sta a indicare che l’elemento dell’Explanans
così indicato non ha un preciso valore di verità , mentre tutti gli altri elementi sono veri. In questo caso
diciamo che Ci è un fattore che fa parte di una spiegazione potenziale (meglio “possibile”) di E.
È normale avere una pluralità di spiegazioni potenziali per lo stesso
explanandum. Per esempio, può verificarsi una situazione così rappresentabile:
L1….Ln vere (leggi)
L1….Ln vere (leggi)
C1a? , C2, ….Ck
C1b?, C2,….Ck
--------------------------------------------------------------------------------------------E (Explanandum) vero.
Ci chiediamo per esempio: che cosa spiega il fatto che il fiammifero si è acceso? Sia C1a l’ipotesi “il
fiammifero è stato sfregato” ; sia C1b l’ipotesi ” la capocchia del fiammifero è stata posta nella fiamma
di una candela”. Allora potremmo retroduttivamente risalire da E a C1a, ma anche da E a C1b. Come
operare la scelta? Dipende dalle altre informazioni circostanti. Se, per esempio, vicino al fiammifero
che è stato acceso si trova una candela accesa ma nessuna superficie sufficientemente ruvida tipo carta
vetrata, ecc. è plausibile pensare che il fiammifero sia stato acceso mediante la candela. In assenza di
questa però, la retroduzione più plausibile è l’altra.
Tenendo presente lo schema hempeliano. mentre il condizionale standard (nomologico) ha la forma
C1> E, cioè (C1 & K) => E , il condizionale abduttivo ha forma E > C1 (il fiammifero si è acceso
perchè sfregato).
Secondo Peirce - il filosofo che ha proposto l’abduzione come grande tema epistemologicol’inferenza abduttiva è un processo in base a cui “si osserva un fatto sorprendente C; ma se A fosse
vero, C sarebbe la conclusione naturale; perciò si ha motivo di sospettare che A sia vero” . Si noti che
Peirce qui usa un periodo ipotetico (“se A fosse vero…”), evidenziando che la proposizione A con cui
poi si conclude il ragionamento abduttivo è, all’atto dell’ipotesi, solo una possibilità.
Questa definizione ha fatto molto discutere. Nella conclusione del ragionamento compare A. Ma A
compare già nelle premesse del ragionamento, il che fa dubitare del carattare ampliativo dell’inferenza
– anzi crea un sapore di circolarità - e ci pone legittimamente questo problema: da dove proviene
l’ipotesi A ?
In secondo luogo, l’operazione che coinvolge A si potrebbe applicare ad altre congetture A’, A”,
A”’…. delle quali si potrebbe pure dire che, se fossero vere, renderebbe naturale la conclusione C. Ciò
non sarebbe importante se A’, A” ecc fossero logicamente interdipendenti con A: per esempio
potrebbero essere sue varianti generiche o specifiche. Ma nei casi più interessanti queste alternative
potrebbero essere indipendenti da A , o a- come di solito accade- incompatibili con A.
Come già detto, oggi si tende a dire che l’abduzione non è la ricerca di una qualsiasi spiegazione di
un evento anomalo, ma la ricerca della migliore spiegazione entro una rosa di spiegazioni potenziali e
alternative di uno stesso fenomeno. Questa intuizione è in un certo implicita in ciò che dice Peirce
quando parla conclusione “spiegata in modo naturale”. Peirce in alcuni scritti suggerisce che la
migliore spiegazione è la spiegazione più economica (cioè, diremmo oggi, la più semplice e la più
informativa).
L’ idea dell’economicità è seducente ma poco applicabile: in primo
luogo non è ovvio che ci sia sempre una spiegazione classificabile come “la più semplice”, e
secondariamente la semplicità sembra avere carattere che potremmo dire “interno ai paradigmi”: è più
semplice pensare che la terra stia ferma al centro dell’universo o che abbia un doppio movimento di
rotazione e rivoluzione?
Peirce stesso, che è tornato a più riprese su questo controverso argomento, ha ammesso negli ultimi
anni di aver dato inizialmente una versione troppo limitata dell’abduzione. L’abduzione è in realtà un
processo complesso, che comprende tanto il lancio delle ipotesi che la loro valutazione. Bisogna
dunque cominciare col distinguere nettamente due aspetti dell’abduzione o anche due tipi diversi di
abduzione, una creativa e una selettiva.
Un approccio all’abduzione che potremmo approssivamente classificare come popperiano è il
seguente. La migliore spiegazione di un evento è l’unica che resiste alla falsificazione entro un
ventaglio di ipotesi disgiunte. Supponiamo di sapere con certezza che in un ambiente isolato erano
presenti Tizio, Caio e Sempronio. Si scopre il cadavere di Rossi, colpito da un solo proiettile di pistola.
Il primo passo legittimo è una semplice inferenza ampliativa che possiamo considerare inattaccabile:
( R) “Se Rossi è stato colpito da un proiettile di pistola, qualcuno ha sparato a Rossi”.
Scoprire il colpevole significa semplicemente passare dall’asserto generico “qualcuno ha sparato a
Rossi” a un asserto vero della forma “b ha sparato a Rossi”, dove b è il nome di una persona (che
potrebbe essere anche Rossi stesso, non essendo a priori escluso il suicidio). Ora, per la logica
deduttiva, asserire “qualcuno ha sparato a Rossi” in quel particolare contesto di informazioni comporta
eliminare ogni possibile valore di b salvo i quattro nomi citati: equivale ad asserire la disgiunzione “o
Tizio o Caio o Sempronio o Rossi ha sparato a Rossi”, dove Sempronio è il miglior amico di Rossi.
Supponiamo di poter escludere con assoluta certezza che Rossi si sia suicidato e poi eliminare, sempre
con assoluta certezza, le ipotesi che Tizio e Caio hanno sparato. Allora la conclusione, per quanto
sorprendente possa apparire, è che Sempronio ha sparato a Rossi. La
procedura eliminatoria qui prospettata è conforme alla celebre massima di Sherlock Holmes secondo
cui “escluse tutte le ipotesi meno una quella che rimane, per quanto improbabile, deve essere la
verità”. Se è così l’abduzione si risolve in una serie di falsificazioni successive e l’ipotesi vincente. se
ce n’è una, è quella che sopravvive.
Per completare la procedura occorre però un’integrazione importante. Nel caso
l’ipotesi sopravvissuta fosse ancora oggetto di ragionevole dubbio (cioè quasi sempre,se non altro per
errore nella procedura eliminatoria), essa è soggetta ad essere confermata induttivamente da altri
elementi di informazione indipendenti che ne costituiscono la controprova o prova di controllo:
superata questa l’ipotesi si consoliderà guadagnando per sè, se vogliamo usare il termine, la qualifica di
“vera”. Si noti che questo va fatto anche nel caso che le ipotesi siano h1…hn e che emerga una
fortissima evidenza a favore di h1, che ne porta molto in alto il suo valore di probabilità. In tal modo si
abbassa il valore di probabilità delle altre ipotesi h2…hn, che potrebbe scendere al di sotto della soglia
ɛ. Ma anche in tal caso è opportuno cercare una controprova di h1 andando alla ricerca di elementi di
informazioni che falsificano indipendentemente h2,…hn.
Se si esclude l’introduzione della controprova, l’inferenza alla migliore spiegazione così delineata
non si distingue dal procedimento baconiano dell’ induzione eliminatoria e si riconduce al processo
che si può chiamare di determinazione della conoscenza. La determinazione consiste nel passaggio dal
generico allo specifico, dall’indeterminato al determinato. Ogniqualvolta si passa dalla disgiunzione
esclusiva “A o B” ad uno dei suoi disgiunti si produce un incremento di determinazione. Aumentare la
determinazione della conoscenza significa diminuire l’incertezza e aumentare l’ informazione
disponibile; per converso, l’ aumento di informazione disponibile riduce l’incertezza e quindi aumenta
la determinazione della conoscenza. Se E è l’ explanandum con due possibili spiegazioni siamo di
fronte ad una disgiunzione che nel caso più semplice è della forma “A è un elemento nell’explanans di
E o B è un elemento nell’ explanans di E” . L’abduzione selettiva consiste nell’eliminare tutti i
disgiunti salvo uno, e quindi nel“determinare l’ explanans” . Stando così le cose, non c’è motivo di
negare che l’abduzione selettiva è una procedura di tipo razionale, stante che l’eliminazione dei
disgiunti non ha niente di arbitrario ma obbedisce a principi ben acquisiti dalla logica e dalla filosofia
della scienza.
C’è da osservare che la conclusione del ragionamento abduttivo non è detto debba essere una
proposizione singolare come “il fiammifero si è acceso” o “il mio cane scodinzola”. Potrebbe essere
una proposizione quantificata esistenzialmente (p.es. “c’è vita su Saturno”) oppure una proposizione
quantificata universalmente (“tutti i corpi presenti nella zona Y sono contaminati radioattivamente”)
oppure la congiunzione di proposizioni di diversa forma logica. Nei casi che più interessano gli
epistemologi, la
conclusione abduttiva può essere non una delle condizioni fattuali C1…Cn ma una parte dell’explanans
costituita dalle leggi L1…L m, quindi può essere una legge o addirittura una vera e propria teoria.
La matematica stessa, come ha sottolineato Polyà, non è affatto aliena da ragionamenti di tipo
abduttivo. Osservando che somme di numeri primi naggiori a 2 come 11,7, 13 … danno sempre un
numero pari, si può trarre la conclusione che sommando due numeri primi si ottiene un numero pari.
Questa conclusione è in effetti una conclusione deduttiva: infatti i numeri primi maggiori di 2 sono
dispari, e la somma di due numeri dispari è un numero pari per ragioni logiche, cioè per la definizione
stessa di numero pari e dispari.
Ma esaminiamo la c.d. “congettura di Goldbach”, che è sostanzialmente la conversa della precedente
e si formula in questo modo:
(CG) “Ogni numero pari maggiore di 2 è la somma di due numeri primi”.
La congettura è stata confermata dai calcolatori fino a numeri pari vertiginosamente alti, ma
nessuno è riuscito a trasformare la congettura in un teorema matematico. L’unico ragionamento che
potrebbe dimostrarlo sarebbe quello detto per “induzione matematica”, che comunque, anche se fosse
disponibile, è un tipo di ragionamento diverso dall’induzione “da molti a tutti” che si applica a dati di
fatto. Non resta che concludere che la migliore ipotesi che spiega questa straordinaria coincidenza di
risultati è il fatto che tra numeri primi e numeri pari esiste qualche tipo di connessione trale per cui è
veor dire che tutti i numeri pari superiori a 2 sono somme di numeri primi : e l’attendibilità di questa
ipotesi è frutto di un'abduzione, non di qualche altro tipo di ragionamento.
Secondo Polyà in effetti non c’è nessuna differenza essenziale tra la scoperta matematica e quella
delle scienze empiriche.In ambedue i casi si osservano dei casi sparsi o delle regolarità stabilite
induttivamente, e si cerca di trovare delle connessioni che li spiegano. L’unica differenza è che in
matematica, una volta che tali correlazioni vengono dimostrate rigorosamente, sono irreversibili, o in
altri termini non sono soggette a controesempi.
Leggendo le belle pagine dedicate da N.R. Hanson alla scoperta delle leggi di Keplero veniamo posti
di fronte a quella che è giustamente considerata la più importante abduzione della storia del pensiero.
Keplero giunse alla scoperta della sua prima legge cercando di liberarsi dell’ipotesi del cerchio ed
eliminando le altre ipotesi suggerite dalle osservazioni (ovoide ) fino a restare con quella dell’ellissi
che combacia con tutti i dati.
Per rendersi conto della differenza tra la natura dell’induzione e quella dell’abduzione, basta
osservare che l’induzione fornisce delle generalizzazioni empiriche che descrivono, per così dire, i
“meccanismi” della natura, ma non può darci leggi teoriche (cioè leggi che contengono termini per enti
inosservabili). In effetti, non ha senso assegnare un valore di probabilità alle inferenze garantite da
leggi teoriche. Ha un senso chiedersi qual è la probabilità che il prossimo corvo sia nero, ma non qual è
la probabilità che la prossima molecola sia costituita di atomi. Viceversa, la formulazione delle leggi
teoriche è l’obiettivo più nobile delle procedure abduttive, e quello scientificamente più significativo.
Tutto questo rende dubbia l’utilità di associare dei valori probabilistici alle conclusioni abduttive, come
vorrebbero i bayesiani.
Nell’ambito giudiziario è indubbio che si abbia a che fare con abduzioni che concludono a fatti o a
insiemi di fatti, mentre è difficile immaginare un contesto giudiziario in cui si concluda con leggi o
generalizzazioni. A questo dobbiamo aggiungere una qualificazione che finora non abbiamo trattato.
L’inferenza abduttiva più
frequentata è quella che ci porta a concludere con la miglior spiegazione causale possibile: in altre
parole è un’inferenza dagli effetti alle cause. Ma le cause, come abbiamo visto, sono preferibilmente da
considerare non condizioni necessarie, non come condizioni sufficienti per l’effetto. Le due proprietà in
effetti non si escludono, soprattutto nel modello statistico-induttivo. Supponiamo di avere un certo
stock di ipotesi esaustive e disgiunte h1…hn. Ciascuna di queste, congiunte ad altri dati informativi,
costituisce un explanans che implica l’explanandum E.
Supponiamo inoltre di sapere che ¬h1…¬hn, congiunte a vari sottoinsiemi di K opportunamente
strutturati, implicano tutte ¬E, cioè la negazione dell’explanandum. Dunque esse sono condizioni
necessarie, o cause, per l’explanandum. Nell’abduzione causale si tratta dunque di fare una scelta che
esige un doppio controllo nella fase creativa, dal momento che dobbiamo controllare che le varie
h1…hn siano condizioni tanto sufficienti che necessarie per l’explanandum.
Uno dei maggior studiosi contemporanei dell’abduzione, John Woods, ha visto una difficoltà
concettuale nell’abduzione applicata nei processi. Infatti da un lato si richiede di condannare con un
verdetto sulla base di fatti stabiliti “oltre ogni ragionevole dubbio”, dall’altro l’abduzione è un
procedimento di tipo congetturale, quindi con una buona dose di incertezza: “ This is trouble bad
enough to deserve a name. My choice is the Criminal Abduction Paradox. “
Bayesianamente potremmo semplicemente dire che se , date due ipotesi
alternative H e H’ , Pr(H/E ∩ K) > Pr(H’|E ∩ K), allora H è più credibile di H’. Ma questa relazione ci
dà una condizione minimale e necessaria, non certo sufficiente per scegliere H come conclusione
abduttiva. Dobbiamo infatti tener conto, con buona pace dei bayesiani, di quanto segue:
1) La differenza tra i due valori probabilistici delle ipotesi deve essere
significativamente alta. Se Pr(H|E ∩ K) - (Pr(H’|E ∩ K) è, poniamo, 0.1, bisogna
tener conto che uno scarto così basso potrebbe essere dovuto a un errore d
valutazione o a un errore di informazione. Ragione per cui passando da uno stock di informazione K a
uno stock nuovo K’ , cioè a una nuova informazione, la differenza potrebbe ridursi facilmente a 0 o
addirittura invertirsi di segno.
2) La creazione del ventaglio di ipotesi deve essere fatto in modo tale che tali ipotesi siano esaustive e
disgiunte. Questo è molto più difficile di quanto si pensi. In genere si omette il requisito cartesiano
(Regulae ad Directionem ingenii) che richiede che venga fatto un elenco combinatoriamente completo
delle ipotesi entro cui scegliere. li. Per esempio nel delitto di Cogne è stato fatto osservare che la causa
della morte poteva anche essere un agente non-umano (per esempio un’ aquila selvaggia, peraltro già
nota nella zona per aggredire anche animali e bambini). Insegni al proposito il primo racconto giallo
della storia, “il duplice delitto della Rue Morgue” di Allan Poe, in cui alla fine l’autore del delitto
risulta essere un gorilla.
3) Quando due ipotesi alternative sono ambedue inizialmente molto improbabili
accade che, se si acquisisce anche una piccola evidenza favore di un’altra ipotesi, per quanto poco
plausibile, questa viene erroneamente scambiata per una falsificazione definitiva dell’ipotesi
alternativa.
Nel famoso delitto della penna a sfera –in cui si trattava di spiegare come una donna potesse morire
con una penna a sfera nel cervello- per esempio, venne presa in considerazione la possibilità che la
penna a sfera fosse entratanel cervello della vittima per un incidente, ma considerata fin dall’inizio
inattendibile (anche se si conoscevano rarissimi casi in cui questo era avvenuto). L’alternativa –che il
figlio le avesse sparato la penna a sfera nel cervello con una balestra– era pure improbabile ma
sembrava suffragata da una confessione , per quanto confusa, rilasciata dallo stesso. Altre ipotesi
erano inconcepibili. Successivamente una serie di esperimenti effettuati su cadaveri di animali
portavano ad escludere non la prima ma la seconda ipotesi, ragion per cui il figlio venne scagionato e
venne stabilita la “verità” giudiziaria.
Quando venne incriminato il figlio si ritenne che l’evidenza,o presunta tale, a favore di questa
ipotesi, costituisse un’eliminazione dell’altra, in quanto ne abbassava la probabilità al di sotto della
soglia di credibilità. In effetti questa non era un’applicazione del metodo eliminatorio attraverso la
falsificazione popperiana. Ma anche quando fosse applicato questo metodo, bisogna tener
conto che nell’eliminazione della ipotesi la valutazione delle probabilità e il
calcolo di queste può essere errato; inoltre, spesso la falsificazione delle
ipotesi è a sua volta probabilistica, quindi soggetta ad errore, e tali errori
possono accumularsi in proporzione al numero delle ipotesi alternative. In
realtà scegliere un’ipotesi con il metodo eliminatorio, anche se questa risulta
valida al di là di ogni ragionevole dubbio, non è sufficiente. Per chiudere il
cerchio, come abbiamo visto, ci vuole una controprova dell’ipotesi vincente,
cioè una prova indipendente, che non abbia rapporti statistici o causali con le
altre informazioni usate nel processo eliminatorio.
Il celebre caso di Sally Clark mostra come sia rischioso condannare
qualcuno in base a ragionamenti probabilistici. Sally Clark era un avvocato inglese (morta nel 2007)
diventata famosa per un clamoroso caso giudiziario. Nel 1996 perde il primo figlio dopo 11 settimane
dalla nascita, apparentemente a causa della rara Sudden Infant Death Sindrome (SIDS). Nasce il
secondo figlio mentre la madre era ricoverata per alcolismo dovuto a una crisi depressiva da parto.
Anche il secondo figlio muore per la stessa sindrome a 8 settimane dalla nascita. In ambedue le
occasioni di morte la
madre era sola nella stanza con i figli, uno dei quali presentava anche segni di
soffocamento. Arrestata insieme al marito, nega sempre, anche se rifiuta di
rispondere alle domande.
Un pediatra, Roy Meadow, calcolò che la probabilità che due bambini di famiglia benestante
morissero di questo tipo di morte era di 1 su 73 milioni. Dato che le alternative erano solo due –morte
naturale o infanticidio- in tal modo si escludeva al di là di ogni ragionevole dubbio l’ipotesi della
duplice morte naturale, quindi la madre appariva colpevole oltre ogni ragionevole dubbio.
Più tardi alcuni test microbiologici condotti sui tessuti suggerivano l’ipotesi che il secondo figlio
poteva essere morto di morte naturale. Inoltre si cominciò a sospettare dei calcoli su cui poggiava la
cosiddetta evidenza statistica . Si passò quindi alla revisione del processo. Dopo il processo di appello
la Clark venne scarcerata, ma nel frattempo la prigionia aveva compromesso la sua salute mentale e
fisica. Nel 2007 venne trovata morta, a quanto pare a causa di intossicazione alcolica acuta.
Dove stava l’errore di Meadow? Principalmente nell’assunzione di indipendenza che, come
sappiamo, è la premessa per l’applicazione più elementare del principio delle probabilità composte, che
consiste nel moltiplicare le probabilità di eventi congiunti. E’ certo che, dati due eventi indipendenti
costituiti dalla morte per SIDS, la probabilità che si verifichino ambedue a poca distanza nello stesso
ambiente (si aggiunge: benestante , quindi presumibilmente in ambiente salubre) è prossima a zero.
Ma è il requisito di indipendenza che suscitava dubbj proprio in quel caso specifico. Qui erano in
gioco le morti non di due bambini estranei tra loro ma di due fratelli (sibling) nati dagli stessi genitori e
allevati nello stesso ambiente, in cui potevano essere intervenuti fattori comuni ambientali o genetici.
In effetti fu fatto vedere da un matematico inglese, R.Hill, che, se la probabilità calcolata è basata sulla
probabilità dell’indipendenza, tale indipendenza è di fatto improbabile. In base ad altri calcoli si stimò
che la probabilità che i bambini fossero stati assassinati era del 50%, il che è sufficiente a scagionare
l’accusata.
Il ragionamento che alla fine scagionò la Clark è ineccepibile, ma possiamo anche vedere le cose in
altro modo: la signora Clark era stata incarcerata non per una evidenza diretta ma per il tipo di evidenza
che Woods chiama circostanziale (inferita per ragionamento) che, come abbiamo visto, è quella più
soggetta ad errori.
Ciò che è grave nel caso di Sally Clark non è tanto che ci fosse un errore nel ragionamento statistico,
ma che nessuno si fosse preoccupato di trovare almeno un indizio supplementare e indipendente per
l’ipotesi dell infanticidio. In ogni giallo che si rispetti alla fine l’assassino, individuato con un
ragionamento abduttivo dal sagace detective, o confessa (quindi offre una prova indipendente) oppure
si incontra una prova ulteriore e definitiva –la controprova- che lo inchioda alla sua colpevolezza.
LEZIONE 8. Il ragionamento controfattuale e la nozione di inferenza razionale.
Prima di proseguire cerchiamo di formulare alcune considerazioni ai fini di un bilancio provvisorio.
Nessuno può negare che il calcolo della probabilità e i metodi statistici siano imprescindibili nella
ricerca scientifica e nell’accertamento della verità giudiziaria.
Il problema che abbiamo riscontrato è però il seguente: tanto nella scienza che nel diritto si fa largo
impiego di ragionamenti non- deduttivi (chiamiamoli ampliativi includendo per semplicità anche i
ragionamenti controfattuali) in cui non è affatto chiaro che la probabilità abbia un ruolo unificante.
Abbiamo anzi
visto che un uso incontrollato degli assiomi di Kolmogorov porta a risultati paradossali. Di qui l’
insistente ricerca di logiche alternative, come la logica neobaconiana di Cohen o la fuzzy logic di
Zadeh. Aggiungiamo qui una considerazioni di solito trascurata. Spesso si fanno asserti come “la
probabilità che si tratti di una coincidenza è x” , “la probabilità che i due eventi siano interdipendenti è
molto alta” o come la massima pratica “tre coincidenze fanno una prova” (cioè garantiscono la quasicertezza). Ma se si insiste nel trattare l’ indipendenza o la
coincidenza (quindi anche la rilevanza) come una proprietà definibile in termini
probabilistici, asserti come i suddetti diventano asserti del secondo ordine, cioè
asserti probabilistici vertenti su asserti probabilistici. Orbene, il modo per calcolare probabilità del
secondo ordine non è governato dagli assiomi di Kolmogorov, e i tentativi di estendere questi assiomi
con principi per la probabilità di secondo ordine sono finora insufficienti. Sembra ci siano buoni
motivi, dunque, per evitare una definizione probabilistica (nel senso della probabilità classica) delle
nozioni che entrano nei ragionamenti ampliativi, anche se ovviamente questi ragionamenti sono
strutturalmente esposti a manifestare un certo grado di fallibilità. Bisogna prendere atto in ogni caso
che manca a tutt’oggi una teoria comprensiva del ragionamento ampliativo che abbracci tutti questi
tipi di ragionamento in modo soddisfacente.
Senza pretendere di dire l’ultima parola, cercheremo rapidamente di
abbozzare, se non una teoria, almeno alcuni punti fermi per stabilire ciò che si
intende per inferenza razionale e inferenza ragionevole. Queste considerazioni
serviranno come premesse per gli sviluppi successivi.
Cominciamo con l’osservare che nell’ inferenza non-deduttiva si danno casi in
cui gli stessi dati possono portare a conclusioni che sono egualmente plausibili
ma incompatibili tra loro.
Per illustrare questo fenomeno è utile ricorrere all’effetto gestaltico in
psicologia. Il più noto dei disegni Gestaltici è il c.d. “cubo di Necker”.
Nella letteratura epistemologica è diventato popolare l’effetto duck-rabbit (si
trova in Wittgenstein , ma fu ripreso da Kuhn per illustrare il concetto per cui la visione
è sempre “carica di teoria”).: si tratta di un disegno in alcuni soggetti vedono un coniglio, mentre altri
altrettanto legittimamente vedono un papero.
In tutti i casi di effetti gestaltici ottici si ha motivo di credere che l’aggiunta o la sottrazione di
informazione grafica o percettiva disambigui l’immagine iniziale.
Si dice a volte che queste esperienze visive non sono verbalizzabili. Ma noi
supporremo che esse possono descritte con enunciati veri o falsi. Per
esempio nel caso del duck-rabbit possiamo dire:
a) Il disegno a è la rappresentazione corretta un papero
b) Il disegno a è la rappresentazione corretta di un coniglio
Ma noi accettiamo anche il postulato che
(I) Se un segno a rappresenta correttamente un oggetto O, non può rappresentare correttamente anche
un O’ diverso da O.
Questo perché una rappresentazione è corretta quando esiste una funzione, cioè una corrispondenza
univoca, tra il segno e ciò che essa intende rappresentare. Diverse immagini possono rappresentare uno
stesso oggetto, ma un’immagine non può rappresentare più oggetti simultaneamente. Quindi i due
enunciati a) e b) non possono
essere simultaneamente veri, anche se possono essere simultaneamente falsi.
Qualcuno può pensare che il disambiguamento si abbia non aggiungendo ma cancellando
informazione da K. Questo certo si può fare per le immagini –
cancellando dei punti o dei segni da un disegno- ma con la verità è un’operazione più difficile. Un’
obiezione in merito potrebbe essere questa: io posso ipotizzare che in un
certo mondo possibile qualcosa di attualmente vero non sia vero (come nelle ipotesi controfattuali o nel
gioco “facciamo finta che”)ma non posso intenzionalmente eliminare dal mio stato di conoscenza
informazione che ne fa parte. Si può discutere molto sul concetto stesso di informazione, che è stato
oggetto di varie analisi. Si noti comunque che un soggetto può perdere informazione in modo nonintenzionale, semplicemente per amnesia, per il morbo di Alzheimer o per qualche alterazione
irreversibile dello stato di coscienza. L’argomento più importante comunque è che non è obbligatorio
identificare l’informazione con lo stato epistemico di un soggetto, sia pure privilegiato. In tal caso, se
l’informazione è una grandezza in qualche modo indipendente dalla coscienza dei soggetti allora la
distruzione di informazione è una possibilità innegabile. La distruzione di un data-base o di un libro –
per non parlare di un’intera biblioteca, come l’antica biblioteca di Alessandria - comporta una perdita
secca di informazione in questo secondo senso.
Daremo per scontato, comunque, che la scienza procede conservando cumulativamente informazione
passata e che, entro la scienza, l’informazione è una grandezza che,come l’entropia, è destinata a
crescere senza limiti. Questo distingue la scienza da altri tipi di attività come il giornalismo e la
storiografia, che pure hanno a che fare con l’informazione. Il problema è però che l’ accrescimento di
informazione può portare a una modifica delle relazioni inferenziali tra proposizioni.
Supponiamo che rispetto all’informazione K da A si inferisca B.
Se K è esteso con nuova informazione K’ può darsi che da K+K’ non si riesca
più a fare l’inferenza da A a B. Quando una relazione inferenziale ha questa
proprietà si dice che è non-monotòna. Si ricorderà che abbiamo già incontrato una relazione di
inferenza non monotòna, che è quella operante nella spiegazione statistico-induttiva. Supponiamo
infatti che l’explanandum E sia inferibile dall’explanans CL in modo tale che Pr(E| CL) =1-∈. Può
darsi benissimo che aggiungendo altri elementi informativi a CL il valore di probabilità di Pr(E| CL)
sia più basso di 1-∈, cosicché la nuova informazione cancella la validità dell’inferenza esplicativa. I
condizionali controfattuali soffrono dello stesso inconveniente: Infatti se può essere vero
a) Se il fiammifero f fosse stato sfregato si sarebbe acceso
ma a) potrebbe risultare falso nel caso in cui si venisse ad acquisire la nuova informazione che il
fiammifero f proviene da un partita di fiammiferi conservata in un magazzino alluvionato.
Se anche così non fosse , è comunque chiaro che il controfattuale
b) Se il fiammifero fosse stato bagnato e sfregato si sarebbe acceso.
non può conseguire da a) se a) è vero.
Si può mostrare ora come il ragionamento controfattuale può produrre un
fenomeno simile a quello delle immagini gestaltiche ricorrendo a un celebre esempio con cui Quine
riteneva di evidenziare la vaghezza ineliminabile del ragionamento controfattuale, e quindi la sua
inutilità scientifica.
Supponiamo di avere un K che è il seguente :
1) Compatrioti sono persone della stessa nazionalità
2) Bizet era francese
3) Verdi era italiano
Supponiamo ora controfattualmente :
4) Bizet e Verdi erano compatrioti.
L’insieme formato da 1-4 (K + 4) è incoerente e quindi Se vogliamo distinguere controfattuali veri da
controfattuali falsi
dobbiamo identificare dei sottoinsiemi coerenti di K + 4).
Possiamo eliminare da K 1),2) o3).
Eliminando 2) otteniamo come conclusione
(BI)“Bizet era italiano”
mentre eliminando 3) abbiamo
(VF) “Verdi era francese”.
Le conclusioni sono ambedue legittime. Ma non possono essere
simultaneamente tali perché lo sarebbe anche la loro congiunzione . Quindi
dall’ipotesi che i due grandi operisti sono compatrioti seguirebbe che l’uno è
italiano e l’altro francese, il che è un’assurdità.
Ciò che è certo è che è vera la disgiunzione
(BI oVF): Bizet era italiano o Verdi era Francese
ma i casi in cui essa è vera ci riportano alla difficoltà originaria.
Dunque BI e VF sono due condizionali falsi? Questo è quanto sostenuto da molti filosofi. Il problema
si pone anche per condizionali leggermente diversi, che Goodman chiamava controidentici
Per esempio
(+) Se fossi Verdi avrei scritto “La donna è mobile”
(Si noti , incidentalmente, che questo non è esattamente lo stesso di
(++) Se Verdi fosse me, Verdi avrebbe scritto “La donna è mobile”
Infatti (++) è falso perché io non ho mai scritto “La donna è mobile”)
Dove entra in gioco l’effetto Gestalt è nella equiplausibilità delle conclusioni
per certi valori di K. Per esempio, può darsi che K contenga “ io detesto ‘La
donna è mobile’”. Se aggiungo questa vera informazione a K, ottengo
(+-) Se fossi Verdi non avrei mai scritto “La donna è mobile”.
che è incompatibile con (+)
Questo è un caso in cui l’aumento di informazione crea un effetto gestaltico,
anziché eliminarlo: è quindi effetto del carattere non-monotono dell’inferenza.
Qualche premessa può essere utile.
a)Uno dei fini distintivi della scienza è l’accrescimento dell’informazione.
b) Lo scienziato, a differenza p.es. del giornalista o del critico d’arte, deve tener conto di tutta
l’informazione disponibile e non solo di una parte, anche se selezionata. di questa .
Una volta questo si chiamava requisito dell’evidenza totale Ovviamente questa non è l’unica
massima che dirige l’attività scientifica, perché la scienza tende
all’astrazione, che in un certo senso opera in direzione opposta :
astrarre vuol dire semplificare, cioè eliminare informazione irrilevante. Inoltre il principio vale solo
come idealizzazione, perché ovviamente non si può conseguire in tempo finito.Nello spirito del
principio dell’evidenza totale si ha comunque che dovendo scegliere tra insiemi di enunciati da usare
come premessa per un ragionamento si sceglierà quello più informativo.
Ora un fatto di solito trascurato è che in tutti i casi, se da un certo insieme K di informazioni
si può derivare un controfattuale, si può anche derivare da K un controfattuale con lo stesso antecedente
del primo ma con consegeunte incompatibile. Sia K per esempio
L: Tutti i fiammiferi sfregati in condizioni ottimali si accendono Pr(B/A) = 1- ∈
1) Il fiammifero a non è stato sfregato
2) Il fiammifero a non si è acceso
Supponiamo ora di aggiungere l’ipotesi controfattuale che nega 1):
H) Il fiammifero a è stato sfregato in condizioni ottimali.
I controfattuali con premessa H asseribili con verità in realtà sono due:
i)-Se il fiammifero a fosse stato sfregato in condizioni ottimali si sarebbe acceso.
ii)-Se il fiammifero a fosse stato sfregato a sarebbe l’esempio di un fiammifero
sfregato in condizioni ottimali che non si accende .
E' chiaro che, i) e ii) sono enunciati
incompatibili esattamente come nel caso Bizet-Verdi.
Quindi a rigore l'unica conclusione inoppugnabile sarebbe questa disgiunzione:
(*) O il fiammifero sfregato a si sarebbe acceso o a sarebbe l’esempio di un
fiammifero sfregato in condizioni ottimali che non si accende.
Per quale motivo si tende invece a concludere con i) ?
La conclusione del controfattuale
(i) si ottiene eliminando il fatto 2), mentre (ii) è ottenuta
eliminando L, ossia una legge di natura. E, comunque si voglia definire il contenuto
informativo, il contenuto informativo di una legge di natura è sempre superiore a
quello di un qualsiasi fatto singolare.
Anche in casi in cui il contesto K è ridotto al minimo le ipotesi controfattuali
generano due conclusioni incompatibli. Esempio:
§) Se Apollo fosse uomo sarebbe mortale
§§)Se Apollo fosse uomo sarebbe l’esempio di un uomo immortale
Il motivo per cui i condizionali ordinari non sono normalmente controfattuali gestaltici è dunque che
abbiamo una base per fare una scelta tra due conclusioni incompatibili:
una delle due implica una minore perdita di informazione, e suona talmente plausibile che l'altra
alternativa spesso non viene nemmeno presa in considerazione dai parlanti per una sorta di
automatismo psicologico. Il ragionamento controfattuale, per offrire conclusioni attendibili, consiste di
fatto nella scelta di un sottoinsieme di K compatibile con h che contiene il massimo di informazione
compatibile con h.A volte si parla di questo fenomeno come di "risoluzione standard della vaghezza".
Che accade quando questa scelta non è possibile perché le due conclusioni ci sembrano
indifferenti? L’aggiunta di informazione allo stock K può eliminare l’ambiguità e può risolvere i casi
dei controfattuali gestaltici. Riprendiamo il caso Bizet-Verdi. Supponiamo di scoprire una lettera di
Verdi da cui si viene a sapere che Verdi odiava la Francia e la popolazione francese. Inoltre si viene a
sapere che Bizet voleva chiedere la cittadinanza italiana. Inoltre aggiungiamo la legge
L°: Chi odia una nazione, non accetta di essere cittadino di questa nazione.
In tal caso non si può dire che le conclusioni sono egualmente plausibili.
La conclusione “Verdi sarebbe stato francese” è incompatibile con questa
informazione supplementare, quindi ci costringe a rimuovere più
informazione che nell’altro caso.
Dunque abbiamo stabilito che ciò che entra in gioco nell’ inferenza controfattuale è una scelta tra
conclusioni conflittuali. Ma qual è la natura dell’inferenza che porta a ciascuna di tali conclusioni?
Un' idea che viene spontaneo sottoscrivere è che c’è una legge, logica o non-logica, che fa da ponte
tra antecedente e conseguente. Secondo alcuni filosofi è sufficiente il linguaggio probabilistico per
rendere questo rapporto. Come già sappiamo, è disponibile la relazione Pr(B|A) = 1 - ε (rappresentata
da A => B) per indicare la quasi-certezza che B sia implicato da A. ε è un valore di soglia (margine di
errore) che può variare contestualmente, con cui vogliamo così esprimere l’ideale della conclusione “al
di là di ogni ragionevole dubbio” che è richiesta dal diritto penale. In questa sede possiamo darne una
versone modale: quasi tutti o tutti i mondi possibili in cui è vero A sono mondi in cui è vero B.
Quando si impone una scelta tra conclusioni in conflitto possiamo parlare di inferenza razionale. I
controfattuali sono basati su inferenze razionali in cui l’antecedente è noto essere falso. Se
l’antecedente è vero siamo di fronte a quelli che chiamiamo condizionali fattuali. Se il valore di verità
dell’antecedente è sconosciuto parliamo di condizionali afattuali. (I latini parlavano di periodi ipotetici
della irrealtà, della realtà e della possibilità).
Si è visto dunque che i controfattuali ci pongono sempre di fronte alla scelta razionale tra
conclusioni incompatibili. Ma anche nei condizionali fattuali, anche se meno evidente, si impone una
scelta del genere.
È questa la lezione che si ricava dal cosiddetto “ paradosso di Goodman”, che abbiamo già esaminato
a suo tempo.
Qui in base a due ragionamenti inoppugnabili, ci troviamo di fronte a due conclusioni incompatibili :
gli smeraldi futuri saranno verdi /gli smeraldi futuri sarannno blu.
Abbiamo gli elementi per compiere una scelta? Sì, se si considera che ogni stock di informazione
dovrebbe contenere idealmente il principio di Uniformità della Natura (UN), che essendo di tipo
infinitario (cioè si riferisce a un numero infinito di fatti) ha un altissimo contenuto informativo. Allora
in base a UN bisogna respingere qualsiasi conclusione che comporta la trasformazione cromatica degli
smeraldi e accettare semplicemente che i prossimi smeraldi saranno dello stesso colore che hanno
manifestato nel campione soservato, cioè verde.
Anche qui, dunque, l'unica conclusione incontrovertibile è una disgiunzione.
(Dopo il 2500 gli smeraldi saranno blu o saranno verdi), ma la razionalità consiste
nell’eliminare un disgiunto che è incompatibile con una legge di alto contenuto
informativo come il principio di uniformità della Natura.
Quindi si può legittimamente sostenere che anche il ragionamento induttivo è
ottenuto per selezione razionale di una conclusione. Qualcuno può pensare che
non si diano casi di induzione gestaltica, analoghi a quello Bizet-Verdi, ma
questo non è vero: anzi fa parte della vita quotidiana sperimentare situazioni di questo tipo.
Un esempio è questo. Supponiamo che K contenga queste informazioni:
1) Un certo aereo a ha i motori costruiti dalla casa X ed appartiene alla
compagnia Y
2) La compagnia Y non ha mai avuto incidenti
3) I motori della casa X si sono rivelati difettosi in qualche occasione
Conclusione 1: I prossimi voli dell’aereo a sono rischiosi
Conclusione 2:
I prossimi voli dell’aereo a sono sicuri.
Perché scegliere 1 piuttosto che 2 o 2 piuttosto che 1?
Fenomeni gestaltici di questo tipo sono ben noti ai serivizi di marketing delle compagnie aeree. Si sarà
notato che molte compagnie nascondono
i dati sullla sicurezza dei propri voli perché molti ritengono che le compagnie aeree che non hanno mai
avuto incidenti, anziché essere le più sicure, sono le più rischiose. In effetti questa conlusione
apaprentemente assurda dipende dal fatto che abbiamo due generalizzazioni in K che possono generare
conclusioni incompatibili:
1) La compagnia X non ha mai avuto incidenti
2) Tutte le compagnie aeree prima o poi hanno incidenti
Dalla generalizzazione 1) si può derivare la conclusione che la compagnia X non avrà incidenti in
futuro. Ma dalla generalizzazione 2), ammesso che sia vera, si può derivare la conclusione che la
compagnia X, non avendo avuto incidenti in passato, è destinata ad avere un incidente in futuro e
magari nel prossimo futuro.
Un altro esempio più ingannevole è questo. Si supponga che qualcuno trasferisca una coppia di orsi
bruni al Polo Nord e si chieda: di che colore saranno i cuccioli?
Qui ci sono, a quanto sembra, da considerare due leggi di natura:
a) Tutti gli animali che vivono al Polo Nord sono bianchi.
b) Tutti i cuccioli di orsi bruni sono bruni
Prima facie sono legittime tutte e due le risposte. (Si noti che la probabilità è in ambedue di casi 1-∈).
Ma c'è un serio motivo per cui va respinto a) : a) non è
una vera legge scientifica, anche se può essere accidentalmente vera per un tempo molto grande. La
legge è un’altra, cioè che tutte le specie animali che hanno il Polo come habitat naturale sono
tendenzialmente bianche; e questo non riguarda singoli animali accidentalmente trasferiti al Polo.
Chi ha dato la dovuta considerazione al ruolo dell’informazione di sfondo nel ragionamento è stato
Hempel nel precisare la teoria della spiegazione statistico-induttiva. Hempel ha visto chiaramente che,
a differenza della spiegazione nomologico-deduttiva, la spiegazione IS è sensibile alla quantità di
informazione che compare nella premessa. Come abbiamo già visto, questo è ciò che si intende per
“inferenza non-monotòna”.
Nella spiegazione IS - come noi abbiamo richiesto- la conclusione deve seguire dalle premesse con
probabilità 1-∈. Supponiamo per esempio che la domanda (il problema ) sia: Perché Rossi si è
ristabilito in tre giorni dall’ operazione? Spiegazione: Perché è stato operato di appendicectomia e quasi
tutti quelli che sono operati di appendicectomia, come lui, si
ristabiliscono in fretta. Ma supponiamo di aggiungere - informazione supplementare che Rossi ha 95 anni. Allora qui dobbiamo tener conto di una seconda legge,
L*: Quasi tutti coloro che hanno 95 anni non si ristabiliscono da operazioni
chirurgiche.
La spiegazione precedente quindi è errata. Se Rossi è sopravvissuto, non può
essere per la ragione sopra menzionata ma per qualche altro motivo, per esempio il fatto che Rossi ha
una fibra particolarmente robusta . Per ovviare a questo problema Hempel esige la regola
dell’evidenza totale o meglio una sua variante che è il principio della
massima specificità: ogni explanandum deve essere descritto con la massima
specificità consentita dalle informazioni disponibili. In altri termini qualsiasi
spiegazione deve tener conto del massimo di evidenza favorevole e contraria.
Si noti che il problema posto nell'ultimo esempio è un problema abduttivo, cioè un problema di
ricerca della miglior spiegazione possibile di un certo evento.
Non è qui la sede per fare un discorso sulla diversa posizione dei positivisti
e degli anti- o post- positivisti sul problema della spiegazione e quindi dell'inferenza abduttiva. Thomas
Kuhn ha paragonato il mutamento teorico a un cambiamento gestaltico. Per lui possono
esserci spiegazioni gestalticamente diverse dello stesso fenomeno (per esempio il tramonto del sole) in
dipendenza da "paradigmi" diversi. Nella sua concezione sono i paradigmi che selezionano l’evidenza,
e non l’evidenza che seleziona i paradigmi. Altrimenti detto, sono le teorie che condizionano i fatti e
non, come ritenevano i positivisti, i fatti che condizionano le teorie. Questo modo di pensare è
correttamente chiamato relativista in quanto ha molte affinità con il relativismo culturale, cioè con
l'idea secondo cui sono le culture umane- e in particolare le lingue naturali a cui sono associate- a
condizionare i dati percettivi.
Il punto di vista qui sostenuto è antirelativista. Si ritiene che i fenomeni gestaltici siano dovuti solo a
insufficienza della conoscenza disponibile, e non alla relatività dei punti di vista. Il progresso della
conoscenza quindi normalmente risolve i casi perplessi, anche se l'aumento di informazione che
produce potrebbe introdurne di nuovi.
Il caso dell’abduzione presenta, proprio in tema di relatività, un problema supplementare rispetto alla
deduzione e all’induzione. La selezione infatti è effettuata entro un insieme di ipotesi che sono fissate
dal ricercatore stesso con un certo grado di arbitrarietà. Anche qui ci troviamo pure di fronte a
situazioni gestaltiche, così come nel caso dell’induzione e del ragionamento controfattuale.
Sherlock Holmes nelle sue indagini di tipo abduttivo si basa sullo slogan più volte ripetuto
“Eliminate tutte le ipotesi salvo una quella che rimane, per quanto improbabile, deve essere la verità”.
(“Il segno dei quattro” contiene un capitolo intitolato “The Science of Deduction”). Tuttavia in Holmes
si ha da un lato il culto positivista dei “duri fatti” in quanto opposti a rischiose ipotesi teoriche,
dall’altro si trova la consapevolezza che non ci sono fatti che parlano da soli. Si consideri questo
passo: << “Le prove schiaccianti sono un vero imbroglio” replicò Holmes con aria
pensierosa.“Sembrano indicare una cosa con la massima chiarezza, ma se si sposta appena un po’ il
proprio punto di vista, possono indicare con altrettante chiarezza una cosa completamente diversa” (Il
mistero di valle Boscombe). >>Riparafrasando le idee in termini a noi familiari, Holmes sembra dire
che ci sono casi in cui l’informazione disponibile suggerisce due conclusioni completamente diverse o
addirittura opposte. Per trattare astrattamente la situazione in linguaggio modale: abbiamo uno stock di
informazioni K e due sottoinsiemi K’ e K” tali che si potrebbe dire, per esempio,
1)Quasi tutti i mondi in cui è vero K ‘ sono mondi in cui Rossi è innocente
2)Quasi tutti i mondi in cui è vero K’’ sono mondi in cui Rossi è colpevole.
Ma, rispetto al caso dell’inferenza induttiva o controfattuale, con l'abduzione si pone un
problema . Nel caso dell’induzione e del ragionamento controfattuale la nuova informazione acquisita
elimina la disgiunzione tra conclusioni incompatibili , mentre nel caso dell’abduzione l’informazione
aggiuntiva potrebbe elimnare alcune delle vecchie ipotesi , ma portare a introdurre nuove ipotesi non
prese in considerazione prima. Dunque il problema primario da risolvere nel caso dell’abduzione è
quello di garantire fin dall'inizio l' esaustività delle ipotesi generate. In altri termini bisogna cercare di
generare tutte le ipotesi possibili, senza trascurare le più improbabili, in modo tale che la probabilità
della loro disgiunzione si approssimi a 1.
Il problema della generazione è aggravato dal fatto che si esige non solo l’esaustività delle ipotesi
ma la loro incompatibilità. Si pensi che si è ritenuto per anni che la teoria corpuscolare e quella
ondulatoria fossero incompatibili. Ma oggi non siamo sicuri che le ipotesi fossero esclusive tra loro. La
luce potrebbe essere qualcosa di differente da un’onda e da un corpuscolo (potrebbero essere.come si
dice, una wavecle), oppure potrebbe essere un entità non assimilabile ad altre, tale da presentare
simultaneamente aspetti tanto corpuscolari che ondulatori.
Al proposito si noti, incidentalmente, che si possono anche dare dei casi di ridondanza esplicativa.
Ci resta il dubbio, per esempio, sulle cause di un incidente automobilistico senza testimoni: improvvisa
rottura dei freni o malore del guidatore? La probabilità (statistica) che si siano verificate insieme le due
sfortunate circostanze è talmente bassa da superare la soglia di ciò che giudichiamo ragionevolmente
possibile. Ma non si può logicamente escludere che si siano verificate insieme in quello specifico caso,
o che l'una abbia causato l'altra.
Si noti che questo ci porta a riformulare meglio dal punto di vista combinatorio il ventaglio delle
ipotesi. Invece di esaminare la disgiunzione h1 o h2 , dovremo esaminare la disgiunzione h1 o h2 o (h1
& h2).
Il discorso sull’abduzione si salda con il discorso sulla percezione Gestaltica.
Infatti Peirce ha insistito sul fatto che la categorizzazione dei dati percettivi non è qualcosa di
immediato o automatico ma dipende da un ragionamento abduttivo compresso, dovuto ad automatismi
psichici. Supponiamo di entrare in una stanza chiusa, tocchiamo un tessuto e lo classifichiamo come
lana. Questo significa operare, anche se in modo inconscio, un’abduzione, cioè inferire che la causa (la
spiegazione) della sensazione è un tessuto di lana. Recentemente si è parlato anche di abduzione
visuale. Il caso della percezione gestaltica del Duck-Rabbitt sarebbe quindi un caso di abduzione
visuale in cui soggetti diversi derivano una conclusione sulla base di insiemi di dati differenti. Se così,
quella che viene spesso chiamata interpretazione dei dati percettivi non sarebbe altro che un tipo
particolare di abduzione.
Concludendo, le varie forme di ragionamento non dimostrativo che abbiamo esaminato hanno tutte in
comune il fatto di comportare una scelta tra conseguenze in un certo senso incompatibili. La
conclusione che viene scelta è quella derivata da un sottoinsieme di K che conserva il massimo di
informazione disponibile.
Ogni inferenza razionale quindi è tipo di inferenza basato sul criterio della minima perdita di
informazione. Si può usare il termine ragionevole per indicare il caso di una inferenza razionale nel
quale il nesso inferenziale tra A e B non è stabilito solo con ragionamenti probabilistici o statistici ma
con l’impiego effettivo di leggi di natura che facciano da ponte tra antecedente e conseguente.
Naturalmente altri criteri di selezione tra le conclusioni potrebbero essere adottati, per esempio
usando come criterio di scelta la maggiore probabilità o maggiore verosimiglianza o maggiore
semplicità della conclusione. Ma la quantità di informazione è il più importante, in quanto la
massimizzazione di questa grandezza, per quanto abbiamo detto, è uno degli obiettivi che distinguono
la scienza da altri sistemi di pensiero.
Resta solo da considerare che la teoria dei controfattuali dominante oggi, dovuta sostanzialmente a
David K.Lewis, è molto diversa da quella sopra delineata. Infatti è basata non sul confronto tra le
quantità di informazione ma sull’idea del confronto di somiglianza tra mondi possibili.
Secondo Lewis, il condizionale A > B è vero in un mondo w se gli A-mondi più simili a w sono B –
mondi.
Esempio:
“Se Hitler avesse invaso l’Inghilterra nel 1940 avrebbe vinto la guerra”
significa per Lewis “I mondi possibili più simili all’attuale in cui Hitler ha invaso l’Inghilterra nel 1940
sono mondi in cui Hitler ha vinto la guerra”.
Purtroppo ci sono inferenze valide per Lewis che non lo sono per la teoria dell’ inferenza
razionale/ragionevole sopra enunciata.
“Se Bizet e Verdi fossero compatrioti la terra sarebbe sferica” è valido per Lewis in quanto i mondi
possibili più simili al nostro in cui Bizet e Verdi sono compatrioti sono mondi in cui la terra è sferica.
Ma il conseguente non è derivato dall’antecedente per via di qualche legge logica o fisica, e l’inferenza
non appare ragionevole nel nostro senso. Del resto per la teoria di Lewis risulta valido un
teorema che consente di inferire, da (A &B), sia A > B che B > A. questo teorema non riguarda i
controfattuali ma condizionali fattuali, cioè con antecedente e conseguente vero, e dipende
dall’inevitabile assunto che il mondo attuale è quello più simile a se stesso. Questa formula asserisce
che ogni condizionale è vero purchè le due clausole siano vere – per esempio “se i prati sono verdi
Giulio Cesare ha conquistato la Gallia” – il che in un certo senso banalizza tutta la teoria per la parte
riguardante i condizionali fattuali.
C’è un senso tuttavia in cui anche la teoria di Lewis si può pensare basata sulla conservazione
dell’informazione. Secondo Lewis nel ragionamento controfattuale c’è un’asimmetria tra passato e
futuro. Facendo un’ ipotesi controfattuale a suo avviso bisogna conservare la maggior parte possibile
dei fatti antecedenti cronologicamente all’ipotesi, ma non quelli cronologiamente successivi. A suo
avviso i mondi possibili più simili all’attuale sono quelli che hanno in comune con il mondo attuale la
maggior parte dei fatti che precedono il momento in cui dovrebbe aver luogo l’ipotesi controfattuale.
Il prezzo da pagare per questa asimmetria però è la sospensione di leggi di natura, cioè l’ammissione
di ipotetici miracoli. Se per esempio dico “Supponiamo che il barometro ieri non si sia abbassato ”
secondo Lewis i mondi più simili all’attuale in cui l’ipotesi è vera sono mondi in cui viene conservata
una depressione atmosferica precedente, il che significa che nei mondi più simili all’attuale il
barometro ieri ha mancato di abbassarsi senza causa apaprente, per un "piccolo miracolo".. Viene
quindi eliminata la legge di natura secondo cui la depressione è sempre seguita dall’abbassamento del
barometro.
Dal nostro punto di vista questo è però errato perché le leggi hanno un contenuto informativo
maggiore dei fatti singoli, e quindi vanno sempre conservate nel caso in cui si sia di fronte ad una scelta
tra conservazione dei fatti e conservazione delle leggi.
LEZIONE 9. La teoria controfattuale della causa e l’accertamento delle cause.
L’abduzione, come abbiamo visto, si può definire come il processo di inferenza alla migliore
spiegazione. L'explanandum E, cioè l'oggetto di cui ci si chiede il perchè, può essere un fatto singolare,
un fatto complesso, una generalizzazione o una legge. Nel caso in cui E è una generalizzazione o una
legge, la spiegazione di E consiste nel derivare E da leggi più generali,
e l'abduzione sarà quindi la ricerca della migliore spiegazione in questo senso (a volte questo tipo
particolare di abduzione viene chiamato retroduzione). L'esempio più glorioso
di questo processo nella storia della scienza è stata la scoperta della leggi di Keplero descritta da
Hanson in "Modelli della scoperta scientifica".
In ambito giudiziario normalmente l'abduzione attiene la spiegazione di fatti singolari mediante il
ricorso ad altri fatti singolari, ed è giusto osservare che in questo caso le spiegazioni più soddisfacenti
sono le spiegazioni causali. Per questo motivo si trova frequentemente definita l' abduzione come
inferenza dagli effetti alle cause, anche se a rigore la definizione è errata. La definizione potrebbe
essere parzialmente giustificata se facciamo coincidere la relazione esplicativa con la relazionecausale.
Questa identità in effetti è stata teorizzata da Hempel e dai neopositivisti, con il sostanziale consenso di
antiinduttivisti come Popper. Come si è visto, dal punto di vista Hempeliano la relazione esplicativa è
quella che intercorre tra explanans ed explanandum. Complessivamente l’explanans è una condizione
sufficiente per l’explanandum nel caso nomologico-deduttivo mentre è sufficiente con alto grado di
probabilità nel caso statistico-induttivo. . L’inconveniente di questa dottrina è che qualsiasi alta
correlazione statistica che connette elementi dell'explanans con l'explanandum può essere classificata
come causale, portandoci quindi a cadere nella più classica e fastidiosa fallacia di ragionamento
causale.
Il neopositivismo, che ha sempre professato qualche forma di riduzionismo causale , ha tentato di
eliminare il linguaggio causale a favore di quello probabilistico, con tentativi spesso ingegnosi ma poco
soddisfacenti. Per esempio la teoria probabilistica della causa di P.Suppes, ispirata da Reichenbach, si
riduce ad asserire che la causa è ciò che incrementa la probabilità dell’effetto, a meno che non esista un
terzo evento antecedente che annulla il peso probabilistico della presunta causa. L'esempio del
barometro, il cui peso probabilistico è annullato dalla precedente depressione, si presta a illustrare la
teoria. La correlazione barometro-tempesta è una correlazione spuria, mentre la correlazione
depressione tempesta è una correlazione genuina.
Sono molti i controesempi che si potrebbero opporre a questa tesi, alcuni dei quali dovuti alla scelta
di valori probabilistici. Se, per esempio, l’evento effetto ha già un grado di probabilità pari a 1 (sia per
esempio il sorgere del sole domani mattina) , non c’è niente che possa innalzare il suo valore di
probabilità , e quindi risulta, paradossalmente, non causato da nulla. Che dire inoltre quando la presunta
causa abbassa la probabilità dell’effetto: per esempio quando una pallina da golf urta contro un ramo e ,
a causa di questo accidente, finisce in buca per un improbabile ma possibile colpo di fortuna ?
La dottrina della condicio sine qua non, impiegata nei tribunali da secoli e probabilmente derivata dal
diritto romano, non presenta i problemi della teoria probabilistica della causa. Come è noto, in virtù di
questa concezione, possiamo dire che a è causa di b quando si può asserire il controfattuale " se non ci
fosse stato a, non ci sarebbe stato b".
Per evidenziare la differenza con la teoria probabilistica si può anche sostenere che i controfattuali, se
correttamente formulati, si possono presentare come strumento principe per l’eliminazione delle
correlazioni spurie. Viene quasi spontaneo osservare che l’abbassamento del nostro barometro oggi non
può essere causa del temporale di stasera perché, se non ci fosse nessun abbassamento del barometro a
ragione dell’assenza di barometri in casa, il temporale si verificherebbe egualmente.
Questo esempio però è utile a far riflettere sulla forma logica di questo tipo di giudizi. L’asserto
“l’abbassamento del mio barometro è causa di tempesta” implica il controfattuale
(°°) Se il mio barometro non si fosse abbassato non ci sarebbe tempesta
Secondo la semantica d David Lewis, che ha rilanciato la teoria controfattuale
della causa nel 1970, (°°) va reinterpretata così:
Nei mondi possibili più simili all’attuale in cui il mio barometro non si è abbassato non c’è stata
tempesta.
È vero o falso? Dipende da come intendiamo la somiglianza tra mondi. Secondo Lewis, come
abbiamo già detto, i mondi più simili all’attuale sono quelli uguali all’attuale per quanto riguarda la
storia passata fino al momento in cui il barometro si abbassa; in questi mondi c’è una depressione
atmosferica antecedente ma, per qualche misterioso fenomeno (piccolo miracolo) il barometro che
dovrebbe abbassarsi non si abbassa. Dunque la somiglianza è garantita dalla conservazione quanto più
possibile estesa dell'informazione circa il passato, ma non nella conservazione delle leggi di natura.
Tutto questo è inammissibile se vogliamo poter dire che le leggi (v.paragrafo precedente) servono a
stabilire un rapporto consequenziale tra antecedente e conseguente. Quando si ipotizza la negazione di
un fatto quindi si sottintende che la classe delle leggi accettate resti stabile, in base al principio della
conservazione di informazione. Questo non significa escludere che anche una legge potrebbe essere
ipotizzata falsa. In questo caso si parla non di controfattuali ma di controlegali.
P.es. “Se i pianeti ruotassero attorno al sole in orbite circolari anche la terra ruoterebbe in un’ orbita
circolare”
Queste ipotesi non sono oziose perché ci permettono di capire le conseguenze di teorie false che un
tempo erano considerate vere. Si noti che anche per i controlegali vale il principio di conservazione
dell’informazione, nel senso che viene rimossa solo la legge ipotizzata falsa e tutti gli enunciati
interconnessi con essa, mentre vengono conservate tutte le leggi indipendenti dalla legge in questione
(tra cui quelle di livello superiore come, per esempio, il principio di gravitazione universale).
Nel caso dei controfattuali che intervengono nell’accertamento delle cause, invece, vengono
ipotizzate delle mancate occorrenze di eventi singolari (token-eventi).
Gli eventi singolari sono eventi spazio-temporalmente determinati (es. “il gatto Micifuf miagola alle
10.30 del 20 settembre 2008”), mentre gli eventi generici (type -events) non hanno determinazioni
spazio-temporali. Senza entrare in una complessa discussione filosofica, qui stiamo assumendo che le
relazioni causali intervengono tra token-eventi, non tra eventi generici, leggi, proprietà, proposizioni o
altri tipi di relata. In particolare, sono da considerare improprie asserzioni come “il sasso causò la
rottura del vetro”, che fanno pensare a una ontologia aristotelica secondo cui le relazioni causali
intervengono tra corpi o sostanze dotate di poteri causali.
Per essere più precisi, un evento semplice nel senso che qui si vuole privilegiare è una tripla
[P, a, t] dove P è una proprietà, a è un oggetto , t è l’istante di inizio dell'evento. Per esempio
se P= essere aperto, a=l’ingresso principale dell’Università Statale di Milano, t= 8.10 di oggi, l’evento
in questione è l’evento per cui il portone della Statale è aperto alle 8.10 di oggi .
Un evento complesso è una generalizzazione di un evento semplice. In esso intervengono relazioni a
più posti (p.es. “essere padre di”) anziché predicati semplici, una molteplicità di enti anziché un unico
soggetto, e un intervallo I anziché un istante atomico t.
Scriveremo Oe, dove e = [P, a, t] per indicare che l’evento e occorre , cioè si verifica. Asserire Oe
significa tre cose distinte circa l'evento e :
1) Esiste realmente in t l’entità a
2) a ha la proprietà P nel corso di un intervallo iniziante con t
3) Prima di t a non ha la proprietà P
In altri termini 2) e 3) asseriscono che t è l’istante d’inizio della verità della proposizione espressa da
“a è P”.
Da questa definizione segue che ipotizzare la negazione di Oe è una faccenda complessa. Infatti negare
Oe significa negare la congiunzione dei tre asserti 1,2,3, cioè affermare uno dei tre almeno è falso.
Quindi la negazione è ambigua perché significa che è falso o 1 o 2 o 3.
Supponiamo per esempio di fare l’ipotesi che il mio barometro non si sia abbassato alle 20.30 di ieri
(istante di inizio del suo reale abbassamento).
Omettendo per semplicità di considerare la clausola 3, questa ipotesi è ambigua perché in realtà si
riduce ad una disgiunzione: o non esisteva il mio barometro alle 20.30 di ieri o , (se esisteva) non si
abbassato a partire dalle 20.30 di ieri. Si noti che il secondo disgiunto è pure ambiguo, perché può
essere inteso nel senso che il barometro non si è abbassato affatto oppure che si è abbassato in qualche
momento diverso dalle 20.30 di ieri.
Per restare in questo esempio paradigmatico, chiediamoci se c’è un nesso causale tra l’abbassamento
di questo barometro alle 20.30 di ieri e l’evento “tempesta verificatasi ieri a partire dalle 21.00 ”. Per
rispondere dobbiamo esaminare le risposte a due domande distinte:
1) Se non fosse esistito il barometro in quel momento dello spazio-tempo ci sarebbe stata egualmente la
tempesta delle 21.00?
Risposta : Sì, ci sarebbe stata
2) Se l’abbassamento del barometro non si fosse verificato alle 20.30 ci sarebbe stata la tempesta delle
21.00?
Risposta : No, non ci sarebbe stata.
Le due domande controfattuali danno quindi delle risposte differenti, il che significa che il nesso
causale ipotizzato non sussite. Il lettore può rendersi conto della differenza tra queste risposte e quelle
che si avrebbero con una domanda in cui invece del non- abbassamento del barometro si ipotizza il
non-abbassamento della pressione atmosferica in un momento antecedente.
Bisogna evidenziare che la relazione causale non va confusa con quella esplicativa, anche se molti
neopositivisti come lo stesso Hempel tendevano a fare questa identificazione. Un celebre
controesempio alla teoria hempeliana della spiegazione scientifica (quindi alla teoria hempeliana della
causalità) è quello, dovuto a S. Bromberger, dell’asta della bandiera. La lunghezza dell’asta rende
calcolabile esattamente, data una certa posizione del sole, la lunghezza dell’ombra, ma con la stessa
esattezza si può risalire dalla lunghezza dell’ombra alla lunghezza dell’asta.
In primo luogo l'esempio significa che la relazione di spiegazione può essere simmetrica, forse contro
le intenzioni di Hempel. Tutto sommato questo non sembra così dannoso come alcuni sembrano
pensare. Nei rapporti di interazione, privilegiati dai pensatori dialettici, ha un senso preciso spiegare a
in termini di b e b intermini di a. Supponiamo, riprendendo un vecchio esempio di Vailati, che due
sfere vengano fatte cadere simultaneamente entro un imbuto e si fermino una contro l’altra. È giusto
dire che la posizione della prima spiega la posizione della seconda e la seconda spiega la posizione
della prima.
Ma è fuorviante, secondo noi, dire che la posizione della prima causa la posizione della seconda e
anche viceversa. I motivi per negarlo sono almeno due: 1) per ammettere questo bisogna ammettere che
esistono dei casi di causalità simultanea, mentre questo è escluso dal principio di azione ritardata, cioè
dall'idea comunemente accettata in fisica secondo cui qualunque azione si esercita entro un periodo di
tempo non-nullo. 2)Se si ammette la transitività della causazione almeno entro intervalli brevi allora, se
a causa b e b causa a , a causa a. Quindi bisogna ammettere l’autocausazione di a, il che è contrario ad
ogni concepibile definizione di causa.
Applicando il metodo proposto è facile invece verificare che un controfattuale come
“se il fiammifero non si fosse acceso alle 20.30 il pagliaio non si sarebbe incendiato alle 20.31” è vero
in quanto si fonda su una risposta univoca ai tre quesiti di cui sopra. In particolare, se non ci stato
nessun fiammifero in quella collocazione il pagliaio non si sarebbe incendiato (in quelle condizioni).
La lezione che si apprende da queste considerazioni è che normalmente, nel caso sussista un nesso
causale, la presenza o esistenza reale dell’oggetto che fa parte del token-evento ha qualche peso
sull’accadimento dell’effetto. Infatti l'esistenza reale dell'oggetto corrisponde a quella che Aristotele
chiamava causa materiale. Quando l'esistenza reale dell'oggetto non alcuna influenza sul presunto
effetto siamo di fronte a un fenomeno che ci impedisce di parlare di nesso causale.
Indubbiamente gran parte della confusione nelle discussioni sulla causalità risiede nel fatto
che c’è un numero ampio di nozioni causali di diversa forza e complessità. È diverso dire che un evento
rispetto a un altro è causa scatenante , determinante, immediata, remota, … La teoria controfattuale
della causa mira a individuare in un condizionale controfattuale semplicemente la nozione di causa che
è minimale, quella cioè che è semplicemente il minimo comune denomiatore di tutte le nozioni di
causa. In quanto tale esso funziona in molti più come come marchio per discriminare le relazioni
causali da altri tipi di relazione che non come espressione di causalità in senso pregnante.
Per fare un esempio, prendiamo questi controfattuali veri in cui l’antecedente precede il conseguente:
1)“Se Rossi non si fosse sposato non sarebbe divorziato”
2)“Se Cesare non fosse nato, non sarebbe morto assassinato”
3)“Se la fabbrica non avesse prodotto questo fiammifero, questo fiammifero non
si sarebbe acceso”.
In questi casi la nostra intuizione non suggerisce immediatamente la presenza di un nesso causale,
vuoi per la banalità della relazione, vuoi per la distanza cronologica tra presunta causa e presunto
effetto. Ma, se è vero che nessuno abitualmente si sente di enunciare proposizioni causali di questo tipo
(a meno che non si intenda essere intenzionalmente scherzoso), bisogna anche ammettere che
nessuno negherebbe che un certo nesso qualificabile come causale, anche se debole, sussista tra i
suddetti eventi. Questo nesso può essere descritto come un nesso di rilevanza causale e gli antecedenti
si possono chiamare fattori causali. Tutte le relazioni causali più importanti si lasciano descrivere come
costruzioni basate sulla relazione basilare di rilevanza causale.
Per esempio la relazione di causa determinante, che è la relazione causale più forte, di può definire in
questo modo:
e1 è causa determinante di e2 = e1 è causalmente rilevante per e2 e e1 è un
elemento nella spiegazione hempeliana di e2.
Può anche essere che e1 non solo spieghi e2 ma che e1 sia inferibile
abduttivamente da e2 come la spiegazione migliore di e2 . in questo caso diremo
che e1 è causa completamente determinante di e2.
e1 è causa diretta di e2 = e1 è causa determinante e non esistono altre cause
determinanti intermedie tra e1 e e2.
e1 è la causa di e2 = e1 è causa determinante di e2 e non esistono altre cause determinanti di e2
(almeno tra quelle che vengono prese in considerazione nell’attuale contesto di ricerca).
Si noti che, anche se il termine “causa” e “relazione causale” in italiano si prestano a molte
ambiguità, ci sono termini che opportunamente parafrasati esprimono queste sfumature concettuali. Si
pensi per esempio al verbo “determinare”, che indica per l’appunto la relazione di causa determinante.
È il caso di osservare che l’affermarsi della concezione controfattuale della causa, anche nel diritto, ha
avuto una storia abbastanza complessa. Osserviamo prima di tutto che Mill, rifacendosi
sostanzialmente a Bacone, formulava quattro metodi per la scoperta delle cause, che come è noto sono i
seguenti:
1)Metodo dell’Accordo
2) Metodo della Differenza
3) Metodo congiunto dell' Accordo e della Differenza
4) Metodo delle Variazioni Concomitanti
5) Metodo dei Residui.
Studiando attentamente questi metodi ci si acccorge che il metodo più
importante è il metodo della Differenza. Per esempio se dopo una gita scolastica alcuni sono colpiti da
qualche tipo di intossicazione alimentare ci si può chiedere 1) che cosa hanno in comune i ragazzi
intossicati? Questo significa applicare il metodo dell’Accordo, ma è abbastanza chiaro che esso può
portare a stabilire qualche correlazione spuria. Per esempio i ragazzi intossicati potrebbero avere
mangiato tutti dei funghi, ma non è detto che questa sia la causa perché si potrebbe poi osservare che
anche alcuni non-intossicati hanno mangiato dei funghi. Forse si potrebbe scoprire anche che gli
intossicati portano tutti scarpe marroni, ma questa non si può certo chiamare causa.
2) che cosa hanno in comune i ragazzi non intossicati che li differenzia dagli intossicati? Supponiamo
di scoprire che la differenza è il fatto che non hanno mangiato alcune barrette di cioccolato che hanno
mangiato gli intossicati. Questa dunque fa la differenza tra chi è stato intossicato e chi no. Allora queste
barrette, non i funghi, sono state la probabile causa dell’intossicazione. Si noti che questa evidenza
sostiene il controfattuale “se i ragazzi intossicati non avessero mangiato cioccolato di quel tipo non
risulterebbero intossicati” perchè si ritiene stabilita la generalizzazione“Tutti i ragazzi che in condizioni
pari a quella della situazione data non mangiano cioccolato non risultano intossicati”.
Con il metodo congiunto dell’accordo e della differenza riusciamo a stabilire qual è la causa
determinante dell 'evento in questione. Supponiamo infatti di aver riscontrato tanto che i non intossicati
non hanno mangiato cioccolato quanto che gli intossicati hanno mangiato cioccolato. Così l’aver
mangiato cioccolato spiega il verificarsi dell’intossicazione (in quanto descrive una condizione
sufficiente per questa) e nello stesso tempo stabilisce la condizione necessaria per lo stesso fenomeno.
Si noti che, se le correlazioni stabilite sono di tipo statistico, l’applicazione del metodo congiunto ci
riporta al metodo statistico standard, visto a suo tempo, per cui dobbiamo estrarre dall’universo un
campione sperimentale e confrontarlo con un campione di controllo: nel caso dell’esempio dobbiamo
calcolare la percentuale di quanti hanno mangiato cioccolato tra gli intossicati e confrontarla con la
percentuale di intossicati che non hanno mangiato cioccolato (che nel caso dell’esempio ha un valore
pari a 0).
Il Metodo delle Variazioni Concomitanti chiede di riconoscere come relazioni causali quelli in cui il
presunto effetto varia in dipendenza dalla presunta causa. Per esempio potrebbe essere che l’intensità
dell’intossicazione varia in funzione della quantità di cioccolato consumata dai singoli ragazzi.
Anche questo si presta all’enunciazione di un controfattuale del tipo che è stato chiamato
“controcomparativo”: per sempio, “se Pierino avesse mangiato meno cioccolato avrebbe avuto un
minor grado di intossicazione”. In molti contesti scientifici in cui le leggi funzionali correlano valori
numerici (esempio: misura della pressione e del volume nella legge di Boyle –Mariotte) i
controcomparativi possono avere delle quantificazioni: p. es. “Se Pierino avesse mangiato grammi x di
cioccolato avrebbe avuto un intossicazione al grado z”.
Ma qui naturalmente l’esempio mostra che c’è una forzatura nell’usare dei valori numerici. Non ha
molto senso stabilire dei gradi di intossicazione espressi numericamente, anche se naturalmente si
possono trovare degli indici utili (p.es. numero di giorni di malattia, valori febbrili ecc.). In effetti il
Metodo delle Variazioni concomitanti è un’utilissimo metodo di riprova della validità dei controfattuali
causali, ma è un errore pensare che da solo conduca all’accertamento dei nessi causali. Ciò si può dire
per due sostanziali motivi:
1) Nei casi di biforcazione causale la causa spuria, che possiamo anche chiamare indizio o
epifenomeno, può benissimo essere correlato funzionalmente con l’effetto, senza che ciò abbia a che
vedere
con il nesso causale. Il caso del barometro è ancora indicativo. A valori barometrici molto bassi
possono corrispondere tempeste di particolare lunghezza e intensità e, volendo, si può redigere una
tavola di correlazioni tra valori del primo e del secondo tipo. Ma, come abbiamo visto, il controfattuale
in questione risulta falso perché è l’esistenza o inesistenza dell’oggetto barometro che va presa in
considerazione per stabilire se la correlazione è spuria.
2) Ci sono molti casi di correlazione causale in cui la proporzionalità tra causa ed effetto o non sussiste
o sussiste entro una fascia limitata di valori. Un bicchiere d’acqua lenisce la sete e due bicchieri
ottengono un effetto proporzionalmente maggiore. Ma questo non si può dire di 10 bicchieri d’acqua,
mentre far bere a qualcuno 100 bicchieri d’acqua si può considerare solo un metodo di tortura.
Non bisogna inoltre dimenticare che la causa precede temporalmente l’effetto,
mentre in molte correlazioni funzionali tra tipi di grandezze non ha senso stabilire la correlazione
cronologica tra una variabile e l’altra. Così nei fenomeni
economici a spirale, p.es. nella correlazione aumento dei prezzi-aumento dei salari, non viene fissato
l’indice cronologico degli eventi, anche perché gli eventi in questione sono processi continui che si
verificano più o meno simultaneamente, quindi è difficile distinguere causa ed effetto. Per questo è
importante che nei giudizi causali entrino sempre token-eventi dotati di un indice temporale.
Quanto al Metodo dei residui, questo asserisce che se un fenomeno complesso E è stato parzialmente
spiegato da una parte di un fenomeno complesso C, quello che resta da spiegare in E è prodotto dalla
parte residua di C.
Ciò che interessa qui è valutare la concezione della causa di Mill. Secondo Mill la causa è
necessaria all’effetto in un senso leggermente diverso da quello finora definito.
Infatti la sua idea è che la causa è un elemento necessario (cioè imprescindibile) per costituire un
insieme di fattori che congiuntamente formano una condizione sufficiente per l’effetto. Questa nozione
di causa viene a volte designata con l’acronimo NESS (Necessary Element of a Set of Sufficient
Conditions) e la si ritiene più debole di quella di causa come condizione necessaria. Il filosofo del
diritto Richard Wright ha recentemente sostenuto che NESS è la sola forma difendibile di causalità.
Ma qui è doversoso aprire una parentesi sul fatto che nell'ambito del diritto le definizioni delle
nozioni causali sono frequentemente integrate da considerazioni inerenti la condotta volontaria
umana o la sua obbligatorietà.
Secondo Wright la responsabilità per danno si basa su tre elementi:
a) comportamento illecito
b) causa effettiva
c) causa prossima
Cosa si intende per causa prossima? Si tratta di un concetto normativo in quanto coinvolge la nozione
di danno : una causa prossima è tipicamente definita come ” una causa che produce danno in una
sequenza naturale, diretta e continua senza cause sopraggiunte che interrompano la catena causale".
Wright aggiunge : “Alternativamente, una causa prossima è definita come una causa lesiva che ha
come risultato un danno ragionevolmente prevedibile a un danneggiato ragionevolmente prevedibile”.
Sul piano giuridico e morale, l'espressione « la causa » è un modo ellittico per indicare « la causa
(responsabile) ».Hart e Honorè hanno chiarito un concetto analogo in questo modo, quello di "la
causa", nel modo che segue:
“Secondo questi principi del senso comune, tratti da un'analisi delle affermazioni comunemente
utilizzate per attribuire la responsabilità, un fattore contributivo è « la causa », invece che una « mera
condizione », se soddisfa due requisiti: (1) deve essere (a) un intervento umano volontario inteso a
provocare una data conseguenza — ad esempio, sparare deliberatamente a qualcuno — oppure (b) un
evento, azione o condizione anomala nel contesto particolare — per esempio, una tempesta anomala, o
la guida disattenta — e inoltre (2) deve essere, in ordine temporale, l'ultimo intervento deliberato o
evento indipendente anomalo.
Libertari come Epstein hanno puntato il dito sul concetto di danno usato da Wright. Supponiamo
che sia vero"a minaccia di sferrare un pugno sul naso di b e c interviene per bloccare il colpo. Questo è
un caso in cui l'intervento di c arreca un benefìcio a b, o un caso in cui, se c non avesse bloccato il
colpo, il suo mancato intervento avrebbe provocato un danno a b?" Epstein osserva che possiamo
mantenere la distinzione tra « arrecare un beneficio » e « provocare un danno » solo dopo aver deciso
se la persona che ha bisogno di aiuto ha diritto all'aiuto stesso. Qui entra in gioco la nozione di diritto e
quella di dovere ( tenendo presente che i diritti di una persona sono i doveri degli altri nei suoi
confronti), cioè due nozioni che fanno parte della sfera normativa, non di quella fisica o filosofica.
Secondo Hart e Honorè, la teoria della condicio va integrata con la considerazione degli elementi
intenzionali , che sono quelli che caratterizzano l’azione umana. Dice Santoni De Sio : “Il ruolo delle
azioni volontarie nelle spiegazioni causali è inoltre decisivo al punto da far degradare al ruolo di
meri «mezzi» condizioni straordinarie che, in assenza dell’intervento umano, meriterebbero il titolo di
causa. Una strada insolitamente ghiacciata è normalmente considerata causa di un incidente d’auto. Ma
se, per esempio, il ghiaccio si è formato perché qualcuno, approfittando di una nottata insolitamente
fredda, ha rovesciato alcuni secchi d’acqua sulla strada per fare av re un incidente stradale al suo
nemico, la sua azione sarà considerata causa dell’incidente e la strada ghiacciata soltanto un mezzo da
lui utilizzato”.
Omettendo le considerazioni circa la responsabilità, su cui torneremo, qual è la distinzione logica tra
il test NESS e il test controfattuale classico (detto anche “teoria but for”)? I due tests coincidono
quando vi sia un insieme di condizioni realmente o ipoteticamente sufficiente, in una particolare
occasione, per il verificarsi dell'evento. Tuttavia, il test NESS include più elementi del test
controfattuale .
L’esempio che fa Wright è il seguente. Supponiamo che l'incendio a e l'incendio b siano, ciascuno
indipendentemente dall'altro, sufficienti — cioè sufficienti in assenza l'uno dell'altro, ma in presenza di
altre condizioni preesistenti — a distruggere una determinata casa, se il raggio dell'incendio si estende
fino a raggiungerla. Pochi di noi, se non nessuno, sarebbero in disaccordo con le seguenti proposizioni:
(1) l'incendio a è stato una causa contributiva della distruzione della casa, se l'incendio a ( ma non
l'incendio b) ha raggiunto la casa e la casa non sarebbe stata distrutta senza l'incendio a; (2) gli incendi
a e b sono stati entrambi causa della distruzione della casa, se l'hanno raggiunta simultaneamente e la
casa non sarebbe stata distrutta se nessuno dei due incendi si fosse verificato; (3) l'incendio a è stato
causa della distruzione della casa, ma l'incendio b non lo è stato, se l'incendio a ha raggiunto la casa
prima dell'incendio b, perché la casa è stata distrutta prima dell'arrivo di quest'ultimo e non sarebbe
andata distrutta se entrambi gli incendi non si fossero verificati.
Orbene, Wright è convinto che il test but for comporti la risibile conclusione che nessuno dei due
incendi è stata causa del danno, perché in assenza del primo l’altro avrebbe distrutto la casa. Scrive il
Nostro: “Nella situazione (2), nella quale entrambi gli incendi hanno raggiunto la casa
simultaneamente, ci sono due insiemi sufficienti che si sovrappongono. Un insieme contiene l'incendio
a, ma non l'incendio b, rendendo così l'incendio a elemento necessario di un insieme sufficiente; l'altro
insieme contiene l'incendio b, ma non l'incendio a, rendendo l'incendio b un elemento necessario di un
insieme sufficiente. Quindi, benché nessuno dei due incendi sia stato una condizione but for della
distruzione dell'edificio, ciascuno di essi rappresenta una causa NESS supplementare”.
Come già accennato, il test NESS è uno dei molti modi escogitati dagli epistemologi per realizzare
un compromesso tra le ragioni a favore della causa come condizione necessaria e quelle a favore della
causa come condizioni sufficiente. L’idea di “essere necessario per la sufficienza” tuttavia dovrebbe
essere chiarita meglio in termini logici. Come si deve intendere? Per riprodurre un esempio di
repertorio, l’accensione di un fiammifero in un pagliaio è condizione NESS per l’incendio del pagliaio.
Per esplicitare il nesso causale, secondo la dottrina NESS questo significa dire che il complesso di tutte
le circostanze occorrenti meno l’accensione del fiammifero è insufficiente per l’incendio, mentre è
sufficiente se comprende l’accensione del fiammifero. Prendendo alla lettera la tesi di Wright, appare
che la forma di “A causa B” -dove K e` un insieme di circostanze di sfondo che non contiene A e CS
sta per la relazione di essere condizione sufficiente - è quindi costituita da una coppia di asserti con le
due forme seguenti:
(a) (A e K) CS B
(b) è falso ((non-A e K) CS B)
Esaminiamo ora analiticamente il test NESS. È vero, inanzitutto, che il test NESS smaschera
facilmente alcuni errori della dottrina della causa come condizione sufficiente, che di solito rientrano
nello schema della fallacia “post hoc propter hoc”. Supponiamo che il signor Rossi nei giorni pari beva
whisky con selz, nei giorni dispari beva Campari con selz, con il che regolarmente si ubriaca.
Conclusione: applicando senza correttivi il Metodo dell´ Accordo di Mill, la causa del suo alcolismo
non risulta essere nè il whisky né il gin ma il selz. Il test NESS rende impossibile questa conclusione.
Guardando alle clausole (a) e (b), K stia per “Rossi beve Campari o whisky”, A per “Rossi beve
selz” e B per “Rossi si ubriaca”. Dato che il selz non annulla gli effetti dell’alcool, è vero (A e K) CS
B . Ma la clausola (b) non è soddisfatta: è vero, non falso, che il Campari o il whisky senza selz (cioè
non-A e K) rendono possibile inferire B. Il bere selz quindi non risulta causa dello stato di ubriachezza,
come ci si attende.
Un’obiezione alla teoria NESS consiste però nel mostrare che la coppia di condizioni (a),(b) è
soddisfatta anche da esempi indesiderati. Può essere, per esempio, che A da solo sia ceteris paribus
sufficiente per B, senza che, però, la relazione tra A e B sia causale. Il cantare del gallo il 25 Aprile
(A), supporremo, è seguito infallibilmente ogni anno (al 100%) dal sorgere del sole esattamente 10
minuti dopo (B): è vero quindi A CS B. Per la legge logica dell’ a fortiori abbiamo però (A e K ) CS
B, dove K è una qualsiasi congiunzione di enunciati veri che descrivono un arbitrario insieme di
condizioni di contorno. Inoltre da non-A (mancato canto del gallo) e K non è inferibile B, con il che si
soddisfa la clausola (b). Il test NESS risulta quindi soddisfatto e si dovrebbe concludere che il cantare
del gallo il 25 Aprile ogni anno è causa del sorgere del sole 10 minuti dopo.
Un’ obiezione al precedente controesempio è che, nelle intenzioni di chisostiene il test NESS, K
dovrebbe essere non un qualsiasi enunciato vero ma il complesso delle condizioni sussistenti che
integrano A. In tal caso però K dovrebbe essere abbreviazione di una congiunzione infinita di enunciati
veri inesprimibile nel linguaggio logico e nel linguaggio ordinario, e nessun test allora potrebbe
controllare la verità di enunciati contenenti K. Se invece si vuole
intendere che K sta per una congiunzione finita di condizioni che hanno qualche
rilevanza per A e/o per B, la rilevanza di cui si parla o è di tipo causale o di tipo statistico: ma nel
primo caso si dà per scontata la nozione di causa che si intende definire, nel secondo caso la
correlazione potrebbe essere causalmente spuria, aprendo la porta a controesempi come quelli sopra
esemplificati.
10. Problemi della teoria della conditio sine qua non.
Come abbiamo visto, la concezione della causa come condizione sufficiente, anche se si presta ad
essere riformulata in forme più o meno sofisticate, non sembra in grado di assicurare in tutti i casi una
distinzione tra cause genuine e cause spurie. Viceversa, un merito della concezione controfattuale della
causa appare proprio la sua capacità di tracciare la differenza richiesta.
Come si è visto, tuttavia, gli esperimenti mentali richiesti dalla vecchia teoria della conditio sine qua
non vanno compiuti alla luce di una ben precisa nozione di evento e di occorrenza di evento, che
abbiamo cercato di rigorizzare nella lezione precedente.
E’ opportuno ora valutare analiticamente le difficoltà della teoria controfattuale della causa.
Primo problema: l’eccessiva debolezza della conditio sine qua non. L’impressione è che non tutte le
condizioni necessarie sono cause. Supponiamo ci sia una catena di eventi di cui fanno parte la partenza
di un aereo, il viaggio, un guasto e un incidente. Se non ci fosse stato un guasto, l’aereo non sarebbe
caduto. Ma potrei anche dire con verità : se l’aereo non fosse partito non sarebbe caduto. Diremmo
che la partenza è una causa dell’incidente?
Una premessa abbastanza ovvia da cui si può partire per rispondere al problema è che non c’è una
sola nozione di causa ma una pluralità di nozioni causali con differente grado di forza, di cui il concetto
di conditio sine qua non costituisce il comune denominatore. Un conto è dire che x è causa
determinante di y, altro è dire che è causa predisponente, causa concorrente, causa concomitante ecc.
Si può suggerire che il compito specifico della filosofia della causalità sia proprio quello di trovare un
quadro concettuale coerente in cui collocare queste diverse nozioni e valutare comparativamente il loro
grado di forza. La più semplice nozione di causa è quella di rilevanza causale (cioè la elementare idea
del "fare una differenza"). Stabilire la rilevanza di A per B significa stabilire il puro e semplice asserto
controfattuale ¬A > ¬B (implicante che A è conditio sine qua non per B).
Per tornare all’esempio dell'aereo, non si può negare che ci sia una qualche relazione causale tra la
partenza dell’aereo e l’incidente. Forse in molti casi eviteremmo di dire che è una causa, ma non ci
sentiremmo neppure di negarlo.Ne potremmo parlare comunque come di un fattore causale, e ci
sentiremmo giustificati a farlo osservando che in alcuni casi potrebbero esserci in gioco delle
conseguenze penali. Supponiamo per esempio che al momento della partenza ci sia stato un forte
temporale (un uragano). Il pilota era incoraggiato a partire dalla compagnia anche se, a suo avviso, il
volo in quelle circostanze era rischioso. Se ne è seguito un incidente, è difficile negare che il partire in
quelle particolari circostanze è stato rilevante casualmente per l’incidente, anche se in quel momento
c’erano valutazioni diverse sulla rischiosità della partenza stessa. Si potrebbe anche dire che in quelle
circostanze la partenza, oltre che un fattore causale, era una causa predisponente per l’incidente.
Questa nozione causale complessa si potrebbe chiarire dicendo che la partenza in quelle circostanze,
oltre a essere una condizione necessaria per l'incidente, riduceva, anche se di poco, il grado di sorpresa
prodotto dal verificarsi di un incidente che è di per sè altamente improbabile.
Nessi causali indiscutibili sono stati stabiliti anche in presenza di una bassa probabilità dell’effetto
data la causa. E’ noto il caso di un giudice che ha ravvisato una responsabilità di omicidio nel caso di
un uomo sieropositivo che ha avuto rapporti non protetti con la moglie, dopo aver escluso che questa
avesse avuto contratto il virus in altro modo. Il nesso causale è stato ravvisato anche se la probabilità
di contrarre la malattia in casi del genere è al massimo del 4%. Ciò che importa è che risulta vero il
controfattuale che stabilisce il rapporto che abbiamo chiamato di rilevanza causale.
La nozione di causa di più comune impiego nel linguaggio ordinario è la nozione di causa
determinante. Parlando liberamente, la causa determinante è una condizione tanto ceteris paribus
necessaria che ceteris paribus sufficiente per l’evento-effetto. La determinazione si lascia definire
come il rapporto tra due eventi che sussiste quando il primo riduce a zero il grado di sorpresa del
secondo.
Certo possiamo raffinare ulteriormente la classificazione delle cause. Se, per esempio, non solo
possiamo inferire l’effetto ma possiamo anche fare un’ inferenza in direzione conversa (abduttiva)
allora il concetto di causa usato è ancora più forte e possiamo dire che in questo caso siamo di fronte
alla nozione di causa completamente determinante.
Qui si innesta un’annosa controversia sul rapporto tra condizioni di sfondo e cause. Se un fiammifero
viene sfregato, l’accensione del fiammifero è resa possibile dal fatto che c’è sufficiente ossigeno,
sufficiente fosforo sulla capocchia ecc. Circostanze di questo tipo a volte vengono chiamate condizioni
di contorno o condizioni rilevanti, e qualcuno nega ad esse la qualifica di cause. Si tratta però in ogni
caso di condizioni necessarie all’effetto e , dato che in contesti appropriati potrebbero giocare un ruolo
importante, si possono chiamare cause concomitanti, cause contributive o concause rispetto alla causa
principale.
Un secondo problema della teoria controfattuale della cause, molto più insidioso del primo, è offerto
dai casi di ridondanza causale. Questo in effetti è il problema evidenziato da Wright nell’ esempio, già
visto, dei due incendi. Seguendo la tradizione epistemologica, si distinguono due tipi di ridondanza: la
sovradeterminazione e il sopravanzamento. Se ci sono più condizioni sufficienti (determinanti) per lo
stesso identico evento, tali non possono essere qualificate come necessarie. La giurisprudenza
americana registra il caso di un malcapitato che è stato ucciso da due criminali, uno che lo colpiva al
cranio con una pietra mentre l’altro lo accoltellava. I due colpi erano ambedue mortali; ma qui è un
problema applicare la formula della condicio (cioè il test but for) in quanto non possiamo dire che, se il
primo (o il secondo) non avesse colpito, la vittima non sarebbe morta. Certo
quasi sempre uno dei due, poniamo A, raggiunge l’obiettivo qualche frazione di secondo prima del
secondo, B. Se riusciamo a stabilirlo con esattezza, in un caso del genere possiamo dire che la morte
della vittima è stata provocata da A, perché se A non avesse agito in quel modo non si sarebbe
verificata la morte della vittima in quel preciso istante t in cui si è verificata. Ma ci sono casi in cui non
si riesce a stabilire questa priorità in modo preciso,e allora si può stipulare i due
eventi effetto prodotti dalle due diverse cause sono (convenzionalmente) simultanei.
Una scuola di pensiero molto accreditata risponde al problema della sovradeterminazione chiedendo
di specificare meglio l’evento-effetto, in base all’idea che la causa lascia sempre una traccia nell’effetto
e quindi il sommarsi di due cause diverse produce in realtà un effetto diverso. Come si ricorderà,
Hempel rispondeva al problema della non-monotonicità della spiegazione statistico-Induttiva esigendo
la massima specificità nella descrizione dell'explanandum. Una strategia analoga si dovrebbe usare
quindi nella descrizione degli effetti.
Così se una vittima, poniamo Kennedy, è colpito da due proiettili sparati uno da Oswald e il secondo
da un killer nascosto, la sua morte sarà descrivibile come << morte con due proiettili in corpo>>. In
questo caso, naturalmente, risulta vero dire che, se Oswald non avesse sparato, Kennedy non sarebbe
morto con due proiettili in corpo. Ma è dubbio che questa procedura sia risolutiva . Anche ammesso
che le descrizioni siano effettuabili senza usare un linguaggio causale, chi ci dice che riusciamo sempre
a distinguere gli effetti in base alle cause? Pensiamo a due interruttori che simultaneamente accendono
una lampadina a incandescenza . Come si fa seriamente a distinguere tra la lampadina come si presenta
accesa dall’interruttore A, da B o da tutti e due simultaneamente?
Secondo Lewis e altri (M.Bunzl), quasi tutti (se non tutti) i casi di sovradeterminazione sono casi in
cui una causa sopravanza l’altra. Il caso della lampadina non fa eccezione. Un elettrone proveniente
dall’interruttore A sopravanzerà un elettrone proveniente da B. La teoria di Lewis-Bunzl in effetti
dipende dal presupposto che ci sia sempre una grandezza che viene trasferita dalla causa all’effetto. Su
questa idea di fondo si basano le cosiddette teorie causali del trasferimento, secondo cui nel rapporto
causale c’è sempre una grandezza (peso, calore, velocità, ecc.) che si trasferisce dalla causa all’effetto.
Ma questo non ha senso nel caso della causalità omissiva, quando si dice, per esempio, che il digiuno
ha causato la perdita di peso. Inoltre, a meno di non introdurre correttivi ad hoc, il trasferimento non è
transitivo: se il sasso urta il vetro, e il vetro frantumandosi ferisce il gatto, non c'è un trasferimento
di grandezza fisica dal sasso al gatto.
Comunque sia, l’idea-chiave di Lewis è che quando una causa sopravanza un’altra c’è una catena
causale che va dalla causa all’effetto, mentre non c’è dalla causa sopravanzata all’effetto: il che dal suo
punto di vista risolverebbe il problema della ridondanza causale.
Un esempio di sopravanzamento che vale la pena di ricordare è quello del viaggiatore nel deserto
raccontato da Hart e Honorè (che secondo alcuni è antico quanto il Talmud). Due malviventi tentano
indipendentemente di uccidere un viaggiatore nel deserto: uno gli perfora la borraccia piena d’acqua,
l’altro mette del veleno nell’acqua. La vittima muore disidratata. L’ analisi apparentemente più ovvia è
questa: il malvivente che ha perforato la borraccia ha impedito all’altro di bere acqua avvelenata,
quindi ha sopravanzato la seconda causa potenziale, interrompendo una catena causale messa in moto
dall’avvelenatore. Si noti, incidentalmente, che ambedue le operazioni sono, congiuntamente alle
circostanze date, sufficienti per determinare la morte, per cui il problema si pone solo per la concezione
condizionalista della cause. Accogliendo la proposta della massima specificità, se descriviamo l'effetto
come morte -in-stato-di- disidratazione, questa non ci sarebbe stata in assenza di perforazione :
l’omicida quindi risulterebbe il perforatore, mentre l’altro potrebbe essere incriminato tutt'al più per
tentato omicidio.
Altri però potrebbero difendere intuizioni completamente diverse. Bisogna infatti considerare che
normalmente veleno e disidratazione agiscono nel corpo con tempi diversi. Supponiamo che il veleno
usato fosse tale da agire in tempi più lunghi della disidratazione. Se è così il perforatore ha di fatto
anticipato la morte della vittima, e quindi dovrebbe essere incriminato per omicidio. Ma se il veleno era
un tipo di veleno tale da agire con tempi più brevi della disidratazione -come di solito accade - allora si
potrebbe sostenere che la perforazione ha rallentato la morte impedendo alla vittima di bere il veleno
che lo avrebbe stroncato in tempi più brevi. In tal caso il perforatore potrebbe vantarsi di essere un
benefattore, anziché un omicida!
Come si vede, appare esserci un'asimmetria tra cause acceleranti e cause ritardanti che non dipende
dall'esistenza o meno di un sopravanzamento e nemmeno dal modo in cui viene descritto l'eventoeffetto.
Una proposta che si può avanzare in alternativa alla teoria di Lewis è quella di abbandonare l’idea
della relazione causale come relazione a due posti. Questo non dovrebbe essere una novità perché la
nozione di causa contributiva, o concausa, è una relazione a tre posti: a è concausa con b per c. Questa
relazione però si può ridurre alla congiunzione di condizioni a due posti: a è causa di c & b è causa di
c.
Si possono però definire relazioni a tre posti che non sono riducibili definitoriamente a relazioni a
due posti. La relazione di essere causa concorrente è di questo tipo:
Definizione. a è causa concorrente con b per c quando è vero che in assenza di a, se non ci
fosse stato b non ci sarebbe stato c.
Questa locuzione si presta ad essere rappresentata come un controfattuale doppio o iterato: "se non ci
fosse stato a allora (se non ci fosse stato b non ci sarebbe stato c)".
Date le definizioni sopra poste, il precedente condizionale equivale a:
“se non ci fosse stato a, b sarebbe stato causalmente rilevante per c”.
Per esempio: “se il primo killer non avesse sparato allora, in assenza del secondo, non ci sarebbe stata
la morte di Kennedy”.
Un problema ravvisabile è che in questo modo non si distingue, apparentemente, la
sovradeterminazione dal sopravanzamento. Supponiamo che una causa sopravanzi un’altra, per
esempio che la perforazione sopravanzi l’avvelenamento dell’acqua. Allora sarebbe vero tanto dire “in
assenza della perforazione, se non ci fosse stato l’avvelenamento non ci sarebbe stata la morte”
quanto“ in assenza dell’ avvelenamento, se non ci fosse stata la perforazione
non ci sarebbe stata la morte”. Certo così si apre il problema di distinguere tra causa sopravanzante e
causa sopravanzata, che non si pone nei casi di sovradeterminazione simmetrica.
Una proposta risolutiva sta nel dire che la distinzione è possibile mediante quanto si
aggiunge alla nozione basilare di concorrenza. Allo stesso modo in cui la nozione di causa
determinante è più complessa di quella di rilevanza causale, la nozione di causa sopravanzante è più
complessa di quella di causa concorrente.
La differenza sta sostanzialmente in questo: se una causa è sopravanzata da una seconda causa non
c’è modo, in presenza della seconda causa, di inferirla abduttivamente dall’effetto, mentre questo è
possibile per la causa sopravanzante.
Per fare un esempio, l’osservazione del fatto che la borraccia è stata perforata prima del viaggio
impedisce a qualsiasi investigatore di inferire dai dati acquisiti che la miglior spiegazione della morte
della vittima è l'avvelenamento (in quanto il presupposto di tale spiegazione è il recipiente sia integro),
mentre la conoscenza del fatto che l'acqua è stata avvelenata non impedisce di spiegare la morte
ricorrendo a un fatto come la perforazione della borraccia. Questo crea quindi un’asimmetria tra i due
tipi di possibili cause.
Trattare la causa sopravanzante e sopravanzata come cause concorrenti per l’effetto consente di
trattare i due criminali sullo stesso piano dal punto di vista causale.
Una causa sovradeterminante può avere o non avere rilevanza penale. Nel caso paradigmatico di due
o più fucilieri che fanno parte del plotone di esecuzione i loro colpi sono sufficienti (determinanti) per
la morte e, in base alla precedente teoria, sono tutti cause concorrenti per questa. Quindi se il plotone
ha agito fuori della legge i fucilieri sono tutti, quindi, imputabili di omicidio (mentre non lo sono,
ovviamente, se eseguono una condanna a morte erogata da un tribunale dello stato).
Può essere che uno dei fucilieri a,a',a",a"',a"" abbia, come vuole la tradizione, una cartuccia a salve,
senza che sia dato sapere chi è il privilegiato. In tal caso non possiamo dire che a,a',a",a"',a"" sono tutti
cause concorrenti ma possiamo solo fare un’affermazione più debole che è una disgiunzione: o a ha
ucciso b, o a’ ha ucciso b, o a” ha ucciso b o…” . Questo non esclude un nesso causale, ma lascia
indeterminato il nome della causa. Stante questo insufficiente livello di informazione, se l'esecuzione è
illegale non ci sono elementi per incriminare i singoli fucilieri, anche se ci sono elementi per
incriminare, per esempio, chi ha organizzato l’esecuzione. Un' indagine che conduca a stabilire che
una determinata cartuccia non contiene un proiettile consentirà di eliminare uno dei disgiunti e quindi
di determinare esattamente quali sono le cause concorrenti, con eventuali conseguenze penali.
Certamentente sulle cause sopravanzate si potrebbe discutere a lungo perché si può sostenere che,
proprio per il fatto di essere sopravanzate, hanno un carattere in un serto senso fantomatico. Si pensi a
un PC portatile con doppia alimentazione: batteria e corrente elettrica. L'apparecchio è costruito in
modo tale che, nel momento in cui cessa l’alimentazione della rete immediatamente entra in azione la
batteria. La causa sopravanzata in condizioni di normale funzionamento risulta bloccata dalla
sopravanzante. In condizioni normali, a fronte di una domanda circa le cause del funzionamento
dell’apparecchio non nomineremmo la batteria. Ma forse neanche la escluderemmo dal novero delle
cause, perché insieme alla causa sopravanzante essa costituisce un sistema integrato di funzionamento
dell’apparecchio. Se nell’arco di un’ ora mancasse la corrente, diciamo, due o tre volte diremmo che le
due alimentazioni in quell’intervallo di tempo hanno cooperato (quindi sono state concorrenti) per il
corretto funzionamento della macchina.
Recentemente il dibattito sul sopravanzamento è stato animato da Jonathan Schaffer con un articolo
dedicato alla trumping preemption (che possiamo tradurre con “ scavalcamento causale”). Esempio.
Un capitano e un sergente urlano simultaneamente un ordine a un plotone, per esempio quello di
mettersi sull’attenti. I soldati lo eseguono, ma questo accade perché eseguono l’ordine del superiore,
non dell’inferiore: il primo ordine “scavalca” il secondo in base al principio ubi maior minor cessat. Si
noti che questo fa cadere l’idea che le cause si possano discriminare con una differente descrizione
degli eventi-effetto, e anche l’idea di una catena causale che sbarra la strada alla causa sopravanzata.
La proposta teorica sopra delineata sembra che si applichi facilmente a questo esempio. Se si potesse
inferire abduttivamente (quindi come migliore spiegazione) che i soldati si sono messi sull’attenti,
poniamo, in seguito all’ordine del sergente, ciò escluderebbe la possibilità di spiegare il loro
comportamento in termini di un ordine impartito simultaneamente da qualsiasi militare di grado
superiore al sergente, perchè la spiegazione data non sarebbe più la migliore spiegazione. Se viceversa
potessimo fare un’ abduzione spiegando il fatto suddetto con un ordine del capitano, ciò non farebbe
escludere che sia stato anche impartito un ordine da suoi subordinati.
Si noti, comunque, che in questa concezione i due ordini sono ambedue cause che concorrono al
risultato. Dal punto di vista giudiziario le conseguenze sono che in caso di errore eventuali
responsabilità esistono per ambedue gli agenti, anche se uno sopravanza o scavalca l’altro. Il che non
significa, naturalmente, in questo come in altri casi di sopravanzaamento, che le responsabilità siano
tali in pari misura e che la sanzione erogata deva essere la stessa.
Resta da esaminare un altro problema circa le cause che Lewis lascia aperto, quello della causalità
omissiva. Per intenderci è bene chiarire la distinzione tra causalità omissiva e causalità negativa o
impediente. Chiamiamo causalità negativa o impediente quella in cui un certo evento ha come effetto
un evento negativo: p.es. “lo sparo della guardia giurata ha impedito l’ingresso in banca dei banditi”
significa che lo sparo è stato causa del mancato ingresso dei banditi.
Chiameremo invece causalità omissiva quella in cui un evento negativo (o omissivo) è causa di
qualche effetto (per esempio: “la mancata illuminazione delle scale lo fece cadere” oppure “il fatto che
Giacomino ha omesso di lavarsii denti ha causato un rimprovero della madre”). Ovviamente una
relazione causale può essere tanto omissiva che impediente. La medicina preventiva è spesso orientata
alla ricerca non solo di cause impedienti ma anche di cause omissive: si dice per esempio che l’ evitare
eccessi alimentari allunga la vita o elimina il richio di incorrere in una certa classe di malattie.
Lewis non ha difficolta’ ad ammettere che sia legittimo parlare di omissioni come cause. Il problema
retrostante ovviamente è, come aveva visto Mill, che ‘From nothing, from a mere negation, no
consequences can proceed’. Ma di fatto lostesso Mill fa vedere che la causalità omissiva esiste ed è
riconoscibile. Questo, incidentalmente, implica il rifiuto delle cosiddette “teorie del trasferimento”-già
esaminate- secondo cui ogni relazione causale consiste in un trasferimento di grandezza fisica (calore,
velocità ecc.) da un corpo all’altro.
Il primo problema della causalità omissiva è quello ontologico: riguarda cioè la natura degli eventi
omissivi. In primo luogo secondo Lewis gli eventi omissivi sono eventi “altamente disgiuntivi”, cioè
eventi i cui disgiunti sono “overly varied disjuncts”. Per esempio, se Fred omette di prendere
precauzioni ciò significa che sta facendo qualcosa altro, p.es “ camminare - o - dormire”. Ma
come si fa a dire che questa disgiunzione causa qualcosa? Un evento nella concezione di Lewis è una
proprietà di una regione dello spazio-tempo. Quindi non esistono relazioni causali che coinvolgono
disgiunzioni perchè non ha senso parlare di eventi disgiuntivi: non esiste per esempio l’evento “piove a
Milano o nevica a Seattle”, perché l’evento esiste nella misura in cui possiede una continuità spaziotemporale.
Inoltre è ovvio che la causazione deve intercorrere tra eventi distinti; ma come distinguere per
esempio il fatto che Piero, mentre dorme, omette precauzioni contro l’incendio dal fatto che omette
precauzioni anche contro i ladri? Come distinguere le omissioni genuine da altri fenomeni simili ma
distinti? Per esempio l’universo manca di contenere eventi che violano il secondo principio della
termodinamica, ma questo non è chiaramente un evento omissivo.
Dopo un’articolata analisi delle varie possibilità di trattare la causalità omissiva nel quadro
controfattuale onestamente Lewis ammette: “mi piacerebbe poter render conto della causazione per
omissione entro il quadro generale dato in questo articolo e in Events (nello stesso volume). Purtroppo
non vedo come farlo quadrare con tutto ciò che dico in generale circa gli eventi e circa la loro
dipendenza causale” .
E’ opportuno avvertire che la presenza o assenza di negazioni nella forma degli enunciati che
descrivono gli eventi è irrilevante per qualificarli come positivi o negativi. Il buio è l’assenza di luce, il
digiuno è l’assenza di alimentazione, il silenzio è l’assenza di rumore. Casi particolari di questi
fenomeni sono di solito qualificati come eventi negativi, anche se la negazione non compare a rigore
nella forma superficiale degli enuciati che li esprimono. È chiaro comunque che la distinzione che
cerchiamo non può essere basata sulla forma superficiale dell’enunciat,o perchè a volte eventi positivi
sono descritti negativamente e viceversa. Ci limiteremo qui a sottoscrivere l’idea che un evento
negativo è tale relativamente a un evento positivo di cui è complementare, ed anche viceversa. Se
[P,a,t] è un evento positivo, [-P,a,t] è un evento negativo rispetto al primo, ma anche la conversa è
vera. L’importante è non-confondere un evento negativo [-P,a,t] con la mancata occorrenza di un
evento positivo, che rappresenteremmo con non-O [P,a,t].
Quando entra in gioco anche la causalità il problema si complica. Qui vale la pena di richiamare
l’attenzione sul esistenza reale dei soggetti coinvolti negli eventi ai fini dell'accertamento della
relazione causale: nel caso dei soggetti umani l'esistenza reale coincide con la loro storia, cioè
l’insieme di eventi in cui essi hanno un ruolo. Supponiamo che Gianni, dopo aver acceso il gas, si
dimentichi di spegnerlo e questo causa un’esplosione. Gianni ha omesso di spegnere il gas: ma anche di
me, che abito vicino a lui, si potrebbe dire che ho omesso di spegnere il gas. La differenza è che la mia
storia personale (la mia esistenza) non aveva alcuna rilevanza per la storia che ha portato a quella
esplosione, mentre questo non si può dire dell’esistenza di Gianni. Se io non fossi esistito nel momento
in cui il gas è stato acceso l’esplosione ci sarebbe stata egualmente, mentre se Gianni non fosse esistito
nel momento in cui il gas è stato acceso l’eplosione non ci sarebbe stata. La mia estraneità all’accaduto
è quindi semplicemente provata dal fatto che nel periodo rilevante la mia biografia non si interseca con
quella dell’ oggetto che compare nel presunto effetto.
È bene ricordare ancora che nella filosofia di Aristotele vengono elencati quattro tipi di cause
(materiale, efficiente, finale e formale:valga il famoso esempio della statua ). Va osservato, però, che le
quattro cause non sono sullo stesso piano in quanto la causa materiale è precondizione per il
manifestarsi delle altre tre cause . Nella concezione degli eventi che intendiamo proporre, ispirata a
quella di J.Kim , l’esistenza reale del soggetto soggiacente ha un ruolo speciale, analogo a quello della
causa materiale in Aristotele. Infatti, come ricordiamo, un Kim- evento è un tripla [P,a,t] dove P è un
predicato, a è un soggetto, t è un istante. Ripetendo quanto già detto a suo tempo, dire che un evento
[P,a,t] occorre -O[P, a,t]- implica dire che a esiste realmente nel momento t.
Il requisito dell’esistenza reale non deve essere trascurato per caratterizzare l’occorrenza di eventi.
Si può benissimo voler essere creduti quando si dice che Babbo Natale porta regali ai bambini, e questa
proposizione si può anche considerare vera, ma con ciò non si descrive l’occorrenza di un evento in
quanto Babbo Natale nel mondo reale non esiste. Allo stesso modo, si può dire correttamente che
l’etere cosmico spiegava molti fenomeni fisici, ma questo non descrive un evento perché è ormai
provato che l’etere cosmico non ha esistenza reale.
Ciò detto, qui interessa chiedersi che cosa consegue dall’ipotesi controfattuale in cui si suppone che
un certo Kim-evento non sia occorso. Quando si ipotizza controfattualmente non-O[P, a, t] ciò
significa, come già detto, considerare una disgiunzione di tre ipotesi. Quindi, per poter asserire che il
controfattuale è vero bisogna provare che il conseguente segue dalla falsità di ciascuna delle ipotesi
alternative singolarmente prese. In tal modo si provvede a un disambiguamento dell’ ipotesi di nonoccorrenza.
Un esempio può essere utile. Abbiamo già esaminato l’esempio del barometro. Dall’ ipotesi
“controesistenziale” secondo cui il barometro di casa non esisteva realmente in t non segue la
mancanza di una tempesta successiva, in quanto nessuna legge di natura conosciuta correla l’esistenza
o l’inesistenza di barometri allo scatenarsi di tempeste.
Basta questo per concludere che la correlazione causale tra abbassamento del barometro e tempesta è
spuria. Usando il linguaggio caro agli aristotelici, il barometro non è causa materiale della tempesta,
quindi non può offrire la base per qualsiasi altro tipo di rapporto causale. L’esistenza reale va distinta
dall’esistenza “meramente quantificazionale” rappresentata in logica dal simbolo ∃ . L’esistenza reale,
definita in vari modi nella letteratura specializzata, è rappresentata di solito con il simbolo E!. Per
semplificare una complessa questione, anche tecnica, qui parleremo di “esistenza reale di a in t” per
intendere che a è uno degli enti presenti nel momento t entro il mondo attuale.
L’utilità di questa rappresentazione emerge anche da un altro particolare. Se P è una proprietà
positiva (p.es. essere acceso), non-P è una proprietà negativa (essere spento). Se dico che si è verificato
che la lampadina era accesa, posso rappresentare questo evento con la forma O[P, a, t], mentre se dico
che si è verificato che la lampadina era spenta (non-accesa), questo ha la forma O[non-P, a, t]. Nel
secondo caso diciamo che è occorso (ha avuto luogo) un evento che era negativo rispetto al primo. Si
può dire anche che i due eventi che occorrono sono contrari l’uno rispetto all’altro, ma non
incompatibili, perchè hanno qualcosa in comune: in ambedue infatti i casi esiste realmente il soggetto a
cui si applica un elemento della coppia di predicati P e non-P. Diverso è asserire non-O[P,a,t], cioè
negare l’occorrenza dell’evento in questione. Certamente la logica retrostante dovrà autorizzare
l’implicazione da O[non-P, a, t] a non-O[P, a, t ], ma non l’equivalenza dei due asserti. La differenza,
come abbiamo visto, sta proprio nel fatto che O[non-P, a, t] comporta l’esistenza reale di a, mentre
non-O[P, a, t ] non ha questo sottinteso.
L’importanza giuridica e morale della causalità omissiva dovrebbe essere ovvia. Il codice penale
prevede reati come l’omissione di soccorso, la negligenza professionale (tipica del campo medico: per
esempio la sospensione di una cura, o addirittura la sospensione volontaria o involontaria delle terapie
che tengono in vita un paziente. Un topos filosofico molto dibattuto comunque è quello della
distinzione tra “doing harm”e “allowing harm”, rispetto alla quale si cita come caso esemplare la
distinzione tra uccidere e lasciar morire. Il test but for nella versione che proponiamo sembra offrire
una buon criterio di distinzione tra uccidere e lasciar morire. Si supponga per esempio che Tizio muoia
perché Caio gli mette la testa sott’ acqua: se Caio non l’avesse fatto, si dirà, Tizio non sarebbe morto; e
aggiungiamo - ottemperando alla definizione di occorrenza sopra proposta - non sarebbe morto
nemmeno se Caio non fosse esistito in quel momento. Si immagini invece questo scenario: Tizio sta
affogando in un fiume nel momento t, Caio si trova accidentalmente in quel posto, sa nuotare bene ma
non si getta per salvarlo. Siamo in grado di dire con certezza che se si fosse lanciato nel fiume lo
avrebbe tratto in salvo. Caio quindi, possiamo dire, lascia morire Tizio. E’ vero dire, però, che se Caio
non fosse esistito in quel momento t Tizio sarebbe morto egualmente. Si noti che la conclusione
cambia completamente se l’antefatto è stato che Caio ha buttato Tizio nell’acqua pochi minuti prima, in
t*. In questo caso dall’ipotesi “controesistenziale” che Caio non esistesse nel momento in cui Tizio
stava affogando segue che, ceteris paribus, Caio non sarebbe esistito neppure in t* : quindi non
avrebbe buttato Tizio nell’acqua in t* e Tizio quindi non avrebbe corso il rischio di affogare.
Questo esempio offre l’occasione di riflettere sul significato della nozione di uccidere. Uccidere non
significa causare la morte di qualcuno: significa accorciare la prevedibile durata della vita di qualcuno.
La differenza emerge proprio per il modo in cui è stata definita la causalità in termini di Kim-eventi. Si
supponga infatti che un medico prolunghi la vita di un comatoso di qualche ora o di qualche giorno. Se
il paziente muore alle 10.00 del 24 Dicembre, il medico è causa di questo Kim-evento: di fatto si può
dire correttamente che la sua azione è stato causa ritardante, non anticipante, dell’evento stesso. Ma
nessuno può dire che il medico abbia ucciso il paziente; si può anzi sostenere che si è comportato come
un buon medico. Uccidere dunque significa “essere causa anticipante” della prevedibile fine della vita
o, come si suol dire, “accorciare l’esistenza” di qualcuno.
Sul tema dell’ equivalenza tra uccidere e lasciar morire è importante ricordare l’articolo 40, ultimo
comma, del codice Rocco, il quale asserisce che "non impedire un evento, che si ha l'obbligo giuridico
di impedire, equivale a cagionarlo". Per esempio, dato che un medico ha l’obbligo professionale di
impedire che il paziente peggiori le sue condizioni di salute, secondo questa norma il non impedire tale
peggioramento equivale a causarlo. Da un punto di vista logico la differenza tra non-impedire e causare
è però piuttosto chiara: se C è simbolo per una qualsivoglia relazione causale, la forma della prima
relazione è non-(e1 C non-e2), e questa non equivale a e1 C e2 , che è la forma della seconda. Ma il
codice evidentemente usa la nozione di causa in un senso diverso da quello strettamente fisico. Nelle
prospettiva che abbiamo sostenuto il medico potrebbe dire: se io non fossi esistito nel periodo in cui
avrei dovuto impedire l’evento in questione il paziente avrebbe comunque peggiorato le sue condizioni
di salute, quindi io non posso essere causa di tale peggioramento. Ciò che il precetto del codice intende
dire è verosimilmente un’altra cosa: e cioè che il medico, non avendo fatto ciò che era doveroso fare, è
responsabile o corresponsabile dei danni che provengono dal mancato intervento. Ciò che viene
omesso in questi casi infatti non è un’azione qualsiasi ma un’azione che avrebbe dovuto essere
eseguita. L’equivalenza di cui si parla nell’articolo 40 è un’equivalenza morale, non un’equivalenza
logica.
C’è indubbiamente una certa simmetria tra l’omissione di azioni e l’omissione di eventi fisici. Se
accendo il motore e la macchina non parte, dico che la macchina ha mancato di partire proprio perché
mi sarei aspettato l’opposto: la macchina avrebbe dovuto partire oppure ci si aspettava che la macchina
partisse (altrimenti detto: desta sorpresa il fatto che la macchina non parte).
Quando un’auto sta
ferma in un parcheggio, invece, non si ha certo l’abitudine conversazionale di dire che la macchina
manca di partire: anche se dire questo è innegabilmente vero e chiunque può enunciarlo senza essere
contraddetto. Lo stesso accade per le azioni: di solito si dice che un soggetto omette di aprire
l’ombrello quando piove perchè ci si aspetta che faccia l’opposto, ma non si dice che omette di aprirlo
quando c’è bel tempo, anche se a rigore non sarebbe scorretto fare questa asserzione.
La simmetria non si riscontra però nell’omissione di tipo etico. Se manca l’obbligo - cioè la
necessità non fisica ma deontica -di compiere una determinata azione, non è solo inusuale ma
improprio parlare di responsabilità. A volte nella letteratura si incontra la nozione di causa
responsabile, ma questo significa confondere due nozioni che stanno a livelli concettuali diversi, quello
morale e quello fisico. Questa confusione è stata indubbiamente incoraggiata dal fatto che, come ha
fatto vedere convincentemente Hans Kelsen, la nozione primitiva (antropomorfa) di causa è scaturita da
quella di responsabilità, al punto che ancor oggi è comune esprimersi con frasi come “i gas di scarico
delle auto sono responsabili dell’inquinamento armosferico” oppure “il buco di ozono è imputabile
all’azione delle bombolette spray”.
Per capire il punto bisogna osservare che le intuizioni causali e le intuizioni circa le responsabilità
morali possono essere seriamente divergenti, almeno se si impiegano nozioni di causa non
adeguatamente definite. A parte il caso delle omissioni, il caso della ridondanza causale ne è l’esempio
più vistoso. Se due killers sparano simultaneamente a un uomo, l’intuizione morale dice che sono
ambedue responsabili, mentre la teoria della condicio applicata senza correttivi non ci dà una risposta
chiara, come abbiamo già visto a proposito della teoria di Lewis. Dobbiamo anche aggiungere che i due
problemi più importanti emersi a carico della teoria controfattuale - quello della causalità omissiva e
quello della ridondanza - possono sommarsi: potremmo avere infatti casi di ridondanza in
cui uno degli antecedenti causali è un evento omissivo.
E’ conveniente ai fini classifiteorici intendere le azioni omissive come una sottoclasse degli eventi
omissivi. Rispetto ad altri tipi di eventi, le azioni sono caratterizzate dalla volontarietà.
Per usare le parole di Wright, “Un’azione è semplicemente un movimento fisico volontario oppure
l’uso volontario di qualche parte del corpo; mentre un’omissione è la volontaria mancanza di
movimento o di uso di qualche parte del corpo in modo specifico”.
Naturalmente si può discutere sul fatto se certi fenomeni, come il latrato di un cane o certi riflessi
condizionati, siano a no azioni nel senso descritto. Ciò che interessa ai nostri fini è che le azioni sono
comunque una sottoclasse degli eventi, e quindi sono trattabili come Kim-eventi e soggette alla stessa
trattazione sul piano delle relazioni causali.
Secondo quanto abbiamo visto, ipotizzare non-Oe , dove e è un evento, è un esercizio complesso che
in effetti porta all’analisi di una disgiunzione. Ricordiamo che un evento nel senso qui definito è una
tripla [P, a, t] dove P può essere anche un predicato negativo, per esempio “non bruciare”. Supponiamo
dunque che Rossi ometta il soccorso ad una persona, Bianchi, che poi decede per le ferite qualche ora
dopo. Supponiamo anche che, conoscendo le condizioni di contorno, non ci siano dubbi sul fatto che,
se Rossi non avesse omesso il soccorso (quindi avesse soccorso Bianchi) Bianchi non sarebbe morto.
Questo però non esaurisce quanto c’è da sapere per stabilire il nesso causale perché, come abbiamo
già rilevato, c’è il problema della presenza, o dell’esistenza, del soggetto del Kim-evento (Rossi) nel
momento in cui questo si è verificato. A meno che non sia stato proprio Rossi a ridurre in quello stato
Bianchi, bisogna concludere che l’omissione suddetta non è a rigore causa di morte, perché è lecito
dire: ”se Rossi non fosse esistito in quel momento Bianchi sarebbe morto ugualmente”. A sostegno di
questa conclusione si osservi, tra l’altro, che in certi casi le condizioni di contorno potrebbero essere
state molto diverse da quelle che si immaginano come normali: per esempio, si può immaginare una
situazione in cui Rossi si trovava a pochi metri da una squadra inviata dalla Croce Verde a salvare la
vita dell’incidentato, per cui Rossi per difendersi potrebbe anche aggiungere che la Croce Verde
poteva - anzi doveva- intervenire, anche se poi per qualche ragione non lo ha fatto.
Come abbiamo già in parte notato, dunque, tra causazione e responsabilità c’è una differenza logica.
Può esserci causazione senza responsabilità e responsabilità senza causazione. Se Rossi era in
condizioni di soccorrere Bianchi e non lo ha fatto, indipendentemente dal fatto che fosse in grado di
prevedere o no l’esito della sua azione, tale azione era in ogni caso doverosa: ragione per cui se
Bianchi decede, Rossi è responsabile di questo evento purchè si provi che, se avesse soccorso
Bianchi, Bianchi non sarebbe morto. Il caso è strutturalmente uguale a quello in cui, poniamo, Rossi
vende una dose di eroina a Bianchi, Bianchi muore e si stabilisce che se Rossi non avesse venduto
l’eroina a Bianchi Bianchi non sarebbe morto. Qui non solo Rossi è un fattore causale della morte di
Bianchi ma ne è anche responsabile, perchè è proibito dalla legge vendere eroina.
Come si sa, nella legge italiana esistono due tipi di reati omissivi: propri, che si configurano come il
mancato compimento di un'azione imposta dalla norma penale; impropri, che si configurano come reati
omissivi propri che comportano un danno materiale.
L’omissione di soccorso è un reato omissivo improprio. L’azione di soccorso nei confronti di chi ne ha
oggettivamente bisogno è doverosa anche se, per ipotesi, altri soggetti fossero stati in condizione di
prestare soccorso in quella stessa circostanza. In una situazione che diremmo di ridondanza di
responsabilità, simile ma diversa da quella della ridondanza causale, nessuno è esonerato dalle sue
responsabilità semplicemente perché altri avrebbero potuto agire al suo posto.
Possiamo aggiungere che la responsabilità sommata alla relazione causale appare moralmente più
grave della responsabilità senza relazione causale, quale è normalmente presente nella responsabilità
omissiva. La teoria sopra esposta quindi consente di giustificare una gradazione tra responsabilità. Si
può anche ipotizzare che, data l’importanza del nesso causale, la legge esige un alto grado
di rigore nell’accertare che il soccorso avrebbe, in quelle condizioni, portato un reale vantaggio al
soggetto danneggiato
Una recente sentenza della Cassazione riguardante la verifica del nesso di causalità e dell’attribuzione
di responsabilità ha affermato il principio che“nel reato colposo omissivo improprio il rapporto di
causalità tra omissione ed evento non può ritenersi sussistente sulla base del solo coefficiente di
probabilità statistica, ma deve essere verificato alla stregua di un giudizio di alta probabilità logica,
sicché esso è configurabile solo se si accerti che, ipotizzandosi come avvenuta l’azione che sarebbe
stata doverosa ed esclusa l’interferenza di decorsi causali alternativi, l’evento, con elevato grado di
credibilità razionale, non avrebbe avuto luogo ovvero avrebbe avuto luogo in epoca significativamente
posteriore o con minore intensità lesiva” (Cass.
pen., sez. IV, sent. 20 settembre 2007, n. 35115, Franzese).
La sentenza rigaurda i reati omissivi impropri.C’è solo da aggiungere che nei casi di causalità nonomissiva la dissociazione tra responsabilità e causalità non prende forme evidenti. Se un automobilista
ubriaco passa con il rosso e uccide un passante è a tutti gli effetti causa della morte di questo (la vittima
non sarebbe morta sel’automobilista non fosse stato ubriaco, e a fortiori se non fosse esistito in quel
momento); è inoltre anche responsabile della morte di questo, stante che per lui era doveroso non
guidare in stato di ubriachezza e non passare con il rosso.
La considerazione della volontarietà dell’ azione e delle intenzioni che la guidano fa parte di una
sfera di considerazioni diverse miranti a stabilire non tanto la sua responsabilità del soggetto ma il
tipo di reato per il quale deve essere giudicato colpevole: un omicidio può essere volontario o colposo,
ma chi lo causa ne è responsabile, in quanto è vietato dalla legge.
La tesi secondo cui causalità e responsabilità sono concetti indipendenti non è una novità filosofica.
Alcuni filosofi si tracciano la distinzione richiamandosi alla prevedibilità del danno.
Citando dalla letteratura anglosassone (Copi-Cohen, Introduzione alla logica 1961) : “nei casi di
presunta negligenza una persona può essere ritenuta responsabile se,in condizioni normali, avrebbe
dovuto essere in grado di prevedere che il suo atto sarebbe stato decisivo nel provocare
l’offesa”(trad.it.Il Mulino, Bologna,1997, p.622). Il difetto di questa tesi è che lega la responsabilità
alla capacità soggttiva di prevedere. Ci sono soggetti ( che in buon italiano si dicono persone
irresponsabili) i quali hanno una ridotta capacità di prevedere le conseguenze delle proprie azioni ; ma
non si può pensare che la legge debba trattarli in modo differente da soggetti di normale intelligenza
solo per le loro ridotte capacità mentali.
Si guardi invece a questa semplice riflessione di David Aronovitch, che tre anni or sono sul Times
scriveva:“Responsabilità e causazione non sono la stessa cosa. Per esempio, se io ti faccio cadere sulla
strada, tu sei causa della caduta di un ciclista dalla sua bici; se tu non fossi stato lì, lui non sarebbe
caduto. Ma tu non sei responsabile della sua caduta. E io sospetto che sia possibile che si dia
responsabilità senza causazione. Nei tradizionali plotoni di esecuzione, solo un membro del plotone
riceve un una cartuccia a salve, mentre gli altri ricevono cartucce vere, senza che nessuno sappia chi ha
la cartuccia vera. Pertanto non sapremmo dire chi ha causato la morte del condannato. Ma,
ragionevolmente, potremmo ritenere responsabile della morte di questo un volontario che chiedesse di
partecipare all’esecuzione”.
Qui per distinguere tra causazione e responsabilità l’accento viene messo sulla volontarietà
dell’azione, anziché sulla doverosità della stessa, diversamente da quanto abbiamo sostenuto nelle
pagine precedenti. Sulla tesi di Aronovitch ci sarebbe molto da discutere: se il volontario del plotone di
esecuzione è ammesso a prendere parte alla fucilazione è chiara la sua intenzione di uccidere in qual
particolare momento, ma diremmo che è responsabile della morte del condannato? La rilevanza causale
del suo sparo per la morte del condannato può essere positiva o nulla a seconda del tipo di cartuccia
che si trovava in canna, ma secondo il punto di vista qui sostenuto in ogni caso la sua responsabilità è
nulla perché non ha commesso nessuna trasgressione. Infatti il suo obbligo in quanto membro del
plotone è quello di premere il grilletto insieme agli altri fucilieri, non di astenersi da questa azione.
11. Il relativismo e il problema della ricostruzione dei fatti.
Il mito dei “duri fatti” è apparso, nell’epistemologia cosiddetta “postpositivista”, una delle eredità
negative del positivismo dell’800. Ma già prima della seconda guerra mondiale sporadiche voci si
opponevano a queste certezze. Nel 1935 appariva un libro originariamente misconosciuto, “Genesi e
sviluppo di un fatto scientifico” (1935) scritto da un microbiologo ebreo polacco, Ludwig Fleck, in cui
l' autore metteva a fuoco storicamente, sotto l’influenza di Scheler, Weber e Mannheim, le ricerche
sulla sifilide e la scoperta della reazione Wassermann in una chiave molto lontana da quella suggerita
dall'ortodossia positivista e neopositivista.
Nel libro l’accento viene posto sul carattere sociale e collettivo della ricerca scientifica, svalorizzando
il ruolo del singolo ricercatore nella misura in cui questo non può non essere condizionato da un modo
di pensare, che Fleck chiama “stile di pensiero”(Denkstil) che dipende da una comunità o “collettivo di
pensiero”. Le idee di Fleck rimasero praticamente sconosciute, almeno finché non furono in parte
riscoperte (nonché adottate e adattate) dal filosofo della scienza americano Thomas Kuhn – in realtà
uno storico delle idee con interessi filosofici - autore di La struttura delle rivoluzioni scientifiche
(1962). Il testo di Kuhn in effetti nasceva dal convergere di una pluralità di influenze, tra cui quella di
Quine, del linguista B.L.Whorf e del filosofo Michael Polanyi. Va anche detto che il successo del
saggio di Kuhn ha oscurato un testo filosoficamente più significativo apparso qualche anno prima,
“Modelli della scoperta scientifica” di N.R.Hanson. Alle spalle di Hanson è evidente l’influenza del
secondo Wittgenstein e della teoria del significato come uso, con cui si nega che il significato dei
termini dipenda da un rapporto descrittivo con il mondo (teoria corrispondentista della verità).
In realtà all’epoca del Circolo di Vienna la c.d. "polemica sui protocolli" aveva
già in parte anticipato le difficoltà del punto di vista tradizionale secondo cui
le proposizioni rappresentano i fatti allo stesso modo in cui una fotografia rappresenta un frammento di
mondo. I protocolli sono registrazioni di sensazioni elementari che dovrebbero essere la base si cui
poggia l’edificio della scienza. La posizione di Otto Neurath era che in ultima istanza la scelta era
sempre tra proposizioni, in quanto il rapporto tra proposizioni e il cosiddetto mondo esterno non può
essere a rigore un rapporto né di concordanza né di incompatibilità. La scienza veniva paragonata ad
una nave che non tocca mai terra e deve riparare le proprie falle ricorrendo al suo stesso materiale.
Secondo Neurath l’unico criterio per la validità di una teoria scientifica è la coerenza interna della
costruzione (coerentismo),mentre Popper evidenzia il loro lato convenzionale degli asserti-base, cioè
delle proposizioni che servono a controllare le ipotesi: essi sono scelti in base ad una decisione
metodologica della comunità scientifica.
In ambedue i casi si nega l’esistenza dei duri fatti come elementi basilari del mondo, e si teorizza che
in realtà si opera sempre con dati linguistici. Questi però hanno inevitabilmente un rapporto con il tipo
di linguaggio impiegato, con le teorie presupposte e con i pregiudizi ambientali, e quindi perde senso
l’idea di parlare di fatti neutri oggettivi, o della cosiddetta evidenza . Alla luce delle considerazioni
precedenti diventa comprensibile come negli anni '60 -'70 si sia operato il rovescimento del rapporto tra
fatti e teorie. Mentre per i neopositivisti i fatti entravano a costituire le teorie, la nuova concezione
impone di dire che sono le teorie a costituire i fatti.
Kuhn chiama paradigma l’insieme dei preconcetti, dei modi di vedere e di pensare, condivisi in una
certa epoca storica da una comunità scientifica nella fase diella cosiddetta scienza
normale, in cui gli scienziati operano sui tranquilli binari fissati dai manuali. Quando i
paradigmi entrano in crisi si entra in una fase rivoluzionaria, al termine della quale emerge un
paradigma alternativo, che impone un nuovo modo di vedere e quindi modifica l’insieme di fatti che
stanno alla base del precedente paradigma.
Il “vedere carico di teoria” è esemplificato da Hanson immaginando che un
tolemaico e un copernicano assistano a un tramonto sul mare. Anche se in un certo senso i due vedono
la stessa cosa(perché la stimolazione retinica è la stessa) , il resoconto linguistico che daranno
di ciò che vedono è diverso. Uno dirà che il sole si è abbassato, l’altro dirà che l’orizzonte si è alzato. Il
sole del copernicano non è lo stesso sole dell’aristotelico: all’interno del paradigma tolemaico il sole è
un oggetto per sua natura mobile, mentre nel primo paradigma è un oggetto per sua natura immobile.
Il tramonto del sole appartiene alla categoria di quelli che si chiamavano “duri fatti” : essi sono più o
meno coincidenti con quelli che abbiamo chiamato Kim eventi elementari , la cui forma, come
sappiamo , è [a,P,t]. Kim accompagna la sua teoria con un criterio di identità per eventi che è questo:
un evento [P,a,t] è identico a un altro [Q,b,t’] se e solo se P=Q, a=b, t=t’. Quindi se sono differenti i
predicati che intervengono nei due eventi sono diversi gli eventi stessi. Questo crea una proliferazione
sicuramente imopportuna di eventi. “Rossi guidava l’auto alle 20.30 di ieri alla Bicocca” è diverso da
“Rossi guidava l’auto alle 20.30 di ieri ubriaco alla Bicocca” , anche se intuitivamente si riferiscono
allo stesso evento. I Kim-eventi che li contengono sono dunque diversi, anche se intuitivamente sono
solo una specificazione uno dell’altro.
Ricorrendo alla venerabile distinzione tra connotazione e denotazione si può
dire che le due descrizioni denotano lo stesso evento ma lo connotano in modo
diverso. Questa distinzione si applica di solito a corpi tridimensionali e non a
eventi. Posso connotare Cesare come “il conquistatore delle Gallie”(a) o il
“massacratore delle Gallie”(a’) , con una notevole variazione di significato. Se
a=a’ in questo caso il Kim-evento [a,P,t] è uguale al Kim-evento [a’,P,t]. In tal
caso l’identità tra a e a’ stabilisce un’identità tra Kim-eventi, che però potrebbero
essere in certi contesti usati con valori diversi.
L’importanza di queste distinzioni emerge quando dai cosiddetti “hard facts” si
passa ai “soft facts”, cioè i fatti morbidi, con un alto grado di dipendenza contestuale e linguistica. Per
semplificare, diremo che i fatti morbidi sono in genere fatti relazionali, e cioè fatti che sono
correlazioni tra Kim-eventi atomici. Esempio : il fatto a ha preceduto il fatto b, il fatto a ha causato il
fatto b, il fatto a è inferibile dal fatto b eccetera. Quanto alle leggi di natura, i veteropositivisti li
vedevano come “megafatti” che erano oggetto di scoperta, non di costruzione, e costituivano quindi
non i mattoni ma le travi portanti dell’edificio scientifico. Questa immagine delle leggi e delle teorie
cominciò a dissolversi con l’irruzione della statistica nella fisica (si pensi alle leggi dei gas) e
scomparve definitivamente con
la meccanica quantistica, le cui leggi enunciati correlazioni anche per basse probabilità.
Abbiamo già visto che il fattore linguistico-connotativo (che per semplicità chiameremo fattore
intensionale) entra in gioco nella identificazione dei Kim-eventi. Questa dipendenza ovviamente
aumenta quando si passa a fatti relazionali, cioè a relazioni tra Kim-eventi. Per cominciare, la relazione
causale tra Kim-eventi non ha lo stesso grado di evidenza che è presente nella relazione
"prima-dopo". Ci sono diverse teorie della causalità, e adottarne una – per esempio la teoria della
condicio – già significa introdurre una certa forma di relativizzazione.
Secondariamente, a parte la scelta teorica circa la natura della relazione causale, il fattore intensionale
può introdurre una distorsione nell’accertamento dei nessi causali. Il caso della vittima uccisa
simultaneamente da due killers si presta ad esemplificare il caso. Se nel Kim-evento che è effetto
usiamo la descrizione [a, Morto con due proiettili in corpo, t] allora si stabilisce la corretta relazione
causale: Se Tizio non avesse sparato a non sarebbe morto con due proiettili in corpo , e idem dicasi per
Caio. Questa costruzione sembra seguire dal criterio della massima specificità introdotto da Hempel per
la spiegazione, nonchè da un criterio generale che è certamente condivisibile:
(I)Si introduca il massimo di informazione rilevante per la soluzione del problema a cui è finalizzata la
ricerca.
Ma, come abbiamo già visto, il connotare in modo più specifico l’evento- effetto può non funzionare
in tutti i casi di sovradeterminazione. Ciò che infatti fa inceppare il metodo non è il modo insufficiente
in cui si descrivono gli eventi ma un'idea troppo limitata dei controfottuali che entrano in gioco. Più
esattamente: se le descrizioni diverse di uno stesso evento danno origine a distorsioni nell’accertamento
delle cause, vuol dire che per essere accettabile una buona teoria controfattuale della causa ha il
compito di minimizzare il peso del fattore intensionale, fino a renderlo inoperante.
Se è vero che l’accertamento delle cause è relativo al tipo di connotazione operato, e questo , a sua
volta, relativo alle teorie o ai pradigmi, si può sostenere che una teoria adeguata della causa si può
valutare come positiva nella misura in
cui tende ad annullare il peso del fattore intensionale,
realizzando così un tipo particolare di derelativizzazione.
Abbiamo visto molte volte che l’aumento di informazione può aiutare a eliminare l’indeterminazione
e il peso di altri tipi di relativizzazione. A commento della massima (I) si può dire che
bisogna evitare due scogli opposti: il primo naturalmente è l’omissione di informazione, o selettività
arbitraria, che fa incorrere nel rischio di travisamento dei fatti. Ma c’è anche il rischio opposto:
l’eccesso di informazione irrilevante può creare serie difficoltà nella risposta a un problema, come
chiunque può sperimentare facendo una ricerca in Internet con un motore di ricerca che ci costringe a
considerare centinaia di dati per lo più irrilevanti. Rilevanza informativa e semplicità sono due
grandezze interconnesse, al punto che filosofi come Elliott Sober hanno proposto l’ identificazione tra
semplicità e informatività.
Che significa ricostruire un fatto o una serie di fatti? Significa pervenire alla formulazione (di solito
in forma narrativa) di un enunciato complesso che ottimizzi semplicità e quantità di informazione nel
rispondere alla domanda “che cosa è accaduto nel luogo a durante l’intervallo t’-t”?”
Ricostruire una serie di fatti non è lo stesso che spiegarli o comprenderli.
Per chiarire questo punto riprendiamo la tradizionale distinzione tra fatti riproducibili e non
riproducibili. I primi sono quelli che entrano in gioco nelle cosiddette scienze sperimentali, in cui le
leggi connettono fatti che sono normalmente oggetto di esperimento. Le leggi naturali connettono fatti
che o sono umanamente riproducibili o, ricorrendo a una metafora, sono riproducibili dalla natura. Le
cosiddette scienze “idiografiche” hanno a che fare con fatti irripetibili,e quindi a fortiori non
riproducibili. La ricostruzione dei fatti nel problem solving giudiziario da
questo punto di vista è assimilabile alla trattazione dei fatti nelle scienze idiografiche, e in particolare
nella storiografia.
Quali sono le differenze tra ricostruzione storiografica dei fatti e ricostruzione giudiziaria? Le
differenze in prima approssimazione sembrano queste: 1) lo storico è impegnato nella ricerca su un
frammento di realtà passata che lui stesso ha prescelto; 2) la ricerca storica è illimitatamente aperta alla
revisione, mentre lo scopo del processo è quello di porre un termine alle ricerche ottenendo una
Generated
by Foxit
PDF Creator © Foxit Software
Edited
by Foxit
Reader
http://www.foxitsoftware.com
evaluation only.
Copyright(C)
by Foxit SoftwareFor
Company,2005-2008
For Evaluation Only.
ricostruzione fattuale che si propone di essere definitiva; 3) nel lavoro dello storico la selezione dei dati
di partenza è largamente arbitraria in quanto spesso non è orientata da una domanda precisa a cui la
ricostruzione è finalizzata; 4) la metodologia dello storico è “libera”, mentre quella del giudice è
vincolata da regole procedurali. Nessuna di queste differenze è tale da nascondere le profonde affinità
di obiettivi e di metodo.
Vediamo dunque cosa si può imparare dalla più importante opera dedicata alla metodologia storica, il
ponderoso lavoro di J.Topolski “Metodologia della ricerca storica”. Prima di tutto Topolski distingue
tra il fatto come “ciò che è realmente accaduto” e la sua ricostruzione storiografica”, che sarebbe
meglio chiamare “fatto storiografico”. L’idea di Topolski, influenzata dal materialismo dialettico,
chiede che la ricerca storica crei una continua approssimazione del fatto storiografico alla cosiddetta
verità. Non viene menzionato un criterio di razionalità suggerito sopra, cioè che l’esposizione del fatto
deve rispondere al requisito di esporre il massimo di informazione in forma non-ridondante e semplice.
In ambedue i tipi di indagini, comunque, è essenziale il ruolo delle ipotesi.
In storiografia si parte da domande di spiegazione (perché?) e domande fattografiche (che cosa è
accaduto?) e si avanzano delle risposte che sono le ipotesi da cui si parte. Analogamente accade nei
processi, dove il capo d’accusa è considerato un’ipotesi da sottoporre a controllo. Per il controllo
dell’ipotesi lo storiografo userà le fonti, il giudice le testimonianze e i reperti, ma la procedura è
analoga.SecondoTopolski nella verifica delle ipotesi si distingue tra metodo diretto e metodo indiretto.
Metodo diretto. Se le fonti parlano direttamente del fatto su cui ci si interroga, si adotta un preciso
principio che è il seguente:
“Se la fonte è autentica e le informazioni credibili, allora i fatti dei quali queste informazioni parlano
sono realmente o molto probabilmente avvenuti”. La conclusione che i fatti sono avvenuti si può quindi
ottenere come conclusione di un'inferenza ampliativa (abduttiva, induttiva, controfattuale)
e ciascuno di questi fatti può essere considerato indubitabile e immagazzinato nello stock di
informazione accettata.
Metodo indiretto. Ci sono due livelli di analisi. Il primo verte sull’autenticità della fonte e sulla
credibilità dell’informazione che verte sui datti A1...An, quindi consiste nell’applicazione del metodo
diretto. Il secondo è la verifica dell’ipotesi H valutando A1…An come possibili consegeunze di H . Se
queste si sono veramente verificate allora H si può considerare eventualmente una buona spiegazione
delle conseguenze. Come sappiamo, la spiegazione non è necessariamente una spiegazione causale: la
correlazione potrebbe essere statistica o indiziaria. L’importante è che il ragionamento sia ottenuto
applicando forme di inferenza razionale, cioè –come abbiamo visto – forme di inferenza che
conservano il massimo di informazione disponibile.
Questo è quanto propone Topolski. La differenza con quanto sostenuto nelle pagine precedenti è che
H non va valutata in stato di isolamento ma insieme a un insieme di ipotesi alternative esaustive e
disgiunte H2…Hn . La ricerca di informazione ha lo scopo di raggiungere una risposta determinata, il
che consiste nell’ eliminare la disgiunzione delle ipotesi fino a restare con un’ipotesi vincente .
Abbiamo sottolineato che il risultato della procedura, che può essere anche foriera di errori, va
confermata da una controprova- che va conseguita su basi indipendenti da quelle impiegate nella
procedura stessa.
Va notato che gli epistemologi che aderiscono ad una teoria coerentista della verità (come Nicholas
Rescher, che riprende l’orientamento già citato di Neurath), secondo i quali la verità di una
proposizione consiste nella sua coerenza con la conoscenza acquisita, preferiscono adottare un metodo
diverso, anche se ovviamente in alcuni casi può produrre gli stessi risultati di quello qui esposto.
Secondo i coerentisti si parte non da informazioni certe ma da dati, con o senza pedigree, che sono
pertinenti per una certa ipotesi H. Si accerta poi la loro coerenza interna e in molti casi può accadere
che tali dati (p.es. testimonianze) risultano contraddittorie tra loro. Nell’ insieme dei dati si scelgono
allora dei sottoinsiemi coerenti. Si accerta quindi la “plausibilità” di tali sottoinsiemi con lo scopo di
scegliere l'insieme "più plausibile". I criteri per determinare tale plausibilità non vengono tuttavia
fissati univocamente : in particolare non si invoca il ricorso alla corrispondenza con la cosiddetta
realtà, che viene considerato filosoficamente spurio . Rescher elenca vari possibili criteri di
plausibilità, uno dei quali è il criterio dell’utilità pragmatica. Ma è chiaro che l’adozione di tale
criterio può portare a risultati che non solo solo arbitrari, ma conformi agli interessi più o meno nobili
di chi compie la selezione. Questo in particolare può verificarsi quando si è di fronte a due insiemi
coerenti di dati equiplausibili, la scelta tra i quali verrebbe a dipendere dall’arbitrio del giudice.
Dovrebbe essere chiaro come il coerentismo apra uno spiraglio all'idealismo soggettivo. Il metodo
soggettivista-bayesiano esposto nei primi capitoli è un metodo classificabile come coerentista, una
volta che si espliciti la peculiare nozione di coerenza intesa nel quadro del soggettivismo
probabilistico..
Nella diversa prospettiva suggerita in queste lezioni invece la ricerca non può prescindere da uno
stock di elementi di informazione rilevanti per gli obiettivi della ricerca stessa, che sia ovviamente
coerente (e tale deve essere perché i suoi elementi sono selezionati per aver superato un livello di soglia
prefissato) e tendenzialmente completo (nel senso che è allo stato attuale della conoscenza è la migliore
approssimazione a una completezza ideale). Tali elementi di informazione non possono essere rimessi
in discussione nel corso dell'indagine e non possono essere cancellati solo perché incompatibili con una
o più delle ipotesi testate. Se un’ipotesi è accettata in base a questo tipo di evidenza dopo essere stata
confrontata con ipotesi rivali, la sua validità va considerata assoluta rispetto al'evidenza in questione:
anche se in linea di principio rivedibile una volta che il sostegno informativo fosse esteso con nuovi
elementi.
In tema di ricostruzione dei fatti, dovranno quindi essere confrontate tra loro diverse ricostruzioni
ipotetiche , procedendo poi all’ identificazione della migliore delle ipotesi ricostruttive. Nei casi non
infrequenti di parità tra una ipotesi H ' e una H'' viene escluso il ricorso all’arbitrio del giudice: o si
accetta la conclusione disgiuntiva H' o H'' –il che equivale alla rinuncia a risolvere il problema- o si
ricorre a un’estensione della base informativa per risolvere il caso di parità . Questo modo di procedere
appare conforme alla prassi con cui nei tribunali veniva applicata la formula Non liquet in virtù della
quale, nei casi in cui la ricostruzione dei fatti si fosse presentata incerta, il giudice chiedeva un
supplemento di istruttoria.
LEZIONE 12. La scientificità come oggetto di prova.
Nel momento il cui il giudice deve scegliere un perito o un collegio di periti, deve affrontare il
problema di scegliere periti che non solo siano affidabili, ma competenti in discipline qualificabili
come scientifiche. Per questo il giudice ha il problema di applicare criteri affidabili di scientificità.
Come vedremo, però, in alcuni casi la scientificità non interessa il giudice per guidare le sue scelte, ma
diventa essa stessa oggetto di controversia giudiziaria. In ambedue i casi è inevitabile un ricorso non
alla scienza ma alla riflessione sulla scienza, cioè all’epistemologia.
Si può presentare il nucleo della filosofia della scienza come il tentativo di rispondere alla domanda
circa la demarcazione tra scienza e non-scienza.
Autorevoli filosofi come Larry Laudan hanno messo in dubbio la possibilità di questa demarcazione.
Ma essere scettici sulla possibilità della demarcazione significa essere scettici sulla stessa filosofia
della scienza e forse sulla stessa scienza.
Come è noto, è stato soprattutto Popper il filosofo che ha dato centralità a questo tema, guidato
sicuramente da un certo gusto per la provocazione. La questione sollevata da Popper è stata spesso
confusa con altre questioni diverse, anche se apparentate, discusse dai filosofi. Anche i neopositivisti
del Circolo di Vienna si ponevano un problema di demarcazione, ma era il problema della
demarcazione tra senso e non senso. Nella visione dei neopositivisti la classe di enunciati classificati
come sensati coincideva con la scienza stessa. Nel dominio dell’insensato finivano così, a pari merito,
la metafisica, i sistemi normativi, le valutazioni estetiche e morali, le esclamazioni dettate da emozioni
occasionali.
Sull’ identificazione tra scienza e sensatezza operata dai neopositivisti si è appuntata con successo la
critica di Popper. Sono pochi ora a pensare che si ottenga qualche vantaggio negando sensatezza alla
metafisica o al linguaggio normativo. Scienza e metafisica sono più intrecciate di quanto gli scienziati
amino credere (c’ è sicuramente una metafisica rilevante per la scienza, come è stata a suo tempo quella
di Aristotele); e, quanto alla sensatezza delle norme, senza scomodare il diritto basta osservare che la
scienza fa largo impiego di regole inferenziali o procedurali che, pur essendo norme, sono pienamente
sensate in contesto scientifico.
Il cosiddetto principio di verificabilità, o criterio empirico di significanza, originariamente enunciato
dai neopositivisti come criterio di sensatezza, ha fatto poca strada. Come si sa, la sua prima
formulazione consisteva nel dire che un enunciato è sensato se e solo se è verificabile conclusivamente
in linea di principio. Dato però che le leggi di natura, espresse da enunciati infinitari, sono inverificabili
anche in linea di principio, dovrebbero finire nel calderone del non significante in compagnia della
non-scienza, il che è ovviamente assurdo. Si sa che il criterio è stato riveduto e corretto in vari modi, il
più raffinato dei quali era il criterio della conferma probabilistica. Ma gli esiti sono comunque dubbi,
considerando che il probabilismo non può sfuggire a conclusioni imbarazzanti, come il fatto che le
leggi ricevono probabilità uguale a 0 (nel continuo carnapiano dei metodi induttivi) e comunque molto
bassa con i metodi induttivi della scuola di Hintikka.
Prima di discutere il problema della demarcazione tra scienza e non-scienza è bene comunque
sottolineare che vi sono altri problemi di demarcazione che dovrebbero interessare l’epistemologo. Un
interessante e poco studiato problema di demarcazione è quello tra scienza ed arte, e in subordine
quello tra scienza e letteratura. I dialoghi di Galileo sono un’opera d’arte o un’opera scientifica? I
disegni di Leonardo sono opere scientifiche o opere artistiche? La storiografia è arte o scienza ? Se
rispondiamo che sono ambedue le cose tocchiamo con mano che forse la distinzione tra arte e scienza
non è chiara come si vorrebbe. Un’altra distinzione su cui ci si trova a discutere, soprattutto nell’ambito
di scienze come la psicologia, è la demarcazione tra costruzione mentale paranoica e costruzione
mentale razionale. La storia della scienza è piena di personalità paranoiche ma soprattutto lo è la
pseudoscienza (si veda M.Gardner ,”Fads and Fallacies in the name of Science”) Faccio solo l’esempio
di W. Reich, il teorico della rivoluzione sessuale, che aveva inventato una macchina per catturare
l’energia orgonica e che negli anni ‘50 cercò di convincere il governo americano che i dischi volanti
stavano tentando un’ invasione della terra.
La discussione sulla demarcazione tra scienza e non-scienza farebbe un passo importante se fosse
possibile distinguere la scienza da altri sistemi di pensiero che hanno pretese conoscitive come la
filosofia, la religione e l’ideologia. La demarcazione tra scienza e ideologia merita una parentesi.
L’ideologia ha delle affinità con la religione e con le costruzioni mentali paranoiche. Nel modo di
pensare ideologico viene identificato un nemico numero uno, che ha lo stesso ruolo di Satana nelle
religioni, e ci si pone come obiettivo primario la lotta contro tale nemico ( può essere l’ebraismo
nell’ideologia nazista, le multinazionali in quella terzomondista ecc.). La lettura della realtà viene
effettuata in funzione della lotta all’arcinemico. L’ homo ideologicus attua una selezione dei dati
informativi, nel senso che prende in considerazione tutto ciò che può essere impiegato nella lotta al
nemico, mentre viene cancellato o minimizzato tutto ciò che interferisce con il perseguimento degli
obiettivi polemici. Il modo di pensare ideologico è, da questo punto di vista, un caso speciale di sistema
di pensiero paranoico: ciò che conta è la conservazione delnucleo delirante e la coerenza interna del
sistema, che viene di solito ottenuta con la rimozione dell’evidenza contraria (si pensi all’ hegeliano
“tanto peggio per i fatti”). Questo risultato, incidentalmente, è uno dei possibili esiti dell’adesione alle
cosiddette “teorie coerentiste della verità”, che trovano concordi vari sostenitori dell’idealismo, e non
solo questi (si veda p.es. Neurath, che era un membro del Circolo di Vienna). Dobbiamo a Neurath la
metafora della nave: la scienza è paragonata ad una nave che non può mai toccare terra ed è costretta a
riparare le proprie falle ricorrendo ai materiali che si trovano a bordo. La metafora della nave ha
qualche punto in comune con quella popperiana della scienza su palafitte. Le palafitte non toccano mai
uno strato roccioso, ma possono essere spinte più a fondo, rendendo possibile un ampliamento e un
consolidamento dell’intera struttura.
Ma, a differenza di Neurath, Popper ammette, anzi esige, che le teorie superino dei controlli rigorosi
miranti alla loro falsificazione. I popperiani hanno buon gioco a dire che la religione e l’ideologia sono
costruzioni extrascientifiche perché non falsificabili: gli asserti che li costituiscono non sono refutabili
da nessun controesempio perché questi sistemi di pensiero autorizzano sempre delle Va detto che
anche i neopositivisti avevano dalla loro uno strumento metodologico efficace, che è il principio
dell’evidenza totale. Nella scienza qualsiasi ipotesi, sia categorica che probabilistica, deve essere
controllata esaminando tutta l’informazione disponibile. In una variante più debole ma più appl icabile,
ogni ipotesi va controllata esaminando tutta l’informazione rilevante per l’ipotesi stessa, dove la
rilevanza può essere positiva o negativa.
Qui il divario tra scienza e ideologia risulta piuttosto chiaro: le “verità” ideologiche sono sostenute
da un uso selettivo dell’informazione, che a volte si può spingere fino a negare l’evidenza diretta (come
quando qualcuno arrivò a negare l’urto degli aerei contro le due torri l’11 settembre del 2001).
Lo stesso principio dell’evidenza totale dovrebbe essere applicato, almeno in teoria, nelle corti di
giustizia. Qui i giudici, nel valutare un’ipotesi di colpevolezza, dovrebbero in linea di principio tener
conto di tutta l’informazione che può essere positivamente o negativamente rilevante perl’ipotesi. Ne
potremmo parlare come di criterio di non-selettività. La non-selettività si impone dunque come
principio guida per tracciare una prima discriminante tra ciò che aspira legittimamente ad essere
considerato scienza e ciò che non può avere questa pretesa. L’espressione “ciò che aspira ad essere
considerato scienza” vuole render chiaro che non tutte le discipline insegnate nelle nostre facoltà con
il nome di scienza, come le scienza motorie o le scienze teologiche, sono effettivamente scienze. Tanto
meno qualcosa è scienza per avere nel proprio nome il suffisso “logia”, come la grafologia o
ladietologia. Si può dire che alcune di queste, pur non essendo scienze, sono tuttavia discipline a
carattere scientifico. La distinzione dovrebbe
prendere il posto di quella, meno convincente, che
spesso si fa tra scienze fisiche e scienze umano-sociali. Sarebbe facile tracciare che la distinzione tra
discipline a carattere scientifico e altre discipline non scientifiche dicendo che chi opera nelle prime è
dotato della cosiddetta mentalità scientifica. Ma questo da un lato sembra implicare una connotazione
psicologica che purtroppo è difficile dettagliare, dall’altro sembra suggerire l’esistenza di un codice di
comportamento scientifico (un’etica scientifica) che viene spesso invocato ma non è mai stato scritto.
Un’idea che potrebbe sembrare plausibile sta nel dire che una disciplina è scientifica quando, anche
in assenza di una teoria dominante condivisa e confermata, impiega dei metodi di accertamento che
sono caratteristici dellescienze in senso pieno come la fisica e la biologia: per esempio metodi
matematici, statistici, tecnologie avanzate di misura e di calcolo eccetera. Si noti però che anche
l’astrologia, per fare un esempio banale, fa uso di metodi matematici, anche se è piuttosto chiaro che
non può essere considerata né una scienza né una disciplina scientifica. Come aveva visto Popper,
nell’ambito delle non-scienze le pseudo-scienze sono particolarmente insidiose, perché si presentano ai
profani come scienze: si assicurano così il successo da un lato per l’innata tendenza umana alla
credulità, dall’altro per l’ambiguità che si è venuta a creare sul concetto stesso di scienza, purtroppo
imputabile alle oscillazioni che ha avuto l’epistemologia sul tema della demarcazione.
Il riferimento all’astrologia è naturalmente un richiamo a Popper, che ne aveva fatto un esempio
paradigmatico di pseudoscienza insieme a due altre discipline sempre citate insieme ad essa, la
psicoanalisi (di Freud, ma anche di Adler e Jung) e l’economia marxista.
Il metodologo Adolf Grünbaum ha contestato questa pretesa non- falsificabilità delle affermazioni
freudiane, notando che più volte Freud è stato costretto a cambiare le sue teorie perché l’esperienza
clinica le mostrava false. Per Grünbaum esiste un criterio più convincente per stabilire la scientificità
della psicoanalisi, ed è quello del successo terapeutico. Per dimostrare la scientificità della psicoanalisi,
dunque, bisognerebbe dimostrare 1) che essa riesce
effettivamente a guarire le nevrosi e 2) che
nessuna altra disciplina può farlo.
Purtroppo, però, le cose non stanno così. Lo stesso Freud espresse qualche perplessità sulla possibilità
di guarire effettivamente grazie all’analisi. D’altra parte, i sintomi delle nevrosi possono essere guariti
anche con mezzi alternativi alla psicoanalisi, per cui nemmeno la seconda condizione sembra
verificabile. Per Grünbaum non è giusto escludere a priori la scientificità della psicoanalisi;
semplicemente, essa non è al momento confortata dai fatti.
Per quanto Popper sia stato visto per diversi decenni come un positivista eretico, è abbastanza chiaro
che la sua concezione ha un impianto diverso da quello che discende dal positivismo. In primo luogo i
popperiani negano sia il ragionamento induttivo , sia l’esistenza di osservazioni neutre che, estrapolate
induttivamente, stanno alla base della scienza. Secondariamente, se ciò che caratterizza la scienza è la
falsificabilità, allora la scienza si distingue non per darci certezze poggianti sui fatti, ma al contrario per
la sua fallibilità e per la sua rivedibilità perpetua.
Negli anni ’50 l’attacco ai capisaldi del positivismo avviato da Popper è passato anche per vie
diverse. E’ sufficiente citare la critica alla distinzione tra enunciati analitici e sintetici proposta da
Quine già negli anni ‘40 e la critica alla distinzione tra enunciati osservativi e teorici, sostenuta da
Sellars negli anni ‘50.
L’ influenza più profonda dopo gli anni 40 è stata però quella del secondo Wittgenstein. Il secondo
Wittgenstein ha proposto una concezione antropologica del linguaggio, per la quale l’unico criterio di
significato non è offerto dalla corrispondenza con il mondo ma dalla presenza di regole d’uso
condivise, anche se non necessariamente codificate. Per usare una sua frase famosa di Wittgenstein, “i
limiti del mondo sono i limiti del linguaggio”. Indipendentemente da Wittgenstein, comunque,
antropologi come Sapir e Whorf proponevano una forma estrema di relativismo, per il quale lingue
naturali diverse, come per esempio l’inglese e l’esquimese, determinano diverse percezioni del mondo
e, essendo tra loro intraducibili, determinano mondi inconfrontabili tra loro.
Il passo compiuto da Hanson e poi da Kuhn con la cosiddetta “svolta relativistica” è stato una
conseguenza di queste premesse. Dato che teorie scientifiche diverse impiegano regole d’uso diverse
per termini acusticamente uguali come “luce”, “sole”, “spazio”, se ne conclude che ogni teoria
scientifica, nel momento in cui condiziona il pensiero di una generazione di scienziati, determina una
visione del mondo incommensurabile con le visioni che storicamente la precedono. Il passaggio da una
teoria a un’altra, che Kuhn chiama mutamento di paradigma, è una rivoluzione scientifica, nel senso
che propone un nuovo modo di vedere le cose, e con ciò modifica lo stesso insieme di dati osservativi
che i positivisti mettevano a base della scienza. Esempio standard è quello della rivoluzione
copernicana. Si nega quindi non solo l’effettiva applicazione del ragionamento induttivo, ma anche
l’applicazione della falsificazione teorizzata da Popper. Dato che è il paradigma stesso che funziona
come filtro per i dati empirici, non può essere falsificato da questi. Nella cosiddetta “nuova filosofia
della scienza”, emersa negli anni 60, il requisito dell’evidenza totale è stato abbandonato come uno dei
miti del positivismo, e condannato insieme ad altre idee considerati pregiudizi positivisti, come quello
del progresso cumulativo della conoscenza, l’ideale della matematizzazione e dell’uso sistematico della
logica simbolica.
Se la scienza è una costruzione che non poggia sull’evidenza sperimentale ma si regge sul consenso,
non è per sua struttura diversa da altre costruzioni umane che si reggono sul consenso, e in particolare
alla religione e alle ideologie. Insieme alle classiche dicotomie tra analitico e sintetico, descrittivo e
normativo, osservativo e teorico viene a cadere così anche la più antica e venerabile delle dicotomie,
che è quella tra doxa ed episteme, cioè tra credenza e conoscenza. Il confine tra scienza e non-scienza,
e quindi anche tra scienza e pseudo-scienza, diventava così labile che l’esponente più oltranzista di
questa corrente, Paul Feyerabend, volle che una delle sue foto ufficiali avesse come sfondo lo zodiaco
usato dagli astrologi. Con l’anarchismo di Feyerabend non solo si nega recisamente l’esistenza di un
metodo scientifico, ma si afferma in positivo che “tutto va bene”: ciò che importa infatti è solo la libera
competizione tra discipline, sistemi di pensiero e punti di vista diversi (fossero pure la fantascienza o la
magia nera) senza farsi domande sulle loro credenziali di scientificità. In vista di questo obiettivo la
metodologia normativa e la stessa riflessione sui confini della scienza diventa un ostacolo al progresso
della conoscenza complessiva.
Feyerabend va apprezzato per aver portato alle estreme conseguenze un modo di pensare che si presta
a incoraggiare orientamenti che sono lontani dalla scienza o esplicitamente antiscientifici. La
deregulation Feyerabendiana aveva fortuna, forse non a caso, negli stessi anni della deregulation
reaganiana. Forse non a caso una volta Reagan se ne uscì con la splendida boutade: “i fatti sono
stupidaggini”. Non è forse nemmeno un caso che a seguito dell’ondata postpositivista negli anni ‘80 si
sia assistito al dilagare in Europa dell’ermeneutica, dell’heideggerismo, del pensiero di Nietzsche e, in
Italia, del cosiddetto pensiero debole. Il decostruzionismo di Rorty negli Stati Uniti esemplificava in
forma brillantemente anglosassone lo stesso orientamento.
Questi sviluppi riguardano il pensiero filosofico. Nell’ambito delle scienze l’influenza del
postpositivismo delle scienze avanzate è più difficile da valutare.
In Europa, soprattutto tra gli economisti, ha avuto credito la cosiddetta metodologia dei programmi di
ricerca di Lakatos, che ha proposto un “falsificazionismo sofisticato” che è una ragionevole mediazione
tra la filosofia di Popper e quella di Kuhn. La metodologia di Lakatos è più descrittiva che
Generated
by Foxit
Edited
by Foxit
Reader
evaluation only.
Copyright(C)
Company,2005-2008
normativa. Un programma di ricerca non viene abbandonato per una falsificazione singolare, ma solo
quando, essendo incapace di progresso e carico di problemi irrisolti, viene spodestato da un nuovo
programma di ricerca che è più ricco di contenuto, nel senso che è in grado di risolvere un più ampio
numero di problemi. Viene così assicurata la razionalità dello sviluppo della scienza, che appariva
perduta nella prospettiva kuhniana, spesso tacciata di irrazionalismo o di sociologismo.
I dati osservativi nella concezione di Lakatos non hanno un ruolo di primo piano. Si insiste invece
sulla razionalità del consenso, anche se la razionalità di cui parla Lakatos è una razionalità
impersonale, di tipo hegeliano. Su questo terreno bisognerebbe anche ricordare contributi diversi da
quello di Lakatos, poco studiati in Italia, come la teoria del consenso razionale di Lehrer-Wagner.
In questa si mostra come una comunità di scienziati razionali può partire da assegnazioni
probabilistiche soggettive a un certo enunciato h, ma correggere questa assegnazione iniziale
ponderandola con il grado di fiducia nell’autorità e nella competenza di altri scienziati.
Al proposito, si ricorda che Keith Lehrer e R.Wagner nel loro “Rational consensus in science and
society” hanno proposto un modello probabilistico di discussione critica che dovrebbe essere valutato
come una seria alternativa al soggettivismo.
Siano Pr1(S)… Prn(S) i valori valori di probabilità che n esperti di un certo gruppo assegnano alla
poposizione S dopo essersi scambiata tutta l’informazione disponibile. Ciascuno dei membri del
gruppo ha un’idea dell’affidabilità del parere degli altri membri e assegna ad essi un determinato peso
w , espresso da un numero reale tra 0 e 1 (grado di rispetto). Facendo una media ponderata della propria
opinione originaria Pr(S) e del grado di rispetto ciascuno degli esperti arriva ad una seconda
probabilità corretta Pr(S)’. Questa seconda distribuzione può essere di nuovo riaggiornata in base alle
probabilità aggiornate degli altri,, e così via fino a quando si raggiunge un punto fisso, cioè una
distribuzione che è insensibile ad altri aggiustamenti.
La costruzione di Lehrer-Wagner - che, incidentalmente, non descrive l’unica strategia possibile di
ponderazione delle probabilità- mostra come è possibile costruire una valutazione intersoggettiva che
si può considerare razionale, o a fortiori ragionevole, partendo da assegnazioni puramente soggettive.
In questo schema si mostra tramite un modello matematico come la progressiva correzione delle
valutazioni probabilistiche iniziali porti a un valore unico, che è il risultato di una discussione critica e
non di un consenso dovuto alla “persuasione” , alla retorica o a pressioni di ambienti politici o
economici. L’idea di razionalità che viene qui sottinteso, in un certo senso, è quello di una razionalità
procedurale. La razionalità del consenso, in altri termini, non dipende da qualche aggancio ai dati
empirici ma dipende da una procedura che corregge le eventuali aberrazioni delle valutazioni
individuali.
Nel modello di Lehrer-Wagner il rispetto di quella che Galileo chiamava la “sensata esperienza” è
sostituita dal rispetto per l’ autorità di altri ricercatori. Questo però è un larvato riconoscimento del
---------principio di autorità. Il principio di autorità, purtroppo, anche se ufficialmente riprovato,continua
contiene ad
operare di fatto nella scienza quotidiana, per esempio quando si tratta di affidare a un referee la scelta
un articolo su una rivista internazionale o di promuovere un giovane ricercatore. Neppure la
metodologia popperiana in realtà è in grado di eluderlo, stante che la falsificazione o mancata
secondo Popper
falsificazione delle ipotesi riposa su asserti-base che in ultima analisi dipendono da una decisione degli
scienziati stessi. Eppure, come in fondo ha evidenziato lo stesso fallibilismo di Popper, grandi
scienziati umanamente possono sbagliare, e anzi umanamente
sbagliano, soprattutto quando non
parlano ex cathedra. Basti ricordare, e non è una battuta, che lord Kelvin dichiarò solennemente nel
1895 che era impossibile per un corpo più pesante dell’aria levarsi in volo, e questo pochi anni prima
che i fratelli Wright nel 1903 facessero volare il primo aereo a motore.
Negli ultimi anni anche il peso del post-positivismo e di quella che è stata chiamata “la svolta
relativistica” si è notevolmente ridimensionato. Filosofi della generazione più giovane come Bas van
Fraassen e Clark Glymour non hanno esitato a dichiarare il loro debito verso il neo- empirismo, mentre
figure influenti come quella di Hilary Putnam hanno tentato una sintesi di sapore kantiano. Non si può
neppure dire, però, che si sia verificato un ritorno a Carnap o al Circolo di Vienna, che appaiono
irrimediabilmente remoti, anche se nessuno mette in discussione la loro grandezza. Il panorama attuale
della filosofia della scienza, messa in ombra dall’emergere della scienza cognitiva, è piuttosto
desolante, non tanto per la mancanza di forti personalità, quanto per la rinuncia a ridiscutere proprio i
temi che hanno caratterizzato sin dall’origine la disciplina, tra cui anche quello della distinzione tra
scienza e non-scienza.
E’ positivo che una richiesta di riflessione sul tema della demarcazione provenga dall’ambiente
giudiziario. In primo luogo, l’interesse del giudice naturalmente è quello di appoggiarsi all’operato di
periti che abbiano credenziali scientifiche. Dato che l’obiettivo è la ricerca di un accertamento veridico
dei fatti, è comprensibile che un criterio di verità basato sul consenso o sulla coerenza interna sia da
molti considerato insufficiente. E’ comprensibile quindi che per questo motivo molti ritengono
opportuno che le corti di giustizia tornino a ispirarsi alla vecchia concezione corrispondentista
(aristotelica), secondo cui la verità è corrispondenza ai fatti.
Su questa legittima aspirazione ad avere criteri solidi di verità bisogna fare alcune precisazioni. Nel
veteropositivismo si partiva dall’idea che la scienza parte dalla scoperta dei fatti, e questi fatti sono
scoperti allo stesso modo in cui vengono scoperte le tombe etrusche sotto uno strato di terra. Su questa
immagine si appoggiava il mito positivistico degli “hard facts” o “duri fatti”, che dovevano essere i
mattoni elementari con cui si costruisce l’edificio della scienza. In questa visione c’è indubbiamente
una certa dose di ingenuità, non tanto nell’aspirazione alla scoperta quanto nel concetto stesso di fatto
che viene presupposto.
Cominciamo col dire che i fatti possono essere fatti semplici, di solito identificati con eventi atomici
(come il fatto che ora piove), ma possano essere aggregati di fatti elementari, come p.es. “la
partecipazione degli studenti della scuola x a una manifestazione pacifista ”. Secondariamente, ci sono
fatti difficilmente riducibili a eventi, come per esempio il fatto “maggiore incidenza di casi di cancro
nella fabbrica x rispetto alla media nazionale”.
Qui entriamo, come già detto, nella sfera dei “soft facts”, cioè fatti con un certo grado di dipendenza
dal linguaggio e dal contesto. Ma il relativismo nasconde un grosso equivoco. Una cosa è dire che la
verità di un enunciato è relativa a un contesto o a un punto di vista, (cosa difficilmente contestabile)
altro è dire che la derelativizzazione è un compito impossibile in linea di principio. Per fare un
esempio banale, dire che la porta d’ingresso si trova sulla destra può essere vera
per Tizio e falso per Caio, ma questo non significa che non si riesca a riformulare la stessa
proposizione con enunciati derelativizzati che non dipendono dalla posizione di Tizio o di Caio. In
particolare, se un enunciato, per esempio “la probabilità di Tizio di ammalarsi di diabete è 0,5” è vera
rispetto a uno insieme di informazioni X , tale verità cessa di essere relativa una volta che
venga resa esplicita questa relatività. Lo stesso vale per la ricostruzione dei fatti effettuata da un
giudice. Una volta specificato che la ricostruzione è operata rispetto a uno insieme di informazioni
acquisite X, tale verità cessa di essere relativa se si prova che il rapporto tra essa e l’insieme X è unico
e incontrovertibile. L’interesse in tal modo si sposta sulle proprietà dell’insieme X, che naturalmente
non può essere un qualsivoglia insieme. Se X è un campione statistico, sappiamo qual è la risposta che
si dà nella metodologia statistica: il campione deve essere il più possibile ampio e randomizzato.
Vorrei solo notare che il conseguimento della derelativizzazione obbedisce a un principio che Grice
ha codificato tra le regole della conversazione:
“Si introduca il massimo di informazione rilevante per le risposte a cui è finalizzata la
ricerca”.
Ci si accorgerà che questa è una variante del principio dell’evidenza totale a cui
abbiamo accennato all’inizio. Senza entrare in dettagli complessi, si usa il concetto di informazione,
anziché quello di dato empirico, intendendo per “elemento di informazione” un dato la cui certezza
supera la soglia del ragionevole dubbio e che pertanto non è lecito mettere in discussione (cioè è
“indiscutibile”) nel corso di una certa indagine. Possiamo dire che tra gli obiettivi distintivi della
scienza c’è l’incremento di informazione, perché solo l’incremento di informazione consente di
risolvere problemi vecchi, di vedere problemi nuovi, e di eliminare il grado di incertezza e di errore
presente in teorie deboli.
Oltre al problema dei criteri di scientificità nella valutazione delle prove è degno di nota che la stessa
scientificità può essere oggetto di discussione nei tribunali. Non si può non citare al proposito un caso
storico esemplare in cui i tribunali hanno avuto a che fare con la questione della scientificità. Il
riferimento è alla memorabile causa McLean v. Arkansas curata dal giudice Overton negli nni 90:
oggetto del dibattito era la tesi creazionista del disegno intelligente, che era contrapposta alla tesi
darwiniana e proposta per l’insegnamento nelle scuole superiori. Si noti che i creazionisti hanno usato
(o abusato) del termine “scienza” chiamando la loro dottrina “scienza della creazione”.
Il processo come è noto, si è concluso con la condanna della tesi creazionista e con il conseguente
divieto dell’insegnamento di questa dottrina nelle scuole. La testimonianza del darwinista Michael
Ruse è stata della massima importanza nel guidare le decisioni della corte . Ruse ha annoverato in varie
sedi una serie di qualità che una teoria dovrebbe possedere per essere qualificata come scientifica:
questo elenco nasce da una sintesi tra l’epistemologia popperiana e quella positivista ().
Schematicamente, Ruse proponeva di considerare scientifica una teoria quando è
a) consistente (non contraddittoria), internamente ed esternamente
b) parsimoniosa, cioè propone entità o spiegazioni nella misura strettamente necessaria allo scopo,
applicando il c.d. rasoio di Occam
c) utile, in quanto descrive e spiega i fenomeni osservati
d) provabile e falsificabile empiricamente
e) basata su esperimenti ripetibili e controllabili
f) correggibile e dinamica, in quanto deve essere possibile l’applicazione dei. cambiamenti alla luce di
nuovi dati
g) progressiva, in quanto una nuova teoria deve essere migliore delle teorie precedenti e nello stesso
tempo spiegare quanto era spiegato da queste
h) provvisoria, nel senso che non proclama certezze ma ammette la sua fallibilità.
Secondo le opinioni degli esperti, la teoria del Disegno Intelligente (ID) mancherebbe di molte delle
suddette proprietà:
1. manca di consistenza: l'ID è infatti basata sul presupposto che la complessità e improbabilità
dell’evoluzione debbano implicare un progettista intelligente, ma nello stesso tempo asserisce che
l'identità e le caratteristiche di tale progettista non possono, nè devono, essere identificate o quantificate
(quindi si descrivono le proprietà di un soggetto le cui proprietà sono contestualmente dichiarate
ignote)
2.viola il principio di parsimonia: la presenza di un progettista non è necessaria e dunque la sua
introduzione rende l'ID non parsimoniosa;
3.non è utile: l’ ID non ha infatti capacità predittiva, cioè non consente di predire in anticipo il
verificarsi di uno specifico fenomeno e i suoi dettagli date le condizioni iniziali;
4. non è falsificabile: il progettista viene infatti posto oltre il dominio dell'osservabile, ragione per cui
le assunzioni circa la sua esistenza non possono essere avallate né confutate dall'osservazione;
5.non è correggibile, nè dinamica, provvisoria o progressiva: l´ÍD introduce un elemento, il progettista,
di cui non si deve rendere conto, in quanto al di là dell'oggetto della scienza, e dunque la teoria non
dovrebbe essere cambiata in nessun caso a seguito di nuove scoperte.
Guardando a questa controversia in modo più distaccato, c’é da osservare che la teoria del Disegno
Generated
by Foxit
Edited
by Foxit
Reader
evaluation only.
Copyright(C)
Company,2005-2008
Intelligente ha potuto prosperare perchè la teoria darwiniana si presentava a sua volta con diversi punti
deboli, in parte riconosciuti inizialmente dallo stesso fondatore. Non va neppure dimenticato che per
molto tempo Popper ha negato legittimità alla teoria darwiniana perché formulata in modo non
falsificabile. Anche dopo il ripensamento di Popper su questo punto, resta il fatto che la teoria
evoluzionista si presente dotata di potere esplicativo ma non di potere predittivo, e sotto questo aspetto
non differisce molto dalla teoria del Disegno Intelligente. In effetti solo le correzioni apportate alla
teoria di Darwin dai cosiddetti neodarwinisti, dai teorici della sintesi evolutiva (Dobzhansky, Mayr e
Simpson) e da recenti sviluppi come la teoria dell’equilibrio punteggiato di Eldredge e Gould hanno
dato alla teoria della selezione naturale una piena rispettabilità scientifica ( ).
Larry Laudan ha opposto un commento negativo alla sentenza Overton, osservando che alcune delle
ipotesi del creazionismo, come quelle circa i fossili e l’età della terra, sono controllabili, ma di fatto
errate . Dunque la tesi ID sarebbe a suo giudizio un esempio di scienza “debole” ma non di
pseudoscienza. Laudan in questa polemica esprime un orientamento postpositivista, diverso da quello
più tradizionale di Ruse. La questione non è solo accademica ma ha dei risvolti pratici e politici
rilevanti. Una pseudo-scienza non può essere oggetto di insegnamento nelle scuole, anche perchè
creerebbe un precedente pericoloso, mentre presentare un’ ipotesi scientifica alternativa a quella
dominante, anche se parzialmente screditata, potrebbero essere legittimo e addirittura didatticamente
utile.
Si può concludere osservando che nella lista di requisiti di scientificità sopra riportati manca una
menzione al requisito dell’evidenza totale o a qualche sua variante, come quello che abbiamo chiamato
criterio di non-selettività. Al proposito notiamo che il criterio di specificità massimale richiesto da
Hempel a integrazione della teoria della spiegazione Statistico-Induttiva si può presentare come
un’applicazione del principio di evidenza totale . Si noti un aspetto non secondario della questione: cioè
che per formulare una descrizione massimamente specifica di un qualsiasi dato da spiegare occorre
usare un linguaggio con alto grado di precisione e di esattezza (esattezza di cui, incidentalmente, non si
fa cenno nell’elenco, come se non fosse uno dei caratteri distintivi del linguaggio scientifico).
Una banale obiezione al requisito dell’evidenza totale è che il suo soddisfacimento è impossibile in
linea di principio per qualsiasi agente umano o meccanico, stante che la descrizione della totalità
dellèvidenza non si può concludere in un tempo finito. Ma critiche di questo tipo sono applicabili a
qualsiasi tipo di idealizzazione: a parità di ragionamento, per esempio, non si potrebbe mai costruire un
macchina di Turing perchè per definizione esige un nastro infinito. Allo stesso modo in cui si chiede
sensatamente di raggiungere la certezza oltre ogni ragionevole dubbio, si può anche chiedere di
raggiungere un’approssimazione ragionevolmente adeguata al requisito dell’evidenza totale e a quello
di non-selettività.
Trascuriamo pure il fatto che oggi sono disponibili metodi computerizzati che sono in grado di
selezionare in tempi ragionevolmente brevi (a rischio sicuramente di errore) tutti gli elementi
informativi pertinenti.
Ciò che comunque è umanamente possibile è fissare un insieme finito di elementi infomativi K che
abbia le seguenti caratteristiche:
1) si ha motivo di ritenere che ciò che è escluso da K non aumenti in maniera
significativa l’informazione rilevante per il problema;
2) I motivi dell’esclusione vanno motivati;
3) Si evidenzia che il risultato dell’indagine non è assoluto ma relativo a K ,
con ciò intendendo che il risultato è rivedibile alla luce di eventuale nuova
informazione che estende K ed è compatibile con K;
4) I casi di parità tra ipotesi diverse alla luce di K non autorizzano una scelta
arbitraria tra le ipotesi. Tale scelta può essere autorizzata solo da ulteriori
indagini che estendono K.
Questi principi accomunano la procedura di accertamento scientifica e quella di accertamento
giudiziario. Su un punto, però, si deve riscontrare una differenza. Un’ ipotesi scientifica può essere
razionalmente condivisa anche a fronte di elementi informativi che sono dissonanti con l’ipotesi stessa.
Le teorie , come diceva Lakatos, navigano in oceani di anomalie, e la razionalità consiste nell’accettare
una certa ipotesi semplicemente perché, rebus sic stantibus, non potrebbe essere rimpiazzata da
un’ipotesi migliore. Si noti comunque che c’è una grande differenza tra il nascondere o negare
l’evidenza e sostenere una teoria ammettendo che alcune sue parti risultano debolmente provate, o
addirittura incompatibili con l’evidenza disponibile (basta leggere Darwin per avere uno splendido
esempio dell’onestà intellettuale che caratterizza il vero scienziato).
Il giudice non può godere del privilegio di sostenere una tesi ammettendo che è in conflitto con una
parte dei fatti noti. Il verdetto che è chiamato ad emettere non ha carattere dubitativo e nella
motivazione della sentenza non dovrebbe comparire menzione di evidenza contraria. D’altro canto, se
il verdetto è ottenuto cancellando evidenza, questo si può fare a prezzo di aprire la porta all’errore
giudiziario e di screditare la reputazione dello stesso giudice.

Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il

Transcript

Documenti analoghi

CORSO DI COMUNICAZIONE EFFICACE E PUBBLICHE RELAZIONI

Umberto Eco, La bustina di Minerva, Bompiani, Milano, 2001, pp

nvis di gaetano iz0ryw - Associazione Onda Telematica

Roma LICEO “MARGHERITA DI SAVOIA” PROGRAMMA DI LATINO

TEST DI FISICA TERMODINAMICA IV F AS 2008-09 Fila

Unit 3: What`s happening?

IL RISVEGLIO DI BIANCANEVE

Audiocostruzioni - Il Portale dell`alta fedeltà amatoriale

Applicazioni Gis in Campo Territoriale e Ambientale