Le indagini foniche - Ordine degli Ingegneri di Roma

Transcript

Le indagini foniche - Ordine degli Ingegneri di Roma
"Le indagini foniche"
Andrea Paoloni
Fondazione Ugo Bordoni
Viale del Policlinico 147 – 00164 - ROMA
Tel. : +39.06.5480.3351 Fax. : +39.06.5480.4404 e-mail: [email protected]
Sommario
Uno degli strumenti investigativi oggi più usato è certamente quello delle intercettazioni delle comunicazioni tra
persone. L’intercettazione viene disposta sui telefoni utilizzati dalle persone a vario titolo sospettate e anche in alcuni
ambienti, tramite le cosiddette cimici, piccoli trasmettitori inseriti nel luogo da sorvegliare. Perché questo materiale
sonoro possa essere utilizzato dal magistrato inquirente e dalla Corte è necessario che venga affidato ad un esperto che
provveda a trascrivere, in gergo sbobinare, quanto registrato. In particolare serve la trascrizione per sapere cosa è
stato detto e l’identificazione degli interlocutori. Questo secondo incarico volto all'identificazione della persona a
partire dalla sua voce è complesso sia perché le voci e le persone non rimangono uguali a se stesse ma, in qualche
misura, mutano di giorno in giorno, sia perché le varie tecniche di identificazione possono essere in vario modo
ingannate. Nell'articolo, dopo una rassegna delle varie competenze che vengono richieste al perito fonico, viene
illustrato il tema della trascrizione, per metterne in evidenza la difficoltà e la delicatezza, e successivamente il tema
dell’identificazione del parlante per descrivere le diverse tecnologie che sono state proposte e i loro principali limiti.
Premessa: i compiti della linguistica forense, le richieste della Corte, i vari tipi di segnali
I compiti che un fonetico forense è chiamato a svolgere nell'ambito di un processo penale sono numerosi, tra questi il
più frequente è relativo alla trascrizione delle intercettazioni telefoniche o ambientali. Sempre in questo ambito vi è la
trascrizione delle cosiddette “disputed utterances” ossia delle frasi di difficile comprensione per le quali vengono
proposte dalle parti interpretazioni diverse [Paoloni 2006].
Altro tema molto significativo è quello dell'identificazione del parlante, che comprende, oltre al riconoscimento
propriamente detto, anche la preparazione di un confronto all'americana tra più voci e, in assenza di un sospettato, la
caratterizzazione del parlante anonimo.
Altri compiti spesso richiesti sono il filtraggio del segnale vocale o comunque il miglioramento della qualità di un
segnale degradato e la verifica dell’autenticità di un segnale per escludere che sia il risultato di una manipolazione.
Infine segnaliamo il tema dell'analisi di un segnale audio per identificare quale sia la sorgente di un rumore o suono che
intervenga nel corso di una registrazione.
Questo elenco di compiti, alcuni certamente di competenza del linguista, altri più adatti ad un esperto di ingegneria del
suono, non rappresentano certamente tutti gli incarichi che possono essere di volta in volta assegnati nell'ambito di
questo la tematica [Hollien 1990].
Tra i compiti sopra elencati ci limiteremo, nel presente lavoro, ad alcuni cenni sul problema della trascrizione delle
intercettazioni per approfondire il tema della identificazione del parlante[Braun 1995].
Riteniamo utile rappresentare che l'elenco delle richieste appena presentato non fa altro che dettagliare quello che la
Corte in generale chiede quando una registrazione sonora è al centro di un dibattito processuale. La Corte infatti chiede:
che venga esclusa ogni possibile manipolazione del segnale; che ne venga trascritto correttamente il contenuto,
mettendo in chiaro eventuali termini gergali o dialettali ed eventuali frasi in lingua diversa dall'italiano; che vengano
identificate le voci dei parlanti; che siano identificati i singoli suoni che via via si ascoltano; ecc. Ciascuno dei
precedenti punti di interesse della Corte richiede un lavoro non semplice, a volte impossibile da svolgere con sufficiente
attendibilità.
Le difficoltà dell'esperto incontra nel rispondere alle richieste della Corte sono nella maggior parte dei casi dovuti alla
scarsa qualità del materiale all'audio reso disponibile. Per lo più le intercettazioni sono relative a comunicazioni tra
telefoni cellulari, che fanno uso di una codifica (GSM) a tasso variabile con caratteristiche di banda passante e dinamica
molto limitate, inferiori nettamente a quelle della telefonia fissa (cosiddetta terrestre). Un'altra importante percentuale di
segnali intercettati, oltre a essere trasmessi con la stessa codifica GSM, provengono da intercettazioni ambientali, dove
l'aleatorietà della distanza tra la sorgente e microfono e la presenza di numerosi rumori di fondo, origina una qualità
ancora inferiore a quella ottenibile nella situazione precedente e spesso tale da non consentire non solo la corretta
identificazione delle voci e dei suoni, ma addirittura la corretta comprensione delle parole dando origine a dispute
giustificate sulla trascrizione del segnale reso disponibile.
Riteniamo che da questa premessa sia possibile comprendere quanto sia arduo il compito di chi voglia rispondere,
almeno in parte, a quelle che sono le esigenze manifestate dai Magistrati.
Cenni sulla trascrizione
Molti operatori della legge ritengono che trascrivere una conversazione sia un'opera di ordinaria amministrazione, che
chiunque abbia un po' di tempo e pazienza può svolgere facilmente; salvo poi stupirsi quando in Tribunale il contenuto
della trascrizione viene contestato, l'ascolto in aula non chiarisce i dubbi sollevati dalle parti e i consulenti chiamati in
soccorso non riescono a risolvere in modo definitivo il problema loro demandato. Perché tanti dubbi di interpretazione?
Non esiste un mezzo sicuro che consenta di provare che il parlante ha pronunciato una determinata parola, ad esempio
sbancato e non una molto simile, come sbiancato o stancato? È vero che le conversazioni ambientali, quelle ottenute
con la cimice, sono più difficile da trascrivere? Si può con un opportuno filtraggio, trasformare un mormorio
incomprensibile una voce chiara di così incerto significato?
Chiunque abbia provato a mettere su carta una lezione universitaria, registrata poggiando sulla cattedra, in bella
evidenza, un registratore cassette, si è reso certamente conto di quanto sia faticoso, spesso impossibile, trasformare il
parlato in un testo chiaro e comprensibile. Anche se la lezione è stata accuratamente preparata nell'esposizione sono
frequenti i cambi d’argomento, i salti di livello sia stilistico sia linguistico; l’esposizione non procede sempre modo
scorrevole, a causa della costruzione spontanea degli enunciati e questo si manifesta in false partenze, pause, esitazioni.
A volte l'oratore fa riferimento ad immagini, ad esempio una formula sulla lavagna, non presenti nella registrazione, per
cui il discorso diventa completamente comprensibile solo utilizzando l’ informazione esterna al segnale. Quando il
contributo informativo esterno al segnale non è disponibile il segnale è destinato a non essere pienamente compreso.
Inoltre la comunicazione verbale è molto rapida e tende a favorire fenomeni di riduzione vocalica e consonantica
rendendo inintelligibili alcune parole. Mancano spesso chiari schemi enunciativi come quelli che caratterizzano la
lingua scritta, sostituiti da costruzioni più libere che richiedono spesso l'applicazione di regole grammaticali diverse da
quelle della grammatica tradizionale. Durante l'esposizione poi si possono verificare rumori di varia natura che possono
mascherare più o meno completamente alcuni tratti di parlato. Quando poi si passa dalla trascrizione di una lezione o di
una conferenza alla trascrizione di un’intercettazione sorgono problemi assai maggiori, problemi che sono diversi, per
vari aspetti, secondo che si tratti di conversazione telefonica o piuttosto di intercettazione ambientale.
Nel caso della conversazione telefonica gli interlocutori comunicano tra loro con il solo ausilio della voce e pertanto
hanno cura di non fare riferimento ad oggetti invisibili, o se necessario fornirne una descrizione, hanno cura di
pronunciare con attenzione nomi e toponimi, a regolare il volume della voce in modo che l’interlocutore (e di
conseguenza il trascrittore) li possa sentire. Nella registrazione ambientale tutto questo non avviene. Il parlante si
rivolge ad una persona presente (e quindi può indicare cose e persone) e parla con il livello necessario a farsi capire dal
suo interlocutore, non certo dal microfono[Paoloni 1996].
2
Una misura di quale sia la probabilità di trascrivere correttamente un segnale rumoroso è data dalla sua intelligibilità
che sarebbe la percentuale di simboli correttamente classificato. Nella figura 1 è stata rappresentata l’intelligibilità in
funzione del rumore: come si può vedere le parole hanno un’intelligibilità del 50% a -6dB mentre le frasi, sempre a 6dB raggiungono un’intelligibilità all’80%
100%
frasi
parole
I
n
t
e
l
l
i
g
i
b
i
l
i
t
à
80
logatomi
60
40
20
0
-12
-6
0
6
12
S/N dB
18
Fig. 1 – intelligibilità in funzione del rapporto Segnale /Rumore
Quando difesa e accusa non concordano nella trascrizione in atti è difficile arrivare ad una soluzione. Organizzare in
aula un ascolto che abbia la pretesa di qualità è a nostro avviso un'impresa disperata per la pessima acustica alle aule di
giustizia per la scarsa qualità degli apparati tecnici disponibili e la difficoltà di ottenere una sufficiente concentrazione
degli astanti.
Far comprendere ai magistrati i limiti intrinseci di una trascrizione, perché riferisca in parte da quella di altri consulenti,
perché dopo tanto tempo non si sia ancora giunti alla stesura definitiva è tutt'altro che semplice. Una possibile soluzione
è quella di predisporre un set di misure oggettive che, analogamente a quanto avviene per le impronte digitali, possa
fornire un indicatore di quando la trascrizione è fattibile e quando non è possibile operare [Paoloni, Zavattaro 2009].
Bisogna anche ricordare agli operatori di giustizia che non è possibile ripristinare informazioni perdute: se il segnale è
ridotto ad un semplice mormorio niente riuscirà a trasformarlo in una voce chiaramente intelligibile.
Identificazione del parlante
Alcuni ancora ricordano il processo Bruneri Canella o dello smemorato di Collegno. La vicenda ebbe inizio il 26 marzo
1926, quando fu arrestato un uomo che tentava di rubare un vaso di bronzo nel cimitero israelitico di Torino. Portato in
questura non seppe dare le proprie generalità e fu inviato al manicomio di Collegno. Il direttore dell’istituto decise di far
divulgare una sua foto dalla stampa e così il 6 febbraio 1927 la foto dello sconosciuto venne pubblicata sulla
popolarissima «Domenica del Corriere». Un certo Renzo Canella, di Verona, credette di riconoscere nello smemorato il
fratello Giulio, professore emerito di Filosofia, scomparso nel corso della Grande Guerra. In seguito al commovente
riconoscimento della moglie Giulia, il professore fu affidato alla famiglia ma la sera del 7 marzo arrivò alla Questura di
Torino una lettera anonima con il seguente messaggio: «State attenti: la persona che si fa passare per il prof. Canella
3
potrebbe essere il pregiudicato Mario Bruneri». Si aprì un caso giudiziario lungo e complesso che, malgrado cinque
processi (5 anni d’indagini, 142 deposizioni, 14 perizie), lascia ancor oggi alcuni interrogativi irrisolti. Non serve
sostenere che ai nostri giorni un simile equivoco sarebbe impossibile, perché anche allora la scienza era in grado di
accertare l’identità fisica di una persona in quanto erano disponibili ben tre serie di impronte digitali del Bruneri da
comparare con le impronte digitali dello smemorato, ma questo non sembrò sufficiente. Ecco cosa dice in un suo libro
sul caso [Vescovi 1942 ] il Presidente della corte di Appello di Firenze a proposito delle impronte:
“dopo i perfezionamenti portati nei metodi di raccolta e di lettura delle impronte digitali, intorno alla importanza
decisiva di questo mezzo di identificazione personale non è possibile avere, ormai, alcun dubbio. E all'esame delle
impronte digitali si fece ricorso anche nel caso Bruneri - Canella. Dal 1920 al 1922 Bruneri era stato tratto in arresto
per ben tre volte, e gli uffici carcerari avevano raccolto ciascuna volta le sue impronte digitali. Senonché quelle del 29
luglio 1920 del 12 gennaio 1922 erano riuscite chiare, mentre quelle del 28 gennaio 1920 erano alquanto confuse e
perciò di incerta lettura.
Il perito giudiziale, trascurate queste ultime, fermò la sua attenzione soltanto sulle impronte del 29 luglio 1920 e del 12
gennaio 1922: dopo averle poste confronto con le impronte digitali dello sconosciuto, dichiarò nel modo più esplicito
che le impronte dello sconosciuto corrispondevano esattamente quelle di Mario Bruneri.
Di opposto avviso furono i periti stragiudiziali. Sollevarono, in primo luogo, il dubbio che raccogliere impronte di
Mario Bruneri nel momento del suo ingresso in carcere non si fosse proceduto con tutte le necessarie cautele; in
secondo luogo giunsero, attraverso una serie di impugnative e di negazioni, alla conclusione che l'esame comparativo
delle impronte digitali di Mario Bruneri e le impronte digitali dello sconosciuto non permetteva di affermare la identità
dei due individui.“
Sistemi di identificazione
La vicenda sopra riassunta mostra come sia difficile, in alcuni particolari casi, procedere ad una identificazione certa
della persona, identificazione che noi operiamo giornalmente quando porgiamo il nostro saluto a conoscenti amici e
colleghi, nonché ovviamente ai nostri familiari. Per identificare una persona noi utilizziamo i nostri sensi, in particolare
la vista, l’ udito e forse anche l’olfatto. Nel limitato ambiente che ci circonda i mezzi di identificazione forniti dai sensi
sono certamente più che sufficienti per operare le necessarie distinzioni. Non ci aspettiamo certo, quando incrociamo un
nostro coinquilino, che possa trattarsi di un suo sosia..
La frequentazione quotidiana permette di utilizzare efficacemente, per riconoscere una persona, sia gli aspetti
fisiologici come il colore degli occhi e la forma del naso, sia gli aspetti comportamentali come il modo di parlare, il
taglio dei capelli e gli abiti indossati. Quando però la persona si allontana, ovvero quando non abbiamo un abituale
frequentazione della stessa, come possiamo identificarla? è ben noto che esistono tre vie per il riconoscimento
individuale: ci si può basare su qualcosa che si possiede ad esempio un sigillo (oggi una chiave, una scheda) , oppure ci
si può basare su qualcosa che si conosce, la parola d'ordine (oggi un pin, una password) o infine ci può basare su
qualcosa che si è, sulla cosiddetta impronta biometrica.
La biometria a sua volta fa uso di due diverse tipologie di parametri caratteristici, quelli strettamente fisiologici, come
l’impronta digitale, l’iride o le dimensioni del palmo della mano, e quelli appresi o comportamentali, come la scrittura,
la voce, il modo di camminare o di dattiloscrivere (vedi Fig. 2)
4
BIOMETRIA
COMPORTAMENTALE
FISIOLOGICA
volto
imrponta
digitale
geometria
mano
iride
firma
DNA
voce
dattilo
grafia
Figura 2 - Tecnologie dei metodi di identificazione
Le caratteristiche biometriche, fisiologiche e comportamentali sono la base per l’identificazione biometrica [Jain 2007],
[CNIPA2005 ]. Le caratteristiche fisiologiche variano poco nel tempo mentre le caratteristiche comportamentali
possono essere difficili da misurare stante l’influenza fatica, stress o stato di salute.
Le tecniche
La prima applicazione consapevole della biometria al fine di identificare una persona avvenne in ambiente giudiziario,
l’identificazione antropometrica fu proposta nell’ ‘800 da Alfonse Bertillon e consisteva nella misura di alcune parti del
corpo umano: altezza, lunghezza e larghezza della testa, lunghezza e larghezza delle orecchie, distanza tra il gomito e
l’estremità del dito medio, lunghezza del medio e dell’anulare, lunghezza del piede sinistro, lunghezza del tronco ed
estensione delle braccia aperte dall’estremità di un dito medio all’altra. La probabilità che una particolare misurazione
fosse esattamente la stessa per due individui diversi erano di 1 su 4. Le probabilità che due persone diverse
condividessero tutte e undici le misure erano pertanto di una su quattro alla undicesima, o una su 4.191.304. Se
corredate di fotografie e precise descrizioni, quelle che Bertillon chiamava “ritratti parlanti”, le misurazioni avrebbero
potuto distinguere una persona da un’altra.
Una caratteristica biometrica molto utilizzata in ambito forense, è il riconoscimento del parlante. L’importanza di
questo identificatore di tipo comportamentale e fisiologico assieme è legata alla grande disponibilità di materiale da
identificare, stante il generale uso del telefono in ambito criminale. Estorsioni, trattative nei sequestri, accordi per la
consegna di droga, tutte queste comunicazioni, quando intercettate, possono dar luogo a dispute sull’attribuzione delle
voci. Tali attribuzioni vengono affidate ad un esperto al fine di identificare il parlante sulla base dei campioni di voce
forniti dagli imputati. L’attendibilità delle attribuzioni effettuate dipende molto dalla qualità del campione reso
disponibile [Campbell2009]. Purtroppo non esiste in questo ambito un preciso limite che imponga di non utilizzare il
materiale sonoro che non superi alcuni limiti di qualità, come invece accade per il numero di minutiae (16) necessarie
perché l’attribuzione di un’impronta digitale sia provata. Gli esperti concordano tuttavia che con una durata del segnale
inferiore a 10s o un rapporto segnale/rumore inferiore a 10 dB1 tali segnali non debbano essere utilizzati nella
attribuzioni peritali[Paoloni 2003].
1
Il decibel è una misura del rapporto tra l’intensità di due segnali, nel presente caso il segnale utile e quello disturbante
(rumore).
5
I più diffusi metodi di identificazione del parlante proposti dalla letteratura scientifica possono essere ricondotti ai
quattro seguenti: i metodi d'ascolto o uditivi; i metodi basati sul confronto dei sonogrammi; i metodi basati sull'analisi
dei parametri acustico-fonetici; i metodi automatici basati su codifiche del segnale vocale.
I metodi di ascolto possono essere ulteriormente suddivisi[Nolan 1997] in un primo criterio basato su un reiterato
ascolto, da parte di un esperto, dei campioni di voce in esame al fine di individuare eventuali elementi di natura
linguistica, fonatoria o acustica comuni alle due voci. Queste ultime possono essere ascoltare sia sequenza sia
alternativamente a discrezione dell'operatore che, sulla base degli elementi recepiti, esprimerà un giudizio sulla
attribuzione o meno ad uno stesso parlatore delle voci ascoltate. Un secondo criterio è quello basato sul confronto delle
voci effettuato da una squadra di ascoltatori, anche non esperti. Il materiale fonico in questo caso è costituito da un
insieme di voci comprendenti la voce da identificare, 1e voci sospette ed eventualmente alcune voci estranee prelevate
da parlatori aventi caratteristiche fonatorie simili a quelle delle voci in esame; si formano così dei veri propri test vocali
costituiti da coppie di frasi ottenute raggruppando due a due, in tutte le possibili combinazioni, le voci dell'insieme.
Ciascun operatore dopo l'ascolto di ogni coppia dovrà esprimere un giudizio di attribuzione o meno delle voci uno
stesso parlante. L'elaborazione statistica dei giudizi espressi degli ascoltatori consente di giungere a conclusioni di tipo
sostanzialmente qualitativo [Anil 2005].
Fig. 3 sonogramma della frase “riconoscimento del parlante”
Un secondo metodo è quello che fa uso di una tecnica un tempo diffusa di identificazione parlante, tecnica che prevede
il confronto tra sonogrammi ovvero tra quei particolari diagrammi tridimensionali (vedi figura 3) che forniscono una
rappresentazione grafica dell'andamento temporale della frequenza e dell'intensità del segnale vocale.
Il tempo è riportato sull'asse delle ascisse, la frequenza su quello delle ordinate mentre le diverse gradazioni di grigio
od un'opportuna scala di colori forniscono la misura del livello energetico il segnale. Questi sonogrammi contengono
sia informazioni di carattere linguistico comuni alle emissioni verbali di tutti i parlanti una data lingua, sia informazioni
sulle caratteristiche acustiche e fono articolatorie individuali di ciascun parlante.
L'analisi spettrografica ha avuto un notevole sviluppo d'impiego in ambito giudiziario a opera soprattutto di Kersta
[Kersta1962] e Tosi [Tosi 1979]i cui nomi, specialmente per le clamorose polemiche sollevate dalle loro perizie per i
tribunali Nord americani, sono divenuti famosi anche al di fuori della ristretta cerchia degli studiosi del campo. Si deve
peraltro osservare che lo spettrografo non è altro che un analizzatore spettrale di segnale, e pertanto per un suo impiego
nel riconoscere il parlatore è necessario definire un'opportuna metodica. L'impiego giudiziario della spettrografo è
6
possibile solo se si può disporre di campioni di voci anonime e saggi di comparazione aventi lo stesso contenuto
linguistico (stessa frase). In questo caso i relativi sonogrammi consentono lo studio delle somiglianze mediante la
comparazione visiva dei tracciati. Viene sfruttata la capacità umana di cogliere somiglianze tra figure anziché tra suoni
[Koening 1993]. Nei riguardi di questo metodo sono comunque da tenere in debita considerazione alcuni punti
importanti: la circostanza che i sonogrammi non sono affatto assimilabili alle impronte digitali, che restano immutabili
per la stessa persona durante il corso della vita. Infatti anche la medesima parola pronunciata dalla stessa persona in
tempi immediatamente successivi non da luogo a rappresentazioni grafiche sovrapponibili (vedi Fig. 4). La circostanza
che il rilevamento e la classificazione degli eventi caratterizzanti il sonogramma sono affidate all'esperienza e alla
capacità critica dell'esperto; la circostanza che alcune prove di confronto hanno evidenziato che,nell'identificazione del
parlatore, il semplice ascolto è comunque superiore al rispetto l'uso dei sonogrammi
.
Fig. 4 sonogramma della parola “piaga”
7
Fig. 5 Risoluzione dell’ International Association for Forensic Phonetics and Acoustics
Un terzo metodo è quello basato sull'analisi acustico fonetica [falcone 1995],[Paoloni 1998]: si tratta di estrarre dai
campioni di voce a confronto particolari caratteristiche acustiche, quali la durata delle occlusive, le formanti delle
vocali, la velocità di articolazione, la frequenza fondamentale, che si ritengano maggiormente rappresentative della
voce l'individuo e meno influenzate dal canale di trasmissione.
Fig. 6 Metodo acustico fonetico IDEM
8
Il metodo parametrico assume come elementi di caratterizzazione della voce alcuni parametri spettrali e temporali che
presentino al contempo piccole variabilità nello stesso individuo (variabilità intra parlante) e variabilità notevole tra
individui diversi (variabilità inter parlanti) [Wolf 1972], [ Federico 1987]. Il metodo può essere descritto in tre diverse
fasi operative: una prima fase riguarda la scelta dei campioni di voce da analizzare. Questa operazione è assai delicata
perché occorre selezionare, tra il materiale fonico disponibile, parole o frasi che oltre a essere effettivamente
rappresentative della popolazione di riferimento, devono anche possedere caratteristiche qualitative (rapporto segnale
rumore, larghezza di banda e durata) tali da consentire l'estrazione corretta delle misure strumentali.
La seconda fase riguarda misura dai suddetti campioni dei parametri spettrali e temporali atti a caratterizzare la voce.
La terza fase infine, la fase di decisione, pone a confronto le misure effettuate al fine di stabilire la identificabilità o
meno dei campioni di voce a confronto[Paoloni 1998].
Il quarto metodo infine è quello cosiddetto automatico [Drygajlo 2003], [Drygajlo 2007]. I parametri utilizzati nel
riconoscimento del parlante sono di due tipologie: quelli acustico- fonetici, correlati con la percezione dell'ascoltatore e
con aspetti fonetici come le frequenze formanti o la durata dei foni; quelli di tipo spettrale originati da una qualche
codifica del segnale audio come i coefficienti LPC e i coefficienti cepstrali che vengono calcolati ad intervalli regolari
utilizzando finestre di ampiezza opportuna. I parametri del primo tipo presentano il vantaggio di poter essere facilmente
valutati dall'esperto, che li può validare o meno e di essere, anche per questo motivo, meno influenzati dal canale di
trasmissione. Lo svantaggio di questi parametri che la loro misura avviene manualmente o, quanto meno in modo
semiautomatico con l’ausilio di un esperto. Al contrario i parametri di tipo spettrale provenienti da una qualche codifica,
sono di facile veloce stima, perché la loro misura può essere completamente automatizzata. Di contro è impossibile
giudicare la validità del dato con una semplice osservazione dei suoi valori. Questi ultimi parametri sono influenzati in
modo sensibile dalle caratteristiche del canale. I metodi automatici fanno uso di questo secondo tipo di parametri.
Si tratta di elaborare un modello statistico dei parametri cepstrali in cui il segnale da riconoscere è stato codificato e
mettere confronto i modelli statistici dei diversi campioni. È evidente che tanto più i modelli statistici sono simili tra
loro, tanto più probabilmente il campione proverrà dalla stessa persona. Principale limite di questi metodi è quello che
abbiamo sottolineato, il fatto che risentono in maniera significativa dell'influenza del canale di trasmissione, inteso in
senso lato, i ovvero sia del rumore dell'ambiente di emissione sia del tipo di codifica alla quale il segnale stato già
sottoposto.
Fig. 7 Metodi automatici – schema a blocchi
9
Problemi di decisione
Non approfondiremo il tema, peraltro molto complesso, della decisione, in quanto viene trattato diffusamente in un
altro contributo, ci limiteremo a poche essenziali osservazioni.
Un punto importante è che nelle applicazioni giudiziarie non è necessario che la decisione venga presa in tempo reale,
ma la colpevolezza dell’imputato deve essere provata “al di là di ogni ragionevole dubbio”. Questa decisione però non
è di competenza dell’esperto, ma della Corte. La letteratura internazionale suggerisce uno schema di decisione di tipo
bayesiano: l'esperto, dopo aver effettuato i suoi calcoli, dovrà fornire un moltiplicatore, il rapporto di verisimiglianza
(LR), con il quale la Corte aumenterà o diminuirà la probabilità di identificazione che ha ritenuto di assegnare
all'imputato prima dell'esame della prova vocale. Il rapporto di verosimiglianza avrà al numeratore la misura della
“similarità” tra la caratteristica dell'imputato e quella della traccia ed al denominatore la “tipicità” ovvero quanto la
caratteristica presa in esame sia rara, al limite unica, all'interno della popolazione di riferimento.
Quando si ha a disposizione un campione voce anonima, dopo averne accertato l'idoneità al confronto, è necessario
rendere disponibili dei campioni tratti dalla voce nota e altri campioni tratti dalla popolazione di riferimento.
Selezionare i campioni da utilizzare comporta delle scelte che influenzano grandemente il risultato e questo comporta
problemi che si sommano quelli pratici di effettuare le misure su segnale spesso di cattiva qualità. La letteratura
criminalistica suggerisce concordemente che il saggio di comparazione venga preso nelle identiche condizioni nelle
quali è stato registrato il campione da attribuire. Purtroppo questa condizione difficile da realizzare a causa delle
variazioni non lineari del canale di trasmissione, della difficoltà di conoscere con esattezza le modalità di registrazione
della voce da attribuire, dello stato emotivo al parlante, certamente diverso in fase di saggio rispetto quando ha
effettuato la telefonata anonima.
Inoltre riprodurre per il saggio le medesime condizione del segnale da identificare può comportare di avere un segnale
con minori informazioni di quanto si potrebbe desiderare ad esempio un saggio registrato in GSM comporta minori
informazioni rispetto a un saggio registrato in PCM. Ci si domanda pertanto sia opportuno utilizzare per il confronto
variare degradato con conseguente maggiore similarità voce anonima ma minor attendibilità di riconoscimento oppure
non sia meglio avere un saggio di prima qualità in grado di fornire il vero valore delle grandezze misurate ad esempio il
valore delle formanti delle vocali cercare di stimare meglio con opportune normalizzazioni le grandezze corrispondenti .
Stesse considerazioni valgono per quanto lo riguarda la popolazione di riferimento necessaria a stimare l'errore di falsa
identificazione,o meglio la “tipicità” delle voci a confronto.. In questo caso sorge un ulteriore problema, in parte
analogo quello relativo alla scelta delle voci nella composizione di un line up: bisogna decidere se la popolazione di
riferimento debba essere un campione dell'intera popolazione dei parlanti oppure un campione di parlanti aventi
caratteristiche simili a quelle della voce anonima: ad esempio stesso ambiente sociale, stesso livello di cultura, stessa
area geografica, stesso sesso, ecc.
Conclusioni
Da quanto precedentemente esposto sul tema dell'identificazione del parlante si evince che non esiste ad oggi un
sistema standard identificazione parlante accettato universalmente come avviene per il DNA o per le impronte digitali.
Esiste tuttavia un accordo generale sulla necessità di proporre risultato delle analisi, analogamente a quanto avviene
per il DNA e per altre perizie tecniche nella forma della LR o rapporto di verisimiglianza ovvero come supporto più o
meno importante all'ipotesi dell'accusa ovvero a all'ipotesi della difesa. E inoltre opportuno segnalare che il metodo
10
sonografico, così come proposto da tosi, è considerato non proponibile a livello internazionale. Ulteriori studi sono
necessari per giungere ad una standardizzazione del riconoscimento della persona attraverso voce.
Bibliografia
Anil A., Dessimoz D., Botti F., and Drygajlo A., 2005 "Aural and Automatic Forensic Speaker Recognition in
Mismatched Conditions", The International Journal of Speech, Language and the Law, vol. 12, Dec., pp. 214-234
Braun A.,1995, Procedures and perspectives in forensic phonetics. ICPhS’95 Proceedings. Stockholm: pp.146-153
Campbell, et al., 2009 “Forensic Speaker Recognition” IEEE Signal Processing Magazine 26 (2): 95-103
CNIPA 2005, settembre 2005, “Linee guida per l’impiego delle tecnologie biometriche nelle pubbliche
amministrazioni:indicazioni operative” Quaderno 17
Costantini Giovanni, Andrea Paoloni, Massimiliano Todisco, 2010 “Objective speech intelligibility measures based on
speech transmission index for forensic applications” Proceedings AEI
Drygajlo, D. Meuwly, A. Alexander, "Statistical Methods and Bayesian Interpretation of Evidence in Forensic
Automatic Speaker Recognition", EUROSPEECH'2003, Geneva, Switzerland, Sept. 2003, pp. 689-692.
Drygajlo, "Forensic Automatic Speaker Recognition", IEEE Signal Processing Magazine, 24 (2): 132-135 (2007).
Falcone M., Paoloni A., De Sario N., 1995, IDEM: a software tool to study vowel formant in speaker identification,
Proceedings of the ICPhS’95, Stockholm vol. 3, pp.294-297
Federico A.., Ibba G., Paoloni A.., 1987, “ A new automated method for reliable Speaker identification and Verification
over Telephone Channels”, Proc. of ICASSP, Dallas pp. 1457-1460
Hollien H., The Acustics of Crime – The New Science of Forensic Phonetics, Plenum Press, New York, 1990.
Jain, A. K., 2007 Sept. 6, "Biometric recognition: Q&A", Nature, Vol. 449, pp. 38-40.
Kersta L.J., Voiceprint Identification, Nature, vol. 196, pp. 1253-1257, 29 Dicembre 1962;
Koenig B. E., 1993, Selected Topics in Forensc Voice Identification, Crime Laboratory Digest, vol. 20, n. 4, pp. 78-81;
Nolan F., 1997, Speaker recognition and forensic phonetics. In: W. Hardcastle and J. Laver (eds), A Handbook of
Phonetic Science. Oxford: Blackwell, pp. 744-767.Koenig B, 1993, "Selected Topics in Forensic Voice Identification",
Crime Laboratory Digest, vol. 20, n. 4, 1993 pp.78-81
Paoloni A., Cerrato L. 1996, Sulla trascrizione delle intercettazioni ambientali, in Rivista Italiana di Acustica, Vol. 20
n.4, p.159-164.
Paoloni A.1997, Il riconoscimento del parlatore, Detective&Crime Magazine / Criminalistica –Le indagini fonetiche;
Paoloni A., Falcone M., Federico A., 1998, The Parametric Approach in Forensic Speaker Recognition, Proceedings of
the COST 250 Workshop on Speaker Recognition by man and machine: directions for forensic applications, Ankara,
Turkey, ed. by Demirekler M., Saranli A., Altinçay H., Paoloni A., pp.45-51
Paoloni A.2003, Note sul riconoscimento del parlante nelle applicazioni forensi con particolare riferimento al metodo
parametrico IDEM, Rivista Italiana di Acustica, Vol. 27 n. 3-4;
Paoloni A., Zavattaro D. 2007, Intercettazioni telefoniche e ambientali. Metodi, limiti e sviluppi nella trascrizione e
verbalizzazione. Centro Scientifico Editore
Tosi Oscar, 1979, Voice Identification. Theory and Legal Applications, University Park Press, Baltimore;
Vescovi Vincenzo, 1942, “Una causa celebre: Bruneri-Canella” Longo&Zappelli Treviso
Wolf J.J. 1972, “Efficient acoustic parameters for speaker recognition” J.A.S.A., Vol. 51, N° 6 , pp.2044-2056
11