Le indagini foniche - Ordine degli Ingegneri di Roma
Transcript
Le indagini foniche - Ordine degli Ingegneri di Roma
"Le indagini foniche" Andrea Paoloni Fondazione Ugo Bordoni Viale del Policlinico 147 – 00164 - ROMA Tel. : +39.06.5480.3351 Fax. : +39.06.5480.4404 e-mail: [email protected] Sommario Uno degli strumenti investigativi oggi più usato è certamente quello delle intercettazioni delle comunicazioni tra persone. L’intercettazione viene disposta sui telefoni utilizzati dalle persone a vario titolo sospettate e anche in alcuni ambienti, tramite le cosiddette cimici, piccoli trasmettitori inseriti nel luogo da sorvegliare. Perché questo materiale sonoro possa essere utilizzato dal magistrato inquirente e dalla Corte è necessario che venga affidato ad un esperto che provveda a trascrivere, in gergo sbobinare, quanto registrato. In particolare serve la trascrizione per sapere cosa è stato detto e l’identificazione degli interlocutori. Questo secondo incarico volto all'identificazione della persona a partire dalla sua voce è complesso sia perché le voci e le persone non rimangono uguali a se stesse ma, in qualche misura, mutano di giorno in giorno, sia perché le varie tecniche di identificazione possono essere in vario modo ingannate. Nell'articolo, dopo una rassegna delle varie competenze che vengono richieste al perito fonico, viene illustrato il tema della trascrizione, per metterne in evidenza la difficoltà e la delicatezza, e successivamente il tema dell’identificazione del parlante per descrivere le diverse tecnologie che sono state proposte e i loro principali limiti. Premessa: i compiti della linguistica forense, le richieste della Corte, i vari tipi di segnali I compiti che un fonetico forense è chiamato a svolgere nell'ambito di un processo penale sono numerosi, tra questi il più frequente è relativo alla trascrizione delle intercettazioni telefoniche o ambientali. Sempre in questo ambito vi è la trascrizione delle cosiddette “disputed utterances” ossia delle frasi di difficile comprensione per le quali vengono proposte dalle parti interpretazioni diverse [Paoloni 2006]. Altro tema molto significativo è quello dell'identificazione del parlante, che comprende, oltre al riconoscimento propriamente detto, anche la preparazione di un confronto all'americana tra più voci e, in assenza di un sospettato, la caratterizzazione del parlante anonimo. Altri compiti spesso richiesti sono il filtraggio del segnale vocale o comunque il miglioramento della qualità di un segnale degradato e la verifica dell’autenticità di un segnale per escludere che sia il risultato di una manipolazione. Infine segnaliamo il tema dell'analisi di un segnale audio per identificare quale sia la sorgente di un rumore o suono che intervenga nel corso di una registrazione. Questo elenco di compiti, alcuni certamente di competenza del linguista, altri più adatti ad un esperto di ingegneria del suono, non rappresentano certamente tutti gli incarichi che possono essere di volta in volta assegnati nell'ambito di questo la tematica [Hollien 1990]. Tra i compiti sopra elencati ci limiteremo, nel presente lavoro, ad alcuni cenni sul problema della trascrizione delle intercettazioni per approfondire il tema della identificazione del parlante[Braun 1995]. Riteniamo utile rappresentare che l'elenco delle richieste appena presentato non fa altro che dettagliare quello che la Corte in generale chiede quando una registrazione sonora è al centro di un dibattito processuale. La Corte infatti chiede: che venga esclusa ogni possibile manipolazione del segnale; che ne venga trascritto correttamente il contenuto, mettendo in chiaro eventuali termini gergali o dialettali ed eventuali frasi in lingua diversa dall'italiano; che vengano identificate le voci dei parlanti; che siano identificati i singoli suoni che via via si ascoltano; ecc. Ciascuno dei precedenti punti di interesse della Corte richiede un lavoro non semplice, a volte impossibile da svolgere con sufficiente attendibilità. Le difficoltà dell'esperto incontra nel rispondere alle richieste della Corte sono nella maggior parte dei casi dovuti alla scarsa qualità del materiale all'audio reso disponibile. Per lo più le intercettazioni sono relative a comunicazioni tra telefoni cellulari, che fanno uso di una codifica (GSM) a tasso variabile con caratteristiche di banda passante e dinamica molto limitate, inferiori nettamente a quelle della telefonia fissa (cosiddetta terrestre). Un'altra importante percentuale di segnali intercettati, oltre a essere trasmessi con la stessa codifica GSM, provengono da intercettazioni ambientali, dove l'aleatorietà della distanza tra la sorgente e microfono e la presenza di numerosi rumori di fondo, origina una qualità ancora inferiore a quella ottenibile nella situazione precedente e spesso tale da non consentire non solo la corretta identificazione delle voci e dei suoni, ma addirittura la corretta comprensione delle parole dando origine a dispute giustificate sulla trascrizione del segnale reso disponibile. Riteniamo che da questa premessa sia possibile comprendere quanto sia arduo il compito di chi voglia rispondere, almeno in parte, a quelle che sono le esigenze manifestate dai Magistrati. Cenni sulla trascrizione Molti operatori della legge ritengono che trascrivere una conversazione sia un'opera di ordinaria amministrazione, che chiunque abbia un po' di tempo e pazienza può svolgere facilmente; salvo poi stupirsi quando in Tribunale il contenuto della trascrizione viene contestato, l'ascolto in aula non chiarisce i dubbi sollevati dalle parti e i consulenti chiamati in soccorso non riescono a risolvere in modo definitivo il problema loro demandato. Perché tanti dubbi di interpretazione? Non esiste un mezzo sicuro che consenta di provare che il parlante ha pronunciato una determinata parola, ad esempio sbancato e non una molto simile, come sbiancato o stancato? È vero che le conversazioni ambientali, quelle ottenute con la cimice, sono più difficile da trascrivere? Si può con un opportuno filtraggio, trasformare un mormorio incomprensibile una voce chiara di così incerto significato? Chiunque abbia provato a mettere su carta una lezione universitaria, registrata poggiando sulla cattedra, in bella evidenza, un registratore cassette, si è reso certamente conto di quanto sia faticoso, spesso impossibile, trasformare il parlato in un testo chiaro e comprensibile. Anche se la lezione è stata accuratamente preparata nell'esposizione sono frequenti i cambi d’argomento, i salti di livello sia stilistico sia linguistico; l’esposizione non procede sempre modo scorrevole, a causa della costruzione spontanea degli enunciati e questo si manifesta in false partenze, pause, esitazioni. A volte l'oratore fa riferimento ad immagini, ad esempio una formula sulla lavagna, non presenti nella registrazione, per cui il discorso diventa completamente comprensibile solo utilizzando l’ informazione esterna al segnale. Quando il contributo informativo esterno al segnale non è disponibile il segnale è destinato a non essere pienamente compreso. Inoltre la comunicazione verbale è molto rapida e tende a favorire fenomeni di riduzione vocalica e consonantica rendendo inintelligibili alcune parole. Mancano spesso chiari schemi enunciativi come quelli che caratterizzano la lingua scritta, sostituiti da costruzioni più libere che richiedono spesso l'applicazione di regole grammaticali diverse da quelle della grammatica tradizionale. Durante l'esposizione poi si possono verificare rumori di varia natura che possono mascherare più o meno completamente alcuni tratti di parlato. Quando poi si passa dalla trascrizione di una lezione o di una conferenza alla trascrizione di un’intercettazione sorgono problemi assai maggiori, problemi che sono diversi, per vari aspetti, secondo che si tratti di conversazione telefonica o piuttosto di intercettazione ambientale. Nel caso della conversazione telefonica gli interlocutori comunicano tra loro con il solo ausilio della voce e pertanto hanno cura di non fare riferimento ad oggetti invisibili, o se necessario fornirne una descrizione, hanno cura di pronunciare con attenzione nomi e toponimi, a regolare il volume della voce in modo che l’interlocutore (e di conseguenza il trascrittore) li possa sentire. Nella registrazione ambientale tutto questo non avviene. Il parlante si rivolge ad una persona presente (e quindi può indicare cose e persone) e parla con il livello necessario a farsi capire dal suo interlocutore, non certo dal microfono[Paoloni 1996]. 2 Una misura di quale sia la probabilità di trascrivere correttamente un segnale rumoroso è data dalla sua intelligibilità che sarebbe la percentuale di simboli correttamente classificato. Nella figura 1 è stata rappresentata l’intelligibilità in funzione del rumore: come si può vedere le parole hanno un’intelligibilità del 50% a -6dB mentre le frasi, sempre a 6dB raggiungono un’intelligibilità all’80% 100% frasi parole I n t e l l i g i b i l i t à 80 logatomi 60 40 20 0 -12 -6 0 6 12 S/N dB 18 Fig. 1 – intelligibilità in funzione del rapporto Segnale /Rumore Quando difesa e accusa non concordano nella trascrizione in atti è difficile arrivare ad una soluzione. Organizzare in aula un ascolto che abbia la pretesa di qualità è a nostro avviso un'impresa disperata per la pessima acustica alle aule di giustizia per la scarsa qualità degli apparati tecnici disponibili e la difficoltà di ottenere una sufficiente concentrazione degli astanti. Far comprendere ai magistrati i limiti intrinseci di una trascrizione, perché riferisca in parte da quella di altri consulenti, perché dopo tanto tempo non si sia ancora giunti alla stesura definitiva è tutt'altro che semplice. Una possibile soluzione è quella di predisporre un set di misure oggettive che, analogamente a quanto avviene per le impronte digitali, possa fornire un indicatore di quando la trascrizione è fattibile e quando non è possibile operare [Paoloni, Zavattaro 2009]. Bisogna anche ricordare agli operatori di giustizia che non è possibile ripristinare informazioni perdute: se il segnale è ridotto ad un semplice mormorio niente riuscirà a trasformarlo in una voce chiaramente intelligibile. Identificazione del parlante Alcuni ancora ricordano il processo Bruneri Canella o dello smemorato di Collegno. La vicenda ebbe inizio il 26 marzo 1926, quando fu arrestato un uomo che tentava di rubare un vaso di bronzo nel cimitero israelitico di Torino. Portato in questura non seppe dare le proprie generalità e fu inviato al manicomio di Collegno. Il direttore dell’istituto decise di far divulgare una sua foto dalla stampa e così il 6 febbraio 1927 la foto dello sconosciuto venne pubblicata sulla popolarissima «Domenica del Corriere». Un certo Renzo Canella, di Verona, credette di riconoscere nello smemorato il fratello Giulio, professore emerito di Filosofia, scomparso nel corso della Grande Guerra. In seguito al commovente riconoscimento della moglie Giulia, il professore fu affidato alla famiglia ma la sera del 7 marzo arrivò alla Questura di Torino una lettera anonima con il seguente messaggio: «State attenti: la persona che si fa passare per il prof. Canella 3 potrebbe essere il pregiudicato Mario Bruneri». Si aprì un caso giudiziario lungo e complesso che, malgrado cinque processi (5 anni d’indagini, 142 deposizioni, 14 perizie), lascia ancor oggi alcuni interrogativi irrisolti. Non serve sostenere che ai nostri giorni un simile equivoco sarebbe impossibile, perché anche allora la scienza era in grado di accertare l’identità fisica di una persona in quanto erano disponibili ben tre serie di impronte digitali del Bruneri da comparare con le impronte digitali dello smemorato, ma questo non sembrò sufficiente. Ecco cosa dice in un suo libro sul caso [Vescovi 1942 ] il Presidente della corte di Appello di Firenze a proposito delle impronte: “dopo i perfezionamenti portati nei metodi di raccolta e di lettura delle impronte digitali, intorno alla importanza decisiva di questo mezzo di identificazione personale non è possibile avere, ormai, alcun dubbio. E all'esame delle impronte digitali si fece ricorso anche nel caso Bruneri - Canella. Dal 1920 al 1922 Bruneri era stato tratto in arresto per ben tre volte, e gli uffici carcerari avevano raccolto ciascuna volta le sue impronte digitali. Senonché quelle del 29 luglio 1920 del 12 gennaio 1922 erano riuscite chiare, mentre quelle del 28 gennaio 1920 erano alquanto confuse e perciò di incerta lettura. Il perito giudiziale, trascurate queste ultime, fermò la sua attenzione soltanto sulle impronte del 29 luglio 1920 e del 12 gennaio 1922: dopo averle poste confronto con le impronte digitali dello sconosciuto, dichiarò nel modo più esplicito che le impronte dello sconosciuto corrispondevano esattamente quelle di Mario Bruneri. Di opposto avviso furono i periti stragiudiziali. Sollevarono, in primo luogo, il dubbio che raccogliere impronte di Mario Bruneri nel momento del suo ingresso in carcere non si fosse proceduto con tutte le necessarie cautele; in secondo luogo giunsero, attraverso una serie di impugnative e di negazioni, alla conclusione che l'esame comparativo delle impronte digitali di Mario Bruneri e le impronte digitali dello sconosciuto non permetteva di affermare la identità dei due individui.“ Sistemi di identificazione La vicenda sopra riassunta mostra come sia difficile, in alcuni particolari casi, procedere ad una identificazione certa della persona, identificazione che noi operiamo giornalmente quando porgiamo il nostro saluto a conoscenti amici e colleghi, nonché ovviamente ai nostri familiari. Per identificare una persona noi utilizziamo i nostri sensi, in particolare la vista, l’ udito e forse anche l’olfatto. Nel limitato ambiente che ci circonda i mezzi di identificazione forniti dai sensi sono certamente più che sufficienti per operare le necessarie distinzioni. Non ci aspettiamo certo, quando incrociamo un nostro coinquilino, che possa trattarsi di un suo sosia.. La frequentazione quotidiana permette di utilizzare efficacemente, per riconoscere una persona, sia gli aspetti fisiologici come il colore degli occhi e la forma del naso, sia gli aspetti comportamentali come il modo di parlare, il taglio dei capelli e gli abiti indossati. Quando però la persona si allontana, ovvero quando non abbiamo un abituale frequentazione della stessa, come possiamo identificarla? è ben noto che esistono tre vie per il riconoscimento individuale: ci si può basare su qualcosa che si possiede ad esempio un sigillo (oggi una chiave, una scheda) , oppure ci si può basare su qualcosa che si conosce, la parola d'ordine (oggi un pin, una password) o infine ci può basare su qualcosa che si è, sulla cosiddetta impronta biometrica. La biometria a sua volta fa uso di due diverse tipologie di parametri caratteristici, quelli strettamente fisiologici, come l’impronta digitale, l’iride o le dimensioni del palmo della mano, e quelli appresi o comportamentali, come la scrittura, la voce, il modo di camminare o di dattiloscrivere (vedi Fig. 2) 4 BIOMETRIA COMPORTAMENTALE FISIOLOGICA volto imrponta digitale geometria mano iride firma DNA voce dattilo grafia Figura 2 - Tecnologie dei metodi di identificazione Le caratteristiche biometriche, fisiologiche e comportamentali sono la base per l’identificazione biometrica [Jain 2007], [CNIPA2005 ]. Le caratteristiche fisiologiche variano poco nel tempo mentre le caratteristiche comportamentali possono essere difficili da misurare stante l’influenza fatica, stress o stato di salute. Le tecniche La prima applicazione consapevole della biometria al fine di identificare una persona avvenne in ambiente giudiziario, l’identificazione antropometrica fu proposta nell’ ‘800 da Alfonse Bertillon e consisteva nella misura di alcune parti del corpo umano: altezza, lunghezza e larghezza della testa, lunghezza e larghezza delle orecchie, distanza tra il gomito e l’estremità del dito medio, lunghezza del medio e dell’anulare, lunghezza del piede sinistro, lunghezza del tronco ed estensione delle braccia aperte dall’estremità di un dito medio all’altra. La probabilità che una particolare misurazione fosse esattamente la stessa per due individui diversi erano di 1 su 4. Le probabilità che due persone diverse condividessero tutte e undici le misure erano pertanto di una su quattro alla undicesima, o una su 4.191.304. Se corredate di fotografie e precise descrizioni, quelle che Bertillon chiamava “ritratti parlanti”, le misurazioni avrebbero potuto distinguere una persona da un’altra. Una caratteristica biometrica molto utilizzata in ambito forense, è il riconoscimento del parlante. L’importanza di questo identificatore di tipo comportamentale e fisiologico assieme è legata alla grande disponibilità di materiale da identificare, stante il generale uso del telefono in ambito criminale. Estorsioni, trattative nei sequestri, accordi per la consegna di droga, tutte queste comunicazioni, quando intercettate, possono dar luogo a dispute sull’attribuzione delle voci. Tali attribuzioni vengono affidate ad un esperto al fine di identificare il parlante sulla base dei campioni di voce forniti dagli imputati. L’attendibilità delle attribuzioni effettuate dipende molto dalla qualità del campione reso disponibile [Campbell2009]. Purtroppo non esiste in questo ambito un preciso limite che imponga di non utilizzare il materiale sonoro che non superi alcuni limiti di qualità, come invece accade per il numero di minutiae (16) necessarie perché l’attribuzione di un’impronta digitale sia provata. Gli esperti concordano tuttavia che con una durata del segnale inferiore a 10s o un rapporto segnale/rumore inferiore a 10 dB1 tali segnali non debbano essere utilizzati nella attribuzioni peritali[Paoloni 2003]. 1 Il decibel è una misura del rapporto tra l’intensità di due segnali, nel presente caso il segnale utile e quello disturbante (rumore). 5 I più diffusi metodi di identificazione del parlante proposti dalla letteratura scientifica possono essere ricondotti ai quattro seguenti: i metodi d'ascolto o uditivi; i metodi basati sul confronto dei sonogrammi; i metodi basati sull'analisi dei parametri acustico-fonetici; i metodi automatici basati su codifiche del segnale vocale. I metodi di ascolto possono essere ulteriormente suddivisi[Nolan 1997] in un primo criterio basato su un reiterato ascolto, da parte di un esperto, dei campioni di voce in esame al fine di individuare eventuali elementi di natura linguistica, fonatoria o acustica comuni alle due voci. Queste ultime possono essere ascoltare sia sequenza sia alternativamente a discrezione dell'operatore che, sulla base degli elementi recepiti, esprimerà un giudizio sulla attribuzione o meno ad uno stesso parlatore delle voci ascoltate. Un secondo criterio è quello basato sul confronto delle voci effettuato da una squadra di ascoltatori, anche non esperti. Il materiale fonico in questo caso è costituito da un insieme di voci comprendenti la voce da identificare, 1e voci sospette ed eventualmente alcune voci estranee prelevate da parlatori aventi caratteristiche fonatorie simili a quelle delle voci in esame; si formano così dei veri propri test vocali costituiti da coppie di frasi ottenute raggruppando due a due, in tutte le possibili combinazioni, le voci dell'insieme. Ciascun operatore dopo l'ascolto di ogni coppia dovrà esprimere un giudizio di attribuzione o meno delle voci uno stesso parlante. L'elaborazione statistica dei giudizi espressi degli ascoltatori consente di giungere a conclusioni di tipo sostanzialmente qualitativo [Anil 2005]. Fig. 3 sonogramma della frase “riconoscimento del parlante” Un secondo metodo è quello che fa uso di una tecnica un tempo diffusa di identificazione parlante, tecnica che prevede il confronto tra sonogrammi ovvero tra quei particolari diagrammi tridimensionali (vedi figura 3) che forniscono una rappresentazione grafica dell'andamento temporale della frequenza e dell'intensità del segnale vocale. Il tempo è riportato sull'asse delle ascisse, la frequenza su quello delle ordinate mentre le diverse gradazioni di grigio od un'opportuna scala di colori forniscono la misura del livello energetico il segnale. Questi sonogrammi contengono sia informazioni di carattere linguistico comuni alle emissioni verbali di tutti i parlanti una data lingua, sia informazioni sulle caratteristiche acustiche e fono articolatorie individuali di ciascun parlante. L'analisi spettrografica ha avuto un notevole sviluppo d'impiego in ambito giudiziario a opera soprattutto di Kersta [Kersta1962] e Tosi [Tosi 1979]i cui nomi, specialmente per le clamorose polemiche sollevate dalle loro perizie per i tribunali Nord americani, sono divenuti famosi anche al di fuori della ristretta cerchia degli studiosi del campo. Si deve peraltro osservare che lo spettrografo non è altro che un analizzatore spettrale di segnale, e pertanto per un suo impiego nel riconoscere il parlatore è necessario definire un'opportuna metodica. L'impiego giudiziario della spettrografo è 6 possibile solo se si può disporre di campioni di voci anonime e saggi di comparazione aventi lo stesso contenuto linguistico (stessa frase). In questo caso i relativi sonogrammi consentono lo studio delle somiglianze mediante la comparazione visiva dei tracciati. Viene sfruttata la capacità umana di cogliere somiglianze tra figure anziché tra suoni [Koening 1993]. Nei riguardi di questo metodo sono comunque da tenere in debita considerazione alcuni punti importanti: la circostanza che i sonogrammi non sono affatto assimilabili alle impronte digitali, che restano immutabili per la stessa persona durante il corso della vita. Infatti anche la medesima parola pronunciata dalla stessa persona in tempi immediatamente successivi non da luogo a rappresentazioni grafiche sovrapponibili (vedi Fig. 4). La circostanza che il rilevamento e la classificazione degli eventi caratterizzanti il sonogramma sono affidate all'esperienza e alla capacità critica dell'esperto; la circostanza che alcune prove di confronto hanno evidenziato che,nell'identificazione del parlatore, il semplice ascolto è comunque superiore al rispetto l'uso dei sonogrammi . Fig. 4 sonogramma della parola “piaga” 7 Fig. 5 Risoluzione dell’ International Association for Forensic Phonetics and Acoustics Un terzo metodo è quello basato sull'analisi acustico fonetica [falcone 1995],[Paoloni 1998]: si tratta di estrarre dai campioni di voce a confronto particolari caratteristiche acustiche, quali la durata delle occlusive, le formanti delle vocali, la velocità di articolazione, la frequenza fondamentale, che si ritengano maggiormente rappresentative della voce l'individuo e meno influenzate dal canale di trasmissione. Fig. 6 Metodo acustico fonetico IDEM 8 Il metodo parametrico assume come elementi di caratterizzazione della voce alcuni parametri spettrali e temporali che presentino al contempo piccole variabilità nello stesso individuo (variabilità intra parlante) e variabilità notevole tra individui diversi (variabilità inter parlanti) [Wolf 1972], [ Federico 1987]. Il metodo può essere descritto in tre diverse fasi operative: una prima fase riguarda la scelta dei campioni di voce da analizzare. Questa operazione è assai delicata perché occorre selezionare, tra il materiale fonico disponibile, parole o frasi che oltre a essere effettivamente rappresentative della popolazione di riferimento, devono anche possedere caratteristiche qualitative (rapporto segnale rumore, larghezza di banda e durata) tali da consentire l'estrazione corretta delle misure strumentali. La seconda fase riguarda misura dai suddetti campioni dei parametri spettrali e temporali atti a caratterizzare la voce. La terza fase infine, la fase di decisione, pone a confronto le misure effettuate al fine di stabilire la identificabilità o meno dei campioni di voce a confronto[Paoloni 1998]. Il quarto metodo infine è quello cosiddetto automatico [Drygajlo 2003], [Drygajlo 2007]. I parametri utilizzati nel riconoscimento del parlante sono di due tipologie: quelli acustico- fonetici, correlati con la percezione dell'ascoltatore e con aspetti fonetici come le frequenze formanti o la durata dei foni; quelli di tipo spettrale originati da una qualche codifica del segnale audio come i coefficienti LPC e i coefficienti cepstrali che vengono calcolati ad intervalli regolari utilizzando finestre di ampiezza opportuna. I parametri del primo tipo presentano il vantaggio di poter essere facilmente valutati dall'esperto, che li può validare o meno e di essere, anche per questo motivo, meno influenzati dal canale di trasmissione. Lo svantaggio di questi parametri che la loro misura avviene manualmente o, quanto meno in modo semiautomatico con l’ausilio di un esperto. Al contrario i parametri di tipo spettrale provenienti da una qualche codifica, sono di facile veloce stima, perché la loro misura può essere completamente automatizzata. Di contro è impossibile giudicare la validità del dato con una semplice osservazione dei suoi valori. Questi ultimi parametri sono influenzati in modo sensibile dalle caratteristiche del canale. I metodi automatici fanno uso di questo secondo tipo di parametri. Si tratta di elaborare un modello statistico dei parametri cepstrali in cui il segnale da riconoscere è stato codificato e mettere confronto i modelli statistici dei diversi campioni. È evidente che tanto più i modelli statistici sono simili tra loro, tanto più probabilmente il campione proverrà dalla stessa persona. Principale limite di questi metodi è quello che abbiamo sottolineato, il fatto che risentono in maniera significativa dell'influenza del canale di trasmissione, inteso in senso lato, i ovvero sia del rumore dell'ambiente di emissione sia del tipo di codifica alla quale il segnale stato già sottoposto. Fig. 7 Metodi automatici – schema a blocchi 9 Problemi di decisione Non approfondiremo il tema, peraltro molto complesso, della decisione, in quanto viene trattato diffusamente in un altro contributo, ci limiteremo a poche essenziali osservazioni. Un punto importante è che nelle applicazioni giudiziarie non è necessario che la decisione venga presa in tempo reale, ma la colpevolezza dell’imputato deve essere provata “al di là di ogni ragionevole dubbio”. Questa decisione però non è di competenza dell’esperto, ma della Corte. La letteratura internazionale suggerisce uno schema di decisione di tipo bayesiano: l'esperto, dopo aver effettuato i suoi calcoli, dovrà fornire un moltiplicatore, il rapporto di verisimiglianza (LR), con il quale la Corte aumenterà o diminuirà la probabilità di identificazione che ha ritenuto di assegnare all'imputato prima dell'esame della prova vocale. Il rapporto di verosimiglianza avrà al numeratore la misura della “similarità” tra la caratteristica dell'imputato e quella della traccia ed al denominatore la “tipicità” ovvero quanto la caratteristica presa in esame sia rara, al limite unica, all'interno della popolazione di riferimento. Quando si ha a disposizione un campione voce anonima, dopo averne accertato l'idoneità al confronto, è necessario rendere disponibili dei campioni tratti dalla voce nota e altri campioni tratti dalla popolazione di riferimento. Selezionare i campioni da utilizzare comporta delle scelte che influenzano grandemente il risultato e questo comporta problemi che si sommano quelli pratici di effettuare le misure su segnale spesso di cattiva qualità. La letteratura criminalistica suggerisce concordemente che il saggio di comparazione venga preso nelle identiche condizioni nelle quali è stato registrato il campione da attribuire. Purtroppo questa condizione difficile da realizzare a causa delle variazioni non lineari del canale di trasmissione, della difficoltà di conoscere con esattezza le modalità di registrazione della voce da attribuire, dello stato emotivo al parlante, certamente diverso in fase di saggio rispetto quando ha effettuato la telefonata anonima. Inoltre riprodurre per il saggio le medesime condizione del segnale da identificare può comportare di avere un segnale con minori informazioni di quanto si potrebbe desiderare ad esempio un saggio registrato in GSM comporta minori informazioni rispetto a un saggio registrato in PCM. Ci si domanda pertanto sia opportuno utilizzare per il confronto variare degradato con conseguente maggiore similarità voce anonima ma minor attendibilità di riconoscimento oppure non sia meglio avere un saggio di prima qualità in grado di fornire il vero valore delle grandezze misurate ad esempio il valore delle formanti delle vocali cercare di stimare meglio con opportune normalizzazioni le grandezze corrispondenti . Stesse considerazioni valgono per quanto lo riguarda la popolazione di riferimento necessaria a stimare l'errore di falsa identificazione,o meglio la “tipicità” delle voci a confronto.. In questo caso sorge un ulteriore problema, in parte analogo quello relativo alla scelta delle voci nella composizione di un line up: bisogna decidere se la popolazione di riferimento debba essere un campione dell'intera popolazione dei parlanti oppure un campione di parlanti aventi caratteristiche simili a quelle della voce anonima: ad esempio stesso ambiente sociale, stesso livello di cultura, stessa area geografica, stesso sesso, ecc. Conclusioni Da quanto precedentemente esposto sul tema dell'identificazione del parlante si evince che non esiste ad oggi un sistema standard identificazione parlante accettato universalmente come avviene per il DNA o per le impronte digitali. Esiste tuttavia un accordo generale sulla necessità di proporre risultato delle analisi, analogamente a quanto avviene per il DNA e per altre perizie tecniche nella forma della LR o rapporto di verisimiglianza ovvero come supporto più o meno importante all'ipotesi dell'accusa ovvero a all'ipotesi della difesa. E inoltre opportuno segnalare che il metodo 10 sonografico, così come proposto da tosi, è considerato non proponibile a livello internazionale. Ulteriori studi sono necessari per giungere ad una standardizzazione del riconoscimento della persona attraverso voce. Bibliografia Anil A., Dessimoz D., Botti F., and Drygajlo A., 2005 "Aural and Automatic Forensic Speaker Recognition in Mismatched Conditions", The International Journal of Speech, Language and the Law, vol. 12, Dec., pp. 214-234 Braun A.,1995, Procedures and perspectives in forensic phonetics. ICPhS’95 Proceedings. Stockholm: pp.146-153 Campbell, et al., 2009 “Forensic Speaker Recognition” IEEE Signal Processing Magazine 26 (2): 95-103 CNIPA 2005, settembre 2005, “Linee guida per l’impiego delle tecnologie biometriche nelle pubbliche amministrazioni:indicazioni operative” Quaderno 17 Costantini Giovanni, Andrea Paoloni, Massimiliano Todisco, 2010 “Objective speech intelligibility measures based on speech transmission index for forensic applications” Proceedings AEI Drygajlo, D. Meuwly, A. Alexander, "Statistical Methods and Bayesian Interpretation of Evidence in Forensic Automatic Speaker Recognition", EUROSPEECH'2003, Geneva, Switzerland, Sept. 2003, pp. 689-692. Drygajlo, "Forensic Automatic Speaker Recognition", IEEE Signal Processing Magazine, 24 (2): 132-135 (2007). Falcone M., Paoloni A., De Sario N., 1995, IDEM: a software tool to study vowel formant in speaker identification, Proceedings of the ICPhS’95, Stockholm vol. 3, pp.294-297 Federico A.., Ibba G., Paoloni A.., 1987, “ A new automated method for reliable Speaker identification and Verification over Telephone Channels”, Proc. of ICASSP, Dallas pp. 1457-1460 Hollien H., The Acustics of Crime – The New Science of Forensic Phonetics, Plenum Press, New York, 1990. Jain, A. K., 2007 Sept. 6, "Biometric recognition: Q&A", Nature, Vol. 449, pp. 38-40. Kersta L.J., Voiceprint Identification, Nature, vol. 196, pp. 1253-1257, 29 Dicembre 1962; Koenig B. E., 1993, Selected Topics in Forensc Voice Identification, Crime Laboratory Digest, vol. 20, n. 4, pp. 78-81; Nolan F., 1997, Speaker recognition and forensic phonetics. In: W. Hardcastle and J. Laver (eds), A Handbook of Phonetic Science. Oxford: Blackwell, pp. 744-767.Koenig B, 1993, "Selected Topics in Forensic Voice Identification", Crime Laboratory Digest, vol. 20, n. 4, 1993 pp.78-81 Paoloni A., Cerrato L. 1996, Sulla trascrizione delle intercettazioni ambientali, in Rivista Italiana di Acustica, Vol. 20 n.4, p.159-164. Paoloni A.1997, Il riconoscimento del parlatore, Detective&Crime Magazine / Criminalistica –Le indagini fonetiche; Paoloni A., Falcone M., Federico A., 1998, The Parametric Approach in Forensic Speaker Recognition, Proceedings of the COST 250 Workshop on Speaker Recognition by man and machine: directions for forensic applications, Ankara, Turkey, ed. by Demirekler M., Saranli A., Altinçay H., Paoloni A., pp.45-51 Paoloni A.2003, Note sul riconoscimento del parlante nelle applicazioni forensi con particolare riferimento al metodo parametrico IDEM, Rivista Italiana di Acustica, Vol. 27 n. 3-4; Paoloni A., Zavattaro D. 2007, Intercettazioni telefoniche e ambientali. Metodi, limiti e sviluppi nella trascrizione e verbalizzazione. Centro Scientifico Editore Tosi Oscar, 1979, Voice Identification. Theory and Legal Applications, University Park Press, Baltimore; Vescovi Vincenzo, 1942, “Una causa celebre: Bruneri-Canella” Longo&Zappelli Treviso Wolf J.J. 1972, “Efficient acoustic parameters for speaker recognition” J.A.S.A., Vol. 51, N° 6 , pp.2044-2056 11