I quaderni di - Fondazione Ugo Bordoni
Transcript
I quaderni di - Fondazione Ugo Bordoni
I quaderni di A cura di Alberto Mucci LE MACCHINE CHE PARLANO I l robot che parla, che risponde alle sollecitazioni della persona, che la sostituisce in molti servizi e in tante incombenze, è un’idea che da sempre avvince e esalta. Un tempo mito, quello della statua parlante, come ci tramanda la storia degli egizi; poi esperimento di volta in volta più concreto. Oggi applicazione che sta prendendo sostanza. Fino a 10 anni fa le macchine in grado di “parlare”, cioè di rispondere automaticamente, erano del tutto sperimentali. Altrettanto si può dire per le macchine che ascoltano, che capiscono e che poi sanno rispondere. Negli ultimi tempi queste macchine stanno entrando nell’uso comune. Diventano uno strumento operativo normale. Gli esempi sono nella vita quotidiana. Per consultare un orario ferroviario posso oggi servirmi di un telefono e comporre un numero verde. La risposta, sulla base delle informazioni via via fornite (città di partenza, città di destinazione, percorso, ecc.) sarà automatica, vocale. La macchina parlerà… E così il telefonino che utilizziamo quotidianamente può essere preparato per “riconoscere” la voce dell’utente. Il robot alternativo a Internet? No. Gli strumenti per comunicare si moltiplicano costantemente lungo la strada della “Grande Mutazione”, come illustriamo in questo “Quaderno” e come documenteremo nel prossimo dedicato in particolare alla elaborazione dei testi. Con una prospettiva a breve: quella di Internet che si sposa con la voce, che la cattura nel Pc e la utilizza per ampliare la sua capillarità, per aggiungere servizio a servizio, in questa società dell’informazione dagli scenari in continua evoluzione. SUPPLEMENTO AL NUMERO DI GIUGNO N. 207 DI MEDIA DUEMILA INDICE IL CALCOLATORE NEGLI STUDI LINGUISTICI SINTESI DELLA VOCE E AGENTI PARLANTI DESKTOP SPEECH RECOGNITION: TECNOLOGIA, APPLICAZIONI E FUTURO UN’APPLICAZIONE IN CAMPO MEDICO: PHONEMA-MED LA CONVERSAZIONE CON IL CALCOLATORE TECNOLOGIE VOCALI PER IL MONDO DEI DISABILI L’E-LEARNING E I CORSI DI ITALIANO PER STRANIERI Il Quaderno è stato realizzato dalla Fondazione Ugo Bordoni (Presidente il Prof. Giordano Bruno Guerri, Direttore Generale il Consigliere Guido Salerno). Coordinatore del Quaderno il prof. Andrea Paoloni. Hanno collaborato: Piero Cosi, CNR; Alessandro Tescari, Gruppo Soluzioni Tecnologiche; Roberto Garigliano, Cirte; Giuseppe Castagneri, Loquendo; Paolo Parlavecchia, E-Biscom. Le facce parlanti. 69 74 79 82 85 90 94 LE MACCHINE CHE PARLANO IL CALCOLATORE NEGLI STUDI LINGUISTICI L a tradizione italiana vuole che la vera aree in cui si divide il TAL, il parlato e lo scritto. cultura, quella con la C maiuscola, sia Questa separazione ha origine soprattutto dalle umanistica. Un laureato in ingegneria diverse aree scientifiche che tradizionalmente o in fisica è un tecnico, poco più che hanno svolto ricerche in questa area: l’acustica un operaio specializzato e non può occuparsi per il segnale di parola e l’informatica per queldei fenomeni culturali. Il progresso tuttavia sta lo che viene denominato Natural Language Processing (NLP). Questa separaziospostando la bilancia in un’altra direne, a parere di molti, può costituire zione e la tecnologia sta assumendo un ostacolo per lo sviluppo del TAL. un ruolo da protagonista. Il termine La divisione tra studi sul parlato e “digital divide” fa riferimento agli ostudi sullo scritto non risponde ad stacoli originati dall’ignoranza nei una reale esigenza, ma trova spiegaconfronti dell’informatica nelle sue zione nel tentativo di due diverse mille applicazioni quotidiane e colcomunità scientifiche di avere più pisce anche, ahimè, molti dotti umaattenzione e più fondi; la comunicanisti. L’impostazione tradizionale rizione in linguaggio naturale integra schia di essere un ostacolo per il siin sé le due componenti con il fine stema paese; è anche in questo l’imultimo di trasmettere un messaggio portanza di una disciplina come quella del Trattamento Automatico Fig. 1. Un articolo e pertanto sarebbe auspicabile una dell’‘86, pubbblicato da del Linguaggio (TAL) che si pone co- Panorama, mostra le a- maggiore integrazione degli studi. me ponte tra due culture e, forse, tra spettative sull’utilizzo del La combinazione dell’elaborazione riconoscimento vocale. del parlato con la tecnologia NLP due diverse visioni del mondo. fornisce un potente strumento per Ma questo aspetto culturale non è il vero obiettivo della ricerca sul TAL: questa di- migliorare i sistemi di interazione uomo comsciplina fornisce nuove possibilità di lavoro per puter e tra gli uomini attraverso il computer. quei laureati delle facoltà umanistiche che sappiano comprendere che l’informatica, in quanLA RICERCA SUL TEMA IN EUROPA to opera su linguaggi artificiali, non è poi così distante dai loro studi sui linguaggi naturali; Negli ultimi anni le tecnologie del TAL sono contribuisce significativamente allo sviluppo passate dalla ricerca di base alle applicazioni dell’industria dell’immateriale, ovvero del nella vita quotidiana, tuttavia per gli standard software e dei servizi, che è destinata ad essere contemporanei in un ambiente dove i cicli di inil primo motore di sviluppo, e in cui l’Italia è si- novazione tecnologica sono misurati in mesi e gnificativamente sotto la media europea e, infi- non più in anni, la crescita delle tecnologie linne, è supporto indispensabile alla promozione guistiche potrebbe sembrare deludente. Ma dell’uso della lingua italiana in Italia e all’estero. l’impressione di una stasi tecnologica è, a nostro Verrà illustrato nel seguito di cosa si occupi avviso errata. La ricerca di base ha circa 50 anni. il TAL è tuttavia opportuno dire che con tale Dopo alcune decadi le ricerche hanno fornito i termine si designano quei programmi applica- primi prodotti negli anni 90 e da allora i progrestivi e quei sistemi che, attraverso l’elaborazio- si compiuti sono stati continui. Per molto tempo ne del segnale vocale o del testo scritto, trag- la complessità del calcolo era superiore alla digono informazioni utili a comprendere le ri- sponibilità degli elaboratori, oggi questa barriechieste dell’utente. Ad esempio un interfaccia ra è caduta e la tecnologia del computer mette a basata sulle tecnologie del TAL è in grado di disposizione una sufficiente capacità elaboraticomprendere il significato di una domanda va. In cambio la tecnologia del TAL fornisce agli formulata verbalmente (Quando parte il pros- elaboratori le interfacce uomo-macchina di cui simo treno Roma Foggia?) e provvedere a for- abbisognano per aumentare la loro penetrazionire una risposta, sempre verbalmente (il pros- ne nella società. Particolarmente significativo è simo treno Roma Foggia parte da Roma Termi- il ruolo del TAL nell’ambito della realtà europea, ni alle ore… e arriva a Foggia alle ore…) op- caratterizzata dalla presenza di 11 lingue ufficiali pure di tradurre un testo in una altra lingua. destinate a divenire presto 20 con il previsto inNegli esempi ora proposti abbiamo esempli- gresso delle nazioni dell’est. Inoltre vi sono altre ficato due applicazioni relative alle due grandi lingue ufficiali quali il Basco o il Catalano e le - 69 - I QUADERNI DI TELÈMA profondità delle ricerche, ampiezza delle competenze linguistiche. Dalla tabella emerge che le nazioni con il migliore ambiente industriale e le migliori infrastrutture sono quelle che godono di migliori risultati. Le nazioni leader sono la Gran Bretagna, la Germania, seguono Francia Belgio e Spagna mentre l’Italia è posizionata molto al disotto della media europea. lingue degli immigrati come l’Urdu in Gran Bretagna, l’arabo magrebino in Francia il Turco in Germania e l’Albanese in Italia. La possibilità di usare ciascuna di queste lingue nella vita quotidiana è una crescente esigenza nelle attività lavorative e di svago nella civiltà europea. Questo riflette l’ambizione di un Europa che vuole integrarsi rispettando al meglio le singole individualità; perché ciascun cittadino possa partecipare liberamente all’offerta culturale è necessario un supporto alle diversità linguistiche così che a ciascuno sia consentito di esprimersi nella propria lingua, che riflette la propria cultura. I prodotti e servizi devono essere disponibili in tutte le lingue dell’unione. La sfida di produrre software per il Tal in tutte le numerose lingue europee dà ai ricercatori e all’industria europea della lingua un vantaggio indubbio. Benché il TAL, in termini di mercato rivesta un importanza limitata, il suo impatto in termini di accessibilità, innovazione e integrazione è molto significativo e altrettanto significativo il suo ruolo nello sviluppo delle tecnologie informatiche in europa (eEurope). Quanto alla posizione italiana, in confronto alle altre realtà d’europa, purtroppo essa si allinea con la scarsa presenza nell’industria informatica della quale abbiamo già parlato. Il grafico di Tabella 1 riporta le analisi delle opportunità di ricerca nel TAL che include, come detto, le ricerche relative al parlato (speech) e al testo (NPL). Con il termine opportunità si fa riferimento ad un indice che contiene gli investimenti pubblici e privati, ampiezza e IL TRATTAMENTO AUTOMATICO DEL LINGUAGGIO PARLATO Con il termine “Trattamento Automatico del Linguaggio” che indicheremo nel seguito con l’acronimo TAL, si vogliono indicare un insieme di applicazioni o moduli, per lo più software, ma anche costituiti da appositi circuiti hardware, che elaborano il linguaggio umano. Il TAL comprende due grandi aree applicative e di ricerca, lo “speech processing” o elaborazione del parlato e il “Natural Language Processing” (NLP) o elaborazione del testo. La prima area è volta a riprodurre la capacità umana di comunicare attraverso la parola e comprende la codifica del segnale vocale, in genere volta a ridurre la quantità di informazione da trasmettere o memorizzare, la sintesi da testo, ovvero la realizzazione della macchina in grado di leggere un testo qualsiasi, il riconoscimento del parlato, ovvero la macchina in grado di scrivere, e infine il riconoscimento del parlante. La seconda area (NPL) tende a riprodurre la capacità umana di comprendere il linguaggio, sia parlato sia TAL 7 OPPORTUNITÀ 6 5 4 3 2 1 Tabella 1 - 70 - MEDIA EU REGNO UNITO SVEZIA SPAGNA PORTOGALLO PAESI BASSI ITALIA IRLANDA GRECIA GERMANIA FRANCIA FINLANDIA DANIMARCA BELGIO AUSTRIA 0 LE MACCHINE CHE PARLANO scritto e, dal punto di vista dei moduli algoritmici utilizzati, prevede analizzatori sintattici e semantici, modelli di rappresentazione del mondo basati su dizionari o enciclopedie, mentre dal punto di vista delle applicazioni, citeremo la traduzione automatica, che riveste importanza particolare nell’Europa dalle molte lingue, la produzione di sommari e le tecniche di annotazione che sono il punto di partenza per il reperimento dell’informazione in un mondo, quale quello attuale dove le informazioni disponibili crescono a ritmo esponenziale. Il presente quaderno è dedicato al primo dei due temi del TAL ovvero all’elaborazione del parlato, in quanto l’elaborazione del linguaggio naturale sarà oggetto di un altro ulteriore quaderno di Telèma. LE TECNOLOGIE Riprendiamo ora il tema dell’elaborazione del parlato esaminando singolarmente le tecnologie in cui si divide. Possiamo dapprima suddividere l’area in due grandi temi ovvero la generazione della voce, sintesi e/o codifica e la percezione del parlato, riconoscimento del parlato e/o del parlante. Sintesi. La generazione della voce ha una storia molto antica: si narra di statue parlanti presso i Caldei, nel VII secolo A.C., tuttavia si può parlare di sistemi effettivamente in grado di generare il parlato solo dopo l’introduzione dei calcolatori numerici. Gli obiettivi della parametrizzazione del segnale vocale sono due: il più importante dal punto di vista applicativo e commerciale è la codifica del segnale, con l’obiettivo di ridurre la occupazione di banda di una singola comunicazione vocale, il più interessante dal punto di vista scientifico è la generazione della voce a partire dal concetto da esprimere o, almeno, da un testo scritto, l’obiettivo insomma è una macchina in grado di leggere. Codifica. La codifica del segnale vocale parte dalla constatazione che la banda acustica percepita dall’orecchio umano ha una dimensione di circa 700.000 bit/s e, limitatamente al segnale vocale, di circa 128.000 bit/s, mentre il contenuto informativo di un massaggio scritto (supponendo una lettura al ritmo di una parola al secondo) è di circa 10 bit/s; dal confronto risulta evidente che le informazioni accessorie, legate alla particolare voce del parlante, all’ambiente acustico, etc. occupano una banda molto significativa ed è pertanto ragione- vole cercare strade che consentano di ridurre le “ridondanza” del segnale trasmesso. A tal fine vengono progettati codificatori che possono essere caraterizzati sulla base di quattro parametri: la velocità di cifra (bit-rate), la complessità, il ritardo e la qualità. Col termine velocità di cifra ci si riferisce alla larghezza di banda occupata dal segnale, con il termine complessità si fa riferimento agli algoritmi che dovranno essere implementati, con il termine ritardo, il ritardo provocato dalla codifica che deve essere minimo per non creare problemi nella comunicazione (echi) e con il termine qualità, infine, si fa riferimento ad un insieme di caratteristiche legate al gradimento del segnale codificato. Vari sono i percorsi che vengono seguiti per codificare il segnale vocale, uno si basa sulle caratteristiche statistiche del segnale e cerca di adattare la codifica a queste ultime. Ad esempio può essere inviata, in luogo del valore di un campione, la differenza tra tale valore dal valore del campione precedente. Un’altra via è basata sulle caratteristiche percettive del nostro orecchio e l’obiettivo è trasmettere solo ciò che può essere percepito. Una metodica applicativa di questo approccio consiste nel suddividere la banda acustica in un certo numero di sottobande, per ciascuna delle quali è utilizzata la codifica minima accettata dal nostro orecchio. Infine un’ulteriore via per migliorare la codifica è quella denominata “quantizzazione vettoriale”, che consiste nel codificare simultaneamente un “vettore” di coefficienti. In pratica ciascuna comparazione o misura di campioni viene trasmessa come “nome” di un vetore di un appostito insieme di vettori (codebook) che lo rappresenta. Con le tecniche di codifica sopra descritte sono stati realizzati vari sistemi, la cui diffusione è molto grande: si pensi che gli attuali telefoni cellulari fanno uso delle sopraddette tecniche e trasmettono ad una velocità di cifra compresa tra 13 e 6 Kb/s. Riconoscimento. Il riconoscimento del parlato consiste, in senso stretto, nel convertire il parlato in un testo scritto. Ciò richiede la sua conversione in unità, come i fonemi o le parole, e l’interpretazione di tale sequenza per poter correggere le unità riconosciute in modo errato o, nel caso sia necessario, comprendere il parlato per effettuarne la interpretazione. Le ricerche sul riconoscimento del parlato iniziarono negli anni ‘50, quando nei labora- - 71 - I QUADERNI DI TELÈMA tori della Bell fu costruito un sistema per riconoscere i numeri pronunciati da un determinato parlatore. Il sistema funzionava misurando le risonanze dello spettro durante i tratti vocalici di ciascun numero. Negli anni ‘60 molte idee fondamentali per il riconoscimento del parlato vennero pubblicate ed entrarono nella competizione numerosi laboratori giapponesi. Uno dei primi prodotti, provenienti dal Giappone, fu un hardware per riconoscere i numeri che utilizzava un eleborato banco di filtri. I PROGETTI DI RICERCA Tra i progetti di ricerca di maggior rilievo ricordiamo quello sviluppato presso l’RCA, volto a risolvere il problema della non uniformità della durata temporale degli eventi del parlato. Il progettista sviluppò una serie di metodi di normalizzazione basati sulla corretta identificazione dell’inizio e fine del tratto sonoro. All’incirca nello stesso periodo, in Unione Sovietica Vintsyuk propose l’uso della programmazione dinamica per allineare tra loro le coppie di fonemi. Infine, le ricerche di Reddy, portarono, nel ‘73, alla realizzazione del primo sistema dimostrativo sul riconoscimento del parlato continuo presso la Carnegie Mellon University. Si tratta del famoso HEARSAY I che utilizzava informazioni semantiche per ridurre il numero di alternative che il riconoscitore doveva analizzare. Nel sistema per il gioco degli scacchi realizzato con HEARSAY I, il numero di frasi alternative che potevano essere dette in un dato punto, era limitato dalle possibili mosse. Appare fondamentale per il funzionamento dei sistemi di riconoscimento del parlato utilizzare la sintassi, la semantica e la conoscenza del contesto per ridurre il numero delle alternative possibili. Negli anni ‘70 la ricerca raggiunse i primi importanti risultati nel riconoscimento delle parole isolate, utilizzando la tecnica del pattern recognition e della programmazione di- Tecnologia per il riconoscimento del parlato/parlante conversazione naturale parlato spontaneo dialogo tra due word spotting STILI DI PARLATO parlato fluente trascrizione controllo di sistema stringhe di numeri Parlato letto chiamato con agenti compilazione modulo parole connesse dettatura verifica del parlato elenco abbonati comandi vocali parole isolate 2 20 200 2000 20000 Dimensione (numero di parole) Complessità delle applicazioni del riconoscimento del parlato in funzione dello stile e del vocabolario - 72 - illimitato LE MACCHINE CHE PARLANO namica. Un’altra ricerca avviata negli anni ’70, da parte dell’IBM, fu quella sui grandi vocabolari che portartò alla realizzazione del sistema chiamato TANGORA. Negli stessi anni presso i laboratori Bell si sperimentarono sistemi completamente indipendenti dal parlante per applicazioni in telefonia. Mentre il riconoscimento per parole isolate fu l’obiettivo degli anni ‘60, negli anni ‘70 l’obiettivo divenne il riconoscimento delle parole connesse. Era necessario creare un sistema robusto capace di riconoscere una serie di parole pronunciate in maniera fluente. A questo fine furono formulati numerosi algoritmi tra i quali la programmazione dinamica a due livelli, sviluppata presso la NEC in Giappone, il metodo “one pass” sviluppato in Inghilterra e gli algoritmi sviluppati presso i Bell Laboratories da Rabiner. Il tema che ha caratterizzato gli anni ‘80 è stato il passaggio dalle tecnologie basate sul confronto di maschere ai modelli statistici, in particolare il modello denominato “Hidden Markov Model”, utilizzato nei laboratori dell’IBM. Tra i sistemi basati sugli HMM citeremo lo SPHINX, della Carnegie Mellon, e BIBLOS, della BBN. Nella figura di pagina 72 si vedono le varie applicazioni delle tecnologie del riconoscimento del parlato in funzione delle dimensioni del vocabolario e del modo di parlare. Il livello di difficoltà aumenta all’aumentare della velocità del parlato e della dimensione del vocabolario. Non riteniamo opportuno descrivere in dettaglio quali siano gli algoritmi utilizzati per il riconoscimento del parlato, tuttavia vorremmo far comprendere che l’informazione acustica, da sola, non è sufficiente a permettere la trascrizione di un testo, ma è necessaria una qualche forma di comprensione. Questa comprensione deve essere portata avanti da un componente linguistico che segue il componente acustico nel sistema di riconoscimento. Le due differenti aree applicative dei sistemi di riconoscimento del parlato attualmente esistenti sul mercato, si distinguono per il diverso componente linguistico. Il modulo usato per la dettatura dei testi prevede l’uso di un vocabolario molto grande e cerca di migliorare il contributo del modulo acustico, quello che trasforma il segnale in ipotesi fonemi, utilizzando particolari interfacce che riducano il rumore e addestrando il modulo acustico con la particolare voce di colui che detterà i testi. I sistemi per la telefonia, che vengono usati in rete e quindi non possono utilizzare particolari accortezze nel ridurre il rumore e per addestrare il sistema, hanno il vantaggio di operare su un vocabolario molto più limitato, come più limitato è il numero di frasi accettabili. Il modulo linguistico è pertanto affiancato da un modulo di gestione del dialogo che per ogni momento del colloquio propone un numero limitato di frasi da riconoscere. Una più completa descrizione delle caratteristiche di queste due tipologie di riconoscitore è proposta in due diversi articoli di questo quaderno. Identificazione e verifica del chiamante. Nell’ambito del riconoscimento vocale o meglio nell’ambito delle macchine che ascoltano e comprendono viene molto spesso catalogato il processo dell’identificazione del chiamante a partire dalla sua voce. Tradizionalmente questa tecnologia viene classificata in due diverse aree applicative: la verifica dell’identità, quando l’utente si identifica e il sistema deve confermare o meno la identità dichiarata, e il riconoscimento, quando la voce non dichiara la sua identità e pertanto si tratta di attribuirla ad un parlatore all’interno di un insieme di canali dati. In quest’ultimo caso la difficoltà del compito cresce all’aumentare della dimensione dell’insieme e per insiemi aperti si ritorna alle condizioni di verifiche ripetute. Le applicazioni di questa tecnica sono, per la prima, i sistemi biometrici di identificazione della persona, per la seconda il riconoscimento a scopo identificativo o forense. PROSPETTIVE FUTURE Per ovvie ragioni, la ricerca sul Tal è storicamente evoluta per ciascuna nazione nella propria lingua. Queste tecnologie non possono essere semplicemente acquistate, come un computer o un’automobile, ma richiedono una attenta opera di progettazione per “funzionare” in una determinata lingua. Tuttavia è sempre più comune trovare sistemi multilingua nei maggiori laboratori e centri di ricerca in quanto si va verso uno sviluppo sempre più globale e le conoscenze linguistiche migrano, insieme ai parlanti, nell’intera europa. La ricerca diviene sempre più integrata e le conoscenze linguistiche migliorano mentre cresce il numero di dati vocali disponibili (basi di dati vocali e lessici). La ricerca nell’area richiede un importante supporto pubblico come è avvenuto in Europa grazie ai finanziamenti CEE. È importante che questo supporto prosegua in quanto le sole forze del mercato non possono produrre da sole il necessario sforzo finanziario. Queste considerazioni valgono in particolare per l’Italia, dove è indispensabile superare l’at- - 73 - I QUADERNI DI TELÈMA condo i programmi del governo, dovrà disporre di un sistema di interazione efficiente basato sulla comunicazione vocale. A nostro avviso l’Italia, seguendo l’esempio di altre nazioni, si dovrebbe dotare di strutture dedicate a promuovere la ricerca e lo sviluppo questa tecnologia. La costituzione, presso il Ministero delle Comunicazioni, di un “forum permanente sul TAL” costituirebbe, a nostro avviso, un passo fondamentale nella giusta direzione. tuale ritardo in questa area tecnologica. Obiettivo principale è rendere disponibili le competenze e i moduli di analisi, ad esempio le interfacce vocali, i motori di ricerca, le tecnologie della conoscenza, per ogni lingua europea nella convinzione che il motore commerciale prodotto dal TAL sia essenziale nello sviluppo delle tecnologie dell’informatica e della comunicazione. La riduzione del divario prodotto dal “digital divide” passa anche dalla facilità di colloquio con i sistemi elettronici che la tecnologia attuale rende disponibili. In particolare la televisione digitale interattiva, che sarà pronta nel 2006 se- Ing. Andrea Paoloni Fondazione Ugo Bordoni SINTESI DELLA VOCE E AGENTI PARLANTI C hi non ricorda la voce di HAL 9000, il computer di bordo della navicella spaziale Discovery, “protagonista” del famoso film di Stanley Kubrik “2001 Odissea nello Spazio”. Era il 1968 e, a distanza di 35 anni, si può forse dire che le previsioni contenute in un film di fantascienza, almeno per quanto riguarda la qualità della voce di un sintetizzatore vocale,si sono avverate. La qualità dei migliori sintetizzatori vocali da testo scritto (spiegare) (TTS, Text to Speech Synthesis) attualmente disponibili non solo sul mercato ma anche nei laboratori di ricerca più avanzati, è sicuramente paragonabile a quella di HAL. Si deve ricordare però che non tutti i problemi sono stati risolti. Confrontando, infatti, la capacità emotivo/espressiva di un attuale sintetizzatore vocale con quella di HAL ci si rende immediatamente conto del gap ancora non risolto e che ancora qualche anno dovrà passare prima di poter ottenere una sintesi affidabile anche da questo punto di vista. Possiamo però senz’altro dire che la qualità della sintesi della voce ha assunto un livello tale da poter ormai essere utilizzata in moltissime applicazioni. La lettura di messaggi, memorizzati in sistemi di posta vocale, e-mail e fax all’interno di una mail box unificata, accessibile attraverso standard e-mail-clients, tramite web o telefono, la lettura di pagine web, gli avvisi di particolari emergenze, i servizi clienti delle aziende telefoniche ad esempio per l’inoltro delle chiamate, la consultazione interattiva ed amichevole di fonti di informazione elettroniche, gli ausili di lettura per i portatori di disabilità visive e molti altri ancora sono solo alcuni dei possibili esempi di applicazione attualmente sperimentati con successo. Bisogna inoltre ricordare che parlando di sistemi di sintesi o TTS. negli ultimi anni, non si considerano soltanto quei sistemi in grado di sintetizzare file audio, ma anche video, come ad esempio nella realizzazione delle cosiddette “Talking Heads” o agenti parlanti, sistemi in grado di simulare virtualmente una persona umana che parla. UN PO’ DI STORIA Gli studi passati hanno portato alla conoscenza fondamentale della dinamica alla base della generazione della voce umana. Quando parliamo, un suono base, prodotto dal flusso d’aria generato dai polmoni e passante attraverso le corde vocali, viene modulato dalla cavità orale, dal naso e dalla bocca ed è la posizione delle diverse parti della lingua e la posizione delle labbra che sono responsabili dei diversi suoni componenti il segnale verbale, ed è questo meccanismo complesso che si deve essere imitato per realizzare sistemi di sintesi vocale. Possiamo senz’altro affermare che la storia di questa tecnologia ha inizio nel 1939 presso i Bell Laboratories dove venne presentato per la prima volta il VODER (Voice Operating DEmonstratoR), VODER era una sorta di strumento musicale dove una barra vibrante generava le frequenze fondamentali, variabili attraverso un meccanismo a pedale ed il suono prodotto veniva modulato utilizzando dei filtri acustici, controllati con le mani. La qualità della voce era ovviamente molto scadente ma un simile meccanismo era la prova della realizzabilità di una voce sintetica. A metà del ventesimo secolo negli Stati Uniti nei laboratori - 74 - LE MACCHINE CHE PARLANO Haskins è stato poi presentato il Pattern Playback, uno strumento ottico/elettronico capace di sintetizzare suoni vocali a partire da una loro rappresentazione acustica. Vi sono anche esempi di sintesi vocale sin dall’antichità. Ad esempio, nel 1779, a San Pietroburgo, il professore russo Kratzenstein costruì dei risuonatori acustici capaci di produrre i suoni delle cinque vocali. Tornando a tempi più recenti, la vera svolta nel campo della sintesi vocale fu l’arrivo della tecnologia digitale che, associata agli enormi progressi nello studio del meccanismo di produzione della voce, rese possibile intorno agli anni settanta, la realizzazione dei primi sistemi per la sintesi della voce da testo scritto. della elevata complessità indispensabile per ottenere buoni risultati in termini di naturalezza. I SISTEMI DI SINTESI VOCALI 3) Sintesi per formanti Esistono molte strategie, fra loro differenti, per sintetizzare il parlato, ma in termini generali si possono dividere essenzialmente in due grandi categorie denominate system-models e signal-models. Anche se si basa su una elaborazione del segnale che viene prodotto dall’apparato fono-articolatorio, la sintesi per formanti, in realtà non ignora del tutto il meccanismo di fonazione umana. Infatti si basa sulla teoria sorgente-filtro della fonazione, assai ben descritto ad esempio da Gunnar Fant nel suo famoso libro “Speech Sounds and Features” (1973, MIT Press). La sintesi per formanti utilizza, infatti, un modello del condotto vocale realizzato mediante un filtro composto da un numero limitato di risonanze (con 4 si riesce ad esempio ottenere una voce di buona qualità), con frequenza, ampiezza, e banda di risonanza variabili. Modelli più elaborati utilizzano ulteriori risonanze e antirisonanze per i suoni nasali, con associato anche del rumore ad alta frequenza utile ad esempio nella simulazione delle consonanti fricative e occlusive. Il segnale d’ingresso è sempre generato tramite un modello più o meno approssimato delle corde vocali. Una sorgente molto stilizzata ma funzionante consiste in un treno di impulsi per i tratti di voce vocalizzati o in un rumore bianco per le parti non vocalizzate (si veda Figura 3). Questo modello utilizza delle notevoli semplificazioni rispetto alla realtà. Ad esempio il presupposto che la sorgente di eccitazione sia completamente indipendente dal filtro è assolutamente improbabile. 1) Modello del Sistema di Produzione (system-model) (sintesi articolatoria) Il segnale acustico è il risultato della modellizzazione e simulazione del meccanismo fisico di produzione del suono. Questo approccio è anche conosciuto come sintesi articolatoria. La sintesi articolatoria si prefigge di generare il segnale vocale mediante una corretta modellizzazione dell’apparato orale umano. Questo metodo di sintesi utilizza in pratica dei modelli computazionali biomeccanici per la riproduzione del parlato simulando il comportamento degli articolatori interessati nella fonazione e le corde vocali. I modelli degli articolatori sono guidati nel tempo in modo da riprodurre le configurazioni caratteristiche di ogni fonema utilizzando delle regole che riflettono i vincoli dinamici imposti dalle articolazioni. Per generare il segnale vocale, la forma del condotto orale, definita dalla posizione degli articolatori, viene convertita in una funzione di trasferimento, che utilizza come ingresso un segnale di eccitazione generato tramite un modello delle corde vocali. Il problema è quindi ricondotto alla determinazione dei punti di articolazione caratteristici di ogni fonema e delle transizioni tra fonemi. Per determinarli sono spesso utilizzati dati presi da radiografie o risonanze magnetiche dinamiche. Nonostante il suo notevole valore scientifico questo tipo di sintesi non ha ricevuto grande attenzione, a causa della scarsa competitività in termini di qualità con altri sistemi di sintesi e 2) Modello del Segnale (signal-model) Con tale approccio si vuole rappresentare il suono che arriva al nostro apparato uditivo, senza fare un esplicito riferimento al meccanismo articolatorio che genera il suono stesso, ma esclusivamente al meccanismo fisico/acustico responsabile della produzione della voce intesa come onda sonora di pressione. In questo approccio sono rappresentati a loro volta i metodi di sintesi per formanti e di sintesi per concatenazione. generatore treno di impulsi vocalizzato/ non-vocalizzato e(n) generatore rumore bianco x filtro digitale s(n) tempo-variante G parametri tratto vocale Figura 3. Modello di sintesi filtro-sorgente. - 75 - I QUADERNI DI TELÈMA Con questo metodo, al fine di sintetizzare una frase, per ogni fonema e per ogni sua transizione, bisogna determinare i parametri di controllo dei filtri e della sorgente di eccitazione variabili nel tempo. Questo tipo di sintesi genera un parlato altamente intelleggibile ma non completamente naturale; presenta, comunque, il vantaggio di una bassa richiesta di risorse di memoria edi calcolo. 4) sintesi per concatenazione Questo tipo di sintesi unisce, modificandoli con appropriati algoritmi, piccoli frammenti (unità elementari) di segnale vocale, al fine di sintetizzare un intera frase. Questi metodi evitano le difficoltà di simulare l’atto di fonazione umana mediante specifici modelli, tuttavia introducono atri problemi, quali ad esempio la difficoltà di concatenazione omogenea delle unità acustiche registrate in diversi contesti e la modifica della prosodia intesa come variazione di intonazione e durata. A tal fine vengono utilizzate specifiche tecniche di elaborazione del segnale (signal processing): fra le più comuni ricordiamo quelle denominate Predizione Lineare e PSOLA, la prima basata sulla teoria del modello sorgente-filtro precedentemente introdotta, la seconda esclusivamente su tecniche di elaborazione del segnale, al di fuori quindi di un modello del fenomeno di produzione della voce. Per questa modalità di sintesi possiamo fare un’ulteriore suddivisione delle strategie in base alle unità fondamentali utilizzate per la concatenazione. Si possono infatti distinguere la sintesi per difoni (generalmente definiti come la por- zione del segnale vocale che và da metà di un fonema alla metà del fonema1 successivo), trifoni, metà-sillabe, ecc. fino ad arrivare all’estensione di unità variabili utilizzate nei sistemi di sintesi più recenti che utilizzano algoritmi denominati “Automatic Unit Selection”.Questo tipo di sintesi concatena le unità selezionate da un database vocale e, dopo una decodifica opzionale, invia in uscita il segnale vocale risultante. Poiché i sistemi di questo tipo usano frammenti di un discorso registrato risultano più naturali. SISTEMI DI SINTESI PER CONCATENAZIONE Questi sistemi consentono di ottenere una sintesi da testo di assoluta generalità, combinando frammenti di voce molto piccoli. Le unità elementari sicuramente più utilizzate sono i difoni, precedentemente introdotti. Per consentire la sintesi, sono necessari i difoni corrispondenti a tutte le coppie di fonemi di una determinata lingua. Generalmente i sistemi di questo tipo utilizzano poco più di un migliaio di difoni, ricavati da parole, in genere sequenze di sillabe senza significato, registrate da un parlatore umano con intonazione monotona. Queste unità vengono poi concatenate per formare le frasi desiderate su cui agiscono sofisticati algoritmi in grado di variarne la durata e la frequenza fondamentale in modo da ottenere i valori più adatti al testo. 1 Con il termine fonema si intende il più piccolo suono che compone la parola come ad esempio una vocale /a/ o una consonante /s/. Figura 4. Architettura generale di un sistema di sintesi da testo scritto per concatenazione di difoni. - 76 - LE MACCHINE CHE PARLANO Un diagramma a blocchi di un tipico sistema di sintesi per concatenazione, che, nella sua parte di analisi testuale può considerarsi comune a tutti gli altri metodi, è illustrato in Figura 4. Il primo blocco (Moduli Linguistici), comune essenzialmente a tutte le tipologie dei sistemi di sintesi, è il modulo di analisi che acquisisce il messaggio testuale in ASCII e lo converte in una serie di simboli fonetici e targets metrici (frequenza fondamentale, durata, ampiezza). Tale modulo consiste di una serie di ‘sotto-moduli’ con funzioni distinte, ma in molti casi collegate: il testo di input è prima analizzato e i numeri, i simboli non alfabetici e le abbreviazioni sono espanse in parole (per esempio l’abbreviazione ‘Ing.’ è trascritta come ‘Ingegnere’, ‘222’ come ‘duecentoventidue’). Tutte le altre parole, se non sono parole-funzione o parole già presenti in un lessico di riferimento, vengono accentate, trascritte foneticamente, sillabificate e opzionalmente analizzate mediante un parser sintattico che, riconoscendo parte del discorso per ogni parola nella frase, è utilizzato per ‘etichettare’ il testo. Il suo compito inoltre è togliere l’ambiguità a parti costituenti la frase per generare una corretta stringa di suoni, ad esempio per disambiguare parole scritte allo stesso modo ma con significato o accento diverso (àncora, ancòra). Il secondo blocco (Moduli Fonetico-Acustici) assembla le unità in base alla lista di targets ed è principalmente responsabile della qualità acustica e della naturalezza della sintesi. Le unità selezionate sono infine inserite in un sintetizzatore in grado di generare le forme d’ondadel segnale vocale. In particolare l’analisi prosodico-intonativa, intesa come determinazione della durata e dell’intonazione (frequenza fondamentale) in corrispondenza delle unità da sintetizzare, è sicuramente la parte più importante di ogni sistema di sintesi ed viene elaborata, o per regole esplicite, caratterizzate e studiate in dettaglio per ogni lingua, oppure mediante un approccio statistico (ad esempio basato su CART, Classification and Regression Trees) in grado di apprendere da un corpus di esempi le caratteristiche prosodiche di una determinata lingua. Entrambe i metodi sono ovviamente ottimizzati a diversi livelli principalmente a seconda della bontà dell’analisi testuale, fonetica e sintattica precedentemente illustrata. SISTEMI DI SINTESI A SELEZIONE DI UNITÀ (UNIT SELECTION) Negli ultimi anni si stanno imponendo i sistemi corpus-based o unit selection la cui caratteristica fondamentale è quella di non aver bisogno di limitare il numero, e la dimensione dei frammenti da concatenare. Questo tipo di sintesi è caratterizzato dalla memorizzazione, la selezione e la concatenazione di segmenti di discorso di dimensioni variabile. Questi segmenti vengono estratti, mediante specifici algoritmi basati su tecniche statistiche, da grandi corpora di materiale vocale pre-registrato, naturale e fluente. Questa strategia di sintesi mira, non più a modificare gli attributi metrici, come durata del suono o frequenza fondamentale di piccole unità fondamentali di eguale durata, ma a modificare il segnale originale solo quando è indispensabile, ottenendo risultati ottimi per quanto concerne la naturalezza timbrica della voce sintetica. I frammenti acustici diventano quindi più lunghi, anche sequenze di molti fonemi, parole o addirittura frasi intere, in modo da ridurre i punti di giunzione. Queste unità sono inoltre disponibili in più esemplari, corrispondenti ad esempio a contesti e ad intonazioni diverse. La dimensione del dizionario acustico può, infatti, raggiungere una dimensione anche 50 volte superiore a quella dei sistemi a difoni. Questa, che in passato era una difficoltà insormontabile, è stata ampiamente superata con l’avvento degli attuali computer dotati di enorme capacità di calcolo e di memoria. LE APPLICAZIONI Sono numerose le possibili applicazioni dei sistemi di sintesi da testo scritto “naturali” e di qualità paragonabile a quella umana. La diffusione capillare dell’utilizzo del computer sarà infatti senz’altro facilitata da un’interfaccia con cui si possa interagire con tutte le fonti di informazione in linguaggio naturale e non più secondo modalità non a tutti congeniali. Fra le molteplici applicazioni si possono ricordare: – la lettura di messaggi, memorizzati in sistemi di posta vocale, e-mail e fax all’interno di una mail box unificata, accessibile tramite web o telefono; – la lettura di pagine web; – gli avvisi di particolari emergenze – i servizi clienti delle aziende telefoniche, ad esempio per l’inoltro delle chiamate; – la consultazione interattiva ed amichevole di fonti di informazione elettroniche; – gli ausili di lettura per i portatori di disabilità visive come ad esempio i lettori di schermo (Screen Reader) che altro non sono che accessori del computer per riprodurre in voce qualsiasi cosa appaia sullo - 77 - I QUADERNI DI TELÈMA schermo, oppure i lettori di libri in grado di leggere autonomamente testi a stampa – i corsi avanzati per l’apprendimento – i portali vocali; COSA MANCA? La caratterizzazione di un segnale vocale in un dato stato emotivo deve essere definita tramite la misura dei correlati acustici ad esso associati, che a loro volta derivano dai vincoli fisiologici. Per esempio, quando una persona è in uno stato di paura o gioia, il battito del cuore e la pressione del sangue aumentano, la bocca diventa secca e ci sono occasionali tremori muscolari. La voce aumenta di intensità, di velocità, e nello spettro vi sono forti componenti in alta frequenza. I principali correlati acustici delle emozioni, studiati in letteratura sono: f0, durata, intensità, e una serie di caratteristiche del timbro quali la distribuzione dell’energia spettrale, il rapporto segnale-disturbo (HNR, harmonic-to-noise ratio) e alcuni indici di qualità della voce (voice quality). Quest’ultima proprietà distingue le modalità con cui viene prodotto il segnale glottale (voce aspirata, soffiata, tesa, ecc.. Pochissimi sistemi di sintesi includono queste diverse modalità espressive e sicuramente nessuno di quelli attualmente commercializzati: se si deve quindi leggere una fiaba ad un bambino o le “notizie ansa” in un servizio informativo le modalità espressive sono identiche. Pur tuttavia vi sono esempi in letteratura che hanno studiato questo problema cercando di elaborare alcuni modelli computazionali per rendere conto di queste caratteristiche espressive nei futuri sistemi di sintesi. I primi esperimenti hanno utilizzato la sintesi per formanti, principalmente perché questi sistemi permettono un ricco controllo del segnale. Purtroppo però la qualità del segnale prodotto con tali strategie spesso non è soddisfacente per valutare in dettaglio l’influenza emotiva dell’uscita vocale. Utilizzando invece metodi di sintesi concatenativa, i parametri di controllo solitamente sono solo la frequenza fondamentale e la durata. Con tali strategie si possono adottare due possibili soluzioni a questo problema. Ad esempio mediante l’utilizzo di un corpus di unità acustiche per ogni emozione dal quale selezionare le unità da concatenare oppure utilizzando esclusivamente tecniche di elaborazione del segnale al fine di variare i correlati acustici emotivi legati al timbro della voce direttamente sulla forma d’onda del segnale vocale stesso. Nonostante gli sforzi compiuti in questo filone di studio siamo però ancora distanti da un’effettiva commercializzazione di un prodotto in grado di risolvere e queste difficoltà. IL FUTURO A parte le difficoltà di una sintesi emotiva ed espressiva ancora non adeguatamente affrontata, il futuro della sintesi vocale risiede anche nelle nuove tecnologie di animazione facciale ad essa associata che stanno portando negli ultimi anni alla progettazione e alla realizzazione di agenti parlanti (Talking Agents) in grado di rendere estremamente più appetibili moltissime applicazioni interattive (si veda Figura 5) di cui le potenzialità offerte dalle nuove tecnologie di comunicazione dell’informazione fornite dai telefonini di nuova generazione, basati sulla tecnologia UMTS, sono solo un semplice e chiaro esempio. Ing. Piero Cosi Istituto di Scienze e Tecnologie della Cognizione Sezione di Fonetica e Dialettologia del CNR Figura 5. Illustrazione di alcune “facce parlanti” apparse recentemente “alla ribalta”: Baldi (UCSC Perceptual Sciences Laboratory,mambo.ucsc.edu), Ananova (www.ananova.com), Lucia (ISTC-SPFD CNR, www.csrf.pd.cnr.it/Lucia/index.htm), Anja (Telecom Lab Italia, multimedia.telecomitalialab.com/virtual_life.htm, Greta (Catherine Pelachaud, www.iut.univ-paris8.fr/~pelachaud/), Sarah (DSP.Lab Dist Genova, www.dsp.dist.unige.it/~pok/RESEARCH/index.htm). - 78 - LE MACCHINE CHE PARLANO DESKTOP SPEECH RECOGNITION: TECNOLOGIA, APPLICAZIONI E FUTURO A lla metà degli anni novanta, due tecnologie sembravano destinate ad un promettente successo su scala planetaria: il WWW (WorldWide Web) e l’ASR (Automatic Speech Recognition). Come si sia sviluppato Internet è noto a tutti: in pochi anni, tra luci ed ombre, è diventato lo strumento informatico più popolare e più diffusamente conosciuto al mondo. Cosa ne è stato, invece, delle tecnologie di riconoscimento vocale? Quanto sono lontane nel tempo le applicazioni che ci potrebbero permettere di rivolgere la parola ad un computer come nei film della serie Star Trek? Esiste oggi un mercato del riconoscimento vocale e chi sono i beneficiari di questa tecnologia? Prima di rispondere a queste domande è opportuno premettere che, quando si parla di tecnologie vocali, si devono in realtà considerare diversi filoni di ricerca che si differenziano fra di loro in modo sensibile, in base all’obiettivo del riconoscimento. La seguente tabella riporta i principali settori di ricerca nel campo delle tecnologie vocali. Settore di ricerca Oggetto della ricerca Ampiezza dizionario Esempi attuali Riconoscimento vocale su desktop Software di dettatura. Sistemi di dettatura e di controllo vocale delle applicazioni. Decine di migliaia di parole o, meglio, di forme (per forma si intende qualsiasi parola declinata in tutti i casi previsti dalla grammatica italiana: es. “bello” genera 4 forme: bello, bella, belli, belle) IBM ViaVoice o Scansoft Naturally Speaking. Tra i sistemi, PhonemA software specializzato per la refertazione medica. Riconoscimento vocale telefonico Sistemi di risposta telefonica automatica con comprensione della richiesta dell’utente. Esistono al riguardo più tecniche di interfaccia vocale: IVR (Interactive Voice Response) oppure VUI (Vocal User Interface) basata su VoiceXML Centinaia di parole: l’obiettivo è individuare e comprendere le parolechiave della domanda Vari siti telefonici: si segnala quello di Trenitalia per ottenere informazioni sugli orari ferroviari. Embedded Speech Recognition Software montato a bordo di microchip per la comprensione di una limitata serie di termini preimpostati oppure dettati dall’utente Decine di parole Telefoni mobili (identificazione di nomi da chiamare); automobili (comandi vocali che il conducente può impartire). Identificazione biometrica del parlatore Software che identifica il parlatore a partire dalla forma delle onde acustiche di un modello precaricato N.A. Non risultano applicazioni note Estrazione di parole da parlato spontaneo Software che identifica le singole parole, all’interno di un file audio, a partire dalla forma delle onde acustiche della parola ricercata Qualunque parola o forma Sistemi automatici di indicizzazione di programmi radiotelevisivi Tabella: tipologie di ricerca e di applicazioni nell’ambito delle tecnologie di riconoscimento vocale. - 79 - I QUADERNI DI TELÈMA La classificazione sopra descritta ci permette di definire il riconoscimento vocale su desktop (o Desktop Speech Recognition - DSR) come una tipologia tecnologica appartenente al più ampio campo delle tecnologie ASR (Automatic Speech Recognition). Nel seguito approfondiremo questa specifica tipologia, analizzandone le caratteristiche tecniche e le potenziali applicazioni; infine, cercheremo di capire perché, ad oggi, l’utilizzo delle tecnologie DSR non è riuscito ad assumere una posizione di rilievo nell’ambito delle applicazioni informatiche. DESKTOP SPEECH RECOGNITION: QUALCHE NOZIONE TECNICA Le componenti di un sistema DSR sono sostanzialmente quattro: - la catena di acquisizione del segnale acustico: microfono, cavo, scheda audio. - il motore di riconoscimento vocale: attualmente sul mercato italiano ne esistono due: IBM ViaVoice e Scansoft Naturally Speaking - il repository acustico: contiene i profili vocali di ogni utente. Attraverso una sessione preliminare di adattamento, il sistema è in grado di creare i modelli fonetici, su base digitale, tipici dell’utente. - il repository testuale: contiene il modello di linguaggio tipico di ogni utente, le parole aggiunte nel dizionario personale, le frasi predefinite richiamabili tramite parole chiave (ad es. la chiusura di una lettera). Il funzionamento di un sistema DSR si compone sostanzialmente delle seguenti fasi: 1. l’utente parlando emette onde acustiche che vengono catturate dal microfono; la direzionalità della voce è dunque importante così come la trasmissione attraverso il cavo che deve avvenire al riparo di distorsioni o di campi elettromagnetici. 2. il segnale acustico arriva alla scheda audio che trasforma il segnale analogico in sequenze digitali. 3. le sequenze digitali vengono confrontate con i modelli fonetici digitali dell’utente e, in base ad un’analisi statistica, vengono scelte le rappresentazioni fonetiche più probabili. 4. l’insieme di fonemi così individuato viene confrontato con il modello del linguaggio dell’utente. Con altri tipi di analisi, si individua l’insieme di parole più probabili. Tali parole sono quelle che vengono riconosciute dal sistema. Dal funzionamento descritto, si capisce che un sistema di dettatura continua sbaglia perché è costretto a dare sempre un risultato. Se dettiamo: – “Servono informazioni sul treno delle quindici e trenta” e alteriamo la pronuncia della la parola “quindici”, potremmo avere risultati del tipo: – “Servono informazioni sul treno delle undici e trenta” – “Servono informazioni sul treno degli indici a Trento” – “Servono informazioni sul treno delle qui dici e tenta” e così via, dove l’errore è tanto più evidente quanto più il primo termine male interpretato si allontana dalla corretta concatenazione dettata. Le performance raggiungibili da un sistema DSR si misurano in percentuale di parole correttamente interpretate su parole dettate totali. I prodotti in commercio proclamano percentuali di riconoscimento del 95% che, effettivamente, possono essere raggiunte, su dizionari non troppo ampi, con un’adeguata manutenzione del profilo vocale. Tuttavia, quando l’utente detta una pagina di testo, e si trova a correggere un errore per riga, ha la percezione che il sistema funzioni male: è solo una percezione. Bisogna infatti considerare che se ogni riga è fatta mediamente di 20 parole, il 5% di errore implica effettivamente la correzione di un errore per riga. Per gli utenti professionali, il limite del 95% è generalmente insostenibile e porta al rifiuto della tecnologia. È dunque necessario progettare sistemi DSR con un tasso di riconoscimento superiore, possibilmente vicino al 100%. Ogni punto percentuale “guadagnato” oltre la soglia del 95% comporta la diminuzione del 20% degli errori da correggere ma purtroppo costa un’attività di ottimizzazione del sistema estremamente ardua e dispendiosa. In particolare, occorre ottimizzare ogni elemento del sistema DSR: analizzare la migliore combinazione dei componenti della catena di acquisizione del segnale acustico (microfono, cavo, scheda audio), tenendo anche presenti le condizioni acustiche dell’ambiente (soglia di rumore, grado di riflessione acustica) e le funzionalità richieste dall’utente (es. microfono con pulsanti). mantenere aggiornato il motore di riconoscimento vocale in funzione dell’ambiente software di riferimento (spesso i DSR vengono aggiornati con mesi di ritardo rispetto ai sistemi operativi Microsoft). - 80 - LE MACCHINE CHE PARLANO aiutare l’utente ad effettuare correttamente la sessione di adattamento del profilo vocale. mettere a disposizione dell’utente, facili strumenti per il mantenimento del proprio modello di linguaggio. Per ottenere la massima collaborazione dell’utente professionale durante la dettatura, sarà poi necessario studiare un’interfaccia particolarmente gradevole, dotata di ogni funzionalità opportuna per semplificare le operazioni di correzione e, soprattutto, sicura: operando a livelli di sistema operativo piuttosto bassi, spesso un’interruzione del funzionamento vocale corrisponde ad un blocco di Windows con le prevedibili conseguenze per l’utente. Oltre alla modalità dettatura, un DSR può essere utilizzato anche per il riconoscimento di comandi e controlli (modalità Command & Control - C&C). La differenza sostanziale, dal punto di vista funzionale, della modalità C&C rispetto alla modalità per dettatura è che nello schema di funzionamento sopra descritto il confronto finale non viene eseguito con il modello di linguaggio dell’utente ma con la parola (o il gruppo di parole o il comando) prevista nel contesto applicativo. Ad esempio, se in un campo posso dettare i numeri interi dallo zero al nove, solo pronunciando una di queste dieci parole ottengo il riconoscimento vocale corretto. Se dico altre parole (specie se non sono assonanti) il sistema rifiuta il riconoscimento e, quindi, non genera un errore. In modo simile, posso dare un comando vocale ad un’applicazione informatica e associarne l’interpretazione a una combinazione di tasti che attiva un’operazione: la percezione sarà quella di avere comandato a voce l’applicazione. Il limite della modalità C&C è quello di operare solo su parole o gruppi di parole isolate. Per questo motivo, è inadatta alla dettatura a testo libero (detta anche dettatura in parlato continuo). DESKTOP SPEECH RECOGNITION LE POSSIBILI APPLICAZIONI Sulla questione dell’applicabilità dei sistemi DSR, esistono due correnti di pensiero contrapposte: Secondo la prima (che chiameremo “ottimista”), la voce è il modo più naturale per l’uomo di comunicare e quindi, prima o poi, la nostra interfaccia con il computer sarà vocale. La seconda, quella che definiremo “pessimista”, prevede che la voce non avrà mai successo - se non in ambiti molto limitati - in quanto non competitiva con la velocità con cui possono essere premuti i pulsanti di una tastiera. Probabilmente la verità sta nel mezzo, dal momento che le applicazioni di sistemi DSR crescono in molti settori incontrando un crescente favore da parte di utenti motivati professionalmente. Le applicazioni di sistemi DSR di cui si ha conoscenza in Italia, sono: refertazione medica: dettatura di referti e dati del paziente. Il riconoscimento vocale in ambito medico - generalmente chiamato refertazione vocale è diffuso sia in ambito ospedaliero pubblico e privato sia presso studi medici e specialistici. Per dare un’idea della diffusione della tecnologia DSR, diremo che è utilizzato anche presso alcuni studi odontoiatrici. resocontazione di un evento assembleare. C’è una forte domanda del mercato per la trascrizione automatica di quanto pronunciato da un parlatore nell’ambito di una riunione (si pensi alla trascrizione di una seduta presso un Tribunale oppure al verbale di Giunta in un Comune o di un Consiglio di Amministrazione in una Società). In questi casi, l’oratore parla in modo spontaneo, usando parole intercalate, inserendo balbettii e spot, seguendo un filo del discorso che può avere concatenazioni anomale tra le parole pronunciate. Il tono del parlatore è utilizzato per dare corpo al contenuto del discorso e non per essere collaborativo con un sistema di riconoscimento vocale. In queste condizioni, non esiste ancora un prodotto DSR in grado di restituire un risultato di riconoscimento accettabile. Viceversa esistono esempi di successo riguardo alla stesura del resoconto di un evento assembleare, da parte di un operatore adattato e formato all’utilizzo di un sistema DSR. L’esempio più eclatante è sicuramente il sistema “CameraVox” in uso presso la Camera dei Deputati e noto a livello internazionale. preparazione di documenti. Un altro ambito di utilizzo di sistemi DSR, superiore, per numero, a ciascuno degli esempi precedenti è quello degli studi legali. Attraverso specifici dizionari giuridici, è possi- - 81 - I QUADERNI DI TELÈMA bile stendere bozze, predisporre interventi d’aula, preparare lettere. Anche la preparazione di discorsi, lezioni e conferenze può essere fatta utilizzando un sistema DSR. Può risultare pratico, in queste circostanze, dettare il testo su un registratore digitale portatile e scaricare il parlato - attraverso software appositi - su un sistema DSR per l’interpretazione automatica. Un’ultima “nicchia” interessante è quella del riempimento di moduli attraverso la voce dettando sia singoli dati (utilizzando la modalità C&C) sia componenti testuali come osservazioni, note, descrizioni (operando in modalità a parlato continuo). simulazione di un’interazione umana. Un caso di particolare interesse è quello della simulazione di interazioni vocali per la formazione del personale. L’esempio è quello di un sistema per l’addestramento degli assistenti di volo. L’allievo dà un comando vocale ad un programma che simula il comandante di un aereo presente nella sua zona. In base al comando ricevuto (e interpretato dal sistema DSR) il programma simula le operazioni di volo dell’aereo e l’allievo può verificarne l’adeguatezza. rie di operazioni necessarie alla persona immobilizzata come ad esempio spostare la posizione del letto, accendere il televisore e via dicendo. Nel caso degli ipovedenti, si usano sistemi di dialogo come ausilio ad operazioni di routine. Un esempio a questo proposito è dato dalla rubrica telefonica vocale che permette di comporre numeri telefonici richiamandoli a voce. UN’APPLICAZIONE IN CAMPO MEDICO: PHONEMA-MED L’impatto di un’applicazione vocale può essere rilevante se riesce a modificare un processo produttivo semplificandolo oppure diminuendo la necessità di risorsa umana. È questo il caso che si manifesta tipicamente in Sanità quando un medico può mettere in bella copia il proprio referto in tempo reale senza dover ricorrere al personale amministrativo di trascrizione. Per esemplificare, parleremo di un’applicazione specifica per la refertazione vocale: PhonemA. Il metodo classico di trascrizione del referto radiologico avviene attraverso l’uso del dittafono ed è sintetizzato nella figura che segue: forma delle onde acustiche della parola ricercata spontaneo radiotelevisivi TRA = tempo radiologico= TPR+TLA+TDI+TVA TRA = tempo preparazione esame accettaz. richiesta esame TLA = tempo TDI = tempo TVA = tempo TTR = tempo di latenza di latenza per di latenza per trasmissione refertazione trascrizione validazione esame esecuzione esame dettatura referto Al di fuori delle applicazioni professionali, restano poi tutte le realizzazioni software destinate ai portatori di handicap. Il riconoscimento vocale risulta di particolare ausilio per le persone affette da gravi invalidità motorie o della vista. Nel primo caso, attraverso la modalità C&C, sarà possibile comandare una se- trascrizione referto validazione referto (firma) trasmiss. referto al richiedente Il processo di cui sopra richiede cinque fasi operative (ognuna delle quali introduce una latenza) e l’attività di due risorse umane (radiologo e trascrittore). Con l’introduzione del riconoscimento vocale, il processo di refertazione si riduce nel modo seguente: - 82 - LE MACCHINE CHE PARLANO TRA = tempo radiologico= TPR+TLA TPR = tempo preparazione esame accettaz. richiesta TLA = tempo di latenza refertazione esecuzione esame Grazie al riconoscimento vocale, è possibile ottimizzare il processo di refertazione radiologica a tre sole fasi e a una sola risorsa umana con conseguenze sia economiche (risparmio risorsa di trascrizione) sia di benessere del paziente: infatti, accelerando il processo di cura e di dimissione diminuisce il disagio dovuto alla permanenza in ospedale con ulteriore recupero sui costi di degenza (vedi Figure). Alcune sperimentazioni si sono già occupate dell’argomento della refertazione vocale, cercando di mettere in evidenza gli aspetti di accuratezza nel riconoscimento delle parole dettate. Tuttavia, diverse esperienze accumulate nel settore del refertazione medica hanno dimostrato che il successo di un sistema di refertazione dipende in larga misura dalla qualità e dalla semplicità dell’interfaccia uomo-macchina, mentre il livello percentuale di correttezza del riconoscimento in parlato continuo, che oggi raggiunge (su linguaggio specialistico, ad es. medico) percentuali prossime al 100% non costituisce più una discriminante nella scelta del sistema. Dalla necessità di poter verificare i risultati non tanto della tecnologia, quanto del sistema, inteso come insieme di operatori umani, di funzionalità tecnologiche e di organizzazione è nata la sperimentazione realizzata presso l’Azienda Ospedaliera “Umberto I” di Ancona avente l’obiettivo di verificare l’impatto derivante dall’introduzione di un sistema di refertazione vocale all’interno dei Servizi di Radiologia. Il software di refertazione vocale “PhonemA-Med”, che è stato utilizzato per la sperimentazione, è stato messo a disposizione dalla Società Gruppo Soluzioni Tecnologiche di dettatura referto TTR = tempo trasmissione esame validazione referto (firma) trasmiss. referto al richiedente Trento (Gruppo AISoftw@re); la tecnologia di base per il riconoscimento vocale - IBM ViaVoice- è stata messa a disposizione da IBM. I risultati della sperimentazione, durata più di dodici mesi, hanno messo in evidenza che la refertazione vocale, quando viene usata diffusamente, ha un impatto significativo sul processo di refertazione radiologica, sicuramente avvertibile dai reparti, ed incide positivamente sulla durata delle degenze. Alcune misure, verificate sperimentalmente, hanno dimostrato che il tempo di latenza medio che intercorre tra la dettatura del referto e la sua firma viene dimezzato passando dalla dettatura tradizionale con dittafono alla refertazione vocale a computer. Questo risultato permette l’ottenimento di importanti risultati nell’intero flusso di cura: – il referto giunge in reparto con alcune ore (o addirittura alcuni giorni) di anticipo; – le cure possono essere avviate prima, con evidente vantaggio per il paziente; – la permanenza media del paziente in reparto diminuisce. Quest’ultimo aspetto viene verificato nella maggioranza dei casi in cui la refertazione vocale viene utilizzata da almeno la metà dei radiologi. I recuperi per l’organizzazione ospedaliera possono arrivare ad accorciare di mezza giornata media il ciclo di cura per ogni paziente. Il beneficio si può estendere anche ai pazienti ambulatoriali, mettendo in condizione il radiologo di produrre il referto in tempo reale e di consegnarlo immediatamente al paziente. Le specialità in regime ambulatoriale che più si avvantaggiano dall’uso della refertazione vocale sono quelle relative all’ecografia, alla mammografia e al pronto soccorso. - 83 - I QUADERNI DI TELÈMA – la dimensione del dizionario è troppo grande (in tal caso sarà difficile raggiungere performance adeguate)? – c’è molta ripetitività nei testi dettati (in tal caso il problema sarà risolubile con frasi predefinite)? – i potenziali utenti sono disponibili ad usare la tecnologia? Lavorano in ambienti sufficientemente confortevoli? Hanno, per professione e cultura, una buona dizione? I vantaggi che vengono generalmente percepiti dai radiologi sono i seguenti: – possibilità di essere autosufficiente in qualunque momento; – migliore qualità del referto prodotto, perché viene controllato con l’esame ancora visibile; – migliore impiego del personale di videoscrittura che si può dedicare ad altre attività di segreteria; – migliore efficacia del testo scritto perché lo si può immediatamente rileggere ed impaginare. Un vantaggio evidente per l’Amministrazione Ospedaliera è dato dalla riduzione dell’attività del personale di trascrizione dei referti, che può essere indirizzato a compiti più gradevoli. COSA MANCA AL DSR PER DIVENTARE UNA TECNOLOGIA DI SUCCESSO? PhonemA è una delle rare storie di successo nel panorama del riconoscimento vocale: con più di 1500 stazioni installate in circa 300 ospedali, PhonemA-Med è il leader di questa nicchia di mercato e consente la produzione di circa 9 milioni di referti medici all’anno. I presupposti in base ai quali il prodotto è stato in grado di raggiungere questa condizione di successo possono essere di ausilio per individuare la migliore strategia per qualificare le tecnologie DSR e incrementarne la diffusione. Innanzitutto è necessario capire se il riconoscimento vocale è di utilità per la risoluzione di un dato problema. Può sembrare una banalità, ma quando si comincia il progetto di un’applicazione vocale, raramente si pone la necessaria attenzione a domande quali: – esiste una tecnologia più competitiva del vocale per questa applicazione? Se l’analisi sopra descritta ha dato esito favorevole, occorre lavorare su due fronti: 1. Dal punto di vista tecnologico, è necessario sviluppare quanto serve per puntare subito al 99% di performance di riconoscimento. L’utente che si rivolge al DSR è, in genere, debole dal punto di vista informatico e non sopporta di perdere tempo con oggetti di cui ha scarsa conoscenza e dimestichezza. In caso di inadeguatezza del sistema DSR alle proprie necessità, l’utente non ha alcuno scrupolo a scegliere un mezzo di livello tecnologico inferiore ma che gli rende più facile il lavoro. 2. Dal punto di vista psicologico, è opportuno sviluppare interfacce coinvolgenti per l’utente, andando a verificare l’utilizzo del riconoscimento vocale all’interno del sistema informativo in cui si trova. Per esemplificare, se anche si riuscisse a fornire un sistema DSR con performance di riconoscimento del 100% ma tale sistema fosse inserito in un ambiente informativo poco gradevole per l’utente, l’installazione del sistema DSR fallirebbe. Una volta avviato il sistema DSR, sarà infine necessario garantirne la manutenzione e lo - 84 - LE MACCHINE CHE PARLANO sviluppo affinché il riconoscimento vocale non venga abbandonato nel tempo. Senza i passaggi sopra descritti, il funzionamento di un sistema di riconoscimento vocale in un ambito professionale distribuito (e quindi di larga diffusione) è destinato all’insuccesso. L’esperienza accumulata in oltre sette anni, ci permette di dire che, salvo rare eccezioni, la tecnologia DSR acquistata da sola, senza sviluppi mirati, ha comportato sempre esperienze fallimentari. La cosa non deve stupire. Proviamo a pensare ad un’altra tecnologia informatica, ad esempio quella dei Data Base, e poniamoci la seguente domanda: se il migliore dei Data Base in commercio fosse consegnato all’utente finale privo di un’applicazione per il Data Entry, di quale utilità sarebbe? Chiediamoci perché il riconoscimento vocale, con tutte le particolarità che abbiamo descritto in questo articolo, deve finire in mano a un utente che spesso lo compra per facilitarsi l’approccio al PC e invece non riesce nemmeno ad installarlo? Quanti, degli oltre due milioni di DSR venduti nel mondo giacciono inutilizzati in qualche cassetto di scrivania? Purtroppo le strategie di distribuzione dei due leader del mercato DSR (IBM e Scansoft) continuano ad essere orientate alla vendita della sola tecnologia a bassi prezzi e non consentono il decollo di una classe di aziende specializzate che producano sistemi di qualità che possano accelerare la diffusione e l’utilizzo delle loro stesse tecnologie. In attesa di un riposizionamento dei principali attori del mercato DSR, nei nostri laboratori stiamo già progettando il modello di interfaccia uomo-macchina del futuro. Si chiama PhoneidoS. È un sistema per la refertazione radiologica, che coniuga modalità di dettatura e modalità C&C. Il controllo dell’applicazione è gestito, oltre che con la voce, anche tramite touch screen oppure con uno speciale gamepad. Il microfono c’è ma è invisibile: è cablato all’interno di una speciale mobile in materiale fonoassorbente che contiene anche gli speciali schermi per le immagini radiologiche digitali. Mouse e tastiere sono avvertiti: ormai i loro giorni sono contati Alessandro Tescari Amministratore Delegato GST - Gruppo Soluzioni Tecnologiche Società del Gruppo AISOFTW@RE LA CONVERSAZIONE CON IL CALCOLATORE L o SR (Speech Recognition, o Riconoscimento del Parlato) ha come obiettivo dichiarato la trascrizione del parlato nello scritto. Tale obiettivo è però troppo ampio e troppo ristretto al tempo stesso. Troppo ampio, perché la trascrizione di tutto ciò che viene detto, indipendentemente dal parlatore, dal mezzo di comunicazione, dalle condizioni ambientali, dall’oggetto della conversazione etc. è un obiettivo molto al di là delle possibilità correnti dei sistemi di riconoscimento e, comunque inutilmente vasto per la maggioranza delle applicazioni pratiche (che specificano una certa classe di parlatori, un certo insieme di condizioni e così via). Però è anche troppo limitato, perché il vero fine dello SR è di produrre una comunicazione utile tra persona e macchina via voce, e l’utilità dell’interazione è legata all’ottenimento dello scopo per cui la comunicazione è iniziata, indipendentemente dalla qualità tecnica dello SR impiegato nel processo. Da questo punto di vista, lo SR si può dividere in due rami: da un lato, la Dettatura, in cui il sistema rimpiazza il dattilografo (cioè il parlatore stesso, o magari un segretario); dall’altro, l’Interazione, cioè i sistemi in cui il sistema rimpiazza o collabora con un operatore, soddisfacendo così un’esigenza del parlatore che non è semplicemente la trascrizione del parlato, ma la risposta al contenuto del parlato. In questa categoria ci sono sistemi che danno informazioni (e.g. elenco abbonati, orari ferroviari e aerei, quotazioni di borsa, informazioni sul traffico etc), che eseguono comandi (e.g. vendite e acquisti in borsa, operazioni di trasferimento sul conto di banca, pagamento di bollette, organizzazione di appuntamenti medici etc.), che intrattengono (e.g. sistemi di simulazione di chat), che richiedono operazioni da parte dell’utente (e.g. sistemi che segnalano a casa l’assenza di uno scolaro dalla scuola e chiedono ai genitori di intervenire), o sistemi ibridi (tipicamente, vocalizzazioni di siti web che permettono navigazione, ottenimento di informazioni ed esecuzione di comandi). - 85 - I QUADERNI DI TELÈMA I sistemi a scopo di Interazione usano tutti una qualche forma di dialogo, cioè di interazione strutturata, dalle forme più semplici e rigide a quelle più complesse e libere. In generale, più il sistema usa tecniche di gestione del dialogo di tipo umano nell’interazione, e meglio reagisce l’utente. I PROBLEMI DELL’INTERAZIONE Storicamente, la Dettatura è stato il primo, ovvio obiettivo dello SR. Il lavoro di ricerca, e lo sviluppo industriale/commerciale, hanno però da tempo individuato l’Interazione come l’area più ricca e promettente per lo SR, sia per le limitazioni insite nella Dettatura (training e uso per utente specifico) sia per gli orizzonti di applicazione aperti all’Interazione (telefonia fissa e mobile, web, giochi etc). È interessante notare che, dopo alcuni test iniziali di Dettatura, le competizioni annuali per SR organizzate da DARPA (Defence Advanced Research Projects Agency, USA) si sono sempre più orientate su tasks di tipo Interazione, in particolare la richiesta di informazioni e prenotazioni aeree. Per costruire sistemi di SR di tipo Interazione, si devono affrontare tre tipi di problemi. Il primo tipo è quello più strettamente legato allo SR, si tratta cioè dei problemi di riconoscimento del parlato. Non tutto il parlato ha però lo stesso valore all’interno di un’Interazione: per esempio, nel caso delle informazioni aeree, vi sono parti assolutamente chiave (città di partenza, città di arrivo, orario etc), parti di supporto (eg ‘vorrei partire da...’, ‘un volo per...’), parti contenenti segnali di dialogo necessarie ai fini dell’operazione (e.g. ‘vorrei sapere se....’, ‘potrei prenotare un...’) e parti utili nel dialogo umano, ma non necessariamente in quello umano-sistema (e.g. ‘per favore...’, ‘sarebbe così gentile da...’, ‘mi chiedevo se...’). Dunque l’identificazione corretta dei termini più importanti è essenziale nell’applicazione, così come lo è la consapevolezza di quali parti sono state riconosciute con sufficiente certezza e quali sono da controllare o richiedere. Il Dialogo ha a sua volta le sue problematiche: per esempio può permettere risposte singole, frasi libere con risposte singole, o frasi libere con risposte multiple; può avere una struttura lineare, ad albero, o a grafo; può essere costruito in base ad aspettative rigide o flessibili; in questo caso può essere basato su modelli del task o dell’utente. La Generazione, infine (cioè la generazione del parlato con cui il sistema comunica con l’utente) presenta problematiche sia basate sulla qualitàfonica e prosodica del sintetizzatore (TTS, Text To Speech), sia sulla costruzione del contenuto da sintetizzare, che può essere di tipo preconfezionato, generato per template combinatoriale, o generato per via logica-pragmatica. LE FASI DEL RICONOSCIMENTO Il riconoscimento in sè può avvenire attraverso varie tecniche: statistiche, adattative (e.g. reti neurali) o a base linguistica. I sistemi più recenti e più potenti, come il sistema ARA sviluppato presso la Cirte, usano un approccio statistico, con un addestramento su un corpus molto ampio e appositamente bilanciato ed annotato, che produce, attraverso vari algoritmi, dei modelli a livello di trifoni (combinazioni di 3 fonemi, l’unità di suono del linguaggio), con le appropriate probabilitàdi entrare in uno di questi modelli e di transitare da uno stato all’altro. Al momento del riconoscimento, il sistema prova a far attraversare all’input questi modelli e sceglie quello con le migliori probabilitàcomplessive. Il sistema produce una lista delle parole con i migliori punteggi, che viene poi passata al resto del sistema, il quale può semplicemente scegliere la migliore, o fare ulteriori operazioni (per esempio confrontare le differenze di punteggio, o prendere gli N migliori ed incrociare i risultati coi risultati di una ricerca successiva). - 86 - LE MACCHINE CHE PARLANO Nel caso delle parole singole, cioè quando all’utente è richiesto di dire solo l’informazione richiesta (e.g. la stazione di partenza) questo esaurisce l’aspetto di SR proprio. Questo però è un approccio poco usato nei sistemi più recenti, perché obbliga l’utente ad una interazione poco naturale di tipo a albero. Più comunemente, l’utente può dare l’informazione all’interno di una frase libera (e.g. ‘partenza da Napoli’). In questo caso, si possono usare due approcci. Il primo è cercare di prevedere le frasi che possono essere usate, ed inserirle all’interno di una grammatica specializzata. Questo approccio tende ad essere fragile, cioè a funzionare molto bene quando la frase usata è simile a quelle nella grammatica, e a funzionare male altrimenti. Un approccio alternativo è quello di usare una grammatica ‘garbage’ (letteralmente, ‘spazzatura’), cioè una grammatica che contiene solo le parole da riconoscere (cioè, in questo esempio, le città), più una sequenza arbitraria di fonemi arbitrari. Questo approccio tende ad essere robusto, ma non accurato quanto quello con grammatica specializzata. È possibile combinare i due approcci per ottimizzare il comportamento del sistema. Un’ulteriore complicazione è data dal caso in cui all’utente sia permesso fornire più dati nella stessa frase (e.g. ‘vorrei andare da Napoli a Palermo il 18 Maggio, nel pomeriggio). In questo caso, le possibili grammatiche specializzate aumentano di complessità, le grammatiche garbage sono meno efficaci, ed è essenziale riconoscere non solo i dati principali (e.g. Napoli e Palermo), ma anche il contesto (in questo caso, partenza ed arrivo). Per ottenere buone performance su questa classe di problemi, specialmente su dizionari mediograndi (e.g. le 3000 stazioni ferroviarie italiane), occorre che ogni componente sia ottimizzato. È spesso necessario un training specifico sulle parole, un lavoro di test in campo per catalogare le forme di frasi usate più comunemente, una mescolanza accurata delle diverse tecniche, e delle buone strategie di recupero per i campi che non sono stati riconosciuti. Inoltre, la maggior parte dei sistemi moderni permettono il barge-in, cioè permettono all’utente di parlare in qualunque momento, intervenendo sulla domanda, il che causa ulteriori difficoltànel determinare esattamente i limiti d’inizio e fine della frase, specie in situazioni rumorose dove altri suoni possono essere confusi col l’input in modalità barge-in. ELEMENTI DEL DIALOGO La struttura del dialogo controlla il tipo di Interazione. Per esempio, il dialogo più semplice è quello in cui all’utente viene richiesta una sola informazione, da dire isolatamente (e.g. un numero di codice). In questo caso, non c’è nè progressione nè variazione. Più comune è la struttura in cui diverse domande vengono richieste in una sequenza stabilita (e.g. ‘nome’, ‘cognome’, ‘indirizzo’), tipicamente in un’applicazione di directory enquiry. Questo modello è a sua volta superato dalle strutture ad albero, in cui vi sono vari punti di biforcazione, in cui il sistema sceglie il proseguo a seconda dell’informazione ricevuta. Il caso tipico è quello in cui l’utente può inserire più dati assieme in una frase: a seconda di quali dati sono stati inseriti (e quali il sistema ha riconosciuto con un grado accettabile di sicurezza), il gestore del dialogo sceglie la continuazione. Questo modello rappresenta in molti casi la presente frontiera dei sistemi commerciali, specialmente nei casi di liste di dati medio-grandi. L’approccio successivo è quello basato su Scripts, cioè su strutture (di tipo grafo) che prevedono non solo i punti di scelta (come quelle ad albero), ma anche loops, salti, interruzioni e sotto-scripts. - 87 - I QUADERNI DI TELÈMA Tali sistemi di gestione del dialogo sono molto avanzati, e al momento presenti solo in sistemi accademici o di dimostrazione. È molto probabile, tuttavia, che la prossima generazione di sistemi vocali per Interazione sia basata su strutture di dialogo di tipo Scripts. TTS E GENERAZIONE Dal punto di vista della produzione di parlato da parte del sistema, si possono usare testi pre-registrati o impiegare un TTS. I testi pre-registrati erano molto usati nel periodo in cui i TTS non soddisfacevano, e vengono ancora impiegati per applicazioni limitate e molto statiche, quali quelle per centralino telefonico di ditta, ma i miglioramenti recenti dei TTS e la loro flessibilitàe convenienza hanno fatto sì che le applicazioni più moderne e complesse usino solo TTS. I TTS presentano due caratteristiche fondamentali, dal punto di vista dell’utente: la qualitàfonica della voce (cioè, quanto sia simile al suono di una voce umana appropriata alla transazione), e la qualitàprosodica, cioè della lettura (intonazione, volume, pause, velocità etc.). La qualità fonica dei migliori TTS sul mercato per la lingua italiana è ormai eccellente, specialmente per le applicazioni che usano altoparlanti, ma anche le versioni per telefono sono recentemente diventate molto gradevoli. La prosodia è migliorata recentemente, ed è adeguata per applicazioni più limitate, come la lettura di orari. Per la lettura di pagine intere di testo, però (e.g. nel caso della vocalizazzione di pagina web), il ruolo della prosodia diventa fondamentale, ed in questo campo vi sono ancora dei passi avanti da fare, in quanto alcuni elementi prosodici non sono derivabili da corrispondenze statistiche, ma sembrano dipendere in modo maggiore da elementi linguistici: grammaticali, ma soprattutto legati all’interpretazione semantica e pragmatica del testo. Per quanto riguarda la generazione dal punto di vista del contenuto, vi sono in genere tre approcci. Nelle applicazioni più semplici, il testo è preconfezionato, cioè è stato preparato come parte del disegno dell’applicazione, a parte gli elementi di dato da fornire (e.g., la frase ‘il numero da lei desiderato è’ è già preparata, e al momento dell’esecuzione viene aggiunto il numero richiesto). Per ottenere un dialogo di una certa complessità con questo sistema (e.g. per applicazioni di simulazione di chat, o per assistenti artificiali online), è necessario avere una gamma molto vasta di frasi preparate, ed un sofisticato sistema statistico per scegliere la più appropriata. Un approccio più sofisticato è quello di usare templates (moduli), in cui la struttura della frase è pre-confezionata, e gli slots (campi) vengono riempiti attraverso variazioni che si combinano al run-time. Dato la crescita combinatoriale di queste frasi istanziate, questo metodo ha il vantaggio della solidità derivante dal template e della varietà derivante dall’esplosione combinatoriale. Vi è anche un approccio logico-linguistico, in cui la struttura della frase è generata a partire dalla rappresentazione logica astratta di ciò che si vuole dire (per esempio usando grafi concettuali), accresciuta da elementi di teoria del dialogo e instanziata secondo regole linguistiche. Questo metodo ha il vantaggio di una maggiore flessibilità ed espressività, ma è anche al momento poco robusto ed è solo impiegato in applicazioni dimostrative. Come per gli altri elementi dei sistemi ad interazione, è possibile ottenere risultati ottimizzati in una particolare applicazione usando una mistura dei tre metodi di generazione. IL VOICE PORTAL CIRTE Gli elementi principali del sistema Voice Portal Cirte sono costituiti dall’interfaccia telefonica, IVR (che include anche il modulo SR ARA), dal modulo Browser e dai Voice Template, e dal prograama di amministrazione. Il sistema è costituito da una serie di moduli applicativi che interagiscono tra loro per realizzare le funzioni richieste. Tali moduli risiedono tutti sulla macchina IVR ad eccezione eventuale dei Voice Template. La struttura del progetto prevede così la suddivisione dei compiti in 3 moduli: Voice Portal IVR , espleta l’interazione telefonica acquisendo i comandi di navigazione nelle modalità previste dalla configurazione attraverso il sistema ARA. Invia i comandi di navigazione al modulo Browser. Esegue la conversione del testo da riprodurre in file di formato variabile a seconda della configurazione e comunque definiti da un insieme finito. Browser, questo modulo interpreta il contenuto dei Voice Template e fornisce il testo da - 88 - LE MACCHINE CHE PARLANO un timeout che consente di determinare un tempo massimo dal punto di vista del IVR per la ricezione dei valori di ritorno del comando impartito. Più avanti viene dettagliato il formato dei comandi e dello Shared Memori File, nonché le modalità di scambio delle informazioni. Il modulo Browser riceve i comandi nel formato di stringhe contenenti una parola o un codice DTMF, quindi interpreta la grammatica (sezione ASR) del Voice Template e realizza il comando ad esso associato che può operare sulla pagina del sito Web corrente (script di esecuzione) oppure generare una navigazione ad una nuova pagina. Vengono quindi prelevati dal Voice Template che identifica la pagina corrente del sito, il testo da riprodurre (dalla sezione TTS) ed eventualmente, nel caso di interazione vocale, il dizionario per il riconoscimento vocale (sezione ASR), il Browser mantiene quindi all’interno un puntatore al comando corrente del Voice Template in esame. Questo puntatore viene azzerato ogni volta che si naviga in una nuova pagina e permette di esegure più comandi in una stessa pagina riportati nello stesso Voice template (sezione CMD), un esempio è rappresentato dalle pagine che contengono Form di inserimento dati. riprodurre, nonché nel caso di interazione vocale il nome del dizionario che contiene l’insieme delle parole che è possibile riconoscere. Esegue l’interazione con le pagine del sito Web leggendo i comandi dai Voice Template. Questi ultimi possono essere comandi di navigazione o script di esecuzione. Voice Portal Manager, consente la modifica dei parametri di funzionamento del sistema. Il significato dei parametri è indicato dal programma stesso. La figura di seguito mostra i vari moduli e le loro interazioni: Il modulo IVR riceve i comandi in forma vocale o tramite DTMF, attraverso la rete telefonica secondo le specifiche della stessa, e utilizzando per l’interfaccia una scheda Dialogic con gestione della segnalazione prescelta. I comandi vengono tradotti nel caso di riconoscimento vocale e inviate al modulo Browser tramite lo Shared Memory File. Lo Shared Memory File è un file strutturato aperto in memoria e condiviso in lettura e scrittura dai due processi IVR e Browser. L’IVR scrive il comando da eseguire e legge i risultati quando il Browser ha rilasciato l’accesso all’area condivisa (comando completato). Questo scambio è regolato da Shared Memory File BROWSER IVR Rete Telefonica XML Parser File di configurazione 1 2 4 5 7 8 9 * 8 # 3 Voice Templete Intrfaccia utente 6 Manager - 89 - HTTP I QUADERNI DI TELÈMA Il modulo Manager consente di modificare il file di configurazione a cui ha accesso il modulo IVR. Questo file è scritto nel formato XML e contiene parametri di funzionamento sia del IVR che del modulo Browser. In particolare, alcuni parametri vengono caricati all’avvio del modulo IVR, altri al verificarsi di ogni chiamata telefonica al sistema, tutti i parametri sono trattati in dettaglio nel Manuale Utente. NUOVE FRONTIERE La nuova frontiera dell’Interazione è l’uso della semantica e pragmatica direttamente nel riconoscimento. Questo vuol dire incrementare il modello statistico con elementi che tengono in considerazione il contesto della conversazione fino a quel momento. Per esempio, se dopo aver chiesto informazioni sul treno da Napoli a Palermo l’utente dice ‘e quello per Salerno, invece?’, il sistema dovrebbe rendersi conto che ci si trova di fronte ad un’anafora (‘quello’ riferito a treno), un’ellisse (‘il treno da Napoli...’) ed una struttura di dialogo ancora aperta (‘vorrei informazioni su...’), per cui la frase va interpretata come ‘adesso vorrei informazioni sul treno da Napoli per Salerno’. Il modello di dialogo a Script presume un modello dell’utente basato su un’attività strutturata (e.g. prenotare un biglietto aereo). Per attivitàpiù aperte (e.g. la gestione delle lamentele, gli usi per intrattenimento etc.) è necessario andare oltre questo modello, e usare un modello basato sulle conoscenze e motivazioni dell’utente, sia come classe, sia come individuo. Per quest’ultimo caso, si tratta di usare sistemi adattativi (e.g. basati su reti neurali o algoritmi genetici) che imparano il profilo di un particolare utente, o di una particolare sottoclasse. In generale, la capacità adattativa del sistema una volta in campo aprirà possibilità di ottimizzazione anche sui versanti dello SR proprio e della Generazione, introducendo così una nuova generazione di sistemi di SR attraverso il Dialogo. Prof. Roberto Garigliano Ideatore del sistema di SR ARA sviluppato da Cirte e consulente tecnico-scientifico presso Cirte TECNOLOGIE VOCALI PER IL MONDO DEI DISABILI D ar voce a chi non ce l’ha, molto più che far parlare i computer, è sempre stata un’inconfessata speranza di molti ricercatori che da anni studiano le più avanzate tecnologie vocali. Ma non solo di questo si tratta, perché le stesse tecnologie possono essere utilizzate, da chi non vede, per leggere, o da chi ha impedimenti al movimento, per controllare in qualche modo l’ambiente esterno per mezzo della voce. A che punto siamo arrivati nello sviluppo di queste tecnologie? È già possibile utilizzarle realmente nella vita quotidiana? questo articolo tenta di dare una risposta a queste domande, con una panoramica sui progressi tecnologici e sulla disponibilità di prodotti e servizi indirizzati al mondo della disabilità, non trascurando gli aspetti normativi che, specie negli ultimi anni, stanno affrontando con sempre maggior interesse il rapporto tra tecnologia e disabilità. Prima di inoltrarci nel complesso mondo della disabilità, ecco una breve presentazione delle tecnologie vocali più importanti. LE TECNOLOGIE Ormai assuefatti alle novità tecnologiche e incapaci di stupirci, pare ovvio che le macchine si rivolgano a noi con voce umana: ci ordinano di ritirare il biglietto al casello dell’autostrada, ci forniscono informazioni al telefono, annunciano la prossima fermata sul tram o il prossimo treno alla stazione. Ma se proviamo a curiosare dietro l’apparente naturalezza della tecnologia della voce, scopriamo che la macchina parlante ha potuto diventare reale solo a partire dall’era dell’elettronica. E ancora oggi, dopo trent’anni, la tecnologia vocale pone sfide e difficoltà irrisolte. Cominciamo col dissipare il primo equivoco: una macchina che parla non capisce ciò che dice, e legge pedissequamente ciò che è scritto (errori di ortografia compresi). In mo- - 90 - LE MACCHINE CHE PARLANO do simile, un sistema di riconoscimento non necessariamente capisce ciò che sente. Una semplice locuzione come “Dammelo”, ancorché riconosciuta correttamente, può non generare una risposta corretta da parte del sistema, perché esso può non capire cosa io voglio che mi dia. Come in molti altri casi in cui un sistema artificiale riproduce un comportamento umano, l’analogia di funzionamento tra macchina e uomo è solo superficiale; nei paragrafi successivi cercheremo di dare una panoramica ragionata delle due tecnologie vocali principali: la sintesi da testo e il riconoscimento della voce. Per sintetizzatore vocale, noi oggi intendiamo generalmente un sistema digitale, costituito da un software che trasforma un testo in un segnale vocale, simile a quello prodotto da un essere umano che legge. Nel processo di generazione del segnale vocale da un testo, si possono individuare due fasi distinte: l’analisi del testo, in cui si decide che cosa pronunciare, quali suoni (fonemi) e con quale intonazione; la produzione, in cui si generare il suono. Gli sviluppi più recenti della tecnologia si basano sulla sintesi concatenativa, metodologia usata per comporre nuovi messaggi a partire da frammenti di voce naturale (difoni, trifoni, sequenze di molti fonemi, porzioni di parole e parole intere), che vengono registrati in condizioni controllate al fine di poter essere composte in modo appropriato, riducendo al minimo i punti di giunzione. Per ottenere una sintesi naturale, i frammenti di voce devono poi essere concatenati in modo graduale e la loro prosodia, cioè il ritmo e l’intonazione con cui sono stati pronunciati, deve essere scelta accuratamente e modificata in modo da dare un risultato il più simile possibile alla voce umana. L’elemento prosodico è di importanza chiave per comprendere le più recenti evoluzioni della tecnologia di sintesi. Infatti, ciò che distingue i sistemi di sintesi di nuovissima generazione da quelli immediatamente precedenti è proprio il maggior grado di naturalezza del timbro vocale ottenuto grazie ad inventari di frammenti vocali molto più ampi, da cui il sistema riesce ad estrarre i più adatti a realizzare il messaggio di sintesi. Il progresso tecnologico nel campo delle memorie per computer ha facilitato l’avvento di questi sistemi di nuova generazione, che non hanno bisogno di limitare il numero, e quindi la dimensione, dei frammenti da concatenare. RICONOSCIMENTO DELLA VOCE Il riconoscimento della voce è una capacità umana che coinvolge diverse funzioni del nostro sistema nervoso: dai centri uditivi che raccolgono il segnale acustico, alle aree linguistiche del cervello che permettono la comprensione del significato del suono udito. Quando si parla di riconoscimento automatico della voce, si limita “automaticamente” il campo delle funzionalità ai livelli più semplici del processo umano: la percezione del suono, la classificazione dell’input in categorie finite e la sua rappresentazione in una sequenza simbolica che spesso, ma non necessariamente, coincide con la trascrizione ortografica delle parole. Riprendendo il paragone della sintesi che riproduce la funzione della lettura ad alta voce, il riconoscimento simula il processo di dettatura, con il nostro sistema nei panni di uno scolaro diligente che trascrive ciò che sente. Anche in questo caso, però, esiste un’importante limitazione: il sistema di riconoscimento è in grado di trascrivere solo ciò che sa, ovverosia solo le parole su cui è stato addestrato preventivamente. Ciononostante,il processo di riconoscimento automatico può includere anche un livello di processing sintattico e semantico, al fine di attribuire a parole diverse lo stesso significato (“voglio andare a Milano” o “desidero partire per Milano” sono semanticamente equipollenti). I riconoscitori si differenziano a livello funzionale: per le dimensioni del vocabolario: si va da qualche unità (cifre, SI/NO...) a diverse migliaia di parole per le modalità di addestramento: dai sistemi che devono essere addestrati per la voce di ogni parlatore a quelli pre-addestrati in modo statistico, indipendententemente dal parlatore per le modalità di input: a parole isolate (una sola parola alla volta) piuttosto che per il parlato continuo (più simile al linguaggio naturale). Questa articolazione è spiegata dall’estrema difficoltà del riconoscimento della voce, dovuta alla ricchezza di suoni e parole che compongono una lingua, nonché alla grande varietà di pronunce di un singolo suono. A ciò si aggiungono le difficoltà grammati- - 91 - I QUADERNI DI TELÈMA cali e semantiche, per cui la stessa parola può assumere funzioni e significati completamente diversi a seconda del contesto della frase (i marinai non hanno ancora levato l’ancora). TECNOLOGIE VOCALI E DISABILITÀ Noi tutti dipendiamo dalla tecnologia; in casa e al lavoro numerosi dispositivi ci permettono di essere autonomi. La stessa cosa vale anche per le persone portatrici di disabilità. È vitale riconoscere che l’utilizzo di tecnologie da parte dei disabili, se da una parte è per loro importantissimo, non è di per se stesso una eccezione, una ulteriore diversità. Ciò è ancor più valido per le tecnologie vocali, dal momento che tutti siamo ormai abituati ad aver a che fare con macchine che parlano o che registrano la voce. Benché nei capitoli precedenti si stato sottolineato come le similitudini tra il comportamento umano e alcune funzionalità assicurate dai computer nel campo della voce siano spesso superficiali, vedremo come queste funzionalità, se usate in modo corretto, possano essere utilissime per assistere l’uomo in alcune funzionalità quali: – la lettura – la comunicazione – Il controllo di dispositivi – il controllo dell’ambiente esterno Analizziamo separatamente le singole funzionalità correlate alle diverse tipologie di disabiltà. LETTURA I non vedenti e gli ipovedenti utilizzano ormai da anni i sistemi di sintesi da testo in grado di leggere qualsiasi testo. La sintesi è infatti l’unica alternativa al metodo di lettura tattile Braille, il quale richiede però testi stampati ad hoc, o dispositivi elettronici appositi molto costosi. La grande disponibilità di testi in formato elettronico e la diffusione di Personal computer dotati di dispositivi multimediali (schede audio, microfoni, cuffie) ha favorito negli ultimi anni l’utilizzo della sintesi da testo, che ha raggiunto una qualità spesso indistinguibile dalla voce umana naturale (per provare diversi esempi di voci di sintesi si può visitare il sito www.loquendo.com/it/demos/demo_tts.htm). Una delle applicazioni più comuni è l’accesso ai siti web; tramite la sintesi della voce, è infatti possibile accedere ad internet e leg- gere le informazioni contenute nelle singole pagine. Ciò a patto che i siti siano stati sviluppati tenendo conto delle raccomandazioni pubblicate dall’IWA sulla accessibilità dei siti (http://www.w3.org/WAI/). A questo proposito, in occasione dell’anno europeo del disabile, il parlamento italiano sta discutendo una proposta di legge per rendere obbligatoria la certificazione sull’accessibilità per i siti di istituzioni ed enti pubblici, come già avviene in altri stati. La lettura di informazioni non è limitata all’ambito web; sono ormai molti anni che servizi telefonici interattivi permettono l’accesso a voce a diversi tipi di informazioni utili. Fin dal 1998 Fs-Informa, il servizio telefonico automatico di Trenitalia permette l’accesso vocale all’orario dei treni 24 ore al giorno, utilizzando tecnologie vocali sviluppate da CSELT prima e da Loquendo più recentemente (entrambe realtà del gruppo Telecom Italia). Altri portali vocali sono stati recentemente sviluppati da operatori telefonici, e da enti pubblici quali Inps, Italgas, ufficio tributi del Comune di Roma, proprio per mettere a disposizione di chi non può leggere o accedere ad internet, ma può utilizzare un comune telefono, le informazioni ed i servizi disponibili già in rete. COMUNICAZIONE Anche in questo campo non mancano esempi di applicazioni di tecnologie vocali e sistemi sviluppati ad hoc o utilizzabili da disabili per comunicare. A questo proposito, si possono citare i sistemi ideati nell’ambito dei progetti finanziati dal MURST per permettere ai muti di comunicare a voce tramite sistemi che sintetizzano frasi. Benché questi metodi non possano sostituire l’uso del linguaggio dei segni o della lettura labiale per la comunicazione diretta, possono però essere un valido ausilio per la comunicazione telefonica, permettendo anche a chi ha problemi di linguaggio di interloquire in modo diretto con il corrispondente. Restano irrisolti al momento i problemi riguardanti i sordomuti perché, come si è visto in precedenza, il riconoscimento del parlato libero senza vincoli lessicali, tipico della comunicazione tra due persone, non è ancora tecnologicamente fattibile. Un’ulteriore applicazione della sintesi da testo è il suo utilizzo quale ausilio alla Comunicazione Facilitata, una tecnica che ha dato risultati positivi nel trattamento di pazienti au- - 92 - LE MACCHINE CHE PARLANO tistici. In questo caso, il bambino utilizza il computer, o un dispositivo apposito dotato di una tastiera semplificata, e la sintesi della voce per comporre i messaggi e comunicare con chi lo circonda. Il computer dotato di sintetizzatore vocale è inoltre usato come ausilio per l’apprendimento dai ragazzi affetti da dislessia (una patologia del sistema nervoso centrale che causa difficoltà/impossibilità di leggere). Ascoltando i testi letti dal computer, essi riescono ad imparare a casa le lezioni. Esistono infine software per la rieducazione dei bambini con difficoltà di produzione del linguaggio, che si appoggiano su algoritmi derivati dagli studi sui sistemi di sintesi e riconoscimento. Gli esercizi vengono effettuati attraverso un microfono collegato alla scheda audio del computer, e vengono presentati ai i più piccoli sotto forma di giochi. È prevista anche la possibilità di registrare lo svolgimento degli esercizi, una opzione molto utile per i logopedisti e per gli esperti della riabilitazione del linguaggio, che possono così analizzare, a posteriori e con l’aiuto del calcolatore, i progressi e le caratteristiche vocali dei loro pazienti. do così anche eventuali difficoltà derivate da difetti di pronuncia eventualmente legati alla disabilità. CONTROLLO DELL’AMBIENTE La domotica, l’ultima frontiera domestica dell’utilizzo del computer nel quotidiano, sta riproponendo su scala commerciale idee e soluzioni emerse con scopo di aumentare l’autonomia a disabili motori nell’ambiente domestico. Il fine ultimo è quello di poter controllare il funzionamento di elettrodomestici o attuatori servocontrollati con un computer. La voce, in questo caso, permette al disabile di comandare a voce i vari dispositivi, permettendogli cosi di aprire porte, accendere luci, telecomandare il televisore, accendere il forno e svolgere le semplici funzionalità indispensabili per vivere in modo autonomo. Lo sviluppo recentissimo di reti wireless domestiche (WIFI, Bluetooth..) potrà contribuire alla realizzazione di ambienti senza barriere a costi più contenuti, facilitando la diffusione di soluzioni controllate vocalmente che proprio nell’alto costo di impiantistica ed attuatori, ha trovato la più grande barriera. CONTROLLO DI DISPOSITIVI Il riconoscimento e la sintesi della voce possono essere utilizzati per facilitare l’accesso al PC; queste tecnologie sono integrate in software presenti sul mercato ormai da qualche anno e che recentemente hanno raggiunto buoni livelli di funzionalità. Benché questi software siano progettati per un pubblico vasto, essi hanno assunto un certo interesse anche come ausili per le persone con disabilità. Sviluppati soprattutto allo scopo di rendere ancora più veloce il lavoro d’ufficio, superando i problemi di lentezza nella digitazione, questi software permettono, in pratica, di gestire le funzionalità di base di un personal computer senza dover utilizzare la tastiera e si rivelano utili per quei disabili motori che hanno preservato integra la capacità di parlare. Vi sono esempi di utilizzo del riconoscimento della voce per permettere il controllo del selettore di direzione e velocità delle carrozzelle. Questi sistemi sono utilizzati da disabili motori gravi, per raggiungere una relativa autonomia di movimento. In questi casi si utilizza un sistema di riconoscimento speaker dependent, in grado di addestrarsi sulle caratteristiche della voce dell’utilizzatore, superan- CONCLUSIONE Lo studio della biologia ci ha insegnato che la differenziazione e la diversità nelle forme di vita è la vera ricchezza del nostro sistema biologico. D’altra parte, abbiamo appena sottolineato come il linguaggio sia un espressione così complessa e differenziata da rendere difficile anche ai più potenti sistemi di calcolo comprendere e dialogare utilizzando il linguaggio umano a meno di limitazioni lessicali o funzionali. La diversità come barriera e ricchezza: questo è quello che si ripropone come eterno binomio, ben noto alle persone disabili. Se finora la diversità/disabilità è stata prevalentemente barriera, per quanto riguarda le tecnologie vocali è già diventata in parte ricchezza in quanto fonte di stimolo al miglioramento tecnologico e per l’individuazione di nuove aree applicative in cui il progresso tecnologico sia strumento di autonomia. Ing. Giuseppe Castagneri Responsabile del gruppo di sviluppo delle interfacce vocali Loquendo Presidente APISB - 93 - I QUADERNI DI TELÈMA L’E-LEARNING E I CORSI DI ITALIANO PER STRANIERI Le tecniche di formazione a distanza di ultima generazione, che chiamiamo in generale e-learning, hanno introdotto nelle situazioni formative classiche l’uso del computer sia attraverso i supporti off line (principalmente floppy disc e cd rom, prossimamente DVD rom) sia attraverso l’accesso alla rete internet. Lo sviluppo dell’e-learning ha tratto particolare vigore dall’affermarsi delle teorie cognitiviste e costruttiviste, che pongono l’accento, fra l’altro, sul carattere individuale dei percorsi di apprendimento, sul ruolo attivo del discente, sull’importanza dell’interazione con gli altri discenti nel processo di apprendimento (collaborative learning) e sulla necessità di integrare il momento della valutazione nelle varie fasi di tale processo. È evidente che tutti questi aspetti sono presenti nelle metodologie didattiche basate sulle tecniche dell’e-learning: se a ciò si aggiunge il vantaggio individuale di poter scegliere il luogo e il momento più adatti all’apprendimento, si comprende come l’apprendimento delle lingue è oggi di gran lunga l’applicazione più frequente e maggiormente efficace. Se la lingua inglese fa ovviamente la parte del leone, si deve notare che anche chi è interessato all’apprendimento dell’italiano può trovare parecchie offerte in modalità e-learning. Una disamina, sia pure non esaustiva, delle offerte presenti sulla rete, può essere utile per offrire alcuni spunti di riflessione sugli aspetti positivi e i problemi aperti. WWW.EDSCUOLA.IT/STRANIERI.HTML - È un sito specificamente dedicato alla didattica nella scuola, a cui si accede dal sito www.edscuola.it. La pagina intitolata “Educazione interculturale e Didattica della Lingua italiana come Seconda lingua” è articolata in numerose voci: materiali, progetti, didattica della lingua, interviste e articoli, le novità editoriali, link e norme. WWW.SOCRATES-ME-TOO.ORG - Il sito presenta il progetto “Me Too - Anch’io. La multimedialità per il plurilinguismo e l’intercultura nelle scuole”, che si propone l’obiettivo di promuovere la diffusione del plurilinguismo sia della seconda lingua, sia delle varie lingue materne fra gli allievi figli di lavoratori migranti, nelle scuole di ogni ordine e grado. WWW.UNIVE.IT/PROGETTO ALIAS - ALIAS (Approccio Alla Lingua Italiana per Allievi Stranieri) - è un progetto di studio e di informazione, coordinato dall’Università Cà Foscari di Venezia, sul processo di integrazione linguistica degli allievi stranieri e di (auto)formazione dei docenti di italiano come seconda lingua. Contiene numerosi materiali, direttamente scaricabili. WWW.LOGOS.IT - Il Gruppo Logos ha reso disponibile gratuitamente dal proprio portale il primo dizionario multilingua per bambini. Il Dizionario dei bambini comprende 50 lingue. Oltre alla traduzione della parola è possibile vederne l’illustrazione, leggerne le definizioni e ascoltarne la pronuncia. http://www.italicon.it - Il portale della lingua italiana, offre corsi che consentono di imparare la lingua italiana o di migliorarne la conoscenza. I corsi sono realizzati da docenti delle Università consorziate (Aderiscono a ICoN le Università di Bari, Cassino, Catania, Firenze, Genova, Milano Statale, Padova, Parma, Pavia, Perugia per Stranieri, Pisa, Roma “La Sapienza”, Roma “Tor Vergata”, Roma Tre, Salerno, Siena per Stranieri, Teramo, Torino, Trento, Venezia; la Libera Università di Lingue e Comunicazione IULM di Milano, l’Istituto Universitario Orientale di Napoli, la Scuola Superiore di Studi Universitari “S. Anna” di Pisa e il Consorzio NET.T.UNO) I corsi prevedono diverse tipologie di servizi: tutoraggio di assistenza didattica, didattica modulare, possibilità di utilizzo on line e off line, lezioni ed esercitazioni didattiche interattive, correzioni automatiche, materiali didattici multimediali (audio, immagini, testi, filmati), test di autovalutazione, forum degli studenti http://www.individuallearning.it/site/m ade_in_italy.html - Made in Italy è il corso on line di italiano per stranieri progettato secondo le indicazioni del Quadro Comune Europeo. Il corso si articola in 7 livelli di apprendimento: 2 livelli principiante, 2 livelli intermedio e 2 livelli avanzato. È inoltre disponibile un livello zero, inferiore al livello principiante assoluto. Per stabilire il livello di partenza, è disponibile il test di ingresso. - 94 - LE MACCHINE CHE PARLANO A conclusione di ogni livello, è previsto un test di livello. Ogni lezione prevede approfondimenti di fonetica, grammatica, sintassi e lessico ed esercizi per le abilità di comprensione e produzione linguistica (ascolto, pronuncia, lettura, vocabolario e scrittura). In qualsiasi momento, lo studente può avvalersi del supporto didattico nella sua lingua (la prima lingua disponibile sarà l’inglese). Sono inoltre disponibili schede multimediali per far conoscere aspetti significativi dell’Italia e degli Italiani, consultabili gratuitamente nella versione lancio. http://www.educational.rai.it/ioparloitaliano/corso_35_38.htm - Io parlo italiano si articola in fasi diverse che sfruttano le opportunità offerte dalla comunicazione multimediale. Il corso è seguito dai corsisti raggruppati in classi di dieci-quindici partecipanti, assistiti dai tutor, che dopo la lezione televisiva, continuano il percorso didattico delle classi nell’ora successiva, grazie alla rete costituita dai Centri territoriali permanenti per l’educazione degli adulti. Le quaranta lezioni della durata di un’ora sono trasmesse dal canale satellitare tematico di Rai Educational a partire dal 22 gennaio 2001. http://www.cyberitalian.com/cgilocal/home_visitors.cgi - Un corso in cui il famoso burattino italiano e altri personaggi (Dante, Leonardo e tanti altri) insegnano l’italiano basandosi su un’idea divertente e efficace. Il corso offre 30 lezioni sempre a disposizione attraverso il collegamento Internet, una sezione grammatica, un glossario, articoli sull’Italia (Gallery) e collegamenti a siti d’interesse (Links) e l’area interattiva (Meeting rooms, Calendar e Profiles) per favorire l’interazione fra i membri di CyberItalian e incontrare elettronicamente il professor Pinocchio. http://corso.italica.rai.it/livello1/percorsi/unita/unita.xml - Altro corso della RAI. Il Corso di Lingua italiana, realizzato da DIDAEL S.P.A., è suddiviso in 72 lezioni divise in tre livelli Principiante, Intermedio, Avanzato. È possibile inoltre seguire le Lezioni del corso seguendo i percorsi per Unità, Funzioni, o Ambienti. Il corso è disponibile gratuitamente in 5 lingue: Inglese, Francese, Spagnolo, Tedesco e Portoghese. http://www.auralog.com/it/elearning.ht ml - Auralog è uno dei produttori di mag- gior successo di corsi di lingue su CD Rom. Recentemente ha arricchito la sua offerta formativa con sezioni on line dei propri corsi, con aule virtuali caratterizzate dalla presenza di tutor esperti. I maggiori punti di forza sono il metodo di Riconoscimento vocale che permette di valutare la corretta pronuncia, individua automaticamente gli errori (tecnologia S.E.T.S(r)) e li corregge e le Animazioni fonetiche in 3D per visualizzare l’articolazione delle parole. Quali conclusioni si possono trarre dall’esame di queste offerte in Internet? Innanzitutto il target di riferimento è estremamente variegato, per provenienza, caratteristiche sociodemografiche, competenze di base sia linguistiche sia tecnologiche. Ma la maggiore diversità risiede nelle motivazioni all’apprendimento, quelle motivazioni che costituiscono la base del “patto formativo” tra discente ed erogatore del corso e che rappresentano il fondamento dell’efficacia dei corsi. Dovrebbe infatti essere evidente che sono molto differenti le motivazioni di apprendimento, ad esempio, da parte di chi non risiede in Italia e fa parte di comunità linguistiche non italiane, ma è discendente di italiani da una o due generazioni, di chi è immigrato da poco in Italia e proviene da una comunità linguistica molto lontana per struttura e lessico, e di chi infine appartiene alla koinè delle persone colte affascinate non solo dalla lingua in senso stretto ma anche dalla cultura e dalla identità italiana, I livelli di interattività e multimedialità sono molto vari: in generale essi dovrebbero essere strettamente correlati agli scopi dell’intervento formativo e alle caratteristiche del discente. Istruzioni, commenti, guide passo passo nella lingua madre d’origine sono essenziali soprattutto nelle prime fasi dell’apprendimen- - 95 - I QUADERNI DI TELÈMA to, anche a livello scritto e non solo orale. Si deve anche tener conto, in parecchi casi, della non perfetta conoscenza dei caratteri latini, e della necessità quindi di offrire “tastiere virtuali” con caratteri non latini, dal cirillico al giapponese. Le piattaforme di erogazione dei corsi on line sono le più varie: uno dei massimi ostacoli allo sviluppo dell’e-learning è la lentezza con cui si diffonde lo standard internazionale SCORM, peraltro adottato ormai da tutte le maggiori piattaforme software di creazione autoriale, erogazione e aministrazione dei corsi. La presenza di aule virtuali (ed eventualmente reali) e di momenti di collaborative learning è ancora scarsa e poco strutturata. Ciò è un ostacolo grave, poichè ormai è ampiamente condivisa l’opinione che il successo dell’e-learning è favorito da soluzioni blended, in cui a momenti di autoformazione si alternano momenti di aula in gruppo. I test di valutazione all’ingresso, nelle fasi di apprendimento e al termine del corso non si appoggiano a sistemi di valutazione sufficientemente standardizzati e riconosciuti. È noto invece che il test linguistico effettuato nelle varie fasi dell’apprendimento è parte integrante del processo stesso e del patto formativo tra discente e insegnante: le piattaforme di e-learning, che permettono l’autoaccertamento eventualmente ripetuto, semplificano enormemente il processo, lo rendono trasparente al discente e ne “sdrammatizzano” l’effettuazione. D’altro canto questi test devono essere concepiti da chi progetta il corso tenendo ben presente i “syllabus” che presiedono al test di certificazione finale. La certificazione infatti non è soltanto un momento fon- damentale di accertamento condiviso delle competenze linguistiche, ma è in moltissimi casi la motivazione primaria per la frequenza ai corsi. Un discorso a parte merita l’utilizzo delle tecnologie TTS text to speech (che consentono di “far leggere” al computer con risultati soddisfacenti testi scelti, ad esempio, su appositi siti internet) e soprattutto SR speech recognition. Quest’ultima è ampiamente presente da anni in tutti i corsi di lingua su CD Rom, ma non è ancora stabilmente presente on line. È ovvia l’importanza di ST ai fini dell’autovalutazione dell’apprendimento, poichè una corretta pronuncia e intonazione costituisce un elemento fondamentale nella padronanza della lingua. I passi avanti sono stati notevoli. Ricordo che fino a pochi anni fa utilizzavo un metodo infallibile per far “fallire” tali sistemi: sottoponevo a misurazione la pronuncia di una mia redattrice e quella dell’insegnante madrelingua. Invariabilmente “vinceva” la redattrice, ma soltanto perché di formazione “teatrale” e abilissima quindi nell’“imitare” pronuncia e intonazione del testo di partenza. Solo con gli ultimi software a disposizione questi ostacoli sono stati superati. L’integrazione dei sistemi di speech recognition nelle piattaforme di erogazione dei corsi on line consentirà di integrare nel sistema di autoaccertamento delle competenze acquisite anche i test di pronuncia. In conclusione: grazie all’e-learning oggi l’apprendimento dell’italiano può essere più semplice, più efficace e meno costoso per le più diverse categorie di discenti. Prof. Paolo Parlavecchia E-Biscom - 96 -