Quattro passi nel futuro
Transcript
Quattro passi nel futuro
9 Quattro passi nel futuro Riconoscimento e sintesi vocale: un obiettivo sfuggente Salvatore Romagnolo - Roberto Saracco 9 Quattro passi nel futuro Riconoscimento e sintesi vocale: un obiettivo sfuggente Che brutta voce hanno i computer, eppure se c’è una cosa che sembra facile è la voce. Fino a quando non ci si pensa un attimo su! Impieghiamo diversi anni per arrivare a parlare la nostra lingua, spesso tutta la vita cercando di impararne un’altra. Per i computer il parlare è quanto di più innaturale ci sia. E poi, devono confrontarsi con una clientela praticamente incontentabile: noi. Telecom Italia Lab è la realtà di ricerca del Gruppo Telecom Italia. I suoi mille ricercatori operano per sviluppare innovazione e renderla rapidamente ed economicamente fruibile ai clienti del Gruppo. Centro di eccellenza da oltre quarant'anni nelle reti e nei servizi, ha contribuito alla definizione e affermazione del GSM, dell'Mp3 e della trasmissione ottica. Oggi continua a creare innovazione nei suoi laboratori progettando l'evoluzione della rete di accesso fissa, mobile e di trasporto. Grande impegno viene dedicato allo sviluppo di servizi e piattaforme sia per il cliente finale sia per le imprese che vedono nella rete di telecomunicazioni del futuro l'elemento abilitante per competere sul mercato a livello mondiale. In stretto collegamento con università, centri di ricerca, e industria, Telecom Italia Lab avvicina il futuro con servizi avanzati in molti settori dal mobile al multimediale, per la casa e per l'impresa, garantendo qualità e sicurezza. “Progetto Italia” è un mondo di eventi pensato dal Gruppo Telecom Italia, un concreto impegno dell'impresa nel progresso sociale e civile del Paese. Per questo Progetto Italia dà supporto alla ricerca scientifica, alla cultura, alla formazione, alle iniziative sociali e a quelle sportive, abbracciando geograficamente tutto il territorio nazionale. Nel settembre 2002 ha dato vita al Telecom Italia Future Centre a Venezia, un luogo che aiuta a immaginare il futuro e a come influenzerà i nostri comportamenti e le relazioni sociali. Situato in pieno centro nell'ex convento di San Salvador, il Future Centre si presenta come un laboratorio interattivo basato su una logica di tipo emozionale: vedere, toccare, sperimentare le nuove tecnologie, ma anche possibilità di seguire mostre e ascoltare cicli di conferenze. Salvatore Romagnolo, giornalista, saggista ed esperto di comunicazione online, è direttore di Apogeonline.com. Collabora con "La Stampa", per la quale cura due rubriche settimanali su Internet e le nuove tecnologie. È autore di diversi saggi sui nuovi media e il giornalismo online ed editore di Nomadvillage.it, il primo magazine online italiano interamente dedicato alla mobilità Hi-Tech. Roberto Saracco è responsabile per la comunicazione scientifica in TILAB. Nei suoi oltre trent'anni nel settore delle telecomunicazioni è stato ricercatore prima nel settore tecnico e poi in quello economico. Per molti anni ha lavorato in un contesto internazionale, guidando tra l'altro un progetto della Banca Mondiale in America Latina per stimolare l'adozione delle nuove tecnologie. È autore di diverse pubblicazioni sulle nuove tecnologie e sul loro impatto sul business. Riconoscimento e sintesi vocale: un obiettivo sfuggente D otare delle macchine – in particolare i computer - di funzioni di riconoscimento e sintesi vocale, significa, in buona sostanza, fornirli di orecchie tramite le quali ascoltare e bocche grazie alle quali parlare. E, ovviamente, un “cervello” grazie al quale riuscire a comprendere e farsi comprendere. In buona sostanza, si tratta di renderle realmente comunicanti, in grado di interagire con degli essere umani – ma anche con altre macchine dotate delle stesse prerogative – utilizzando l’interfaccia più complessa, ma per noi più semplice: la voce. Le ricerche in questo campo hanno fatto enormi progressi, sia sul versante del riconoscimento sia su quello della sintesi vocale. E significativi progressi sono stati anche fatti nel settore dell’intelligenza artificiale. Nonostante ciò, la meta, pur sembrando sempre più vicina, non è stata ancora veramente raggiunta. A rendere ulteriormente sfuggente l’obiettivo non è solo la strada che ancora ci separa dall’obiettivo stesso, ma anche il fatto che non tutti condividono l’idea che le interfacce umane siano sempre le più adatte alla comunicazione con le macchine. Ad esempio, secondo uno studio condotto da Jupiter Parlare con il computer: è un’esigenza sentita dagli utenti? 7 Quattro passi nel futuro Media Metrix, chi sta investendo nel riconoscimento vocale per i dispositivi wireless potrebbe prendere una considerevole cantonata. Dall’indagine emerge che meno del 40% degli utenti preferisce utilizzare il comando vocale in luogo della tastiera o del display. Si potrebbe trattare di un’abitudine consolidata che nel Parlare con il computer: è un’esigenza tempo cambierà, ma l’indagisentita dagli utenti? ne rileva che sono anche i più giovani a preferire il touch-tone. Secondo Jupiter Media Metrix i voice portal, i voice browser e in generale il voice Web, non sono per ora settori vincenti, se non per quelle applicazioni particolari (come i terminali in automobile) che richiedono la possibilità di non utilizzare le mani mentre si accede ai servizi e ai contenuti. I consumatori, almeno stando ai dati di questa ricerca, non sono molto attratti dalla “conversazione” con le macchine: se devono dare un comando al loro telefonino, preferiscono schiacciare un tasto. Di avviso leggermente diverso il fondatore della Microsoft. Secondo Bill Gates, entro 10 anni le tecnologie di riconoscimento vocale si affiancheranno a mouse e tastiera. Gates ha affrontato il tema in occasione del lancio del primo server Microsoft basato su una tecnologia di riconoscimento vocale: Speech Server 2004. Tramite questa piattaforma, che si sposa con le tecnologie di sintesi vocale già integrate in Windows, Microsoft spera di ritagliarsi una grossa fetta del nascente mercato legato alle interfacce vocali. “Entro 10 anni” sostiene voce. Cose come la voce e naturale di interagire con un giungeranno il giusto livello Gates “tutti i terminali supporteranno la l’inchiostro elettronico1 sono il modo più computer. Quando queste tecnologie ragdi affidabilità, si diffonderanno ovunque. 1 L’inchiostro elettronico è una tecnologia che simula il sistema di scrittura tradizionale. L’inchiostro, in questo caso, non è contenuto nella penna, ma nel display stesso, sul quale si scrive utilizzando uno stilo. Il vantaggio è quello di scrivere in modo naturale, ottenendo, però, la digitalizzazione immediata di quanto si è scritto. 8 Riconoscimento e sintesi vocale: un obiettivo sfuggente Dettare un testo al Pc o comandare uno smartphone con la voce” sostiene Gates “diverranno modalità d’interazione sempre più comuni. La tastiera non scomparirà, ma gli utenti utilizzeranno diverse metodologie: parleranno, digiteranno e scriveranno con l’inchiostro elettronico”. Il numero uno di Microsoft ha comunque ammesso che per raggiungere questo obiettivo la tecnologia di riconoscimento vocale dovrà ancora superare diversi limiti, come la difficoltà di distinguere parole con pronuncia molto simile e l’attuale incapacità di comprendere il contesto di frasi e parole. Gates ha spiegato che le tecnologie di riconoscimento vocale trovano terreno particolarmenBill Gates mostra un te fertile in quelle nazioni, come Cina e Tablet Pc Giappone, che utilizzano alfabeti poco adatti alla tastiera, e prevede che in questi paesi le tecnologie di riconoscimento vocale si diffonderanno con tre o quattro anni di anticipo rispetto ai paesi che hanno una scrittura non basata su ideogrammi. MA DI COSA STIAMO PARLANDO? Prima di continuare nel discorso, diamo una rapida definizione dei due campi di ricerca. Per riconoscimento vocale (speech recognition) si intende l’utilizzo di computer per riconoscere il significato del parlato umano2. Come già si diceva, nonostante gli enormi progressi fatti, spesso l’operazione non risulta molto agevole. La pronuncia degli stessi termini da parte di soggetti diversi può venire interpretata differentemente dal computer. Molti sistemi di riconoscimento vocale devono, quindi, essere “addestrati” a riconoscere voci e modi di pronunciare diversi e il riconoscimento vocale “speaker indipendent” è attualmente il meno efficace. Ovviamente, l’operazione più difficile per la macchina è comprendere, oltre che i singoli termini, anche il contesto, tutti i “significati” di una conversazione. Il livello di sfumature di una conversazione tra 2 In genere tuttavia si intende con riconoscimento vocale la capacità di convertire un parlato in uno scritto. Questo è ovviamente una sottovisione rispetto al più difficile aspetto di comprensione del significato. 9 Quattro passi nel futuro umani sono molto sottili, al punto che, come nel caso dell’ironia (fare un’affermazione per intendere il suo esatto opposto), non sempre vengono colte dagli umani stessi. Riuscirà mai il computer, oltre a comprendere i singoli termini a capire di cosa si sta parlando? La domanda è aperta e le ricerche nel campo della sintesi e del riconoscimento vocale non potranno fare significativi progressi se non sfruttando quelli compiuti nel settore dell’intelligenza artificiale. Ma esistono campi di applicazione dove riconoscimento e sintesi vocale hanno già raggiunto una certa maturità. È l’ambito dei dispositivi per i portatori di handicap: ciechi o paraplegici non possono fare uso delle mani per digitare tramite una tastiera e per loro i software di riconoscimento e sintesi vocale sono ormai diventati, pur con alcuni limiti, strumenti di uso quotidiano. La sintesi vocale è la generazione del parlato da parte di un computer. Inizialmente veniva gestita da hardware appositamente concepiti; oggi viene prodotta da software per Pc dotati di scheda audio. Questa tecnologia risale agli anni Sessanta e mentre nei primi anni la voce sintetica aveva un livello qualitativo piuttosto basso, oggi risulta spesso indistinguibile da quella umana. I progressi fatti in questo campo non sono andati di pari passo con gli sviluppi nel settore dell’intelligenza artificiale. Quindi, un computer oggi può parlare con una bella voce e un’appropriata pronuncia, ma non è in grado di tenere conto del contesto, cioè di instaurare una reale conversazione. In un qualche senso, potremmo dire che parla bene, ma solo su “dettatura”. Anche in questo campo, le applicazioni più utilizzate sono quelle indirizzate ai portatori di handicap e in particolare i non vedenti che utilizzano appositi “screen reader”, software in grado di leggere a voce alta quanto visualizzato da un monitor, anche nel caso si tratti di siti Web o messaggi di posta elettronica. Attori del cinema muto 10 Quando si persona poco genere si fa qualcuno che parla di una espressiva, in riferimento a non comunica Riconoscimento e sintesi vocale: un obiettivo sfuggente in modo adeguato con il proprio volto e con la propria voce. Parla cioè in modo monotono, utilizzando poco le variazioni di tono e non cambiando espressione del viso. Gli attori, anche se fingono, utilizzano al meglio entrambe le forme espressive: modulano in modo efficace il tono della loro voce e assumono con il viso espressioni appropriate, risultando spesso enormemente più comunicativi, più credibili, di chi non parla all’interno di una finzione. L’importanza delle espressioni visive nella nostra comunicazione è tale che gli attori del cinema muto sopperivano alla mancanza del sonoro con una accentuata mimica facciale. Oggi quel tipo di recitazione ci risulta grottesca, a volte comica anche nelle situazioni tragiche, ma rispondeva a una precisa esigenza. UNA TELEFONATA TRA SORDI Anche una software house israeliana si è mossa nello stesso campo e ha messo a punto un prodotto che rende possibile l’uso dei telefoni anche da parte dei non udenti. L’operatore Cellcom e la start-up SpeechView propongono, infatti, il software LipCcell, installabile nel computer dell’utente con problemi di udito. Il computer, a sua volta, viene connesso a un telefono mediante un cavo. Quando l’utente riceve una telefonata, il software provvede a convertire la voce proveniente dall’altro capo del cellulare in movimenti delle labbra nell’immagine tridimensionale di un volto. Le labbra dell’imFunzionamento del software LipCcell magine si muovono in tempo reale e l’utente sordo riesce a leggerne i movimenti. Per adesso il software può essere utilizzato soltanto su un Pc, ma in un prossimo futuro è già prevista una versione per PDA (Personal Digital Assistant o computer palmare). Ovviamente, è necessaria una fase di addestramento per interpretare correttamente il movimento delle labbra. Il software può essere utilizzato in qualsiasi lingua ed è stato realizzato da Nachshon Margaliot, un tecnico informatico che era stanco di lavorare con un collega debole d’udito. 11 Quattro passi nel futuro QUELLO SCHERMO CHE NON POSSO VEDERE Ronnie Milsap è uno degli artisti country più conosciuti negli Stati Uniti, ma ha sempre sofferto di un grave problema: cieco dalla nascita, ha dovuto affidare alla voce e all’udito la sua interazione col mondo esterno. Circa quattro anni fa, però, ha fatto una grande conquista: quella di poter chiacchierare con i suoi fan utilizzando Internet. Per farlo si è fatto installare un software di riconoscimento vocale per scrivere, e uno di sintesi vocale per leggere. Nonostante le e-mail adesso lo sommergano, si sente in una dimensione nuova e dice che “non c’è nulla di meglio di Internet per la spontaneità e la semplicità di accesso alla comunicazione”. Milsap è da tempo una delle più note star della musica country americana e sin da giovane ha nutrito un’autentica passione per i computer. Il passaggio dalle interfacce testuali a quelle grafiche è stato, però, un trauma: lui, come molti altri non vedenti, ha dovuto immaginarsi un mondo nuovo su quello schermo che non riesce a vedere. “Mi piacerebbe molto vederlo” dice “ma anche così posso accedere praticamente a ciò che voglio”. Tra le sue attività preferite, quando è in viaggio, c’è quella di ascoltare - in streaming tramite il suo computer portatile - la stazione radio WSM di Nashville, la città dove vive e lavora. Curtis Chong, direttore tecnico della Federazione Nazionale Ciechi degli Stati Uniti, sostiene che “c’è una sensazione diffusa che se sei cieco, non puoi avere un computer e, generalmente, stai lì senza lavorare. Invece, il sito di Milsap dimostra che lui c’è e fa davvero tante cose. Spero che grazie a questo la gente si dimentichi, almeno temporaneamente, che è cieco e lo veda per quello che è davvero, e cioè un ottimo musicista”. IL RICONOSCIMENTO VOCALE SALE IN MACCHINA Uno dei campi privilegiati di utilizzo dei sistemi di sintesi e riconoscimento vocale è quello automobilistico. Contrariamente a quando succe12 Riconoscimento e sintesi vocale: un obiettivo sfuggente de in ufficio o a casa, una persona che guida è spesso sola e con le mani occupate a svolgere un’attività molto delicata, quella di condurre un mezzo appunto. Guidare, oltre a impegnare le mani, richiede concentrazione e lo sguardo fisso sulla strada. Almeno queste sono le buone regole di guida che tutti gli automobilisti dovrebbero seguire. Non potendo togliere le mani dal volante e non dovendo distogliere Il cruscotto dell’Acura RL, lo sguardo dalla strada, la possibiche integrerà il riconoscimento vocale di IBM lità di interloquire, ad esempio, con un navigatore GPS tramite la voce e non digitando un indirizzo a mano, può risultare, oltre che comodo, anche molto più sicuro. Per questo motivo IBM e Honda hanno stretto ormai da tempo una partnership per lo sviluppo di applicazioni automobilistiche di questo tipo. L’accordo prevede che Honda (che detiene anche il marchio Acura) si impegni a integrare, con l’aiuto di Big Blue, sistemi di riconoscimento vocale basati sul celebre software IBM ViaVoice. In questo modo chi guida non dovrà più distogliere lo sguardo dalla strada per “comunicare” con l’automobile o con il navigatore satellitare, ma potrà utilizzare comandi vocali anche per effettuare azioni complesse. Attualmente, numerosi sistemi di navigazione satellitare per automobili dispongono di apparati di sintesi vocale per l’output dei dati e dei comandi direzionali, ma l’idea di Honda e IBM è di applicare la tecnologia in senso inverso, mettendo l’automobile in grado di comprendere i comandi del pilota e non viceversa. I primi modelli equipaggiati di questa opzione saranno commercializzati a partire dal 2005 a un costo aggiuntivo di 2.000 dollari. Su alcuni modelli di punta il sistema verrà installato di serie. Big Blue sostiene di aver ottimizzato gli algoritmi di riconoscimento vocale impiegati sulle auto di Honda per filtrare quanto più possibile i rumori di fondo ed offrire un’accuratezza molto elevata senza la necessità di istruire il software. Il risultato, secondo l’azienda, è che il guidatore potrà chiedere informazioni al navigatore satellitare utilizzando un linguaggio naturale. Ad esempio, sarà possibile chiedere: 13 Quattro passi nel futuro “Guidami fino al ristorante cinese più vicino”. Il computer risponderà all’utente attraverso un motore di sintesi vocale o, in alternativa, attraverso messaggi scritti e segnali luminosi. IL GESTO AL POTERE Sony e Toshiba si stanno dedicando allo sviluppo del concetto di Intelligenza Ambientale. Obiettivo: semplificare al massimo l’utilizzo degli oggetti di casa. I ricercatori dei due colossi giapponesi hanno studiato una serie di applicazioni in grado di sfruttare i principi dell’Intelligenza Ambientale, con l’obiettivo di sviluppare nuove interfacce quali rivelatori ambientali e software di sintesi e di riconoscimento vocale. In altre parole, l’obiettivo è quello di utilizzare tutte le interfacce umane; non solo la voce, ma anche i gesti. Infatti, oltre ad accompagnare i nostri discorsi con le espressioni del viso, spesso ci affidiamo, per arricchire la nostra espressività, alle mani. Gesticolare fa parte integrante del nostro modo di comunicare e anche per chi non ha perso l’uso della parola, “illustrare” a gesti quanto dice risulta spesso irrinunciabile. Soprattutto per noi italiani che abbiamo fatto della gestualità quasi un’arte oratoria. All’interno del progetto avviato con Toshiba, Sony ha messo a punto un lettore di Cd che si presenta come un semplice supporto su cui posare il Cd stesso, ancora all’interno della sua custodia. Appena il Cd si trova sul supporto, la lettura prende avvio, senza che sia necessario estrarre il Cd dalla custodia, inserirlo nel lettore, eccetera. Inserire il Cd: un gesto che potrebbe non essere più necessario 14 Il contenuto del Cd, in realtà, è conservato su un server collegato all’impianto hi-fi, mentre la custodia del Cd contiene un chip identificativo (RFID, Radio Frequency Identification), che viene letto dal supporto. Ecco svelato il mistero, altro non è se non la lettura del chip che consente l’avvio alla lettura dei file contenuti nel server. Una sorta di “comando” indiretto: ponendo il Cd sul lettore, faccio comprendere allo stesso, con un Riconoscimento e sintesi vocale: un obiettivo sfuggente semplice gesto, che intendo ascoltarlo. Da parte sua, Toshiba ha sviluppato un sistema che permette, teoricamente, di eliminare tutti i commutatori presenti in una casa. Grazie a un accelerometro, accoppiato a un modulo Bluetooth, la mano dell’utente è seguita da un server informatico, capace di riconoscere i comandi sotto forma di gesti (le informazioni di posizione e d’accelerazione sono inviate al Pc tramite onde radio). Così, la luce si accende quando l’utente punta il dito verso la lampada, si abbassa di intensità se pone la mano su una poltrona, aumenta nuovamente d’intensità quando girano le pagine di un libro. Ecco ciò che potrebbe definirsi “potere del gesto”. Un grande potere che, forse, noi italiani, popolo di poeti, navigatori, santi, chiacchieroni e grandi gesticolatori, dovremmo imparare a gestire con molta attenzione. IL WEB IN CERCA DI STANDARD Il World Wide Web Consortium (W3C) è l’organismo deputato a varare gli standard da utilizzare sul Web. Si tratta di un compito delicato, ma di primaria importanza. Internet, infatti, deve il suo successo, la sua grande diffusione, al fatto di essere una piattaforma aperta, accessibile tramite qualsiasi computer a prescindere dal sistema operativo utilizzato. Purtroppo, però, interessi commerciali e standard aperti fanno a pugni; così, con l’aumento degli utenti e degli interessi economici, la Rete è diventata un terreno di battaglia tra i colossi dell’informatica mondiale. Uno degli effetti collaterali di questa guerra commerciale è che Internet non è più una piattaforma così aperta come un tempo. Accedere, ad esempio, a un sito Web con browser differenti, fornisce spesso visualizzazioni diverse e alcuni servizi sono fruibili online solo utilizzando appositi programmi aggiuntivi. Questo ha creato grossi problemi a molti utenti, soprattutto quelli meno smaliziati e con computer più antiquati e, naturalmente, ai portatori di handicap, non vedenti per primi. Per ovviare a questi problemi, il W3C ha recentemente approvato due specifiche riguardanti il proprio Speech Interface Framework: una serie di standard utilizzabili per creare servizi Web utilizzabili tramite un telefono o una tastiera a toni. Le due nuove specifiche sono il Voice Extensible Markup Language e la Speech Recognition Grammar Specification. 15 Quattro passi nel futuro La specifica VoiceXML è stata progettata per creare dialoghi basati sulla sintesi vocale, l’audio digitalizzato, il riconoscimento della voce e dei suoni DTMF dei tasti del telefono, la registrazione del parlato, la telefonia, ed un mix fra vari tipi di conversazione. Questo standard semplifica la creazione di servizi attivati vocalmente, come ad esempio l’accesso voce e telefonico a database di call center e intranet aziendali. La specifica SRGS permette, invece, agli autori di applicazioni basate sulla voce, di creare regole che descrivano cosa ci si aspetta che gli utenti dicano dopo aver ascoltato le opzioni messe a disposizione dall’applicazione. Un utente, ad esempio, può rispondere “sì”, “sicuro”, “d’accordo” e la specifica conTim Berners-Lee, presidente del W3C sente di gestire tutte le diverse combinazioni di parole che gli utenti probabilmente utilizzeranno in un certo contesto. Il completamento di VoiceXML 2.0 e SRGS, segna il raggiungimento di una tappa importante nella convergenza tra le tecnologie di telecomunicazione e il Web. “In passato” ha affermato Tim Berners-Lee, direttore del W3C, “per limiti sia culturali sia tecnici, i sistemi basati sulla voce e il Web si sono evoluti lungo strade che non si sono mai incrociate. Con lo sviluppo dello Speech Interface Framework, ora siamo in grado di integrare entrambe le tecnologie, voce e Web, e beneficiare del loro sodalizio”. Non siamo in molti, sulla terra, ad avere il dono della parola. Certo, 6 miliardi di persone, qualche centinaio di milioni di scimmie e cetacei fanno un bel numero, numero che però scompare a confronto con il resto del mondo animale. 100 miliardi di formiche non parlano, perlomeno non nel modo in cui “noi” definiamo “parlare” e le formiche non rappresentano che una piccolissima parte della bio massa terrestre. Certo chi ha avuto modo di interagire con alcuni tipi di pappagallo si sarà sentito dire che questi parlano ed effettivamente …parlano, o per- 16 Riconoscimento e sintesi vocale: un obiettivo sfuggente lomeno questa èl’impressione che abbiamo. Sono però simili a dei registratori in grado di ripetere dei suoni, e non diremmo mai che un registratore parla. Esiste quindi nel parlare una qualità che va oltre i suoni che caratterizzano questa forma di comunicazione. In genere al parlare associaIl pappagallo ha la voce ma... non parla mo l’aspetto del significato. Si dice “straparla” per indicare una persona che dice cose fuori dal contesto. In questo caso siamo tuttavia ancora in presenza di un qualche contesto, quello del parlatore che non èperò condiviso da chi ascolta. La comprensione del contesto è quindi un elemento importante nel linguaggio. La voce, possiamo dirlo veramente, ha molti volti. Ci sono i dialetti, c’è il modo di parlare di una particolare persona diverso da quello di tutte le altre. Qualunque sia il linguaggio con cui parliamo l’elemento base ècostituito dalle parole, ovvia quindi la loro importanza. Questa, però, cambia da linguaggio a linguaggio. In italiano, ad esempio, le parole hanno una importanza minore rispetto a quella che rivestono in inglese. L’inglese ha oltre 500.000 parole, l’italiano ne ha meno di 150.000. La capacità di espressione dell’italiano non èinferiore a quella dell’inglese e questo è possibile perché le parole…non sono tutto. La comunicazione infatti utilizza oltre alle parole la struttura della frase; la strutturazione della frase in italiano è molto più sofisticata di quella dell’inglese. In italiano, ci insegnano a scuola, non bisogna ripetere la stessa parola in una frase e possibilmente neppure in frasi consecutive, occorre usare dei sinonimi. In inglese, invece, ogni parola corrisponde ad un significato e se si vuol dire “quello” occorre usare “quella” parola. Gli italiani che parlano in inglese tipicamente fanno l’errore di usare parole diverse per esprimere lo stesso concetto. Questo causa notevole confusione in chi ascolta. 17 Quattro passi nel futuro Parola e struttura sono quindi elementi fondamentali nel parlare. Ma non basta. È altrettanto importante l’intonazione della comunicazione. In cinese il volume con cui viene pronunciata una parola ne cambia il significato. Ad esempio il suono “ma” se pronunciato a basso “volume” significa mamma, se a volume medio basso significa difficoltà, a livello medio alto significa cavallo e a livello alto significa sgridata. Anche in italiano il pronunciare una parola con un volume e un tono diverso può cambiare il significato. Dire mamma sottovoce può esprimere dolcezza mentre urlarlo può significare richiesta di aiuto, ma sempre di mamma si tratta, non di un cavallo. La lingua parlata, quindi, varia da regione a regione. Al mondo si contano circa 6600 linguaggi ma pur nella loro diversità questi hanno in comune una infrastruttura che consente il loro utilizzo: la vocalizzazione delle idee e la comprensione della vocalizzazione, cioè la comunicazione tra di noi. Il linguaggio parlato è una facoltà comune a tutti gli uomini senza eccezioni, non così è il linguaggio scritto. Alcune popolazioni, che facilmente tendiamo a definire “primitive” non conoscono la scrittura, come ad esempio gli aborigeni australiani. Anche se il linguaggio scritto è una forma diversa di comunicazione, “inventata” dall’uomo piuttosto che nata insieme all’uomo, esiste una certa correlazione tra queste due forme di comunicazione che nel tempo si sono condizionate a vicenda. L’assenza di un linguaggio scritto presso gli aborigeni australiani spiega, secondo gli antropologi, la particolare forma del linguaggio parlato che questi hanno sviluppato, un linguaggio basato su storie e canti con una struttura della frase molto diversa dai linguaggi che hanno un corrispondente scritto. La flessibilità e familiarità del linguaggio parlato sono elementi che hanno spinto i ricercatori a studiare delle tecnologie vocali artificiali per dare questa facoltà anche ai calcolatori (e in futuro a qualunque oggetto) immaginando che questo avrebbe portato ad una migliore possibilità di interazione tra noi …e loro. I progressi nel settore delle tecnologie vocali sono stati notevoli, basti pensare a quante macchine oggi parlano con noi, dai call center a piccoli elettrodomestici. Eppure HAL, il computer che in 2001 Odissea nello spazio parlava con l’astronauta, non c’è ancora. Facciamo allora il punto su queste tecnologie e soprattutto sulle loro applicazioni future, ma per comprendere quali siano gli approcci seguiti e le prospettive 18 Riconoscimento e sintesi vocale: un obiettivo sfuggente occorre tornare a chi rappresenta il meglio nelle tecnologie vocali, cioè a noi stessi. COME FACCIAMO A PARLARE E AD ASCOLTARE? La comunicazione tra noi e il nostro ascoltatore inizia all’interno del nostro cervello e finisce all’interno del suo. È importante capire come la comunicazione non si svolga tra una bocca ed un orecchio. Tra questi due abbiamo un insieme di onde (sonore) che fungono da trasporto ma la parte “pregiata” della comunicazione avviene a monte e a valle, per così dire. Quando decidiamo di parlare si mettono in moto nel nostro cervello una varietà di processi che portano alla elaborazione del linguaggio in un’area, quella di Wernicke, che consente il passaggio dalle idee (dallo stimolo a comunicare) ad una struttura linguistica di base. Un malfunzionamento in quest’area rende la comunicazione linguistica impossibile, in qualunque forma, scritta e parlata. Questa struttura linguistica viene trasferita nel caso del linguaggio parlato all’area di Broca deputata alla conversione in parole vocalizzate. Se quest’area non funziona non riusciamo a parlare ma è comunque possibile scrivere. Il controllo dei diversi muscoli che consentono di modulare i suoni, a partire da quelli che controllano il volume di espirazione dei polmoni, viene effettuato da altre aree cerebrali. Questa prima parte della comunicazione, la vocalizzazione, è stata oggetto dei primi studi dei ricercatori a partire dagli anni 70 con l’obiettivo di realizzare un sistema meccanico elettronico in grado di sintetizzare la voce, a partire da un testo scritto che rappresenta in qualche modo l’equivalente del prodotto della elaborazione dell’area di Wernicke (anche se in realtà questa è una rappresentazione molto grossolana). Rappresentazione dell’andamento delle frequenze di una voce umana (uomo in basso, donna in alto) nel dire la frase “domain mattina”. Il primo approccio seguito dai ricercatori è stato cercare di realizzare un equivalente degli apparati di fonazione umani, quindi di modellare l’aria emessa dai polmoni, le corde vocali, l’orofaringe. In questo modo avrebbe dovuto essere possibile ottenere una vocalizzazione equivalente a quella umana. I risultati sono stati per un verso notevoli, 19 Quattro passi nel futuro I polmoni sono il motore che produce l’aria usata per parlare. La vocalizzazione avviene tramite le corde vocali, labbra e lingua, principalmente, sotto comando di alcune zone del cervello. Le onde sonore prodotte sono rilevate dall’orecchio e trasmesse al cervello per la loro compresione. ricordiamo lo stupore delle persone nei primi anni 70 nel sentire parlare un calcolatore…Dall’altro canto a risentire oggi quei primi tentativi viene da sorridere e ci si stupisce dello stupore delle persone di allora per un risultato che era, ascoltato con le orecchie di oggi, del tutto insoddisfacente. Quei calcolatori non riuscivano a fornire una voce credibile ma non avevano difficoltà a assumere una voce bassa o alta, quindi assimilabile a quella di un uomo piuttosto che ad una donna (l’una risulta circa una ottava più bassa dell’altra) e erano più piacevoli da ascoltare quando li si faceva cantare piuttosto che parlare. Inoltre erano in grado di emettere in contemporanea decine di voci come fossero tante persone che parlavano in contemporanea. Questa loro caratteristica li rendeva molto bravi a fare dei cori… Simulare il nostro apparato di fonazione si è rivelato non solo complesso ma soprattutto inutile in quanto se non si interveniva a monte il risultato non poteva che essere di bassa qualità, e soprattutto ben poco somigliante alla voce umana. D’altronde persone che soffrono di alcuni deficit cerebrali, come nel caso dell’autismo, parlano con una voce monocorde che sembra altrettanto innaturale. Il motivo di questa voce così diversa da quella cui siamo abituati è da ricercare nel fatto che le frasi, le parole e le sillabe che pronunciamo 20 Riconoscimento e sintesi vocale: un obiettivo sfuggente Alla frequenza associata ai suoni di una vocalizzazione, nella figura quelli relativi alla parola buongiorno, si associa una variazione della potenza dei singoli componenti del suono, rappresentato nella parte inferiore del diagramma. Il nostro cervello è molto sensibile a queste variazioni ed una loro difformità rende la voce di un calcolatore decisamente innaturale. sono non solo il risultato di onde sonore con una certa frequenza ma anche il risultato di minime, ma importanti, variazioni di potenza (volume) alle varie componenti della vocalizzazione. Questi insiemi di componenti sono detti formanti e i ricercatori nella seconda metà degli anni 70 hanno iniziato ad utilizzare dei generatori di formanti abbandonando il tentativo di simulare l’apparato di fonazione umano. Questo ha consentito un certo progresso nella qualità della voce artificiale che continuava, però, ad avere caratteristiche distanti da quella umana. Nel frattempo il progresso della capacità elaborativa e, soprattutto, della capacità di memoria, permettevano un approccio completamente diverso alla sintesi della voce. Visto che l’obiettivo era ricreare la voce umana perché non partire direttamente dalla voce umana, decomponendola in piccoli frammenti che potessero essere poi riassemblati a seconda del bisogno? Questo approccio, ancora attuale oggi, ha consentito enormi progressi nella qualità della sintesi vocale (http://www.loquendo.com). La voce dei sintetizzatori di oggi, in Italia Loquendo ne produce alcuni tra i più sofisticati in assoluto al mondo, ha una qualità che per gli addetti ai lavori è stupefacente mentre per ciascuno di noi è una buona approssimazione della voce umana. Questo è un mistero. Come è pos21 Quattro passi nel futuro Un esempio di spettrogramma e della corrispondente forma d’onda per le parole “domani mattina”. Le differrenze tra una voce maschile e una femminile, nella pronuncia della stessa frase. Il tono fondamentale di una voce femminile è circa di un’ottava superiore alla voce maschile. sibile che si parta da una voce umana e quando si ricompongono i frammenti non si ottenga esattamente una voce umana? È come dicessimo che affettiamo una mela poi la ricomponiamo rimettendo insieme i vari pezzi in modo assolutamente preciso ma quello che otteniamo è una pera! Il fatto è che nuovamente entra in gioco la parte alta del processo di vocalizzazione. La nostra voce si modula sulla base di quello che vogliamo dire, di quello che “sentiamo” in quel momento, dell’interlocutore che abbiamo di fronte. È il significato oltre alla nostra “personalità” che rende unica la nostra voce. Il fatto che la voce di ciascuno sia unica fa venire in mente che dovrebbe essere possibile riconoscere ciascuno di noi sulla base della voce. In effetti gli studi in questo settore sono abbastanza avanzati e si vedono i primi risultati. È possibile farsi riconoscere dal proprio telefonino senza dover introdurre una parola chiave e in prospettiva, ma ci vorrà ancora qualche anno, anche dalla nostra banca per effettuare in tutta sicurezza e con grande semplicità le transazioni. I problemi in questo settore sono da un lato la necessità di avere l’assoluta sicurezza che nessun altra persona possa essere scambiata per noi (i cosiddetti falsi 22 Riconoscimento e sintesi vocale: un obiettivo sfuggente positivi devono essere “0”) e dall’altro che il sistema ci riconosca sempre anche se siamo raffreddati, se abbiamo il fiatone dopo una corsa….(cioè i falsi negativi devono essere molto ridotti). Questi due requisiti sono in qualche modo contrastanti: oggi ottenere “0” falsi positivi crea un livello di falsi negativi molto alto, mentre la riduzione dei falsi negativi non consente di garantire “0” falsi positivi. Probabilmente l’evoluzione andrà nella direzione di associare più sistemi di riconoscimento, ad esempio voce e immagini. Il telefonino tramite la camera digitale potrebbe scrutare il viso di chi lo impugna, rilevare le caratteristiche della pelle (la conduzione dell’elettricità e le impronte digitali) ascoltare la voce mettendo insieme i diversi elementi in modo da raggiungere da un lato la certezza della identificazione e dall’altra una facilità di riconoscimento. l cellulare inizia ad essere in grado di riconoscere il proprietario analizzandone la voce e il viso. LE APPLICAZIONI DELLA SINTESI VOCALE A cosa può servire una macchina che parla, al di là di generare lo stupore (molto passeggero, visto che ci abituiamo immediatamente alle novità)? Una prima applicazione che viene in mente è l’aiuto a chi non riesce a leggere ma potrebbe ascoltare. I non vedenti sono molto interessati a tecnologie in grado di leggere testi, libri, riviste e giornali. Quanto più la sintesi della voce è gradevole tanto più risulta apprezzata e può essere applicata ad una varietà di contenuti. Ad esempio la lettura di notizie di informazione richiede un minimo di qualità che renda ben comprensibili le notizie mentre la lettura di un libro richiede una qualità molto maggiore per mantenere vivo l’interesse. Siamo ancora ben distanti dal disporre di sistemi automatici che siano in grado di leggere un libro come lo leggerebbe un attore professionista e per questo, come vedremo, occorreranno ulteriori progressi nel settore del riconoscimento vocale. 23 Quattro passi nel futuro I libri elettronici, quindi, almeno per i prossimi 5 anni, non saranno un settore di applicazione delle tecnologie di sintesi come pure, per motivi diversi, non lo saranno le apparecchiature che devono dialogare con frasi predefinite come ad esempio un navigatore satellitare nelle comunicazioni che fa guidatore. Per Sistema di lettura da testo sviluppato da Loquendo e al queste, infatti, è più disponibile su Internet: http://actor.loquendo.com/actordemo/default.asp conveniente utilizzare delle frasi preregistrate. Annunci che vengono fatti alle stazioni e agli aeroporti sono già oggi costruiti sulla base di mini frasi preregistrate che vengono assemblate di volta in volta. La sintesi costituisce un interessante modo di comunicare quando abbiamo gli occhi “occupati”, ad esempio quando si guida una macchina oppure se si sta riparando qualcosa. Le mani tengono gli attrezzi, gli occhi guardano il pezzo da riparare e una voce sintetica può fornire suggerimenti. In futuro assisteremo sempre più ad una trasformazione da prodotti a servizi. Ad esempio una normale fotocamera digitale potrebbe essere dotata di un accesso WiFi (già oggi vi sono alcune schede di memoria compact flash che contengono anche un modulo WiFi) e tramite questo l’azienda che produce la macchina fotografica può fornire un servizio di consulenza su come scattare le foto, il fotografo può inviare la foto appena scattata e richiedere di mandargli un insieme di settaggi che gli permettano di rifarla meglio, può richiedere di associare a quella foto informazioni relative al posto e così via. Le possibilità sono praticamente illimitate. Come si collega questa trasformazione di prodotti in servizi con la tecnologia della sintesi vocale? 24 Riconoscimento e sintesi vocale: un obiettivo sfuggente Non possiamo pensare che ad ogni servizio offerto corrispondano delle persone che rispondono alle domande. Non ve ne sarebbero a sufficienza. Occorre sviluppare dei call center automatizzati in cui gli operatori sono in realtà degli elaboratori. Ecco allora la necessità di sistemi di sintesi vocale per poter interagire con i clienti. Tutto il settore dei call center si svilupperà moltissimo nei prossimi anni e una buona percentuale del traffico sarà gestito da macchine in grado di parlare. Ovviamente queste dovranno essere anche in grado di riconoscere cosa la gente dirà loro e questo ci porta a considerare un nuovo insieme di tecnologie. IL RICONOSCIMENTO DELLA VOCE Con riconoscimento della voce s’intende ad un livello minimo la capacità di tradurre in un testo la voce e in senso più ampio la capacità di comprendere il significato di quanto viene detto. Mentre per le persone è possibile comprendere il significato senza essere in grado di scrivere quello che è stato detto (si pensi ai bambini che non sanno scrivere o a molti stranieri che riescono a capire il cinese ma non saprebbero neppure dove cominciare per scriverlo) per le macchine la capacità di tradurre in testo la voce parlata è un prerequisito essenziale alla comprensione. Abbiamo visto come da molti anni ormai i ricercatori sono riusciti a far parlare i calcolatori, se pur con una qualità molto bassa all’inizio. Il riconoscimento della voce ha avuto un progresso ancora più lento. Le cose in effetti sono più complicate di quanto non sia per la sintesi. Nel caso della sintesi abbiano osservato come un calcolatore sia in grado di riprodurre una certa voce, in quanto non fa che ricomporre frammenti di quella voce, precedentemente memorizzati ed è in grado di riprodurre una voce maschile a partire da una femminile (o viceversa) cambiano automaticamente la frequenza (spostamento si una ottava verso il basso o verso l’alto). Non è invece in grado di creare una nuova voce, ad esempio imitare come parla una certa persona. Ogni voce, abbiamo visto, fa storia a sé. Nel caso del riconoscimento questo rappresenta un enorme problema. Fin dall’inizio si è compreso che il riconoscimento di una specifica voce sarebbe stato difficile in assoluto ma molto semplice relativamente al problema generale di riconoscere una qualunque voce. 25 Quattro passi nel futuro In questo caso esiste un compromesso: posso cercare di riconoscere qualunque cosa dica una specifica persona oppure un insieme molto limitato di cose dette da qualunque persona. Nel primo caso abbiamo un riconoscitore dipendente dal parlatore (speaker dependent) nel secondo un riconoscitore indipendente dal parlatore (speaker independent). Nel caso della sintesi il calcolatore parla con una voce di una specifica persona in quanto ha memorizzato in memoria frammenti di quella voce. Nel caso di un riconoscitore speaker dependent occorre inserire nella sua memoria la conoscenza di come parla quella persona. Questo avviene tramite un processo di addestramento in cui la persona che dovrà essere riconosciuta legge un insieme di frasi appositamente studiate per fornire alla macchina una ampia varietà di vocaboli e di inflessioni tipiche di quella persona. Tipicamente oggi occorre leggere due o tre pagine di testo. Il progresso negli anni è stato nella direzione di riuscire ad effettuare il riconoscimento con un addestramento sempre minore della macchina (inizialmente si doveva addestrarla per una decina di ore, oggi siamo intorno alla mezz’ora) e nella direzione di riuscire a comprendere anche se la persona altera il suo modo di parlare (il tutto entro certi limiti, ad esempio se si mette a balbettare o parla singhiozzando la macchina ben difficilmente riesce a capire). Sull’altro versante, speaker independent, il progresso è stato nella direzione di estendere sempre più il numero di vocaboli riconosciuti. Vediamo brevemente come avviene il riconoscimento da parte di un calcolatore. Questo ci permette di capire meglio il motivo di questi due approcci e le difficoltà che si devono superare. Come rappresentato in figura, il primo passo nel riconoscimento consiste nel cercare di identificare, nell’ambito del segnale elettrico in cui è convertita la voce, le diverse aree che possono corrispondere a delle parole e al loro interno alle aree corrispondenti a lettere (o sillabe). Si noti che questa è una costruzione completamente artificiale. Quando parliamo non pronunciamo né lettere né sillabe ma un suono continuo che viene modulato originando suoni che sono rappresentati in forma scritta da lettere. Il nostro cervello non funziona “a lettere”. I bambini parlano senza sapere né scrivere né dell’esistenza di lettere. 26 Riconoscimento e sintesi vocale: un obiettivo sfuggente Processo di riconoscimento vocale: il segnale sonoro è convertito in un segnale elettrico che viene analizzato spettralmente per riconoscere caratteristiche associabili a un fonema. Questo è elaborato in un modello acustico che si può o meno appoggiare ad una banca dati che contiene i modelli acustici di uno specifico parlatore per restringere le scelte possibili. Le opzioni identificate sono valutate nell’ambito della frase complessiva per arrivare alla identificazione della parola. L’identificazione di parole e lettere quindi è un’impresa tutt’altro che facile. Una lettera può durare qualche decina di millisecondi o anche un secondo, può corrispondere ad un suono ben preciso oppure può essere mescolata con altre lettere… Inoltre il suono di una lettera, la forma d’onda del segnale, varia notevolmente a seconda di chi la pronuncia. È a questo punto che la conoscenza della voce di uno specifico parlatore aiuta nel risolvere le ambiguità. Anche in questo caso tuttavia non vi è quasi mai la certezza di avere identificato esattamente le lettere e quindi si valuta quale sia la probabilità che le lettere identificate siano corrette andando a confrontare la parola risultante con quelle contenute in un vocabolario. È chiaro che tanto più limitato è il vocabolario tanto più semplice diventa identificare una specifica parola. Ecco quindi spiegato il compromesso in cui fino ad oggi ci si è dibattuti nella scelta tra riconoscimento speaker dependent (riconoscimento risolto in massima parte nel momento in cui si identificano le lettere sulla base della conoscenza della pronuncia da parte di quel parlatore) o speaker independent (rico27 Quattro passi nel futuro noscimento risolto in massima parte nel momento in cui si identificano le parole sulla base di un vocabolario ristretto). Spesso occorre valutare la probabilità che una certa parola identificata sia quella corretta andando a considerare tutta la frase. Ad esempio potremmo essere arrivati ad identificare la parola “nove” con una probabilità del 50 %, oppure “neve” con probabilità del 20% , “nave” al 15% e “dove” al 15%. Quale è quella giusta? Se la frase che si è identificata (anche questa sulla base di probabilità) è del tipo domenica sono stato a sciare e la xxxx era bella allora la parola “neve” pur avendo una probabilità inferiore a “nove” è quasi certamente quella corretta. Questa procedura di tipo probabilistico sembra astrusa ma non è molto differente, sul piano concettuale, rispetto a quanto accade nel nostro cervello. Anche qui, infatti, il cervello man mano elabora quanto sente e in ultima analisi “sente” quello che ritiene logico dover sentire. È per questo motivo che anche se un nostro interlocutore ci dice una parola senza senso spesso non ce ne accorgiamo neppure. Il nostro cervello automaticamente sostituisce la parola con una che ha senso. Nel riconoscimento da parte di una macchina oltre alle tipologie collegate al parlatore (speaker dependent o independent) esistono anche due caratteristiche legate al contesto. In alcuni casi si richiede un riconoscimento “certo” in altri è sufficiente un riconoscimento “lasco”. Ad esempio se vogliamo un sistema che consenta di effettuare una trascrizione di un discorso occorre avere un riconoscimento certo in cui ogni parola pronunciata viene riconosciuta e trascritta fedelmente. Se, invece, dobbiamo riconoscere dove una persona vuole andare per fornirgli le informazioni dell’orario ferroviario della frase “siccome mia zia è malata voglio andare a Milano domani mattina partendo da Torino” ci interessa intercettare andare a Milano partendo da Torino domani mattina. Il perché lui abbia deciso di andare a Milano è del tutto irrilevante. Per questo secondo tipo di riconoscitori (detti “fuzzy”, sfumati) si applicano tecnologie di tipo diverso rispetto a quelli utilizzati per il riconoscimento certo. Anche qui, come nel caso di speaker dependent e independent, si deve operare un compromesso. Nel caso del riconoscitore certo occorre mettere a punto una procedura che garantisca, attraverso interazioni con il parlatore, che il riconoscimento effettuato sia corretto (e quindi si instaura un dialogo che non è per nulla naturale per la persona) men- 28 Riconoscimento e sintesi vocale: un obiettivo sfuggente tre nel riconoscimento fuzzy si accetta di non comprendere tutto e ci si concentra su alcune parole che in qualche modo sono “attese” dal riconoscitore. Nel linguaggio di ogni giorno siamo abituati ad accettare un livello di comprensione soddisfacente anche se non garantito al cento per cento. Questo è il nostro modo di parlare e di interagire che ci ha accompagnati fin dalla nascita. Se volessimo avere sempre la certezza della comprensione dovremmo usare non solo un linguaggio che non dia adito ad equivoci ma dovremmo anche farci ripetere ogni frase che diciamo da chi ci ascolta in modo da verificare che questo l’abbia compresa esattamente. Sarebbe un modo ben strano di parlare. Eppure vi sono delle circostanze in cui questo è il tipo di dialogo che dobbiamo usare. Ad esempio i piloti quando parlano tra loro nella cabina di un aereo oppure quando parlano con la torre di controllo usano un linguaggio particolare che evita di scambiare una paraola per un’altra: il numero 9 per i piloti è “niner” (non nine come vorrebbe l’inglese), le lettere non sono “a,b,c” ma “alfa, bravo, charlie”. Inoltre qualunque frase detta deve essere ripetuta da chi l’ha ascoltata e confermata da chi l’ha pronunciata. Lo stesso accade in sala operatoria quando il chirurgo chiede un bisturi e l’assistente porgendoglielo dice “bisturi”. Le macchine oggi non hanno ancora la nostra capacità di comprensione per cui i casi di equivoco sono potenzialmente di più di quelli che affrontiamo nei discorsi tra di noi. Ecco allora questi dialoghi “strani” ed anche un po’ noiosi che caratterizzano il nostro interagire con le macchine. Esiste un ulteriore aspetto del riconoscimento della voce, per noi talmente familiare da passare inosservato, su cui le macchine stanno appena muovendo i primi passi. È quello della comprensione emotiva, del messaggio cioè che si nasconde dietro al modo in cui viene detta una frase. La persona che parla è allegra, triste, ansiosa, spaventata, ironica? Il significato delle parole può cambiare enormemente a seconda della situazione emotiva di chi parla. Su questo versante alcuni ricercatori hanno iniziato a sviluppare applicazioni in grado di riconoscere alcune di queste sensazioni: manca ancora il collegamento tra i riconoscitori di emozioni e i riconoscitori del parlato in modo che l’uno possa influenzare l’altro. Probabilmente occorrerà attendere la prossima decade prima di arrivare ad una interazione tra questi due tipi di riconoscimento. Siamo 29 Quattro passi nel futuro ancora distanti, quindi, da una macchina in grado di interpretare una persona a livello di un dialogo. Qualche ricercatore, addirittura, sostiene che non ci si arriverà mai, ma…mai dire mai. LE APPLICAZIONI DEL RICONOSCIMENTO DELLA VOCE Tutti, oggi, abbiamo esperienza di macchine che riconoscono la voce. Basta chiamare un centro di assistenza automatizzato e la voce che sentiremo ci inviterà a pronunciare un insieme di vocaboli per identificare cosa si desidera. La maggior parte dei call center richiede di selezionare un numero, “digiti 1 se desidera informazioni su…”, ma in alcuni casi non è possibile usare questo approccio. Se ad esempio si deve chiedere l’orario di un treno occorre pronunciare il nome della città di partenza e di quella di arrivo. Fortunatamente il numero di parole in gioco è limitato e quindi è possibile con le tecnologie attuali riconoscere quanto pronunciato da una persona qualunque. Un problema più complesso è quello di riconoscere un cognome o il nome di una via, cosa necessaria se un cliente telefona ad una macchina per avere un numero di telefono. Non solo il dominio (cioè il numero di parole) è più ampio. In questo caso ci si trova di fronte anche a parole straniere che si prestano ad essere lette in modo differente a seconda di chi le pronuncia. I risultati, tuttavia, sono abbastanza buoni e si arriva a riconoscimenti intorno all’80%. Con Synthetic Interviews, realizzato dalla CMU, è possibile intervistare Albert Einstein dialogando con lui di fisica, religione, famiglia,…insomma di qualsiasi cosa ci venga in mente. E le sue risposte sono spesso intriganti, sempre comunque frasi che Einstein ha effettivamente pronunciato, anche se in contesti spesso completamente diversi. 30 Altre applicazioni sono relative alla richiesta di informazioni. In un prossimo futuro, alcuni prototipi esistono già in laboratorio, sarà possibile dialogare in linguaggio naturale con delle macchine specializzate in temi particolari, ad esempio le informazioni meteo oppure quelle sul traffico, sistemi che forniscono infor- Riconoscimento e sintesi vocale: un obiettivo sfuggente mazioni turistiche e, un po’ più in là, anche con sistemi di supporto all’apprendimento. Alla Carnegie Mellon University, a Pittsburgh negli USA, hanno sviluppato un sistema, chiamato synthetic interviews, che permette di intervistare dei personaggi famosi come se fossero presenti davanti a noi. Ci si collega tramite un computer ad una banca dati che contiene una grande quantità di frasi che quel personaggio ha effettivamente detto in passato ed un apposito software identifica all’interno delle cose che noi diciamo alcuni vocaboli chiave che probabilmente sono l’essenza della domanda e da questi cerca di risalire a delle frasi dette da quel Persona disabile in grado di dialogare personaggio, in alcuni casi combicon il PC tramite un riconoscitore nandole tra loro, e ce le fa ascoltare. vocale che sostituisce le interazioni tramite tastiera e mouse. L’effetto, in molti casi, è stupefacente. Il personaggio risponde a tono, si ha veramente l’impressione che abbia capito la nostra domanda e ci risponda. È chiaro come in futuro questo tipo di applicazioni saranno in grado di sostenere dei veri e propri discorsi, rendendo l’apprendimento molto più coinvolgente. È altrettanto ovvio come vi siano problemi legati a queste applicazioni. Quanto più queste diventano “brave” e quindi indistinguibili dal reale, tanto maggiore il rischio che la persona che fa le domande sia tratta in inganno e creda veramente di aver ricevuto delle risposte “sensate” e per di più da uno specialista. Certamente sistemi di questo tipo non vanno bene per offrire delle consulenze mediche. I risultati potrebbero essere devastanti. Inoltre chi si assume la responsabilità di quanto una persona fa sulla base di quanto si sente dire da questa applicazione? Siamo, e dobbiamo restare, nel campo del divertimento, magari educativo, ma pur sempre finzione e non realtà. 31 Quattro passi nel futuro Per alcune persone che hanno problemi motori, ad esempio non possono eseguire azioni con le mani, il poter disporre di un sistema di riconoscimento della voce è importante in quanto potrebbero interagire a voce con il mondo. Sistemi di dettatura sono ampiamente utilizzati da persone che hanno esigenza di non abbandonare quello che stanno facendo per prendere nota e si avvalgono quindi di un riconoscitore vocali per scrivere sotto dettatura. Questo tipo di applicazioni si svilupperà notevolmente in futuro, via via che i riconoscitori diventeranno più efficienti ed in grado di riconoscere qualunque voce e qualunque soggetto (oggi ci sono riconoscitori specializzati per i medici, per gli avvocati, per i notai…). LA TRADUZIONE DA UNA LINGUA AD UN'ALTRA Una applicazione che ha un forte interesse è quella della traduzione simultanea. Pensate: noi parliamo la nostra lingua e il nostro ascoltatore ci ascolta nella sua. La parte tecnologica di base, cioè disporre di microfoni ed auricolari miniaturizzati in grado di captare la nostra voce e di fornirci la voce artificiale con la traduzione, esiste già ed è più che soddisfacente. Come abbiamo visto abbiamo dei sintetizzatore efficaci e dei riconoscitori accettabili. Il riconoscitore permette di tradurre una voce in un testo scritto e il sintetizzatori converte un testo scritto in una voce. Il problema, quindi, sembra essere legato alla traduzione da testo scritto a testo scritto. Ed in effetti questo è il tema su cui i ricercatori stanno operando. Esempio di traduzione offerta gratuitamente su Internet. 32 Abbiamo dei traduttori, molti anche disponibili gratuitamente su internet, come quello a lato della Free2Translation, in grado di tradurre approssimativamente, si veda a lato, una frase. Riconoscimento e sintesi vocale: un obiettivo sfuggente Siamo ancora abbastanza distanti, però, dal disporre di una traduzione buona, utilizzabile correntemente. Le difficoltà sono le stesse che rendono complicato arrivare ad un riconoscimento efficace. Per questo motivo traduzione automatica e riconoscimento sono in realtà due facce di una stessa medaglia, quella della comprensione di un contesto, del ricordo, della valutazione di ciò che ha senso e ciò che non ne ha. In una qualche misura qui siamo vicini al concetto stesso di intelligenza e di comprensione umana. È quindi una sfida che rimane e non deve stupire che a dispetto degli enormi progressi che la ricerca ha saputo fare si sia ancora relativamente agli inizi in questi settori. I progressi finora fatti sono da imputare più alle aumentate capacità elaborative dei microprocessori ed alla crescita della capacità di memoria che non alla scoperta di nuovi approcci al problema. Nei prossimi anni possiamo ragionevolmente attenderci ulteriori progressi grazie ad ulteriore sviluppo dei calcolatori e delle memorie. Siamo passati da banche dati dell’ordine dei MB negli anni 90 a quelle da GB di oggi e nei prossimi anni useremo memorie da TB. Si è passati dalla analisi delle probabilità di una singola lettera a quelle delle probabilità di una singola parola. Oggi si inizia a lavorare a livello di frase. Tipica è la traduzione della frase inglese “out of sight, out of mind” che eseguita a livello di singolo aggregato di parole dà come risultato “Invisibile Idiota” (out of sigh = invisibile, out of mind=pazzo, idiota) mentre il suo significato dovrebbe essere “se una cosa è distante da noi tendiamo a non considerarla” o come diremmo con una frase fatta, equivalente a quella inglese “lontano dagli occhi, lontano dal cuore”. Nella prossima decade, probabilmente verso la fine, si analizzerà la probabilità dell’intero discorso in un dato contesto, cioè quello che fa il nostro cervello. Un impulso ai progressi nel settore della “comprensione”, che abbiamo visto è cruciale sia che si parli di traduzione automatica sia che si tratti di riconoscimento del parlato, potrà provenire dalle ricerche mirate a prevenire atti terroristici tramite l’ascolto automatico delle conversazioni che si svolgono in tutto il mondo sulla rete telefonica e su internet. Il dipartimento della difesa americano sta investendo moltissimo in questo settore. Il progetto Echelon vorrebbe arrivare ad intercettare ogni conversazione e analizzare se esistono degli elementi di minaccia. 33 Quattro passi nel futuro Alcuni risultati sono tra le mani dei soldati americani che operano in Irak. Questi sono dotati di un dispositivo palmare (VoxTec Phraselator P2) in cui parlano in inglese e questo traduce immediatamente in arabo. CERCARE INFORMAZIONI VOCALI Esiste anche un forte e crescente interesse alla comprensione dei testi e del linguaggio parlato che deriva dalla grande disponibilità di contenuti in rete. Con Google si possono cercare documenti che contengono certe parole e frasi ma non è possibile trovare degli spezzoni video, ad esempio dei telegiornali, in cui qualcuno parlava di una certa cosa. Si noti che in questo caso la ricerca si sposta ancor di più a livello di significato. Ci interessa recuperare un video in cui si trattava di una certa cosa, ma ovviamente non sappiamo che parola fosse utilizzata. Ad esempio potremmo vedere un video relativo alle discussioni sugli effetti degli OGM sui bambini… La comprensione del contesto gioca un ruolo fondamentale nella comprensione del linguaggio.. Persone che operano in uno stesso contesto spesso parlano un linguaggio incomprensibile a chi non appartiene a tale contesto. Se si vuole un esempio vicino a ciascuno si pensi a come parlano tra loro i ragazzini… Nel linguaggio Maya i numeri erano rappresentati con delle facce in cui la posizione delle labbra rievocava quella che queste assumevano nel pronunciare la parola che rappresentava il numero. Visione e sonoro sono elementi spesso inscindibili del linguaggio umano a cui nel tempo si è aggiunta la rappresentazione scritta. 34 Riconoscimento e sintesi vocale: un obiettivo sfuggente Non è solo un problema di conoscenza o meno di certi termini. Il problema è molto più profondo e riguarda la struttura stessa del linguaggio. Inoltre, come abbiamo già rimarcato precedentemente, la comprensione non è solo verbale. Noi comprendiamo meglio l’altra persona quando riusciamo anche a guardarla mentre parla. Infatti i messaggi non verbali sono altrettanto importanti nella comunicazione dei messaggi verbali. Gli aspetti emotivi sono fondamentali nel processo di comprensione e su questi siamo, dal punto di vista della comprensione scientifica, ancora più indietro. Siamo quindi, complessivamente e a dispetto degli enormi progressi compiuti in questi ultimi 50 anni, ancora abbastanza lontani da una comprensione piena del linguaggio. La cosa, in fondo, non dovrebbe dispiacerci troppo visto che dimostra quanto sofisticata sia questa qualità che ci contraddistingue. 35 Quattro passi nel futuro E allora, viene anche in mente che c’è del vero nella battuta di Totò nel film “La banda degli onesti”, parli come badi visto che in effetti il nostro linguaggio è espressione del nostro essere profondo. 36