Quattro passi nel futuro

Transcript

Quattro passi nel futuro
9
Quattro passi nel futuro
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Salvatore Romagnolo - Roberto Saracco
9
Quattro passi nel futuro
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Che brutta voce hanno i computer, eppure se c’è una cosa che sembra facile
è la voce. Fino a quando non ci si pensa un attimo su!
Impieghiamo diversi anni per arrivare a parlare la nostra lingua, spesso tutta
la vita cercando di impararne un’altra. Per i computer il parlare è quanto di
più innaturale ci sia. E poi, devono confrontarsi con una clientela praticamente
incontentabile: noi.
Telecom Italia Lab è la realtà di ricerca del Gruppo Telecom Italia.
I suoi mille ricercatori operano per sviluppare innovazione e renderla rapidamente ed economicamente fruibile ai clienti del
Gruppo.
Centro di eccellenza da oltre quarant'anni nelle reti e nei servizi,
ha contribuito alla definizione e affermazione del GSM, dell'Mp3 e
della trasmissione ottica. Oggi continua a creare innovazione nei
suoi laboratori progettando l'evoluzione della rete di accesso fissa,
mobile e di trasporto. Grande impegno viene dedicato allo sviluppo di servizi e piattaforme sia per il cliente finale sia per le imprese che vedono nella rete di telecomunicazioni del futuro l'elemento abilitante per competere sul mercato a livello mondiale.
In stretto collegamento con università, centri di ricerca, e industria, Telecom Italia Lab avvicina il futuro con servizi avanzati in
molti settori dal mobile al multimediale, per la casa e per l'impresa, garantendo qualità e sicurezza.
“Progetto Italia” è un mondo di eventi pensato dal Gruppo Telecom
Italia, un concreto impegno dell'impresa nel progresso sociale e
civile del Paese.
Per questo Progetto Italia dà supporto alla ricerca scientifica, alla
cultura, alla formazione, alle iniziative sociali e a quelle sportive,
abbracciando geograficamente tutto il territorio nazionale. Nel settembre 2002 ha dato vita al Telecom Italia Future Centre a
Venezia, un luogo che aiuta a immaginare il futuro e a come
influenzerà i nostri comportamenti e le relazioni sociali. Situato in
pieno centro nell'ex convento di San Salvador, il Future Centre si
presenta come un laboratorio interattivo basato su una logica di
tipo emozionale: vedere, toccare, sperimentare le nuove tecnologie, ma anche possibilità di seguire mostre e ascoltare cicli di conferenze.
Salvatore Romagnolo, giornalista, saggista ed esperto di comunicazione online, è direttore di Apogeonline.com. Collabora con
"La Stampa", per la quale cura due rubriche settimanali su
Internet e le nuove tecnologie. È autore di diversi saggi sui nuovi
media e il giornalismo online ed editore di Nomadvillage.it, il
primo magazine online italiano interamente dedicato alla mobilità
Hi-Tech.
Roberto Saracco è responsabile per la comunicazione scientifica in
TILAB. Nei suoi oltre trent'anni nel settore delle telecomunicazioni è stato ricercatore prima nel settore tecnico e poi in quello economico. Per molti anni ha lavorato in un contesto internazionale,
guidando tra l'altro un progetto della Banca Mondiale in America
Latina per stimolare l'adozione delle nuove tecnologie. È autore di
diverse pubblicazioni sulle nuove tecnologie e sul loro impatto sul
business.
Riconoscimento e sintesi vocale: un obiettivo sfuggente
D
otare delle macchine – in particolare i computer - di
funzioni di riconoscimento e sintesi vocale, significa, in
buona sostanza, fornirli di orecchie tramite le quali
ascoltare e bocche grazie alle quali parlare. E, ovviamente, un “cervello” grazie al quale riuscire a comprendere e farsi comprendere. In buona sostanza, si tratta di renderle realmente comunicanti, in grado di interagire con degli essere umani – ma anche con altre
macchine dotate delle stesse prerogative – utilizzando l’interfaccia più
complessa, ma per noi più semplice: la voce. Le ricerche in questo
campo hanno fatto enormi progressi, sia sul versante del riconoscimento sia su quello della sintesi vocale. E significativi progressi sono stati
anche fatti nel settore dell’intelligenza artificiale. Nonostante ciò, la
meta, pur sembrando sempre più vicina, non è stata
ancora veramente raggiunta.
A rendere ulteriormente
sfuggente l’obiettivo non è
solo la strada che ancora ci
separa dall’obiettivo stesso,
ma anche il fatto che non
tutti condividono l’idea che le
interfacce umane siano sempre le più adatte alla comunicazione con le macchine.
Ad esempio, secondo uno
studio condotto da Jupiter
Parlare con il computer: è un’esigenza
sentita dagli utenti?
7
Quattro passi nel futuro
Media Metrix, chi sta investendo nel riconoscimento
vocale per i dispositivi wireless potrebbe prendere una
considerevole
cantonata.
Dall’indagine emerge che
meno del 40% degli utenti
preferisce utilizzare il comando vocale in luogo della
tastiera
o
del
display.
Si potrebbe trattare di un’abitudine consolidata che nel
Parlare con il computer: è un’esigenza
tempo cambierà, ma l’indagisentita dagli utenti?
ne rileva che sono anche i più
giovani a preferire il touch-tone. Secondo Jupiter Media Metrix i voice
portal, i voice browser e in generale il voice Web, non sono per ora settori vincenti, se non per quelle applicazioni particolari (come i terminali in automobile) che richiedono la possibilità di non utilizzare le mani
mentre si accede ai servizi e ai contenuti.
I consumatori, almeno stando ai dati di questa ricerca, non sono
molto attratti dalla “conversazione” con le macchine: se devono dare un
comando al loro telefonino, preferiscono schiacciare un tasto.
Di avviso leggermente diverso il fondatore della Microsoft. Secondo
Bill Gates, entro 10 anni le tecnologie di riconoscimento vocale si affiancheranno a mouse e tastiera. Gates ha affrontato il tema in occasione
del lancio del primo server Microsoft basato su una tecnologia di riconoscimento vocale: Speech Server 2004. Tramite questa piattaforma,
che si sposa con le tecnologie di sintesi vocale già integrate in Windows,
Microsoft spera di ritagliarsi una grossa fetta del nascente mercato legato alle interfacce vocali.
“Entro 10 anni” sostiene
voce. Cose come la voce e
naturale di interagire con un
giungeranno il giusto livello
Gates “tutti i terminali supporteranno la
l’inchiostro elettronico1 sono il modo più
computer. Quando queste tecnologie ragdi affidabilità, si diffonderanno ovunque.
1 L’inchiostro elettronico è una tecnologia che simula il sistema di scrittura tradizionale.
L’inchiostro, in questo caso, non è contenuto nella penna, ma nel display stesso, sul quale
si scrive utilizzando uno stilo. Il vantaggio è quello di scrivere in modo naturale, ottenendo, però, la digitalizzazione immediata di quanto si è scritto.
8
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Dettare un testo al Pc o comandare uno
smartphone con la voce” sostiene Gates
“diverranno modalità d’interazione sempre
più comuni. La tastiera non scomparirà, ma
gli utenti utilizzeranno diverse metodologie:
parleranno, digiteranno e scriveranno con
l’inchiostro elettronico”.
Il numero uno di Microsoft ha comunque
ammesso che per raggiungere questo obiettivo la tecnologia di riconoscimento vocale
dovrà ancora superare diversi limiti, come la
difficoltà di distinguere parole con pronuncia
molto simile e l’attuale incapacità di comprendere il contesto di frasi e parole. Gates
ha spiegato che le tecnologie di riconoscimento vocale trovano terreno particolarmenBill Gates mostra un
te fertile in quelle nazioni, come Cina e
Tablet Pc
Giappone, che utilizzano alfabeti poco adatti
alla tastiera, e prevede che in questi paesi le tecnologie di riconoscimento vocale si diffonderanno con tre o quattro anni di anticipo rispetto ai paesi che hanno una scrittura non basata su ideogrammi.
MA DI COSA STIAMO PARLANDO?
Prima di continuare nel discorso, diamo una rapida definizione dei
due campi di ricerca. Per riconoscimento vocale (speech recognition) si
intende l’utilizzo di computer per riconoscere il significato del parlato
umano2. Come già si diceva, nonostante gli enormi progressi fatti, spesso l’operazione non risulta molto agevole. La pronuncia degli stessi termini da parte di soggetti diversi può venire interpretata differentemente dal computer. Molti sistemi di riconoscimento vocale devono, quindi,
essere “addestrati” a riconoscere voci e modi di pronunciare diversi e il
riconoscimento vocale “speaker indipendent” è attualmente il meno efficace. Ovviamente, l’operazione più difficile per la macchina è comprendere, oltre che i singoli termini, anche il contesto, tutti i “significati” di
una conversazione. Il livello di sfumature di una conversazione tra
2 In genere tuttavia si intende con riconoscimento vocale la capacità di convertire un
parlato in uno scritto. Questo è ovviamente una sottovisione rispetto al più difficile aspetto di comprensione del significato.
9
Quattro passi nel futuro
umani sono molto sottili, al punto che, come nel caso dell’ironia (fare
un’affermazione per intendere il suo esatto opposto), non sempre vengono colte dagli umani stessi. Riuscirà mai il computer, oltre a comprendere i singoli termini a capire di cosa si sta parlando? La domanda
è aperta e le ricerche nel campo della sintesi e del riconoscimento vocale non potranno fare significativi progressi se non sfruttando quelli compiuti nel settore dell’intelligenza artificiale.
Ma esistono campi di applicazione dove riconoscimento e sintesi
vocale hanno già raggiunto una certa maturità. È l’ambito dei dispositivi per i portatori di handicap: ciechi o paraplegici non possono fare uso
delle mani per digitare tramite una tastiera e per loro i software di riconoscimento e sintesi vocale sono ormai diventati, pur con alcuni limiti,
strumenti di uso quotidiano.
La sintesi vocale è la generazione del parlato da parte di un computer. Inizialmente veniva gestita da hardware appositamente concepiti;
oggi viene prodotta da software per Pc dotati di scheda audio. Questa
tecnologia risale agli anni Sessanta e mentre nei primi anni la voce sintetica aveva un livello qualitativo piuttosto basso, oggi risulta spesso
indistinguibile da quella umana. I progressi fatti in questo campo non
sono andati di pari passo con gli sviluppi nel settore dell’intelligenza
artificiale. Quindi, un computer oggi può parlare con una bella voce e
un’appropriata pronuncia, ma non è in grado di tenere conto del contesto, cioè di instaurare una reale conversazione. In un qualche senso,
potremmo dire che parla bene, ma solo su “dettatura”. Anche in questo campo, le applicazioni più utilizzate sono quelle indirizzate ai portatori di handicap e in particolare i non vedenti che utilizzano appositi “screen reader”, software in grado di
leggere a voce alta quanto
visualizzato da un monitor,
anche nel caso si tratti di siti
Web o messaggi di posta
elettronica.
Attori del cinema muto
10
Quando si
persona poco
genere si fa
qualcuno che
parla di una
espressiva, in
riferimento a
non comunica
Riconoscimento e sintesi vocale: un obiettivo sfuggente
in modo adeguato con il proprio volto e con la propria voce. Parla cioè
in modo monotono, utilizzando poco le variazioni di tono e non cambiando espressione del viso. Gli attori, anche se fingono, utilizzano al
meglio entrambe le forme espressive: modulano in modo efficace il tono
della loro voce e assumono con il viso espressioni appropriate, risultando spesso enormemente più comunicativi, più credibili, di chi non parla
all’interno di una finzione. L’importanza delle espressioni visive nella
nostra comunicazione è tale che gli attori del cinema muto sopperivano
alla mancanza del sonoro con una accentuata mimica facciale.
Oggi quel tipo di recitazione ci risulta grottesca, a volte comica anche
nelle situazioni tragiche, ma rispondeva a una precisa esigenza.
UNA TELEFONATA TRA SORDI
Anche una software house israeliana si è mossa nello stesso campo
e ha messo a punto un prodotto che rende possibile l’uso dei telefoni
anche da parte dei non udenti. L’operatore Cellcom e la start-up
SpeechView propongono, infatti, il software LipCcell, installabile nel
computer dell’utente con problemi di udito. Il computer, a
sua volta, viene connesso a un
telefono mediante un cavo.
Quando l’utente riceve una
telefonata, il software provvede a convertire la voce proveniente dall’altro capo del cellulare in movimenti delle labbra
nell’immagine tridimensionale
di un volto. Le labbra dell’imFunzionamento del software LipCcell
magine si muovono in tempo
reale e l’utente sordo riesce a leggerne i movimenti.
Per adesso il software può essere utilizzato soltanto su un Pc, ma in
un prossimo futuro è già prevista una versione per PDA (Personal Digital
Assistant o computer palmare). Ovviamente, è necessaria una fase di
addestramento per interpretare correttamente il movimento delle labbra. Il software può essere utilizzato in qualsiasi lingua ed è stato realizzato da Nachshon Margaliot, un tecnico informatico che era stanco di
lavorare con un collega debole d’udito.
11
Quattro passi nel futuro
QUELLO SCHERMO CHE NON POSSO VEDERE
Ronnie Milsap è uno degli artisti country più conosciuti negli Stati
Uniti, ma ha sempre sofferto di un grave problema: cieco dalla nascita,
ha dovuto affidare alla voce e all’udito la sua interazione col mondo
esterno. Circa quattro anni fa, però, ha fatto una grande conquista:
quella di poter chiacchierare con i suoi fan utilizzando Internet. Per farlo
si è fatto installare un software di riconoscimento vocale per scrivere, e
uno di sintesi vocale per leggere. Nonostante le e-mail adesso lo sommergano, si sente in una dimensione nuova e dice che “non c’è nulla di
meglio di Internet per la spontaneità e la semplicità di accesso alla
comunicazione”.
Milsap è da tempo una delle più note
star della musica country americana e sin
da giovane ha nutrito un’autentica passione per i computer. Il passaggio dalle interfacce testuali a quelle grafiche è stato,
però, un trauma: lui, come molti altri non
vedenti, ha dovuto immaginarsi un mondo
nuovo su quello schermo che non riesce a
vedere. “Mi piacerebbe molto vederlo” dice
“ma anche così posso accedere praticamente a ciò che voglio”. Tra le sue attività
preferite, quando è in viaggio, c’è quella di
ascoltare - in streaming tramite il suo computer portatile - la stazione radio WSM di
Nashville, la città dove vive e lavora.
Curtis Chong, direttore tecnico della
Federazione Nazionale Ciechi degli Stati
Uniti, sostiene che “c’è una sensazione diffusa che se sei cieco, non puoi
avere un computer e, generalmente, stai lì senza lavorare. Invece, il sito
di Milsap dimostra che lui c’è e fa davvero tante cose. Spero che grazie
a questo la gente si dimentichi, almeno temporaneamente, che è cieco
e lo veda per quello che è davvero, e cioè un ottimo musicista”.
IL RICONOSCIMENTO VOCALE SALE IN MACCHINA
Uno dei campi privilegiati di utilizzo dei sistemi di sintesi e riconoscimento vocale è quello automobilistico. Contrariamente a quando succe12
Riconoscimento e sintesi vocale: un obiettivo sfuggente
de in ufficio o a casa, una persona
che guida è spesso sola e con le
mani occupate a svolgere un’attività molto delicata, quella di condurre un mezzo appunto. Guidare,
oltre a impegnare le mani, richiede
concentrazione e lo sguardo fisso
sulla strada. Almeno queste sono le
buone regole di guida che tutti gli
automobilisti dovrebbero seguire.
Non potendo togliere le mani dal
volante e non dovendo distogliere
Il cruscotto dell’Acura RL,
lo sguardo dalla strada, la possibiche integrerà il riconoscimento
vocale di IBM
lità di interloquire, ad esempio, con
un navigatore GPS tramite la voce
e non digitando un indirizzo a mano, può risultare, oltre che comodo,
anche molto più sicuro. Per questo motivo IBM e Honda hanno stretto
ormai da tempo una partnership per lo sviluppo di applicazioni automobilistiche di questo tipo.
L’accordo prevede che Honda (che detiene anche il marchio Acura) si
impegni a integrare, con l’aiuto di Big Blue, sistemi di riconoscimento
vocale basati sul celebre software IBM ViaVoice. In questo modo chi
guida non dovrà più distogliere lo sguardo dalla strada per “comunicare” con l’automobile o con il navigatore satellitare, ma potrà utilizzare
comandi vocali anche per effettuare azioni complesse.
Attualmente, numerosi sistemi di navigazione satellitare per automobili dispongono di apparati di sintesi vocale per l’output dei dati e dei
comandi direzionali, ma l’idea di Honda e IBM è di applicare la tecnologia in senso inverso, mettendo l’automobile in grado di comprendere i
comandi del pilota e non viceversa. I primi modelli equipaggiati di questa opzione saranno commercializzati a partire dal 2005 a un costo
aggiuntivo di 2.000 dollari. Su alcuni modelli di punta il sistema verrà
installato di serie. Big Blue sostiene di aver ottimizzato gli algoritmi di
riconoscimento vocale impiegati sulle auto di Honda per filtrare quanto
più possibile i rumori di fondo ed offrire un’accuratezza molto elevata
senza la necessità di istruire il software. Il risultato, secondo l’azienda,
è che il guidatore potrà chiedere informazioni al navigatore satellitare
utilizzando un linguaggio naturale. Ad esempio, sarà possibile chiedere:
13
Quattro passi nel futuro
“Guidami fino al ristorante cinese più vicino”. Il computer risponderà
all’utente attraverso un motore di sintesi vocale o, in alternativa, attraverso messaggi scritti e segnali luminosi.
IL GESTO AL POTERE
Sony e Toshiba si stanno dedicando allo sviluppo del concetto di
Intelligenza Ambientale. Obiettivo: semplificare al massimo l’utilizzo
degli oggetti di casa. I ricercatori dei due colossi giapponesi hanno studiato una serie di applicazioni in grado di sfruttare i principi
dell’Intelligenza Ambientale, con l’obiettivo di sviluppare nuove interfacce quali rivelatori ambientali e software di sintesi e di riconoscimento vocale. In altre parole, l’obiettivo è quello di utilizzare tutte le interfacce umane; non solo la voce, ma anche i gesti. Infatti, oltre ad accompagnare i nostri discorsi con le espressioni del viso, spesso ci affidiamo,
per arricchire la nostra espressività, alle mani. Gesticolare fa parte integrante del nostro modo di comunicare e anche per chi non ha perso
l’uso della parola, “illustrare” a gesti quanto dice risulta spesso irrinunciabile. Soprattutto per noi italiani che abbiamo fatto della gestualità
quasi un’arte oratoria.
All’interno del progetto avviato con Toshiba, Sony ha messo a punto
un lettore di Cd che si presenta come un semplice supporto su cui posare il Cd stesso, ancora all’interno della sua custodia. Appena il Cd si
trova sul supporto, la lettura prende avvio, senza che sia necessario
estrarre il Cd dalla custodia, inserirlo nel lettore, eccetera.
Inserire il Cd: un gesto che potrebbe
non essere più necessario
14
Il contenuto del Cd, in realtà, è
conservato su un server collegato
all’impianto hi-fi, mentre la custodia del Cd contiene un chip identificativo (RFID, Radio Frequency
Identification), che viene letto dal
supporto. Ecco svelato il mistero,
altro non è se non la lettura del
chip che consente l’avvio alla lettura dei file contenuti nel server. Una
sorta di “comando” indiretto:
ponendo il Cd sul lettore, faccio
comprendere allo stesso, con un
Riconoscimento e sintesi vocale: un obiettivo sfuggente
semplice gesto, che intendo ascoltarlo.
Da parte sua, Toshiba ha sviluppato un sistema che permette, teoricamente, di eliminare tutti i commutatori presenti in una casa. Grazie a
un accelerometro, accoppiato a un modulo Bluetooth, la mano dell’utente è seguita da un server informatico, capace di riconoscere i comandi sotto forma di gesti (le informazioni di posizione e d’accelerazione
sono inviate al Pc tramite onde radio).
Così, la luce si accende quando l’utente punta il dito verso la lampada, si abbassa di intensità se pone la mano su una poltrona, aumenta
nuovamente d’intensità quando girano le pagine di un libro.
Ecco ciò che potrebbe definirsi “potere del gesto”. Un grande potere che, forse, noi italiani, popolo di poeti, navigatori, santi, chiacchieroni e grandi gesticolatori, dovremmo imparare a gestire con molta
attenzione.
IL WEB IN CERCA DI STANDARD
Il World Wide Web Consortium (W3C) è l’organismo deputato a varare gli standard da utilizzare sul Web. Si tratta di un compito delicato, ma
di primaria importanza. Internet, infatti, deve il suo successo, la sua
grande diffusione, al fatto di essere una piattaforma aperta, accessibile
tramite qualsiasi computer a prescindere dal sistema operativo utilizzato. Purtroppo, però, interessi commerciali e standard aperti fanno a
pugni; così, con l’aumento degli utenti e degli interessi economici, la
Rete è diventata un terreno di battaglia tra i colossi dell’informatica
mondiale. Uno degli effetti collaterali di questa guerra commerciale è
che Internet non è più una piattaforma così aperta come un tempo.
Accedere, ad esempio, a un sito Web con browser differenti, fornisce
spesso visualizzazioni diverse e alcuni servizi sono fruibili online solo
utilizzando appositi programmi aggiuntivi. Questo ha creato grossi problemi a molti utenti, soprattutto quelli meno smaliziati e con computer
più antiquati e, naturalmente, ai portatori di handicap, non vedenti per
primi. Per ovviare a questi problemi, il W3C ha recentemente approvato due specifiche riguardanti il proprio Speech Interface Framework:
una serie di standard utilizzabili per creare servizi Web utilizzabili tramite un telefono o una tastiera a toni. Le due nuove specifiche sono il
Voice Extensible Markup Language e la Speech Recognition Grammar
Specification.
15
Quattro passi nel futuro
La specifica VoiceXML è stata progettata
per creare dialoghi basati sulla sintesi vocale,
l’audio digitalizzato, il riconoscimento della
voce e dei suoni DTMF dei tasti del telefono,
la registrazione del parlato, la telefonia, ed un
mix fra vari tipi di conversazione. Questo
standard semplifica la creazione di servizi
attivati vocalmente, come ad esempio l’accesso voce e telefonico a database di call center e intranet aziendali.
La specifica SRGS permette, invece, agli
autori di applicazioni basate sulla voce, di
creare regole che descrivano cosa ci si aspetta che gli utenti dicano dopo aver ascoltato le
opzioni messe a disposizione dall’applicazione. Un utente, ad esempio, può rispondere
“sì”, “sicuro”, “d’accordo” e la specifica conTim Berners-Lee,
presidente del W3C
sente di gestire tutte le diverse combinazioni
di parole che gli utenti probabilmente utilizzeranno in un certo contesto. Il completamento di VoiceXML 2.0 e SRGS,
segna il raggiungimento di una tappa importante nella convergenza tra
le tecnologie di telecomunicazione e il Web. “In passato” ha affermato
Tim Berners-Lee, direttore del W3C, “per limiti sia culturali sia tecnici, i
sistemi basati sulla voce e il Web si sono evoluti lungo strade che non
si sono mai incrociate. Con lo sviluppo dello Speech Interface
Framework, ora siamo in grado di integrare entrambe le tecnologie,
voce e Web, e beneficiare del loro sodalizio”.
Non siamo in molti, sulla terra, ad avere il dono della parola. Certo,
6 miliardi di persone, qualche centinaio di milioni di scimmie e cetacei
fanno un bel numero, numero che però scompare a confronto con il
resto del mondo animale. 100 miliardi di formiche non parlano, perlomeno non nel modo in cui “noi” definiamo “parlare” e le formiche non
rappresentano che una piccolissima parte della bio massa terrestre.
Certo chi ha avuto modo di interagire con alcuni tipi di pappagallo si
sarà sentito dire che questi parlano ed effettivamente …parlano, o per-
16
Riconoscimento e sintesi vocale: un obiettivo sfuggente
lomeno questa èl’impressione
che abbiamo.
Sono però simili a dei registratori in grado di ripetere dei
suoni, e non diremmo mai che
un registratore parla.
Esiste quindi nel parlare una
qualità che va oltre i suoni che
caratterizzano questa forma di
comunicazione.
In genere al parlare associaIl pappagallo ha la voce ma... non parla
mo l’aspetto del significato. Si
dice “straparla” per indicare una
persona che dice cose fuori dal contesto. In questo caso siamo tuttavia
ancora in presenza di un qualche contesto, quello del parlatore che non
èperò condiviso da chi ascolta.
La comprensione del contesto è quindi un elemento importante nel
linguaggio.
La voce, possiamo dirlo veramente, ha molti volti. Ci sono i dialetti,
c’è il modo di parlare di una particolare persona diverso da quello di
tutte le altre.
Qualunque sia il linguaggio con cui parliamo l’elemento base ècostituito dalle parole, ovvia quindi la loro importanza. Questa, però, cambia da linguaggio a linguaggio. In italiano, ad esempio, le parole hanno
una importanza minore rispetto a quella che rivestono in inglese.
L’inglese ha oltre 500.000 parole, l’italiano ne ha meno di 150.000.
La capacità di espressione dell’italiano non èinferiore a quella dell’inglese e questo è possibile perché le parole…non sono tutto. La comunicazione infatti utilizza oltre alle parole la struttura della frase; la strutturazione della frase in italiano è molto più sofisticata di quella dell’inglese. In italiano, ci insegnano a scuola, non bisogna ripetere la stessa
parola in una frase e possibilmente neppure in frasi consecutive, occorre usare dei sinonimi. In inglese, invece, ogni parola corrisponde ad un
significato e se si vuol dire “quello” occorre usare “quella” parola. Gli italiani che parlano in inglese tipicamente fanno l’errore di usare parole
diverse per esprimere lo stesso concetto. Questo causa notevole confusione in chi ascolta.
17
Quattro passi nel futuro
Parola e struttura sono quindi elementi fondamentali nel parlare.
Ma non basta. È altrettanto importante l’intonazione della comunicazione. In cinese il volume con cui viene pronunciata una parola ne cambia
il significato. Ad esempio il suono “ma” se pronunciato a basso “volume” significa mamma, se a volume medio basso significa difficoltà, a
livello medio alto significa cavallo e a livello alto significa sgridata.
Anche in italiano il pronunciare una parola con un volume e un tono
diverso può cambiare il significato. Dire mamma sottovoce può esprimere dolcezza mentre urlarlo può significare richiesta di aiuto, ma sempre di mamma si tratta, non di un cavallo.
La lingua parlata, quindi, varia da regione a regione. Al mondo si
contano circa 6600 linguaggi ma pur nella loro diversità questi hanno in
comune una infrastruttura che consente il loro utilizzo: la vocalizzazione delle idee e la comprensione della vocalizzazione, cioè la comunicazione tra di noi. Il linguaggio parlato è una facoltà comune a tutti gli
uomini senza eccezioni, non così è il linguaggio scritto. Alcune popolazioni, che facilmente tendiamo a definire “primitive” non conoscono la
scrittura, come ad esempio gli aborigeni australiani.
Anche se il linguaggio scritto è una forma diversa di comunicazione,
“inventata” dall’uomo piuttosto che nata insieme all’uomo, esiste una
certa correlazione tra queste due forme di comunicazione che nel tempo
si sono condizionate a vicenda. L’assenza di un linguaggio scritto presso gli aborigeni australiani spiega, secondo gli antropologi, la particolare forma del linguaggio parlato che questi hanno sviluppato, un linguaggio basato su storie e canti con una struttura della frase molto
diversa dai linguaggi che hanno un corrispondente scritto.
La flessibilità e familiarità del linguaggio parlato sono elementi che
hanno spinto i ricercatori a studiare delle tecnologie vocali artificiali per
dare questa facoltà anche ai calcolatori (e in futuro a qualunque oggetto) immaginando che questo avrebbe portato ad una migliore possibilità di interazione tra noi …e loro.
I progressi nel settore delle tecnologie vocali sono stati notevoli,
basti pensare a quante macchine oggi parlano con noi, dai call center a
piccoli elettrodomestici. Eppure HAL, il computer che in 2001 Odissea
nello spazio parlava con l’astronauta, non c’è ancora. Facciamo allora il
punto su queste tecnologie e soprattutto sulle loro applicazioni future,
ma per comprendere quali siano gli approcci seguiti e le prospettive
18
Riconoscimento e sintesi vocale: un obiettivo sfuggente
occorre tornare a chi rappresenta il meglio nelle tecnologie vocali, cioè
a noi stessi.
COME FACCIAMO A PARLARE E AD ASCOLTARE?
La comunicazione tra noi e il nostro ascoltatore inizia all’interno del
nostro cervello e finisce all’interno del suo. È importante capire come la
comunicazione non si svolga tra una bocca ed un orecchio. Tra questi
due abbiamo un insieme di onde (sonore) che fungono da trasporto ma
la parte “pregiata” della comunicazione avviene a monte e a valle, per
così dire.
Quando decidiamo di parlare si mettono in moto nel nostro cervello
una varietà di processi che portano alla elaborazione del linguaggio in
un’area, quella di Wernicke, che consente il passaggio dalle idee (dallo
stimolo a comunicare) ad una struttura linguistica di base. Un malfunzionamento in quest’area rende la comunicazione linguistica impossibile, in qualunque forma, scritta e parlata.
Questa struttura linguistica viene trasferita nel caso del linguaggio
parlato all’area di Broca deputata alla conversione in parole vocalizzate.
Se quest’area non funziona non riusciamo a parlare ma è comunque
possibile scrivere. Il controllo dei diversi muscoli che consentono di
modulare i suoni, a partire da quelli che controllano il volume di espirazione dei polmoni, viene effettuato da altre aree cerebrali.
Questa prima parte della comunicazione, la vocalizzazione, è stata
oggetto dei primi studi dei ricercatori a partire dagli anni 70 con l’obiettivo di realizzare un sistema meccanico elettronico in grado di sintetizzare la voce, a partire da un testo scritto che rappresenta in qualche modo l’equivalente del prodotto della elaborazione dell’area di
Wernicke (anche se in realtà questa è una rappresentazione molto grossolana).
Rappresentazione dell’andamento delle frequenze di una voce umana
(uomo in basso, donna in alto) nel dire la frase “domain mattina”.
Il primo approccio seguito dai ricercatori è stato cercare di realizzare un equivalente degli apparati di fonazione umani, quindi di modellare l’aria emessa dai polmoni, le corde vocali, l’orofaringe. In questo
modo avrebbe dovuto essere possibile ottenere una vocalizzazione
equivalente a quella umana. I risultati sono stati per un verso notevoli,
19
Quattro passi nel futuro
I polmoni sono il motore che produce l’aria usata per parlare.
La vocalizzazione avviene tramite le corde vocali, labbra e lingua,
principalmente, sotto comando di alcune zone del cervello.
Le onde sonore prodotte sono rilevate dall’orecchio e trasmesse al
cervello per la loro compresione.
ricordiamo lo stupore delle persone nei primi anni 70 nel sentire parlare un calcolatore…Dall’altro canto a risentire oggi quei primi tentativi
viene da sorridere e ci si stupisce dello stupore delle persone di allora
per un risultato che era, ascoltato con le orecchie di oggi, del tutto
insoddisfacente.
Quei calcolatori non riuscivano a fornire una voce credibile ma non
avevano difficoltà a assumere una voce bassa o alta, quindi assimilabile a quella di un uomo piuttosto che ad una donna (l’una risulta circa
una ottava più bassa dell’altra) e erano più piacevoli da ascoltare quando li si faceva cantare piuttosto che parlare.
Inoltre erano in grado di emettere in contemporanea decine di voci
come fossero tante persone che parlavano in contemporanea. Questa
loro caratteristica li rendeva molto bravi a fare dei cori…
Simulare il nostro apparato di fonazione si è rivelato non solo complesso ma soprattutto inutile in quanto se non si interveniva a monte il
risultato non poteva che essere di bassa qualità, e soprattutto ben poco
somigliante alla voce umana. D’altronde persone che soffrono di alcuni
deficit cerebrali, come nel caso dell’autismo, parlano con una voce
monocorde che sembra altrettanto innaturale.
Il motivo di questa voce così diversa da quella cui siamo abituati è
da ricercare nel fatto che le frasi, le parole e le sillabe che pronunciamo
20
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Alla frequenza associata ai suoni di una vocalizzazione, nella figura
quelli relativi alla parola buongiorno, si associa una variazione della
potenza dei singoli componenti del suono, rappresentato nella parte
inferiore del diagramma. Il nostro cervello è molto sensibile a queste
variazioni ed una loro difformità rende la voce di un calcolatore
decisamente innaturale.
sono non solo il risultato di onde sonore con una certa frequenza ma
anche il risultato di minime, ma importanti, variazioni di potenza (volume) alle varie componenti della vocalizzazione.
Questi insiemi di componenti sono detti formanti e i ricercatori nella
seconda metà degli anni 70 hanno iniziato ad utilizzare dei generatori di
formanti abbandonando il tentativo di simulare l’apparato di fonazione
umano. Questo ha consentito un certo progresso nella qualità della voce
artificiale che continuava, però, ad avere caratteristiche distanti da
quella umana. Nel frattempo il progresso della capacità elaborativa e,
soprattutto, della capacità di memoria, permettevano un approccio
completamente diverso alla sintesi della voce.
Visto che l’obiettivo era ricreare la voce umana perché non partire
direttamente dalla voce umana, decomponendola in piccoli frammenti
che potessero essere poi riassemblati a seconda del bisogno?
Questo approccio, ancora attuale oggi, ha consentito enormi progressi nella qualità della sintesi vocale (http://www.loquendo.com).
La voce dei sintetizzatori di oggi, in Italia Loquendo ne produce alcuni tra i più sofisticati in assoluto al mondo, ha una qualità che per gli
addetti ai lavori è stupefacente mentre per ciascuno di noi è una buona
approssimazione della voce umana. Questo è un mistero. Come è pos21
Quattro passi nel futuro
Un esempio di spettrogramma e della corrispondente forma d’onda
per le parole “domani mattina”. Le differrenze tra una voce maschile e
una femminile, nella pronuncia della stessa frase.
Il tono fondamentale di una voce femminile è circa di un’ottava
superiore alla voce maschile.
sibile che si parta da una voce umana e quando si ricompongono i frammenti non si ottenga esattamente una voce umana? È come dicessimo
che affettiamo una mela poi la ricomponiamo rimettendo insieme i vari
pezzi in modo assolutamente preciso ma quello che otteniamo è una
pera!
Il fatto è che nuovamente entra in gioco la parte alta del processo di
vocalizzazione. La nostra voce si modula sulla base di quello che vogliamo dire, di quello che “sentiamo” in quel momento, dell’interlocutore
che abbiamo di fronte. È il significato oltre alla nostra “personalità” che
rende unica la nostra voce.
Il fatto che la voce di ciascuno sia unica fa venire in mente che
dovrebbe essere possibile riconoscere ciascuno di noi sulla base della
voce. In effetti gli studi in questo settore sono abbastanza avanzati e si
vedono i primi risultati. È possibile farsi riconoscere dal proprio telefonino senza dover introdurre una parola chiave e in prospettiva, ma ci
vorrà ancora qualche anno, anche dalla nostra banca per effettuare in
tutta sicurezza e con grande semplicità le transazioni. I problemi in questo settore sono da un lato la necessità di avere l’assoluta sicurezza che
nessun altra persona possa essere scambiata per noi (i cosiddetti falsi
22
Riconoscimento e sintesi vocale: un obiettivo sfuggente
positivi devono essere “0”) e dall’altro che il
sistema ci riconosca sempre anche se siamo
raffreddati, se abbiamo il fiatone dopo una
corsa….(cioè i falsi negativi devono essere
molto ridotti). Questi due requisiti sono in qualche modo contrastanti: oggi ottenere “0” falsi
positivi crea un livello di falsi negativi molto
alto, mentre la riduzione dei falsi negativi non
consente di garantire “0” falsi positivi.
Probabilmente l’evoluzione andrà nella direzione di associare più sistemi di riconoscimento, ad esempio voce e immagini. Il telefonino
tramite la camera digitale potrebbe scrutare il
viso di chi lo impugna, rilevare le caratteristiche
della pelle (la conduzione dell’elettricità e le
impronte digitali) ascoltare la voce mettendo
insieme i diversi elementi in modo da raggiungere da un lato la certezza della identificazione
e dall’altra una facilità di riconoscimento.
l cellulare inizia ad essere
in grado di riconoscere il
proprietario analizzandone
la voce e il viso.
LE APPLICAZIONI DELLA SINTESI VOCALE
A cosa può servire una macchina che parla, al di là di generare lo stupore (molto passeggero, visto che ci abituiamo immediatamente alle
novità)?
Una prima applicazione che viene in mente è l’aiuto a chi non riesce
a leggere ma potrebbe ascoltare. I non vedenti sono molto interessati
a tecnologie in grado di leggere testi, libri, riviste e giornali.
Quanto più la sintesi della voce è gradevole tanto più risulta apprezzata e può essere applicata ad una varietà di contenuti. Ad esempio la
lettura di notizie di informazione richiede un minimo di qualità che renda
ben comprensibili le notizie mentre la lettura di un libro richiede una
qualità molto maggiore per mantenere vivo l’interesse.
Siamo ancora ben distanti dal disporre di sistemi automatici che
siano in grado di leggere un libro come lo leggerebbe un attore professionista e per questo, come vedremo, occorreranno ulteriori progressi
nel settore del riconoscimento vocale.
23
Quattro passi nel futuro
I libri elettronici,
quindi, almeno per i
prossimi 5 anni, non
saranno un settore di
applicazione
delle
tecnologie di sintesi
come pure, per motivi diversi, non lo
saranno le apparecchiature che devono
dialogare con frasi
predefinite come ad
esempio un navigatore satellitare nelle
comunicazioni che fa
guidatore. Per
Sistema di lettura da testo sviluppato da Loquendo e al
queste,
infatti, è più
disponibile su Internet:
http://actor.loquendo.com/actordemo/default.asp
conveniente utilizzare delle frasi preregistrate. Annunci che vengono fatti alle stazioni e agli aeroporti sono
già oggi costruiti sulla base di mini frasi preregistrate che vengono
assemblate di volta in volta.
La sintesi costituisce un interessante modo di comunicare quando
abbiamo gli occhi “occupati”, ad esempio quando si guida una macchina oppure se si sta riparando qualcosa. Le mani tengono gli attrezzi, gli
occhi guardano il pezzo da riparare e una voce sintetica può fornire suggerimenti.
In futuro assisteremo sempre più ad una trasformazione da prodotti
a servizi. Ad esempio una normale fotocamera digitale potrebbe essere
dotata di un accesso WiFi (già oggi vi sono alcune schede di memoria
compact flash che contengono anche un modulo WiFi) e tramite questo
l’azienda che produce la macchina fotografica può fornire un servizio di
consulenza su come scattare le foto, il fotografo può inviare la foto
appena scattata e richiedere di mandargli un insieme di settaggi che gli
permettano di rifarla meglio, può richiedere di associare a quella foto
informazioni relative al posto e così via. Le possibilità sono praticamente illimitate. Come si collega questa trasformazione di prodotti in servizi con la tecnologia della sintesi vocale?
24
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Non possiamo pensare che ad ogni servizio offerto corrispondano
delle persone che rispondono alle domande. Non ve ne sarebbero a sufficienza. Occorre sviluppare dei call center automatizzati in cui gli operatori sono in realtà degli elaboratori. Ecco allora la necessità di sistemi
di sintesi vocale per poter interagire con i clienti. Tutto il settore dei call
center si svilupperà moltissimo nei prossimi anni e una buona percentuale del traffico sarà gestito da macchine in grado di parlare.
Ovviamente queste dovranno essere anche in grado di riconoscere cosa
la gente dirà loro e questo ci porta a considerare un nuovo insieme di
tecnologie.
IL RICONOSCIMENTO DELLA VOCE
Con riconoscimento della voce s’intende ad un livello minimo la capacità di tradurre in un testo la voce e in senso più ampio la capacità di
comprendere il significato di quanto viene detto. Mentre per le persone
è possibile comprendere il significato senza essere in grado di scrivere
quello che è stato detto (si pensi ai bambini che non sanno scrivere o a
molti stranieri che riescono a capire il cinese ma non saprebbero neppure dove cominciare per scriverlo) per le macchine la capacità di tradurre in testo la voce parlata è un prerequisito essenziale alla comprensione.
Abbiamo visto come da molti anni ormai i ricercatori sono riusciti a
far parlare i calcolatori, se pur con una qualità molto bassa all’inizio.
Il riconoscimento della voce ha avuto un progresso ancora più lento. Le
cose in effetti sono più complicate di quanto non sia per la sintesi.
Nel caso della sintesi abbiano osservato come un calcolatore sia in
grado di riprodurre una certa voce, in quanto non fa che ricomporre
frammenti di quella voce, precedentemente memorizzati ed è in grado
di riprodurre una voce maschile a partire da una femminile (o viceversa) cambiano automaticamente la frequenza (spostamento si una ottava verso il basso o verso l’alto). Non è invece in grado di creare una
nuova voce, ad esempio imitare come parla una certa persona.
Ogni voce, abbiamo visto, fa storia a sé.
Nel caso del riconoscimento questo rappresenta un enorme problema.
Fin dall’inizio si è compreso che il riconoscimento di una specifica
voce sarebbe stato difficile in assoluto ma molto semplice relativamente al problema generale di riconoscere una qualunque voce.
25
Quattro passi nel futuro
In questo caso esiste un compromesso: posso cercare di riconoscere
qualunque cosa dica una specifica persona oppure un insieme molto
limitato di cose dette da qualunque persona.
Nel primo caso abbiamo un riconoscitore dipendente dal parlatore
(speaker dependent) nel secondo un riconoscitore indipendente dal parlatore (speaker independent).
Nel caso della sintesi il calcolatore parla con una voce di una specifica persona in quanto ha memorizzato in memoria frammenti di quella
voce. Nel caso di un riconoscitore speaker dependent occorre inserire
nella sua memoria la conoscenza di come parla quella persona. Questo
avviene tramite un processo di addestramento in cui la persona che
dovrà essere riconosciuta legge un insieme di frasi appositamente studiate per fornire alla macchina una ampia varietà di vocaboli e di inflessioni tipiche di quella persona. Tipicamente oggi occorre leggere due o
tre pagine di testo.
Il progresso negli anni è stato nella direzione di riuscire ad effettuare il riconoscimento con un addestramento sempre minore della macchina (inizialmente si doveva addestrarla per una decina di ore, oggi
siamo intorno alla mezz’ora) e nella direzione di riuscire a comprendere anche se la persona altera il suo modo di parlare (il tutto entro certi
limiti, ad esempio se si mette a balbettare o parla singhiozzando la macchina ben difficilmente riesce a capire).
Sull’altro versante, speaker independent, il progresso è stato nella
direzione di estendere sempre più il numero di vocaboli riconosciuti.
Vediamo brevemente come avviene il riconoscimento da parte di un
calcolatore. Questo ci permette di capire meglio il motivo di questi due
approcci e le difficoltà che si devono superare.
Come rappresentato in figura, il primo passo nel riconoscimento consiste nel cercare di identificare, nell’ambito del segnale elettrico in cui è
convertita la voce, le diverse aree che possono corrispondere a delle
parole e al loro interno alle aree corrispondenti a lettere (o sillabe). Si
noti che questa è una costruzione completamente artificiale. Quando
parliamo non pronunciamo né lettere né sillabe ma un suono continuo
che viene modulato originando suoni che sono rappresentati in forma
scritta da lettere. Il nostro cervello non funziona “a lettere”. I bambini
parlano senza sapere né scrivere né dell’esistenza di lettere.
26
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Processo di riconoscimento vocale: il segnale sonoro è convertito in
un segnale elettrico che viene analizzato spettralmente per
riconoscere caratteristiche associabili a un fonema.
Questo è elaborato in un modello acustico che si può o meno
appoggiare ad una banca dati che contiene i modelli acustici di uno
specifico parlatore per restringere le scelte possibili. Le opzioni
identificate sono valutate nell’ambito della frase complessiva per
arrivare alla identificazione della parola.
L’identificazione di parole e lettere quindi è un’impresa tutt’altro che
facile. Una lettera può durare qualche decina di millisecondi o anche un
secondo, può corrispondere ad un suono ben preciso oppure può essere mescolata con altre lettere…
Inoltre il suono di una lettera, la forma d’onda del segnale, varia
notevolmente a seconda di chi la pronuncia. È a questo punto che la
conoscenza della voce di uno specifico parlatore aiuta nel risolvere le
ambiguità. Anche in questo caso tuttavia non vi è quasi mai la certezza
di avere identificato esattamente le lettere e quindi si valuta quale sia
la probabilità che le lettere identificate siano corrette andando a confrontare la parola risultante con quelle contenute in un vocabolario.
È chiaro che tanto più limitato è il vocabolario tanto più semplice diventa identificare una specifica parola. Ecco quindi spiegato il compromesso in cui fino ad oggi ci si è dibattuti nella scelta tra riconoscimento
speaker dependent (riconoscimento risolto in massima parte nel
momento in cui si identificano le lettere sulla base della conoscenza
della pronuncia da parte di quel parlatore) o speaker independent (rico27
Quattro passi nel futuro
noscimento risolto in massima parte nel momento in cui si identificano
le parole sulla base di un vocabolario ristretto).
Spesso occorre valutare la probabilità che una certa parola identificata sia quella corretta andando a considerare tutta la frase. Ad esempio potremmo essere arrivati ad identificare la parola “nove” con una
probabilità del 50 %, oppure “neve” con probabilità del 20% , “nave” al
15% e “dove” al 15%. Quale è quella giusta? Se la frase che si è identificata (anche questa sulla base di probabilità) è del tipo domenica sono
stato a sciare e la xxxx era bella allora la parola “neve” pur avendo una
probabilità inferiore a “nove” è quasi certamente quella corretta.
Questa procedura di tipo probabilistico sembra astrusa ma non è
molto differente, sul piano concettuale, rispetto a quanto accade nel
nostro cervello. Anche qui, infatti, il cervello man mano elabora quanto
sente e in ultima analisi “sente” quello che ritiene logico dover sentire.
È per questo motivo che anche se un nostro interlocutore ci dice una
parola senza senso spesso non ce ne accorgiamo neppure. Il nostro cervello automaticamente sostituisce la parola con una che ha senso.
Nel riconoscimento da parte di una macchina oltre alle tipologie collegate al parlatore (speaker dependent o independent) esistono anche due
caratteristiche legate al contesto. In alcuni casi si richiede un riconoscimento “certo” in altri è sufficiente un riconoscimento “lasco”. Ad esempio se vogliamo un sistema che consenta di effettuare una trascrizione di
un discorso occorre avere un riconoscimento certo in cui ogni parola pronunciata viene riconosciuta e trascritta fedelmente. Se, invece, dobbiamo riconoscere dove una persona vuole andare per fornirgli le informazioni dell’orario ferroviario della frase “siccome mia zia è malata voglio
andare a Milano domani mattina partendo da Torino” ci interessa intercettare andare a Milano partendo da Torino domani mattina. Il perché lui
abbia deciso di andare a Milano è del tutto irrilevante.
Per questo secondo tipo di riconoscitori (detti “fuzzy”, sfumati) si
applicano tecnologie di tipo diverso rispetto a quelli utilizzati per il riconoscimento certo.
Anche qui, come nel caso di speaker dependent e independent, si
deve operare un compromesso. Nel caso del riconoscitore certo occorre
mettere a punto una procedura che garantisca, attraverso interazioni
con il parlatore, che il riconoscimento effettuato sia corretto (e quindi si
instaura un dialogo che non è per nulla naturale per la persona) men-
28
Riconoscimento e sintesi vocale: un obiettivo sfuggente
tre nel riconoscimento fuzzy si accetta di non comprendere tutto e ci si
concentra su alcune parole che in qualche modo sono “attese” dal riconoscitore.
Nel linguaggio di ogni giorno siamo abituati ad accettare un livello di
comprensione soddisfacente anche se non garantito al cento per cento.
Questo è il nostro modo di parlare e di interagire che ci ha accompagnati fin dalla nascita. Se volessimo avere sempre la certezza della
comprensione dovremmo usare non solo un linguaggio che non dia
adito ad equivoci ma dovremmo anche farci ripetere ogni frase che
diciamo da chi ci ascolta in modo da verificare che questo l’abbia compresa esattamente. Sarebbe un modo ben strano di parlare. Eppure vi
sono delle circostanze in cui questo è il tipo di dialogo che dobbiamo
usare. Ad esempio i piloti quando parlano tra loro nella cabina di un
aereo oppure quando parlano con la torre di controllo usano un linguaggio particolare che evita di scambiare una paraola per un’altra: il
numero 9 per i piloti è “niner” (non nine come vorrebbe l’inglese), le lettere non sono “a,b,c” ma “alfa, bravo, charlie”. Inoltre qualunque frase
detta deve essere ripetuta da chi l’ha ascoltata e confermata da chi l’ha
pronunciata. Lo stesso accade in sala operatoria quando il chirurgo chiede un bisturi e l’assistente porgendoglielo dice “bisturi”.
Le macchine oggi non hanno ancora la nostra capacità di comprensione
per cui i casi di equivoco sono potenzialmente di più di quelli che affrontiamo nei discorsi tra di noi. Ecco allora questi dialoghi “strani” ed anche un
po’ noiosi che caratterizzano il nostro interagire con le macchine.
Esiste un ulteriore aspetto del riconoscimento della voce, per noi talmente familiare da passare inosservato, su cui le macchine stanno
appena muovendo i primi passi. È quello della comprensione emotiva,
del messaggio cioè che si nasconde dietro al modo in cui viene detta
una frase. La persona che parla è allegra, triste, ansiosa, spaventata,
ironica? Il significato delle parole può cambiare enormemente a seconda della situazione emotiva di chi parla.
Su questo versante alcuni ricercatori hanno iniziato a sviluppare
applicazioni in grado di riconoscere alcune di queste sensazioni: manca
ancora il collegamento tra i riconoscitori di emozioni e i riconoscitori del
parlato in modo che l’uno possa influenzare l’altro.
Probabilmente occorrerà attendere la prossima decade prima di arrivare ad una interazione tra questi due tipi di riconoscimento. Siamo
29
Quattro passi nel futuro
ancora distanti, quindi, da una macchina in grado di interpretare una
persona a livello di un dialogo. Qualche ricercatore, addirittura, sostiene che non ci si arriverà mai, ma…mai dire mai.
LE APPLICAZIONI DEL RICONOSCIMENTO DELLA VOCE
Tutti, oggi, abbiamo esperienza di macchine che riconoscono la voce.
Basta chiamare un centro di assistenza automatizzato e la voce che
sentiremo ci inviterà a pronunciare un insieme di vocaboli per identificare cosa si desidera.
La maggior parte dei call center richiede di selezionare un numero,
“digiti 1 se desidera informazioni su…”, ma in alcuni casi non è possibile usare questo approccio. Se ad esempio si deve chiedere l’orario di un
treno occorre pronunciare il nome della città di partenza e di quella di
arrivo. Fortunatamente il numero di parole in gioco è limitato e quindi è
possibile con le tecnologie attuali riconoscere quanto pronunciato da
una persona qualunque. Un problema più complesso è quello di riconoscere un cognome o il nome di una
via, cosa necessaria se un cliente
telefona ad una macchina per avere
un numero di telefono. Non solo il
dominio (cioè il numero di parole) è
più ampio. In questo caso ci si trova
di fronte anche a parole straniere
che si prestano ad essere lette in
modo differente a seconda di chi le
pronuncia. I risultati, tuttavia, sono
abbastanza buoni e si arriva a riconoscimenti intorno all’80%.
Con Synthetic Interviews, realizzato
dalla CMU, è possibile intervistare
Albert Einstein dialogando con lui di
fisica, religione, famiglia,…insomma
di qualsiasi cosa ci venga in mente.
E le sue risposte sono spesso
intriganti, sempre comunque frasi
che Einstein ha effettivamente
pronunciato, anche se in contesti
spesso completamente diversi.
30
Altre applicazioni sono relative
alla richiesta di informazioni. In un
prossimo futuro, alcuni prototipi esistono già in laboratorio, sarà possibile dialogare in linguaggio naturale
con delle macchine specializzate in
temi particolari, ad esempio le informazioni meteo oppure quelle sul
traffico, sistemi che forniscono infor-
Riconoscimento e sintesi vocale: un obiettivo sfuggente
mazioni turistiche e, un po’ più in là,
anche con sistemi di supporto all’apprendimento.
Alla Carnegie Mellon University, a
Pittsburgh negli USA, hanno sviluppato un sistema, chiamato synthetic
interviews, che permette di intervistare dei personaggi famosi come se
fossero presenti davanti a noi.
Ci si collega tramite un computer
ad una banca dati che contiene una
grande quantità di frasi che quel personaggio ha effettivamente detto in
passato ed un apposito software
identifica all’interno delle cose che
noi diciamo alcuni vocaboli chiave
che probabilmente sono l’essenza
della domanda e da questi cerca di
risalire a delle frasi dette da quel
Persona disabile in grado di dialogare
personaggio, in alcuni casi combicon il PC tramite un riconoscitore
nandole tra loro, e ce le fa ascoltare.
vocale che sostituisce le interazioni
tramite tastiera e mouse.
L’effetto, in molti casi, è stupefacente. Il personaggio risponde a tono, si
ha veramente l’impressione che abbia capito la nostra domanda e ci
risponda.
È chiaro come in futuro questo tipo di applicazioni saranno in grado
di sostenere dei veri e propri discorsi, rendendo l’apprendimento molto
più coinvolgente. È altrettanto ovvio come vi siano problemi legati a
queste applicazioni. Quanto più queste diventano “brave” e quindi indistinguibili dal reale, tanto maggiore il rischio che la persona che fa le
domande sia tratta in inganno e creda veramente di aver ricevuto delle
risposte “sensate” e per di più da uno specialista. Certamente sistemi di
questo tipo non vanno bene per offrire delle consulenze mediche. I risultati potrebbero essere devastanti.
Inoltre chi si assume la responsabilità di quanto una persona fa sulla
base di quanto si sente dire da questa applicazione? Siamo, e dobbiamo restare, nel campo del divertimento, magari educativo, ma pur sempre finzione e non realtà.
31
Quattro passi nel futuro
Per alcune persone che hanno problemi motori, ad esempio non possono eseguire azioni con le mani, il poter disporre di un sistema di riconoscimento della voce è importante in quanto potrebbero interagire a
voce con il mondo.
Sistemi di dettatura sono ampiamente utilizzati da persone che
hanno esigenza di non abbandonare quello che stanno facendo per
prendere nota e si avvalgono quindi di un riconoscitore vocali per scrivere sotto dettatura. Questo tipo di applicazioni si svilupperà notevolmente in futuro, via via che i riconoscitori diventeranno più efficienti ed
in grado di riconoscere qualunque voce e qualunque soggetto (oggi ci
sono riconoscitori specializzati per i medici, per gli avvocati, per i
notai…).
LA TRADUZIONE DA UNA LINGUA AD UN'ALTRA
Una applicazione che ha un forte interesse è quella della traduzione
simultanea. Pensate: noi parliamo la nostra lingua e il nostro ascoltatore ci ascolta nella sua. La parte tecnologica di base, cioè disporre di
microfoni ed auricolari miniaturizzati in grado di captare la nostra voce
e di fornirci la voce artificiale con la
traduzione, esiste già ed è più che
soddisfacente. Come abbiamo visto
abbiamo dei sintetizzatore efficaci e
dei riconoscitori accettabili. Il riconoscitore permette di tradurre una
voce in un testo scritto e il sintetizzatori converte un testo scritto in
una voce. Il problema, quindi, sembra essere legato alla traduzione da
testo scritto a testo scritto. Ed in
effetti questo è il tema su cui i ricercatori stanno operando.
Esempio di traduzione offerta
gratuitamente su Internet.
32
Abbiamo dei traduttori, molti
anche disponibili gratuitamente su
internet, come quello a lato della
Free2Translation, in grado di tradurre approssimativamente, si veda a
lato, una frase.
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Siamo ancora abbastanza distanti, però, dal disporre di una traduzione buona, utilizzabile correntemente.
Le difficoltà sono le stesse che rendono complicato arrivare ad un
riconoscimento efficace. Per questo motivo traduzione automatica e
riconoscimento sono in realtà due facce di una stessa medaglia, quella
della comprensione di un contesto, del ricordo, della valutazione di ciò
che ha senso e ciò che non ne ha. In una qualche misura qui siamo vicini al concetto stesso di intelligenza e di comprensione umana.
È quindi una sfida che rimane e non deve stupire che a dispetto degli
enormi progressi che la ricerca ha saputo fare si sia ancora relativamente agli inizi in questi settori.
I progressi finora fatti sono da imputare più alle aumentate capacità
elaborative dei microprocessori ed alla crescita della capacità di memoria che non alla scoperta di nuovi approcci al problema. Nei prossimi
anni possiamo ragionevolmente attenderci ulteriori progressi grazie ad
ulteriore sviluppo dei calcolatori e delle memorie. Siamo passati da banche dati dell’ordine dei MB negli anni 90 a quelle da GB di oggi e nei
prossimi anni useremo memorie da TB. Si è passati dalla analisi delle
probabilità di una singola lettera a quelle delle probabilità di una singola parola. Oggi si inizia a lavorare a livello di frase.
Tipica è la traduzione della frase inglese “out of sight, out of mind”
che eseguita a livello di singolo aggregato di parole dà come risultato
“Invisibile Idiota” (out of sigh = invisibile, out of mind=pazzo, idiota)
mentre il suo significato dovrebbe essere “se una cosa è distante da noi
tendiamo a non considerarla” o come diremmo con una frase fatta,
equivalente a quella inglese “lontano dagli occhi, lontano dal cuore”.
Nella prossima decade, probabilmente verso la fine, si analizzerà la
probabilità dell’intero discorso in un dato contesto, cioè quello che fa il
nostro cervello.
Un impulso ai progressi nel settore della “comprensione”, che abbiamo visto è cruciale sia che si parli di traduzione automatica sia che si
tratti di riconoscimento del parlato, potrà provenire dalle ricerche mirate a prevenire atti terroristici tramite l’ascolto automatico delle conversazioni che si svolgono in tutto il mondo sulla rete telefonica e su internet. Il dipartimento della difesa americano sta investendo moltissimo in
questo settore. Il progetto Echelon vorrebbe arrivare ad intercettare
ogni conversazione e analizzare se esistono degli elementi di minaccia.
33
Quattro passi nel futuro
Alcuni risultati sono tra le mani dei soldati americani che operano in
Irak. Questi sono dotati di un dispositivo palmare (VoxTec Phraselator
P2) in cui parlano in inglese e questo traduce immediatamente in arabo.
CERCARE INFORMAZIONI VOCALI
Esiste anche un forte e crescente interesse alla comprensione dei
testi e del linguaggio parlato che deriva dalla grande disponibilità di contenuti in rete.
Con Google si possono cercare documenti che contengono certe
parole e frasi ma non è possibile trovare degli spezzoni video, ad esempio dei telegiornali, in cui qualcuno parlava di una certa cosa.
Si noti che in questo caso la ricerca si sposta ancor di più a livello di
significato. Ci interessa recuperare un video in cui si trattava di una
certa cosa, ma ovviamente non sappiamo che parola fosse utilizzata. Ad
esempio potremmo vedere un video relativo alle discussioni sugli effetti degli OGM sui bambini…
La comprensione del contesto gioca un ruolo fondamentale nella
comprensione del linguaggio.. Persone che operano in uno stesso contesto spesso parlano un linguaggio incomprensibile a chi non appartiene a tale contesto. Se si vuole un esempio vicino a ciascuno si pensi a
come parlano tra loro i ragazzini…
Nel linguaggio Maya i numeri erano rappresentati con delle facce in
cui la posizione delle labbra rievocava quella che queste assumevano
nel pronunciare la parola che rappresentava il numero. Visione e
sonoro sono elementi spesso inscindibili del linguaggio umano a cui
nel tempo si è aggiunta la rappresentazione scritta.
34
Riconoscimento e sintesi vocale: un obiettivo sfuggente
Non è solo un problema di conoscenza o meno di certi termini. Il problema è molto più profondo e riguarda la struttura stessa del linguaggio.
Inoltre, come abbiamo già rimarcato precedentemente, la comprensione non è solo verbale. Noi comprendiamo meglio l’altra persona
quando riusciamo anche a guardarla mentre parla. Infatti i messaggi
non verbali sono altrettanto importanti nella comunicazione dei messaggi verbali. Gli aspetti emotivi sono fondamentali nel processo di
comprensione e su questi siamo, dal punto di vista della comprensione
scientifica, ancora più indietro.
Siamo quindi, complessivamente e a dispetto degli enormi progressi
compiuti in questi ultimi 50 anni, ancora abbastanza lontani da una
comprensione piena del linguaggio. La cosa, in fondo, non dovrebbe dispiacerci troppo visto che dimostra quanto sofisticata sia questa qualità
che ci contraddistingue.
35
Quattro passi nel futuro
E allora, viene anche in mente che c’è del vero nella battuta di
Totò nel film “La banda degli onesti”,
parli come badi
visto che in effetti il nostro linguaggio è espressione
del nostro essere profondo.
36