I quaderni di - Fondazione Ugo Bordoni

Transcript

I quaderni di
A cura di Alberto Mucci
LE MACCHINE CHE PARLANO
I
l robot che parla, che risponde alle sollecitazioni della persona, che la
sostituisce in molti servizi e in tante incombenze, è un’idea che da sempre
avvince e esalta. Un tempo mito, quello della statua parlante, come ci
tramanda la storia degli egizi; poi esperimento di volta in volta più
concreto. Oggi applicazione che sta prendendo sostanza.
Fino a 10 anni fa le macchine in grado di “parlare”, cioè di rispondere
automaticamente, erano del tutto sperimentali. Altrettanto si può dire per le
macchine che ascoltano, che capiscono e che poi sanno rispondere.
Negli ultimi tempi queste macchine stanno entrando nell’uso comune.
Diventano uno strumento operativo normale.
Gli esempi sono nella vita quotidiana. Per consultare un orario ferroviario
posso oggi servirmi di un telefono e comporre un numero verde. La risposta,
sulla base delle informazioni via via fornite (città di partenza, città di
destinazione, percorso, ecc.) sarà automatica, vocale. La macchina parlerà… E
così il telefonino che utilizziamo quotidianamente può essere preparato per
“riconoscere” la voce dell’utente.
Il robot alternativo a Internet? No. Gli strumenti per comunicare si moltiplicano
costantemente lungo la strada della “Grande Mutazione”, come illustriamo in
questo “Quaderno” e come documenteremo nel prossimo dedicato in
particolare alla elaborazione dei testi. Con una prospettiva a breve: quella di
Internet che si sposa con la voce, che la cattura nel Pc e la utilizza per ampliare
la sua capillarità, per aggiungere servizio a servizio, in questa società
dell’informazione dagli scenari in continua evoluzione.
SUPPLEMENTO AL NUMERO DI GIUGNO N. 207 DI MEDIA DUEMILA
INDICE
IL CALCOLATORE NEGLI STUDI LINGUISTICI
SINTESI DELLA VOCE E AGENTI PARLANTI
DESKTOP SPEECH RECOGNITION: TECNOLOGIA, APPLICAZIONI E FUTURO
UN’APPLICAZIONE IN CAMPO MEDICO: PHONEMA-MED
LA CONVERSAZIONE CON IL CALCOLATORE
TECNOLOGIE VOCALI PER IL MONDO DEI DISABILI
L’E-LEARNING E I CORSI DI ITALIANO PER STRANIERI
Il Quaderno è stato realizzato dalla Fondazione Ugo Bordoni
(Presidente il Prof. Giordano Bruno Guerri, Direttore Generale
il Consigliere Guido Salerno). Coordinatore del Quaderno
il prof. Andrea Paoloni. Hanno collaborato: Piero Cosi, CNR;
Alessandro Tescari, Gruppo Soluzioni Tecnologiche;
Roberto Garigliano, Cirte; Giuseppe Castagneri, Loquendo;
Paolo Parlavecchia, E-Biscom.
Le facce parlanti.
69
74
79
82
85
90
94
IL CALCOLATORE NEGLI STUDI LINGUISTICI
L
a tradizione italiana vuole che la vera aree in cui si divide il TAL, il parlato e lo scritto.
cultura, quella con la C maiuscola, sia Questa separazione ha origine soprattutto dalle
umanistica. Un laureato in ingegneria diverse aree scientifiche che tradizionalmente
o in fisica è un tecnico, poco più che hanno svolto ricerche in questa area: l’acustica
un operaio specializzato e non può occuparsi per il segnale di parola e l’informatica per queldei fenomeni culturali. Il progresso tuttavia sta lo che viene denominato Natural Language
Processing (NLP). Questa separaziospostando la bilancia in un’altra direne, a parere di molti, può costituire
zione e la tecnologia sta assumendo
un ostacolo per lo sviluppo del TAL.
un ruolo da protagonista. Il termine
La divisione tra studi sul parlato e
“digital divide” fa riferimento agli ostudi sullo scritto non risponde ad
stacoli originati dall’ignoranza nei
una reale esigenza, ma trova spiegaconfronti dell’informatica nelle sue
zione nel tentativo di due diverse
mille applicazioni quotidiane e colcomunità scientifiche di avere più
pisce anche, ahimè, molti dotti umaattenzione e più fondi; la comunicanisti. L’impostazione tradizionale rizione in linguaggio naturale integra
schia di essere un ostacolo per il siin sé le due componenti con il fine
stema paese; è anche in questo l’imultimo di trasmettere un messaggio
portanza di una disciplina come
quella del Trattamento Automatico Fig. 1. Un articolo e pertanto sarebbe auspicabile una
dell’‘86, pubbblicato da
del Linguaggio (TAL) che si pone co- Panorama, mostra le a- maggiore integrazione degli studi.
me ponte tra due culture e, forse, tra spettative sull’utilizzo del La combinazione dell’elaborazione
riconoscimento vocale.
del parlato con la tecnologia NLP
due diverse visioni del mondo.
fornisce un potente strumento per
Ma questo aspetto culturale non è
il vero obiettivo della ricerca sul TAL: questa di- migliorare i sistemi di interazione uomo comsciplina fornisce nuove possibilità di lavoro per puter e tra gli uomini attraverso il computer.
quei laureati delle facoltà umanistiche che sappiano comprendere che l’informatica, in quanLA RICERCA SUL TEMA IN EUROPA
to opera su linguaggi artificiali, non è poi così
distante dai loro studi sui linguaggi naturali;
Negli ultimi anni le tecnologie del TAL sono
contribuisce significativamente allo sviluppo passate dalla ricerca di base alle applicazioni
dell’industria dell’immateriale, ovvero del nella vita quotidiana, tuttavia per gli standard
software e dei servizi, che è destinata ad essere contemporanei in un ambiente dove i cicli di inil primo motore di sviluppo, e in cui l’Italia è si- novazione tecnologica sono misurati in mesi e
gnificativamente sotto la media europea e, infi- non più in anni, la crescita delle tecnologie linne, è supporto indispensabile alla promozione guistiche potrebbe sembrare deludente. Ma
dell’uso della lingua italiana in Italia e all’estero. l’impressione di una stasi tecnologica è, a nostro
Verrà illustrato nel seguito di cosa si occupi avviso errata. La ricerca di base ha circa 50 anni.
il TAL è tuttavia opportuno dire che con tale Dopo alcune decadi le ricerche hanno fornito i
termine si designano quei programmi applica- primi prodotti negli anni 90 e da allora i progrestivi e quei sistemi che, attraverso l’elaborazio- si compiuti sono stati continui. Per molto tempo
ne del segnale vocale o del testo scritto, trag- la complessità del calcolo era superiore alla digono informazioni utili a comprendere le ri- sponibilità degli elaboratori, oggi questa barriechieste dell’utente. Ad esempio un interfaccia ra è caduta e la tecnologia del computer mette a
basata sulle tecnologie del TAL è in grado di disposizione una sufficiente capacità elaboraticomprendere il significato di una domanda va. In cambio la tecnologia del TAL fornisce agli
formulata verbalmente (Quando parte il pros- elaboratori le interfacce uomo-macchina di cui
simo treno Roma Foggia?) e provvedere a for- abbisognano per aumentare la loro penetrazionire una risposta, sempre verbalmente (il pros- ne nella società. Particolarmente significativo è
simo treno Roma Foggia parte da Roma Termi- il ruolo del TAL nell’ambito della realtà europea,
ni alle ore… e arriva a Foggia alle ore…) op- caratterizzata dalla presenza di 11 lingue ufficiali
pure di tradurre un testo in una altra lingua.
destinate a divenire presto 20 con il previsto inNegli esempi ora proposti abbiamo esempli- gresso delle nazioni dell’est. Inoltre vi sono altre
ficato due applicazioni relative alle due grandi lingue ufficiali quali il Basco o il Catalano e le
- 69 -
I QUADERNI DI TELÈMA
profondità delle ricerche, ampiezza delle competenze linguistiche. Dalla tabella emerge che
le nazioni con il migliore ambiente industriale
e le migliori infrastrutture sono quelle che godono di migliori risultati. Le nazioni leader sono la Gran Bretagna, la Germania, seguono
Francia Belgio e Spagna mentre l’Italia è posizionata molto al disotto della media europea.
lingue degli immigrati come l’Urdu in Gran Bretagna, l’arabo magrebino in Francia il Turco in
Germania e l’Albanese in Italia. La possibilità di
usare ciascuna di queste lingue nella vita quotidiana è una crescente esigenza nelle attività lavorative e di svago nella civiltà europea. Questo
riflette l’ambizione di un Europa che vuole integrarsi rispettando al meglio le singole individualità; perché ciascun cittadino possa partecipare
liberamente all’offerta culturale è necessario un
supporto alle diversità linguistiche così che a
ciascuno sia consentito di esprimersi nella propria lingua, che riflette la propria cultura. I prodotti e servizi devono essere disponibili in tutte
le lingue dell’unione. La sfida di produrre
software per il Tal in tutte le numerose lingue
europee dà ai ricercatori e all’industria europea
della lingua un vantaggio indubbio.
Benché il TAL, in termini di mercato rivesta
un importanza limitata, il suo impatto in termini di accessibilità, innovazione e integrazione è molto significativo e altrettanto significativo il suo ruolo nello sviluppo delle tecnologie informatiche in europa (eEurope).
Quanto alla posizione italiana, in confronto alle altre realtà d’europa, purtroppo essa si
allinea con la scarsa presenza nell’industria
informatica della quale abbiamo già parlato.
Il grafico di Tabella 1 riporta le analisi delle
opportunità di ricerca nel TAL che include, come detto, le ricerche relative al parlato (speech) e al testo (NPL). Con il termine opportunità
si fa riferimento ad un indice che contiene gli
investimenti pubblici e privati, ampiezza e
IL TRATTAMENTO AUTOMATICO
DEL LINGUAGGIO PARLATO
Con il termine “Trattamento Automatico
del Linguaggio” che indicheremo nel seguito
con l’acronimo TAL, si vogliono indicare un
insieme di applicazioni o moduli, per lo più
software, ma anche costituiti da appositi circuiti hardware, che elaborano il linguaggio umano. Il TAL comprende due grandi aree applicative e di ricerca, lo “speech processing” o
elaborazione del parlato e il “Natural Language Processing” (NLP) o elaborazione del testo. La prima area è volta a riprodurre la capacità umana di comunicare attraverso la parola
e comprende la codifica del segnale vocale,
in genere volta a ridurre la quantità di informazione da trasmettere o memorizzare, la
sintesi da testo, ovvero la realizzazione della
macchina in grado di leggere un testo qualsiasi, il riconoscimento del parlato, ovvero la
macchina in grado di scrivere, e infine il riconoscimento del parlante. La seconda area
(NPL) tende a riprodurre la capacità umana di
comprendere il linguaggio, sia parlato sia
TAL
7
OPPORTUNITÀ
6
5
4
3
2
1
Tabella 1
- 70 -
MEDIA EU
REGNO UNITO
SVEZIA
SPAGNA
PORTOGALLO
PAESI BASSI
ITALIA
IRLANDA
GRECIA
GERMANIA
FRANCIA
FINLANDIA
DANIMARCA
BELGIO
AUSTRIA
0
scritto e, dal punto di vista dei moduli algoritmici utilizzati, prevede analizzatori sintattici e
semantici, modelli di rappresentazione del
mondo basati su dizionari o enciclopedie,
mentre dal punto di vista delle applicazioni,
citeremo la traduzione automatica, che riveste
importanza particolare nell’Europa dalle molte lingue, la produzione di sommari e le tecniche di annotazione che sono il punto di partenza per il reperimento dell’informazione in
un mondo, quale quello attuale dove le informazioni disponibili crescono a ritmo esponenziale. Il presente quaderno è dedicato al
primo dei due temi del TAL ovvero all’elaborazione del parlato, in quanto l’elaborazione
del linguaggio naturale sarà oggetto di un altro ulteriore quaderno di Telèma.
LE TECNOLOGIE
Riprendiamo ora il tema dell’elaborazione
del parlato esaminando singolarmente le tecnologie in cui si divide. Possiamo dapprima
suddividere l’area in due grandi temi ovvero
la generazione della voce, sintesi e/o codifica
e la percezione del parlato, riconoscimento
del parlato e/o del parlante.
Sintesi. La generazione della voce ha una
storia molto antica: si narra di statue parlanti
presso i Caldei, nel VII secolo A.C., tuttavia si
può parlare di sistemi effettivamente in grado
di generare il parlato solo dopo l’introduzione dei calcolatori numerici. Gli obiettivi della
parametrizzazione del segnale vocale sono
due: il più importante dal punto di vista applicativo e commerciale è la codifica del segnale, con l’obiettivo di ridurre la occupazione di
banda di una singola comunicazione vocale,
il più interessante dal punto di vista scientifico è la generazione della voce a partire dal
concetto da esprimere o, almeno, da un testo
scritto, l’obiettivo insomma è una macchina in
grado di leggere.
Codifica. La codifica del segnale vocale parte
dalla constatazione che la banda acustica percepita dall’orecchio umano ha una dimensione di circa 700.000 bit/s e, limitatamente al segnale vocale, di circa 128.000 bit/s, mentre il
contenuto informativo di un massaggio scritto
(supponendo una lettura al ritmo di una parola al secondo) è di circa 10 bit/s; dal confronto risulta evidente che le informazioni accessorie, legate alla particolare voce del parlante,
all’ambiente acustico, etc. occupano una banda molto significativa ed è pertanto ragione-
vole cercare strade che consentano di ridurre
le “ridondanza” del segnale trasmesso.
A tal fine vengono progettati codificatori
che possono essere caraterizzati sulla base di
quattro parametri: la velocità di cifra (bit-rate), la complessità, il ritardo e la qualità. Col
termine velocità di cifra ci si riferisce alla larghezza di banda occupata dal segnale, con il
termine complessità si fa riferimento agli algoritmi che dovranno essere implementati,
con il termine ritardo, il ritardo provocato dalla codifica che deve essere minimo per non
creare problemi nella comunicazione (echi) e
con il termine qualità, infine, si fa riferimento
ad un insieme di caratteristiche legate al gradimento del segnale codificato. Vari sono i
percorsi che vengono seguiti per codificare il
segnale vocale, uno si basa sulle caratteristiche statistiche del segnale e cerca di adattare
la codifica a queste ultime. Ad esempio può
essere inviata, in luogo del valore di un campione, la differenza tra tale valore dal valore
del campione precedente.
Un’altra via è basata sulle caratteristiche
percettive del nostro orecchio e l’obiettivo è
trasmettere solo ciò che può essere percepito.
Una metodica applicativa di questo approccio
consiste nel suddividere la banda acustica in
un certo numero di sottobande, per ciascuna
delle quali è utilizzata la codifica minima accettata dal nostro orecchio.
Infine un’ulteriore via per migliorare la codifica è quella denominata “quantizzazione
vettoriale”, che consiste nel codificare simultaneamente un “vettore” di coefficienti. In
pratica ciascuna comparazione o misura di
campioni viene trasmessa come “nome” di un
vetore di un appostito insieme di vettori (codebook) che lo rappresenta.
Con le tecniche di codifica sopra descritte
sono stati realizzati vari sistemi, la cui diffusione è molto grande: si pensi che gli attuali
telefoni cellulari fanno uso delle sopraddette
tecniche e trasmettono ad una velocità di cifra
compresa tra 13 e 6 Kb/s.
Riconoscimento. Il riconoscimento del parlato consiste, in senso stretto, nel convertire
il parlato in un testo scritto. Ciò richiede la
sua conversione in unità, come i fonemi o le
parole, e l’interpretazione di tale sequenza
per poter correggere le unità riconosciute in
modo errato o, nel caso sia necessario, comprendere il parlato per effettuarne la interpretazione.
Le ricerche sul riconoscimento del parlato
iniziarono negli anni ‘50, quando nei labora-
- 71 -
tori della Bell fu costruito un sistema per riconoscere i numeri pronunciati da un determinato parlatore. Il sistema funzionava misurando le risonanze dello spettro durante i tratti
vocalici di ciascun numero.
Negli anni ‘60 molte idee fondamentali per
il riconoscimento del parlato vennero pubblicate ed entrarono nella competizione numerosi laboratori giapponesi. Uno dei primi prodotti, provenienti dal Giappone, fu un
hardware per riconoscere i numeri che utilizzava un eleborato banco di filtri.
I PROGETTI DI RICERCA
Tra i progetti di ricerca di maggior rilievo ricordiamo quello sviluppato presso l’RCA, volto
a risolvere il problema della non uniformità della durata temporale degli eventi del parlato. Il
progettista sviluppò una serie di metodi di normalizzazione basati sulla corretta identificazione dell’inizio e fine del tratto sonoro. All’incirca
nello stesso periodo, in Unione Sovietica Vintsyuk propose l’uso della programmazione dinamica per allineare tra loro le coppie di fonemi.
Infine, le ricerche di Reddy, portarono, nel
‘73, alla realizzazione del primo sistema dimostrativo sul riconoscimento del parlato continuo
presso la Carnegie Mellon University. Si tratta
del famoso HEARSAY I che utilizzava informazioni semantiche per ridurre il numero di alternative che il riconoscitore doveva analizzare.
Nel sistema per il gioco degli scacchi realizzato
con HEARSAY I, il numero di frasi alternative
che potevano essere dette in un dato punto, era
limitato dalle possibili mosse. Appare fondamentale per il funzionamento dei sistemi di riconoscimento del parlato utilizzare la sintassi,
la semantica e la conoscenza del contesto per
ridurre il numero delle alternative possibili.
Negli anni ‘70 la ricerca raggiunse i primi
importanti risultati nel riconoscimento delle
parole isolate, utilizzando la tecnica del pattern recognition e della programmazione di-
Tecnologia per il riconoscimento del parlato/parlante
conversazione naturale
parlato spontaneo
dialogo tra due
word spotting
STILI DI PARLATO
parlato fluente
trascrizione
controllo di sistema
stringhe di numeri
Parlato letto
chiamato con
agenti
compilazione modulo
parole connesse
dettatura
verifica del parlato
elenco abbonati
comandi vocali
parole isolate
2
20
200
2000
20000
Dimensione
(numero di parole)
Complessità delle applicazioni del riconoscimento del parlato in funzione dello stile e del vocabolario
- 72 -
illimitato
namica. Un’altra ricerca avviata negli anni ’70,
da parte dell’IBM, fu quella sui grandi vocabolari che portartò alla realizzazione del sistema chiamato TANGORA.
Negli stessi anni presso i laboratori Bell si sperimentarono sistemi completamente indipendenti dal parlante per applicazioni in telefonia.
Mentre il riconoscimento per parole isolate
fu l’obiettivo degli anni ‘60, negli anni ‘70 l’obiettivo divenne il riconoscimento delle parole
connesse. Era necessario creare un sistema robusto capace di riconoscere una serie di parole
pronunciate in maniera fluente. A questo fine
furono formulati numerosi algoritmi tra i quali la
programmazione dinamica a due livelli, sviluppata presso la NEC in Giappone, il metodo “one
pass” sviluppato in Inghilterra e gli algoritmi sviluppati presso i Bell Laboratories da Rabiner.
Il tema che ha caratterizzato gli anni ‘80 è stato il passaggio dalle tecnologie basate sul confronto di maschere ai modelli statistici, in particolare il modello denominato “Hidden Markov
Model”, utilizzato nei laboratori dell’IBM. Tra i sistemi basati sugli HMM citeremo lo SPHINX, della Carnegie Mellon, e BIBLOS, della BBN.
Nella figura di pagina 72 si vedono le varie
applicazioni delle tecnologie del riconoscimento del parlato in funzione delle dimensioni del
vocabolario e del modo di parlare. Il livello di
difficoltà aumenta all’aumentare della velocità
del parlato e della dimensione del vocabolario.
Non riteniamo opportuno descrivere in dettaglio quali siano gli algoritmi utilizzati per il riconoscimento del parlato, tuttavia vorremmo
far comprendere che l’informazione acustica,
da sola, non è sufficiente a permettere la trascrizione di un testo, ma è necessaria una qualche forma di comprensione. Questa comprensione deve essere portata avanti da un componente linguistico che segue il componente acustico nel sistema di riconoscimento.
Le due differenti aree applicative dei sistemi di riconoscimento del parlato attualmente
esistenti sul mercato, si distinguono per il diverso componente linguistico. Il modulo usato per la dettatura dei testi prevede l’uso di un
vocabolario molto grande e cerca di migliorare il contributo del modulo acustico, quello
che trasforma il segnale in ipotesi fonemi, utilizzando particolari interfacce che riducano il
rumore e addestrando il modulo acustico con
la particolare voce di colui che detterà i testi.
I sistemi per la telefonia, che vengono usati
in rete e quindi non possono utilizzare particolari accortezze nel ridurre il rumore e per
addestrare il sistema, hanno il vantaggio di operare su un vocabolario molto più limitato,
come più limitato è il numero di frasi accettabili. Il modulo linguistico è pertanto affiancato da un modulo di gestione del dialogo che
per ogni momento del colloquio propone un
numero limitato di frasi da riconoscere.
Una più completa descrizione delle caratteristiche di queste due tipologie di riconoscitore è proposta in due diversi articoli di questo quaderno.
Identificazione e verifica del chiamante.
Nell’ambito del riconoscimento vocale o meglio nell’ambito delle macchine che ascoltano
e comprendono viene molto spesso catalogato il processo dell’identificazione del chiamante a partire dalla sua voce. Tradizionalmente questa tecnologia viene classificata in
due diverse aree applicative: la verifica dell’identità, quando l’utente si identifica e il sistema deve confermare o meno la identità dichiarata, e il riconoscimento, quando la voce
non dichiara la sua identità e pertanto si tratta
di attribuirla ad un parlatore all’interno di un
insieme di canali dati. In quest’ultimo caso la
difficoltà del compito cresce all’aumentare
della dimensione dell’insieme e per insiemi aperti si ritorna alle condizioni di verifiche ripetute. Le applicazioni di questa tecnica sono, per la prima, i sistemi biometrici di identificazione della persona, per la seconda il riconoscimento a scopo identificativo o forense.
PROSPETTIVE FUTURE
Per ovvie ragioni, la ricerca sul Tal è storicamente evoluta per ciascuna nazione nella propria lingua. Queste tecnologie non possono essere semplicemente acquistate, come un computer o un’automobile, ma richiedono una attenta opera di progettazione per “funzionare”
in una determinata lingua. Tuttavia è sempre
più comune trovare sistemi multilingua nei
maggiori laboratori e centri di ricerca in quanto
si va verso uno sviluppo sempre più globale e
le conoscenze linguistiche migrano, insieme ai
parlanti, nell’intera europa. La ricerca diviene
sempre più integrata e le conoscenze linguistiche migliorano mentre cresce il numero di dati
vocali disponibili (basi di dati vocali e lessici).
La ricerca nell’area richiede un importante
supporto pubblico come è avvenuto in Europa grazie ai finanziamenti CEE. È importante
che questo supporto prosegua in quanto le
sole forze del mercato non possono produrre
da sole il necessario sforzo finanziario.
Queste considerazioni valgono in particolare
per l’Italia, dove è indispensabile superare l’at-
- 73 -
condo i programmi del governo, dovrà disporre di un sistema di interazione efficiente basato
sulla comunicazione vocale. A nostro avviso l’Italia, seguendo l’esempio di altre nazioni, si dovrebbe dotare di strutture dedicate a promuovere la ricerca e lo sviluppo questa tecnologia.
La costituzione, presso il Ministero delle
Comunicazioni, di un “forum permanente sul
TAL” costituirebbe, a nostro avviso, un passo
fondamentale nella giusta direzione.
tuale ritardo in questa area tecnologica. Obiettivo principale è rendere disponibili le competenze e i moduli di analisi, ad esempio le interfacce
vocali, i motori di ricerca, le tecnologie della conoscenza, per ogni lingua europea nella convinzione che il motore commerciale prodotto dal
TAL sia essenziale nello sviluppo delle tecnologie dell’informatica e della comunicazione.
La riduzione del divario prodotto dal “digital
divide” passa anche dalla facilità di colloquio
con i sistemi elettronici che la tecnologia attuale rende disponibili. In particolare la televisione
digitale interattiva, che sarà pronta nel 2006 se-
Ing. Andrea Paoloni
Fondazione Ugo Bordoni
SINTESI DELLA VOCE E AGENTI PARLANTI
C
hi non ricorda la voce di HAL 9000, il
computer di bordo della navicella
spaziale Discovery, “protagonista” del
famoso film di Stanley Kubrik “2001
Odissea nello Spazio”. Era il 1968 e, a distanza
di 35 anni, si può forse dire che le previsioni
contenute in un film di fantascienza, almeno
per quanto riguarda la qualità della voce di un
sintetizzatore vocale,si sono avverate.
La qualità dei migliori sintetizzatori vocali
da testo scritto (spiegare) (TTS, Text to Speech Synthesis) attualmente disponibili non solo
sul mercato ma anche nei laboratori di ricerca
più avanzati, è sicuramente paragonabile a
quella di HAL.
Si deve ricordare però che non tutti i problemi sono stati risolti. Confrontando, infatti,
la capacità emotivo/espressiva di un attuale
sintetizzatore vocale con quella di HAL ci si
rende immediatamente conto del gap ancora
non risolto e che ancora qualche anno dovrà
passare prima di poter ottenere una sintesi affidabile anche da questo punto di vista.
Possiamo però senz’altro dire che la qualità
della sintesi della voce ha assunto un livello
tale da poter ormai essere utilizzata in moltissime applicazioni.
La lettura di messaggi, memorizzati in sistemi di posta vocale, e-mail e fax all’interno di
una mail box unificata, accessibile attraverso
standard e-mail-clients, tramite web o telefono, la lettura di pagine web, gli avvisi di particolari emergenze, i servizi clienti delle aziende telefoniche ad esempio per l’inoltro delle
chiamate, la consultazione interattiva ed amichevole di fonti di informazione elettroniche,
gli ausili di lettura per i portatori di disabilità
visive e molti altri ancora sono solo alcuni dei
possibili esempi di applicazione attualmente
sperimentati con successo.
Bisogna inoltre ricordare che parlando di
sistemi di sintesi o TTS. negli ultimi anni, non
si considerano soltanto quei sistemi in grado
di sintetizzare file audio, ma anche video, come ad esempio nella realizzazione delle cosiddette “Talking Heads” o agenti parlanti, sistemi in grado di simulare virtualmente una
persona umana che parla.
UN PO’ DI STORIA
Gli studi passati hanno portato alla conoscenza fondamentale della dinamica alla base della
generazione della voce umana. Quando parliamo, un suono base, prodotto dal flusso d’aria generato dai polmoni e passante attraverso le corde vocali, viene modulato dalla cavità orale, dal
naso e dalla bocca ed è la posizione delle diverse parti della lingua e la posizione delle labbra
che sono responsabili dei diversi suoni componenti il segnale verbale, ed è questo meccanismo complesso che si deve essere imitato per
realizzare sistemi di sintesi vocale. Possiamo
senz’altro affermare che la storia di questa tecnologia ha inizio nel 1939 presso i Bell Laboratories
dove venne presentato per la prima volta il VODER (Voice Operating DEmonstratoR), VODER
era una sorta di strumento musicale dove una
barra vibrante generava le frequenze fondamentali, variabili attraverso un meccanismo a pedale
ed il suono prodotto veniva modulato utilizzando dei filtri acustici, controllati con le mani. La
qualità della voce era ovviamente molto scadente ma un simile meccanismo era la prova della
realizzabilità di una voce sintetica. A metà del
ventesimo secolo negli Stati Uniti nei laboratori
- 74 -
Haskins è stato poi presentato il Pattern Playback, uno strumento ottico/elettronico capace di
sintetizzare suoni vocali a partire da una loro
rappresentazione acustica. Vi sono anche esempi di sintesi vocale sin dall’antichità. Ad esempio,
nel 1779, a San Pietroburgo, il professore russo
Kratzenstein costruì dei risuonatori acustici capaci di produrre i suoni delle cinque vocali.
Tornando a tempi più recenti, la vera svolta
nel campo della sintesi vocale fu l’arrivo della
tecnologia digitale che, associata agli enormi
progressi nello studio del meccanismo di produzione della voce, rese possibile intorno agli
anni settanta, la realizzazione dei primi sistemi
per la sintesi della voce da testo scritto.
della elevata complessità indispensabile per ottenere buoni risultati in termini di naturalezza.
I SISTEMI DI SINTESI VOCALI
3) Sintesi per formanti
Esistono molte strategie, fra loro differenti,
per sintetizzare il parlato, ma in termini generali si possono dividere essenzialmente in due
grandi categorie denominate system-models
e signal-models.
Anche se si basa su una elaborazione del segnale che viene prodotto dall’apparato fono-articolatorio, la sintesi per formanti, in realtà non
ignora del tutto il meccanismo di fonazione umana. Infatti si basa sulla teoria sorgente-filtro
della fonazione, assai ben descritto ad esempio
da Gunnar Fant nel suo famoso libro “Speech
Sounds and Features” (1973, MIT Press). La sintesi per formanti utilizza, infatti, un modello del
condotto vocale realizzato mediante un filtro
composto da un numero limitato di risonanze
(con 4 si riesce ad esempio ottenere una voce
di buona qualità), con frequenza, ampiezza, e
banda di risonanza variabili. Modelli più elaborati utilizzano ulteriori risonanze e antirisonanze per i suoni nasali, con associato anche del
rumore ad alta frequenza utile ad esempio nella simulazione delle consonanti fricative e occlusive. Il segnale d’ingresso è sempre generato
tramite un modello più o meno approssimato
delle corde vocali. Una sorgente molto stilizzata ma funzionante consiste in un treno di impulsi per i tratti di voce vocalizzati o in un rumore bianco per le parti non vocalizzate (si veda Figura 3). Questo modello utilizza delle notevoli semplificazioni rispetto alla realtà. Ad esempio il presupposto che la sorgente di eccitazione sia completamente indipendente dal filtro è assolutamente improbabile.
1) Modello del Sistema di Produzione
(system-model) (sintesi articolatoria)
Il segnale acustico è il risultato della modellizzazione e simulazione del meccanismo fisico
di produzione del suono. Questo approccio è
anche conosciuto come sintesi articolatoria. La
sintesi articolatoria si prefigge di generare il segnale vocale mediante una corretta modellizzazione dell’apparato orale umano. Questo metodo di sintesi utilizza in pratica dei modelli computazionali biomeccanici per la riproduzione
del parlato simulando il comportamento degli
articolatori interessati nella fonazione e le corde vocali. I modelli degli articolatori sono guidati nel tempo in modo da riprodurre le configurazioni caratteristiche di ogni fonema utilizzando delle regole che riflettono i vincoli dinamici imposti dalle articolazioni. Per generare il
segnale vocale, la forma del condotto orale, definita dalla posizione degli articolatori, viene
convertita in una funzione di trasferimento, che
utilizza come ingresso un segnale di eccitazione generato tramite un modello delle corde vocali. Il problema è quindi ricondotto alla determinazione dei punti di articolazione caratteristici di ogni fonema e delle transizioni tra fonemi.
Per determinarli sono spesso utilizzati dati presi
da radiografie o risonanze magnetiche dinamiche. Nonostante il suo notevole valore scientifico questo tipo di sintesi non ha ricevuto grande
attenzione, a causa della scarsa competitività in
termini di qualità con altri sistemi di sintesi e
2) Modello del Segnale (signal-model)
Con tale approccio si vuole rappresentare
il suono che arriva al nostro apparato uditivo,
senza fare un esplicito riferimento al meccanismo articolatorio che genera il suono stesso,
ma esclusivamente al meccanismo fisico/acustico responsabile della produzione della voce intesa come onda sonora di pressione. In
questo approccio sono rappresentati a loro
volta i metodi di sintesi per formanti e di sintesi per concatenazione.
generatore
treno di impulsi
vocalizzato/
non-vocalizzato
e(n)
generatore
rumore bianco
x
filtro digitale s(n)
tempo-variante
G
parametri
tratto vocale
Figura 3. Modello di sintesi filtro-sorgente.
- 75 -
Con questo metodo, al fine di sintetizzare
una frase, per ogni fonema e per ogni sua
transizione, bisogna determinare i parametri
di controllo dei filtri e della sorgente di eccitazione variabili nel tempo. Questo tipo di sintesi genera un parlato altamente intelleggibile
ma non completamente naturale; presenta,
comunque, il vantaggio di una bassa richiesta
di risorse di memoria edi calcolo.
4) sintesi per concatenazione
Questo tipo di sintesi unisce, modificandoli
con appropriati algoritmi, piccoli frammenti (unità elementari) di segnale vocale, al fine di sintetizzare un intera frase. Questi metodi evitano
le difficoltà di simulare l’atto di fonazione umana mediante specifici modelli, tuttavia introducono atri problemi, quali ad esempio la difficoltà di concatenazione omogenea delle unità
acustiche registrate in diversi contesti e la modifica della prosodia intesa come variazione di intonazione e durata. A tal fine vengono utilizzate
specifiche tecniche di elaborazione del segnale
(signal processing): fra le più comuni ricordiamo quelle denominate Predizione Lineare e
PSOLA, la prima basata sulla teoria del modello
sorgente-filtro precedentemente introdotta, la
seconda esclusivamente su tecniche di elaborazione del segnale, al di fuori quindi di un modello del fenomeno di produzione della voce.
Per questa modalità di sintesi possiamo fare
un’ulteriore suddivisione delle strategie in base
alle unità fondamentali utilizzate per la concatenazione. Si possono infatti distinguere la sintesi
per difoni (generalmente definiti come la por-
zione del segnale vocale che và da metà di un fonema alla metà del fonema1 successivo), trifoni,
metà-sillabe, ecc. fino ad arrivare all’estensione
di unità variabili utilizzate nei sistemi di sintesi
più recenti che utilizzano algoritmi denominati
“Automatic Unit Selection”.Questo tipo di sintesi concatena le unità selezionate da un database vocale e, dopo una decodifica opzionale, invia in uscita il segnale vocale risultante. Poiché i
sistemi di questo tipo usano frammenti di un discorso registrato risultano più naturali.
SISTEMI DI SINTESI
PER CONCATENAZIONE
Questi sistemi consentono di ottenere una
sintesi da testo di assoluta generalità, combinando frammenti di voce molto piccoli. Le unità elementari sicuramente più utilizzate sono i difoni, precedentemente introdotti. Per
consentire la sintesi, sono necessari i difoni
corrispondenti a tutte le coppie di fonemi di
una determinata lingua. Generalmente i sistemi di questo tipo utilizzano poco più di un
migliaio di difoni, ricavati da parole, in genere sequenze di sillabe senza significato, registrate da un parlatore umano con intonazione
monotona. Queste unità vengono poi concatenate per formare le frasi desiderate su cui agiscono sofisticati algoritmi in grado di variarne la durata e la frequenza fondamentale in
modo da ottenere i valori più adatti al testo.
1
Con il termine fonema si intende il più piccolo suono
che compone la parola come ad esempio una vocale /a/
o una consonante /s/.
Figura 4. Architettura generale di un sistema di sintesi da testo scritto per concatenazione di difoni.
- 76 -
Un diagramma a blocchi di un tipico sistema
di sintesi per concatenazione, che, nella sua
parte di analisi testuale può considerarsi comune a tutti gli altri metodi, è illustrato in Figura 4.
Il primo blocco (Moduli Linguistici), comune
essenzialmente a tutte le tipologie dei sistemi di
sintesi, è il modulo di analisi che acquisisce il
messaggio testuale in ASCII e lo converte in una
serie di simboli fonetici e targets metrici (frequenza fondamentale, durata, ampiezza). Tale
modulo consiste di una serie di ‘sotto-moduli’
con funzioni distinte, ma in molti casi collegate:
il testo di input è prima analizzato e i numeri, i
simboli non alfabetici e le abbreviazioni sono espanse in parole (per esempio l’abbreviazione
‘Ing.’ è trascritta come ‘Ingegnere’, ‘222’ come
‘duecentoventidue’). Tutte le altre parole, se non
sono parole-funzione o parole già presenti in un
lessico di riferimento, vengono accentate, trascritte foneticamente, sillabificate e opzionalmente analizzate mediante un parser sintattico
che, riconoscendo parte del discorso per ogni
parola nella frase, è utilizzato per ‘etichettare’ il
testo. Il suo compito inoltre è togliere l’ambiguità a parti costituenti la frase per generare una
corretta stringa di suoni, ad esempio per disambiguare parole scritte allo stesso modo ma con
significato o accento diverso (àncora, ancòra).
Il secondo blocco (Moduli Fonetico-Acustici) assembla le unità in base alla lista di targets ed è principalmente responsabile della
qualità acustica e della naturalezza della sintesi. Le unità selezionate sono infine inserite
in un sintetizzatore in grado di generare le
forme d’ondadel segnale vocale.
In particolare l’analisi prosodico-intonativa,
intesa come determinazione della durata e dell’intonazione (frequenza fondamentale) in corrispondenza delle unità da sintetizzare, è sicuramente la parte più importante di ogni sistema di
sintesi ed viene elaborata, o per regole esplicite,
caratterizzate e studiate in dettaglio per ogni lingua, oppure mediante un approccio statistico
(ad esempio basato su CART, Classification and
Regression Trees) in grado di apprendere da un
corpus di esempi le caratteristiche prosodiche di
una determinata lingua. Entrambe i metodi sono
ovviamente ottimizzati a diversi livelli principalmente a seconda della bontà dell’analisi testuale,
fonetica e sintattica precedentemente illustrata.
SISTEMI DI SINTESI A SELEZIONE
DI UNITÀ (UNIT SELECTION)
Negli ultimi anni si stanno imponendo i sistemi corpus-based o unit selection la cui caratteristica fondamentale è quella di non aver
bisogno di limitare il numero, e la dimensione
dei frammenti da concatenare. Questo tipo di
sintesi è caratterizzato dalla memorizzazione,
la selezione e la concatenazione di segmenti
di discorso di dimensioni variabile. Questi
segmenti vengono estratti, mediante specifici
algoritmi basati su tecniche statistiche, da
grandi corpora di materiale vocale pre-registrato, naturale e fluente.
Questa strategia di sintesi mira, non più a
modificare gli attributi metrici, come durata del
suono o frequenza fondamentale di piccole unità fondamentali di eguale durata, ma a modificare il segnale originale solo quando è indispensabile, ottenendo risultati ottimi per quanto concerne la naturalezza timbrica della voce
sintetica. I frammenti acustici diventano quindi
più lunghi, anche sequenze di molti fonemi,
parole o addirittura frasi intere, in modo da ridurre i punti di giunzione. Queste unità sono inoltre disponibili in più esemplari, corrispondenti ad esempio a contesti e ad intonazioni
diverse. La dimensione del dizionario acustico
può, infatti, raggiungere una dimensione anche 50 volte superiore a quella dei sistemi a
difoni. Questa, che in passato era una difficoltà
insormontabile, è stata ampiamente superata
con l’avvento degli attuali computer dotati di
enorme capacità di calcolo e di memoria.
LE APPLICAZIONI
Sono numerose le possibili applicazioni dei
sistemi di sintesi da testo scritto “naturali” e di
qualità paragonabile a quella umana. La diffusione capillare dell’utilizzo del computer sarà
infatti senz’altro facilitata da un’interfaccia con
cui si possa interagire con tutte le fonti di
informazione in linguaggio naturale e non più
secondo modalità non a tutti congeniali.
Fra le molteplici applicazioni si possono ricordare:
– la lettura di messaggi, memorizzati in sistemi di posta vocale, e-mail e fax all’interno
di una mail box unificata, accessibile tramite web o telefono;
– la lettura di pagine web;
– gli avvisi di particolari emergenze
– i servizi clienti delle aziende telefoniche,
ad esempio per l’inoltro delle chiamate;
– la consultazione interattiva ed amichevole
di fonti di informazione elettroniche;
– gli ausili di lettura per i portatori di disabilità visive come ad esempio i lettori di
schermo (Screen Reader) che altro non sono che accessori del computer per riprodurre in voce qualsiasi cosa appaia sullo
- 77 -
schermo, oppure i lettori di libri in grado di
leggere autonomamente testi a stampa
– i corsi avanzati per l’apprendimento
– i portali vocali;
COSA MANCA?
La caratterizzazione di un segnale vocale in
un dato stato emotivo deve essere definita tramite la misura dei correlati acustici ad esso associati, che a loro volta derivano dai vincoli fisiologici. Per esempio, quando una persona è
in uno stato di paura o gioia, il battito del cuore e la pressione del sangue aumentano, la
bocca diventa secca e ci sono occasionali tremori muscolari. La voce aumenta di intensità,
di velocità, e nello spettro vi sono forti componenti in alta frequenza. I principali correlati
acustici delle emozioni, studiati in letteratura
sono: f0, durata, intensità, e una serie di caratteristiche del timbro quali la distribuzione dell’energia spettrale, il rapporto segnale-disturbo (HNR, harmonic-to-noise ratio) e alcuni indici di qualità della voce (voice quality).
Quest’ultima proprietà distingue le modalità con cui viene prodotto il segnale glottale
(voce aspirata, soffiata, tesa, ecc.. Pochissimi
sistemi di sintesi includono queste diverse
modalità espressive e sicuramente nessuno di
quelli attualmente commercializzati: se si deve quindi leggere una fiaba ad un bambino o
le “notizie ansa” in un servizio informativo le
modalità espressive sono identiche. Pur tuttavia vi sono esempi in letteratura che hanno
studiato questo problema cercando di elaborare alcuni modelli computazionali per rendere conto di queste caratteristiche espressive
nei futuri sistemi di sintesi.
I primi esperimenti hanno utilizzato la sintesi per formanti, principalmente perché questi sistemi permettono un ricco controllo del
segnale. Purtroppo però la qualità del segnale
prodotto con tali strategie spesso non è soddisfacente per valutare in dettaglio l’influenza
emotiva dell’uscita vocale. Utilizzando invece
metodi di sintesi concatenativa, i parametri di
controllo solitamente sono solo la frequenza
fondamentale e la durata. Con tali strategie si
possono adottare due possibili soluzioni a
questo problema. Ad esempio mediante l’utilizzo di un corpus di unità acustiche per ogni
emozione dal quale selezionare le unità da
concatenare oppure utilizzando esclusivamente tecniche di elaborazione del segnale al
fine di variare i correlati acustici emotivi legati
al timbro della voce direttamente sulla forma
d’onda del segnale vocale stesso.
Nonostante gli sforzi compiuti in questo filone di studio siamo però ancora distanti da
un’effettiva commercializzazione di un prodotto in grado di risolvere e queste difficoltà.
IL FUTURO
A parte le difficoltà di una sintesi emotiva
ed espressiva ancora non adeguatamente affrontata, il futuro della sintesi vocale risiede
anche nelle nuove tecnologie di animazione
facciale ad essa associata che stanno portando negli ultimi anni alla progettazione e alla
realizzazione di agenti parlanti (Talking Agents) in grado di rendere estremamente più
appetibili moltissime applicazioni interattive
(si veda Figura 5) di cui le potenzialità offerte
dalle nuove tecnologie di comunicazione dell’informazione fornite dai telefonini di nuova
generazione, basati sulla tecnologia UMTS,
sono solo un semplice e chiaro esempio.
Ing. Piero Cosi
Istituto di Scienze e Tecnologie della Cognizione
Sezione di Fonetica e Dialettologia del CNR
Figura 5. Illustrazione di alcune “facce parlanti” apparse recentemente “alla ribalta”:
Baldi (UCSC Perceptual Sciences Laboratory,mambo.ucsc.edu),
Ananova (www.ananova.com),
Lucia (ISTC-SPFD CNR, www.csrf.pd.cnr.it/Lucia/index.htm),
Anja (Telecom Lab Italia, multimedia.telecomitalialab.com/virtual_life.htm,
Greta (Catherine Pelachaud, www.iut.univ-paris8.fr/~pelachaud/),
Sarah (DSP.Lab Dist Genova, www.dsp.dist.unige.it/~pok/RESEARCH/index.htm).
- 78 -
DESKTOP SPEECH RECOGNITION:
TECNOLOGIA, APPLICAZIONI E FUTURO
A
lla metà degli anni novanta, due tecnologie sembravano destinate ad un
promettente successo su scala planetaria: il WWW (WorldWide Web) e
l’ASR (Automatic Speech Recognition).
Come si sia sviluppato Internet è noto a
tutti: in pochi anni, tra luci ed ombre, è diventato lo strumento informatico più popolare e
più diffusamente conosciuto al mondo.
Cosa ne è stato, invece, delle tecnologie di
riconoscimento vocale? Quanto sono lontane
nel tempo le applicazioni che ci potrebbero
permettere di rivolgere la parola ad un computer come nei film della serie Star Trek? Esiste oggi un mercato del riconoscimento vocale e chi sono i beneficiari di questa tecnologia?
Prima di rispondere a queste domande è
opportuno premettere che, quando si parla di
tecnologie vocali, si devono in realtà considerare diversi filoni di ricerca che si differenziano fra di loro in modo sensibile, in base all’obiettivo del riconoscimento.
La seguente tabella riporta i principali settori
di ricerca nel campo delle tecnologie vocali.
Settore di ricerca
Oggetto della ricerca
Ampiezza dizionario
Esempi attuali
Riconoscimento vocale
su desktop
Software di dettatura.
Sistemi di dettatura e di
controllo vocale delle
applicazioni.
Decine di migliaia di parole
o, meglio, di forme (per
forma si intende qualsiasi
parola declinata in tutti i
casi previsti dalla
grammatica italiana: es.
“bello” genera 4 forme:
bello, bella, belli, belle)
IBM ViaVoice o Scansoft
Naturally Speaking.
Tra i sistemi, PhonemA
software specializzato
per la refertazione
medica.
Riconoscimento vocale
telefonico
Sistemi di risposta
telefonica automatica con
comprensione della
richiesta dell’utente.
Esistono al riguardo più
tecniche di interfaccia
vocale: IVR (Interactive
Voice Response) oppure
VUI (Vocal User Interface)
basata su VoiceXML
Centinaia di parole:
l’obiettivo è individuare e
comprendere le parolechiave della domanda
Vari siti telefonici:
si segnala quello di
Trenitalia per ottenere
informazioni sugli orari
ferroviari.
Embedded Speech
Recognition
Software montato a bordo di
microchip per la
comprensione di una limitata
serie di termini preimpostati
oppure dettati dall’utente
Decine di parole
Telefoni mobili
(identificazione di nomi da
chiamare); automobili
(comandi vocali che il
conducente può impartire).
Identificazione
biometrica del parlatore
Software che identifica il
parlatore a partire dalla
forma delle onde acustiche
di un modello precaricato
N.A.
Non risultano
applicazioni note
Estrazione di parole
da parlato spontaneo
Software che identifica le
singole parole, all’interno di
un file audio, a partire dalla
forma delle onde acustiche
della parola ricercata
Qualunque parola o forma
Sistemi automatici
di indicizzazione di
programmi radiotelevisivi
Tabella: tipologie di ricerca e di applicazioni nell’ambito delle tecnologie di riconoscimento vocale.
- 79 -
La classificazione sopra descritta ci permette di definire il riconoscimento vocale su desktop (o Desktop Speech Recognition - DSR)
come una tipologia tecnologica appartenente
al più ampio campo delle tecnologie ASR
(Automatic Speech Recognition). Nel seguito
approfondiremo questa specifica tipologia, analizzandone le caratteristiche tecniche e le
potenziali applicazioni; infine, cercheremo di
capire perché, ad oggi, l’utilizzo delle tecnologie DSR non è riuscito ad assumere una posizione di rilievo nell’ambito delle applicazioni informatiche.
DESKTOP SPEECH RECOGNITION:
QUALCHE NOZIONE TECNICA
Le componenti di un sistema DSR sono sostanzialmente quattro:
- la catena di acquisizione del segnale acustico: microfono, cavo, scheda audio.
- il motore di riconoscimento vocale: attualmente sul mercato italiano ne esistono
due: IBM ViaVoice e Scansoft Naturally
Speaking
- il repository acustico: contiene i profili
vocali di ogni utente. Attraverso una sessione
preliminare di adattamento, il sistema è in
grado di creare i modelli fonetici, su base digitale, tipici dell’utente.
- il repository testuale: contiene il modello
di linguaggio tipico di ogni utente, le parole
aggiunte nel dizionario personale, le frasi predefinite richiamabili tramite parole chiave (ad
es. la chiusura di una lettera).
Il funzionamento di un sistema DSR si
compone sostanzialmente delle seguenti fasi:
1. l’utente parlando emette onde acustiche
che vengono catturate dal microfono; la direzionalità della voce è dunque importante
così come la trasmissione attraverso il cavo
che deve avvenire al riparo di distorsioni o
di campi elettromagnetici.
2. il segnale acustico arriva alla scheda audio
che trasforma il segnale analogico in sequenze digitali.
3. le sequenze digitali vengono confrontate
con i modelli fonetici digitali dell’utente e,
in base ad un’analisi statistica, vengono
scelte le rappresentazioni fonetiche più
probabili.
4. l’insieme di fonemi così individuato viene
confrontato con il modello del linguaggio
dell’utente. Con altri tipi di analisi, si individua l’insieme di parole più probabili. Tali
parole sono quelle che vengono riconosciute dal sistema.
Dal funzionamento descritto, si capisce
che un sistema di dettatura continua sbaglia
perché è costretto a dare sempre un risultato.
Se dettiamo:
– “Servono informazioni sul treno delle quindici e trenta” e alteriamo la pronuncia della
la parola “quindici”, potremmo avere risultati del tipo:
– “Servono informazioni sul treno delle undici e trenta”
– “Servono informazioni sul treno degli indici
a Trento”
– “Servono informazioni sul treno delle qui
dici e tenta”
e così via, dove l’errore è tanto più evidente
quanto più il primo termine male interpretato si
allontana dalla corretta concatenazione dettata.
Le performance raggiungibili da un sistema DSR si misurano in percentuale di parole
correttamente interpretate su parole dettate
totali. I prodotti in commercio proclamano
percentuali di riconoscimento del 95% che,
effettivamente, possono essere raggiunte, su
dizionari non troppo ampi, con un’adeguata
manutenzione del profilo vocale. Tuttavia,
quando l’utente detta una pagina di testo, e si
trova a correggere un errore per riga, ha la
percezione che il sistema funzioni male: è solo una percezione. Bisogna infatti considerare
che se ogni riga è fatta mediamente di 20 parole, il 5% di errore implica effettivamente la
correzione di un errore per riga.
Per gli utenti professionali, il limite del 95%
è generalmente insostenibile e porta al rifiuto
della tecnologia. È dunque necessario progettare sistemi DSR con un tasso di riconoscimento superiore, possibilmente vicino al
100%. Ogni punto percentuale “guadagnato”
oltre la soglia del 95% comporta la diminuzione del 20% degli errori da correggere ma purtroppo costa un’attività di ottimizzazione del
sistema estremamente ardua e dispendiosa.
In particolare, occorre ottimizzare ogni elemento del sistema DSR:
analizzare la migliore combinazione dei
componenti della catena di acquisizione
del segnale acustico (microfono, cavo,
scheda audio), tenendo anche presenti le
condizioni acustiche dell’ambiente (soglia
di rumore, grado di riflessione acustica) e
le funzionalità richieste dall’utente (es. microfono con pulsanti).
mantenere aggiornato il motore di riconoscimento vocale in funzione dell’ambiente
software di riferimento (spesso i DSR vengono aggiornati con mesi di ritardo rispetto
ai sistemi operativi Microsoft).
- 80 -
aiutare l’utente ad effettuare correttamente la
sessione di adattamento del profilo vocale.
mettere a disposizione dell’utente, facili
strumenti per il mantenimento del proprio
modello di linguaggio.
Per ottenere la massima collaborazione
dell’utente professionale durante la dettatura, sarà poi necessario studiare un’interfaccia
particolarmente gradevole, dotata di ogni
funzionalità opportuna per semplificare le operazioni di correzione e, soprattutto, sicura:
operando a livelli di sistema operativo piuttosto bassi, spesso un’interruzione del funzionamento vocale corrisponde ad un blocco di Windows con le prevedibili conseguenze per l’utente.
Oltre alla modalità dettatura, un DSR può
essere utilizzato anche per il riconoscimento
di comandi e controlli (modalità Command &
Control - C&C).
La differenza sostanziale, dal punto di vista
funzionale, della modalità C&C rispetto alla
modalità per dettatura è che nello schema di
funzionamento sopra descritto il confronto finale non viene eseguito con il modello di linguaggio dell’utente ma con la parola (o il
gruppo di parole o il comando) prevista nel
contesto applicativo.
Ad esempio, se in un campo posso dettare
i numeri interi dallo zero al nove, solo pronunciando una di queste dieci parole ottengo
il riconoscimento vocale corretto. Se dico altre parole (specie se non sono assonanti) il sistema rifiuta il riconoscimento e, quindi, non
genera un errore.
In modo simile, posso dare un comando
vocale ad un’applicazione informatica e associarne l’interpretazione a una combinazione
di tasti che attiva un’operazione: la percezione sarà quella di avere comandato a voce
l’applicazione.
Il limite della modalità C&C è quello di operare solo su parole o gruppi di parole isolate. Per questo motivo, è inadatta alla dettatura
a testo libero (detta anche dettatura in parlato
continuo).
DESKTOP SPEECH RECOGNITION LE POSSIBILI APPLICAZIONI
Sulla questione dell’applicabilità dei sistemi DSR, esistono due correnti di pensiero
contrapposte: Secondo la prima (che chiameremo “ottimista”), la voce è il modo più naturale per l’uomo di comunicare e quindi, prima o poi, la nostra interfaccia con il computer
sarà vocale. La seconda, quella che definiremo “pessimista”, prevede che la voce non avrà mai successo - se non in ambiti molto limitati - in quanto non competitiva con la velocità con cui possono essere premuti i pulsanti di una tastiera.
Probabilmente la verità sta nel mezzo, dal
momento che le applicazioni di sistemi DSR
crescono in molti settori incontrando un crescente favore da parte di utenti motivati professionalmente.
Le applicazioni di sistemi DSR di cui si ha
conoscenza in Italia, sono:
refertazione medica: dettatura di referti e dati del paziente. Il riconoscimento vocale in ambito medico - generalmente chiamato refertazione vocale è diffuso sia in ambito ospedaliero pubblico e privato sia presso studi medici e
specialistici. Per dare un’idea della diffusione della tecnologia DSR, diremo che è
utilizzato anche presso alcuni studi odontoiatrici.
resocontazione di un evento assembleare. C’è una forte domanda del mercato per la trascrizione automatica di
quanto pronunciato da un parlatore nell’ambito di una riunione (si pensi alla trascrizione di una seduta presso un Tribunale oppure al verbale di Giunta in un
Comune o di un Consiglio di Amministrazione in una Società). In questi casi, l’oratore parla in modo spontaneo, usando
parole intercalate, inserendo balbettii e
spot, seguendo un filo del discorso che
può avere concatenazioni anomale tra le
parole pronunciate. Il tono del parlatore
è utilizzato per dare corpo al contenuto
del discorso e non per essere collaborativo con un sistema di riconoscimento vocale. In queste condizioni, non esiste ancora un prodotto DSR in grado di restituire un risultato di riconoscimento accettabile. Viceversa esistono esempi di successo riguardo alla stesura del resoconto di
un evento assembleare, da parte di un operatore adattato e formato all’utilizzo di
un sistema DSR. L’esempio più eclatante
è sicuramente il sistema “CameraVox” in
uso presso la Camera dei Deputati e noto
a livello internazionale.
preparazione di documenti. Un altro ambito di utilizzo di sistemi DSR, superiore,
per numero, a ciascuno degli esempi precedenti è quello degli studi legali. Attraverso specifici dizionari giuridici, è possi-
- 81 -
bile stendere bozze, predisporre interventi d’aula, preparare lettere. Anche la
preparazione di discorsi, lezioni e conferenze può essere fatta utilizzando un sistema DSR. Può risultare pratico, in queste circostanze, dettare il testo su un registratore digitale portatile e scaricare il
parlato - attraverso software appositi - su
un sistema DSR per l’interpretazione automatica. Un’ultima “nicchia” interessante
è quella del riempimento di moduli attraverso la voce dettando sia singoli dati (utilizzando la modalità C&C) sia componenti testuali come osservazioni, note,
descrizioni (operando in modalità a parlato continuo).
simulazione di un’interazione umana. Un
caso di particolare interesse è quello della
simulazione di interazioni vocali per la formazione del personale. L’esempio è quello
di un sistema per l’addestramento degli assistenti di volo. L’allievo dà un comando
vocale ad un programma che simula il comandante di un aereo presente nella sua
zona. In base al comando ricevuto (e interpretato dal sistema DSR) il programma simula le operazioni di volo dell’aereo e l’allievo può verificarne l’adeguatezza.
rie di operazioni necessarie alla persona immobilizzata come ad esempio spostare la posizione del letto, accendere il televisore e via
dicendo. Nel caso degli ipovedenti, si usano
sistemi di dialogo come ausilio ad operazioni
di routine. Un esempio a questo proposito è
dato dalla rubrica telefonica vocale che permette di comporre numeri telefonici richiamandoli a voce.
UN’APPLICAZIONE IN CAMPO MEDICO:
PHONEMA-MED
L’impatto di un’applicazione vocale può
essere rilevante se riesce a modificare un processo produttivo semplificandolo oppure diminuendo la necessità di risorsa umana.
È questo il caso che si manifesta tipicamente in Sanità quando un medico può mettere in
bella copia il proprio referto in tempo reale
senza dover ricorrere al personale amministrativo di trascrizione. Per esemplificare, parleremo di un’applicazione specifica per la refertazione vocale: PhonemA.
Il metodo classico di trascrizione del referto radiologico avviene attraverso l’uso del
dittafono ed è sintetizzato nella figura che
segue:
forma delle onde
acustiche della parola
ricercata
spontaneo
radiotelevisivi
TRA = tempo radiologico= TPR+TLA+TDI+TVA
TRA = tempo
preparazione
esame
accettaz.
richiesta
esame
TLA = tempo TDI = tempo TVA = tempo TTR = tempo
di latenza di latenza per di latenza per trasmissione
refertazione trascrizione
validazione
esame
esecuzione
esame
dettatura
referto
Al di fuori delle applicazioni professionali,
restano poi tutte le realizzazioni software destinate ai portatori di handicap. Il riconoscimento vocale risulta di particolare ausilio per
le persone affette da gravi invalidità motorie o
della vista. Nel primo caso, attraverso la modalità C&C, sarà possibile comandare una se-
trascrizione
referto
validazione
referto
(firma)
trasmiss.
referto al
richiedente
Il processo di cui sopra richiede cinque fasi
operative (ognuna delle quali introduce una
latenza) e l’attività di due risorse umane (radiologo e trascrittore).
Con l’introduzione del riconoscimento vocale, il processo di refertazione si riduce nel
modo seguente:
- 82 -
TRA = tempo radiologico= TPR+TLA
TPR = tempo
preparazione
esame
accettaz.
richiesta
TLA = tempo
di latenza
refertazione
esecuzione
esame
Grazie al riconoscimento vocale, è possibile ottimizzare il processo di refertazione
radiologica a tre sole fasi e a una sola risorsa
umana con conseguenze sia economiche
(risparmio risorsa di trascrizione) sia di benessere del paziente: infatti, accelerando il
processo di cura e di dimissione diminuisce
il disagio dovuto alla permanenza in ospedale con ulteriore recupero sui costi di degenza (vedi Figure).
Alcune sperimentazioni si sono già occupate dell’argomento della refertazione vocale, cercando di mettere in evidenza gli aspetti di accuratezza nel riconoscimento
delle parole dettate. Tuttavia, diverse esperienze accumulate nel settore del refertazione medica hanno dimostrato che il successo
di un sistema di refertazione dipende in larga misura dalla qualità e dalla semplicità
dell’interfaccia uomo-macchina, mentre il livello percentuale di correttezza del riconoscimento in parlato continuo, che oggi raggiunge (su linguaggio specialistico, ad es.
medico) percentuali prossime al 100% non
costituisce più una discriminante nella scelta del sistema.
Dalla necessità di poter verificare i risultati
non tanto della tecnologia, quanto del sistema, inteso come insieme di operatori umani,
di funzionalità tecnologiche e di organizzazione è nata la sperimentazione realizzata
presso l’Azienda Ospedaliera “Umberto I” di
Ancona avente l’obiettivo di verificare l’impatto derivante dall’introduzione di un sistema di refertazione vocale all’interno dei Servizi di Radiologia.
Il software di refertazione vocale “PhonemA-Med”, che è stato utilizzato per la sperimentazione, è stato messo a disposizione dalla Società Gruppo Soluzioni Tecnologiche di
dettatura
referto
TTR = tempo
trasmissione
esame
validazione
referto
(firma)
trasmiss.
referto al
richiedente
Trento (Gruppo AISoftw@re); la tecnologia di
base per il riconoscimento vocale - IBM ViaVoice- è stata messa a disposizione da IBM.
I risultati della sperimentazione, durata più
di dodici mesi, hanno messo in evidenza che
la refertazione vocale, quando viene usata
diffusamente, ha un impatto significativo sul
processo di refertazione radiologica, sicuramente avvertibile dai reparti, ed incide positivamente sulla durata delle degenze.
Alcune misure, verificate sperimentalmente, hanno dimostrato che il tempo di latenza
medio che intercorre tra la dettatura del referto e la sua firma viene dimezzato passando
dalla dettatura tradizionale con dittafono alla
refertazione vocale a computer.
Questo risultato permette l’ottenimento di
importanti risultati nell’intero flusso di cura:
– il referto giunge in reparto con alcune ore
(o addirittura alcuni giorni) di anticipo;
– le cure possono essere avviate prima, con
evidente vantaggio per il paziente;
– la permanenza media del paziente in reparto diminuisce.
Quest’ultimo aspetto viene verificato nella
maggioranza dei casi in cui la refertazione vocale viene utilizzata da almeno la metà dei radiologi. I recuperi per l’organizzazione ospedaliera possono arrivare ad accorciare di
mezza giornata media il ciclo di cura per ogni
paziente.
Il beneficio si può estendere anche ai pazienti ambulatoriali, mettendo in condizione
il radiologo di produrre il referto in tempo
reale e di consegnarlo immediatamente al
paziente. Le specialità in regime ambulatoriale che più si avvantaggiano dall’uso della
refertazione vocale sono quelle relative all’ecografia, alla mammografia e al pronto
soccorso.
- 83 -
– la dimensione del dizionario è troppo grande (in tal caso sarà difficile raggiungere
performance adeguate)?
– c’è molta ripetitività nei testi dettati (in tal
caso il problema sarà risolubile con frasi
predefinite)?
– i potenziali utenti sono disponibili ad usare
la tecnologia? Lavorano in ambienti sufficientemente confortevoli? Hanno, per professione e cultura, una buona dizione?
I vantaggi che vengono generalmente percepiti dai radiologi sono i seguenti:
– possibilità di essere autosufficiente in qualunque momento;
– migliore qualità del referto prodotto, perché viene controllato con l’esame ancora
visibile;
– migliore impiego del personale di videoscrittura che si può dedicare ad altre attività
di segreteria;
– migliore efficacia del testo scritto perché lo
si può immediatamente rileggere ed impaginare.
Un vantaggio evidente per l’Amministrazione Ospedaliera è dato dalla riduzione dell’attività del personale di trascrizione dei referti, che può essere indirizzato a compiti più
gradevoli.
COSA MANCA AL DSR PER DIVENTARE
UNA TECNOLOGIA DI SUCCESSO?
PhonemA è una delle rare storie di successo nel panorama del riconoscimento vocale:
con più di 1500 stazioni installate in circa 300
ospedali, PhonemA-Med è il leader di questa
nicchia di mercato e consente la produzione
di circa 9 milioni di referti medici all’anno.
I presupposti in base ai quali il prodotto è
stato in grado di raggiungere questa condizione di successo possono essere di ausilio per
individuare la migliore strategia per qualificare le tecnologie DSR e incrementarne la diffusione.
Innanzitutto è necessario capire se il riconoscimento vocale è di utilità per la risoluzione di un dato problema. Può sembrare una
banalità, ma quando si comincia il progetto di
un’applicazione vocale, raramente si pone la
necessaria attenzione a domande quali:
– esiste una tecnologia più competitiva del
vocale per questa applicazione?
Se l’analisi sopra descritta ha dato esito favorevole, occorre lavorare su due fronti:
1. Dal punto di vista tecnologico, è necessario sviluppare quanto serve per puntare
subito al 99% di performance di riconoscimento. L’utente che si rivolge al DSR è, in
genere, debole dal punto di vista informatico e non sopporta di perdere tempo con
oggetti di cui ha scarsa conoscenza e dimestichezza. In caso di inadeguatezza del sistema DSR alle proprie necessità, l’utente
non ha alcuno scrupolo a scegliere un
mezzo di livello tecnologico inferiore ma
che gli rende più facile il lavoro.
2. Dal punto di vista psicologico, è opportuno sviluppare interfacce coinvolgenti per
l’utente, andando a verificare l’utilizzo del
riconoscimento vocale all’interno del sistema informativo in cui si trova. Per esemplificare, se anche si riuscisse a fornire un sistema DSR con performance di riconoscimento del 100% ma tale sistema fosse inserito in un ambiente informativo poco gradevole per l’utente, l’installazione del sistema DSR fallirebbe.
Una volta avviato il sistema DSR, sarà infine necessario garantirne la manutenzione e lo
- 84 -
sviluppo affinché il riconoscimento vocale
non venga abbandonato nel tempo.
Senza i passaggi sopra descritti, il funzionamento di un sistema di riconoscimento vocale
in un ambito professionale distribuito (e quindi
di larga diffusione) è destinato all’insuccesso.
L’esperienza accumulata in oltre sette anni,
ci permette di dire che, salvo rare eccezioni, la
tecnologia DSR acquistata da sola, senza sviluppi mirati, ha comportato sempre esperienze
fallimentari. La cosa non deve stupire. Proviamo a pensare ad un’altra tecnologia informatica, ad esempio quella dei Data Base, e poniamoci la seguente domanda: se il migliore dei
Data Base in commercio fosse consegnato all’utente finale privo di un’applicazione per il
Data Entry, di quale utilità sarebbe?
Chiediamoci perché il riconoscimento vocale, con tutte le particolarità che abbiamo
descritto in questo articolo, deve finire in mano a un utente che spesso lo compra per facilitarsi l’approccio al PC e invece non riesce
nemmeno ad installarlo?
Quanti, degli oltre due milioni di DSR venduti nel mondo giacciono inutilizzati in qualche cassetto di scrivania?
Purtroppo le strategie di distribuzione dei
due leader del mercato DSR (IBM e Scansoft)
continuano ad essere orientate alla vendita
della sola tecnologia a bassi prezzi e non consentono il decollo di una classe di aziende
specializzate che producano sistemi di qualità
che possano accelerare la diffusione e l’utilizzo delle loro stesse tecnologie.
In attesa di un riposizionamento dei principali attori del mercato DSR, nei nostri laboratori stiamo già progettando il modello di interfaccia uomo-macchina del futuro. Si chiama PhoneidoS.
È un sistema per la refertazione radiologica, che coniuga modalità di dettatura e modalità C&C.
Il controllo dell’applicazione è gestito, oltre che con la voce, anche tramite touch
screen oppure con uno speciale gamepad.
Il microfono c’è ma è invisibile: è cablato all’interno di una speciale mobile in materiale fonoassorbente che contiene anche gli speciali
schermi per le immagini radiologiche digitali.
Mouse e tastiere sono avvertiti: ormai i loro
giorni sono contati
Alessandro Tescari
Amministratore Delegato
GST - Gruppo Soluzioni Tecnologiche
Società del Gruppo AISOFTW@RE
LA CONVERSAZIONE CON IL CALCOLATORE
L
o SR (Speech Recognition, o Riconoscimento del Parlato) ha come obiettivo dichiarato la trascrizione del parlato nello
scritto. Tale obiettivo è però troppo ampio e troppo ristretto al tempo stesso. Troppo
ampio, perché la trascrizione di tutto ciò che
viene detto, indipendentemente dal parlatore,
dal mezzo di comunicazione, dalle condizioni
ambientali, dall’oggetto della conversazione
etc. è un obiettivo molto al di là delle possibilità
correnti dei sistemi di riconoscimento e, comunque inutilmente vasto per la maggioranza
delle applicazioni pratiche (che specificano
una certa classe di parlatori, un certo insieme di
condizioni e così via). Però è anche troppo limitato, perché il vero fine dello SR è di produrre una comunicazione utile tra persona e macchina via voce, e l’utilità dell’interazione è legata all’ottenimento dello scopo per cui la comunicazione è iniziata, indipendentemente dalla
qualità tecnica dello SR impiegato nel processo.
Da questo punto di vista, lo SR si può dividere in due rami: da un lato, la Dettatura, in
cui il sistema rimpiazza il dattilografo (cioè il
parlatore stesso, o magari un segretario); dall’altro, l’Interazione, cioè i sistemi in cui il sistema rimpiazza o collabora con un operatore, soddisfacendo così un’esigenza del parlatore che non è semplicemente la trascrizione
del parlato, ma la risposta al contenuto del
parlato. In questa categoria ci sono sistemi
che danno informazioni (e.g. elenco abbonati, orari ferroviari e aerei, quotazioni di borsa,
informazioni sul traffico etc), che eseguono
comandi (e.g. vendite e acquisti in borsa, operazioni di trasferimento sul conto di banca,
pagamento di bollette, organizzazione di appuntamenti medici etc.), che intrattengono
(e.g. sistemi di simulazione di chat), che richiedono operazioni da parte dell’utente (e.g.
sistemi che segnalano a casa l’assenza di uno
scolaro dalla scuola e chiedono ai genitori di
intervenire), o sistemi ibridi (tipicamente, vocalizzazioni di siti web che permettono navigazione, ottenimento di informazioni ed esecuzione di comandi).
- 85 -
I sistemi a scopo di Interazione usano tutti
una qualche forma di dialogo, cioè di interazione strutturata, dalle forme più semplici e
rigide a quelle più complesse e libere. In generale, più il sistema usa tecniche di gestione
del dialogo di tipo umano nell’interazione, e
meglio reagisce l’utente.
I PROBLEMI DELL’INTERAZIONE
Storicamente, la Dettatura è stato il primo,
ovvio obiettivo dello SR. Il lavoro di ricerca, e
lo sviluppo industriale/commerciale, hanno
però da tempo individuato l’Interazione come
l’area più ricca e promettente per lo SR, sia
per le limitazioni insite nella Dettatura (training e uso per utente specifico) sia per gli orizzonti di applicazione aperti all’Interazione
(telefonia fissa e mobile, web, giochi etc). È
interessante notare che, dopo alcuni test iniziali di Dettatura, le competizioni annuali per
SR organizzate da DARPA (Defence Advanced
Research Projects Agency, USA) si sono sempre più orientate su tasks di tipo Interazione,
in particolare la richiesta di informazioni e
prenotazioni aeree.
Per costruire sistemi di SR di tipo Interazione, si devono affrontare tre tipi di problemi. Il primo tipo è quello più strettamente
legato allo SR, si tratta cioè dei problemi di
riconoscimento del parlato. Non tutto il parlato ha però lo stesso valore all’interno di
un’Interazione: per esempio, nel caso delle
informazioni aeree, vi sono parti assolutamente chiave (città di partenza, città di arrivo, orario etc), parti di supporto (eg ‘vorrei
partire da...’, ‘un volo per...’), parti contenenti segnali di dialogo necessarie ai fini
dell’operazione (e.g. ‘vorrei sapere se....’,
‘potrei prenotare un...’) e parti utili nel dialogo umano, ma non necessariamente in
quello umano-sistema (e.g. ‘per favore...’,
‘sarebbe così gentile da...’, ‘mi chiedevo
se...’). Dunque l’identificazione corretta dei
termini più importanti è essenziale nell’applicazione, così come lo è la consapevolezza di quali parti sono state riconosciute con
sufficiente certezza e quali sono da controllare o richiedere.
Il Dialogo ha a sua volta le sue problematiche: per esempio può permettere risposte
singole, frasi libere con risposte singole, o frasi libere con risposte multiple; può avere una
struttura lineare, ad albero, o a grafo; può essere costruito in base ad aspettative rigide o
flessibili; in questo caso può essere basato su
modelli del task o dell’utente.
La Generazione, infine (cioè la generazione del parlato con cui il sistema comunica
con l’utente) presenta problematiche sia basate sulla qualitàfonica e prosodica del sintetizzatore (TTS, Text To Speech), sia sulla costruzione del contenuto da sintetizzare, che
può essere di tipo preconfezionato, generato
per template combinatoriale, o generato per
via logica-pragmatica.
LE FASI DEL RICONOSCIMENTO
Il riconoscimento in sè può avvenire attraverso varie tecniche: statistiche, adattative (e.g. reti neurali) o a base linguistica. I
sistemi più recenti e più potenti, come il sistema ARA sviluppato presso la Cirte, usano un approccio statistico, con un addestramento su un corpus molto ampio e appositamente bilanciato ed annotato, che produce, attraverso vari algoritmi, dei modelli a
livello di trifoni (combinazioni di 3 fonemi,
l’unità di suono del linguaggio), con le appropriate probabilitàdi entrare in uno di
questi modelli e di transitare da uno stato
all’altro. Al momento del riconoscimento, il
sistema prova a far attraversare all’input
questi modelli e sceglie quello con le migliori probabilitàcomplessive. Il sistema
produce una lista delle parole con i migliori
punteggi, che viene poi passata al resto del
sistema, il quale può semplicemente scegliere la migliore, o fare ulteriori operazioni (per esempio confrontare le differenze di
punteggio, o prendere gli N migliori ed incrociare i risultati coi risultati di una ricerca
successiva).
- 86 -
Nel caso delle parole singole, cioè quando all’utente è richiesto di dire solo l’informazione richiesta (e.g. la stazione di partenza) questo esaurisce l’aspetto di SR proprio.
Questo però è un approccio poco usato nei
sistemi più recenti, perché obbliga l’utente
ad una interazione poco naturale di tipo a
albero. Più comunemente, l’utente può dare
l’informazione all’interno di una frase libera
(e.g. ‘partenza da Napoli’). In questo caso, si
possono usare due approcci. Il primo è cercare di prevedere le frasi che possono essere usate, ed inserirle all’interno di una grammatica specializzata. Questo approccio tende ad essere fragile, cioè a funzionare molto
bene quando la frase usata è simile a quelle
nella grammatica, e a funzionare male altrimenti. Un approccio alternativo è quello di
usare una grammatica ‘garbage’ (letteralmente, ‘spazzatura’), cioè una grammatica
che contiene solo le parole da riconoscere
(cioè, in questo esempio, le città), più una
sequenza arbitraria di fonemi arbitrari. Questo approccio tende ad essere robusto, ma
non accurato quanto quello con grammatica
specializzata. È possibile combinare i due
approcci per ottimizzare il comportamento
del sistema.
Un’ulteriore complicazione è data dal caso
in cui all’utente sia permesso fornire più dati
nella stessa frase (e.g. ‘vorrei andare da Napoli a Palermo il 18 Maggio, nel pomeriggio). In
questo caso, le possibili grammatiche specializzate aumentano di complessità, le grammatiche garbage sono meno efficaci, ed è essenziale riconoscere non solo i dati principali
(e.g. Napoli e Palermo), ma anche il contesto
(in questo caso, partenza ed arrivo). Per ottenere buone performance su questa classe di
problemi, specialmente su dizionari mediograndi (e.g. le 3000 stazioni ferroviarie italiane), occorre che ogni componente sia ottimizzato. È spesso necessario un training specifico sulle parole, un lavoro di test in campo
per catalogare le forme di frasi usate più comunemente, una mescolanza accurata delle
diverse tecniche, e delle buone strategie di recupero per i campi che non sono stati riconosciuti. Inoltre, la maggior parte dei sistemi
moderni permettono il barge-in, cioè permettono all’utente di parlare in qualunque momento, intervenendo sulla domanda, il che
causa ulteriori difficoltànel determinare esattamente i limiti d’inizio e fine della frase, specie in situazioni rumorose dove altri suoni
possono essere confusi col l’input in modalità
barge-in.
ELEMENTI DEL DIALOGO
La struttura del dialogo controlla il tipo di
Interazione. Per esempio, il dialogo più semplice è quello in cui all’utente viene richiesta
una sola informazione, da dire isolatamente
(e.g. un numero di codice). In questo caso,
non c’è nè progressione nè variazione. Più comune è la struttura in cui diverse domande
vengono richieste in una sequenza stabilita
(e.g. ‘nome’, ‘cognome’, ‘indirizzo’), tipicamente in un’applicazione di directory enquiry.
Questo modello è a sua volta superato dalle
strutture ad albero, in cui vi sono vari punti di
biforcazione, in cui il sistema sceglie il proseguo a seconda dell’informazione ricevuta.
Il caso tipico è quello in cui l’utente può inserire più dati assieme in una frase: a seconda di
quali dati sono stati inseriti (e quali il sistema ha
riconosciuto con un grado accettabile di sicurezza), il gestore del dialogo sceglie la continuazione. Questo modello rappresenta in molti casi la
presente frontiera dei sistemi commerciali, specialmente nei casi di liste di dati medio-grandi.
L’approccio successivo è quello basato su
Scripts, cioè su strutture (di tipo grafo) che
prevedono non solo i punti di scelta (come
quelle ad albero), ma anche loops, salti, interruzioni e sotto-scripts.
- 87 -
Tali sistemi di gestione del dialogo sono
molto avanzati, e al momento presenti solo
in sistemi accademici o di dimostrazione. È
molto probabile, tuttavia, che la prossima
generazione di sistemi vocali per Interazione sia basata su strutture di dialogo di tipo
Scripts.
TTS E GENERAZIONE
Dal punto di vista della produzione di parlato da parte del sistema, si possono usare testi pre-registrati o impiegare un TTS. I testi
pre-registrati erano molto usati nel periodo in
cui i TTS non soddisfacevano, e vengono ancora impiegati per applicazioni limitate e molto statiche, quali quelle per centralino telefonico di ditta, ma i miglioramenti recenti dei
TTS e la loro flessibilitàe convenienza hanno
fatto sì che le applicazioni più moderne e
complesse usino solo TTS.
I TTS presentano due caratteristiche fondamentali, dal punto di vista dell’utente: la
qualitàfonica della voce (cioè, quanto sia simile al suono di una voce umana appropriata alla transazione), e la qualitàprosodica,
cioè della lettura (intonazione, volume, pause, velocità etc.). La qualità fonica dei migliori TTS sul mercato per la lingua italiana è
ormai eccellente, specialmente per le applicazioni che usano altoparlanti, ma anche le
versioni per telefono sono recentemente diventate molto gradevoli. La prosodia è migliorata recentemente, ed è adeguata per applicazioni più limitate, come la lettura di orari. Per la lettura di pagine intere di testo,
però (e.g. nel caso della vocalizazzione di
pagina web), il ruolo della prosodia diventa
fondamentale, ed in questo campo vi sono
ancora dei passi avanti da fare, in quanto alcuni elementi prosodici non sono derivabili
da corrispondenze statistiche, ma sembrano
dipendere in modo maggiore da elementi
linguistici: grammaticali, ma soprattutto legati all’interpretazione semantica e pragmatica
del testo.
Per quanto riguarda la generazione dal
punto di vista del contenuto, vi sono in genere tre approcci. Nelle applicazioni più
semplici, il testo è preconfezionato, cioè è
stato preparato come parte del disegno dell’applicazione, a parte gli elementi di dato
da fornire (e.g., la frase ‘il numero da lei desiderato è’ è già preparata, e al momento
dell’esecuzione viene aggiunto il numero richiesto). Per ottenere un dialogo di una certa complessità con questo sistema (e.g. per
applicazioni di simulazione di chat, o per
assistenti artificiali online), è necessario avere una gamma molto vasta di frasi preparate,
ed un sofisticato sistema statistico per scegliere la più appropriata. Un approccio più
sofisticato è quello di usare templates (moduli), in cui la struttura della frase è pre-confezionata, e gli slots (campi) vengono riempiti attraverso variazioni che si combinano
al run-time. Dato la crescita combinatoriale
di queste frasi istanziate, questo metodo ha
il vantaggio della solidità derivante dal template e della varietà derivante dall’esplosione combinatoriale.
Vi è anche un approccio logico-linguistico, in cui la struttura della frase è generata a
partire dalla rappresentazione logica astratta
di ciò che si vuole dire (per esempio usando
grafi concettuali), accresciuta da elementi di
teoria del dialogo e instanziata secondo regole linguistiche. Questo metodo ha il vantaggio di una maggiore flessibilità ed espressività, ma è anche al momento poco
robusto ed è solo impiegato in applicazioni
dimostrative. Come per gli altri elementi dei
sistemi ad interazione, è possibile ottenere
risultati ottimizzati in una particolare applicazione usando una mistura dei tre metodi
di generazione.
IL VOICE PORTAL CIRTE
Gli elementi principali del sistema Voice
Portal Cirte sono costituiti dall’interfaccia telefonica, IVR (che include anche il modulo SR
ARA), dal modulo Browser e dai Voice Template, e dal prograama di amministrazione.
Il sistema è costituito da una serie di moduli applicativi che interagiscono tra loro per
realizzare le funzioni richieste. Tali moduli risiedono tutti sulla macchina IVR ad eccezione
eventuale dei Voice Template.
La struttura del progetto prevede così la
suddivisione dei compiti in 3 moduli:
Voice Portal IVR , espleta l’interazione telefonica acquisendo i comandi di navigazione nelle modalità previste dalla configurazione attraverso il sistema ARA. Invia i comandi di navigazione al modulo Browser. Esegue la conversione del testo da riprodurre
in file di formato variabile a seconda della
configurazione e comunque definiti da un
insieme finito.
Browser, questo modulo interpreta il contenuto dei Voice Template e fornisce il testo da
- 88 -
un timeout che consente di determinare un
tempo massimo dal punto di vista del IVR
per la ricezione dei valori di ritorno del comando impartito. Più avanti viene dettagliato il formato dei comandi e dello Shared Memori File, nonché le modalità di scambio
delle informazioni.
Il modulo Browser riceve i comandi nel
formato di stringhe contenenti una parola o
un codice DTMF, quindi interpreta la grammatica (sezione ASR) del Voice Template e
realizza il comando ad esso associato che
può operare sulla pagina del sito Web corrente (script di esecuzione) oppure generare una navigazione ad una nuova pagina.
Vengono quindi prelevati dal Voice Template che identifica la pagina corrente del sito,
il testo da riprodurre (dalla sezione TTS) ed
eventualmente, nel caso di interazione vocale, il dizionario per il riconoscimento vocale (sezione ASR), il Browser mantiene
quindi all’interno un puntatore al comando
corrente del Voice Template in esame. Questo puntatore viene azzerato ogni volta che
si naviga in una nuova pagina e permette di
esegure più comandi in una stessa pagina
riportati nello stesso Voice template (sezione CMD), un esempio è rappresentato dalle
pagine che contengono Form di inserimento dati.
riprodurre, nonché nel caso di interazione vocale il nome del dizionario che contiene l’insieme delle parole che è possibile riconoscere. Esegue l’interazione con le pagine del sito
Web leggendo i comandi dai Voice Template.
Questi ultimi possono essere comandi di navigazione o script di esecuzione.
Voice Portal Manager, consente la modifica
dei parametri di funzionamento del sistema. Il
significato dei parametri è indicato dal programma stesso.
La figura di seguito mostra i vari moduli e
le loro interazioni:
Il modulo IVR riceve i comandi in forma
vocale o tramite DTMF, attraverso la rete telefonica secondo le specifiche della stessa, e
utilizzando per l’interfaccia una scheda Dialogic con gestione della segnalazione prescelta.
I comandi vengono tradotti nel caso di riconoscimento vocale e inviate al modulo Browser tramite lo Shared Memory File.
Lo Shared Memory File è un file strutturato aperto in memoria e condiviso in lettura e scrittura dai due processi IVR e Browser. L’IVR scrive il comando da eseguire e
legge i risultati quando il Browser ha rilasciato l’accesso all’area condivisa (comando
completato). Questo scambio è regolato da
Shared
Memory File
BROWSER
IVR
Rete
Telefonica
XML Parser
File di
configurazione
1
2
4
5
7
8
9
*
8
#
3
Voice Templete
Intrfaccia utente
6
Manager
- 89 -
HTTP
Il modulo Manager consente di modificare il file di configurazione a cui ha accesso il modulo IVR. Questo file è scritto nel
formato XML e contiene parametri di funzionamento sia del IVR che del modulo Browser. In particolare, alcuni parametri vengono
caricati all’avvio del modulo IVR, altri al verificarsi di ogni chiamata telefonica al sistema, tutti i parametri sono trattati in dettaglio
nel Manuale Utente.
NUOVE FRONTIERE
La nuova frontiera dell’Interazione è l’uso
della semantica e pragmatica direttamente
nel riconoscimento. Questo vuol dire incrementare il modello statistico con elementi
che tengono in considerazione il contesto
della conversazione fino a quel momento.
Per esempio, se dopo aver chiesto informazioni sul treno da Napoli a Palermo l’utente
dice ‘e quello per Salerno, invece?’, il sistema
dovrebbe rendersi conto che ci si trova di
fronte ad un’anafora (‘quello’ riferito a treno), un’ellisse (‘il treno da Napoli...’) ed una
struttura di dialogo ancora aperta (‘vorrei
informazioni su...’), per cui la frase va interpretata come ‘adesso vorrei informazioni sul
treno da Napoli per Salerno’. Il modello di
dialogo a Script presume un modello dell’utente basato su un’attività strutturata (e.g.
prenotare un biglietto aereo). Per attivitàpiù
aperte (e.g. la gestione delle lamentele, gli
usi per intrattenimento etc.) è necessario andare oltre questo modello, e usare un modello basato sulle conoscenze e motivazioni
dell’utente, sia come classe, sia come individuo. Per quest’ultimo caso, si tratta di usare
sistemi adattativi (e.g. basati su reti neurali o
algoritmi genetici) che imparano il profilo di
un particolare utente, o di una particolare
sottoclasse. In generale, la capacità adattativa del sistema una volta in campo aprirà
possibilità di ottimizzazione anche sui versanti dello SR proprio e della Generazione,
introducendo così una nuova generazione di
sistemi di SR attraverso il Dialogo.
Prof. Roberto Garigliano
Ideatore del sistema di SR ARA sviluppato da Cirte e
consulente tecnico-scientifico presso Cirte
TECNOLOGIE VOCALI PER IL MONDO
DEI DISABILI
D
ar voce a chi non ce l’ha, molto
più che far parlare i computer, è
sempre stata un’inconfessata speranza di molti ricercatori che da
anni studiano le più avanzate tecnologie vocali. Ma non solo di questo si tratta, perché
le stesse tecnologie possono essere utilizzate, da chi non vede, per leggere, o da chi ha
impedimenti al movimento, per controllare
in qualche modo l’ambiente esterno per
mezzo della voce.
A che punto siamo arrivati nello sviluppo
di queste tecnologie? È già possibile utilizzarle realmente nella vita quotidiana? questo
articolo tenta di dare una risposta a queste
domande, con una panoramica sui progressi
tecnologici e sulla disponibilità di prodotti e
servizi indirizzati al mondo della disabilità,
non trascurando gli aspetti normativi che,
specie negli ultimi anni, stanno affrontando
con sempre maggior interesse il rapporto tra
tecnologia e disabilità.
Prima di inoltrarci nel complesso mondo
della disabilità, ecco una breve presentazione
delle tecnologie vocali più importanti.
LE TECNOLOGIE
Ormai assuefatti alle novità tecnologiche e
incapaci di stupirci, pare ovvio che le macchine si rivolgano a noi con voce umana: ci ordinano di ritirare il biglietto al casello dell’autostrada, ci forniscono informazioni al telefono,
annunciano la prossima fermata sul tram o il
prossimo treno alla stazione.
Ma se proviamo a curiosare dietro l’apparente naturalezza della tecnologia della voce, scopriamo che la macchina parlante ha
potuto diventare reale solo a partire dall’era
dell’elettronica. E ancora oggi, dopo
trent’anni, la tecnologia vocale pone sfide e
difficoltà irrisolte.
Cominciamo col dissipare il primo equivoco: una macchina che parla non capisce ciò
che dice, e legge pedissequamente ciò che è
scritto (errori di ortografia compresi). In mo-
- 90 -
do simile, un sistema di riconoscimento non
necessariamente capisce ciò che sente. Una
semplice locuzione come “Dammelo”, ancorché riconosciuta correttamente, può non generare una risposta corretta da parte del sistema, perché esso può non capire cosa io voglio che mi dia.
Come in molti altri casi in cui un sistema
artificiale riproduce un comportamento umano, l’analogia di funzionamento tra macchina
e uomo è solo superficiale; nei paragrafi successivi cercheremo di dare una panoramica
ragionata delle due tecnologie vocali principali: la sintesi da testo e il riconoscimento della voce.
Per sintetizzatore vocale, noi oggi intendiamo generalmente un sistema digitale, costituito da un software che trasforma un testo in un
segnale vocale, simile a quello prodotto da
un essere umano che legge. Nel processo di
generazione del segnale vocale da un testo, si
possono individuare due fasi distinte:
l’analisi del testo, in cui si decide che cosa
pronunciare, quali suoni (fonemi) e con
quale intonazione;
la produzione, in cui si generare il suono.
Gli sviluppi più recenti della tecnologia
si basano sulla sintesi concatenativa, metodologia usata per comporre nuovi messaggi
a partire da frammenti di voce naturale
(difoni, trifoni, sequenze di molti fonemi,
porzioni di parole e parole intere), che vengono registrati in condizioni controllate al
fine di poter essere composte in modo appropriato, riducendo al minimo i punti di
giunzione.
Per ottenere una sintesi naturale, i frammenti di voce devono poi essere concatenati
in modo graduale e la loro prosodia, cioè il
ritmo e l’intonazione con cui sono stati pronunciati, deve essere scelta accuratamente e
modificata in modo da dare un risultato il più
simile possibile alla voce umana.
L’elemento prosodico è di importanza
chiave per comprendere le più recenti evoluzioni della tecnologia di sintesi. Infatti, ciò
che distingue i sistemi di sintesi di nuovissima
generazione da quelli immediatamente precedenti è proprio il maggior grado di naturalezza del timbro vocale ottenuto grazie ad inventari di frammenti vocali molto più ampi,
da cui il sistema riesce ad estrarre i più adatti
a realizzare il messaggio di sintesi. Il progresso tecnologico nel campo delle memorie per
computer ha facilitato l’avvento di questi sistemi di nuova generazione, che non hanno
bisogno di limitare il numero, e quindi la dimensione, dei frammenti da concatenare.
RICONOSCIMENTO DELLA VOCE
Il riconoscimento della voce è una capacità umana che coinvolge diverse funzioni
del nostro sistema nervoso: dai centri uditivi che raccolgono il segnale acustico, alle aree linguistiche del cervello che permettono la comprensione del significato del suono udito. Quando si parla di riconoscimento automatico della voce, si limita “automaticamente” il campo delle funzionalità ai livelli più semplici del processo umano: la
percezione del suono, la classificazione
dell’input in categorie finite e la sua rappresentazione in una sequenza simbolica che
spesso, ma non necessariamente, coincide
con la trascrizione ortografica delle parole.
Riprendendo il paragone della sintesi che
riproduce la funzione della lettura ad alta
voce, il riconoscimento simula il processo
di dettatura, con il nostro sistema nei panni
di uno scolaro diligente che trascrive ciò
che sente. Anche in questo caso, però, esiste un’importante limitazione: il sistema di
riconoscimento è in grado di trascrivere solo ciò che sa, ovverosia solo le parole su cui
è stato addestrato preventivamente. Ciononostante,il processo di riconoscimento automatico può includere anche un livello di
processing sintattico e semantico, al fine di
attribuire a parole diverse lo stesso significato (“voglio andare a Milano” o “desidero
partire per Milano” sono semanticamente equipollenti). I riconoscitori si differenziano
a livello funzionale:
per le dimensioni del vocabolario: si va da
qualche unità (cifre, SI/NO...) a diverse migliaia di parole
per le modalità di addestramento: dai sistemi che devono essere addestrati per la voce di ogni parlatore a quelli pre-addestrati
in modo statistico, indipendententemente
dal parlatore
per le modalità di input: a parole isolate
(una sola parola alla volta) piuttosto che
per il parlato continuo (più simile al linguaggio naturale).
Questa articolazione è spiegata dall’estrema difficoltà del riconoscimento della voce,
dovuta alla ricchezza di suoni e parole che
compongono una lingua, nonché alla grande varietà di pronunce di un singolo suono.
A ciò si aggiungono le difficoltà grammati-
- 91 -
cali e semantiche, per cui la stessa parola
può assumere funzioni e significati completamente diversi a seconda del contesto della
frase (i marinai non hanno ancora levato
l’ancora).
TECNOLOGIE VOCALI E DISABILITÀ
Noi tutti dipendiamo dalla tecnologia; in
casa e al lavoro numerosi dispositivi ci permettono di essere autonomi. La stessa cosa
vale anche per le persone portatrici di disabilità. È vitale riconoscere che l’utilizzo di
tecnologie da parte dei disabili, se da una
parte è per loro importantissimo, non è di
per se stesso una eccezione, una ulteriore
diversità. Ciò è ancor più valido per le tecnologie vocali, dal momento che tutti siamo
ormai abituati ad aver a che fare con macchine che parlano o che registrano la voce.
Benché nei capitoli precedenti si stato sottolineato come le similitudini tra il comportamento umano e alcune funzionalità assicurate dai computer nel campo della voce siano spesso superficiali, vedremo come queste funzionalità, se usate in modo corretto,
possano essere utilissime per assistere l’uomo in alcune funzionalità quali:
– la lettura
– la comunicazione
– Il controllo di dispositivi
– il controllo dell’ambiente esterno
Analizziamo separatamente le singole funzionalità correlate alle diverse tipologie di disabiltà.
LETTURA
I non vedenti e gli ipovedenti utilizzano
ormai da anni i sistemi di sintesi da testo in
grado di leggere qualsiasi testo. La sintesi è
infatti l’unica alternativa al metodo di lettura tattile Braille, il quale richiede però testi
stampati ad hoc, o dispositivi elettronici
appositi molto costosi. La grande disponibilità di testi in formato elettronico e la diffusione di Personal computer dotati di dispositivi multimediali (schede audio, microfoni, cuffie) ha favorito negli ultimi anni
l’utilizzo della sintesi da testo, che ha raggiunto una qualità spesso indistinguibile
dalla voce umana naturale (per provare diversi esempi di voci di sintesi si può visitare il sito www.loquendo.com/it/demos/demo_tts.htm).
Una delle applicazioni più comuni è l’accesso ai siti web; tramite la sintesi della voce,
è infatti possibile accedere ad internet e leg-
gere le informazioni contenute nelle singole
pagine. Ciò a patto che i siti siano stati sviluppati tenendo conto delle raccomandazioni
pubblicate dall’IWA sulla accessibilità dei siti
(http://www.w3.org/WAI/). A questo proposito, in occasione dell’anno europeo del disabile, il parlamento italiano sta discutendo
una proposta di legge per rendere obbligatoria la certificazione sull’accessibilità per i siti
di istituzioni ed enti pubblici, come già avviene in altri stati.
La lettura di informazioni non è limitata
all’ambito web; sono ormai molti anni che
servizi telefonici interattivi permettono l’accesso a voce a diversi tipi di informazioni utili. Fin dal 1998 Fs-Informa, il servizio telefonico automatico di Trenitalia permette
l’accesso vocale all’orario dei treni 24 ore al
giorno, utilizzando tecnologie vocali sviluppate da CSELT prima e da Loquendo più recentemente (entrambe realtà del gruppo Telecom Italia). Altri portali vocali sono stati
recentemente sviluppati da operatori telefonici, e da enti pubblici quali Inps, Italgas, ufficio tributi del Comune di Roma, proprio
per mettere a disposizione di chi non può
leggere o accedere ad internet, ma può utilizzare un comune telefono, le informazioni
ed i servizi disponibili già in rete.
COMUNICAZIONE
Anche in questo campo non mancano esempi di applicazioni di tecnologie vocali e
sistemi sviluppati ad hoc o utilizzabili da disabili per comunicare. A questo proposito, si
possono citare i sistemi ideati nell’ambito dei
progetti finanziati dal MURST per permettere
ai muti di comunicare a voce tramite sistemi
che sintetizzano frasi. Benché questi metodi
non possano sostituire l’uso del linguaggio
dei segni o della lettura labiale per la comunicazione diretta, possono però essere un valido ausilio per la comunicazione telefonica,
permettendo anche a chi ha problemi di linguaggio di interloquire in modo diretto con il
corrispondente.
Restano irrisolti al momento i problemi riguardanti i sordomuti perché, come si è visto
in precedenza, il riconoscimento del parlato
libero senza vincoli lessicali, tipico della comunicazione tra due persone, non è ancora
tecnologicamente fattibile.
Un’ulteriore applicazione della sintesi da
testo è il suo utilizzo quale ausilio alla Comunicazione Facilitata, una tecnica che ha dato
risultati positivi nel trattamento di pazienti au-
- 92 -
tistici. In questo caso, il bambino utilizza il
computer, o un dispositivo apposito dotato di
una tastiera semplificata, e la sintesi della voce per comporre i messaggi e comunicare con
chi lo circonda.
Il computer dotato di sintetizzatore vocale
è inoltre usato come ausilio per l’apprendimento dai ragazzi affetti da dislessia (una patologia del sistema nervoso centrale che causa difficoltà/impossibilità di leggere). Ascoltando i testi letti dal computer, essi riescono
ad imparare a casa le lezioni.
Esistono infine software per la rieducazione dei bambini con difficoltà di produzione
del linguaggio, che si appoggiano su algoritmi derivati dagli studi sui sistemi di sintesi e
riconoscimento. Gli esercizi vengono effettuati attraverso un microfono collegato alla
scheda audio del computer, e vengono presentati ai i più piccoli sotto forma di giochi. È
prevista anche la possibilità di registrare lo
svolgimento degli esercizi, una opzione molto utile per i logopedisti e per gli esperti della
riabilitazione del linguaggio, che possono così analizzare, a posteriori e con l’aiuto del calcolatore, i progressi e le caratteristiche vocali
dei loro pazienti.
do così anche eventuali difficoltà derivate da
difetti di pronuncia eventualmente legati alla
disabilità.
CONTROLLO DELL’AMBIENTE
La domotica, l’ultima frontiera domestica
dell’utilizzo del computer nel quotidiano, sta
riproponendo su scala commerciale idee e
soluzioni emerse con scopo di aumentare
l’autonomia a disabili motori nell’ambiente
domestico.
Il fine ultimo è quello di poter controllare il
funzionamento di elettrodomestici o attuatori
servocontrollati con un computer. La voce, in
questo caso, permette al disabile di comandare a voce i vari dispositivi, permettendogli cosi di aprire porte, accendere luci, telecomandare il televisore, accendere il forno e svolgere le semplici funzionalità indispensabili per
vivere in modo autonomo. Lo sviluppo recentissimo di reti wireless domestiche (WIFI,
Bluetooth..) potrà contribuire alla realizzazione di ambienti senza barriere a costi più contenuti, facilitando la diffusione di soluzioni
controllate vocalmente che proprio nell’alto
costo di impiantistica ed attuatori, ha trovato
la più grande barriera.
CONTROLLO DI DISPOSITIVI
Il riconoscimento e la sintesi della voce
possono essere utilizzati per facilitare l’accesso al PC; queste tecnologie sono integrate in software presenti sul mercato ormai da
qualche anno e che recentemente hanno
raggiunto buoni livelli di funzionalità. Benché questi software siano progettati per un
pubblico vasto, essi hanno assunto un certo
interesse anche come ausili per le persone
con disabilità. Sviluppati soprattutto allo
scopo di rendere ancora più veloce il lavoro
d’ufficio, superando i problemi di lentezza
nella digitazione, questi software permettono, in pratica, di gestire le funzionalità di
base di un personal computer senza dover
utilizzare la tastiera e si rivelano utili per
quei disabili motori che hanno preservato
integra la capacità di parlare.
Vi sono esempi di utilizzo del riconoscimento della voce per permettere il controllo
del selettore di direzione e velocità delle carrozzelle. Questi sistemi sono utilizzati da disabili motori gravi, per raggiungere una relativa
autonomia di movimento. In questi casi si utilizza un sistema di riconoscimento speaker
dependent, in grado di addestrarsi sulle caratteristiche della voce dell’utilizzatore, superan-
CONCLUSIONE
Lo studio della biologia ci ha insegnato che
la differenziazione e la diversità nelle forme
di vita è la vera ricchezza del nostro sistema
biologico. D’altra parte, abbiamo appena sottolineato come il linguaggio sia un espressione così complessa e differenziata da rendere
difficile anche ai più potenti sistemi di calcolo
comprendere e dialogare utilizzando il linguaggio umano a meno di limitazioni lessicali
o funzionali.
La diversità come barriera e ricchezza: questo è quello che si ripropone come eterno binomio, ben noto alle persone disabili. Se finora la diversità/disabilità è stata prevalentemente barriera, per quanto riguarda le tecnologie vocali è già diventata in parte ricchezza
in quanto fonte di stimolo al miglioramento
tecnologico e per l’individuazione di nuove aree applicative in cui il progresso tecnologico
sia strumento di autonomia.
Ing. Giuseppe Castagneri
Responsabile del gruppo di sviluppo
delle interfacce vocali Loquendo
Presidente APISB
- 93 -
L’E-LEARNING E I CORSI DI ITALIANO
PER STRANIERI
Le tecniche di formazione a distanza di ultima generazione, che chiamiamo in generale
e-learning, hanno introdotto nelle situazioni
formative classiche l’uso del computer sia attraverso i supporti off line (principalmente
floppy disc e cd rom, prossimamente DVD
rom) sia attraverso l’accesso alla rete internet.
Lo sviluppo dell’e-learning ha tratto particolare vigore dall’affermarsi delle teorie cognitiviste e costruttiviste, che pongono l’accento, fra
l’altro, sul carattere individuale dei percorsi di
apprendimento, sul ruolo attivo del discente,
sull’importanza dell’interazione con gli altri
discenti nel processo di apprendimento (collaborative learning) e sulla necessità di integrare il momento della valutazione nelle varie
fasi di tale processo. È evidente che tutti questi aspetti sono presenti nelle metodologie didattiche basate sulle tecniche dell’e-learning:
se a ciò si aggiunge il vantaggio individuale di
poter scegliere il luogo e il momento più adatti all’apprendimento, si comprende come
l’apprendimento delle lingue è oggi di gran
lunga l’applicazione più frequente e maggiormente efficace.
Se la lingua inglese fa ovviamente la parte
del leone, si deve notare che anche chi è interessato all’apprendimento dell’italiano può
trovare parecchie offerte in modalità e-learning. Una disamina, sia pure non esaustiva,
delle offerte presenti sulla rete, può essere utile per offrire alcuni spunti di riflessione sugli
aspetti positivi e i problemi aperti.
WWW.EDSCUOLA.IT/STRANIERI.HTML - È
un sito specificamente dedicato alla didattica
nella scuola, a cui si accede dal sito www.edscuola.it. La pagina intitolata “Educazione interculturale e Didattica della Lingua italiana
come Seconda lingua” è articolata in numerose voci: materiali, progetti, didattica della lingua, interviste e articoli, le novità editoriali,
link e norme.
WWW.SOCRATES-ME-TOO.ORG - Il sito presenta il progetto “Me Too - Anch’io. La multimedialità per il plurilinguismo e l’intercultura
nelle scuole”, che si propone l’obiettivo di
promuovere la diffusione del plurilinguismo
sia della seconda lingua, sia delle varie lingue
materne fra gli allievi figli di lavoratori migranti, nelle scuole di ogni ordine e grado.
WWW.UNIVE.IT/PROGETTO ALIAS - ALIAS
(Approccio Alla Lingua Italiana per Allievi
Stranieri) - è un progetto di studio e di informazione, coordinato dall’Università Cà Foscari di Venezia, sul processo di integrazione linguistica degli allievi stranieri e di (auto)formazione dei docenti di italiano come seconda
lingua. Contiene numerosi materiali, direttamente scaricabili.
WWW.LOGOS.IT - Il Gruppo Logos ha reso
disponibile gratuitamente dal proprio portale
il primo dizionario multilingua per bambini. Il
Dizionario dei bambini comprende 50 lingue.
Oltre alla traduzione della parola è possibile
vederne l’illustrazione, leggerne le definizioni
e ascoltarne la pronuncia.
http://www.italicon.it - Il portale della lingua italiana, offre corsi che consentono di imparare la lingua italiana o di migliorarne la conoscenza. I corsi sono realizzati da docenti
delle Università consorziate (Aderiscono a ICoN le Università di Bari, Cassino, Catania, Firenze, Genova, Milano Statale, Padova, Parma, Pavia, Perugia per Stranieri, Pisa, Roma
“La Sapienza”, Roma “Tor Vergata”, Roma Tre,
Salerno, Siena per Stranieri, Teramo, Torino,
Trento, Venezia; la Libera Università di Lingue
e Comunicazione IULM di Milano, l’Istituto Universitario Orientale di Napoli, la Scuola Superiore di Studi Universitari “S. Anna” di Pisa
e il Consorzio NET.T.UNO)
I corsi prevedono diverse tipologie di servizi: tutoraggio di assistenza didattica, didattica modulare, possibilità di utilizzo on line e
off line, lezioni ed esercitazioni didattiche interattive, correzioni automatiche, materiali didattici multimediali (audio, immagini, testi,
filmati), test di autovalutazione, forum degli
studenti
http://www.individuallearning.it/site/m
ade_in_italy.html - Made in Italy è il corso
on line di italiano per stranieri progettato
secondo le indicazioni del Quadro Comune
Europeo. Il corso si articola in 7 livelli di apprendimento: 2 livelli principiante, 2 livelli
intermedio e 2 livelli avanzato. È inoltre disponibile un livello zero, inferiore al livello
principiante assoluto. Per stabilire il livello
di partenza, è disponibile il test di ingresso.
- 94 -
A conclusione di ogni livello, è previsto un
test di livello.
Ogni lezione prevede approfondimenti di
fonetica, grammatica, sintassi e lessico ed esercizi per le abilità di comprensione e produzione linguistica (ascolto, pronuncia, lettura,
vocabolario e scrittura). In qualsiasi momento, lo studente può avvalersi del supporto didattico nella sua lingua (la prima lingua disponibile sarà l’inglese).
Sono inoltre disponibili schede multimediali per far conoscere aspetti significativi dell’Italia e degli Italiani, consultabili gratuitamente nella versione lancio.
http://www.educational.rai.it/ioparloitaliano/corso_35_38.htm - Io parlo italiano si
articola in fasi diverse che sfruttano le opportunità offerte dalla comunicazione multimediale. Il corso è seguito dai corsisti raggruppati in classi di dieci-quindici partecipanti, assistiti dai tutor, che dopo la lezione televisiva,
continuano il percorso didattico delle classi
nell’ora successiva, grazie alla rete costituita
dai Centri territoriali permanenti per l’educazione degli adulti. Le quaranta lezioni della
durata di un’ora sono trasmesse dal canale satellitare tematico di Rai Educational a partire
dal 22 gennaio 2001.
http://www.cyberitalian.com/cgilocal/home_visitors.cgi - Un corso in cui il
famoso burattino italiano e altri personaggi
(Dante, Leonardo e tanti altri) insegnano l’italiano basandosi su un’idea divertente e efficace. Il corso offre 30 lezioni sempre a disposizione attraverso il collegamento Internet, una
sezione grammatica, un glossario, articoli sull’Italia (Gallery) e collegamenti a siti d’interesse (Links) e l’area interattiva (Meeting rooms,
Calendar e Profiles) per favorire l’interazione
fra i membri di CyberItalian e incontrare elettronicamente il professor Pinocchio.
http://corso.italica.rai.it/livello1/percorsi/unita/unita.xml - Altro corso della RAI. Il
Corso di Lingua italiana, realizzato da DIDAEL
S.P.A., è suddiviso in 72 lezioni divise in tre livelli Principiante, Intermedio, Avanzato.
È possibile inoltre seguire le Lezioni del
corso seguendo i percorsi per Unità, Funzioni, o Ambienti. Il corso è disponibile gratuitamente in 5 lingue: Inglese, Francese, Spagnolo, Tedesco e Portoghese.
http://www.auralog.com/it/elearning.ht
ml - Auralog è uno dei produttori di mag-
gior successo di corsi di lingue su CD Rom.
Recentemente ha arricchito la sua offerta
formativa con sezioni on line dei propri corsi, con aule virtuali caratterizzate dalla presenza di tutor esperti. I maggiori punti di
forza sono il metodo di Riconoscimento vocale che permette di valutare la corretta pronuncia, individua automaticamente gli errori
(tecnologia S.E.T.S(r)) e li corregge e le Animazioni fonetiche in 3D per visualizzare
l’articolazione delle parole.
Quali conclusioni si possono trarre dall’esame di queste offerte in Internet?
Innanzitutto il target di riferimento è estremamente variegato, per provenienza,
caratteristiche sociodemografiche, competenze di base sia linguistiche sia tecnologiche. Ma la maggiore diversità risiede nelle
motivazioni all’apprendimento, quelle motivazioni che costituiscono la base del “patto formativo” tra discente ed erogatore del
corso e che rappresentano il fondamento
dell’efficacia dei corsi. Dovrebbe infatti essere evidente che sono molto differenti le
motivazioni di apprendimento, ad esempio,
da parte di chi non risiede in Italia e fa parte di comunità linguistiche non italiane, ma
è discendente di italiani da una o due generazioni, di chi è immigrato da poco in Italia
e proviene da una comunità linguistica molto lontana per struttura e lessico, e di chi infine appartiene alla koinè delle persone
colte affascinate non solo dalla lingua in
senso stretto ma anche dalla cultura e dalla
identità italiana,
I livelli di interattività e multimedialità sono
molto vari: in generale essi dovrebbero essere
strettamente correlati agli scopi dell’intervento formativo e alle caratteristiche del discente.
Istruzioni, commenti, guide passo passo
nella lingua madre d’origine sono essenziali
soprattutto nelle prime fasi dell’apprendimen-
- 95 -
to, anche a livello scritto e non solo orale. Si
deve anche tener conto, in parecchi casi, della non perfetta conoscenza dei caratteri latini,
e della necessità quindi di offrire “tastiere virtuali” con caratteri non latini, dal cirillico al
giapponese.
Le piattaforme di erogazione dei corsi on
line sono le più varie: uno dei massimi ostacoli allo sviluppo dell’e-learning è la lentezza con cui si diffonde lo standard internazionale SCORM, peraltro adottato ormai da
tutte le maggiori piattaforme software di
creazione autoriale, erogazione e aministrazione dei corsi.
La presenza di aule virtuali (ed eventualmente reali) e di momenti di collaborative
learning è ancora scarsa e poco strutturata.
Ciò è un ostacolo grave, poichè ormai è ampiamente condivisa l’opinione che il successo
dell’e-learning è favorito da soluzioni blended, in cui a momenti di autoformazione si alternano momenti di aula in gruppo.
I test di valutazione all’ingresso, nelle fasi
di apprendimento e al termine del corso non
si appoggiano a sistemi di valutazione sufficientemente standardizzati e riconosciuti. È
noto invece che il test linguistico effettuato
nelle varie fasi dell’apprendimento è parte integrante del processo stesso e del patto formativo tra discente e insegnante: le piattaforme di e-learning, che permettono l’autoaccertamento eventualmente ripetuto, semplificano enormemente il processo, lo rendono trasparente al discente e ne “sdrammatizzano”
l’effettuazione. D’altro canto questi test devono essere concepiti da chi progetta il corso tenendo ben presente i “syllabus” che presiedono al test di certificazione finale. La certificazione infatti non è soltanto un momento fon-
damentale di accertamento condiviso delle
competenze linguistiche, ma è in moltissimi
casi la motivazione primaria per la frequenza
ai corsi.
Un discorso a parte merita l’utilizzo delle
tecnologie TTS text to speech (che consentono di “far leggere” al computer con risultati
soddisfacenti testi scelti, ad esempio, su appositi siti internet) e soprattutto SR speech recognition. Quest’ultima è ampiamente presente da anni in tutti i corsi di lingua su CD
Rom, ma non è ancora stabilmente presente
on line. È ovvia l’importanza di ST ai fini dell’autovalutazione dell’apprendimento, poichè
una corretta pronuncia e intonazione costituisce un elemento fondamentale nella padronanza della lingua. I passi avanti sono stati
notevoli. Ricordo che fino a pochi anni fa utilizzavo un metodo infallibile per far “fallire”
tali sistemi: sottoponevo a misurazione la pronuncia di una mia redattrice e quella dell’insegnante madrelingua. Invariabilmente “vinceva” la redattrice, ma soltanto perché di formazione “teatrale” e abilissima quindi nell’“imitare” pronuncia e intonazione del testo di
partenza. Solo con gli ultimi software a disposizione questi ostacoli sono stati superati.
L’integrazione dei sistemi di speech recognition nelle piattaforme di erogazione dei corsi
on line consentirà di integrare nel sistema di
autoaccertamento delle competenze acquisite
anche i test di pronuncia.
In conclusione: grazie all’e-learning oggi
l’apprendimento dell’italiano può essere più
semplice, più efficace e meno costoso per le
più diverse categorie di discenti.
Prof. Paolo Parlavecchia
E-Biscom
- 96 -

I quaderni di - Fondazione Ugo Bordoni

Transcript

Documenti analoghi

PROGRAMMA DI IGIENE VOCALE

Ausili uditivi Sono apparecchi per la registrazione di tracce audio

Ascoltare l`occidente

5 maggio - Scuola media Breganzona

medVocal - Exprivia

VOCE DEL VERBo CANTARE

Suoni dell`Anima

Comunicare bene in pubblico

programma concerto finale - Scuola di Musica "A.Fassina"