la storia del riconoscimento vocale

Transcript

la storia del riconoscimento vocale
la storia del
riconoscimento
vocale
il miglior prodotto di
riconoscimento vocale al
mondo compie 10 anni!
Il decimo compleanno di Dragon NaturallySpeaking, il software di
riconoscimento vocale più venduto al mondo, offre un’ottima
opportunità per riflettere sui principali sviluppi della tecnologia di
riconoscimento vocale negli ultimi cinquant’anni.
La tecnologia di riconoscimento vocale è stata
protagonista di libri e film di fantascienza per
almeno cinquant’anni. Viene spesso associata ad
alcune serie TV di successo riconosciute a livello
internazionale come “Star Trek”, o film cult come
“2001: Odissea nello spazio”.
Il successo televisivo ha giocato un ruolo fondamentale nel diffondere
la conoscenza di questa tecnologia, rendendola però poco credibile
agli occhi dei telespettatori. Per anni, molti hanno associato
la tecnologia di riconoscimento vocale solamente ai programmi
di intrattenimento, ritenendola una pura fantasia
scientifica, invece di una scienza vera e propria.
Ultimamente, tuttavia, stiamo adottando
sempre più la tecnologia, sia a casa che in
ufficio, come Internet, telefoni cellulari,
lettori MP3, iPod, DVD, potenti PC e consolle
di gioco, reti senza fili, connessioni Bluethooth e schermi piatti. Di
conseguenza, la tecnologia di riconoscimento vocale è considerata
oggi molto più credibile, supportata in parte dal fatto che questo
tipo di tecnologia è maturata al punto da venire inserita in molti
dispositivi abilitati al riconoscimento vocale che ormai diamo per
scontati. Così, che tu stia lavorando sul tuo portatile, stia utilizzando
un dispositivo mobile, stia controllando le informazioni relative al tuo
volo, stia chiamando la tua banca o guidando la tua auto, la tecnologia
di riconoscimento vocale potrebbe essere la tua interfaccia principale.
Negli ultimi dieci anni, le aziende come Nuance (ex Scansoft) hanno
lanciato lo sviluppo della tecnologia di riconoscimento vocale, mentre
i giganti dell’industria tra cui Microsoft e IBM hanno investito in
maniera consistente nella tecnologia. Inoltre, i nuovi standard
industriali relativi alla tecnologia vocale incorporata, di rete e portatile
stanno raggiungendo un buon livello di sviluppo e facilitando la sua
diffusione più ampia.
Nuance percorre le
tracce di 50 anni di
momenti salienti
della tecnologia di
riconoscimento
vocale, delineando
come, da un inizio
affascinante sul
piccolo schermo, la
tecnologia vocale
faccia parte ora della
vita quotidiana.
Gli anni Trenta
1939: I Bell Labs
hanno presentato
“the Voder”, un
dispositivo di sintesi
vocale, sviluppato
da H.W. Dudley.
Dopo la presentazione alla fiera mondiale del 1939, il New York
Times ha dichiarato “Mio Dio, parla!”,
descrivendo il funzionamento dell’apparecchio.
Gli anni Sessanta
1962: Uno dei momenti più famosi della ricerca sulla sintesi vocale dei Bell Labs è
stato il campione creato da John L. Kelly nel 1962, utilizzando un computer IBM 704.
Il sintetizzatore vocoder di Kelly ricreò la canzone “Bicicletta per due”. Arthur C. Clarke,
visitando un collega nella struttura Bell Labs di Murray Hill, vide questa notevole
dimostrazione ed in seguito la utilizzò nella scena culminante della
sua novella e sceneggiatura “2001: Odissea nello spazio”, in cui
il computer HAL9000 canta questa canzone mentre viene
smontato dall’astronauta Dave Bowman.
1968: Il computer HAL-9000 nel film “2001: Odissea
nello spazio” ha presentato al mondo il concetto di dialogo
con i computer…
1969: …tuttavia, John Pierce dei Bell Labs avvertì che il riconoscimento vocale
automatico non sarebbe stato una realtà per diversi decenni, dato che richiede
un’intelligenza artificiale. La DARPA (Defence Advanced Research Projects Agency)
ha istituito il programma Speech Understanding Research per sviluppare un tipo di
computer che potesse comprendere le parole in modo continuativo. Lawrence Roberts,
l’iniziatore del programma, ha destinato 3 milioni di dollari dei fondi statali all’anno
per cinque anni alla sua ricerca. E’ stato il più grande progetto di riconoscimento
vocale in assoluto.
Gli anni Settanta
1976: Jim Baker di IBM ha creato uno strumento di riconoscimento vocale continuo
basato su Hidden Markov Modelling che dispone di un vocabolario di 1000 parole.
HMM è una strategia matematica complessa che alla fine fu adottata da tutte le
maggiori aziende di riconoscimento vocale, compreso Dragon
Systems, IBM, Philips, AT&T e altre.
1978: La Texas Instruments ha introdotto il popolare
strumento di assistenza all’apprendimento “Speak & Spell”.
Il chip vocale di Speak & Spell ha permesso di compiere
grandi passi nello sviluppo di suoni di sintesi digitali più simili
alla voce umana.
Gli anni Ottanta
1982: Viene fondata Covox. L’azienda ha portato il suono digitale al Commodore 64,
all’Atari 400/800 ed infine al PC IBM a metà degli anni Ottanta.
1982: L’azienda Dragon Systems venne fondata nel 1982
dai pionieri del riconoscimento vocale Drs. Jim e Janet Baker.
Dragon Systems è molto conosciuta per la sua lunga storia di
innovazioni nel campo del riconoscimento vocale e della tecnologia
del linguaggio e il suo ampio portfolio di brevetti. Ora proprietà
di Nuance Communications Inc., la versione 9 di Dragon
NaturallySpeaking permette agli utenti di dettare fino a 160 parole
al minuto, con un’accuratezza del 99%.
1983: Il produttore di auto Austin Rover ha introdotto la linea “Maestro” di auto
famigliari. I modelli top di gamma possedevano un computer di bordo che utilizzava un
riconoscimento vocale sintetizzato per ricordare
ai conducenti di allacciare le cinture di
sicurezza e per avvisarli su
problemi come il basso livello
dell’olio o le portiere non
chiuse in maniera appropriata.
Un giornalista inglese, che ha
ribaltato un’auto durante il lancio
stampa, ha riferito che, nel momento in cui l’auto si trovava sottosopra con il tetto a
contatto con il terreno, il computer ha avvisato: ”Pressione dell’olio bassa”.
1984: Viene fondata SpeechWorks, principale fornitore di soluzioni di riconoscimento
vocale automatico telefonico (ASR).
1987: Viene fondata Lernout & Hauspie (L&H). Come
azienda ad alto profilo che offre diverse tecnologie di
riconoscimento vocale hardware e software, L&H ha
offerto un allettante spunto su come la tecnologia
di riconoscimento vocale verrà incorporata nelle future
applicazioni hardware.
1988: Dragon Systems ha condotto la prima dimostrazione pubblica di un sistema di
riconoscimento vocale discreto basato sul PC, che vanta un vocabolario di 8.000
parole.
Gli anni Novanta
1990: Dragon ha presentato un sistema vocale continuativo di 5.000 parole per PC e
ha introdotto Dragondictate 30K, il primo grande vocabolario, un sistema speech-totext per la dettatura multiuso. Ciò permette il controllo del PC usando comandi vocali
ma richiede che gli utenti facciano delle pause tra le parole.
1994: Il sistema Dragon Dictate per Windows è il primo prodotto solo
software di dettatura per PC.
1995: Dragon ha realizzato un software di riconoscimento vocale. È stata la prima
volta che la dettatura vocale e la tecnologia di riconoscimento vocale sono diventate
accessibili ai consumatori. IBM e Kurzweil seguirono pochi mesi dopo con le loro offerte.
1996: Una delle più grandi società americane di servizi finanziari, Charles Schwab, è
stata la prima azienda a dedicare risorse allo sviluppo di un sistema di riconoscimento
vocale IVR con Nuance. Il programma, Voice Broker, permette di chiamare fino a
360 clienti contemporaneamente e di ottenere quote in azioni e opzioni. Gestisce fino
a 50.000 richieste ogni giorno. Il sistema è stato creato per essere preciso al 95%
e messo a disposizione di altre aziende, come la Sears, la Roebuck e Co., la United
Parcel Service of America e la E*Trade Securities, perché seguissero le loro orme.
1997: IBM ha rilasciato ViaVoice, il relativo software di riconoscimento vocale desktop-based.
1997: Il CEO di Microsoft Bill Gates ha identificato il riconoscimento vocale come un
miglioramento tecnologico di importanza rilevante.
1997: Nella notte prima del lancio di Dragon NaturallySpeaking
1.0, il 3 aprile, una violenta tempesta di neve si è abbattuta su New
York, creando quasi mezzo metro di neve. Il tempo era così severo
che fu dichiarato lo stato di emergenza in tutto
lo stato, e venne chiuso il Boston Logane,
tutti gli aeroporti circostanti, le vie, le autostrade, le strade
principali, e l’AMTRAK riusciva a fornire soltanto un servizio
molto limitato e poco affidabile. Visti i numerosi ritardi dei
relatori, compresi i fondatori di Dragon, Janet e Jim Baker e
il celebre ospite Richard Dreyfus, si era pensato di annullare
il primo evento di lancio del Dragon. Ma, malgrado le
circostanze, tutte le persone di riferimento e gli ospiti invitati
perseverarono, cercando in ogni modo di arrivare per
il lancio. Tuttavia, non ci volle molto a dimenticare la tempesta, quando i pensieri del
pubblico si concentrarono sulle sorprendenti dimostrazioni di cui furono testimoni,
facendo presagire una rivoluzione nello sviluppo dei software di riconoscimento vocale.
Subito dopo il lancio, Dragon ha lanciato sul mercato NaturallySpeaking, il primo
prodotto di riconoscimento vocale continuativo multiuso, che non richiede agli utenti di
fare le pause tra le parole.
1998: L&H ha introdotto VoiceXpress, il software di riconoscimento vocale desktop.
Fiducioso nel livello di esattezza e comprensione, ha sfidato il
dattilografo più veloce del mondo in una gara contro il tempo per
vedere chi era più rapido a redigere un documento: un dattilografo
con esperienza o la tecnologia di riconoscimento vocale? I risultati
erano quasi di pari livello e la dimostrazione stava convincendo il
mercato che la tecnologia di riconoscimento vocale si stava
affermando con successo.
Il Ventunesimo secolo
Aprile 2000: Lernout & Hauspie hanno acquistato Dragon Systems per circa
460 milioni di dollari.
Ottobre 2000: Malgrado l’ampia acclamazione e la diffusione di questa
tecnologia, le notevoli irregolarità contabili hanno portato Lernout & Hauspie alla
bancarotta. I beni tecnologici dell'azienda sono stati svenduti. Una delle stelle più
luminose dell'industria vocale si è offuscata.
Dicembre 2001: ScanSoft ha acquistato i beni vocali
della L&H, compresi i prodotti Dragon e le tecnologie
Dragon NaturallySpeaking e i prodotti AudioMining, il Text to Speech “RealSpeak” e
il motore di riconoscimento vocale automatico, ASR1600.
Agosto 2003: ScanSoft ha acquisito SpeechWorks, un'azienda che ha fornito il
riconoscimento vocale, la tecnologia text-to-speech (TTS) e l’opzione di verifica dello
speaker per ambienti di rete e integrati, compresi i nuovi dispositivi multimodali dotati
sia di interfaccia audio che di display video. Questa acquisizione ha permesso a
Scansoft di espandere ulteriormente la sua offerta nei settori Network e Embedded.
Novembre 2004: SanSoft diventa partner del Royal National Institute for the
Blind (RNIB) per integrare il software di Scansoft TALKS con i telefoni portatili dotati di
piattaforma Symbian e per distribuirli ai non vedenti. Il software TALKS permette ai non
vedenti e agli ipovedenti di utilizzare la propria voce per comporre messaggi di testo e
per far sì che i messaggi in entrata e i numeri telefonici vengano letti ad alta voce per loro.
Maggio 2005: ScanSoft e Nuance si sono fuse,
formando l’azienda vocale più grande e più di successo al
mondo, Nuance Communications, Inc. (www.nuance.com).
Oggi, la tecnologia vocale è disponibile su ogni scrivania ed
è utilizzata nei centri di chiamata, nei dispositivi mobili, nelle
consolle di gioco e nei sistemi di navigazione satellitare per auto.
Ottobre 2005: ScanSoft ha cambiato il suo nome in Nuance Communications, presentando una posizione unificata per l’azienda nei mercati che serve. Il nome Scansoft è
ancora utilizzato per la famiglia di soluzioni di imaging. Nuance
continua a diffondere nel mondo le soluzioni di riconoscimento
vocale e imaging per aziende e privati, tra cui AOL, Bank of
America, British Airways, Charles Schwab, Citigroup, Daimler
Chysler, Ford, General Electric, LG, Nokia, SBC, United Airlines,
Verizon e Vodafone.
Marzo 2006: Nuance conclude l’acquisizione
di Dictaphone Corporation, il principale fornitore
di soluzioni di riconoscimento vocale e di dettatura
per il settore sanitario, velocizzando la strategia
di Nuance per l’automatizzazione della trascrizione
manuale nell’ambito sanitario.
Giugno 2006: Un titolo su
un quotidiano di tutto rispetto, il
Financial Times, ha dichiarato che
“Il riconoscimento vocale fa parlare di sé”, coprendo poi nel dettaglio le aziende che
hanno goduto di una rapida crescita grazie all’introduzione di Dragon NaturallySpeaking
tra gli strumenti di business.
Luglio 2006: Nuance presenta la versione 9 di Dragon NaturallySpeaking, la nuova
versione del software di riconoscimento vocale più venduto, che promette livelli
di accuratezza del 99% e, per la prima volta, consente di iniziare a dettare senza
eseguire training del software. La versione 9 di Dragon
NaturallySpeaking Medical, studiata nello specifico per medici
professionisti, fu lanciata poco dopo. La versione 9 di Dragon
NaturallySpeaking Legal, studiata appositamente per i legali
di grandi studi, per piccoli praticanti o per dipartimenti legali
di aziende private o statali fu lanciata nell’agosto dello stesso
anno. Sia la versione Medical che quella Legal fu accolta con
entusiasmo dai gruppi di utenti del settore medico e legale.
Ottobre 2006: Fiducioso della rapidità e dell’accuratezza della tecnologia di
riconoscimento vocale sui dispositivi mobili, Nuance ha sfidato il più veloce digitatore al
mondo, Ben Cook, in una gara di messaggi di testo. Questo campione sarà in grado di
digitare la seguente frase più rapidamente del dispositivo mobile? “The razor toothed
piranhas of the genera Serrasalamus and Pygocentrus are the most ferocious freshwater fish in the world. In reality they seldom attack a human”.
I risultati furono sorprendenti: Cook completò la frase in 42,22 secondi… ma Nuance
Mobile Dictation decimò il suo tempo e completò il messaggio in soli 16,32 secondi. La
sfida ha rappresentato un momento importante per la tecnologia vocale, confermando
il progresso e l’idoneità del dispositivo per le applicazioni mobili.
Marzo 2007: Le stelle del motorshow internazionale di Ginevra del 2007 furono
le nuove generazioni di Mercedes-Benz classe C, FIAT Bravo e Ford Mondeo. Tutte e
tre dotate dell’ultima tecnologia del settore automotive… e della tecnologia di
riconoscimento vocale di Nuance come interfaccia ai sistemi di infotainment, per
offrire sicurezza e comodità a milioni di automobilisti.
Lloyds TSB ha festeggiato i dieci anni di tecnologia vocale in una applicazione call center,
chiamata PhoneBank Express. L’indagine ha rivelato che gli utenti sono soddisfatti della
rapidità e dell’affidabilità dei sistemi. Gli utenti inoltre lodano la rassicurazione che
offre, permettendo loro di condurre le transazioni
finanziarie in un ambiente testato, sicuro e affidabile.
Aprile 2007: In linea con i numerosi successi,
Dragon NaturallySpeaking celebra il suo decimo
anniversario. Ora è ampiamente considerata
la migliore soluzione di riconoscimento
vocale. Grazie alla facilità d’uso e alla
precisione è diventata una soluzione di riconoscimento vocale alla portata di tutti.
Milioni di persone nel mondo traggono beneficio dagli enormi vantaggi relativi alla
produttività che il software offre e, di anno in anno, più utenti arrivano ad apprezzare
la velocità e l'esattezza della più nota soluzione completa di riconoscimento vocale.
Dragon NaturallySpeaking 9 converte il parlato in testo fino a 160 parole al minuto,
con livelli di esattezza pari al 99 %. È disponibile in
inglese, olandese, francese, tedesco, italiano
e spagnolo.
Per informazioni contatta Venco Computer S.p.A.
011 2747.720
[email protected]
www.gruppovenco.it
†
Dragon NaturallySpeaking ha ottenuto
oltre 175 riconoscimenti mondiali.
Il logo del riconoscimento della redazione di PC Magazine è un marchio registrato di Ziff Davis Publishing Holdings, Inc., usato su licenza.
© Copyright 2007 Nuance Communications, Inc. Tutti i diritti riservati.
Nuance, il logo Nuance, Dragon NaturallySpeaking, il logo Dragon e The experience speaks for itself sono marchi
o marchi registrati di Nuance Communications, Inc. o delle società affiliate negli USA e/o in altri Paesi.
Tutti gli altri marchi sono proprietà dei rispettivi titolari.
italy.nuance.com