I quaderni di - Gamification Lab Sapienza

Transcript

I quaderni di - Gamification Lab Sapienza
I quaderni di
A cura di Alberto Mucci
Cresce la multimodalità
nella comunicazione
La multimodalità sta crescendo,
strumenti diversi oggi per comunicare,
nel contesto di una comunicazione
si coniuga audio, video e testo.
che progressivamente si amplia e allarga
Si delinea la possibilità di aggiungere
i propri orizzonti. Ma prima di fare
agli strumenti citati il tatto e l’odorato
il punto, con questo “Quaderno”,
(le sperimentazioni si stanno sviluppando).
su cosa è cambiato e su cosa
Il telefono per anni è stato solo voce.
sta cambiando in questo settore,
Adesso è allo stesso tempo voce,
è bene chiarire alcuni concetti base.
immagine, testo (Sms). Nelle trasmissioni
Primo: la comunicazione “in presenza”,
televisive si dialogava fino a ieri solo
cioè faccia a faccia è stata,
via audio. Oggi si utilizzano nello stesso
ed è, sempre multimodale perché
tempo Internet e “messaggini”…
ha abbracciato tutti i canali con cui
Altri esempi, letti in prospettiva. Nelle aule
si può comunicare (la parola, i gesti,
giudiziarie l’utilizzo di testi scritti viene
le immagini, il tatto, gli odori).
sempre più integrato con l’audio-video.
Secondo: la comunicazione a distanza
Nei giochi si arriva ad introdurre
(di luogo e di tempo) è nata unimodale,
la sensazione tattile. Il “naso artificiale”
perché basata solo sulla scrittura.
per utilizzare l’olfatto è dietro l’angolo…
Gli stessi mezzi di comunicazione
Le frontiere della comunicazione
moderna (telegrafo, telefono, ecc.)
non sembrano avere limiti.
sono stati inizialmente unimodali.
La civiltà è cominciata con il disegno,
Solo con l’avvento prima del cinema
con i ben noti disegni rupestri, primo
poi della televisione si attua una vera
mezzo di comunicazione a distanza.
e propria rivoluzione: si comunica
Il fuoco sulla cima di un monte è stato
contemporaneamente in più modi,
sostituito da altri mezzi sempre più
utilizzando diversi strumenti.
sofisticati e innovativi. Il lento procedere
Parte da qui, da questa nuova frontiera,
è diventato una corsa, imposta dai ritmi
la multimodalità, che sta prendendo
che condizionano la società
crescente spazio operativo in questi anni.
della comunicazione.
Si utilizzano contemporaneamente
Supplemento al numero 244 di marzo 2007 di
Indice
??
Con la multimodalità si moltiplicano le informazioni
e-Learning multimodale
La multimodalità nell’intrattenimento e nelle simulazioni digitali
L’avvento del multimodale: la voce fa la sua comparsa sul web e sulle applicazioni
Tecnologie vocali e multimodalità: soluzioni per servizi avanzati
La resocontazione multimodale
Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni
(Presidente il Prof. Giordano Bruno Guerri, Direttore Generale il Consigliere Guido Salerno
Aletta, Direttore delle Ricerche l’ing. Mario Frullone).
Coordinatore del Quaderno: Andrea Paoloni.
Hanno collaborato: Cristina Delogu, Fondazione Ugo Bordoni; Francesco Lutrario,
Infobyte, Università degli Studi di Milano; Fabrizio Gramuglio, DotVocal;
Paolo Baggia, Silvia Mosso, Loquendo; Fausto Ramondelli, Senato della Repubblica.
SONO USCITI NEL 2005/2006:
OTTOBRE
2005
NOVEMBRE
2005
2005/GENNAIO
2006
FEBBRAIO
2006
D-cinema dalla pellicola al file
MARZO
2006
Il “punto” sulla firma digitale in Italia
APRILE
2006
La casa digitale apre nuove porte
MAGGIO
2006
Politica industriale e terrorismo: l’importanza dell’“intelligence”
GIUGNO
2006
LUGLIO/AGOSTO
2006
SETTEMBRE
2006
OTTOBRE
2006
NOVEMBRE
2006
2006/GENNAIO
2007
FEBBRAIO
2007
La sfida sicurezza nella società dell’informazione
L’attività spaziale italiana ha molti punti di eccellenza
Le sfide 2006 della Tecnologia della lingua
DICEMBRE
Tv, dati e telefono si fondono sempre di più
La TV ad Alta Definizione sul trampolino di lancio
Accesso radio: wimax in “pole position”
E ora siamo nell’epoca del “TUTTOFONINO”
Il digitale offre al cinema nuovi spazi di diffusione
La domanda di comunicazione chiede di aggiornare Internet
Modelli di business per le tv locali
DICEMBRE
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
Con la multimodalità
si moltiplicano le informazioni
omunicare significa trasmettere informazioni, notizie da un luogo ad un altro, da una persona ad un’altra persona, da un tempo ad un altro tempo. Un processo di comunicazione implica l’emissione e
ricezione di segni che vengono prodotti da variazioni di energia di qualsiasi genere. Il primo
tipo di comunicazione è stato certamente la
comunicazione in presenza, faccia a faccia.
Questo “modo” di comunicare fa uso di diversi canali che corrispondono ai nostri sensi. L’organismo umano dispone di due sistemi di emittenza, quello motorio e quello fonatorio e tre
sistemi di ricezione, il sistema uditivo, quello
visivo e quello tattile. Nella comunicazione oltre alla voce ha grande rilievo l’immagine, non
solo per comprendere la situazione in cui le
informazioni vocali si inseriscono, ma anche
per valutare la reazione emotiva che la persona con la quale comunichiamo lascia affiorare
nell’espressione del suo viso e nell’atteggiamento del suo corpo. Anche gli odori svolgono un ruolo comunicativo importante, nonostante la limitata sensibilità dell’uomo alle stimolazioni di questa natura. Infine il tatto fornisce ulteriori informazioni utili.
Per meglio comprendere come queste diverse modalità interagiscano tra loro, può essere
utile l’esempio dell’acquisto di un auto: il venditore ci parla, informandoci sul prezzo e sulle prestazioni della vettura (voce), noi la osserviamo, ne valutiamo l’aspetto, siamo affascinati dal disegno e dai colori (immagini), tocchiamo la sua tappezzeria (tatto) e ne sentiamo il profumo (olfatto). Che il profumo sia
importante nell’insieme delle informazioni lo
dimostra il fatto che i venditori di auto usate
curano che la pelle dei sedili sia spruzzata di
particolari “deodoranti” che diano alla vettura
il “profumo di auto nuova”.
Lo sviluppo di un linguaggio richiede il dominio del tempo e dello spazio, nel senso che si
deve ricordare l’informazione ricevuta e si deve
trasmetterla a distanza. L’uomo è in grado di
ricordare e può muoversi per portare il mes-
C
MARZO 2007
saggio in un altro luogo. Il messaggero, figura
mitica del tempo antico, svolgeva proprio il ruolo di portare in luoghi distanti il messaggio che
aveva memorizzato.
La scrittura è stata la prima invenzione che ha
risolto il problema di rendere duraturo il messaggio; con l’invenzione della scrittura il messaggero non doveva più memorizzare il messaggio con le esatte parole dell’emittente, era
sufficiente che trasportasse il testo che gli era
stato affidato. In un successivo paragrafo si
approfondirà lo studio di questa modalità
comunicativa, ora ritorniamo alla storia della
comunicazione a distanza, ricordando alcuni
ingegnosi sistemi utilizzati nell’antichità.
I Cartaginesi usavano il telegrafo idraulico, che
consisteva in due vasi cilindrici uguali (uno trasmittente ed uno ricevente) posizionati su due
torri. I vasi erano riempiti d’acqua; al centro
galleggiava un’asta verticale sulla quale erano
tracciati segni convenzionali (Fig. 1). Quando
si doveva comunicare, si apriva un foro praticato alla base del vaso; si svuotava o si pompava acqua facendo emergere l’asta fino al
punto desiderato. Le segnalazioni di inizio e
fine trasmissione si facevano con sventolio di
bandiere o fiaccole.
I romani utilizzavano una rete di fuochi sulle
torri durante la notte, che permetteva a Giulio
Cesare di comunicare con la capitale dal più
remoto accampamento nelle Gallie. Questi
sistemi avevano l’inconveniente di richiedere
che due successive stazioni fossero tra loro
visibili e questo ne limitava la distanza e l’affidabilità. Bastava una fitta pioggia o un banco
di nebbia ad interrompere il collegamento.
Questi sistemi di comunicazione a distanza
rimasero le sostanzialmente invariati per migliaia
di anni: il messaggio camminava sulle gambe
di un uomo ed aveva la sua stessa velocità.
Nel 1800 si aprì un secolo durante il quale la
comunicazione ebbe una importante rivoluzione: nel 1838 il telegrafo riuscì a risolvere anche
il secondo problema, quello dello spazio, scollegando la velocità della notizia dalla velocità
3
CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI
utilizzava un solo modo comunicativo: il telegrafo la scrittura, il telefono e la radio la voce.
Solo nel ventesimo secolo, con l’avvento e la
diffusione del cinema (1892) e della televisione (1925), le immagini si affiancarono alla voce
e la comunicazione divenne multimodale.
La scrittura
FIGURA 1. TELEGRAFO AD ACQUA.
dell’uomo. Nel 1871 l’invenzione del telefono,
ad opera dell’italiano Meucci, permise ad un
altro modo comunicativo, la voce, di superare
la barriera della distanza. Questi due media, ai
quali nel 1896 si affiancò la radio, resero il mondo più piccolo e riportarono l’oralità al centro
della comunicazione. Tuttavia ciascun medium
TABELLA 1. STORIA DELLE COMUNICAZIONI.
Cronologia dei sistemi di comunicazione
PITTOGRAMMA
SCRITTURA
4
30.000 A.C.
3.000 A.C.
STAMPA
1456 D.C.
TELEGRAFO
1832 D.C.
MACCHINA PER SCRIVERE
1868 D.C.
TELEFONO
1871 D.C.
CINEMATOGRAFO
1892 D.C.
RADIO
1895 D.C.
TELEVISIONE
1925 D.C.
CALCOLATORE (ENIAC)
1946 D.C.
MOUSE
1968 D.C.
MACINTOSH
1984 D.C.
CELLULARE
1990 D.C.
Tra i modi di comunicare a distanza di luogo e
di tempo la scrittura è certamente il più antico
e forse quello di maggior rilievo. Per molti millenni le informazioni viaggiarono solamente in
forma di messaggi di testo, corredati al più con
qualche disegno (immagine).
A voler essere più precisi vi è da dire che,
secondo coloro che studiano l’origine della
scrittura, è proprio l’immagine, o per meglio
dire i disegni rupestri di epoca neandertaliana
(20.000 a.C.) il primo mezzo di comunicazione a distanza conosciuto dall’uomo e la sua
grande efficacia è provata dal fatto che il messaggio in esso contenuto è arrivato sino a noi.
Successiva ai pittogrammi è la scrittura ideografica, cosi detta perché basata sulla rappresentazione stilizzata di concetti, non legati ad
un particolare suono.
La scrittura nacque intorno all’anno 3000 a.C.
e provocò importanti mutamenti nel modo di
pensare degli uomini.
Il passaggio dalla cultura orale a quella scritta
ha costituito un discrimine importante per molteplici ragioni. La scrittura non è, né può essere, una mera registrazione su un supporto
(medium) di quello che avremmo detto. La
scrittura prevede una riorganizzazione del pensiero, è un modo diverso di esprimersi. Con la
scrittura venne meno la necessità dei poemi in
rima, che costituivano e costituiscono il bagaglio culturale delle società basate sull’oralità.
Il medium usato dalla scrittura è stato prevalentemente la carta, assimilando ad essa sia il papiro, una sorta di carta naturale, sia la pergamena,
ricavata da pelli animali, l’altro medium utilizzato
da sempre è la pietra. I due media hanno in genere funzioni diverse, la carta destinata a comunicazioni interindividuali, la pietra a comunicazioni
pubbliche per celebrare eventi fausti, quali la vittoria sui nemici (si pensi alla stessa stele di Rosetta o alla colonna Traiana, o ai riti funebri.
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
L’evento, successivo all’invenzione della scrittura, che ha mutato profondamente il modo di
comunicare è l’invenzione della stampa. In tempi molto più recenti due nuove invenzioni si
sono segnalate per l’impatto che hanno avuto sulla società: l’avvento della macchine per
scrivere (1875), del computer (1948) come
medium di scrittura e il messaggio SMS.
L’uso degli SMS, gli ormai noti “messaggini”,
ha codificato una nuova modalità di comunicare che, come è ben noto, fa uso del medium
“telefono”.
Senza voler entrare in dettagli diremo che gli
SMS hanno creato un particolare linguaggio
anche grazie all’uso di un particolare sistema
di scrittura assistita, denominato T9, volto a
facilitare la scrittura di una frase minimizzando
il numero di digitazioni necessarie.
2) e bobine di nastro magnetico e come uscita le stampanti ad aghi. Questa tipologia di
sistemi di entrata e uscita durò sino agli anni
ottanta quando fecero il loro ingresso i monitor, sorta di televisori alfanumerici dotati di
tastiera del tutto analoga a quella della macchina per scrivere.
Nel 1984 nacque il PC Macintosh (vedi figura 3) dotato di interfaccia grafica e orientato
all’uso dell’interazione “tattile”, il mouse.
L’immagine è anche entrata in quel sistema
monomodale per eccellenza che è sempre sta-
FIGURA 2. SCHEDE PERFORATE.
L’immagine
L’immagine ha rappresentato per millenni un
modo per ricordare persone ed eventi ed ha
avuto un ruolo molto importante nelle religioni per rappresentare allegoricamente le immagini degli dei. L’importanza delle immagini nei
riti è attestata dal fatto che sulla rappresentabilità o meno del sacro (iconoclasia) avvenne
uno scisma.
Le immagini in passato non svolgevano propriamente un compito comunicativo ma piuttosto un compito espressivo, artistico. Le rappresentazioni pittoriche hanno un ruolo nella
memorizzazione di eventi e personaggi: la maggior parte delle informazioni che abbiamo sull’aspetto fisico dei grandi uomini del passato
lo dobbiamo ai dipinti. Solo dopo le invenzioni della fotografia, del cinema e della televisione, tutte collocate nella prima metà del secolo XX, alla trasmissione della voce si è affiancata la trasmissione delle immagini. I nuovi
media, cinema e televisione, sono sistemi di
trasmissione multimodali, nel senso che fanno uso contemporaneo di immagine suono e
testo. Si dice che la nostra sia la società dell’immagine e l’immagine è stata introdotta
anche nei computer e nei telefoni al fine di renderne più agevole l’uso.
I primi elaboratori numerici utilizzavano come
entrata schede perforate, tasti alfanumerici (Fig.
MARZO 2007
5
CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI
FIGURA 3. IL MACINTOSCH, PERSONAL
COMPUTER INNOVATIVO.
to il telefono. Per molti anni si era cercato di
introdurre l’immagine nei collegamenti telefonici fissi ma l’unico risultato era stato la proliferazione di barzellette legate alla necessità di
“acconciarsi” per rispondere ad una telefonata. L’esplosione della multimodalità nella telefonia è legata all’uso dei cellulari e al desiderio
di scambiarsi immagini, spesso censurabili.
Oggi lo strumento “telefono cellulare” è multimodale, nel senso che comunica con immagini, suono e testi, ma è anche propriamente
multimediale in quanto può funzionare come
telefono, come computer, come televisore,
come “telegrafo” (gli SMS), come macchina
fotografica e come cinepresa.
L’olfatto ovvero il naso elettronico
Mentre si moltiplicano le applicazioni della multimodalità che fanno uso dei canali tradizionali rappresentati da testo, immagini e segnali
audio, la ricerca è volta a consentire la trasmissione a distanza di altre modalità comunicative, tra le quali gli odori. L’uomo non ha una
6
particolare sensibilità olfattiva e nell’uso del
senso dell’olfatto viene superato da quasi tutti i mammiferi; in particolare, come è noto, dal
cane, tuttavia l’introduzione di questo nuovo
canale può rappresentare un imprtantre acquisizione. Gli studi in atto vertono su entrambe
le interfacce: l’analisi degli odori, il naso artificiale, e la generazione degli odori.
Il sensore degli odori, il naso artificiale, è costituito da una camera nella quale l’aria viene
ad avere un percorso laminare che lambisce
otto sensori di una particolare sostanza chimica denominata metalloporfirina La “rivelazione”, cioè la decodificazione dei diversi odori, avviene perché sui sensori di quarzo si
depositano le molecole odorose grazie alla
metalloporfirina, così i sensori si appesantiscono e cambiano la loro frequenza di oscillazione (Fig. 4).
Il processo di “taratura” dello strumento avviene sulla base del test di olfattometria dinamica. In pratica, un gruppo di “rinoanalisti” in
carne ed ossa “annusa” l’aria contaminata dall’odore, diluita con aria pulita fino a che l’odore scende sotto la soglia di percezione. Stabilire il numero di diluizioni necessarie affinché
questo avvenga significa misurare la concentrazione di odore secondo la norma europea
EN 13725:2003; questi stessi campioni vengono poi utilizzati per la taratura del sistema
elettronico.
Le possibili applicazioni di un naso artificiale
vanno dal controllo della qualità degli alimenti, in particolare del loro stato di conservazione, alla valutazione delle sostanze inquinanti
nell’atmosfera. Un’applicazione particolarmente interessante potrebbe aversi in medicina,
in quanto molte malattie sarebbero riconoscibili per le modificazioni che generano all’odore corporeo e pertanto la sua analisi potrebbe fornire elementi di diagnosi particolarmente non invasivi.
Nel campo della valutazione dello stato di conservazione degli alimenti sono state messe alla
prova le capacità del naso elettronico di individuare se un pesce è fresco o meno e dove
è stato pescato o allevato. Capacità predittive
che raggiungono anche il 100 per cento per
spigole e orate. Ma l’applicazione che più interessa la comunicazione multimodale è la tra-
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
smissione degli odori da un luogo ad un altro,
ad esempio tramite il medium costituito da
internet. Il naso artificiale consente di codificare l’odore in dati numerici che vengono trasmessi ad un generatore di odori che mescolando gli odori fondamentali ottiene il risultato.
Comunicazioni tattili
Il senso del tatto è perfettamente in grado di
svolgere le funzioni comunicative come dimo-
stra il suo uso, da parte dei non vedenti, ma
ha il forte limite di richiedere un contatto lo fisico diretto e pertanto è scarsamente utilizzabile nelle relazioni sociali.
L’impiego più noto nel campo della trasmissione di informazioni è nella lettura del codice braille. Fu infatti Luis Braille, un non vedente, che nel 1929 mise a punto un alfabeto tattile basato su una matrice di sei punti che
codificavano, essendo o meno in rilievo, le let-
FIGURA 4. IL NASO ARTIFICIALE.
Il naso
elettronico
MARZO 2007
7
CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI
tere a alfabeto. I punti vengono impressi con
un punteruolo e letti con i polpastrelli. Attualmente i non vedenti fanno uso di due metodi
lettura, quello basato sul codice braille e quello che fa uso della sintesi della voce. I due
diversi approcci soddisfano differenti necessità e raggiungono risultati assai diversi tra
loro. La lettura con sintesi vocale è paragonabile all’ascolto di una cassetta magnetica.
Col braille, invece, ci si muove in modo più
simile alla lettura ottica: la velocità, le pause,
le fermate, possono essere regolate dal lettore come lui desidera.
Inoltre non tutti i non vedenti usano il braille
perchè la lettura del braille richiede un particolare sviluppo della sensibilità del polpastrello
che avviene solo se si apprende la tecnica di
lettura nel periodo della scuola elementare.
Inoltre i display braille hanno un costo elevato,
che supera i 4000 euro. Per aiutarsi maggiormente, i non vedenti utilizzano spesso entrambi i metodi di lettura: la sintesi vocale per testi
semplici e scorrevoli, il braille per testi complessi e durante la scrittura.
Il senso del tatto viene inoltre utilizzato nelle
mappe tattili, studiate per favorire l’orientamento e la riconoscibilità dei luoghi a chiunque, ed
in particolare a persone non vedenti ed ipovedenti. Esse rappresentano un utile accorgimento per favorire l’accessibilità e la fruibilità di luoghi pubblici o aperti al pubblico, dal momento che riportano indicazioni sia in lettere che in
alfabeto Braille.
Ma come abbiamo detto, il tatto viene anche
utilizzato da tutti per aumentare le informazioni sulle cose che ci circondano, ad esempio
nel valutare le stoffe. Inoltre uno degli strumenti normalmente utilizzato per comunicare con
il computer, il mouse, non è altro che un sensore di movimento, legato al senso del tatto.
L’introduzione del mouse ha certamente
ampliato le modalità di comunicazione tra l’uomo e il computer precedentemente limitate
all’uso delle immagini e del testo
Tatto e sensori di movimento sono anche
impiegati nei comandi dell’auto, per consentire al guidatore di mantenere l’attenzione dalla
strada quando regola la radio o l’impianto stereo, telefona o regola la temperatura interna.
8
Altre modalità di interazione
Oltre alle interfacce di cui abbiamo parlato, prevalentemente legate ai cinque sensi se si fa
eccezione per la scrittura che non è ascrivibile semplicisticamente al senso della vista, altri
dispositivi possono intervenire nell’interazione
uomo-computer, ad esempio i dispositivi di
input del genere “eye-tracking” (tracciamento
del movimento dell’occhio). Altri esempi sono
possibili sia utilizzando programmi che traggono informazione sui nostri movimenti a partire
da telecamere, sia utilizzando sensori giroscopici, misuratori di pressione, misuratori di conducibilità corporea e di frequenza del battito
cardiaco, ecc. L’attenzione si sta spostando
dalle prestazioni, che spesso si traducono in
maggiori capacità di elaborazione, alle potenzialità multimodali, alla varietà e flessibilità dei
dispositivi di controllo. Gli ingombranti joystick,
le tastiere e altri apparati che presto considereremo oggetti di modernariato.
Multimodalità e multimedialità
Non è facile trovare una definizione precisa che
consenta di distinguere il concetto di multimodale da concetto di multimediale. Alcuni
sostengono che multimedialità comporta la
presenza di diversi elementi di output mentre
la possibilità di avere diverse opzioni di input
definisce la multimodalità. Rifacendoci all’etimologia diremo che multimodale fa riferimento al modo di comunicare ovvero scrittura piuttosto che oralità, immagini piuttosto che informazioni tattili, SMS piuttosto che voce, mentre multimedialità fa riferimento a un medium
ossia un mezzo. Conseguentemente la televisione e il cinema sono due media multimodali, in quanto comunicano attraverso il suono,
attraverso le immagini e talvolta attraverso i
testi; la radio invece è un medium monomodale in quanto comunica solamente attraverso il suono ma un programma radiofonico può
essere multimediale in quanto usa oltre al
medium radio anche il medium telefono. Un
evento sarà multimediale se viene trasmesso
con media diversi; ad esempio Sanremo è
evento multimediale perchè trasmesso per
radio e per televisione, riportato sui giornali e
del quale vi sono registrazioni audio e video.
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
Multimodalità nella robotica
L’uomo si muove nell’ambiente che lo circonda grazie ai suoi cinque sensi. Se andiamo in
automobile usiamo la vista per controllare il
percorso, l’udito per sentire cosa accade nelle vicinanze, i clacson dalle altre auto, il rumore di un tram o di una sirena, il tatto per controllare la presa sul volante e la posizione dei
piedi sui pedali.
Tutte queste informazioni sono rese disponibili al cervello dagli organi dei sensi e il cervello provvede ad elaborare i dati provenienti dai
sensi e decidere le azioni da compiere.
Anche un robot per poter interagire con l’ambiente ha bisogno di sensori.
Se si tratta del braccio meccanico che esegue le operazioni di verniciatura delle auto
sarà sufficiente una telecamera che controlli la posizione dell’auto, ma se immaginiamo
il braccio montato su un carrello, in modo da
trovare dei pezzi meccanici da montare sulla vettura, le necessità sensoriali diventano
molto più sofisticate.
Al robot serviranno dei sensori per la localizzazione degli ostacoli (ad ultrasuoni, a
laser,…), un sistema visivo più complesso in
grado di identificare i pezzi in qualunque posizione spaziale siano collocati, un sistema che
gli consenta di identificare la propria posizione nel magazzino, un sensore che verifichi lo
stato dell’alimentazione e infine un programma in grado di trasformare tutti questi dati in
azioni da compiere.
Se poi volessimo costruire un robot in grado
di correre per i prati a raccogliere mazzi di
fiori le difficoltà sarebbero molto superiori a
quelle che siamo oggi in grado di affrontare:
non sapremmo far correre in un prato un
uomo meccanico né sapremmo come fargli
MARZO 2007
cogliere i fiori. Il problema non è solo dei sensori ma certamente è anche dei sensori.
Conclusioni
Nel presente articolo abbiamo voluto caratterizzare le principali modalità di comunicazione utilizzate dall’uomo. Si è potuto vedere
come la tecnologia ha reso disponibili diversi
canali di comunicazione tra i quali, per la
straordinaria importanza nella vita sociale, ricordiamo la scrittura, la stampa e il telegrafo.
Caratteristiche comuni di questi canali è quella di essere monomodali, di rivolgersi ad un
solo senso. Nel ventesimo secolo, con l’avvento del cinema e della televisione, si è passati alla multimodalità, i nuovi media trasmettono informazioni di vario tipo alla vista e all’udito. Questa tendenza va via via affermandosi con le interfacce per i computer che utilizzano anche il canale tattile e ora anche quello olfattivo. Altri sensori ancora vengono utilizzati nelle simulazione e nei giochi al computer. Maggiori dettagli sono disponibili in un altro
articolo del presente quaderno dedicato proprio ai giochi multimodali.
Anche il telefono, nato monomodale, è oggi
diventato un medium multimodale, in grado
di offrire impieghi di diversa natura. Sugli
impieghi della multimodalità sono disponibili altri contributi relativi all’e-learning e alle
applicazioni web.
L’espansione delle modalità di interfaccia permette di interagire meglio e più facilmente con
il resto del mondo, ma rischia di saturare l’uomo con troppe informazioni rendendoci difficile la gestione delle stesse.
Andrea Paoloni Fondazione Ugo Bordoni
9
E-LEARNING MULTIMODALE
E-Learning multimodale
er e-learning multimodale si intende un
ambiente di apprendimento che, avvalendosi soprattutto delle tecnologie di rete, consente l’accesso a molteplici risorse ed
esperienze di condivisione e collaborazione in
appositi spazi virtuali, utilizzando diverse modalità di comunicazione tra gli utenti e tra l’ambiente e gli utenti.
La multimodalità è ovviamente associata alla
multimedialità: la multimodalità si riferisce specificatamente alle modalità di input dell’interazione, mentre la multimedialità sottolinea la presenza contemporanea di più meccanismi di output (audio, video, ecc.).
In questo articolo, cercherò di allargare il concetto di e-learning multimodale considerandolo come un nuovo modo di apprendere basato
sull’esperienza, e quindi più vicino a quello che
avviene nella vita di tutti i giorni, dove chi impara interagisce con i diversi aspetti della realtà,
ne fa esperienza diretta, nel senso che li vede,
li sente, li tocca, agisce su di essi e osserva gli
effetti delle sue azioni, fa previsioni e ipotesi su
di essi (per lo più inconsapevolmente) e verifica
se queste previsioni e ipotesi sono corrette, li
manipola per i suoi scopi pratici con maggiore
o minore successo (Piaget 1989).
Finora, nonostante l’introduzione delle nuove
tecnologie, la multimodalità e la multimedialità
nell’e-learning si sono limitate all’aggiunta di grafici, figure e filmati ai materiali linguistici delle
lezioni tradizionali, lasciando al linguaggio un
ruolo centrale e cruciale come strumento di
conoscenza, comprensione e apprendimento.
Tradizionalmente l’apprendimento e la formazione avvengono usando in maniera quasi esclusiva il canale del linguaggio verbale. Allo studente si chiede, fondamentalmente, di ascoltare
lezioni, leggere testi, prendere appunti da lezioni o da testi, ripetere e memorizzare testi, produrre testi, fare esercizi che richiedono l’uso del
linguaggio verbale, rispondere a domande dell’insegnante, partecipare a discussioni. Tutte
queste attività hanno in comune il fatto che in
esse viene sempre usato il linguaggio come
canale di comunicazione e di apprendimento e
che lo studente è chiamato ad imparare usan-
P
10
do le sue capacità verbali e in funzione del suo
livello di possesso di tali capacità. Il ruolo di altri
canali non verbali, quali figure, schemi, tabelle,
grafici, è per lo più marginale e fortemente dipendente dal linguaggio.
Questa situazione non è cambiata di molto con
l’avvento delle nuove tecnologie digitali. Il linguaggio verbale, nonostante il ruolo centrale che gli è
stato assegnato tradizionalmente nell’ambito dei
processi formativi, ha considerevoli limiti dal punto di vista dell’apprendimento, e questi limiti sono
oggi particolarmente visibili in una società in cui
le immagini hanno conquistato un ruolo così centrale nella comunicazione. I limiti riguardano: il
piano motivazionale, dato che apprendere operando soltanto al livello delle parole può essere
spesso poco motivante; il piano delle precondizioni necessarie per l’apprendimento, dato che
apprendere attraverso il linguaggio presuppone
adeguate capacità linguistiche nello studente,
che possono mancare; il piano della comprensione dei contenuti formativi, dato che il linguaggio può portare ad apprendimenti superficiali,
appunto soltanto verbali ma privi di comprensione; il piano del ricordo e della integrazione di ciò
che si è appreso nelle conoscenze e nelle abilità
già esistenti nello studente.
Una multimodalità e una multimedialità complete, possibili grazie ai nuovi media digitali, non
solo possono consentire di apprendere anche
a persone che non hanno necessariamente una
grande familiarità con il linguaggio verbale, ma
soprattutto permettono a tutti gli studenti di
apprendere e di capire attraverso l’osservare e
l’agire, con risultati di comprensione e coinvolgimenti motivazionali spesso non ottenibili usando esclusivamente il canale del linguaggio verbale (Delogu e Parisi 2006). Si pensi anche a
quelle categorie di persone, quali alcuni disabili
cognitivi e soprattutto i sordi, o quelle fasce di
popolazione interessate dal cosiddetto digital
divide, che avrebbero un enorme giovamento
con questo nuovo modo di apprendere (Delogu et al., in stampa; Ranieri, in stampa).
La multimodalità e la multimedialità a cui mi riferisco devono prevedere, quindi, un alto livello di
interattività, a differenza dei “tradizionali” materiali
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
multimediali e multimodali utilizzati finora nell’elearning, che mostrano una interattività quasi inesistente. L’innovazione più importante introdotta
dai nuovi media digitali è costituita, infatti, dalle
possibilità di interazione con gli oggetti di apprendimento che questi media offrono. Mi riferisco in
particolare alle simulazioni e a videogiochi.
Le simulazioni sono laboratori sperimentali: seduto davanti al computer l’utente osserva i fenomeni simulati in condizioni che controlla, modifica
queste condizioni e osserva le conseguenze delle sue manipolazioni. Questo è esattamente quello che fa lo scienziato nel laboratorio dove conduce i suoi esperimenti. Solo che nel laboratorio
reale si possono fare esperimenti su un numero
molto limitato di fenomeni, mentre con le simulazioni si può sperimentare tutto (Parisi 2001).
Come le simulazioni, i videogiochi sono un ottimo esempio di applicazioni interattive (Aldrich
2005). Mi riferisco solo ai cosiddetti videogiochi
simulative, cioè a quei giochi basati sulla simulazione delle regole del mondo reale (Miglino e Di
Ferdinando in stampa). I videogiochi simulative
simulano gli ambienti, i personaggi e i processi
del mondo reale (o immaginario) e sono molto
simili alle simulazioni (si veda l’articolo di France-
sco Lutrario in questo stesso numero), con la differenza che qui l’utente oltre a sperimentare gioca, o meglio sperimenta per giocare. Come le
simulazioni, anche i videogiochi hanno forti potenzialità educative non solo sul piano motivazionale, ma soprattutto nell’acquisizione di particolari
competenze, come il pensiero logico, la capacità
di osservazione, lo sviluppo di rappresentazioni
spaziali, e di strategie per risolvere problemi
(diSessa 1998). Stanno nascendo interessanti
progetti che cercano di collegare l’industria dei
videogiochi con chi propone l’uso dei videogiochi per scopi educativi, come The Serious Games
Initiative (www.seriousgames.org) del Woodrow Wilson International Center e il The Education Arcade (www.educationarcade.org) nato da
una collaborazione tra il MIT e la University of
Wisconsin. Una buona rassegna su videogiochi
per l’apprendimento si trova in (de Aguilera and
Mèndiz 2003).
Apprendere attraverso le simulazioni e i videogiochi è un modo di apprendimento attivo e
esperienziale che ha più probabilità di produrre
buoni risultati in termini di motivazione, comprensione e capacità di ritenzione dei contenuti appresi, rispetto al modo di apprendimento
FIGURA 1. UNA SCHERMATA DEL SOFTWARE MULTIMEDIALE.
MARZO 2007
11
E-LEARNING MULTIMODALE
più passivo tipico della lettura di un libro, ma
anche di un corso di e-learning che utilizza più
canali di comunicazione ma in modo essenzialmente passivo. Il problema infatti non è quello
di avere più o meno canali comunicativi: la voce,
i testi le immagini, i filmati, ma riguarda il tipo di
esperienza che lo studente fa con questi diversi canali comunicativi. La differenza sta nel modo
in cui il corso è organizzato: in modalità solo
erogativo o con modalità esperienziale.
Nel progetto FIRB “Nuove tecnologie per la formazione permanente e reti nel sistema socioeconomico italiano”, finanziato dal MIUR, abbiamo studiato i possibili vantaggi per l’apprendimento che si ottengono con le simulazioni. In
particolare abbiamo svolto dei test per confrontare i risultati in termini di apprendimento ottenuti usando materiali didattici costruiti secondo
due modelli, quello erogativo e quello esperienziale. I risultati delle nostre indagini indicano che
il modello attivo esperienziale dà migliori risultati rispetto a quello più passivo e puramente erogativo (Delogu, Parisi, Nicolussi in stampa).
In un test abbiamo valutato l’apprendimento
ottenuto utilizzando un software multimediale e
una simulazione (da noi sviluppati), aventi in
entrambi i casi come oggetto i rischi di estinzione dell’aquila reale. Il software multimediale (Fig.
1) è un tipico sistema erogativo, il cui modello
di apprendimento è basato sul “vedere” (leggere i testi, guardare le figure o le animazioni) piuttosto che sul fare. Navigando tra le varie schermate, lo studente impara una serie di nozioni
sui rischi di estinzione dell’aquila reale. L’unico
tipo di interazione prevista è quella di muoversi
tra le varie schermate tramite un menu, di cliccare sulle immagini per ingrandirle, di cliccare
su un particolare pulsante per aprire una scheda di approfondimento testuale, di stampare gli
approfondimenti testuali, di premere il pulsante
“play” per avviare le animazioni.
La simulazione (Fig. 2) è invece un piccolo esempio di laboratorio virtuale il cui modello di apprendimento è basato sul vedere e sul fare. Lo studente osserva un territorio “ideale” in cui le aquile nascono, mangiano le prede, si riproducono e
muoiono, e dove le prede nascono, si riproducono e vengono mangiate dalle aquile. Nel territorio
ideale non ci sono rischi di estinzione, e la popolazione delle aquile e quella delle prede si mantengono stabili. Lo studente interagisce con la
FIGURA 2. UNA SCHERMATA DELLA SIMULAZIONE: IL TERRITORIO IDEALE.
12
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
simulazione, introducendo man mano vari disturbi nel territorio ideale, come la caccia e il bracconaggio, la costruzione di una strada, di un impianto eolico o di una centrale elettrica, la riforestazione, l’inquinamento, osservando gli effetti delle sue
azioni lungo cinquanta anni. Tutto quello che lo
studente impara, non lo impara leggendo testi e
vedendo figure, ma cambiando i parametri della
simulazione e osservando gli effetti di questi cambiamenti sull’ambiente in cui vivono le aquile e
quindi sulla popolazione delle aquile.
I risultati mostrano che gli studenti che hanno
utilizzato la simulazione hanno ottenuto un pun-
teggio migliore di quelli che hanno navigato il
software multimediale. Ripetendo il test dopo
una settimana, abbiamo osservato che gli studenti che hanno appreso attraverso una simulazione, e quindi tramite un modello di apprendimento esperienziale basato sul vedere e sul
fare, riescono a ricordare quello che hanno studiato meglio e più a lungo di quelli che hanno
appreso attraverso un software multimediale, e
quindi tramite un modello di apprendimento
basato solo sul vedere.
Cristina Delogu Fondazione Ugo Bordoni
La multimodalità
nell’intrattenimento
e nelle simulazioni digitali…
uomo, dopo aver superato la prima fase di evoluzione basata sulla costruzione di utensili più o meno semplici, ha cominciato a produrre macchine, congegni e, più
in generale, sistemi. Con tale termine siamo soliti indicare un insieme di elementi funzionalmente collegati tra loro per fornire un dato risultato
o valore. La natura è uno splendido campionario di sistemi fisici, biologici, biochimici da cui
l’uomo ha certamente tratto ispirazione. Un orologio è un sistema che come risultato produce
una convenzionale misura del tempo; un mulino sfrutta le forze della natura per macinare il
grano; una automobile produce capacità di moto come un aereo quella di volo.
Tali sistemi prevedono l’indirizzo e la partecipazione attiva dell’utilizzatore per raggiungere il
risultato previsto. Ogni sistema destinato ad
essere usato dall’uomo è completo, ovvero
assolve la sua funzione producendo il risultato
atteso, sempre e solo in relazione all’uomo stesso. In tal senso tutti i sistemi realizzati dall’uomo sono scomponibili in due sottosistemi principali: quello biologico, l’uomo, e quello “meccanico”: un’astronave, un impianto hi-fi, una
centrale nucleare, un gioco e così via.
L’
MARZO 2007
Ogni sistema, dotato di propri scopi e di una
logica interna di funzionamento, viene dotato di
“interfacce” che ne consentano l’uso previsto
anche da parte di utenti non esperti. Il termine
interfaccia è direttamente collegato alla comunicazione tra sistemi. Nel rapporto tra sistema
“biologico” e “meccanico” le esigenze dell’utilizzatore sono sempre sostanzialmente le stesse. Il “non esperto” necessita di mappe mentali
che lo aiutino a comprendere come interagire
con il sistema al fine di realizzare il risultato previsto. Il che si traduce nell’esigenza di sapere in
che stato si trova in ogni momento di utilizzo,
quali azioni è possibile compiere sul sistema e
quali effetti produrranno le azioni consentite. Si
tratta di rendere comprensibile la relazione tra i
due insiemi, tra azione del primo e reazione del
secondo. In alcuni casi le relazioni sono ovvie,
come nel caso di quelle basate su analogie spaziali, in altri dipendono da pratiche culturali, come
il colore di una spia, risultando chiare solo a condizione di conoscere tali convenzioni.
Interfacce
La progettazione di una interfaccia basata su di
un modello concettuale comprensibile, comple-
13
LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI
FIGURA 1. DONKEY KONGAS, PERIFERICA MUSICALE DA SUONARE CON LE MANI.
to e facilmente memorizzabile è quindi un problema vecchio come le prime macchine create dall’uomo. Tale problema è limitato a ciò che possiamo definire “interattivo”, e un sistema è tipicamente tale. Un programma televisivo, come pure
una proiezione cinematografica non sono interattivi, non necessitano di una interfaccia con cui
l’uomo può impartire comandi. Un apparecchio
televisivo, invece, reagisce ai nostri stimoli in quanto, ricevendo l’opportuno ordine, si accende, cambia canale, modifica i valori di luminosità e contrasto, la fonte di riproduzione, ecc. È interattivo
ed ha quindi bisogno di strumenti su cui agire.
La disciplina che studia questi processi di interazione è, al contrario di quanto ci si possa
immaginare, molto giovane. È denominata Interazione Uomo Macchina (Human Computer Interaction) e si occupa della progettazione delle
interfacce uomo-sistema o, più precisamente,
tra uomo e computer. Il suo scopo ultimo è rendere l’interazione efficace e usabile nei vari contesti d’uso. L’usabilità è il suo obiettivo principale in quanto se un sistema è tale non crea
condizioni di disagio e difficoltà all’utente.
L’ingegneria dei sistemi studia il funzionamento
di un sistema al variare delle condizioni ambientali, mentre la HCI deve valutare tutti quei fattori
che possono influenzare l’interazione tra uomo e
macchina. Sono coinvolti lo stato dell’individuo
(salute, cultura, ecc.) e molteplici fattori di contesto. Entrano in causa un gran numero di discipline: dalla psicologia alla semiotica, dalla linguistica all’information tecnology, dalle discipline del
14
design alla computer graphics.
Tutte queste discipline si confrontano sul terreno
dell’interazione uomo-macchina solo dopo l’avvento del computer. Questo perché il computer
è un sistema di tipo molto particolare che ha avuto una eccezionale diffusione anche come componente di altri sistemi.
La particolarità del computer sta nell’assenza di
un compito unico, specifico; non produce un valore definito e neanche radicalmente nuovo. Unico nel suo genere può comportarsi come, e
meglio, di altri sistemi e di altre macchine. Il computer è il primo esempio di macchina mutante.
È in grado di emulare, è un “imitatore delle altrui
virtù”. È in grado di “prendere qualcuno a modello cercando di eguagliarne e superare i suoi meriti e le sue virtù”. Un computer può fare calcoli
come una calcolatrice, scrivere come e meglio
di una macchina da scrivere, gestire basi dati,
permettere di comunicare come un telefono,
mostrare programmi tv e radiofonici, controllare
lavastoviglie, catene di montaggio, robot e infiniti altri sistemi. Inoltre può emulare se stesso, nel
senso di “imitare il comportamento di un elaboratore dalle caratteristiche diverse…”. Un computer, infine, può anche simulare le altre macchine e le relative condizioni di utilizzo, e può
anche simulare sistemi non prodotti dall’uomo.
Questi gioielli di modellazione possono essere
impiegati per la ricerca, l’addestramento, la formazione, l’informazione, la divulgazione e per il gioco. Si tratta della normale evoluzione del primo
modello costruito dall’uomo: la mappa. Sono il
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
frutto dell’ingegno di quelli che potremmo definire
“cartografi digitali”. Costruttori di mappe tridimensionali, multimediali e, soprattutto, multimodali.
Per ogni emulazione o simulazione, il computer
presenterà una diversa e specifica interfaccia.
Una combinazione tra hardware e sw deve
mediare tra i due sistemi consentendo uno scambio nelle due direzioni: input, ordini e richieste di
esecuzione, e output, le risposte del sistema.
Obiettivi ambiziosi
La presenza di diversi elementi di output va sotto il nome di multimedialità mentre la possibilità
di avere diverse opzioni di input definisce la multimodalità. Quest’ultima disciplina, nata come
branca dell’interazione uomo macchina, ha origini molto recenti e grandi prospettive di sviluppo e applicazione. Si pone obiettivi ambiziosi: dall’esigenza di consentire comandi connessi allo
specifico sistema che il computer sta rappresentando (si pensi ad un bisturi con cui simulare operazioni chirurgiche) fino alla sostituzione degli
attuali ordini formalizzati con comandi naturali.
L’obiettivo è quello di raggiungere la multimodalità tipica degli scambi tra uomini aggiungendo ai
sistemi tradizionali, mouse o tastiera, la gestualità, il linguaggio naturale, il movimento dello sguardo. I relativi vantaggi riguardano tanto specifiche
classi di individui, da quelli poco esperti ai disabili, quanto numerosissimi campi applicativi.
Il gioco, come attività umana, quello che gli anglosassoni definiscono “play”, è anch’esso un sistema. Lo definiamo incerto perché il suo risultato
dipenderà dalle azioni dei giocatori, senza i quali
non avrebbe alcun significato. Come gli altri è
composto da un sottosistema biologico, l’uomo,
e da uno meccanico, “il game”. Il cuore di un
“game” è la “meccanica di gioco”, un insieme di
FIGURA 2. GUITAR HERO, PERIFERICA MUSICALE CHE SIMULA UNA CHITARRA.
MARZO 2007
15
LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI
regole formali gestite da un supporto, un computer, e rivestite da una “ambientazione” che ha
l’obiettivo di creare l’illusione di un mondo separato e fittizio.
Qualunque gioco si basa su di un modello. Per
modello intendiamo la rappresentazione di idee
e conoscenze relative ad un fenomeno sul quale è possibile agire per verificare il risultato di tali
azioni. Ogni gioco ha poi un “obiettivo di vittoria”
con cui confrontarsi, a cui tendere.
Vengono definite “leve” le possibili azioni degli
utenti sul meccanismo di gioco e “regole del giocatore” le possibilità e le limitazioni all’uso di tali
leve da parte degli utilizzatori.
Queste leve hanno una sostanza, una forma e
una modalità. La sostanza riguarda le variabili
(indipendenti) definibili dall’utente nell’ambito del
modello mentre la forma fa riferimento alla specifica ambientazione del gioco, la loro mera apparenza. La modalità riguarda la concreta realizzazione delle leve attraverso il supporto e l’interfaccia, definisce i modi con cui l’utente può agire su
di esse. Uno stesso gioco, mettiamo gli scacchi,
ha sempre le medesime leve ma può renderle
disponibili in diversi modi, tramite diversi dispositivi di input. Possiamo muovere una torre con il
FIGURA 3. DANCEMATE, IL TAPPETO PER GIOCHI
DI BALLO ALLA DANCE REVOLUTION.
16
mouse, possiamo trascinarla grazie ad un dispositivo touch screen, possiamo indicare le nuove
coordinate con la tastiera o semplicemente dire
“muovi la torre in b8”.
Gioco e simulazione
Anche una simulazione si basa sull’interazione
con un modello. La differenza tra un gioco e una
simulazione si riduce a pochi ma sostanziali elementi. Un gioco può realizzarsi su di un modello
che rappresenti di un qualunque sistema, anche
fittizio. Una simulazione, invece, si basa su modelli
di sistemi reali o ipotetici ma non affronta i sistemi frutto della fantasia. Il suo scopo infatti è molto concreto e può essere circoscritto al campo
della ricerca (predizione), dell’addestramento e
della formazione. La simulazione è quindi un procedimento che consente di studiare il comportamento di un sistema basandosi sulla riproduzione dello stesso, e dell’ambiente in cui esso deve
operare, attraverso modelli, a prescindere che essi
siano meccanici, analogici, matematici o digitali.
In quanto attività fittizia, quello che avviene in un
gioco non si propaga nella realtà ma resta circoscritto al gioco stesso e perde di significato una
volta che il gioco ha termine. Una simulazione
invece, avendo uno scopo pratico, produce risultati che ricadono nella vita reale. Tramite un
modello lo scienziato elabora e verifica le proprie
teorie escludendo fattori non necessari o di disturbo. Con il modello di un acquedotto è possibile
verificare la sua funzionalità e progettarlo in dettaglio prima della realizzazione effettiva. Possiamo usare un modello per addestrare un pilota
senza che tale esperienza risulti pericolosa o
distruttiva. In tutti questi casi, un errore nella
costruzione del modello può causare gravi ripercussioni nel mondo reale. Se non fosse per questa sostanziale differenza potremmo affermare
che, in fondo, ogni gioco è una simulazione.
Questa differenza diventa cruciale nel momento
in cui si definiscono le leve di un gioco o di una
simulazione. Quelle di un modello usato a scopi
di simulazione saranno coerenti con il sistema rappresentato. In un gioco invece il progettista può
prevedere leve fittizie, può ingannare il giocatore
facendogli credere di avere più gradi di libertà e
decisione di quanti effettivamente possieda. Anche
l’informazione di ritorno in un gioco potrà essere
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
FIGURA 4. POWERGLOVE, VECCHIA PERIFERICA NINTENDO CON SENSORI DI POSIZIONE E PER IL MOVIMENTO DELLE DITA.
illusoria per convincere il giocatore che le azioni
intraprese hanno un effetto sul sistema. In un
modello destinato ad una simulazione tutto ciò
sarebbe scorretto e potenzialmente pericoloso.
È per la sua capacità di simulare ed emulare,
ovvero di gestire modelli interattivi, che il computer ha trovato un campo eccezionalmente fertile
nel settore dei giochi e delle simulazioni. Il computer e i modelli digitali costituiscono uno straordinario laboratorio virtuale nel quale osservare e
studiare fenomeni, attraverso cui fare esperienza e quindi addestrasi ai compiti più difficili e pericolosi o con cui semplicemente giocare. Spesso è possibile usare gli stessi modelli, si pensi ad
un simulatore di volo, tanto per gioco quanto per
effettuare una simulazione.
Potendo ricostruire, per mezzo di un modello,
qualunque sistema allo scopo di fare esperienza
nel campo del gioco o della simulazione, il tema
della multimodalità è di cruciale attualità. Ogni
potenziale esperienza, ogni sistema rappresentabile ha infatti una propria forma ideale di interazione e spesso ne richiede più d’una. Se volessimo sperimentare l’attività della scultura desidereremmo poter interagire con un modello di un
blocco di marmo tramite uno scalpello e le sensazioni tattili, piuttosto che tramite un mouse. Se
volessimo provare l’esperienza di addestrare un
cane o governare un gregge di pecore vorremmo poter definire i comandi tramite la voce o
MARZO 2007
emettendo un fischio. Per guidare una Ferrari vorremmo un volante e un cambio come quelli usati in formula uno, e così via.
Molti di tali sistemi multimodali esistono già. Basta
entrare in una moderna sala giochi. Una volta che
i pc e le consolle domestiche per videogiochi hanno raggiunto la qualità e le prestazioni di quelle
installate nelle sale pubbliche, i produttori di “cabinet” hanno cominciato ad investire nella produzione di sistemi di controllo che imitino al meglio
i dispositivi di input, e di output, rappresentati nel
gioco. Nuovi controlli che replicano al meglio una
motocicletta, un elicottero, un fucile, uno snowboard, una canna da pesca, ecc. Volanti e pedaliere, cloche e pistole a raggi infrarossi sono stati i primi di una lunga serie di dispositivi dedicati
ad uno specifico tipo di simulazione. Con le periferiche musicali come “donkey kongas” (Fig. 1)
e “guitar hero” (Fig. 2) il giocatore può suonare in
un complesso virtuale avendo tra le mani una
strumenti musicali del tutto realistici.
In una seconda fase sono apparsi dispositivi in
grado di supportare meccaniche ludiche diverse. Microfoni collegati al pc o alla consolle hanno consentito a migliaia di giocatori di urlare ordini al proprio esercito virtuale mentre, con lo stesso strumento, dialogavano con i compagni di gioco connessi via rete. Gli stessi microfoni hanno
permesso di effettuare performance canore. Più
recentemente sono apparse telecamere in gra-
17
LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI
do di riconoscere i movimenti del corpo affinché
il gesto di un braccio potesse, in modo molto più
realistico di quanto si potesse fare con un joystick, controllare una racchetta e altri attrezzi. Poi
il controllo di un sistema simulato è passato dalla mano all’intero corpo. Con la pedana “DanceMate” (Fig. 3) l’utente deve realmente ballare per
controllare il proprio avatar come in “Dance Dance Revolution”, ma può anche correre e saltare.
Altre strade sono state tentate, abbandonate e
poi riprese. Si chiamava “powerglove” (Fig. 4) la
vecchia periferica della Nintendo, leader in questo campo della ricerca, dotata di sensori di posizione e per il controllo del movimento delle dita.
Oggi questa opzione sembra superata da una
consolle, la nuovissima Wii, dotata di un controller, simile ad un telecomando, che si può impugnare come una spada o una racchetta. È questa l’ultima evoluzione del mercato vidoeludico.
Il controller della Wii (Fig. 5) è dotato di un giroscopio e un accelerometro e i limiti di utilizzo sono
solo nelle capacità dei game designer.
Le consolle portatili
Le consolle portatili non sono state da meno. Il
successo del NintendoDS (Fig. 6) è fortemente
connesso all’interazione di tipo “touch” e alla presenza di un microfono che permette interazioni
vocali. È possibile cuocere a puntino un piatto di
pasta soffiando sulla pentola per evitare che l’acqua fuoriesca esattamente come facciamo a
casa; possiamo addestrare un cucciolo perché
risponda ai nostri comandi vocali ed anche lanciargli una palla con velocità e traiettoria che
dipendono direttamente dal gesto che abbiamo
tracciato sullo schermo. In quest’ultimo campo
sono stati effettuati studi relativi alla possibilità di
interagire con un modello videoludico anche attraverso stimoli non volontari. La riflessione che ha
dato luogo a queste ricerche è collegata alle variazioni che un essere umano può produrre in un
sistema a causa del proprio stato psicofisico. Si
pensi alle condizioni psicologiche di un soldato
impegnato in battaglia, ad un pilota che tenta un
sorpasso disperato, ad un astronauta sotto l’ef-
FIGURA 5. WII CONTROLLER SI PUÒ IMPUGNARE COME UNA SPADA O UNA MAZZA DA GOLF; HA AL SUO INTERNO
UN GIROSCOPIO E UN ACCELEROMETRO.
18
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
fetto di una spinta ai limiti dell’umana sopportazione e ancora ad un innamorato che deve dichiararsi ma è preda di una forte emotività. Siamo soliti sperimentare queste situazioni nei giochi e nelle simulazioni senza pensare a come le emozioni
possano influire nelle nostre prestazioni. Siamo
abituati ad interagire in mondi virtuali attraverso
avatar che mostrano agli altri giocatori solo le emozioni che noi stessi vogliamo mostrare. Ma sappiamo bene che le cose non stanno così e che
se volessimo simulare appieno queste esperienze dovremmo tenere in conto anche di questi stati emotivi e del loro influsso sul nostro fisico, sugli
altri giocatori od anche sui sistemi con cui interagiamo. L’emozione fa brutti scherzi anche ai migliori sportivi, perché non dovrebbe influenzare le
nostre prestazioni?
Oggi esistono sistemi di monitoraggio dello stato fisico (battito cardiaco, pressione, sudorazione) estremamente precisi e a basso costo. Sono
largamente impiegati nel fitness. Immaginate un
sistema che comunichi tali variazioni al computer e un modello che possa tenerne conto variando le sue risposte anche in funzione di tali “azioni involontarie”. Il risultato sarebbe modificato in
funzione di tali parametri. Il soldato preso dal panico comincerebbe a vedere gli avversari in modo
meno definito, un innamorato tradirebbe le sue
insicurezze, uno sportivo nervoso perderebbe
qualità nel controllo della palla o nel governo della sua vettura. Le applicazioni potrebbero essere altre. Un paziente o un invalido potrebbero
richiedere un intervento del computer (richiesta
di soccorso, variazione delle condizioni ambientali come temperatura e illuminazione, ecc.) al solo
variare di alcuni parametri. A questi stessi obiettivi possono essere destinati i sistemi adattivi. Programmi basati su reti neurali e algoritmi genetici
in grado di imparare dall’interazione stessa con
l’utente per proporsi come interpreti realizzando
scorciatoie nel dialogo con le macchine.
L’interazione uomo-computer
Un altro settore delle ricerca che promette sviluppi interessanti riguarda le tecnologie che studiano il tracciamento come possibile evoluzione
nell’interazione uomo-computer, con particolare
riferimento ai dispositivi di input del genere “eyetracking” (tracciamento del movimento dell’occhio). Le performance sono migliori rispetto all’uso del tradizionale mouse sebbene siano ancora inefficienti per molti aspetti. La vera potenzialità sta nella possibilità, largamente verificata, di
inferire il grado di interesse dell’utente rispetto a
quanto osservato.
Tutti questi studi hanno confermato la necessità di
un approccio realmente multimodale che coinvol-
FIGURA 6. NINTENDODS, CONSOLLE PORTATILE INNOVATIVA CON INTERAZIONE TOUCH E MICROFONO.
MARZO 2007
19
LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI
ga cioè più di un canale perché questo è il modo
in cui l’uomo è naturalmente portato a comunicare. Oggi è possibile realizzare sistemi con cui interagire tramite i gesti (si pensi alla descritta consolle Wii e alle telecamere che tracciano i movimenti
del corpo), i muscoli (sistemi touch e misuratori di
pressione), lo sguardo (eye tracking), le emozioni
(misurabili tramite fattori biomedici) e la parola (riconoscimento e uso del linguaggio naturale). Possiamo affidare al sistema stesso il compito di capire
quale sia il dispositivo di input preferito dall’utente
o il più adatto al contesto d’uso.
Il recente successo di alcune consolle rispetto ad
altre dimostra che più numerosi sono i sistemi di
input coinvolti maggiore è la gamma e la qualità
dei prodotti realizzabili. Le scelte dei consumatori dimostrano che l’attenzione si sta spostando
dalle prestazioni, che spesso si traducono in maggiori capacità di elaborazione e output multimediale, alle potenzialità multimodali, alla varietà e
flessibilità dei dispositivi di controllo.
Quanto detto vale per le consolle di gioco ma
anche per computer con funzioni più o meno dedi-
cate. Si pensi ai terminali di telefonia mobile, alle
set top box per la tv, ai lettori musicali e multimediali, ai totem. Tutti dispositivi che assolvono contemporaneamente diverse funzioni. In tal senso
la multimodalità è fortemente correlata al processo di miniaturizzazione in atto dei device e alla loro
multidisciplinarità. Un telefono, come pure un
decoder televisivo, non è più solo tale. Deve prestarsi ad altre funzioni che richiedono interattività
e quindi controller di piccole dimensioni e adatti
allo scopo. Il telecomando della TV diventa joystick, il telefono mobile si trasforma in consolle
videoludica, in player musicale, in telecamera.
Ognuno di essi è di fatto un computer. I progettisti stanno progressivamente inserendo diversi
dispositivi di input in grado di sostituire gli ingombranti joystick, le tastiere e altri apparati che presto considereremo oggetti di modernariato.
Francesco Lutrario Vice direttore
generale Infobyte S.p.A.
Docente di Game Design
Università degli Studi di Milano
L’avvento del multimodale:
la voce fa la sua comparsa
sul web e sulle applicazioni
er troppo tempo siamo stati abituati a riferirci, come ad universi separati, alle applicazioni web, a quelle vocali e all’utilizzo dei sensori. In questo breve articolo vedremo come sia possibile costruire applicazioni in
grado di ricevere ed inviare informazioni attraverso molteplici modalità: ovvero le applicazioni multimodali. Partiremo dal significato di multimodalità fino arrivare ad alcuni esempi di applicazioni presenti sul mercato.
Se cerchiamo il termine “multimodalità” o “multimodale” sull’ormai omni-comprensivo dizionario online di Wikipedia, ci accorgiamo che
il termine non esiste tra quelli presenti all’interno del dizionario in lingua italiana
(http://it.wikipedia.org/wiki/Speciale:
P
20
Ricerca?search=multimodale&go=Vai), quindi rifacciamoci alla definizione inglese
(http://en.wikipedia.org/wiki/Multimodal):
Multimodal interaction provides the user with
multiple modes of interfacing with a system
beyond the traditional keyboard and mouse
input/output. The most common such interface combines a visual modality (e.g. a display,
keyboard, and mouse) with a voice modality
(speech recognition for input, speech synthesis and recorded audio for output). However
other modalities, such as pen-based input or
haptic input/output, may be used. Multimodal
user interfaces are a research area in humancomputer interaction.
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
Per completarne il significato, associandolo a quello dell’utilizzo di internet, portiamoci sulla pagina
del gruppo di lavoro del W3C che si occupa di sviluppare il framework multimodale ed i linguaggi ad
esso associate: il Multimodal Interaction Working
Group (http://www.w3.org/2002/mmi/).
Alla prima riga troviamo:
쩦 Extending the Web to support multiple mo-
des of interaction.
Possiamo, quindi concludere che la multimodalità è l’impiego contemporaneo di più interfacce utente che facciano uso di diversi dispositivi (monitor e tastiera, microfono e voce, penna ottica ecc.) per ricevere ed inviare informazioni all’utente, con particolare enfasi sull’utilizzo della voce in associazione con interfacce
utenti di tipo grafico.
I componenti
di un’applicazione multimodale
All’interno della pagina del Multimodal Interaction
Working Group (http://www.w3.org/2002/mmi/)
non troviamo soltanto una descrizione sommaria delle attività svolte da questo innovativo gruppo di lavoro del W3C, ma abbiamo la possibilità di osservare da vicino quale sia lo stato dell’arte dello sviluppo di un framework multimodale e dei linguaggi a supporto di questa nuova interazione tra utente e web, o per essere
più precisi tra utenti e PC, in quanto, come vedremo negli esempi di seguito riportati, l’approccio multimodale è particolarmente indicato per
una vasta gamma di dispositivi. Per capire meglio cosa effettivamente sia un’applicazione multimodale partiamo da un esempio pratico.
Ci troviamo all’interno di un software di gestione posta con la sua interfaccia grafica, a questo punto possiamo:
A. cliccare su “nuovo messaggio” per aprire il
form di inserimento di una nuova mail attraverso la modalità classica utilizzando le icone poste sulla GUI (Graphic User Interface), oppure
se la nostra applicazione fosse gestita tramite
una voice mail (un software utilizzabile attraverso un telefono/microfono in grado di ricevere
input vocali):
MARZO 2007
B. dire al nostro microfono “nuovo messaggio”
e utilizzare i comandi vocali disponibili attraverso la VUI (Voice User Interface) e seguire le istruzioni per dettare una mail al sistema.
Attraverso un approccio di tipo multimodale le
nostre possibilità si amplierebbero ulteriormente in quanto potremmo utilizzare l’opzione A,
l’opzione B oppure l’insieme delle due:
C. cliccare su “nuovo messaggio” con il mouse
(GUI) e dettare il nome del destinatario (VUI);
D. dire “nuovo messaggio” (VUI), dettare il cognome (VUI), scrivere il testo della mail con la
nostra penna ottica;
E. ecc.
Questo breve esempio spiega quali siano le potenzialità di questo approccio, e ci permette di
esaminare due diversi utilizzi della multimodalità:
쩦 supplementare, ovvero basata sull’utilizzo indipendente di modalità differenti per eseguire
una determinata operazione;
쩦 complementare, dove l’utente può utilizzare
diverse modalità contemporaneamente.
Dopo averne esaminate le caratteristiche vediamo come funzionano. Un ottimo esempio ci viene offerto dallo schema seguente che riassume
quali siano i componenti fondamentali di un’applicazione multimodale.
Innanzitutto, partendo dalla parte alta dello schema, troviamo le due interfacce utente (VUI e GUI)
le quali dovranno essere scritte tenendo conto delle diverse esigenze delle tecnologie utilizzate. Due
candidati per lo sviluppo di queste interfacce possono essere XHTML per la GUI e VoiceXML per
la VUI se ci troviamo in ambiente web, altrimenti
si possono usare JAVA, C++, C#, VB.NET, ecc.
Sotto questo primo strato di presentazione dei
dati troviamo la parte applicativa che a sua volta è suddivisa in diversi moduli:
쩦 (Interaction manager) Ricevere gli input dalle
interfacce;
쩦 (Modality manager) Invocare i motori necessari al riconoscimento tramite delle API. Per la
interpretazione della voce viene utilizzato il modulo ASR (Automatic Speech Recognition), per
la generazione di un audio a partire da un testo si utilizza il TTS (Text to speech) e, qualora si vogliano introdurre anche controlli di si-
21
L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI
curezza biometrica legata alla voce dell’utente la Speaker Verification (indicata come SV
nello schema);
쩦 (State Machine Multimodale) Gestire i diversi input delle interfacce per capire quale sia il significato dell’azione intrapresa dall’utente;
쩦 (interaction Manager) Restituire su entrambe le
interfacce il risultato dell’operazione dell’utente.
Torniamo al nostro esempio, dove l’utente seduto davanti al suo pc provvisto di microfono,
dice al proprio programma di posta “nuovo messaggio”. Questa azione scatena un evento che
verrà raccolto dall’Interaction manager e trasportato fino al motore di riconoscimento vocale (ASR) che restituirà alla State Machine Multimodale il comando “new_message”.
Questo comando invoca l’apertura sulla GUI di una
nuova finestra per la composizione del messaggio,
e sulla VUI l’esecuzione di un prompt (una frase sintetizzata) del tipo “Inizio nuovo messaggio”.
Fino a qui, è piuttosto facile capire per la macchina a stati quali operazione invocare e quali
debbano essere le modalità da utilizzare, ovviamente il tutto si complica nel momento in cui
l’utente clicca su “nuovo messaggio” e contemporaneamente dice “Apri rubrica”.
Realizzare la nostra prima
applicazione multimodale
Qualora volessimo realizzare le nostre applicazioni è meglio pensare di utilizzare un framework
già pronto e concentrarci sui linguaggi e gli strumenti utilizzabili. Ad oggi, limitatamente alle applicazioni fruibili via web, vi sono principalmente due diverse possibilità:
쩦 X+V
쩦 SALT
Entrambi questi linguaggi permettono di espandere le possibilità di una normale pagina Web,
incorporando riconoscimento vocale e sintesi
vocale per sviluppare pagine multimodali o con
output vocali. Il primo è un linguaggio sviluppato e supportato da IBM. Dove la lettera “X” indica la componente grafica (XHTML) e la lette-
FIGURA 1. COMPONENTI FONDAMENTALI DI UN’APPLICAZIONE MULTIMODALE.
22
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
ra “V” la componente vocale in VoiceXML: un linguaggio di marcatura che ormai si è imposto come standard nello sviluppo delle applicazioni vocali ed utilizza logiche di presentazione basata
sul dialogo tra macchina ed utente.
L’esecuzione di un evento di riconoscimento vocale (tipicamente un form VoiceXML) viene richiamato da un evento sull’interfaccia grafica, ad esempio
portando il mouse sulla casella di testo utilizzata comunemente per l’inserimento del dato. Le applicazioni scritte in X+V possono (visualizzabili con il browser OPERA) hanno le seguenti caratteristiche:
쩦 Basato su HTML.
쩦 Integrabile con le tecnologie Web standard:
HTML, XHTML, cHTML, WML ed estendibile
ad altri linguaggi.
쩦 Riutilizzo degli standard: Voce: VoiceXML,
SRGS, SSML, EMMA.
쩦 La sincronizzazione avviene utilizzando XML
Events e l’elemento xv:sync in X+V 1.1.
Per informazioni più dettagliate su questo linguaggio si consiglia di visitare il sito dell’IBM all’indirizzo http://www-3.ibm.com/software/
pervasive/multimodal/
L’alternativa ad X+V viene offerta da Microsoft e
dal suo SALT (Speech Application Language
Tags), che può essere visualizzato tramite Internet Explorer (è necessario scaricare un apposito plug-in dal sito della Microsoft).
Le sue caratteristiche sono:
쩦 Integrabile con le tecnologie Web standard:
HTML, XHTML, cHTML, WML…
쩦 Riutilizzo degli standard: Voce: SRGS, SSML,
EMMA, CCXML, ECMA: CSTA.
쩦 Può funzionare in modo sia dichiarativo sia
basato su eventi e script.
쩦 Modello di esecuzione standard del Web:
DOM, eventi e linguaggi di scripting.
쩦 Minore integrazione con VoiceXML, non sup-
porta strategie di dialogo avanzate (come ad
esempio la mixed initiative).
La struttura del linguaggio è similare a quella di
XHTML, ma ampliata attraverso l’introduzione di
un nuovo set di elementi per la gestione degli input e degli output vocali.
Per maggiori informazioni su questo linguaggio
consigliamo di consultare il sito ufficiale dello SALT
Forum all’URL http://www.saltforum.org.
Dal codice alla realtà
Dopo questo brevissimo excursus sui linguaggi di
programmazione utilizzabili per la realizzazione delle nostre pagine multimodali, vediamo ora qualche
applicazione disponibile sul mercato. Molte delle
applicazioni presenti si basano sull’utilizzo del SIP
(Session Initiation Protocol) che, senza troppo addentrarci in tecnicismi è un protocollo “simile” all’http con una struttura client-server, in grado di gestire l’invio di voce e dati sullo stesso canale. L’utilizzo di SIP permette di creare applicazione multimodale per dispostivi mobili quali cellulari, palmari
o altri dispositivi connessi alla rete UMTS. Alcune
di queste soluzioni sono presenti sul sito di Nuance: (http://www.nuance.com/xmode/demo/).
Una delle aziende che per prime hanno presentato
sul mercato internazionale i loro prodotti multimediali è sicuramente Kirusa (http://www.kirusa.com/).
Sul sito, oltre ad alcuni documenti sulle tecno-
PER APPROFONDIMENTI
Il sito del W3C sui linguaggi multimodali: http://www.w3.org/TR/multimodal-reqs
Il sito dell’IBM dedicato all’X+V: http://www.voicexml.org/specs/multimodal/x+v/12/
I riferimenti del linguaggio SALT: http://www.saltforum.org/
Opera: il browser multimodale: http://www.opera.com/
Il sito con le specifiche del protocollo SIP supportato dall’International Engineering Task Force (IETF)
http://www.ietf.org/html.charters/sip-charter.html
I browser multimodali secondo IBM:
http://www.w3.org/2002/mmi/2002/MM-Arch-Maes-20010820.pdf
Il sito di V-Enabled con alcuni soluzioni multimodali: http://www.v-enable.com/
X-Mode, la multimodalità secondo Nuance: http://www.nuance.com/xmode/
MARZO 2007
23
L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI
logie proposte, è possibile visualizzare una demo di un portale multimodale sullo sport
(http://www.kirusa.com/demo3.htm).
L’irlandese Voxpilot (www.voxpilot.com) propone un’interazione audio/video basata sul protocollo SIP che permette di navigare sul proprio
cellulare portali di natura diversa (televisioni private, cinema, sports, ecc.) ricevendo informazioni vocali e visive: testo, menu in sovraimpressione, filmati oppure immagini.
Per provare direttamente qualche esempio sul nostro pc, esclusivamente per coloro che hanno
Opera installato, basta accedere all’indirizzo:
http://www.voicexml.org/Review/Mar2006/
features/multimodal_opera.html dove sono
raccolti una ventina di esempi multimodali perfettamente funzionanti.
Altre informazioni, e video di servizi funzionanti, sono visibili sul sito dell’IBM dedicato all’X+V
(http://www-306.ibm.com/software/pervasive/
multimodal/) oppure direttamente nella sezione
demo (http://www-306.ibm.com/software/
pervasive/multimodal/demos.shtml).
Sul mercato italiano tra le aziende attive è da citare Loquendo (http://www.loquendo.com)
l’azienda italiana leader di mercato delle tecnologie vocali che all’attivo ha diversi progetti
nazionali ed internazionali. Sempre nel panorama italiano, a costo di apparire un po’ autoreferenziante, citiamo l’azienda DotVocal
(http://www.dotvocal.com) che ha realizzato
un set di librerie denominato MultiModal Berry
per permettere la verticalizzazione di applicazioni standard in applicazioni multimodali in grado
di accettare comandi vocali.
Oltre la realtà
E per finire diamo uno sguardo alle soluzioni futuribili proposte da alcune aziende nel campo
della multimodalità.Il punto di partenza è il doveroso Dream Space di IBM (http://www. research.ibm.com/natural/dreamspace/) dove viene mostrato come l’interattività possa essere estesa ad oggetti virtuali tridimensionali che vengono manipolati direttamente con il “tocco” (ammirando i filmati all’interno della pagina a qualcuno verrà sicuramente in mente il film “Paycheck”).
Altrettanto futuristici i lavori di alcuni istituti tra cui:
HitLab (http://www.hitl.washington.edu/
projects/multimodal/) ed il Department of
Computer Science and Engineering della Helsinki University of Technology.
(http://www.cis.hut.fi/research/multimodal/).
Fabrizio Gramuglio DotVocal
Tecnologie vocali
e multimodalità: soluzioni
per servizi avanzati
ggi le principali tecnologie vocali, la sintesi da testo (TTS - Text To Speech) ed
il riconoscimento della voce (ASR - Automatic Speech Recognition), stanno avendo
una nuova grande opportunità: l’emergere della multimodalità. Le interfacce multimodali, infatti, combinano, in modo trasparente per l’utente,
modalità di interazione diverse, siano esse la voce, immagini o filmati, gesture (termine, quest’ultimo, usato per indicare segni tracciati con una
penna o uno stylus su palmari o touch screen,
O
24
per indicare e per tracciare linee o zone su una
mappa), permettendo all’utilizzatore di interagire in modo innovativo ed intuitivo con i terminali, anche con quelli di piccole dimensioni.
I comandi vocali, insieme alla scrittura su tastiera
(tastierino per i cellulari) oppure la penna/stylus,
posso fornire dati in input; viceversa l’output può
combinare la voce sintetizzata con testi, grafica e
filmati. In futuro potranno essere sfruttate altre
modalità, quali le interfacce tattili (per esempio tramite guanti o sensori a contatto con il corpo).
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
Le applicazioni multimodali possono diventare
soluzioni abilitanti per l’adozione massiva di servizi a valore aggiunto. Per questo motivo, è interessante indagare quali sono le caratteristiche
più utili ed efficaci delle interfacce multimodali.
È evidente che le dimensioni ridotte dei terminali mobili, così come l’introduzione di funzionalità
sempre più complesse, pongano problemi di usabilità, soprattutto per le fasce di popolazione meno
avvezze all’utilizzo della tecnologia. La multimodalità può essere una soluzione, grazie alla possibilità di creare servizi che, benché complessi,
presentino interfacce semplici e flessibili. Un miglioramento dell’usabilità può realmente fare la differenza e consentire l’estensione di servizi innovativi ad una popolazione più ampia di quella attuale e soggetta ad un progressivo invecchiamento.
Deborah Dahl, coordinatore del gruppo W3C
Multimodal Interaction, afferma che la crescita
di interesse commerciale verso il multimodale
deriva da tre fattori concomitanti: la già menzionata difficoltà d’uso dei terminali mobili, i sensibili miglioramenti prestazionali delle tecnologie
vocali, e l’ampliamento dell’infrastruttura Web
che permette lo sviluppo e la diffusione di applicazioni complesse.
Tuttavia, benché la ricerca sulla multimodalità
sia in campo da anni, le tecnologie multimodali
non hanno ancora raggiunto una maturità sufficiente da consentirne un uso diffuso.
Loquendo, società del gruppo Telecom Italia
attiva nel mercato mondiale delle tecnologie
vocali, è coinvolta in progetti di ricerca e sviluppo sul multimodale da diversi anni. Questo coinvolgimento è maturato anche dalla partecipazione in ambiti di normativa (quali il W3C) e attraverso la cooperazione con altri centri di ricerca
e aziende leader del settore.
Servizi di nuova generazione
Le interfacce multimodali possono essere applicate in ambiti e contesti diversi. Tra di essi ve
ne sono alcuni in cui sono già attivi servizi pilota, a cui partecipa anche Loquendo, ed altri che
sembrano essere promettenti.
Un primo esempio è offerto dalle applicazioni
per persone diversamente abili. Le tecnologie
assistive rappresentano un segmento significativo del mercato vocale e potenzialmente anche
MARZO 2007
per il multimodale. Questo settore include, ad
oggi, prodotti per ipovedenti e per non vedenti
che permettono il controllo completo dei terminali e l’accesso senza mediazioni a informazioni scritte. L’integrazione della voce con altre
modalità rappresenta una possibile evoluzione
verso interfacce più personalizzabili.
Sono poi numerose le circostanze in cui gli utilizzatori hanno mani ed occhi impegnati, quali
la guida di un veicolo o ambienti lavorativi particolari. Anche l’interazione uomo-macchina in
questi ambiti può essere facilitata dall’introduzione delle tecnologie vocali e multimodali, e
certamente le azioni legislative sull’uso dei telefoni cellulari in auto possono favorirne la diffusione. Applicazioni possibili possono essere i
comandi vocali per controllare funzioni e apparecchiature a bordo veicolo, oppure l’interazione con un navigatore.
Negli ambienti lavorativi, applicazioni di voice
picking e reportistica su palmari industriali, che
integrano la voce con altre modalità, permettono un notevole incremento di efficienza.
I servizi di localizzazione in generale rappresentano un’altra area di potenziale sviluppo, per l’accesso a mappe, pagine gialle, informazioni turistiche localizzate tramite GPS, non solo in auto.
Vale la pena di citare anche l’applicazione della
multimodalità nelle banche, ad esempio per i bancomat, dove l’aggiunta della voce rappresenta un
ausilio soprattutto per anziani e ipovedenti.
Dal punto di vista di un operatore telefonico, i
servizi che possono trarre vantaggio da interfacce multimodali sono la lettura e la scrittura
di SMS e MMS, l’interazione con la posta elettronica, l’Instant Messaging, la chat.
Altri settori di interesse sono i call center, l’e-commerce e l’home-banking, senza dimenticare l’impiego di interfacce multimodali per l’intrattenimento, come i giochi su computer o su cellulare.
Anche la domotica può diventare un settore fertile di applicazioni multimodali per interagire,
anche da remoto, con apparecchiature elettroniche o utilizzare il televisore tramite set-top-box
per l’accesso al Web.
Infine, il Software Educativo può beneficiare della multimodalità impiegata, ad esempio, per facilitare l’apprendimento delle lingue straniere
mediante l’uso congiunto delle tecnologie vocali
e di strumenti multimediali.
25
TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI
Tecnologie vocali e standard
Passeremo brevemente in rassegna gli sviluppi
recenti delle tecnologie vocali, mettendo in luce il
ruolo rilevante che gli ambienti di normativa internazionali stanno giocando in questo settore.
Recenti sviluppi delle tecnologie vocali
Il crescente interesse verso l’uso della voce sia
per applicazioni tradizionali solo vocali, sia per
future interfacce multimodali è spinto dalla maturità raggiunta dalle tecnologie vocali stesse. Il
costante incremento del potere computazionale
dei computer e la maggiore memoria a disposizione si sono rivelati fattori abilitanti e hanno permesso l’utilizzo di algoritmi sempre più complessi. Loquendo ha una lunga esperienza in questo
campo acquisita in più di 30 anni di ricerca maturata in CSELT (laboratorio di ricerca di Telecom
Italia) e confluita nel 2001 nell’azienda stessa.
Queste sono, ad oggi, le principali aree di impiego delle tecnologie vocali per applicazioni vocali
e multimodali:
1. ASR: Automatic Speech Recognition,
Riconoscimento della voce
Le prestazioni dei software di riconoscimento oggi
sono molto elevate e possono raggiungere percentuali di corretto riconoscimento dell’ordine del
95%-98% (anche se questi risultati valgono principalmente in ambiti specifici modellati da grammatiche dipendenti dall’applicazione). Queste prestazioni hanno permesso l’impiego delle tecnologie vocali in ambiti diversificati quali i call center, i
centralini aziendali, le pagine bianche o gialle, l’accesso ad informazioni, i portali vocali, ecc. I miglioramenti degli algoritmi di riduzione del rumore permettono applicazioni vocali in ambienti rumorosi,
quali le automobili, la casa o gli ambienti pubblici
in genere, anche se ulteriori progressi sono auspicabili. Un altro sfidante campo di applicazione è
la comprensione del parlato conversazionale e
spontaneo, spesso indicato con il termine di Linguaggio Naturale (Natural Language), che permetterebbe lo sviluppo di interfacce vocali ancora più efficaci in grado di colloquiare in modo
estensivo. Anche se le prestazioni possono migliorare, ciò nonostante sono già nate le prime applicazioni, ad esempio per l’accesso a orari ferroviari o dei voli aerei (come “FS Informa” realizzato da Loquendo per Trenitalia). Al fine di migliora-
26
re le prestazioni della tecnologia in questo ambito è nato il progetto LUNA, co-finanziato dalla
Commissione Europea nell’ambito del sesto programma quadro, area IST, che coinvolge otto
realtà tra le più avanzate a livello europeo, e di cui
Loquendo è coordinatore.
Ora la nuova sfida è l’integrazione dell’input
vocale con modalità diverse.
2. TTS: Text-To-Speech, Sintesi da testo
Già negli anni 1990 il TTS otteneva dei risultati di
intelligibilità molto elevati, ma la voce sintetica era
ancora percepita come poco naturale, robotica, e
usata raramente in applicazioni vocali preferendo
la concatenazione di messaggi preregistrati. Un
grande passo si è avuto a metà degli anni ’90,
quando è avvenuta la transizione ad una tecnologia
di sintesi basata su database di grandi dimensioni
statisticamente bilanciati sulla lingua. Loquendo è
stata una delle prime aziende a realizzare un
prodotto con questa nuova tecnologia di sintesi,
detta tecnicamente Unit Selection. Il pregio di
questa nuova generazione di TTS è la generazione
di una voce sintetica molto naturale e che trova
anche nelle interfacce multimodali, talvolta in
combinazione con avatar, un ambito di applicazione
importante, così come nell’ambito dell’accessibilità.
3. Biometriche vocali
Le tecnologie biometriche sono volte ad
aumentare la sicurezza verso applicazioni e dati
riservati. Quest’area comprende applicazioni
diverse: la verifica e l’identificazione del parlatore.
La prima permette di verificare se un utente
dichiarato è veritiero o un impostore, per accedere
ad esempio ad un conto bancario. Si parla,
invece, di identificazione quando una persona
viene individuata all’interno di un gruppo di
parlatori, per esempio per accedere alla casella
postale dei componenti di una famiglia. Tutto ciò
è possibile perché la voce contiene delle
caratteristiche uniche che permettono di
distinguere il parlatore e che possono essere
utilizzate come marche vocali.
Attività di standardizzazione legate
alla Voce e al Multimodale
Il World Wide Web Consortium (W3C) è uno
dei principali enti di standardizzazione per gli
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
ambiti della voce e della multimodalità, nonché
del Web in generale. Esistono due gruppi, a cui
partecipano oltre 30 organizzazioni, e Loquendo è un membro attivo in entrambi.
1. Voice Browser Working Group
(www.w3.org/voice)
Creato nel 1998, sta completando una prima
suite di specifiche legate al vocale e recentemente ha iniziato a lavorare verso una seconda
generazione di linguaggi:
쩦 Per le Applicazioni Vocali, il linguaggio più
noto è il VoiceXML 2.0 (W3C Recommendation
da marzo 2004). Con il VoiceXML non solo lo sviluppo di applicazioni è semplificato, ma soprattutto viene realizzato su architettura Web. La nascita del VoiceXML ha spinto la creazione di piattaforme basate su di esso e di ambienti di sviluppo e soluzioni in hosting per servizi vocali.
쩦 ASR: la specifica di riferimento è Speech Recognition Grammar Specification (SRGS) anch’essa W3C Recommendation da marzo 2004,
largamente adottata da prodotti di ASR disponibili sul mercato (es. Loquendo ASR). Le grammatiche SRGS possono essere descritte in due
formati omologhi: il primo basato su XML, il secondo più compatto in formato testuale ABNF.
Recentemente è in fase finale di standardizzazione una seconda specifica, Semantic Interpretation for Speech Recognition (SISR), che
completa SRGS nella parte di formattazione e
validazione dei risultati di riconoscimento ed utilizza il linguaggio ECMAScript (dovrebbe diventare W3C Recommendation nel corso del 2007).
쩦 TTS: la specifica di riferimento è Speech
Synthesis Markup Language Specification
(SSML) che permette il controllo di un TTS tramite un linguaggio XML. È largamente adottato dai produttori di TTS (es. Loquendo TTS) e
recentemente è iniziata un’intensa attività in W3C
per favorirne l’utilizzo su lingue molto diverse
dall’inglese (es. lingue asiatiche: Cinese Mandarino, Coreano, Giapponese, lingue indiane,
lingue semitiche, ecc.); le nuove evoluzioni convergeranno nella versione SSML 1.1.
쩦 Call Control: la specifica Voice Browser Call
Control (CCXML) descrive un linguaggio XML basato su eventi per gestire il call control, i trasferimenti di chiamata o le audioconferenze. Questo
linguaggio, benché ancora in fase di standardiz-
MARZO 2007
zazione, può generare una rivoluzione nel mondo
degli IVR forse pari alla nascita del VoiceXML.
2. Multimodal Interaction Working Group
(www.w3.org/2002/mmi)
Fu fondato nel 2002 con l’obiettivo di creare una
cornice per lo sviluppo di applicazioni multimodali integrate nel contesto Web. Un notevole sforzo è stato dedicato a raccogliere Use Case e a
definire il Multimodal Interaction Framework. Recentemente il lavoro si è indirizzato verso la definizione di un’architettura multimodale.
Alcune altre specifiche in via di sviluppo in ambito multimodale sono: Extensible Multimodal Annotation (EMMA), linguaggio volto ad annotare in
XML risultati di riconoscimento, ma anche di altre modalità, quali la scrittura o il gesture; una seconda specifica è inkML, un formato XML per
dati catturati da penna o stylus di interesse dei
produttori di terminali. EMMA potrebbe avere un
ruolo importante per standardizzare l’accesso a
server di tecnologie vocali tramite il protocollo
Media Resource Control Protocol (MRCP versione 2), in via di definizione da parte di IETF.
In ambito vocale e multimodale sono poi attivi
due forum industriali:
1. VoiceXML Forum (www.voicexml.org):
fondato da AT&T, Lucent, IBM e Motorola,
inventore del VoiceXML 1.0 nel 1999, sottoposto
poi al W3C per la sua standardizzazione e risultato
nel VoiceXML 2.0. Il VoiceXML Forum è molto attivo
nel promuovere education, in attività di marketing
e nella creazione tramite due programmi di
certificazione, per sviluppatori VoiceXML e per
piattaforme che supportano VoiceXML 2.0 (a fine
2006, erano certificate 19 piattaforme). È
importante ricordare che la VoiceXML Review è la
migliore rivista dedicata a VoiceXML e tecnologie
collegate. Il Forum ha recentemente sponsorizzato
anche il linguaggio multimodale XHTML+VoiceXML,
detto X+V, proposto da IBM, Motorola e Opera.
2. SALT Forum (www.saltforum.org): fondato
da Microsoft, Comverse, Cisco, Philips,
ScanSoft e Intel, nel 2001 ha proposto il
linguaggio Speech Application Language Tag
(SALT), che consiste in un’aggiunta di alcuni
elementi a HTML/XHTML, WML, o SMIL, per
farli interoperare con la voce.
27
TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI
Tipi di device ed aspetti architetturali
È evidente che la multimodalità sia molto efficace su terminali piccoli, ma il suo campo di utilizzo è più ampio e potrebbe rivelarsi utile anche
su personal computer e tablet PC. Nei capitoli
successivi verranno illustrate le tre categorie in
cui è possibile raggruppare i terminali, ossia le
tipologia dette “thin”, “medium” e “thick” (Fig.
1); per ognuna di esse verranno descritti alcuni aspetti architetturali peculiari.
Thin device
Gli Smart Phone e i cellulari sono detti Thin device, vale a dire terminali leggeri, perché portabili
ed usabili in ogni luogo coperto dalla rete mobile. Si tratta dei terminali più promettenti, ma allo
stesso tempo più difficili da gestire per gli sviluppatori di applicazioni multimodali. Infatti, le
restrizioni in termini di potenza di calcolo, di
memoria e di capacità di connessione dati sono
ancora rilevanti. Le prime applicazioni sono semplici, quali servizi per scaricare suonerie o sfondi per cellulare, dove la selezione avviene tramite il riconoscimento vocale. Altre applicazioni
più sfidanti sono le Pagine Gialle multimodali
con visualizzazione di mappe e informazioni turistiche. In questo tipo di interfacce multimodali
la voce viene attivata tramite Push-To-Talk (PTT)
e viene utilizzata principalmente per la selezio-
ne di elementi appartenenti a liste molto lunghe,
mentre le conferme possono avvenire agevolmente tramite i tasti del terminale.
L’evoluzione di più potenti terminali mobili e della rete UMTS ridurrà di molto le limitazioni attuali
e porterà a breve alla nascita di servizi multimodali di seconda generazione.
L’architettura di riferimento può essere serverbased, in cui la logica di servizio e le tecnologie
vocali risiedono interamente su server (Fig. 2). Un
esempio di applicazione multimodale di questo
tipo è il servizio offerto dalla banca spagnola
Bankinter, per il quale Kirusa ha fornito l’applicazione, integrando nella propria piattaforma multimodale le tecnologie di Loquendo. I servizi sono
di home-banking e di brokerage telefonico.
Un’altra possibile architettura è client-server
con il riconoscimento vocale distribuito (DSR –
Distributed Speech Recognition): sul server
risiedono la logica di servizio e i componenti più
onerosi computazionalmente (Fig. 3), l’ASR è
distribuito tra il client, residente sul terminale, e
il server stesso, mentre il TTS a tendere potrà
essere disponibile sul client.
In questa architettura la parte del riconoscitore
che risiede sul terminale (Front-End) estrae i parametri (prima fase di signal processing di un ASR)
e li trasmette tramite un canale dati verso il server. Il gruppo di lavoro ETSI-DSR Aurora ha stan-
FIGURA 1. LE TRE CALSSI DI DEVICE.
Thin devices
Medium devices
MOBILE
PHONE
TABLET PC
SMARTPHONE
KLOSK
HOME
Thick devices
DESKTOP PC
PDA
AUTOMOTIVE
LAPTOP PC
28
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
Server side
Thin devices
TTS
HTTP
WEB APPLICATION
BROWSER
TERMINAL DRS
FRONT-END
DSR PROTOCOL
WIRELESS DATA
CHANNEL
SERVER
DRS
BACK-END
RECOGNITION
DECODER
DPEECH
SERVER
Voice extraction
MELCEPSTRUM
COMPRESSION
SPLIT VQ
ERROR DETECTION
E MITIGATION
ERROR
PROTECTION
DECOMPRESSION
FIGURA 2. ARCHITETTURA SERVER-BASED SU THIN DEVICE.
dardizzato il Front-End e definito un protocollo di
trasmissione basato su RTP. Il Front-End di ETSI
DSR Aurora era stato definito per comprimere il
segnale vocale per reti a bassa banda fino a 4.8
kbps ed allo stesso tempo aumentare l’accuratezza dell’ASR rendendo la comunicazione digitale robusta ai degradi tipici della rete mobile. Con
le nuove reti mobili le limitazioni di banda non
sono più particolarmente rilevanti, ma la compressione favorisce comunque un’ottimizzazione nell’utilizzo della banda disponibile che, soprattutto in caso di applicazioni multimodali, viene utilizzata anche dal canale visuale.
Medium device
Una seconda categoria di terminali è costituita
da PDA e Tablet PC, spesso definiti Medium device. In questi terminali le dimensioni non sono particolarmente limitate, ma sono presenti modalità
alternative, come lo stylus o una piccola tastiera, che possono creare ostacoli nell’usabilità.
In questo gruppo sono possibili delle architetture
client-based: TTS e ASR possono essere installati sul terminale, riducendo il numero di richieste
verso il server ed anche la necessità di trasmissione della voce (Fig. 4). Anche le architetture descritte in precedenza sono possibili, soprattutto se le
applicazioni vocali sono molto complesse e richiedono grammatiche di grandi dimensioni. Sono già
disponibili browser che permettono l’integrazione
della voce per realizzare applicazioni multimodali sia tramite il linguaggio SALT sia mediante X+V.
Queste soluzioni possono trarre vantaggio da
connessioni veloci basate su Wi-Fi, le applicazioni possibili sono quelle realizzabili in-door in aziende (per esempio logistiche), oppure ospedali, università, ma anche in casa o in aree urbane attrezzate, aeroporti, stazioni. Anche le applicazioni per
l’uso in auto appartengono a questa categoria.
Infine, possono ricadere in questo gruppo i chioschi posizionati in luoghi pubblici, dove deve essere favorito l’accesso per tutti. Un primo esempio
prototipale di applicazione multimodale in questo ambito è il MATCHKiosk creato da AT&T e
disponibile in alcune città statunitensi. La sua
FIGURA 3. ARCHITETTURA CLIENT-SERVER CON DSR AURORA.
Thin devices
Server side
HTTP
WEB APPLICATION
BROWSER
SPEECH SERVER
VOICE SS PROTOCOL
MARZO 2007
29
TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI
Medium devices
Server side
TTS
HTTP
BROWSER
WEB APPLICATION
ASR
FIGURA 4. ARCHITETTURA CON TECNOLOGIE VOCALI EMBEDDED (CLIENT-BASED).
interfaccia è un touch-screen che supporta anche
l’utilizzo della penna come input e fornisce informazioni turistiche integrando la voce sintetica con
un operatore virtuale visibile sullo schermo.
Thick device
Esiste un’ultima categoria di terminali rappresentata dai PC (desktop o laptop), qui indicati
A C R O N I M I
ABNF
AP
ASR
CCXML
DSR
EMMA
ETSI
Augmented Backus-Naur Form
Application Programming Interface
Automatic Speech Recognition
Call Control Markup Language
Distributed Speech Recognition
Extensible MultiModal Annotation
European Telecommunications
Standards Institute
GPS
Global Positioning System
HTML Hypertext Markup Language
IETF
Internet Engineering Task Force
IST
Information Society Technologies
MMS
Multimedia Messaging Service
MRCP Media Resource Control Protocol
PDA
Personal Digital Assistant
PTT
Push To Talk
SALT
Speech Application Language Tags
SAPI
Speech API
SISR
Semantic Interpretation for Speech Recognition
SMIL
Synchronized Multimedia Integration Language
SMS
Short Message Service
SRGS Speech Recognition Grammar Specification
SSML Speech Synthesis Markup Language
TTS
Text To Speech
Wi-Fi
Wireless Fidelity
WML
Wap Markup Language
W3C
World Wide Web Consortium
XHTML Extensible Hypertext Markup Language
XML
Extensible Markup Language
X+V
XHTML+VoiceXML
30
come Thick device. In questo caso la dimensione dello schermo e della tastiera non rappresentano una limitazione; le tecnologie vocali possono essere installate direttamente sul PC e, nel
caso di ambiente Microsoft, integrate facilmente mediante interfaccia SAPI.
In questo contesto le tecnologie vocali e la multimodalità possono arricchire giochi o integrare avatar in applicazioni Web. La voce, inoltre, può essere utilizzata come tecnologia biometrica per garantire o limitare l’accesso a risorse o dati sensibili.
Infine, le tecnologie vocali, soprattutto se integrate con altre modalità, potrebbero ricoprire
un ruolo fondamentale nel favorire l’accessibilità per persone diversamente abili.
Conclusioni
La multimodalità è la nuova frontiera dell’interazione uomo-macchina del terzo millennio. Essa
rappresenta una significativa opportunità per gli
operatori di telecomunicazioni di incrementare i
propri ricavi attraverso la differenziazione dell’offerta e la spinta all’uso intensivo della rete.
Sebbene debbano ancora essere superate
numerose barriere tecnologiche, tuttavia l’ostacolo maggiore resta l’utente: il dialogo con una
macchina è ancora considerato innaturale e spesso, come ad esempio negli ambienti affollati, pone
problemi di privacy. Il punto chiave su cui focalizzarsi è l’accettabilità della tecnologia, e ciò potrà
accadere solo se i fornitori tecnologici sapranno
rendere le interfacce personalizzabili, assicurando la libertà di scegliere come e quando privilegiare alcune modalità rispetto alle altre; sarà altresì necessario riuscire a far percepire i vantaggi
agli utilizzatori, ma per questo occorrono applicazioni e servizi in grado di sfruttare al meglio le
potenzialità della multimodalità.
Paolo Baggia, Silvia Mosso Loquendo
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
La resocontazione multimodale
esigenza della “resocontazione”, cioè la
pubblicazione (su carta o su qualsiasi altro medium) del testo di quanto viene detto da un oratore, può considerarsi connessa alla
stessa comunicazione del pensiero. Il valore del
discorso si accresce e si rinnova con la sua diffusione, raggiungendo categorie di utenti più ampie e diverse. A questa attività si dedicava Tirone,
che ci ha tramandato le brillanti arringhe di Cicerone; ricordiamo anche i reports del Parlamento
inglese pubblicati sulla stampa londinese che consentivano di conoscere i discorsi parlamentari.
Malgrado gli enormi progressi tecnici, l’esigenza
di “rendere conto” (compte rendu in francese)
appare oggi più vera che mai, poiché è legata al
diritto alle informazioni che caratterizza le società
di democrazia avanzata e industrializzate.
Storicamente per la redazione dei resoconti parlamentari e giornalistici è stata utilizzata la stenografia. L’origine di questa tecnica è collegata alla sfida dell’uomo di fissare velocemente e
fedelmente il discorso. In passato non esisteva
altro mezzo idoneo a fissare il parlato con la
stessa completezza e celerità dei metodi abbreviativi, che furono impiegati in ogni parte del
mondo. L’identificazione fra stenografia e resocontazione si è perpetuata fino ai giorni nostri
ed è per questa antica “esclusiva” che ancora
oggi nelle Assemblee elettive di molti paesi coloro che provvedono alla redazione del resoconto sono qualificati “stenografi”.
Contemporaneamente alla invenzione della macchina per scrivere (o forse anche prima), sul finire del XIX secolo, furono brevettate le prime
macchine stenotipiche; ricordiamo il sistema
fonografico di Antonio Michela Zucco in Italia,
la macchina Stenograph negli Stati Uniti e la
Grand Jean in Francia.
La stenotipia conserva i caratteri peculiari della
stenografia: il metodo abbreviativo, dal quale si
ricavano le “sigle”, e l’investigazione dei tratti
salienti del linguaggio al fine di rappresentarlo
in segni (per esempio, l’approccio fonetico). Tuttavia introduce alcuni elementi innovativi che più
tardi si riveleranno decisivi e discriminanti, consentendo una trattazione più flessibile ed efficace del parlato. Si considerino, in proposito, le
L’
MARZO 2007
lungimiranti intuizioni di Antonio Michela, il quale nell’atto di privativa industriale del suo apparecchio fonografico ne sottolineava le prospettive di utilizzo “per la riproduzione di un discorso per mezzo dell’elettricità” e “per utilizzare la
recente e portentosa invenzione del telefono”
(E. Angeloni e P. Michela Zucco, Il sistema stenografico Michela, Colombo, Roma 1984, pag.
VIII). La rivoluzione informatica che si verificherà
cento anni dopo quelle scoperte realizzerà il
sogno di Michela: l’utilizzo della stenotipia nella sottotitolazione in tempo reale per i non udenti costituisce l’attuale punto di arrivo!
Il riconoscimento del parlato
Più recentemente, il perfezionamento del riconoscimento automatico del parlato ha ampliato il novero dei mezzi a disposizione. Il resocontista non ha più bisogno di una abilità “costruita”, come era nel caso della stenografia e della
stenotipia, che richiedevano un lungo processo formativo; si serve della sua abilità naturale,
ascolta e ripete con la voce le parole pronunciate dall’oratore, che vengono riconosciute e
trasformate in testo scritto da un apposito
software. Anche il riconoscimento vocale, oggi
largamente usato per la redazione dei resoconti parlamentari e giudiziari, conserva le caratteristiche tipiche delle scritture veloci.
Lo studio e l’addestramento all’uso razionale della tastiera del computer danno nuovo smalto ed
efficacia anche alla dattilografia, impiegata in passato solo per copiare manoscritti: essa si aggiunge agli altri svariati metodi di ripresa del parlato.
L’affermarsi di tecniche e tecnologie che (anche)
per la loro adattabilità informatica si discostano
da quelle stenografiche mette in crisi l’identificazione storica fra resocontazione e stenografia e rimuove il pregiudizio che solo lo stenografo
manuale o lo stenotipista possano svolgere la
funzione del resocontista.
La resocontazione oggi
Oggi si considera meno rilevante lo strumento utilizzato per riprendere e trascrivere un discorso.
31
LA RESOCONTAZIONE MULTIMODALE
Convivono tecniche e tecnologie diverse e ugualmente efficaci. Per esempio, la Camera dei deputati ha abbandonato la stenografia ed è passata
all’impiego del riconoscimento del parlato e della
registrazione per la redazione dei resoconti stenografici, mentre in Senato un nuovo programma
consente di sfruttare informaticamente la stenotipia Michela. Il Parlamento tedesco, che in occasione del trasferimento a Berlino avrebbe potuto
riconsiderare l’organizzazione del lavoro di resocontazione, ha invece confermato l’impiego della
stenografia manuale, mentre la House of Commons inglese si affida a gruppi di dattilografi che
trascrivono le registrazioni digitali delle sedute. Tecniche e organizzazioni del lavoro analoghe sono
utilizzate anche in Austria, in Svizzera, in Francia.
L’esclusività dello strumento stenografico era
stata messa in discussione già in precedenza
dall’avvento della registrazione. Essa ha offerto
all’uomo la possibilità di dare eternità alle sue
parole, al tono e all’enfasi del discorso, in modo
completo, fedele, esaustivo. Più tardi la registrazione digitale ha aggiunto ulteriore ricchezza:
non solo la riproduzione delle parole, ma anche
una trasformazione in “dati” che ammette quei
suoni alla archiviazione, alla ricerca, alla trasmissione, all’accesso a distanza.
Sono state sviluppate sofisticate tecniche di “trascrizione automatica” dei discorsi che sfruttano
le tecnologie del riconoscimento del parlato. Questi programmi basati sulle ricerche nel campo del
Trattamento automatico del linguaggio, offrono
possibilità che erano impensate solo pochi anni
fa: il computer trascrive automaticamente quanto dice l’oratore, con livelli di riconoscimento assai
soddisfacenti. Inoltre, in base all’individuazione di
parole chiave o frasi può classificare il discorso o
la trasmissione (per esempio un servizio giornalistico televisivo), può sintetizzare, può tradurre in
una o più lingue straniere eccetera.
Si domanda a cosa serva uno stenografo se c’è
il registratore? È più difficile immaginare che l’attività del “resocontista” sia assorbita dalla trascrizione automatica; l’aiuto che offre la registrazione digitale comunque è evidente.
L’utilità della stenografia
Se è vero che il registratore è il migliore stenografo (lo sanno bene i resocontisti), la
32
domanda sull’utilità dello stenografo nell’era
della registrazione digitale riflette la perdurante confusione fra ripesa del parlato e trattamento della comunicazione, ignorando il
valore cruciale di quella che chiamiamo resocontazione. Che non consiste semplicemente nella riproduzione delle parole pronunciate, ma è una attività complessa di trattamento intellettuale e linguistico della manifestazione del pensiero (grammaticale, sintattico,
estetico eccetera), con il fine di renderla pubblica per destinatari e con modi diversi. In
questo consiste l’apporto più difficile, più prezioso del resocontista.
Ma la trattazione di un evento di comunicazione non si limita all’intervento intellettuale. C’è il
problema della forma, del modo, del mezzo con
cui si raggiunge l’utente (quale utente? Quali
esigenze?). Si tratta di individuare la maniera più
efficace per fornire un’informazione completa,
mirata, tempestiva.
Si può parlare allora di resoconto multimediale o
multimodale. Abbandonato l’abito stretto della
stenografia, la resocontazione utilizza mezzi diversi (multimediale) e si concretizza in vari prodotti o
modi di accesso alle informazioni (multimodale).
Oggi si conviene sul fatto che:
쩦 il testo scritto non è l’unica forma di accesso
alle informazioni.
쩦 la trascrizione da sola non facilita la comprensione dei concetti espressi.
쩦 la trascrizione di un discorso è solo il punto
di partenza della resocontazione.
쩦 gli utenti dell’informazione non sono uguali e utilizzano diversi media per accedere a un evento.
쩦 gli strumenti della comunicazione sono molteplici e non alternativi, essi concorrono alla diffusione delle informazioni e della conoscenza.
La maggiore consapevolezza dei vantaggi di
una trattazione approfondita e organica della
comunicazione favorisce la domanda di servizi qualificati. Il cliente che commissiona la trascrizione di un convegno sarebbe sorpreso se
ricevesse la semplice scrittura di quanto detto
dagli oratori, vuole un testo di qualità, leggibile, chiaro, scorrevole. Una trascrizione pura e
semplice ha un valore del tutto trascurabile rispetto a un resoconto leggibile, logico, com-
I quaderni di
CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE
FIGURA 1. IL SENATO DELL’ANTICA ROMA NELL’AFFRESCO DI CESARE MACCARI
pleto, corretto nei riferimenti, nelle informazioni che vi compaiono.
Per comprendere il valore del resoconto dobbiamo cogliere di cosa c’è dietro la trascrizione
del testo: il “metaresoconto” è l’efficacia informativa che assume il discorso con la pubblicazione (su carta, su Internet, su uno schermo
televisivo).
Esempi di resocontazione multimodale
L’immissione in una banca dati di una serie di
verbali (per esempio quelli delle udienze penali) produce un archivio dove si può ricercare,
estrapolare, incrociare le informazioni a fini molteplici. In ambito giudiziario si va diffondendo
anche il cosiddetto “fascicolo elettronico del processo”: la trascrizione dei dibattimenti si unisce
alla documentazione del procedimento, alle registrazioni audio/video delle udienze, alle foto dei
reperti o alla scansione di documenti cartacei,
in un CD-Rom all’interno del quale si può navigare agevolmente alla ricerca degli elementi di
maggiore interesse.
Consideriamo i siti Internet della Camera e del
Senato dove l’utente può trovare l’audio e il
video delle sedute in corso o di quelle passate.
MARZO 2007
Un tempo lo stenografo si limitava a redigere il
testo degli interventi, il resoconto stenografico.
Oggi le forme di pubblicità dei lavori parlamentari sono più complesse e complete, vengono
corredate da un mezzo comunicativo formidabile, le immagini, ed è possibile ricercare determinate parole, frasi, oratori e così via. È una
modalità di accesso del tutto nuova: non solo
perché è più piacevole e coinvolgente, ma perché realizza un prodotto (digitale) che può essere utilizzato in molteplici varianti. Ad esempio,
può essere fruito senza intermediazioni da chiunque in casa propria grazie ala crescente diffusione delle connessioni veloci. Inoltre, si tratta
di dati che possono essere archiviati e gestiti in
modo flessibile.
Il resoconto sommario, cioè la sintesi dei concetti e delle decisioni principali di una riunione,
aggiunge ai discorsi degli oratori il pregio dell’agilità e dell’efficacia informativa. Per redigere
un resoconto sommario sono necessarie competenze professionali specifiche e un approfondimento accurato delle materie trattate, per
cogliere il significato essenziale, il fine degli interventi.
La sottotitolazione di una lezione universitaria o
delle relazioni in un convegno, oltre alla trascri-
33
LA RESOCONTAZIONE MULTIMODALE
FIGURA 2. FIGURA 2. LA MACCHINA STENOGRAFICA MICHELA.
zione di quanto esposto, consente l’accesso
del non udente a informazioni che altrimenti gli
sarebbero precluse.
La sincronizzazione dell’audio o di un video
con il testo del suo contenuto, rappresenta
un’eccezionale strumento per ricercare nel file
multimediale il punto in cui sono state pronunciate determinate parole o ha iniziato a parlare un oratore.
Una ricaduta positiva la resocontazione multimediale e multimodale la determina anche sulle prospettive professionali. La “liberazione” dal
mezzo utilizzato (stenografia, stenotipia, riconoscimento del parlato) e la rinnovata aderenza al
34
valore intellettuale del prodotto consentono al
resocontista di rilanciare la propria attività, in un
epoca e in una società in cui l’accesso alle informazioni costituisce una chiave essenziale della
conoscenza.
In questa prospettiva, quella della resocontazione appare una multimedialità “evolutiva”, connotata da una accentuata flessibilità, da una elevata innovazione tecnologica, dall’economicità
del prodotto, da un’efficacia realmente misurabile in termini di quantità e qualità.
Fausto Ramondelli
Senato della Repubblica
I quaderni di