I quaderni di - Gamification Lab Sapienza
Transcript
I quaderni di - Gamification Lab Sapienza
I quaderni di A cura di Alberto Mucci Cresce la multimodalità nella comunicazione La multimodalità sta crescendo, strumenti diversi oggi per comunicare, nel contesto di una comunicazione si coniuga audio, video e testo. che progressivamente si amplia e allarga Si delinea la possibilità di aggiungere i propri orizzonti. Ma prima di fare agli strumenti citati il tatto e l’odorato il punto, con questo “Quaderno”, (le sperimentazioni si stanno sviluppando). su cosa è cambiato e su cosa Il telefono per anni è stato solo voce. sta cambiando in questo settore, Adesso è allo stesso tempo voce, è bene chiarire alcuni concetti base. immagine, testo (Sms). Nelle trasmissioni Primo: la comunicazione “in presenza”, televisive si dialogava fino a ieri solo cioè faccia a faccia è stata, via audio. Oggi si utilizzano nello stesso ed è, sempre multimodale perché tempo Internet e “messaggini”… ha abbracciato tutti i canali con cui Altri esempi, letti in prospettiva. Nelle aule si può comunicare (la parola, i gesti, giudiziarie l’utilizzo di testi scritti viene le immagini, il tatto, gli odori). sempre più integrato con l’audio-video. Secondo: la comunicazione a distanza Nei giochi si arriva ad introdurre (di luogo e di tempo) è nata unimodale, la sensazione tattile. Il “naso artificiale” perché basata solo sulla scrittura. per utilizzare l’olfatto è dietro l’angolo… Gli stessi mezzi di comunicazione Le frontiere della comunicazione moderna (telegrafo, telefono, ecc.) non sembrano avere limiti. sono stati inizialmente unimodali. La civiltà è cominciata con il disegno, Solo con l’avvento prima del cinema con i ben noti disegni rupestri, primo poi della televisione si attua una vera mezzo di comunicazione a distanza. e propria rivoluzione: si comunica Il fuoco sulla cima di un monte è stato contemporaneamente in più modi, sostituito da altri mezzi sempre più utilizzando diversi strumenti. sofisticati e innovativi. Il lento procedere Parte da qui, da questa nuova frontiera, è diventato una corsa, imposta dai ritmi la multimodalità, che sta prendendo che condizionano la società crescente spazio operativo in questi anni. della comunicazione. Si utilizzano contemporaneamente Supplemento al numero 244 di marzo 2007 di Indice ?? Con la multimodalità si moltiplicano le informazioni e-Learning multimodale La multimodalità nell’intrattenimento e nelle simulazioni digitali L’avvento del multimodale: la voce fa la sua comparsa sul web e sulle applicazioni Tecnologie vocali e multimodalità: soluzioni per servizi avanzati La resocontazione multimodale Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni (Presidente il Prof. Giordano Bruno Guerri, Direttore Generale il Consigliere Guido Salerno Aletta, Direttore delle Ricerche l’ing. Mario Frullone). Coordinatore del Quaderno: Andrea Paoloni. Hanno collaborato: Cristina Delogu, Fondazione Ugo Bordoni; Francesco Lutrario, Infobyte, Università degli Studi di Milano; Fabrizio Gramuglio, DotVocal; Paolo Baggia, Silvia Mosso, Loquendo; Fausto Ramondelli, Senato della Repubblica. SONO USCITI NEL 2005/2006: OTTOBRE 2005 NOVEMBRE 2005 2005/GENNAIO 2006 FEBBRAIO 2006 D-cinema dalla pellicola al file MARZO 2006 Il “punto” sulla firma digitale in Italia APRILE 2006 La casa digitale apre nuove porte MAGGIO 2006 Politica industriale e terrorismo: l’importanza dell’“intelligence” GIUGNO 2006 LUGLIO/AGOSTO 2006 SETTEMBRE 2006 OTTOBRE 2006 NOVEMBRE 2006 2006/GENNAIO 2007 FEBBRAIO 2007 La sfida sicurezza nella società dell’informazione L’attività spaziale italiana ha molti punti di eccellenza Le sfide 2006 della Tecnologia della lingua DICEMBRE Tv, dati e telefono si fondono sempre di più La TV ad Alta Definizione sul trampolino di lancio Accesso radio: wimax in “pole position” E ora siamo nell’epoca del “TUTTOFONINO” Il digitale offre al cinema nuovi spazi di diffusione La domanda di comunicazione chiede di aggiornare Internet Modelli di business per le tv locali DICEMBRE CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE Con la multimodalità si moltiplicano le informazioni omunicare significa trasmettere informazioni, notizie da un luogo ad un altro, da una persona ad un’altra persona, da un tempo ad un altro tempo. Un processo di comunicazione implica l’emissione e ricezione di segni che vengono prodotti da variazioni di energia di qualsiasi genere. Il primo tipo di comunicazione è stato certamente la comunicazione in presenza, faccia a faccia. Questo “modo” di comunicare fa uso di diversi canali che corrispondono ai nostri sensi. L’organismo umano dispone di due sistemi di emittenza, quello motorio e quello fonatorio e tre sistemi di ricezione, il sistema uditivo, quello visivo e quello tattile. Nella comunicazione oltre alla voce ha grande rilievo l’immagine, non solo per comprendere la situazione in cui le informazioni vocali si inseriscono, ma anche per valutare la reazione emotiva che la persona con la quale comunichiamo lascia affiorare nell’espressione del suo viso e nell’atteggiamento del suo corpo. Anche gli odori svolgono un ruolo comunicativo importante, nonostante la limitata sensibilità dell’uomo alle stimolazioni di questa natura. Infine il tatto fornisce ulteriori informazioni utili. Per meglio comprendere come queste diverse modalità interagiscano tra loro, può essere utile l’esempio dell’acquisto di un auto: il venditore ci parla, informandoci sul prezzo e sulle prestazioni della vettura (voce), noi la osserviamo, ne valutiamo l’aspetto, siamo affascinati dal disegno e dai colori (immagini), tocchiamo la sua tappezzeria (tatto) e ne sentiamo il profumo (olfatto). Che il profumo sia importante nell’insieme delle informazioni lo dimostra il fatto che i venditori di auto usate curano che la pelle dei sedili sia spruzzata di particolari “deodoranti” che diano alla vettura il “profumo di auto nuova”. Lo sviluppo di un linguaggio richiede il dominio del tempo e dello spazio, nel senso che si deve ricordare l’informazione ricevuta e si deve trasmetterla a distanza. L’uomo è in grado di ricordare e può muoversi per portare il mes- C MARZO 2007 saggio in un altro luogo. Il messaggero, figura mitica del tempo antico, svolgeva proprio il ruolo di portare in luoghi distanti il messaggio che aveva memorizzato. La scrittura è stata la prima invenzione che ha risolto il problema di rendere duraturo il messaggio; con l’invenzione della scrittura il messaggero non doveva più memorizzare il messaggio con le esatte parole dell’emittente, era sufficiente che trasportasse il testo che gli era stato affidato. In un successivo paragrafo si approfondirà lo studio di questa modalità comunicativa, ora ritorniamo alla storia della comunicazione a distanza, ricordando alcuni ingegnosi sistemi utilizzati nell’antichità. I Cartaginesi usavano il telegrafo idraulico, che consisteva in due vasi cilindrici uguali (uno trasmittente ed uno ricevente) posizionati su due torri. I vasi erano riempiti d’acqua; al centro galleggiava un’asta verticale sulla quale erano tracciati segni convenzionali (Fig. 1). Quando si doveva comunicare, si apriva un foro praticato alla base del vaso; si svuotava o si pompava acqua facendo emergere l’asta fino al punto desiderato. Le segnalazioni di inizio e fine trasmissione si facevano con sventolio di bandiere o fiaccole. I romani utilizzavano una rete di fuochi sulle torri durante la notte, che permetteva a Giulio Cesare di comunicare con la capitale dal più remoto accampamento nelle Gallie. Questi sistemi avevano l’inconveniente di richiedere che due successive stazioni fossero tra loro visibili e questo ne limitava la distanza e l’affidabilità. Bastava una fitta pioggia o un banco di nebbia ad interrompere il collegamento. Questi sistemi di comunicazione a distanza rimasero le sostanzialmente invariati per migliaia di anni: il messaggio camminava sulle gambe di un uomo ed aveva la sua stessa velocità. Nel 1800 si aprì un secolo durante il quale la comunicazione ebbe una importante rivoluzione: nel 1838 il telegrafo riuscì a risolvere anche il secondo problema, quello dello spazio, scollegando la velocità della notizia dalla velocità 3 CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI utilizzava un solo modo comunicativo: il telegrafo la scrittura, il telefono e la radio la voce. Solo nel ventesimo secolo, con l’avvento e la diffusione del cinema (1892) e della televisione (1925), le immagini si affiancarono alla voce e la comunicazione divenne multimodale. La scrittura FIGURA 1. TELEGRAFO AD ACQUA. dell’uomo. Nel 1871 l’invenzione del telefono, ad opera dell’italiano Meucci, permise ad un altro modo comunicativo, la voce, di superare la barriera della distanza. Questi due media, ai quali nel 1896 si affiancò la radio, resero il mondo più piccolo e riportarono l’oralità al centro della comunicazione. Tuttavia ciascun medium TABELLA 1. STORIA DELLE COMUNICAZIONI. Cronologia dei sistemi di comunicazione PITTOGRAMMA SCRITTURA 4 30.000 A.C. 3.000 A.C. STAMPA 1456 D.C. TELEGRAFO 1832 D.C. MACCHINA PER SCRIVERE 1868 D.C. TELEFONO 1871 D.C. CINEMATOGRAFO 1892 D.C. RADIO 1895 D.C. TELEVISIONE 1925 D.C. CALCOLATORE (ENIAC) 1946 D.C. MOUSE 1968 D.C. MACINTOSH 1984 D.C. CELLULARE 1990 D.C. Tra i modi di comunicare a distanza di luogo e di tempo la scrittura è certamente il più antico e forse quello di maggior rilievo. Per molti millenni le informazioni viaggiarono solamente in forma di messaggi di testo, corredati al più con qualche disegno (immagine). A voler essere più precisi vi è da dire che, secondo coloro che studiano l’origine della scrittura, è proprio l’immagine, o per meglio dire i disegni rupestri di epoca neandertaliana (20.000 a.C.) il primo mezzo di comunicazione a distanza conosciuto dall’uomo e la sua grande efficacia è provata dal fatto che il messaggio in esso contenuto è arrivato sino a noi. Successiva ai pittogrammi è la scrittura ideografica, cosi detta perché basata sulla rappresentazione stilizzata di concetti, non legati ad un particolare suono. La scrittura nacque intorno all’anno 3000 a.C. e provocò importanti mutamenti nel modo di pensare degli uomini. Il passaggio dalla cultura orale a quella scritta ha costituito un discrimine importante per molteplici ragioni. La scrittura non è, né può essere, una mera registrazione su un supporto (medium) di quello che avremmo detto. La scrittura prevede una riorganizzazione del pensiero, è un modo diverso di esprimersi. Con la scrittura venne meno la necessità dei poemi in rima, che costituivano e costituiscono il bagaglio culturale delle società basate sull’oralità. Il medium usato dalla scrittura è stato prevalentemente la carta, assimilando ad essa sia il papiro, una sorta di carta naturale, sia la pergamena, ricavata da pelli animali, l’altro medium utilizzato da sempre è la pietra. I due media hanno in genere funzioni diverse, la carta destinata a comunicazioni interindividuali, la pietra a comunicazioni pubbliche per celebrare eventi fausti, quali la vittoria sui nemici (si pensi alla stessa stele di Rosetta o alla colonna Traiana, o ai riti funebri. I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE L’evento, successivo all’invenzione della scrittura, che ha mutato profondamente il modo di comunicare è l’invenzione della stampa. In tempi molto più recenti due nuove invenzioni si sono segnalate per l’impatto che hanno avuto sulla società: l’avvento della macchine per scrivere (1875), del computer (1948) come medium di scrittura e il messaggio SMS. L’uso degli SMS, gli ormai noti “messaggini”, ha codificato una nuova modalità di comunicare che, come è ben noto, fa uso del medium “telefono”. Senza voler entrare in dettagli diremo che gli SMS hanno creato un particolare linguaggio anche grazie all’uso di un particolare sistema di scrittura assistita, denominato T9, volto a facilitare la scrittura di una frase minimizzando il numero di digitazioni necessarie. 2) e bobine di nastro magnetico e come uscita le stampanti ad aghi. Questa tipologia di sistemi di entrata e uscita durò sino agli anni ottanta quando fecero il loro ingresso i monitor, sorta di televisori alfanumerici dotati di tastiera del tutto analoga a quella della macchina per scrivere. Nel 1984 nacque il PC Macintosh (vedi figura 3) dotato di interfaccia grafica e orientato all’uso dell’interazione “tattile”, il mouse. L’immagine è anche entrata in quel sistema monomodale per eccellenza che è sempre sta- FIGURA 2. SCHEDE PERFORATE. L’immagine L’immagine ha rappresentato per millenni un modo per ricordare persone ed eventi ed ha avuto un ruolo molto importante nelle religioni per rappresentare allegoricamente le immagini degli dei. L’importanza delle immagini nei riti è attestata dal fatto che sulla rappresentabilità o meno del sacro (iconoclasia) avvenne uno scisma. Le immagini in passato non svolgevano propriamente un compito comunicativo ma piuttosto un compito espressivo, artistico. Le rappresentazioni pittoriche hanno un ruolo nella memorizzazione di eventi e personaggi: la maggior parte delle informazioni che abbiamo sull’aspetto fisico dei grandi uomini del passato lo dobbiamo ai dipinti. Solo dopo le invenzioni della fotografia, del cinema e della televisione, tutte collocate nella prima metà del secolo XX, alla trasmissione della voce si è affiancata la trasmissione delle immagini. I nuovi media, cinema e televisione, sono sistemi di trasmissione multimodali, nel senso che fanno uso contemporaneo di immagine suono e testo. Si dice che la nostra sia la società dell’immagine e l’immagine è stata introdotta anche nei computer e nei telefoni al fine di renderne più agevole l’uso. I primi elaboratori numerici utilizzavano come entrata schede perforate, tasti alfanumerici (Fig. MARZO 2007 5 CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI FIGURA 3. IL MACINTOSCH, PERSONAL COMPUTER INNOVATIVO. to il telefono. Per molti anni si era cercato di introdurre l’immagine nei collegamenti telefonici fissi ma l’unico risultato era stato la proliferazione di barzellette legate alla necessità di “acconciarsi” per rispondere ad una telefonata. L’esplosione della multimodalità nella telefonia è legata all’uso dei cellulari e al desiderio di scambiarsi immagini, spesso censurabili. Oggi lo strumento “telefono cellulare” è multimodale, nel senso che comunica con immagini, suono e testi, ma è anche propriamente multimediale in quanto può funzionare come telefono, come computer, come televisore, come “telegrafo” (gli SMS), come macchina fotografica e come cinepresa. L’olfatto ovvero il naso elettronico Mentre si moltiplicano le applicazioni della multimodalità che fanno uso dei canali tradizionali rappresentati da testo, immagini e segnali audio, la ricerca è volta a consentire la trasmissione a distanza di altre modalità comunicative, tra le quali gli odori. L’uomo non ha una 6 particolare sensibilità olfattiva e nell’uso del senso dell’olfatto viene superato da quasi tutti i mammiferi; in particolare, come è noto, dal cane, tuttavia l’introduzione di questo nuovo canale può rappresentare un imprtantre acquisizione. Gli studi in atto vertono su entrambe le interfacce: l’analisi degli odori, il naso artificiale, e la generazione degli odori. Il sensore degli odori, il naso artificiale, è costituito da una camera nella quale l’aria viene ad avere un percorso laminare che lambisce otto sensori di una particolare sostanza chimica denominata metalloporfirina La “rivelazione”, cioè la decodificazione dei diversi odori, avviene perché sui sensori di quarzo si depositano le molecole odorose grazie alla metalloporfirina, così i sensori si appesantiscono e cambiano la loro frequenza di oscillazione (Fig. 4). Il processo di “taratura” dello strumento avviene sulla base del test di olfattometria dinamica. In pratica, un gruppo di “rinoanalisti” in carne ed ossa “annusa” l’aria contaminata dall’odore, diluita con aria pulita fino a che l’odore scende sotto la soglia di percezione. Stabilire il numero di diluizioni necessarie affinché questo avvenga significa misurare la concentrazione di odore secondo la norma europea EN 13725:2003; questi stessi campioni vengono poi utilizzati per la taratura del sistema elettronico. Le possibili applicazioni di un naso artificiale vanno dal controllo della qualità degli alimenti, in particolare del loro stato di conservazione, alla valutazione delle sostanze inquinanti nell’atmosfera. Un’applicazione particolarmente interessante potrebbe aversi in medicina, in quanto molte malattie sarebbero riconoscibili per le modificazioni che generano all’odore corporeo e pertanto la sua analisi potrebbe fornire elementi di diagnosi particolarmente non invasivi. Nel campo della valutazione dello stato di conservazione degli alimenti sono state messe alla prova le capacità del naso elettronico di individuare se un pesce è fresco o meno e dove è stato pescato o allevato. Capacità predittive che raggiungono anche il 100 per cento per spigole e orate. Ma l’applicazione che più interessa la comunicazione multimodale è la tra- I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE smissione degli odori da un luogo ad un altro, ad esempio tramite il medium costituito da internet. Il naso artificiale consente di codificare l’odore in dati numerici che vengono trasmessi ad un generatore di odori che mescolando gli odori fondamentali ottiene il risultato. Comunicazioni tattili Il senso del tatto è perfettamente in grado di svolgere le funzioni comunicative come dimo- stra il suo uso, da parte dei non vedenti, ma ha il forte limite di richiedere un contatto lo fisico diretto e pertanto è scarsamente utilizzabile nelle relazioni sociali. L’impiego più noto nel campo della trasmissione di informazioni è nella lettura del codice braille. Fu infatti Luis Braille, un non vedente, che nel 1929 mise a punto un alfabeto tattile basato su una matrice di sei punti che codificavano, essendo o meno in rilievo, le let- FIGURA 4. IL NASO ARTIFICIALE. Il naso elettronico MARZO 2007 7 CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI tere a alfabeto. I punti vengono impressi con un punteruolo e letti con i polpastrelli. Attualmente i non vedenti fanno uso di due metodi lettura, quello basato sul codice braille e quello che fa uso della sintesi della voce. I due diversi approcci soddisfano differenti necessità e raggiungono risultati assai diversi tra loro. La lettura con sintesi vocale è paragonabile all’ascolto di una cassetta magnetica. Col braille, invece, ci si muove in modo più simile alla lettura ottica: la velocità, le pause, le fermate, possono essere regolate dal lettore come lui desidera. Inoltre non tutti i non vedenti usano il braille perchè la lettura del braille richiede un particolare sviluppo della sensibilità del polpastrello che avviene solo se si apprende la tecnica di lettura nel periodo della scuola elementare. Inoltre i display braille hanno un costo elevato, che supera i 4000 euro. Per aiutarsi maggiormente, i non vedenti utilizzano spesso entrambi i metodi di lettura: la sintesi vocale per testi semplici e scorrevoli, il braille per testi complessi e durante la scrittura. Il senso del tatto viene inoltre utilizzato nelle mappe tattili, studiate per favorire l’orientamento e la riconoscibilità dei luoghi a chiunque, ed in particolare a persone non vedenti ed ipovedenti. Esse rappresentano un utile accorgimento per favorire l’accessibilità e la fruibilità di luoghi pubblici o aperti al pubblico, dal momento che riportano indicazioni sia in lettere che in alfabeto Braille. Ma come abbiamo detto, il tatto viene anche utilizzato da tutti per aumentare le informazioni sulle cose che ci circondano, ad esempio nel valutare le stoffe. Inoltre uno degli strumenti normalmente utilizzato per comunicare con il computer, il mouse, non è altro che un sensore di movimento, legato al senso del tatto. L’introduzione del mouse ha certamente ampliato le modalità di comunicazione tra l’uomo e il computer precedentemente limitate all’uso delle immagini e del testo Tatto e sensori di movimento sono anche impiegati nei comandi dell’auto, per consentire al guidatore di mantenere l’attenzione dalla strada quando regola la radio o l’impianto stereo, telefona o regola la temperatura interna. 8 Altre modalità di interazione Oltre alle interfacce di cui abbiamo parlato, prevalentemente legate ai cinque sensi se si fa eccezione per la scrittura che non è ascrivibile semplicisticamente al senso della vista, altri dispositivi possono intervenire nell’interazione uomo-computer, ad esempio i dispositivi di input del genere “eye-tracking” (tracciamento del movimento dell’occhio). Altri esempi sono possibili sia utilizzando programmi che traggono informazione sui nostri movimenti a partire da telecamere, sia utilizzando sensori giroscopici, misuratori di pressione, misuratori di conducibilità corporea e di frequenza del battito cardiaco, ecc. L’attenzione si sta spostando dalle prestazioni, che spesso si traducono in maggiori capacità di elaborazione, alle potenzialità multimodali, alla varietà e flessibilità dei dispositivi di controllo. Gli ingombranti joystick, le tastiere e altri apparati che presto considereremo oggetti di modernariato. Multimodalità e multimedialità Non è facile trovare una definizione precisa che consenta di distinguere il concetto di multimodale da concetto di multimediale. Alcuni sostengono che multimedialità comporta la presenza di diversi elementi di output mentre la possibilità di avere diverse opzioni di input definisce la multimodalità. Rifacendoci all’etimologia diremo che multimodale fa riferimento al modo di comunicare ovvero scrittura piuttosto che oralità, immagini piuttosto che informazioni tattili, SMS piuttosto che voce, mentre multimedialità fa riferimento a un medium ossia un mezzo. Conseguentemente la televisione e il cinema sono due media multimodali, in quanto comunicano attraverso il suono, attraverso le immagini e talvolta attraverso i testi; la radio invece è un medium monomodale in quanto comunica solamente attraverso il suono ma un programma radiofonico può essere multimediale in quanto usa oltre al medium radio anche il medium telefono. Un evento sarà multimediale se viene trasmesso con media diversi; ad esempio Sanremo è evento multimediale perchè trasmesso per radio e per televisione, riportato sui giornali e del quale vi sono registrazioni audio e video. I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE Multimodalità nella robotica L’uomo si muove nell’ambiente che lo circonda grazie ai suoi cinque sensi. Se andiamo in automobile usiamo la vista per controllare il percorso, l’udito per sentire cosa accade nelle vicinanze, i clacson dalle altre auto, il rumore di un tram o di una sirena, il tatto per controllare la presa sul volante e la posizione dei piedi sui pedali. Tutte queste informazioni sono rese disponibili al cervello dagli organi dei sensi e il cervello provvede ad elaborare i dati provenienti dai sensi e decidere le azioni da compiere. Anche un robot per poter interagire con l’ambiente ha bisogno di sensori. Se si tratta del braccio meccanico che esegue le operazioni di verniciatura delle auto sarà sufficiente una telecamera che controlli la posizione dell’auto, ma se immaginiamo il braccio montato su un carrello, in modo da trovare dei pezzi meccanici da montare sulla vettura, le necessità sensoriali diventano molto più sofisticate. Al robot serviranno dei sensori per la localizzazione degli ostacoli (ad ultrasuoni, a laser,…), un sistema visivo più complesso in grado di identificare i pezzi in qualunque posizione spaziale siano collocati, un sistema che gli consenta di identificare la propria posizione nel magazzino, un sensore che verifichi lo stato dell’alimentazione e infine un programma in grado di trasformare tutti questi dati in azioni da compiere. Se poi volessimo costruire un robot in grado di correre per i prati a raccogliere mazzi di fiori le difficoltà sarebbero molto superiori a quelle che siamo oggi in grado di affrontare: non sapremmo far correre in un prato un uomo meccanico né sapremmo come fargli MARZO 2007 cogliere i fiori. Il problema non è solo dei sensori ma certamente è anche dei sensori. Conclusioni Nel presente articolo abbiamo voluto caratterizzare le principali modalità di comunicazione utilizzate dall’uomo. Si è potuto vedere come la tecnologia ha reso disponibili diversi canali di comunicazione tra i quali, per la straordinaria importanza nella vita sociale, ricordiamo la scrittura, la stampa e il telegrafo. Caratteristiche comuni di questi canali è quella di essere monomodali, di rivolgersi ad un solo senso. Nel ventesimo secolo, con l’avvento del cinema e della televisione, si è passati alla multimodalità, i nuovi media trasmettono informazioni di vario tipo alla vista e all’udito. Questa tendenza va via via affermandosi con le interfacce per i computer che utilizzano anche il canale tattile e ora anche quello olfattivo. Altri sensori ancora vengono utilizzati nelle simulazione e nei giochi al computer. Maggiori dettagli sono disponibili in un altro articolo del presente quaderno dedicato proprio ai giochi multimodali. Anche il telefono, nato monomodale, è oggi diventato un medium multimodale, in grado di offrire impieghi di diversa natura. Sugli impieghi della multimodalità sono disponibili altri contributi relativi all’e-learning e alle applicazioni web. L’espansione delle modalità di interfaccia permette di interagire meglio e più facilmente con il resto del mondo, ma rischia di saturare l’uomo con troppe informazioni rendendoci difficile la gestione delle stesse. Andrea Paoloni Fondazione Ugo Bordoni 9 E-LEARNING MULTIMODALE E-Learning multimodale er e-learning multimodale si intende un ambiente di apprendimento che, avvalendosi soprattutto delle tecnologie di rete, consente l’accesso a molteplici risorse ed esperienze di condivisione e collaborazione in appositi spazi virtuali, utilizzando diverse modalità di comunicazione tra gli utenti e tra l’ambiente e gli utenti. La multimodalità è ovviamente associata alla multimedialità: la multimodalità si riferisce specificatamente alle modalità di input dell’interazione, mentre la multimedialità sottolinea la presenza contemporanea di più meccanismi di output (audio, video, ecc.). In questo articolo, cercherò di allargare il concetto di e-learning multimodale considerandolo come un nuovo modo di apprendere basato sull’esperienza, e quindi più vicino a quello che avviene nella vita di tutti i giorni, dove chi impara interagisce con i diversi aspetti della realtà, ne fa esperienza diretta, nel senso che li vede, li sente, li tocca, agisce su di essi e osserva gli effetti delle sue azioni, fa previsioni e ipotesi su di essi (per lo più inconsapevolmente) e verifica se queste previsioni e ipotesi sono corrette, li manipola per i suoi scopi pratici con maggiore o minore successo (Piaget 1989). Finora, nonostante l’introduzione delle nuove tecnologie, la multimodalità e la multimedialità nell’e-learning si sono limitate all’aggiunta di grafici, figure e filmati ai materiali linguistici delle lezioni tradizionali, lasciando al linguaggio un ruolo centrale e cruciale come strumento di conoscenza, comprensione e apprendimento. Tradizionalmente l’apprendimento e la formazione avvengono usando in maniera quasi esclusiva il canale del linguaggio verbale. Allo studente si chiede, fondamentalmente, di ascoltare lezioni, leggere testi, prendere appunti da lezioni o da testi, ripetere e memorizzare testi, produrre testi, fare esercizi che richiedono l’uso del linguaggio verbale, rispondere a domande dell’insegnante, partecipare a discussioni. Tutte queste attività hanno in comune il fatto che in esse viene sempre usato il linguaggio come canale di comunicazione e di apprendimento e che lo studente è chiamato ad imparare usan- P 10 do le sue capacità verbali e in funzione del suo livello di possesso di tali capacità. Il ruolo di altri canali non verbali, quali figure, schemi, tabelle, grafici, è per lo più marginale e fortemente dipendente dal linguaggio. Questa situazione non è cambiata di molto con l’avvento delle nuove tecnologie digitali. Il linguaggio verbale, nonostante il ruolo centrale che gli è stato assegnato tradizionalmente nell’ambito dei processi formativi, ha considerevoli limiti dal punto di vista dell’apprendimento, e questi limiti sono oggi particolarmente visibili in una società in cui le immagini hanno conquistato un ruolo così centrale nella comunicazione. I limiti riguardano: il piano motivazionale, dato che apprendere operando soltanto al livello delle parole può essere spesso poco motivante; il piano delle precondizioni necessarie per l’apprendimento, dato che apprendere attraverso il linguaggio presuppone adeguate capacità linguistiche nello studente, che possono mancare; il piano della comprensione dei contenuti formativi, dato che il linguaggio può portare ad apprendimenti superficiali, appunto soltanto verbali ma privi di comprensione; il piano del ricordo e della integrazione di ciò che si è appreso nelle conoscenze e nelle abilità già esistenti nello studente. Una multimodalità e una multimedialità complete, possibili grazie ai nuovi media digitali, non solo possono consentire di apprendere anche a persone che non hanno necessariamente una grande familiarità con il linguaggio verbale, ma soprattutto permettono a tutti gli studenti di apprendere e di capire attraverso l’osservare e l’agire, con risultati di comprensione e coinvolgimenti motivazionali spesso non ottenibili usando esclusivamente il canale del linguaggio verbale (Delogu e Parisi 2006). Si pensi anche a quelle categorie di persone, quali alcuni disabili cognitivi e soprattutto i sordi, o quelle fasce di popolazione interessate dal cosiddetto digital divide, che avrebbero un enorme giovamento con questo nuovo modo di apprendere (Delogu et al., in stampa; Ranieri, in stampa). La multimodalità e la multimedialità a cui mi riferisco devono prevedere, quindi, un alto livello di interattività, a differenza dei “tradizionali” materiali I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE multimediali e multimodali utilizzati finora nell’elearning, che mostrano una interattività quasi inesistente. L’innovazione più importante introdotta dai nuovi media digitali è costituita, infatti, dalle possibilità di interazione con gli oggetti di apprendimento che questi media offrono. Mi riferisco in particolare alle simulazioni e a videogiochi. Le simulazioni sono laboratori sperimentali: seduto davanti al computer l’utente osserva i fenomeni simulati in condizioni che controlla, modifica queste condizioni e osserva le conseguenze delle sue manipolazioni. Questo è esattamente quello che fa lo scienziato nel laboratorio dove conduce i suoi esperimenti. Solo che nel laboratorio reale si possono fare esperimenti su un numero molto limitato di fenomeni, mentre con le simulazioni si può sperimentare tutto (Parisi 2001). Come le simulazioni, i videogiochi sono un ottimo esempio di applicazioni interattive (Aldrich 2005). Mi riferisco solo ai cosiddetti videogiochi simulative, cioè a quei giochi basati sulla simulazione delle regole del mondo reale (Miglino e Di Ferdinando in stampa). I videogiochi simulative simulano gli ambienti, i personaggi e i processi del mondo reale (o immaginario) e sono molto simili alle simulazioni (si veda l’articolo di France- sco Lutrario in questo stesso numero), con la differenza che qui l’utente oltre a sperimentare gioca, o meglio sperimenta per giocare. Come le simulazioni, anche i videogiochi hanno forti potenzialità educative non solo sul piano motivazionale, ma soprattutto nell’acquisizione di particolari competenze, come il pensiero logico, la capacità di osservazione, lo sviluppo di rappresentazioni spaziali, e di strategie per risolvere problemi (diSessa 1998). Stanno nascendo interessanti progetti che cercano di collegare l’industria dei videogiochi con chi propone l’uso dei videogiochi per scopi educativi, come The Serious Games Initiative (www.seriousgames.org) del Woodrow Wilson International Center e il The Education Arcade (www.educationarcade.org) nato da una collaborazione tra il MIT e la University of Wisconsin. Una buona rassegna su videogiochi per l’apprendimento si trova in (de Aguilera and Mèndiz 2003). Apprendere attraverso le simulazioni e i videogiochi è un modo di apprendimento attivo e esperienziale che ha più probabilità di produrre buoni risultati in termini di motivazione, comprensione e capacità di ritenzione dei contenuti appresi, rispetto al modo di apprendimento FIGURA 1. UNA SCHERMATA DEL SOFTWARE MULTIMEDIALE. MARZO 2007 11 E-LEARNING MULTIMODALE più passivo tipico della lettura di un libro, ma anche di un corso di e-learning che utilizza più canali di comunicazione ma in modo essenzialmente passivo. Il problema infatti non è quello di avere più o meno canali comunicativi: la voce, i testi le immagini, i filmati, ma riguarda il tipo di esperienza che lo studente fa con questi diversi canali comunicativi. La differenza sta nel modo in cui il corso è organizzato: in modalità solo erogativo o con modalità esperienziale. Nel progetto FIRB “Nuove tecnologie per la formazione permanente e reti nel sistema socioeconomico italiano”, finanziato dal MIUR, abbiamo studiato i possibili vantaggi per l’apprendimento che si ottengono con le simulazioni. In particolare abbiamo svolto dei test per confrontare i risultati in termini di apprendimento ottenuti usando materiali didattici costruiti secondo due modelli, quello erogativo e quello esperienziale. I risultati delle nostre indagini indicano che il modello attivo esperienziale dà migliori risultati rispetto a quello più passivo e puramente erogativo (Delogu, Parisi, Nicolussi in stampa). In un test abbiamo valutato l’apprendimento ottenuto utilizzando un software multimediale e una simulazione (da noi sviluppati), aventi in entrambi i casi come oggetto i rischi di estinzione dell’aquila reale. Il software multimediale (Fig. 1) è un tipico sistema erogativo, il cui modello di apprendimento è basato sul “vedere” (leggere i testi, guardare le figure o le animazioni) piuttosto che sul fare. Navigando tra le varie schermate, lo studente impara una serie di nozioni sui rischi di estinzione dell’aquila reale. L’unico tipo di interazione prevista è quella di muoversi tra le varie schermate tramite un menu, di cliccare sulle immagini per ingrandirle, di cliccare su un particolare pulsante per aprire una scheda di approfondimento testuale, di stampare gli approfondimenti testuali, di premere il pulsante “play” per avviare le animazioni. La simulazione (Fig. 2) è invece un piccolo esempio di laboratorio virtuale il cui modello di apprendimento è basato sul vedere e sul fare. Lo studente osserva un territorio “ideale” in cui le aquile nascono, mangiano le prede, si riproducono e muoiono, e dove le prede nascono, si riproducono e vengono mangiate dalle aquile. Nel territorio ideale non ci sono rischi di estinzione, e la popolazione delle aquile e quella delle prede si mantengono stabili. Lo studente interagisce con la FIGURA 2. UNA SCHERMATA DELLA SIMULAZIONE: IL TERRITORIO IDEALE. 12 I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE simulazione, introducendo man mano vari disturbi nel territorio ideale, come la caccia e il bracconaggio, la costruzione di una strada, di un impianto eolico o di una centrale elettrica, la riforestazione, l’inquinamento, osservando gli effetti delle sue azioni lungo cinquanta anni. Tutto quello che lo studente impara, non lo impara leggendo testi e vedendo figure, ma cambiando i parametri della simulazione e osservando gli effetti di questi cambiamenti sull’ambiente in cui vivono le aquile e quindi sulla popolazione delle aquile. I risultati mostrano che gli studenti che hanno utilizzato la simulazione hanno ottenuto un pun- teggio migliore di quelli che hanno navigato il software multimediale. Ripetendo il test dopo una settimana, abbiamo osservato che gli studenti che hanno appreso attraverso una simulazione, e quindi tramite un modello di apprendimento esperienziale basato sul vedere e sul fare, riescono a ricordare quello che hanno studiato meglio e più a lungo di quelli che hanno appreso attraverso un software multimediale, e quindi tramite un modello di apprendimento basato solo sul vedere. Cristina Delogu Fondazione Ugo Bordoni La multimodalità nell’intrattenimento e nelle simulazioni digitali… uomo, dopo aver superato la prima fase di evoluzione basata sulla costruzione di utensili più o meno semplici, ha cominciato a produrre macchine, congegni e, più in generale, sistemi. Con tale termine siamo soliti indicare un insieme di elementi funzionalmente collegati tra loro per fornire un dato risultato o valore. La natura è uno splendido campionario di sistemi fisici, biologici, biochimici da cui l’uomo ha certamente tratto ispirazione. Un orologio è un sistema che come risultato produce una convenzionale misura del tempo; un mulino sfrutta le forze della natura per macinare il grano; una automobile produce capacità di moto come un aereo quella di volo. Tali sistemi prevedono l’indirizzo e la partecipazione attiva dell’utilizzatore per raggiungere il risultato previsto. Ogni sistema destinato ad essere usato dall’uomo è completo, ovvero assolve la sua funzione producendo il risultato atteso, sempre e solo in relazione all’uomo stesso. In tal senso tutti i sistemi realizzati dall’uomo sono scomponibili in due sottosistemi principali: quello biologico, l’uomo, e quello “meccanico”: un’astronave, un impianto hi-fi, una centrale nucleare, un gioco e così via. L’ MARZO 2007 Ogni sistema, dotato di propri scopi e di una logica interna di funzionamento, viene dotato di “interfacce” che ne consentano l’uso previsto anche da parte di utenti non esperti. Il termine interfaccia è direttamente collegato alla comunicazione tra sistemi. Nel rapporto tra sistema “biologico” e “meccanico” le esigenze dell’utilizzatore sono sempre sostanzialmente le stesse. Il “non esperto” necessita di mappe mentali che lo aiutino a comprendere come interagire con il sistema al fine di realizzare il risultato previsto. Il che si traduce nell’esigenza di sapere in che stato si trova in ogni momento di utilizzo, quali azioni è possibile compiere sul sistema e quali effetti produrranno le azioni consentite. Si tratta di rendere comprensibile la relazione tra i due insiemi, tra azione del primo e reazione del secondo. In alcuni casi le relazioni sono ovvie, come nel caso di quelle basate su analogie spaziali, in altri dipendono da pratiche culturali, come il colore di una spia, risultando chiare solo a condizione di conoscere tali convenzioni. Interfacce La progettazione di una interfaccia basata su di un modello concettuale comprensibile, comple- 13 LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI FIGURA 1. DONKEY KONGAS, PERIFERICA MUSICALE DA SUONARE CON LE MANI. to e facilmente memorizzabile è quindi un problema vecchio come le prime macchine create dall’uomo. Tale problema è limitato a ciò che possiamo definire “interattivo”, e un sistema è tipicamente tale. Un programma televisivo, come pure una proiezione cinematografica non sono interattivi, non necessitano di una interfaccia con cui l’uomo può impartire comandi. Un apparecchio televisivo, invece, reagisce ai nostri stimoli in quanto, ricevendo l’opportuno ordine, si accende, cambia canale, modifica i valori di luminosità e contrasto, la fonte di riproduzione, ecc. È interattivo ed ha quindi bisogno di strumenti su cui agire. La disciplina che studia questi processi di interazione è, al contrario di quanto ci si possa immaginare, molto giovane. È denominata Interazione Uomo Macchina (Human Computer Interaction) e si occupa della progettazione delle interfacce uomo-sistema o, più precisamente, tra uomo e computer. Il suo scopo ultimo è rendere l’interazione efficace e usabile nei vari contesti d’uso. L’usabilità è il suo obiettivo principale in quanto se un sistema è tale non crea condizioni di disagio e difficoltà all’utente. L’ingegneria dei sistemi studia il funzionamento di un sistema al variare delle condizioni ambientali, mentre la HCI deve valutare tutti quei fattori che possono influenzare l’interazione tra uomo e macchina. Sono coinvolti lo stato dell’individuo (salute, cultura, ecc.) e molteplici fattori di contesto. Entrano in causa un gran numero di discipline: dalla psicologia alla semiotica, dalla linguistica all’information tecnology, dalle discipline del 14 design alla computer graphics. Tutte queste discipline si confrontano sul terreno dell’interazione uomo-macchina solo dopo l’avvento del computer. Questo perché il computer è un sistema di tipo molto particolare che ha avuto una eccezionale diffusione anche come componente di altri sistemi. La particolarità del computer sta nell’assenza di un compito unico, specifico; non produce un valore definito e neanche radicalmente nuovo. Unico nel suo genere può comportarsi come, e meglio, di altri sistemi e di altre macchine. Il computer è il primo esempio di macchina mutante. È in grado di emulare, è un “imitatore delle altrui virtù”. È in grado di “prendere qualcuno a modello cercando di eguagliarne e superare i suoi meriti e le sue virtù”. Un computer può fare calcoli come una calcolatrice, scrivere come e meglio di una macchina da scrivere, gestire basi dati, permettere di comunicare come un telefono, mostrare programmi tv e radiofonici, controllare lavastoviglie, catene di montaggio, robot e infiniti altri sistemi. Inoltre può emulare se stesso, nel senso di “imitare il comportamento di un elaboratore dalle caratteristiche diverse…”. Un computer, infine, può anche simulare le altre macchine e le relative condizioni di utilizzo, e può anche simulare sistemi non prodotti dall’uomo. Questi gioielli di modellazione possono essere impiegati per la ricerca, l’addestramento, la formazione, l’informazione, la divulgazione e per il gioco. Si tratta della normale evoluzione del primo modello costruito dall’uomo: la mappa. Sono il I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE frutto dell’ingegno di quelli che potremmo definire “cartografi digitali”. Costruttori di mappe tridimensionali, multimediali e, soprattutto, multimodali. Per ogni emulazione o simulazione, il computer presenterà una diversa e specifica interfaccia. Una combinazione tra hardware e sw deve mediare tra i due sistemi consentendo uno scambio nelle due direzioni: input, ordini e richieste di esecuzione, e output, le risposte del sistema. Obiettivi ambiziosi La presenza di diversi elementi di output va sotto il nome di multimedialità mentre la possibilità di avere diverse opzioni di input definisce la multimodalità. Quest’ultima disciplina, nata come branca dell’interazione uomo macchina, ha origini molto recenti e grandi prospettive di sviluppo e applicazione. Si pone obiettivi ambiziosi: dall’esigenza di consentire comandi connessi allo specifico sistema che il computer sta rappresentando (si pensi ad un bisturi con cui simulare operazioni chirurgiche) fino alla sostituzione degli attuali ordini formalizzati con comandi naturali. L’obiettivo è quello di raggiungere la multimodalità tipica degli scambi tra uomini aggiungendo ai sistemi tradizionali, mouse o tastiera, la gestualità, il linguaggio naturale, il movimento dello sguardo. I relativi vantaggi riguardano tanto specifiche classi di individui, da quelli poco esperti ai disabili, quanto numerosissimi campi applicativi. Il gioco, come attività umana, quello che gli anglosassoni definiscono “play”, è anch’esso un sistema. Lo definiamo incerto perché il suo risultato dipenderà dalle azioni dei giocatori, senza i quali non avrebbe alcun significato. Come gli altri è composto da un sottosistema biologico, l’uomo, e da uno meccanico, “il game”. Il cuore di un “game” è la “meccanica di gioco”, un insieme di FIGURA 2. GUITAR HERO, PERIFERICA MUSICALE CHE SIMULA UNA CHITARRA. MARZO 2007 15 LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI regole formali gestite da un supporto, un computer, e rivestite da una “ambientazione” che ha l’obiettivo di creare l’illusione di un mondo separato e fittizio. Qualunque gioco si basa su di un modello. Per modello intendiamo la rappresentazione di idee e conoscenze relative ad un fenomeno sul quale è possibile agire per verificare il risultato di tali azioni. Ogni gioco ha poi un “obiettivo di vittoria” con cui confrontarsi, a cui tendere. Vengono definite “leve” le possibili azioni degli utenti sul meccanismo di gioco e “regole del giocatore” le possibilità e le limitazioni all’uso di tali leve da parte degli utilizzatori. Queste leve hanno una sostanza, una forma e una modalità. La sostanza riguarda le variabili (indipendenti) definibili dall’utente nell’ambito del modello mentre la forma fa riferimento alla specifica ambientazione del gioco, la loro mera apparenza. La modalità riguarda la concreta realizzazione delle leve attraverso il supporto e l’interfaccia, definisce i modi con cui l’utente può agire su di esse. Uno stesso gioco, mettiamo gli scacchi, ha sempre le medesime leve ma può renderle disponibili in diversi modi, tramite diversi dispositivi di input. Possiamo muovere una torre con il FIGURA 3. DANCEMATE, IL TAPPETO PER GIOCHI DI BALLO ALLA DANCE REVOLUTION. 16 mouse, possiamo trascinarla grazie ad un dispositivo touch screen, possiamo indicare le nuove coordinate con la tastiera o semplicemente dire “muovi la torre in b8”. Gioco e simulazione Anche una simulazione si basa sull’interazione con un modello. La differenza tra un gioco e una simulazione si riduce a pochi ma sostanziali elementi. Un gioco può realizzarsi su di un modello che rappresenti di un qualunque sistema, anche fittizio. Una simulazione, invece, si basa su modelli di sistemi reali o ipotetici ma non affronta i sistemi frutto della fantasia. Il suo scopo infatti è molto concreto e può essere circoscritto al campo della ricerca (predizione), dell’addestramento e della formazione. La simulazione è quindi un procedimento che consente di studiare il comportamento di un sistema basandosi sulla riproduzione dello stesso, e dell’ambiente in cui esso deve operare, attraverso modelli, a prescindere che essi siano meccanici, analogici, matematici o digitali. In quanto attività fittizia, quello che avviene in un gioco non si propaga nella realtà ma resta circoscritto al gioco stesso e perde di significato una volta che il gioco ha termine. Una simulazione invece, avendo uno scopo pratico, produce risultati che ricadono nella vita reale. Tramite un modello lo scienziato elabora e verifica le proprie teorie escludendo fattori non necessari o di disturbo. Con il modello di un acquedotto è possibile verificare la sua funzionalità e progettarlo in dettaglio prima della realizzazione effettiva. Possiamo usare un modello per addestrare un pilota senza che tale esperienza risulti pericolosa o distruttiva. In tutti questi casi, un errore nella costruzione del modello può causare gravi ripercussioni nel mondo reale. Se non fosse per questa sostanziale differenza potremmo affermare che, in fondo, ogni gioco è una simulazione. Questa differenza diventa cruciale nel momento in cui si definiscono le leve di un gioco o di una simulazione. Quelle di un modello usato a scopi di simulazione saranno coerenti con il sistema rappresentato. In un gioco invece il progettista può prevedere leve fittizie, può ingannare il giocatore facendogli credere di avere più gradi di libertà e decisione di quanti effettivamente possieda. Anche l’informazione di ritorno in un gioco potrà essere I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE FIGURA 4. POWERGLOVE, VECCHIA PERIFERICA NINTENDO CON SENSORI DI POSIZIONE E PER IL MOVIMENTO DELLE DITA. illusoria per convincere il giocatore che le azioni intraprese hanno un effetto sul sistema. In un modello destinato ad una simulazione tutto ciò sarebbe scorretto e potenzialmente pericoloso. È per la sua capacità di simulare ed emulare, ovvero di gestire modelli interattivi, che il computer ha trovato un campo eccezionalmente fertile nel settore dei giochi e delle simulazioni. Il computer e i modelli digitali costituiscono uno straordinario laboratorio virtuale nel quale osservare e studiare fenomeni, attraverso cui fare esperienza e quindi addestrasi ai compiti più difficili e pericolosi o con cui semplicemente giocare. Spesso è possibile usare gli stessi modelli, si pensi ad un simulatore di volo, tanto per gioco quanto per effettuare una simulazione. Potendo ricostruire, per mezzo di un modello, qualunque sistema allo scopo di fare esperienza nel campo del gioco o della simulazione, il tema della multimodalità è di cruciale attualità. Ogni potenziale esperienza, ogni sistema rappresentabile ha infatti una propria forma ideale di interazione e spesso ne richiede più d’una. Se volessimo sperimentare l’attività della scultura desidereremmo poter interagire con un modello di un blocco di marmo tramite uno scalpello e le sensazioni tattili, piuttosto che tramite un mouse. Se volessimo provare l’esperienza di addestrare un cane o governare un gregge di pecore vorremmo poter definire i comandi tramite la voce o MARZO 2007 emettendo un fischio. Per guidare una Ferrari vorremmo un volante e un cambio come quelli usati in formula uno, e così via. Molti di tali sistemi multimodali esistono già. Basta entrare in una moderna sala giochi. Una volta che i pc e le consolle domestiche per videogiochi hanno raggiunto la qualità e le prestazioni di quelle installate nelle sale pubbliche, i produttori di “cabinet” hanno cominciato ad investire nella produzione di sistemi di controllo che imitino al meglio i dispositivi di input, e di output, rappresentati nel gioco. Nuovi controlli che replicano al meglio una motocicletta, un elicottero, un fucile, uno snowboard, una canna da pesca, ecc. Volanti e pedaliere, cloche e pistole a raggi infrarossi sono stati i primi di una lunga serie di dispositivi dedicati ad uno specifico tipo di simulazione. Con le periferiche musicali come “donkey kongas” (Fig. 1) e “guitar hero” (Fig. 2) il giocatore può suonare in un complesso virtuale avendo tra le mani una strumenti musicali del tutto realistici. In una seconda fase sono apparsi dispositivi in grado di supportare meccaniche ludiche diverse. Microfoni collegati al pc o alla consolle hanno consentito a migliaia di giocatori di urlare ordini al proprio esercito virtuale mentre, con lo stesso strumento, dialogavano con i compagni di gioco connessi via rete. Gli stessi microfoni hanno permesso di effettuare performance canore. Più recentemente sono apparse telecamere in gra- 17 LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI do di riconoscere i movimenti del corpo affinché il gesto di un braccio potesse, in modo molto più realistico di quanto si potesse fare con un joystick, controllare una racchetta e altri attrezzi. Poi il controllo di un sistema simulato è passato dalla mano all’intero corpo. Con la pedana “DanceMate” (Fig. 3) l’utente deve realmente ballare per controllare il proprio avatar come in “Dance Dance Revolution”, ma può anche correre e saltare. Altre strade sono state tentate, abbandonate e poi riprese. Si chiamava “powerglove” (Fig. 4) la vecchia periferica della Nintendo, leader in questo campo della ricerca, dotata di sensori di posizione e per il controllo del movimento delle dita. Oggi questa opzione sembra superata da una consolle, la nuovissima Wii, dotata di un controller, simile ad un telecomando, che si può impugnare come una spada o una racchetta. È questa l’ultima evoluzione del mercato vidoeludico. Il controller della Wii (Fig. 5) è dotato di un giroscopio e un accelerometro e i limiti di utilizzo sono solo nelle capacità dei game designer. Le consolle portatili Le consolle portatili non sono state da meno. Il successo del NintendoDS (Fig. 6) è fortemente connesso all’interazione di tipo “touch” e alla presenza di un microfono che permette interazioni vocali. È possibile cuocere a puntino un piatto di pasta soffiando sulla pentola per evitare che l’acqua fuoriesca esattamente come facciamo a casa; possiamo addestrare un cucciolo perché risponda ai nostri comandi vocali ed anche lanciargli una palla con velocità e traiettoria che dipendono direttamente dal gesto che abbiamo tracciato sullo schermo. In quest’ultimo campo sono stati effettuati studi relativi alla possibilità di interagire con un modello videoludico anche attraverso stimoli non volontari. La riflessione che ha dato luogo a queste ricerche è collegata alle variazioni che un essere umano può produrre in un sistema a causa del proprio stato psicofisico. Si pensi alle condizioni psicologiche di un soldato impegnato in battaglia, ad un pilota che tenta un sorpasso disperato, ad un astronauta sotto l’ef- FIGURA 5. WII CONTROLLER SI PUÒ IMPUGNARE COME UNA SPADA O UNA MAZZA DA GOLF; HA AL SUO INTERNO UN GIROSCOPIO E UN ACCELEROMETRO. 18 I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE fetto di una spinta ai limiti dell’umana sopportazione e ancora ad un innamorato che deve dichiararsi ma è preda di una forte emotività. Siamo soliti sperimentare queste situazioni nei giochi e nelle simulazioni senza pensare a come le emozioni possano influire nelle nostre prestazioni. Siamo abituati ad interagire in mondi virtuali attraverso avatar che mostrano agli altri giocatori solo le emozioni che noi stessi vogliamo mostrare. Ma sappiamo bene che le cose non stanno così e che se volessimo simulare appieno queste esperienze dovremmo tenere in conto anche di questi stati emotivi e del loro influsso sul nostro fisico, sugli altri giocatori od anche sui sistemi con cui interagiamo. L’emozione fa brutti scherzi anche ai migliori sportivi, perché non dovrebbe influenzare le nostre prestazioni? Oggi esistono sistemi di monitoraggio dello stato fisico (battito cardiaco, pressione, sudorazione) estremamente precisi e a basso costo. Sono largamente impiegati nel fitness. Immaginate un sistema che comunichi tali variazioni al computer e un modello che possa tenerne conto variando le sue risposte anche in funzione di tali “azioni involontarie”. Il risultato sarebbe modificato in funzione di tali parametri. Il soldato preso dal panico comincerebbe a vedere gli avversari in modo meno definito, un innamorato tradirebbe le sue insicurezze, uno sportivo nervoso perderebbe qualità nel controllo della palla o nel governo della sua vettura. Le applicazioni potrebbero essere altre. Un paziente o un invalido potrebbero richiedere un intervento del computer (richiesta di soccorso, variazione delle condizioni ambientali come temperatura e illuminazione, ecc.) al solo variare di alcuni parametri. A questi stessi obiettivi possono essere destinati i sistemi adattivi. Programmi basati su reti neurali e algoritmi genetici in grado di imparare dall’interazione stessa con l’utente per proporsi come interpreti realizzando scorciatoie nel dialogo con le macchine. L’interazione uomo-computer Un altro settore delle ricerca che promette sviluppi interessanti riguarda le tecnologie che studiano il tracciamento come possibile evoluzione nell’interazione uomo-computer, con particolare riferimento ai dispositivi di input del genere “eyetracking” (tracciamento del movimento dell’occhio). Le performance sono migliori rispetto all’uso del tradizionale mouse sebbene siano ancora inefficienti per molti aspetti. La vera potenzialità sta nella possibilità, largamente verificata, di inferire il grado di interesse dell’utente rispetto a quanto osservato. Tutti questi studi hanno confermato la necessità di un approccio realmente multimodale che coinvol- FIGURA 6. NINTENDODS, CONSOLLE PORTATILE INNOVATIVA CON INTERAZIONE TOUCH E MICROFONO. MARZO 2007 19 LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI ga cioè più di un canale perché questo è il modo in cui l’uomo è naturalmente portato a comunicare. Oggi è possibile realizzare sistemi con cui interagire tramite i gesti (si pensi alla descritta consolle Wii e alle telecamere che tracciano i movimenti del corpo), i muscoli (sistemi touch e misuratori di pressione), lo sguardo (eye tracking), le emozioni (misurabili tramite fattori biomedici) e la parola (riconoscimento e uso del linguaggio naturale). Possiamo affidare al sistema stesso il compito di capire quale sia il dispositivo di input preferito dall’utente o il più adatto al contesto d’uso. Il recente successo di alcune consolle rispetto ad altre dimostra che più numerosi sono i sistemi di input coinvolti maggiore è la gamma e la qualità dei prodotti realizzabili. Le scelte dei consumatori dimostrano che l’attenzione si sta spostando dalle prestazioni, che spesso si traducono in maggiori capacità di elaborazione e output multimediale, alle potenzialità multimodali, alla varietà e flessibilità dei dispositivi di controllo. Quanto detto vale per le consolle di gioco ma anche per computer con funzioni più o meno dedi- cate. Si pensi ai terminali di telefonia mobile, alle set top box per la tv, ai lettori musicali e multimediali, ai totem. Tutti dispositivi che assolvono contemporaneamente diverse funzioni. In tal senso la multimodalità è fortemente correlata al processo di miniaturizzazione in atto dei device e alla loro multidisciplinarità. Un telefono, come pure un decoder televisivo, non è più solo tale. Deve prestarsi ad altre funzioni che richiedono interattività e quindi controller di piccole dimensioni e adatti allo scopo. Il telecomando della TV diventa joystick, il telefono mobile si trasforma in consolle videoludica, in player musicale, in telecamera. Ognuno di essi è di fatto un computer. I progettisti stanno progressivamente inserendo diversi dispositivi di input in grado di sostituire gli ingombranti joystick, le tastiere e altri apparati che presto considereremo oggetti di modernariato. Francesco Lutrario Vice direttore generale Infobyte S.p.A. Docente di Game Design Università degli Studi di Milano L’avvento del multimodale: la voce fa la sua comparsa sul web e sulle applicazioni er troppo tempo siamo stati abituati a riferirci, come ad universi separati, alle applicazioni web, a quelle vocali e all’utilizzo dei sensori. In questo breve articolo vedremo come sia possibile costruire applicazioni in grado di ricevere ed inviare informazioni attraverso molteplici modalità: ovvero le applicazioni multimodali. Partiremo dal significato di multimodalità fino arrivare ad alcuni esempi di applicazioni presenti sul mercato. Se cerchiamo il termine “multimodalità” o “multimodale” sull’ormai omni-comprensivo dizionario online di Wikipedia, ci accorgiamo che il termine non esiste tra quelli presenti all’interno del dizionario in lingua italiana (http://it.wikipedia.org/wiki/Speciale: P 20 Ricerca?search=multimodale&go=Vai), quindi rifacciamoci alla definizione inglese (http://en.wikipedia.org/wiki/Multimodal): Multimodal interaction provides the user with multiple modes of interfacing with a system beyond the traditional keyboard and mouse input/output. The most common such interface combines a visual modality (e.g. a display, keyboard, and mouse) with a voice modality (speech recognition for input, speech synthesis and recorded audio for output). However other modalities, such as pen-based input or haptic input/output, may be used. Multimodal user interfaces are a research area in humancomputer interaction. I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE Per completarne il significato, associandolo a quello dell’utilizzo di internet, portiamoci sulla pagina del gruppo di lavoro del W3C che si occupa di sviluppare il framework multimodale ed i linguaggi ad esso associate: il Multimodal Interaction Working Group (http://www.w3.org/2002/mmi/). Alla prima riga troviamo: 쩦 Extending the Web to support multiple mo- des of interaction. Possiamo, quindi concludere che la multimodalità è l’impiego contemporaneo di più interfacce utente che facciano uso di diversi dispositivi (monitor e tastiera, microfono e voce, penna ottica ecc.) per ricevere ed inviare informazioni all’utente, con particolare enfasi sull’utilizzo della voce in associazione con interfacce utenti di tipo grafico. I componenti di un’applicazione multimodale All’interno della pagina del Multimodal Interaction Working Group (http://www.w3.org/2002/mmi/) non troviamo soltanto una descrizione sommaria delle attività svolte da questo innovativo gruppo di lavoro del W3C, ma abbiamo la possibilità di osservare da vicino quale sia lo stato dell’arte dello sviluppo di un framework multimodale e dei linguaggi a supporto di questa nuova interazione tra utente e web, o per essere più precisi tra utenti e PC, in quanto, come vedremo negli esempi di seguito riportati, l’approccio multimodale è particolarmente indicato per una vasta gamma di dispositivi. Per capire meglio cosa effettivamente sia un’applicazione multimodale partiamo da un esempio pratico. Ci troviamo all’interno di un software di gestione posta con la sua interfaccia grafica, a questo punto possiamo: A. cliccare su “nuovo messaggio” per aprire il form di inserimento di una nuova mail attraverso la modalità classica utilizzando le icone poste sulla GUI (Graphic User Interface), oppure se la nostra applicazione fosse gestita tramite una voice mail (un software utilizzabile attraverso un telefono/microfono in grado di ricevere input vocali): MARZO 2007 B. dire al nostro microfono “nuovo messaggio” e utilizzare i comandi vocali disponibili attraverso la VUI (Voice User Interface) e seguire le istruzioni per dettare una mail al sistema. Attraverso un approccio di tipo multimodale le nostre possibilità si amplierebbero ulteriormente in quanto potremmo utilizzare l’opzione A, l’opzione B oppure l’insieme delle due: C. cliccare su “nuovo messaggio” con il mouse (GUI) e dettare il nome del destinatario (VUI); D. dire “nuovo messaggio” (VUI), dettare il cognome (VUI), scrivere il testo della mail con la nostra penna ottica; E. ecc. Questo breve esempio spiega quali siano le potenzialità di questo approccio, e ci permette di esaminare due diversi utilizzi della multimodalità: 쩦 supplementare, ovvero basata sull’utilizzo indipendente di modalità differenti per eseguire una determinata operazione; 쩦 complementare, dove l’utente può utilizzare diverse modalità contemporaneamente. Dopo averne esaminate le caratteristiche vediamo come funzionano. Un ottimo esempio ci viene offerto dallo schema seguente che riassume quali siano i componenti fondamentali di un’applicazione multimodale. Innanzitutto, partendo dalla parte alta dello schema, troviamo le due interfacce utente (VUI e GUI) le quali dovranno essere scritte tenendo conto delle diverse esigenze delle tecnologie utilizzate. Due candidati per lo sviluppo di queste interfacce possono essere XHTML per la GUI e VoiceXML per la VUI se ci troviamo in ambiente web, altrimenti si possono usare JAVA, C++, C#, VB.NET, ecc. Sotto questo primo strato di presentazione dei dati troviamo la parte applicativa che a sua volta è suddivisa in diversi moduli: 쩦 (Interaction manager) Ricevere gli input dalle interfacce; 쩦 (Modality manager) Invocare i motori necessari al riconoscimento tramite delle API. Per la interpretazione della voce viene utilizzato il modulo ASR (Automatic Speech Recognition), per la generazione di un audio a partire da un testo si utilizza il TTS (Text to speech) e, qualora si vogliano introdurre anche controlli di si- 21 L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI curezza biometrica legata alla voce dell’utente la Speaker Verification (indicata come SV nello schema); 쩦 (State Machine Multimodale) Gestire i diversi input delle interfacce per capire quale sia il significato dell’azione intrapresa dall’utente; 쩦 (interaction Manager) Restituire su entrambe le interfacce il risultato dell’operazione dell’utente. Torniamo al nostro esempio, dove l’utente seduto davanti al suo pc provvisto di microfono, dice al proprio programma di posta “nuovo messaggio”. Questa azione scatena un evento che verrà raccolto dall’Interaction manager e trasportato fino al motore di riconoscimento vocale (ASR) che restituirà alla State Machine Multimodale il comando “new_message”. Questo comando invoca l’apertura sulla GUI di una nuova finestra per la composizione del messaggio, e sulla VUI l’esecuzione di un prompt (una frase sintetizzata) del tipo “Inizio nuovo messaggio”. Fino a qui, è piuttosto facile capire per la macchina a stati quali operazione invocare e quali debbano essere le modalità da utilizzare, ovviamente il tutto si complica nel momento in cui l’utente clicca su “nuovo messaggio” e contemporaneamente dice “Apri rubrica”. Realizzare la nostra prima applicazione multimodale Qualora volessimo realizzare le nostre applicazioni è meglio pensare di utilizzare un framework già pronto e concentrarci sui linguaggi e gli strumenti utilizzabili. Ad oggi, limitatamente alle applicazioni fruibili via web, vi sono principalmente due diverse possibilità: 쩦 X+V 쩦 SALT Entrambi questi linguaggi permettono di espandere le possibilità di una normale pagina Web, incorporando riconoscimento vocale e sintesi vocale per sviluppare pagine multimodali o con output vocali. Il primo è un linguaggio sviluppato e supportato da IBM. Dove la lettera “X” indica la componente grafica (XHTML) e la lette- FIGURA 1. COMPONENTI FONDAMENTALI DI UN’APPLICAZIONE MULTIMODALE. 22 I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE ra “V” la componente vocale in VoiceXML: un linguaggio di marcatura che ormai si è imposto come standard nello sviluppo delle applicazioni vocali ed utilizza logiche di presentazione basata sul dialogo tra macchina ed utente. L’esecuzione di un evento di riconoscimento vocale (tipicamente un form VoiceXML) viene richiamato da un evento sull’interfaccia grafica, ad esempio portando il mouse sulla casella di testo utilizzata comunemente per l’inserimento del dato. Le applicazioni scritte in X+V possono (visualizzabili con il browser OPERA) hanno le seguenti caratteristiche: 쩦 Basato su HTML. 쩦 Integrabile con le tecnologie Web standard: HTML, XHTML, cHTML, WML ed estendibile ad altri linguaggi. 쩦 Riutilizzo degli standard: Voce: VoiceXML, SRGS, SSML, EMMA. 쩦 La sincronizzazione avviene utilizzando XML Events e l’elemento xv:sync in X+V 1.1. Per informazioni più dettagliate su questo linguaggio si consiglia di visitare il sito dell’IBM all’indirizzo http://www-3.ibm.com/software/ pervasive/multimodal/ L’alternativa ad X+V viene offerta da Microsoft e dal suo SALT (Speech Application Language Tags), che può essere visualizzato tramite Internet Explorer (è necessario scaricare un apposito plug-in dal sito della Microsoft). Le sue caratteristiche sono: 쩦 Integrabile con le tecnologie Web standard: HTML, XHTML, cHTML, WML… 쩦 Riutilizzo degli standard: Voce: SRGS, SSML, EMMA, CCXML, ECMA: CSTA. 쩦 Può funzionare in modo sia dichiarativo sia basato su eventi e script. 쩦 Modello di esecuzione standard del Web: DOM, eventi e linguaggi di scripting. 쩦 Minore integrazione con VoiceXML, non sup- porta strategie di dialogo avanzate (come ad esempio la mixed initiative). La struttura del linguaggio è similare a quella di XHTML, ma ampliata attraverso l’introduzione di un nuovo set di elementi per la gestione degli input e degli output vocali. Per maggiori informazioni su questo linguaggio consigliamo di consultare il sito ufficiale dello SALT Forum all’URL http://www.saltforum.org. Dal codice alla realtà Dopo questo brevissimo excursus sui linguaggi di programmazione utilizzabili per la realizzazione delle nostre pagine multimodali, vediamo ora qualche applicazione disponibile sul mercato. Molte delle applicazioni presenti si basano sull’utilizzo del SIP (Session Initiation Protocol) che, senza troppo addentrarci in tecnicismi è un protocollo “simile” all’http con una struttura client-server, in grado di gestire l’invio di voce e dati sullo stesso canale. L’utilizzo di SIP permette di creare applicazione multimodale per dispostivi mobili quali cellulari, palmari o altri dispositivi connessi alla rete UMTS. Alcune di queste soluzioni sono presenti sul sito di Nuance: (http://www.nuance.com/xmode/demo/). Una delle aziende che per prime hanno presentato sul mercato internazionale i loro prodotti multimediali è sicuramente Kirusa (http://www.kirusa.com/). Sul sito, oltre ad alcuni documenti sulle tecno- PER APPROFONDIMENTI Il sito del W3C sui linguaggi multimodali: http://www.w3.org/TR/multimodal-reqs Il sito dell’IBM dedicato all’X+V: http://www.voicexml.org/specs/multimodal/x+v/12/ I riferimenti del linguaggio SALT: http://www.saltforum.org/ Opera: il browser multimodale: http://www.opera.com/ Il sito con le specifiche del protocollo SIP supportato dall’International Engineering Task Force (IETF) http://www.ietf.org/html.charters/sip-charter.html I browser multimodali secondo IBM: http://www.w3.org/2002/mmi/2002/MM-Arch-Maes-20010820.pdf Il sito di V-Enabled con alcuni soluzioni multimodali: http://www.v-enable.com/ X-Mode, la multimodalità secondo Nuance: http://www.nuance.com/xmode/ MARZO 2007 23 L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI logie proposte, è possibile visualizzare una demo di un portale multimodale sullo sport (http://www.kirusa.com/demo3.htm). L’irlandese Voxpilot (www.voxpilot.com) propone un’interazione audio/video basata sul protocollo SIP che permette di navigare sul proprio cellulare portali di natura diversa (televisioni private, cinema, sports, ecc.) ricevendo informazioni vocali e visive: testo, menu in sovraimpressione, filmati oppure immagini. Per provare direttamente qualche esempio sul nostro pc, esclusivamente per coloro che hanno Opera installato, basta accedere all’indirizzo: http://www.voicexml.org/Review/Mar2006/ features/multimodal_opera.html dove sono raccolti una ventina di esempi multimodali perfettamente funzionanti. Altre informazioni, e video di servizi funzionanti, sono visibili sul sito dell’IBM dedicato all’X+V (http://www-306.ibm.com/software/pervasive/ multimodal/) oppure direttamente nella sezione demo (http://www-306.ibm.com/software/ pervasive/multimodal/demos.shtml). Sul mercato italiano tra le aziende attive è da citare Loquendo (http://www.loquendo.com) l’azienda italiana leader di mercato delle tecnologie vocali che all’attivo ha diversi progetti nazionali ed internazionali. Sempre nel panorama italiano, a costo di apparire un po’ autoreferenziante, citiamo l’azienda DotVocal (http://www.dotvocal.com) che ha realizzato un set di librerie denominato MultiModal Berry per permettere la verticalizzazione di applicazioni standard in applicazioni multimodali in grado di accettare comandi vocali. Oltre la realtà E per finire diamo uno sguardo alle soluzioni futuribili proposte da alcune aziende nel campo della multimodalità.Il punto di partenza è il doveroso Dream Space di IBM (http://www. research.ibm.com/natural/dreamspace/) dove viene mostrato come l’interattività possa essere estesa ad oggetti virtuali tridimensionali che vengono manipolati direttamente con il “tocco” (ammirando i filmati all’interno della pagina a qualcuno verrà sicuramente in mente il film “Paycheck”). Altrettanto futuristici i lavori di alcuni istituti tra cui: HitLab (http://www.hitl.washington.edu/ projects/multimodal/) ed il Department of Computer Science and Engineering della Helsinki University of Technology. (http://www.cis.hut.fi/research/multimodal/). Fabrizio Gramuglio DotVocal Tecnologie vocali e multimodalità: soluzioni per servizi avanzati ggi le principali tecnologie vocali, la sintesi da testo (TTS - Text To Speech) ed il riconoscimento della voce (ASR - Automatic Speech Recognition), stanno avendo una nuova grande opportunità: l’emergere della multimodalità. Le interfacce multimodali, infatti, combinano, in modo trasparente per l’utente, modalità di interazione diverse, siano esse la voce, immagini o filmati, gesture (termine, quest’ultimo, usato per indicare segni tracciati con una penna o uno stylus su palmari o touch screen, O 24 per indicare e per tracciare linee o zone su una mappa), permettendo all’utilizzatore di interagire in modo innovativo ed intuitivo con i terminali, anche con quelli di piccole dimensioni. I comandi vocali, insieme alla scrittura su tastiera (tastierino per i cellulari) oppure la penna/stylus, posso fornire dati in input; viceversa l’output può combinare la voce sintetizzata con testi, grafica e filmati. In futuro potranno essere sfruttate altre modalità, quali le interfacce tattili (per esempio tramite guanti o sensori a contatto con il corpo). I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE Le applicazioni multimodali possono diventare soluzioni abilitanti per l’adozione massiva di servizi a valore aggiunto. Per questo motivo, è interessante indagare quali sono le caratteristiche più utili ed efficaci delle interfacce multimodali. È evidente che le dimensioni ridotte dei terminali mobili, così come l’introduzione di funzionalità sempre più complesse, pongano problemi di usabilità, soprattutto per le fasce di popolazione meno avvezze all’utilizzo della tecnologia. La multimodalità può essere una soluzione, grazie alla possibilità di creare servizi che, benché complessi, presentino interfacce semplici e flessibili. Un miglioramento dell’usabilità può realmente fare la differenza e consentire l’estensione di servizi innovativi ad una popolazione più ampia di quella attuale e soggetta ad un progressivo invecchiamento. Deborah Dahl, coordinatore del gruppo W3C Multimodal Interaction, afferma che la crescita di interesse commerciale verso il multimodale deriva da tre fattori concomitanti: la già menzionata difficoltà d’uso dei terminali mobili, i sensibili miglioramenti prestazionali delle tecnologie vocali, e l’ampliamento dell’infrastruttura Web che permette lo sviluppo e la diffusione di applicazioni complesse. Tuttavia, benché la ricerca sulla multimodalità sia in campo da anni, le tecnologie multimodali non hanno ancora raggiunto una maturità sufficiente da consentirne un uso diffuso. Loquendo, società del gruppo Telecom Italia attiva nel mercato mondiale delle tecnologie vocali, è coinvolta in progetti di ricerca e sviluppo sul multimodale da diversi anni. Questo coinvolgimento è maturato anche dalla partecipazione in ambiti di normativa (quali il W3C) e attraverso la cooperazione con altri centri di ricerca e aziende leader del settore. Servizi di nuova generazione Le interfacce multimodali possono essere applicate in ambiti e contesti diversi. Tra di essi ve ne sono alcuni in cui sono già attivi servizi pilota, a cui partecipa anche Loquendo, ed altri che sembrano essere promettenti. Un primo esempio è offerto dalle applicazioni per persone diversamente abili. Le tecnologie assistive rappresentano un segmento significativo del mercato vocale e potenzialmente anche MARZO 2007 per il multimodale. Questo settore include, ad oggi, prodotti per ipovedenti e per non vedenti che permettono il controllo completo dei terminali e l’accesso senza mediazioni a informazioni scritte. L’integrazione della voce con altre modalità rappresenta una possibile evoluzione verso interfacce più personalizzabili. Sono poi numerose le circostanze in cui gli utilizzatori hanno mani ed occhi impegnati, quali la guida di un veicolo o ambienti lavorativi particolari. Anche l’interazione uomo-macchina in questi ambiti può essere facilitata dall’introduzione delle tecnologie vocali e multimodali, e certamente le azioni legislative sull’uso dei telefoni cellulari in auto possono favorirne la diffusione. Applicazioni possibili possono essere i comandi vocali per controllare funzioni e apparecchiature a bordo veicolo, oppure l’interazione con un navigatore. Negli ambienti lavorativi, applicazioni di voice picking e reportistica su palmari industriali, che integrano la voce con altre modalità, permettono un notevole incremento di efficienza. I servizi di localizzazione in generale rappresentano un’altra area di potenziale sviluppo, per l’accesso a mappe, pagine gialle, informazioni turistiche localizzate tramite GPS, non solo in auto. Vale la pena di citare anche l’applicazione della multimodalità nelle banche, ad esempio per i bancomat, dove l’aggiunta della voce rappresenta un ausilio soprattutto per anziani e ipovedenti. Dal punto di vista di un operatore telefonico, i servizi che possono trarre vantaggio da interfacce multimodali sono la lettura e la scrittura di SMS e MMS, l’interazione con la posta elettronica, l’Instant Messaging, la chat. Altri settori di interesse sono i call center, l’e-commerce e l’home-banking, senza dimenticare l’impiego di interfacce multimodali per l’intrattenimento, come i giochi su computer o su cellulare. Anche la domotica può diventare un settore fertile di applicazioni multimodali per interagire, anche da remoto, con apparecchiature elettroniche o utilizzare il televisore tramite set-top-box per l’accesso al Web. Infine, il Software Educativo può beneficiare della multimodalità impiegata, ad esempio, per facilitare l’apprendimento delle lingue straniere mediante l’uso congiunto delle tecnologie vocali e di strumenti multimediali. 25 TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI Tecnologie vocali e standard Passeremo brevemente in rassegna gli sviluppi recenti delle tecnologie vocali, mettendo in luce il ruolo rilevante che gli ambienti di normativa internazionali stanno giocando in questo settore. Recenti sviluppi delle tecnologie vocali Il crescente interesse verso l’uso della voce sia per applicazioni tradizionali solo vocali, sia per future interfacce multimodali è spinto dalla maturità raggiunta dalle tecnologie vocali stesse. Il costante incremento del potere computazionale dei computer e la maggiore memoria a disposizione si sono rivelati fattori abilitanti e hanno permesso l’utilizzo di algoritmi sempre più complessi. Loquendo ha una lunga esperienza in questo campo acquisita in più di 30 anni di ricerca maturata in CSELT (laboratorio di ricerca di Telecom Italia) e confluita nel 2001 nell’azienda stessa. Queste sono, ad oggi, le principali aree di impiego delle tecnologie vocali per applicazioni vocali e multimodali: 1. ASR: Automatic Speech Recognition, Riconoscimento della voce Le prestazioni dei software di riconoscimento oggi sono molto elevate e possono raggiungere percentuali di corretto riconoscimento dell’ordine del 95%-98% (anche se questi risultati valgono principalmente in ambiti specifici modellati da grammatiche dipendenti dall’applicazione). Queste prestazioni hanno permesso l’impiego delle tecnologie vocali in ambiti diversificati quali i call center, i centralini aziendali, le pagine bianche o gialle, l’accesso ad informazioni, i portali vocali, ecc. I miglioramenti degli algoritmi di riduzione del rumore permettono applicazioni vocali in ambienti rumorosi, quali le automobili, la casa o gli ambienti pubblici in genere, anche se ulteriori progressi sono auspicabili. Un altro sfidante campo di applicazione è la comprensione del parlato conversazionale e spontaneo, spesso indicato con il termine di Linguaggio Naturale (Natural Language), che permetterebbe lo sviluppo di interfacce vocali ancora più efficaci in grado di colloquiare in modo estensivo. Anche se le prestazioni possono migliorare, ciò nonostante sono già nate le prime applicazioni, ad esempio per l’accesso a orari ferroviari o dei voli aerei (come “FS Informa” realizzato da Loquendo per Trenitalia). Al fine di migliora- 26 re le prestazioni della tecnologia in questo ambito è nato il progetto LUNA, co-finanziato dalla Commissione Europea nell’ambito del sesto programma quadro, area IST, che coinvolge otto realtà tra le più avanzate a livello europeo, e di cui Loquendo è coordinatore. Ora la nuova sfida è l’integrazione dell’input vocale con modalità diverse. 2. TTS: Text-To-Speech, Sintesi da testo Già negli anni 1990 il TTS otteneva dei risultati di intelligibilità molto elevati, ma la voce sintetica era ancora percepita come poco naturale, robotica, e usata raramente in applicazioni vocali preferendo la concatenazione di messaggi preregistrati. Un grande passo si è avuto a metà degli anni ’90, quando è avvenuta la transizione ad una tecnologia di sintesi basata su database di grandi dimensioni statisticamente bilanciati sulla lingua. Loquendo è stata una delle prime aziende a realizzare un prodotto con questa nuova tecnologia di sintesi, detta tecnicamente Unit Selection. Il pregio di questa nuova generazione di TTS è la generazione di una voce sintetica molto naturale e che trova anche nelle interfacce multimodali, talvolta in combinazione con avatar, un ambito di applicazione importante, così come nell’ambito dell’accessibilità. 3. Biometriche vocali Le tecnologie biometriche sono volte ad aumentare la sicurezza verso applicazioni e dati riservati. Quest’area comprende applicazioni diverse: la verifica e l’identificazione del parlatore. La prima permette di verificare se un utente dichiarato è veritiero o un impostore, per accedere ad esempio ad un conto bancario. Si parla, invece, di identificazione quando una persona viene individuata all’interno di un gruppo di parlatori, per esempio per accedere alla casella postale dei componenti di una famiglia. Tutto ciò è possibile perché la voce contiene delle caratteristiche uniche che permettono di distinguere il parlatore e che possono essere utilizzate come marche vocali. Attività di standardizzazione legate alla Voce e al Multimodale Il World Wide Web Consortium (W3C) è uno dei principali enti di standardizzazione per gli I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE ambiti della voce e della multimodalità, nonché del Web in generale. Esistono due gruppi, a cui partecipano oltre 30 organizzazioni, e Loquendo è un membro attivo in entrambi. 1. Voice Browser Working Group (www.w3.org/voice) Creato nel 1998, sta completando una prima suite di specifiche legate al vocale e recentemente ha iniziato a lavorare verso una seconda generazione di linguaggi: 쩦 Per le Applicazioni Vocali, il linguaggio più noto è il VoiceXML 2.0 (W3C Recommendation da marzo 2004). Con il VoiceXML non solo lo sviluppo di applicazioni è semplificato, ma soprattutto viene realizzato su architettura Web. La nascita del VoiceXML ha spinto la creazione di piattaforme basate su di esso e di ambienti di sviluppo e soluzioni in hosting per servizi vocali. 쩦 ASR: la specifica di riferimento è Speech Recognition Grammar Specification (SRGS) anch’essa W3C Recommendation da marzo 2004, largamente adottata da prodotti di ASR disponibili sul mercato (es. Loquendo ASR). Le grammatiche SRGS possono essere descritte in due formati omologhi: il primo basato su XML, il secondo più compatto in formato testuale ABNF. Recentemente è in fase finale di standardizzazione una seconda specifica, Semantic Interpretation for Speech Recognition (SISR), che completa SRGS nella parte di formattazione e validazione dei risultati di riconoscimento ed utilizza il linguaggio ECMAScript (dovrebbe diventare W3C Recommendation nel corso del 2007). 쩦 TTS: la specifica di riferimento è Speech Synthesis Markup Language Specification (SSML) che permette il controllo di un TTS tramite un linguaggio XML. È largamente adottato dai produttori di TTS (es. Loquendo TTS) e recentemente è iniziata un’intensa attività in W3C per favorirne l’utilizzo su lingue molto diverse dall’inglese (es. lingue asiatiche: Cinese Mandarino, Coreano, Giapponese, lingue indiane, lingue semitiche, ecc.); le nuove evoluzioni convergeranno nella versione SSML 1.1. 쩦 Call Control: la specifica Voice Browser Call Control (CCXML) descrive un linguaggio XML basato su eventi per gestire il call control, i trasferimenti di chiamata o le audioconferenze. Questo linguaggio, benché ancora in fase di standardiz- MARZO 2007 zazione, può generare una rivoluzione nel mondo degli IVR forse pari alla nascita del VoiceXML. 2. Multimodal Interaction Working Group (www.w3.org/2002/mmi) Fu fondato nel 2002 con l’obiettivo di creare una cornice per lo sviluppo di applicazioni multimodali integrate nel contesto Web. Un notevole sforzo è stato dedicato a raccogliere Use Case e a definire il Multimodal Interaction Framework. Recentemente il lavoro si è indirizzato verso la definizione di un’architettura multimodale. Alcune altre specifiche in via di sviluppo in ambito multimodale sono: Extensible Multimodal Annotation (EMMA), linguaggio volto ad annotare in XML risultati di riconoscimento, ma anche di altre modalità, quali la scrittura o il gesture; una seconda specifica è inkML, un formato XML per dati catturati da penna o stylus di interesse dei produttori di terminali. EMMA potrebbe avere un ruolo importante per standardizzare l’accesso a server di tecnologie vocali tramite il protocollo Media Resource Control Protocol (MRCP versione 2), in via di definizione da parte di IETF. In ambito vocale e multimodale sono poi attivi due forum industriali: 1. VoiceXML Forum (www.voicexml.org): fondato da AT&T, Lucent, IBM e Motorola, inventore del VoiceXML 1.0 nel 1999, sottoposto poi al W3C per la sua standardizzazione e risultato nel VoiceXML 2.0. Il VoiceXML Forum è molto attivo nel promuovere education, in attività di marketing e nella creazione tramite due programmi di certificazione, per sviluppatori VoiceXML e per piattaforme che supportano VoiceXML 2.0 (a fine 2006, erano certificate 19 piattaforme). È importante ricordare che la VoiceXML Review è la migliore rivista dedicata a VoiceXML e tecnologie collegate. Il Forum ha recentemente sponsorizzato anche il linguaggio multimodale XHTML+VoiceXML, detto X+V, proposto da IBM, Motorola e Opera. 2. SALT Forum (www.saltforum.org): fondato da Microsoft, Comverse, Cisco, Philips, ScanSoft e Intel, nel 2001 ha proposto il linguaggio Speech Application Language Tag (SALT), che consiste in un’aggiunta di alcuni elementi a HTML/XHTML, WML, o SMIL, per farli interoperare con la voce. 27 TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI Tipi di device ed aspetti architetturali È evidente che la multimodalità sia molto efficace su terminali piccoli, ma il suo campo di utilizzo è più ampio e potrebbe rivelarsi utile anche su personal computer e tablet PC. Nei capitoli successivi verranno illustrate le tre categorie in cui è possibile raggruppare i terminali, ossia le tipologia dette “thin”, “medium” e “thick” (Fig. 1); per ognuna di esse verranno descritti alcuni aspetti architetturali peculiari. Thin device Gli Smart Phone e i cellulari sono detti Thin device, vale a dire terminali leggeri, perché portabili ed usabili in ogni luogo coperto dalla rete mobile. Si tratta dei terminali più promettenti, ma allo stesso tempo più difficili da gestire per gli sviluppatori di applicazioni multimodali. Infatti, le restrizioni in termini di potenza di calcolo, di memoria e di capacità di connessione dati sono ancora rilevanti. Le prime applicazioni sono semplici, quali servizi per scaricare suonerie o sfondi per cellulare, dove la selezione avviene tramite il riconoscimento vocale. Altre applicazioni più sfidanti sono le Pagine Gialle multimodali con visualizzazione di mappe e informazioni turistiche. In questo tipo di interfacce multimodali la voce viene attivata tramite Push-To-Talk (PTT) e viene utilizzata principalmente per la selezio- ne di elementi appartenenti a liste molto lunghe, mentre le conferme possono avvenire agevolmente tramite i tasti del terminale. L’evoluzione di più potenti terminali mobili e della rete UMTS ridurrà di molto le limitazioni attuali e porterà a breve alla nascita di servizi multimodali di seconda generazione. L’architettura di riferimento può essere serverbased, in cui la logica di servizio e le tecnologie vocali risiedono interamente su server (Fig. 2). Un esempio di applicazione multimodale di questo tipo è il servizio offerto dalla banca spagnola Bankinter, per il quale Kirusa ha fornito l’applicazione, integrando nella propria piattaforma multimodale le tecnologie di Loquendo. I servizi sono di home-banking e di brokerage telefonico. Un’altra possibile architettura è client-server con il riconoscimento vocale distribuito (DSR – Distributed Speech Recognition): sul server risiedono la logica di servizio e i componenti più onerosi computazionalmente (Fig. 3), l’ASR è distribuito tra il client, residente sul terminale, e il server stesso, mentre il TTS a tendere potrà essere disponibile sul client. In questa architettura la parte del riconoscitore che risiede sul terminale (Front-End) estrae i parametri (prima fase di signal processing di un ASR) e li trasmette tramite un canale dati verso il server. Il gruppo di lavoro ETSI-DSR Aurora ha stan- FIGURA 1. LE TRE CALSSI DI DEVICE. Thin devices Medium devices MOBILE PHONE TABLET PC SMARTPHONE KLOSK HOME Thick devices DESKTOP PC PDA AUTOMOTIVE LAPTOP PC 28 I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE Server side Thin devices TTS HTTP WEB APPLICATION BROWSER TERMINAL DRS FRONT-END DSR PROTOCOL WIRELESS DATA CHANNEL SERVER DRS BACK-END RECOGNITION DECODER DPEECH SERVER Voice extraction MELCEPSTRUM COMPRESSION SPLIT VQ ERROR DETECTION E MITIGATION ERROR PROTECTION DECOMPRESSION FIGURA 2. ARCHITETTURA SERVER-BASED SU THIN DEVICE. dardizzato il Front-End e definito un protocollo di trasmissione basato su RTP. Il Front-End di ETSI DSR Aurora era stato definito per comprimere il segnale vocale per reti a bassa banda fino a 4.8 kbps ed allo stesso tempo aumentare l’accuratezza dell’ASR rendendo la comunicazione digitale robusta ai degradi tipici della rete mobile. Con le nuove reti mobili le limitazioni di banda non sono più particolarmente rilevanti, ma la compressione favorisce comunque un’ottimizzazione nell’utilizzo della banda disponibile che, soprattutto in caso di applicazioni multimodali, viene utilizzata anche dal canale visuale. Medium device Una seconda categoria di terminali è costituita da PDA e Tablet PC, spesso definiti Medium device. In questi terminali le dimensioni non sono particolarmente limitate, ma sono presenti modalità alternative, come lo stylus o una piccola tastiera, che possono creare ostacoli nell’usabilità. In questo gruppo sono possibili delle architetture client-based: TTS e ASR possono essere installati sul terminale, riducendo il numero di richieste verso il server ed anche la necessità di trasmissione della voce (Fig. 4). Anche le architetture descritte in precedenza sono possibili, soprattutto se le applicazioni vocali sono molto complesse e richiedono grammatiche di grandi dimensioni. Sono già disponibili browser che permettono l’integrazione della voce per realizzare applicazioni multimodali sia tramite il linguaggio SALT sia mediante X+V. Queste soluzioni possono trarre vantaggio da connessioni veloci basate su Wi-Fi, le applicazioni possibili sono quelle realizzabili in-door in aziende (per esempio logistiche), oppure ospedali, università, ma anche in casa o in aree urbane attrezzate, aeroporti, stazioni. Anche le applicazioni per l’uso in auto appartengono a questa categoria. Infine, possono ricadere in questo gruppo i chioschi posizionati in luoghi pubblici, dove deve essere favorito l’accesso per tutti. Un primo esempio prototipale di applicazione multimodale in questo ambito è il MATCHKiosk creato da AT&T e disponibile in alcune città statunitensi. La sua FIGURA 3. ARCHITETTURA CLIENT-SERVER CON DSR AURORA. Thin devices Server side HTTP WEB APPLICATION BROWSER SPEECH SERVER VOICE SS PROTOCOL MARZO 2007 29 TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI Medium devices Server side TTS HTTP BROWSER WEB APPLICATION ASR FIGURA 4. ARCHITETTURA CON TECNOLOGIE VOCALI EMBEDDED (CLIENT-BASED). interfaccia è un touch-screen che supporta anche l’utilizzo della penna come input e fornisce informazioni turistiche integrando la voce sintetica con un operatore virtuale visibile sullo schermo. Thick device Esiste un’ultima categoria di terminali rappresentata dai PC (desktop o laptop), qui indicati A C R O N I M I ABNF AP ASR CCXML DSR EMMA ETSI Augmented Backus-Naur Form Application Programming Interface Automatic Speech Recognition Call Control Markup Language Distributed Speech Recognition Extensible MultiModal Annotation European Telecommunications Standards Institute GPS Global Positioning System HTML Hypertext Markup Language IETF Internet Engineering Task Force IST Information Society Technologies MMS Multimedia Messaging Service MRCP Media Resource Control Protocol PDA Personal Digital Assistant PTT Push To Talk SALT Speech Application Language Tags SAPI Speech API SISR Semantic Interpretation for Speech Recognition SMIL Synchronized Multimedia Integration Language SMS Short Message Service SRGS Speech Recognition Grammar Specification SSML Speech Synthesis Markup Language TTS Text To Speech Wi-Fi Wireless Fidelity WML Wap Markup Language W3C World Wide Web Consortium XHTML Extensible Hypertext Markup Language XML Extensible Markup Language X+V XHTML+VoiceXML 30 come Thick device. In questo caso la dimensione dello schermo e della tastiera non rappresentano una limitazione; le tecnologie vocali possono essere installate direttamente sul PC e, nel caso di ambiente Microsoft, integrate facilmente mediante interfaccia SAPI. In questo contesto le tecnologie vocali e la multimodalità possono arricchire giochi o integrare avatar in applicazioni Web. La voce, inoltre, può essere utilizzata come tecnologia biometrica per garantire o limitare l’accesso a risorse o dati sensibili. Infine, le tecnologie vocali, soprattutto se integrate con altre modalità, potrebbero ricoprire un ruolo fondamentale nel favorire l’accessibilità per persone diversamente abili. Conclusioni La multimodalità è la nuova frontiera dell’interazione uomo-macchina del terzo millennio. Essa rappresenta una significativa opportunità per gli operatori di telecomunicazioni di incrementare i propri ricavi attraverso la differenziazione dell’offerta e la spinta all’uso intensivo della rete. Sebbene debbano ancora essere superate numerose barriere tecnologiche, tuttavia l’ostacolo maggiore resta l’utente: il dialogo con una macchina è ancora considerato innaturale e spesso, come ad esempio negli ambienti affollati, pone problemi di privacy. Il punto chiave su cui focalizzarsi è l’accettabilità della tecnologia, e ciò potrà accadere solo se i fornitori tecnologici sapranno rendere le interfacce personalizzabili, assicurando la libertà di scegliere come e quando privilegiare alcune modalità rispetto alle altre; sarà altresì necessario riuscire a far percepire i vantaggi agli utilizzatori, ma per questo occorrono applicazioni e servizi in grado di sfruttare al meglio le potenzialità della multimodalità. Paolo Baggia, Silvia Mosso Loquendo I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE La resocontazione multimodale esigenza della “resocontazione”, cioè la pubblicazione (su carta o su qualsiasi altro medium) del testo di quanto viene detto da un oratore, può considerarsi connessa alla stessa comunicazione del pensiero. Il valore del discorso si accresce e si rinnova con la sua diffusione, raggiungendo categorie di utenti più ampie e diverse. A questa attività si dedicava Tirone, che ci ha tramandato le brillanti arringhe di Cicerone; ricordiamo anche i reports del Parlamento inglese pubblicati sulla stampa londinese che consentivano di conoscere i discorsi parlamentari. Malgrado gli enormi progressi tecnici, l’esigenza di “rendere conto” (compte rendu in francese) appare oggi più vera che mai, poiché è legata al diritto alle informazioni che caratterizza le società di democrazia avanzata e industrializzate. Storicamente per la redazione dei resoconti parlamentari e giornalistici è stata utilizzata la stenografia. L’origine di questa tecnica è collegata alla sfida dell’uomo di fissare velocemente e fedelmente il discorso. In passato non esisteva altro mezzo idoneo a fissare il parlato con la stessa completezza e celerità dei metodi abbreviativi, che furono impiegati in ogni parte del mondo. L’identificazione fra stenografia e resocontazione si è perpetuata fino ai giorni nostri ed è per questa antica “esclusiva” che ancora oggi nelle Assemblee elettive di molti paesi coloro che provvedono alla redazione del resoconto sono qualificati “stenografi”. Contemporaneamente alla invenzione della macchina per scrivere (o forse anche prima), sul finire del XIX secolo, furono brevettate le prime macchine stenotipiche; ricordiamo il sistema fonografico di Antonio Michela Zucco in Italia, la macchina Stenograph negli Stati Uniti e la Grand Jean in Francia. La stenotipia conserva i caratteri peculiari della stenografia: il metodo abbreviativo, dal quale si ricavano le “sigle”, e l’investigazione dei tratti salienti del linguaggio al fine di rappresentarlo in segni (per esempio, l’approccio fonetico). Tuttavia introduce alcuni elementi innovativi che più tardi si riveleranno decisivi e discriminanti, consentendo una trattazione più flessibile ed efficace del parlato. Si considerino, in proposito, le L’ MARZO 2007 lungimiranti intuizioni di Antonio Michela, il quale nell’atto di privativa industriale del suo apparecchio fonografico ne sottolineava le prospettive di utilizzo “per la riproduzione di un discorso per mezzo dell’elettricità” e “per utilizzare la recente e portentosa invenzione del telefono” (E. Angeloni e P. Michela Zucco, Il sistema stenografico Michela, Colombo, Roma 1984, pag. VIII). La rivoluzione informatica che si verificherà cento anni dopo quelle scoperte realizzerà il sogno di Michela: l’utilizzo della stenotipia nella sottotitolazione in tempo reale per i non udenti costituisce l’attuale punto di arrivo! Il riconoscimento del parlato Più recentemente, il perfezionamento del riconoscimento automatico del parlato ha ampliato il novero dei mezzi a disposizione. Il resocontista non ha più bisogno di una abilità “costruita”, come era nel caso della stenografia e della stenotipia, che richiedevano un lungo processo formativo; si serve della sua abilità naturale, ascolta e ripete con la voce le parole pronunciate dall’oratore, che vengono riconosciute e trasformate in testo scritto da un apposito software. Anche il riconoscimento vocale, oggi largamente usato per la redazione dei resoconti parlamentari e giudiziari, conserva le caratteristiche tipiche delle scritture veloci. Lo studio e l’addestramento all’uso razionale della tastiera del computer danno nuovo smalto ed efficacia anche alla dattilografia, impiegata in passato solo per copiare manoscritti: essa si aggiunge agli altri svariati metodi di ripresa del parlato. L’affermarsi di tecniche e tecnologie che (anche) per la loro adattabilità informatica si discostano da quelle stenografiche mette in crisi l’identificazione storica fra resocontazione e stenografia e rimuove il pregiudizio che solo lo stenografo manuale o lo stenotipista possano svolgere la funzione del resocontista. La resocontazione oggi Oggi si considera meno rilevante lo strumento utilizzato per riprendere e trascrivere un discorso. 31 LA RESOCONTAZIONE MULTIMODALE Convivono tecniche e tecnologie diverse e ugualmente efficaci. Per esempio, la Camera dei deputati ha abbandonato la stenografia ed è passata all’impiego del riconoscimento del parlato e della registrazione per la redazione dei resoconti stenografici, mentre in Senato un nuovo programma consente di sfruttare informaticamente la stenotipia Michela. Il Parlamento tedesco, che in occasione del trasferimento a Berlino avrebbe potuto riconsiderare l’organizzazione del lavoro di resocontazione, ha invece confermato l’impiego della stenografia manuale, mentre la House of Commons inglese si affida a gruppi di dattilografi che trascrivono le registrazioni digitali delle sedute. Tecniche e organizzazioni del lavoro analoghe sono utilizzate anche in Austria, in Svizzera, in Francia. L’esclusività dello strumento stenografico era stata messa in discussione già in precedenza dall’avvento della registrazione. Essa ha offerto all’uomo la possibilità di dare eternità alle sue parole, al tono e all’enfasi del discorso, in modo completo, fedele, esaustivo. Più tardi la registrazione digitale ha aggiunto ulteriore ricchezza: non solo la riproduzione delle parole, ma anche una trasformazione in “dati” che ammette quei suoni alla archiviazione, alla ricerca, alla trasmissione, all’accesso a distanza. Sono state sviluppate sofisticate tecniche di “trascrizione automatica” dei discorsi che sfruttano le tecnologie del riconoscimento del parlato. Questi programmi basati sulle ricerche nel campo del Trattamento automatico del linguaggio, offrono possibilità che erano impensate solo pochi anni fa: il computer trascrive automaticamente quanto dice l’oratore, con livelli di riconoscimento assai soddisfacenti. Inoltre, in base all’individuazione di parole chiave o frasi può classificare il discorso o la trasmissione (per esempio un servizio giornalistico televisivo), può sintetizzare, può tradurre in una o più lingue straniere eccetera. Si domanda a cosa serva uno stenografo se c’è il registratore? È più difficile immaginare che l’attività del “resocontista” sia assorbita dalla trascrizione automatica; l’aiuto che offre la registrazione digitale comunque è evidente. L’utilità della stenografia Se è vero che il registratore è il migliore stenografo (lo sanno bene i resocontisti), la 32 domanda sull’utilità dello stenografo nell’era della registrazione digitale riflette la perdurante confusione fra ripesa del parlato e trattamento della comunicazione, ignorando il valore cruciale di quella che chiamiamo resocontazione. Che non consiste semplicemente nella riproduzione delle parole pronunciate, ma è una attività complessa di trattamento intellettuale e linguistico della manifestazione del pensiero (grammaticale, sintattico, estetico eccetera), con il fine di renderla pubblica per destinatari e con modi diversi. In questo consiste l’apporto più difficile, più prezioso del resocontista. Ma la trattazione di un evento di comunicazione non si limita all’intervento intellettuale. C’è il problema della forma, del modo, del mezzo con cui si raggiunge l’utente (quale utente? Quali esigenze?). Si tratta di individuare la maniera più efficace per fornire un’informazione completa, mirata, tempestiva. Si può parlare allora di resoconto multimediale o multimodale. Abbandonato l’abito stretto della stenografia, la resocontazione utilizza mezzi diversi (multimediale) e si concretizza in vari prodotti o modi di accesso alle informazioni (multimodale). Oggi si conviene sul fatto che: 쩦 il testo scritto non è l’unica forma di accesso alle informazioni. 쩦 la trascrizione da sola non facilita la comprensione dei concetti espressi. 쩦 la trascrizione di un discorso è solo il punto di partenza della resocontazione. 쩦 gli utenti dell’informazione non sono uguali e utilizzano diversi media per accedere a un evento. 쩦 gli strumenti della comunicazione sono molteplici e non alternativi, essi concorrono alla diffusione delle informazioni e della conoscenza. La maggiore consapevolezza dei vantaggi di una trattazione approfondita e organica della comunicazione favorisce la domanda di servizi qualificati. Il cliente che commissiona la trascrizione di un convegno sarebbe sorpreso se ricevesse la semplice scrittura di quanto detto dagli oratori, vuole un testo di qualità, leggibile, chiaro, scorrevole. Una trascrizione pura e semplice ha un valore del tutto trascurabile rispetto a un resoconto leggibile, logico, com- I quaderni di CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE FIGURA 1. IL SENATO DELL’ANTICA ROMA NELL’AFFRESCO DI CESARE MACCARI pleto, corretto nei riferimenti, nelle informazioni che vi compaiono. Per comprendere il valore del resoconto dobbiamo cogliere di cosa c’è dietro la trascrizione del testo: il “metaresoconto” è l’efficacia informativa che assume il discorso con la pubblicazione (su carta, su Internet, su uno schermo televisivo). Esempi di resocontazione multimodale L’immissione in una banca dati di una serie di verbali (per esempio quelli delle udienze penali) produce un archivio dove si può ricercare, estrapolare, incrociare le informazioni a fini molteplici. In ambito giudiziario si va diffondendo anche il cosiddetto “fascicolo elettronico del processo”: la trascrizione dei dibattimenti si unisce alla documentazione del procedimento, alle registrazioni audio/video delle udienze, alle foto dei reperti o alla scansione di documenti cartacei, in un CD-Rom all’interno del quale si può navigare agevolmente alla ricerca degli elementi di maggiore interesse. Consideriamo i siti Internet della Camera e del Senato dove l’utente può trovare l’audio e il video delle sedute in corso o di quelle passate. MARZO 2007 Un tempo lo stenografo si limitava a redigere il testo degli interventi, il resoconto stenografico. Oggi le forme di pubblicità dei lavori parlamentari sono più complesse e complete, vengono corredate da un mezzo comunicativo formidabile, le immagini, ed è possibile ricercare determinate parole, frasi, oratori e così via. È una modalità di accesso del tutto nuova: non solo perché è più piacevole e coinvolgente, ma perché realizza un prodotto (digitale) che può essere utilizzato in molteplici varianti. Ad esempio, può essere fruito senza intermediazioni da chiunque in casa propria grazie ala crescente diffusione delle connessioni veloci. Inoltre, si tratta di dati che possono essere archiviati e gestiti in modo flessibile. Il resoconto sommario, cioè la sintesi dei concetti e delle decisioni principali di una riunione, aggiunge ai discorsi degli oratori il pregio dell’agilità e dell’efficacia informativa. Per redigere un resoconto sommario sono necessarie competenze professionali specifiche e un approfondimento accurato delle materie trattate, per cogliere il significato essenziale, il fine degli interventi. La sottotitolazione di una lezione universitaria o delle relazioni in un convegno, oltre alla trascri- 33 LA RESOCONTAZIONE MULTIMODALE FIGURA 2. FIGURA 2. LA MACCHINA STENOGRAFICA MICHELA. zione di quanto esposto, consente l’accesso del non udente a informazioni che altrimenti gli sarebbero precluse. La sincronizzazione dell’audio o di un video con il testo del suo contenuto, rappresenta un’eccezionale strumento per ricercare nel file multimediale il punto in cui sono state pronunciate determinate parole o ha iniziato a parlare un oratore. Una ricaduta positiva la resocontazione multimediale e multimodale la determina anche sulle prospettive professionali. La “liberazione” dal mezzo utilizzato (stenografia, stenotipia, riconoscimento del parlato) e la rinnovata aderenza al 34 valore intellettuale del prodotto consentono al resocontista di rilanciare la propria attività, in un epoca e in una società in cui l’accesso alle informazioni costituisce una chiave essenziale della conoscenza. In questa prospettiva, quella della resocontazione appare una multimedialità “evolutiva”, connotata da una accentuata flessibilità, da una elevata innovazione tecnologica, dall’economicità del prodotto, da un’efficacia realmente misurabile in termini di quantità e qualità. Fausto Ramondelli Senato della Repubblica I quaderni di