Sistemi per la gestione semantica di materiale di supporto in
Transcript
Sistemi per la gestione semantica di materiale di supporto in
Peer Reviewed Papers Sistemi per la gestione semantica di materiale di supporto in piattaforme di e-learning Vincenzo Di Lecce1, Marco Calabrese1, Domenico Soldo2, Antonella Giove3 DIASS – Politecnico di Bari, 2myHermes s.r.l., 3II Facoltà di Ingegneria - Politecnico di Bari 1 Keywords: semantica, WordNet, chatbot Abstract Il lavoro descrive un sistema a base semantica per piattaforme di e-learning finalizzato alla automatizzazione di alcune attività altamente “timeconsuming” a carico degli attori del processo cognitivo. A tal scopo il sistema, al contempo, facilita il docente nella organizzazione del materiale di supporto al Learning Object impartito e guida il discente nell’apprendimento della struttura di conoscenza specifica di dominio. Relativamente al primo di questi aspetti, si richiede al formatore solo di indicare delle risorse in formato digitale (e-books, documenti, pagine Web) che trattino in maniera strutturata l’argomento somministrato. Sul lato del discente, l’interazione con un chatbot rende più interattiva la ricerca e l’esplorazione dei contenuti. L’ assistente virtuale guida lo studente nel processo di comprensione strutturata dei contesti a diversi livelli di dettaglio (libro, capitolo, paragrafo, capoverso, frase) e nella loro reciproca organizzazione logica. La base di conoscenza è realizzata ispirandosi al paradigma del Web Semantico ed utilizza WordNet come ontologia di riferimento. Un prototipo del sistema è attualmente in fase di test presso il Laboratorio AeFLab del Politecnico di Bari. | Journal of e-Learning and Knowledge Society Vol. 6, n. 3, Settembre 2010 (pp. 61 - 70) ISSN: 1826-6223 | eISSN: 1971-8829 | Peer Reviewed Papers - Vol. 6, n. 3, Settembre 2010 1 Introduzione Il Web rappresenta oggi la più grande collezione pubblica di documenti al mondo, con decine di migliaia di nuovi inserimenti ogni giorno ed un panorama di servizi e soluzioni tecnologiche in continua evoluzione. Negli ultimi anni, l’affermazione progressiva di strumenti che danno a chiunque la possibilità di pubblicare e condividere contenuti collaborando con altri utenti connessi (il cosiddetto fenomeno del ‘Web 2.0’) ha comportato anche un cambiamento culturale in termini di adozione di nuove strategie di comunicazione, conoscenza e apprendimento. In questo contesto, il Web di nuova generazione continua ad avere un forte impatto sulla formazione online. Per esempio gli insegnanti cominciano ad esplorare ed apprezzare le potenzialità dei blog, dei servizi di media-sharing, e di altri social software, che, pur non progettati specificamente in ambito e-learning, permettono di attirare l’attenzione degli studenti, implementando nuove interessanti opportunità di apprendimento. Anche se agevolato dalla molteplicità di strumenti disponibili, l’apprendimento rimane però soprattutto capacità di negoziare nuovi significati. Per questo motivo, lo sviluppo impetuoso dei contenuti ha reso preponderante il ruolo della gestione semantica dell’informazione enfatizzandone il valore strategico anche nei sistemi e-learning. In un ambiente e-learning, il contenuto educativo dovrebbe essere incentrato su piccoli moduli (i cosiddetti Learning Objects (LO)) con semantica associata (o metadati) per consentire il recupero di contenuti per significato. Tali moduli andrebbero poi collegati fra loro in una sorta di “Web concettuale” per facilitare la costruzione di un percorso di apprendimento personalizzato. Ciononostante, nella pratica quotidiana, lo sforzo di annotazione semantica dei metadati richiesto al docente viene raramente condotto. Al contempo permane, soprattutto da parte dello studente inesperto, l’incapacità di superare la barriera linguistica che si frappone fra un’ esplorazione efficace e mirata dei contenuti e la conoscenza di quella terminologia specifica di dominio che paradossalmente dovrebbe aiutare a ritrovarli. In questo scenario, il presente lavoro descrive un sistema a base semantica per piattaforme di e-learning mirante al duplice obiettivo di facilitare il docente nella organizzazione del materiale di supporto al LO impartito e di guidare il discente, soprattutto quello più inesperto, nell’apprendimento della struttura di conoscenza specifica di dominio. 2 Sistemi a base ontologica e chatbot in letteratura Dato un dominio di conoscenza riferito ad un obiettivo didattico, sussistono 62 Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di supporto in piattaforme di e-learning diverse possibili rappresentazioni dei percorsi di apprendimento: ciò impone una riflessione sull’appropriatezza della modalità di presentazione del materiale somministrato rispetto al profilo dello studente ed all’obiettivo di apprendimento che si intende raggiungere (Baker, 2000). Nel caso per esempio delle FAQ (peraltro oggetto di studi da diversi anni (Whitehead, 1995; Sneiders, 1999)), il discente è costretto a visionare autopticamente l’elenco di opzioni possibili al fine di trovare la risposta più in linea con la sua richiesta. Questo processo è tanto più lento ed impreciso quanto minore è la conoscenza che l’utente ha dell’argomento ricercato. Mentre l’utente esperto sarà portato ad analizzare le parole chiave delle FAQ, ovvero i termini specifici di dominio, fino al raggiungimento della coppia domanda/richiesta più idonea alle sue esigenze, è lecito ipotizzare che l’utente inesperto si comporti al contrario più come un ‘random surfer’ poiché guidato da una conoscenza generica priva di espressioni caratterizzanti il dominio concettuale. In quest’ottica, le moderne Tecnologie dell’ Informazione sono chiamate a svolgere un ruolo complesso sia sul versante della produzione ed organizzazione dei contenuti, sia su quello del supporto e guida al discente nel processo di apprendimento. In entrambi i casi, la rappresentazione della conoscenza svolge un ruolo chiave anche sulla scorta degli studi recenti nell’ambito delle ontologie con particolare riferimento al contesto applicativo del Web semantico. 2.1 Web Semantico ed Ontologie L’affermazione in ambito prevalentemente accademico del Web Semantico (Berners-Lee, 2001) nell’ ultimo decennio ha destato sempre maggiore interesse attorno allo sviluppo di ontologie (Gruber, 1993) che rappresentano un’interessante prospettiva cui guardare per supportare i processi di apprendimento (Adorni et al., 2010). Per ontologia si intende una forma di rappresentazione della conoscenza che consta di due elementi necessari a formare una cosiddetta ‘rete semantica’: i concetti e le relazioni tra essi (Gruber, 1995). A seconda della struttura di questa rete, sia essa un albero (come in una tassonomia) o un grafo (come in una mappa concettuale), variano la complessità e la qualità della conoscenza rappresentata. Di Lecce e Calabrese (2008) discutono di come un buon compromesso fra espressività e complessità computazionale sia rappresentato dal dizionario elettronico WordNet (Fellbaum, 1998). WordNet è un dizionario semantico-lessicale, realizzato da un team di psicolinguisti dell’Università di Princeton. Alcuni dei suoi principali utilizzi (Navigli, 2009) sono nella realizzazione di basi di conoscenza in sistemi NLP (Natural Language Processing) e WSD (Word Sense Disabiguation). WordNet è basato sull’idea di synset ovvero elemento semantico descrivibile attraverso li- 63 | Peer Reviewed Papers - Vol. 6, n. 3, Settembre 2010 ste di parole aventi un significato preciso in un dato contesto. Contrariamente ai dizionari tradizionali ed ai Thesauri, WordNet ha come caratteristica peculiare la navigazione per relazioni semantico-lessicali che rappresentano mappature ricorsive nell’insieme dei synset. Tali strutture all’interno della rete semantica di WordNet rendono possibile l’applicazione di algoritmi di disambiguazione semantica (Navigli & Velardi, 2005) che, dato in ingresso un testo libero, ne disambiguano il contesto ovvero lo associano all’elenco dei synset più adatti a rappresentarne la semantica. Il testo può essere un normale documento di ufficio o, con specifico riferimento al Web Semantico, anche una pagina HTML (Di Lecce et al., 2009). In questo senso WordNet è lo strumento tecnologico candidato ideale per supportare la rappresentazione della conoscenza ed i processi di disambiguazione del contesto. La base di conoscenza, per i limiti intrinseci imposti dal gap semantico, generalmente, permette solo una rappresentazione molto sbiadita della realtà rispetto alla percezione di un osservatore umano. Questo limite si riduce tuttavia allorquando il contesto di riferimento è sufficientemente ristretto e guidato (task-oriented). Uno strumento innovativo di comunicazione uomo-macchina, soprattutto in ambienti Web, è rappresentato dai chatbot, ovvero programmi capaci di sostenere una conversazione con un essere umano in linguaggio naturale (Kerly et al., 2008) su domini ristretti. Sebbene la reale efficacia di questi sistemi si scontri con notevoli difficoltà pratiche e teoriche, la direzione intrapresa anche in ambito e-learning sembra essere questa (Kerly et al., 2007). Esempi tipici di chatbot in letteratura sono ELIZA (fine anni ‘60) ed ALICE, vincitore quest’ultimo di diversi Loebner prize negli anni immediatamente successivi al 2000 e basato sul linguaggio di markup AIML (AIML 1.0.1, 2005). L’AIML permette la definizione di pattern stimolo-risposta alquanto semplici e può essere ottenuto come risultato di un processo automatico di estrapolazione della conoscenza a partire da forme pre-elaborate di informazione quali FAQ e glossario (De Gasperis, 2010); architetture chabot più sofisticate su base probabilistica sono state presentate di recente (Bentivoglio et al., 2010). 3 Sistema proposto Il sistema proposto si configura sia come strumento di organizzazione che di fruizione semantica della conoscenza estratta da materiale in formato digitale. Nel seguito si dettagliano le funzionalità del sistema e gli aspetti salienti di processo ovvero: indicizzazione semantica della conoscenza e gestione dell’interfaccia utente-sistema a mezzo di chatbot. 64 Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di supporto in piattaforme di e-learning 3.1 Funzionalità del sistema Come in ogni piattaforma di e-learning, il sistema prevede l’interfacciamento di due categorie di utenti: il docente ed il discente. Il docente è la figura deputata al caricamento del materiale all’interno della piattaforma, lo studente è tenuto a consultare tali contenuti cercando di identificare, rispetto al suo percorso formativo, quelli che maggiormente affrontano le tematiche di interesse. L’aspetto saliente del sistema risiede nell’incremento di efficienza ed efficacia nelle attività individuali degli attori del processo cognitivo che si sostanzia nella riduzione dei tempi di annotazione semantica dei contenuti (per i docenti) e di fruizione degli stessi (per i discenti). Tale obiettivo è ottenuto, come vedremo, attraverso un processo di indicizzazione semantica automatica basato sull’utilizzo di WordNet. Per meglio definire il comportamento del sistema dal punto di vista dell’utilizzatore, si riporta un diagramma UML dei casi d’uso. In Figura 1 si identificano i due attori che interagiscono rispettivamente con i casi d’uso di sottomissione dei contenuti e di interrogazione degli stessi. Il caso d’uso di indicizzazione estende quello di sottomissione dei contenuti espandendo -il repository di conoscenza non strutturata o parzialmente strutturata da indicizzare. A loro volta, i contenuti indicizzati estendono la base di conoscenza fruibile dallo studente. Fig. 1 - Diagramma UML dei casi d’uso del sistema proposto. I due attori che si interfacciano al sistema sono: il docente ed il discente 3.2 Funzionamento del sistema Il sistema proposto si compone di due processi distinti che condividono la stessa base di conoscenza (Figura 2). Il processo di indicizzazione semantica della conoscenza prevede l’acquisizione di ciascun documento digitale segnalato dal docente, l’estrazione dei dati e della struttura relativi, l’estrazione di etichette semantiche dai dati e l’associazione di queste ultime alla struttura del documento. Il documento viene così indicizzato ed archiviato nella base di conoscenza. Il processo di esplorazione guidata dei contenuti consente al 65 | Peer Reviewed Papers - Vol. 6, n. 3, Settembre 2010 discente di interrogare la base di conoscenza mediante l’ausilio di un chatbot che utilizza un motore di disambiguazione semantica per il processamento delle query ambigue. Nel seguito è fornito un maggior dettaglio di ambedue i processi. Fig. 2 - Processi caratterizzanti il sistema proposto 3.2.1 Indicizzazione semantica della conoscenza I contenuti indicati dal docente sono risorse digitali organizzate secondo una loro struttura interna. In generale, a prescindere dal formato della sorgente informativa, è possibile identificare una struttura ad albero comune a tutte le risorse. Gli elementi riscontrabili di tale articolazione sono molteplici (…libro, capitolo, paragrafo, capoverso, frase…). Le differenze nella strutturazione ‘sintattica’ della conoscenza tra i diversi formati (HTML, XML, e-books, ecc.) risiedono principalmente nella natura dei collegamenti tra le diverse sezioni della risorsa. Ad esempio, all’interno di una pagina HTML il riferimento tra una voce dell’indice ed il suo contenuto è realizzato mediante un link, mentre in un documento aperto, ad es. PDF, il collegamento è fornito dai numeri identificativi della sezione e/o della pagina. Facendo ricorso a software comuni per l’estrazione dei testi e della struttura sintattica dai documenti appartenenti alle diverse tipologie considerate (OCR), il sistema ricava la base di dati linguistici su cui operare. Su di essi è applicata l’analisi semantica secondo tecniche sviluppate in precedenza dagli autori (Di Lecce, 2009). Tale fase porta alla assegnazione ai dati linguistici precedentemente ottenuti di etichette chiamate ‘minuzie’. Le minuzie rappresentano relazioni semantico-lessicali tra i termini della base linguistica. Le minuzie 66 Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di supporto in piattaforme di e-learning così ottenute determinano una rete semantica che rappresenta un sottografo di WordNet specializzato rispetto al dominio di conoscenza. A questo punto le minuzie sono assegnate, in virtù dei termini etichettati, ai diversi elementi di struttura (libro, capitolo, paragrafo, capoverso, frase) caratterizzanti il testo analizzato. In questo modo, attraverso tecniche note di Information Retrieval, è eseguita un’operazione di proiezione della struttura sull’ontologia di WordNet. Si ottengono così i percorsi semantici che caratterizzano il contesto di appartenenza delle risorse analizzate. Al termine di tale processo si ottiene una struttura a grafo assimilabile ad un’ontologia di contesto per ogni singola risorsa. Tale struttura semanticolessicale è, per conseguenza del processo che ne caratterizza la sua definizione, una sottoparte dell’ontologia di WordNet arricchita dei riferimenti ai documenti indicizzati. Ciascuna entità semantico-lessicale contestuale ad una risorsa risulta essere quindi una sua meta-descrizione, in quanto ne descrive il contesto di appartenenza. Ciò permette di eseguire un’indicizzazione semantica delle risorse indicate dal docente ed una più chiara consultazione da parte dello studente (a tal proposito si veda il sottoparagrafo successivo). Nella versione attuale del sistema, i testi trattati sono in lingua inglese e lo strumento di rappresentazione della conoscenza utilizzato, come già anticipato, è WordNet. Tuttavia l’approccio proposto è intrinsecamente multilinguistico. Lo sviluppo da parte della comunità scientifica di dizionari semantico-lessicali sul modello WordNet in altre lingue, tra cui l’italiano, è infatti in fase avanzata di ingegnerizzazione (si prenda ed esempio il progetto MultiWordNet http:// multiwordnet.fbk.eu/english/home.php). 3.2.2 Chatbot di supporto alla esplorazione dei contenuti L’accesso dello studente ai contenuti si caratterizza come un processo di dialogo uomo-macchina. Chi è interessato a conoscere o approfondire un dato argomento raramente sa già a priori cosa troverà (se non in misura alquanto imprecisa) e non conosce i termini di contesto; conseguentemente, l’approfondimento di una tematica richiede un’interrogazione ripetuta del sistema al fine di ritrovare i contenuti di interesse e le mutue relazioni fra essi. Il mediatore in questo processo di dialogo uomo-macchina è realizzato, nel sistema proposto, da un chatbot sviluppato in forma prototipale attraverso un CGI Matlab® appositamente ingegnerizzato allo scopo. Il chatbot, sfruttando la base semantica di conoscenza descritta precedentemente, riceve la query utente formulata in linguaggio naturale e tenta di disambiguarne il contenuto al fine di restituire gli elementi del testo semanticamente più vicini al significato della richiesta. La sequenza di parole ricevute dal chatbot viene confrontata con le entry 67 | Peer Reviewed Papers - Vol. 6, n. 3, Settembre 2010 disponibili nel vocabolario semantico-lessicale (le parole non presenti nel vocabolario vengono trascurate). Generalmente, una parola può avere più di un significato, per cui è applicata una tecnica nota di disambiguazione (Navigli & Velardi, 2005) per trovare le interpretazioni più probabili. In generale, più ambigua è la query, più il matching semantico è operato ad un livello alto della tassonomia semantico-lessicale: ciò significa che la query fa riferimento ad una forma di rappresentazione molto astratta e quindi poco precisa della conoscenza. In questo caso il sistema suggerisce all’utente il livello di astrazione più adatto (libro, capitolo, paragrafo, capoverso) dal quale partire per procedere all’approfondimento della tematica ricercata. In Figura 3 si riporta un esempio di risposta del chatbot alla query in lingua inglese “architecture”. La base di conoscenza di dominio è strutturata a partire da un manuale del Sistema Operativo Linux disponibile on-line e precedentemente segnalato dal docente. Il manuale consta di oltre 6000 pagine organizzate in 16 strutture di primo livello (capitoli), ciascuno dei quali costituito in media da circa 70 sezioni di secondo livello, e così via fino a raggiungere la granularità di singola frase. Fig. 3 - Interfaccia grafica prototipale del chatbot. L’utente effettua richieste di accesso ai contenuti mediante una textbox (sinistra). Il sistema restituisce i risultati semanticamente affini alla richiesta secondo il livello di dettaglio idoneo a disambiguare la risposta (destra). Lo studente è così guidato nella ricerca della granularità più adatta al livello di ambiguità della sua query instaurando così un processo di dialogo con il sistema sotto la supervisione del chatbot. 4 Conclusioni In questo articolo è stato introdotto un sistema per la strutturazione automatica e la fruizione assistita del materiale di supporto a moduli di apprendimento in piattaforme di e-learning. L’aspetto innovativo della proposta risiede nella 68 Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di supporto in piattaforme di e-learning capacità del sistema di predisporre i contenuti secondo una struttura semanticolessicale che indicizza il contenuto linguistico ai diversi livelli in cui il testo è organizzato (per esempio libro, capitolo, paragrafo, capoverso, frase). Questo aspetto ha una profonda ripercussione sia sui tempi di annotazione semantica dei contenuti che in quelli di esplorazione e ricerca degli stessi. Infatti, lo studente che non possiede una conoscenza approfondita dell’argomento oggetto dell’apprendimento produce inevitabilmente query ambigue verso il sistema. Conseguentemente, il sistema risponde restituendo le porzioni di testo al livello di granularità più adatto alla disambiguazione della richiesta garantendo così non solo l’erogazione dei contenuti ma anche l’evidenza del modo in cui è strutturata la conoscenza. Un prototipo del sistema in tecnologia CGI Matlab® è attualmente in fase di test presso il Laboratorio AeFLab del Politecnico di Bari. Bibliografia Adorni G., Battigelli S., Brondo D., Captano N., Coccoli M., Mirando S., Orciuoli F., Stanganelli L., Sugliano A.M., Vivanet G. (2010), Approcci basati su ontologie per l’apprendimento per tutti, in qualunque momento e in ogni luogo: studio dei casi CADDIE e IWT, Journal of e-Learning and Knowledge Society, 2(6), pp. 53-68. AIML 1.0.1 (2005), http://www.alicebot.org/TR/2005/WD-aiml, ALICE Artificial Intelligence Foundation. Bentivoglio C.A., Bonura D., Cannella V., Carletti S., Pipitone A., Pirrone R., Rossi P.G., Russo G. (2010), Agenti intelligenti supporto dell’interazione con l’utente all’interno di processi di apprendimento, Journal of e-Learning and Knowledge Society, 2(6), pp. 27-36. Berners-Lee T., Hendler J., Lassila O. (2001), The Semantic Web, Scientific American. Baker M. (2000), The roles of models in Artificial Intelligence and Education research: a prospective view, Int. Journal of Artificial Intelligence in Education, 11:122143. Di Lecce V., Calabrese M. (2008), Taxonomies and Ontologies in Web Semantic Applications: the New Emerging Semantic Lexicon-Based Model. IEEE Int. Conf. on Intelligent Agents, Web Technologies and Internet Commerce, pp. 277-283. Di Lecce V., Calabrese M., Soldo D (2009), A Semantic Lexicon-based Approach for Sense Disambiguation and Its WWW Application. Int. Conf. on Intelligent Computing. LNCS-LNAI. Vol. 5755/2009 pp. 468-477, Springer-Verlag Berlin Heidelberg 2009 Fellbaum C. (1998), WordNet: An electronic lexical database, MIT Press, Cambridge. De Gasperis G. (2010), Costruzione di Basi di Conoscenza AIML per chatter bot a 69 | Peer Reviewed Papers - Vol. 6, n. 3, Settembre 2010 partire da FAQ e Glossario, Journal of e-Learning and Knowledge Society, 2(6), pp. 79-87. Gruber T.R. (1993), A translation approach to portable ontologies. Knowledge Acquisition, 5(2):199-220. Gruber T.R. (1995), Toward principles for the design of ontologies used for knowledge sharing, Int. Journal of Human and Computer Studies, Vol. 43, pp.907–928. Navigli R. (2009), Word Sense Disambiguation: a Survey. ACM Computing Surveys, 41(2), ACM Press, pp. 1-69. Navigli R., Velardi P. (2005), Structural Semantic Interconnections: a KnowledgeBased Approach to Word Sense Disambiguation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(7), pp. 1063-1074. Kerlya A., Hallb P., Bull S. (2007), Knowledge-Based Systems, Vol. 20, Issue 2, pp. 177-185. Kerly A., Ellis R., Bull S. (2008), Conversational Agents in E-Learning, in T. Allen, R. Ellis & M. Petridis (eds), Applications and Innovations in Intelligent Systems XVI – Proc. of the 28th SGAI Int. Conf. on Innovative Techniques and Applications of Artificial Intelligence, Springer, London, 2008, 169-182. Sneiders E. (1999), Automated FAQ Answering: Continued Experience with Shallow Language Understanding. Question Answering Systems. AAAI Fall Symposium. Technical Report FS-99-02, North Falmouth, Massachusetts, USA, AAAI Press, pp.97-107. Whitehead S.D. (1995), Auto-FAQ: an experiment in cyberspace leveraging, Computer Networks and ISDN Systems, 28(1-2), pp. 137-146. 70