Sistemi per la gestione semantica di materiale di supporto in

Transcript

Sistemi per la gestione semantica di materiale di supporto in
Peer Reviewed Papers
Sistemi per la gestione
semantica di materiale di
supporto in piattaforme di
e-learning
Vincenzo Di Lecce1, Marco Calabrese1, Domenico Soldo2,
Antonella Giove3
DIASS – Politecnico di Bari, 2myHermes s.r.l., 3II Facoltà di
Ingegneria - Politecnico di Bari
1
Keywords: semantica, WordNet, chatbot
Abstract
Il lavoro descrive un sistema a base semantica per piattaforme di e-learning
finalizzato alla automatizzazione di alcune attività altamente “timeconsuming” a carico degli attori del processo cognitivo. A tal scopo il
sistema, al contempo, facilita il docente nella organizzazione del materiale
di supporto al Learning Object impartito e guida il discente nell’apprendimento
della struttura di conoscenza specifica di dominio. Relativamente al primo di
questi aspetti, si richiede al formatore solo di indicare delle risorse in formato
digitale (e-books, documenti, pagine Web) che trattino in maniera strutturata
l’argomento somministrato. Sul lato del discente, l’interazione con un chatbot
rende più interattiva la ricerca e l’esplorazione dei contenuti. L’ assistente
virtuale guida lo studente nel processo di comprensione strutturata dei
contesti a diversi livelli di dettaglio (libro, capitolo, paragrafo, capoverso,
frase) e nella loro reciproca organizzazione logica. La base di conoscenza è
realizzata ispirandosi al paradigma del Web Semantico ed utilizza WordNet
come ontologia di riferimento. Un prototipo del sistema è attualmente in fase
di test presso il Laboratorio AeFLab del Politecnico di Bari.
|
Journal of e-Learning and Knowledge Society
Vol. 6, n. 3, Settembre 2010 (pp. 61 - 70)
ISSN: 1826-6223 | eISSN: 1971-8829
| Peer Reviewed Papers
- Vol. 6, n. 3, Settembre 2010
1 Introduzione
Il Web rappresenta oggi la più grande collezione pubblica di documenti al
mondo, con decine di migliaia di nuovi inserimenti ogni giorno ed un panorama
di servizi e soluzioni tecnologiche in continua evoluzione.
Negli ultimi anni, l’affermazione progressiva di strumenti che danno a
chiunque la possibilità di pubblicare e condividere contenuti collaborando
con altri utenti connessi (il cosiddetto fenomeno del ‘Web 2.0’) ha comportato
anche un cambiamento culturale in termini di adozione di nuove strategie di
comunicazione, conoscenza e apprendimento. In questo contesto, il Web di
nuova generazione continua ad avere un forte impatto sulla formazione online. Per esempio gli insegnanti cominciano ad esplorare ed apprezzare le potenzialità dei blog, dei servizi di media-sharing, e di altri social software, che,
pur non progettati specificamente in ambito e-learning, permettono di attirare
l’attenzione degli studenti, implementando nuove interessanti opportunità di
apprendimento.
Anche se agevolato dalla molteplicità di strumenti disponibili, l’apprendimento rimane però soprattutto capacità di negoziare nuovi significati. Per
questo motivo, lo sviluppo impetuoso dei contenuti ha reso preponderante
il ruolo della gestione semantica dell’informazione enfatizzandone il valore
strategico anche nei sistemi e-learning.
In un ambiente e-learning, il contenuto educativo dovrebbe essere incentrato su piccoli moduli (i cosiddetti Learning Objects (LO)) con semantica
associata (o metadati) per consentire il recupero di contenuti per significato.
Tali moduli andrebbero poi collegati fra loro in una sorta di “Web concettuale”
per facilitare la costruzione di un percorso di apprendimento personalizzato.
Ciononostante, nella pratica quotidiana, lo sforzo di annotazione semantica dei
metadati richiesto al docente viene raramente condotto. Al contempo permane,
soprattutto da parte dello studente inesperto, l’incapacità di superare la barriera
linguistica che si frappone fra un’ esplorazione efficace e mirata dei contenuti e
la conoscenza di quella terminologia specifica di dominio che paradossalmente
dovrebbe aiutare a ritrovarli.
In questo scenario, il presente lavoro descrive un sistema a base semantica
per piattaforme di e-learning mirante al duplice obiettivo di facilitare il docente
nella organizzazione del materiale di supporto al LO impartito e di guidare il
discente, soprattutto quello più inesperto, nell’apprendimento della struttura
di conoscenza specifica di dominio.
2 Sistemi a base ontologica e chatbot in letteratura
Dato un dominio di conoscenza riferito ad un obiettivo didattico, sussistono
62
Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di
supporto in piattaforme di e-learning
diverse possibili rappresentazioni dei percorsi di apprendimento: ciò impone
una riflessione sull’appropriatezza della modalità di presentazione del materiale
somministrato rispetto al profilo dello studente ed all’obiettivo di apprendimento che si intende raggiungere (Baker, 2000).
Nel caso per esempio delle FAQ (peraltro oggetto di studi da diversi anni
(Whitehead, 1995; Sneiders, 1999)), il discente è costretto a visionare autopticamente l’elenco di opzioni possibili al fine di trovare la risposta più in linea
con la sua richiesta. Questo processo è tanto più lento ed impreciso quanto minore è la conoscenza che l’utente ha dell’argomento ricercato. Mentre l’utente
esperto sarà portato ad analizzare le parole chiave delle FAQ, ovvero i termini
specifici di dominio, fino al raggiungimento della coppia domanda/richiesta più
idonea alle sue esigenze, è lecito ipotizzare che l’utente inesperto si comporti
al contrario più come un ‘random surfer’ poiché guidato da una conoscenza
generica priva di espressioni caratterizzanti il dominio concettuale.
In quest’ottica, le moderne Tecnologie dell’ Informazione sono chiamate a
svolgere un ruolo complesso sia sul versante della produzione ed organizzazione dei contenuti, sia su quello del supporto e guida al discente nel processo di
apprendimento. In entrambi i casi, la rappresentazione della conoscenza svolge
un ruolo chiave anche sulla scorta degli studi recenti nell’ambito delle ontologie
con particolare riferimento al contesto applicativo del Web semantico.
2.1 Web Semantico ed Ontologie
L’affermazione in ambito prevalentemente accademico del Web Semantico
(Berners-Lee, 2001) nell’ ultimo decennio ha destato sempre maggiore interesse
attorno allo sviluppo di ontologie (Gruber, 1993) che rappresentano un’interessante prospettiva cui guardare per supportare i processi di apprendimento
(Adorni et al., 2010).
Per ontologia si intende una forma di rappresentazione della conoscenza
che consta di due elementi necessari a formare una cosiddetta ‘rete semantica’:
i concetti e le relazioni tra essi (Gruber, 1995). A seconda della struttura di
questa rete, sia essa un albero (come in una tassonomia) o un grafo (come in
una mappa concettuale), variano la complessità e la qualità della conoscenza
rappresentata. Di Lecce e Calabrese (2008) discutono di come un buon compromesso fra espressività e complessità computazionale sia rappresentato dal
dizionario elettronico WordNet (Fellbaum, 1998).
WordNet è un dizionario semantico-lessicale, realizzato da un team di
psicolinguisti dell’Università di Princeton. Alcuni dei suoi principali utilizzi
(Navigli, 2009) sono nella realizzazione di basi di conoscenza in sistemi NLP
(Natural Language Processing) e WSD (Word Sense Disabiguation). WordNet è
basato sull’idea di synset ovvero elemento semantico descrivibile attraverso li-
63
| Peer Reviewed Papers
- Vol. 6, n. 3, Settembre 2010
ste di parole aventi un significato preciso in un dato contesto. Contrariamente ai
dizionari tradizionali ed ai Thesauri, WordNet ha come caratteristica peculiare
la navigazione per relazioni semantico-lessicali che rappresentano mappature
ricorsive nell’insieme dei synset. Tali strutture all’interno della rete semantica
di WordNet rendono possibile l’applicazione di algoritmi di disambiguazione
semantica (Navigli & Velardi, 2005) che, dato in ingresso un testo libero, ne
disambiguano il contesto ovvero lo associano all’elenco dei synset più adatti
a rappresentarne la semantica. Il testo può essere un normale documento di
ufficio o, con specifico riferimento al Web Semantico, anche una pagina HTML
(Di Lecce et al., 2009). In questo senso WordNet è lo strumento tecnologico
candidato ideale per supportare la rappresentazione della conoscenza ed i processi di disambiguazione del contesto.
La base di conoscenza, per i limiti intrinseci imposti dal gap semantico,
generalmente, permette solo una rappresentazione molto sbiadita della realtà
rispetto alla percezione di un osservatore umano. Questo limite si riduce tuttavia allorquando il contesto di riferimento è sufficientemente ristretto e guidato
(task-oriented).
Uno strumento innovativo di comunicazione uomo-macchina, soprattutto
in ambienti Web, è rappresentato dai chatbot, ovvero programmi capaci di sostenere una conversazione con un essere umano in linguaggio naturale (Kerly
et al., 2008) su domini ristretti. Sebbene la reale efficacia di questi sistemi si
scontri con notevoli difficoltà pratiche e teoriche, la direzione intrapresa anche
in ambito e-learning sembra essere questa (Kerly et al., 2007).
Esempi tipici di chatbot in letteratura sono ELIZA (fine anni ‘60) ed ALICE,
vincitore quest’ultimo di diversi Loebner prize negli anni immediatamente successivi al 2000 e basato sul linguaggio di markup AIML (AIML 1.0.1, 2005).
L’AIML permette la definizione di pattern stimolo-risposta alquanto semplici e
può essere ottenuto come risultato di un processo automatico di estrapolazione
della conoscenza a partire da forme pre-elaborate di informazione quali FAQ
e glossario (De Gasperis, 2010); architetture chabot più sofisticate su base
probabilistica sono state presentate di recente (Bentivoglio et al., 2010).
3 Sistema proposto
Il sistema proposto si configura sia come strumento di organizzazione che di
fruizione semantica della conoscenza estratta da materiale in formato digitale.
Nel seguito si dettagliano le funzionalità del sistema e gli aspetti salienti di
processo ovvero: indicizzazione semantica della conoscenza e gestione dell’interfaccia utente-sistema a mezzo di chatbot.
64
Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di
supporto in piattaforme di e-learning
3.1 Funzionalità del sistema
Come in ogni piattaforma di e-learning, il sistema prevede l’interfacciamento di due categorie di utenti: il docente ed il discente. Il docente è la figura
deputata al caricamento del materiale all’interno della piattaforma, lo studente è
tenuto a consultare tali contenuti cercando di identificare, rispetto al suo percorso formativo, quelli che maggiormente affrontano le tematiche di interesse.
L’aspetto saliente del sistema risiede nell’incremento di efficienza ed efficacia nelle attività individuali degli attori del processo cognitivo che si sostanzia
nella riduzione dei tempi di annotazione semantica dei contenuti (per i docenti)
e di fruizione degli stessi (per i discenti). Tale obiettivo è ottenuto, come vedremo, attraverso un processo di indicizzazione semantica automatica basato
sull’utilizzo di WordNet.
Per meglio definire il comportamento del sistema dal punto di vista
dell’utilizzatore, si riporta un diagramma UML dei casi d’uso. In Figura 1 si
identificano i due attori che interagiscono rispettivamente con i casi d’uso di
sottomissione dei contenuti e di interrogazione degli stessi. Il caso d’uso di
indicizzazione estende quello di sottomissione dei contenuti espandendo -il
repository di conoscenza non strutturata o parzialmente strutturata da indicizzare. A loro volta, i contenuti indicizzati estendono la base di conoscenza
fruibile dallo studente.
Fig. 1 - Diagramma UML dei casi d’uso del sistema proposto. I due attori che si
interfacciano al sistema sono: il docente ed il discente
3.2 Funzionamento del sistema
Il sistema proposto si compone di due processi distinti che condividono la
stessa base di conoscenza (Figura 2). Il processo di indicizzazione semantica
della conoscenza prevede l’acquisizione di ciascun documento digitale segnalato dal docente, l’estrazione dei dati e della struttura relativi, l’estrazione di
etichette semantiche dai dati e l’associazione di queste ultime alla struttura
del documento. Il documento viene così indicizzato ed archiviato nella base
di conoscenza. Il processo di esplorazione guidata dei contenuti consente al
65
| Peer Reviewed Papers
- Vol. 6, n. 3, Settembre 2010
discente di interrogare la base di conoscenza mediante l’ausilio di un chatbot
che utilizza un motore di disambiguazione semantica per il processamento
delle query ambigue. Nel seguito è fornito un maggior dettaglio di ambedue
i processi.
Fig. 2 - Processi caratterizzanti il sistema proposto
3.2.1 Indicizzazione semantica della conoscenza
I contenuti indicati dal docente sono risorse digitali organizzate secondo
una loro struttura interna. In generale, a prescindere dal formato della sorgente
informativa, è possibile identificare una struttura ad albero comune a tutte le
risorse. Gli elementi riscontrabili di tale articolazione sono molteplici (…libro, capitolo, paragrafo, capoverso, frase…). Le differenze nella strutturazione
‘sintattica’ della conoscenza tra i diversi formati (HTML, XML, e-books, ecc.)
risiedono principalmente nella natura dei collegamenti tra le diverse sezioni
della risorsa. Ad esempio, all’interno di una pagina HTML il riferimento tra
una voce dell’indice ed il suo contenuto è realizzato mediante un link, mentre
in un documento aperto, ad es. PDF, il collegamento è fornito dai numeri identificativi della sezione e/o della pagina.
Facendo ricorso a software comuni per l’estrazione dei testi e della struttura
sintattica dai documenti appartenenti alle diverse tipologie considerate (OCR),
il sistema ricava la base di dati linguistici su cui operare. Su di essi è applicata
l’analisi semantica secondo tecniche sviluppate in precedenza dagli autori (Di
Lecce, 2009). Tale fase porta alla assegnazione ai dati linguistici precedentemente ottenuti di etichette chiamate ‘minuzie’. Le minuzie rappresentano
relazioni semantico-lessicali tra i termini della base linguistica. Le minuzie
66
Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di
supporto in piattaforme di e-learning
così ottenute determinano una rete semantica che rappresenta un sottografo di
WordNet specializzato rispetto al dominio di conoscenza.
A questo punto le minuzie sono assegnate, in virtù dei termini etichettati,
ai diversi elementi di struttura (libro, capitolo, paragrafo, capoverso, frase)
caratterizzanti il testo analizzato. In questo modo, attraverso tecniche note di
Information Retrieval, è eseguita un’operazione di proiezione della struttura
sull’ontologia di WordNet. Si ottengono così i percorsi semantici che caratterizzano il contesto di appartenenza delle risorse analizzate.
Al termine di tale processo si ottiene una struttura a grafo assimilabile ad
un’ontologia di contesto per ogni singola risorsa. Tale struttura semanticolessicale è, per conseguenza del processo che ne caratterizza la sua definizione,
una sottoparte dell’ontologia di WordNet arricchita dei riferimenti ai documenti
indicizzati. Ciascuna entità semantico-lessicale contestuale ad una risorsa risulta essere quindi una sua meta-descrizione, in quanto ne descrive il contesto
di appartenenza. Ciò permette di eseguire un’indicizzazione semantica delle
risorse indicate dal docente ed una più chiara consultazione da parte dello
studente (a tal proposito si veda il sottoparagrafo successivo).
Nella versione attuale del sistema, i testi trattati sono in lingua inglese e lo
strumento di rappresentazione della conoscenza utilizzato, come già anticipato,
è WordNet. Tuttavia l’approccio proposto è intrinsecamente multilinguistico.
Lo sviluppo da parte della comunità scientifica di dizionari semantico-lessicali
sul modello WordNet in altre lingue, tra cui l’italiano, è infatti in fase avanzata
di ingegnerizzazione (si prenda ed esempio il progetto MultiWordNet http://
multiwordnet.fbk.eu/english/home.php).
3.2.2 Chatbot di supporto alla esplorazione dei contenuti
L’accesso dello studente ai contenuti si caratterizza come un processo di
dialogo uomo-macchina. Chi è interessato a conoscere o approfondire un dato
argomento raramente sa già a priori cosa troverà (se non in misura alquanto
imprecisa) e non conosce i termini di contesto; conseguentemente, l’approfondimento di una tematica richiede un’interrogazione ripetuta del sistema al fine
di ritrovare i contenuti di interesse e le mutue relazioni fra essi. Il mediatore in
questo processo di dialogo uomo-macchina è realizzato, nel sistema proposto,
da un chatbot sviluppato in forma prototipale attraverso un CGI Matlab® appositamente ingegnerizzato allo scopo. Il chatbot, sfruttando la base semantica di conoscenza descritta precedentemente, riceve la query utente formulata in linguaggio naturale e tenta di disambiguarne il contenuto al fine di restituire gli elementi del testo semanticamente
più vicini al significato della richiesta.
La sequenza di parole ricevute dal chatbot viene confrontata con le entry
67
| Peer Reviewed Papers
- Vol. 6, n. 3, Settembre 2010
disponibili nel vocabolario semantico-lessicale (le parole non presenti nel vocabolario vengono trascurate). Generalmente, una parola può avere più di un
significato, per cui è applicata una tecnica nota di disambiguazione (Navigli
& Velardi, 2005) per trovare le interpretazioni più probabili. In generale, più
ambigua è la query, più il matching semantico è operato ad un livello alto della
tassonomia semantico-lessicale: ciò significa che la query fa riferimento ad una
forma di rappresentazione molto astratta e quindi poco precisa della conoscenza. In questo caso il sistema suggerisce all’utente il livello di astrazione più
adatto (libro, capitolo, paragrafo, capoverso) dal quale partire per procedere
all’approfondimento della tematica ricercata.
In Figura 3 si riporta un esempio di risposta del chatbot alla query in lingua
inglese “architecture”. La base di conoscenza di dominio è strutturata a partire
da un manuale del Sistema Operativo Linux disponibile on-line e precedentemente segnalato dal docente. Il manuale consta di oltre 6000 pagine organizzate in 16 strutture di primo livello (capitoli), ciascuno dei quali costituito in
media da circa 70 sezioni di secondo livello, e così via fino a raggiungere la
granularità di singola frase.
Fig. 3 - Interfaccia grafica prototipale del chatbot. L’utente effettua richieste di
accesso ai contenuti mediante una textbox (sinistra). Il sistema restituisce
i risultati semanticamente affini alla richiesta secondo il livello di dettaglio
idoneo a disambiguare la risposta (destra). Lo studente è così guidato
nella ricerca della granularità più adatta al livello di ambiguità della sua
query instaurando così un processo di dialogo con il sistema sotto la
supervisione del chatbot.
4 Conclusioni
In questo articolo è stato introdotto un sistema per la strutturazione automatica e la fruizione assistita del materiale di supporto a moduli di apprendimento
in piattaforme di e-learning. L’aspetto innovativo della proposta risiede nella
68
Vincenzo Di Lecce, Marco Calabrese, Domenico Soldo, Antonella Giove - Sistemi per la gestione semantica di materiale di
supporto in piattaforme di e-learning
capacità del sistema di predisporre i contenuti secondo una struttura semanticolessicale che indicizza il contenuto linguistico ai diversi livelli in cui il testo è
organizzato (per esempio libro, capitolo, paragrafo, capoverso, frase). Questo
aspetto ha una profonda ripercussione sia sui tempi di annotazione semantica
dei contenuti che in quelli di esplorazione e ricerca degli stessi. Infatti, lo studente che non possiede una conoscenza approfondita dell’argomento oggetto
dell’apprendimento produce inevitabilmente query ambigue verso il sistema.
Conseguentemente, il sistema risponde restituendo le porzioni di testo al livello
di granularità più adatto alla disambiguazione della richiesta garantendo così
non solo l’erogazione dei contenuti ma anche l’evidenza del modo in cui è
strutturata la conoscenza.
Un prototipo del sistema in tecnologia CGI Matlab® è attualmente in fase
di test presso il Laboratorio AeFLab del Politecnico di Bari.
Bibliografia
Adorni G., Battigelli S., Brondo D., Captano N., Coccoli M., Mirando S., Orciuoli F.,
Stanganelli L., Sugliano A.M., Vivanet G. (2010), Approcci basati su ontologie per
l’apprendimento per tutti, in qualunque momento e in ogni luogo: studio dei casi
CADDIE e IWT, Journal of e-Learning and Knowledge Society, 2(6), pp. 53-68.
AIML 1.0.1 (2005), http://www.alicebot.org/TR/2005/WD-aiml, ALICE Artificial
Intelligence Foundation.
Bentivoglio C.A., Bonura D., Cannella V., Carletti S., Pipitone A., Pirrone R., Rossi
P.G., Russo G. (2010), Agenti intelligenti supporto dell’interazione con l’utente
all’interno di processi di apprendimento, Journal of e-Learning and Knowledge
Society, 2(6), pp. 27-36.
Berners-Lee T., Hendler J., Lassila O. (2001), The Semantic Web, Scientific
American.
Baker M. (2000), The roles of models in Artificial Intelligence and Education research:
a prospective view, Int. Journal of Artificial Intelligence in Education, 11:122143.
Di Lecce V., Calabrese M. (2008), Taxonomies and Ontologies in Web Semantic
Applications: the New Emerging Semantic Lexicon-Based Model. IEEE Int. Conf.
on Intelligent Agents, Web Technologies and Internet Commerce, pp. 277-283.
Di Lecce V., Calabrese M., Soldo D (2009), A Semantic Lexicon-based Approach
for Sense Disambiguation and Its WWW Application. Int. Conf. on Intelligent
Computing. LNCS-LNAI. Vol. 5755/2009 pp. 468-477, Springer-Verlag Berlin
Heidelberg 2009
Fellbaum C. (1998), WordNet: An electronic lexical database, MIT Press,
Cambridge.
De Gasperis G. (2010), Costruzione di Basi di Conoscenza AIML per chatter bot a
69
| Peer Reviewed Papers
- Vol. 6, n. 3, Settembre 2010
partire da FAQ e Glossario, Journal of e-Learning and Knowledge Society, 2(6),
pp. 79-87.
Gruber T.R. (1993), A translation approach to portable ontologies. Knowledge
Acquisition, 5(2):199-220.
Gruber T.R. (1995), Toward principles for the design of ontologies used for knowledge
sharing, Int. Journal of Human and Computer Studies, Vol. 43, pp.907–928.
Navigli R. (2009), Word Sense Disambiguation: a Survey. ACM Computing Surveys,
41(2), ACM Press, pp. 1-69.
Navigli R., Velardi P. (2005), Structural Semantic Interconnections: a KnowledgeBased Approach to Word Sense Disambiguation, IEEE Transactions on Pattern
Analysis and Machine Intelligence, 27(7), pp. 1063-1074.
Kerlya A., Hallb P., Bull S. (2007), Knowledge-Based Systems, Vol. 20, Issue 2, pp.
177-185.
Kerly A., Ellis R., Bull S. (2008), Conversational Agents in E-Learning, in T. Allen,
R. Ellis & M. Petridis (eds), Applications and Innovations in Intelligent Systems
XVI – Proc. of the 28th SGAI Int. Conf. on Innovative Techniques and Applications
of Artificial Intelligence, Springer, London, 2008, 169-182.
Sneiders E. (1999), Automated FAQ Answering: Continued Experience with Shallow
Language Understanding. Question Answering Systems. AAAI Fall Symposium.
Technical Report FS-99-02, North Falmouth, Massachusetts, USA, AAAI Press,
pp.97-107.
Whitehead S.D. (1995), Auto-FAQ: an experiment in cyberspace leveraging, Computer
Networks and ISDN Systems, 28(1-2), pp. 137-146.
70