Risorse e utenti nei processi di tagging: approcci e casi di - Je-LKS
Transcript
Risorse e utenti nei processi di tagging: approcci e casi di - Je-LKS
Invited Papers Risorse e utenti nei processi di tagging: approcci e casi di studio Felice Ferrara1, Ilaria Torre2, Luigi Sarti3, Carlo Tasso1, Antonina Dattolo1, Stefania Bocconi3, Jeff Earp3 Università degli Studi di Udine, 2Università degli Studi di Genova, 3CNR 1 Keywords: social tagging, ontologies, user profiling, clustering, neighbour selection Abstract In questo lavoro proponiamo un confronto tra due approcci per l’annotazione di risorse digitali. Il primo approccio è top-down, si riconosce nel cosiddetto cathedral model ed è basato su una definizione autoritaria e centralizzata del linguaggio di marcatura. Il secondo è bottom-up, fa riferimento al bazaar model e raccoglie i contributi di una comunità di utenti. Questi approcci sono analizzati considerando potenzialità e limiti sia sul piano descrittivo che in relazione al supporto offerto ai meccanismi di reasoning nei sistemi di raccomandazione, con particolare attenzione alla profilazione dell’utente. Vengono poi descritti tre casi di studio, relativi a progetti di ricerca che implementano questi approcci negli ambiti dell’e-learning e del knowledge management. | Journal of e-Learning and Knowledge Society Vol. 6, n. 2, Maggio 2010 (pp. 37 - 52) ISSN: 1826-6223 | eISSN: 1971-8829 | Invited Papers - Vol. 6, n. 2, Maggio 2010 1 Introduzione Il processo di annotazione delle risorse risulta fondamentale per la costruzione dei sistemi per l’accesso alle informazioni via Web, ed assume un ruolo cruciale in ambienti che puntano a snellire il processo di accesso alla conoscenza, come i sistemi di raccomandazione che sono oggetto del presente lavoro. Due sono gli approcci ampiamente descritti in letteratura: approccio topdown ed approccio bottom-up. Nell’approccio top-down, il processo di annotazione è vincolato ad un modello a priori per l’assegnazione dei metadati. Il modello che veicola l’assegnazione delle annotazioni può basarsi su standard noti, quali LOM (Learning Object Metadata) e IMS-LIP (Instructional Management Systems - Learner Information Package) o su ontologie, strutture interpretabili dalle macchine, che catturano, strutturano e rappresentano la conoscenza di un certo dominio conoscitivo (Gavrilova et al., 2009). È opportuno sottolineare che le ontologie modellano aspetti rilevanti di un dominio dalla prospettiva di una particolare comunità di utenti. Per questo, fattori quali l’evoluzione della comunità, l’entrata in scena di nuove tipologie di utenti, l’introduzione, l’abbandono e le modifiche delle modalità d’interazione con il sistema richiedono una sufficiente flessibilità, che si traduce nella capacità evolutiva del modello di annotazione (Mika, 2005). Un modello di annotazione dovrebbe essere in grado di catturare queste problematiche al fine di supportare meglio la ricerca delle informazioni. Un modello di annotazione dovrebbe anche riuscire a fornire una rappresentazione sfaccettata delle risorse, tanto più utile quanto più l’utenza è diversificata e appartenente a comunità diverse. Con il termine “sfaccettata” intendiamo una caratterizzazione delle risorse che ne rappresenti sia il significato denotativo sia gli eventuali significati connotativi. Questi, gli ultimi specialmente, possono variare in base al punto di vista che utenti diversi possono avere della stessa risorsa. Una strategia di annotazione bottom-up può rispondere meglio di una top-down a tale esigenza. La forma più comune e popolare per l’annotazione bottom-up è costituita dal social tagging, che permette agli utenti di condividere risorse e di definire classificazioni personali per mezzo di etichette note come tag. I meccanismi di annotazione non sono finalizzati unicamente alla classificazione delle risorse digitali, ma permettono anche di modellare le necessità informative dell’utenza, e ciò diventa particolarmente rilevante quando i sistemi per l’accesso alle informazioni sono sistemi di filtering e raccomandazione, che hanno bisogno di rappresentare conoscenza, interessi e scopi dell’utente rispetto alle risorse annotate. Lo stretto legame che unisce le funzionalità di modellazione di risorse e utenti è da ritrovare nella definizione e nelle caratteristiche dei sistemi di fil- 38 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio tering e raccomandazione, che sono fondamentalmente basati sul confronto, variamente combinato, di profili costruiti per modellare risorse e utenti. Questo lavoro cerca di evidenziare queste due componenti nei processi di annotazione di tipo top-down e bottom-up nei contesti dell’e-learning e knowledge management1. L’articolo è così strutturato: la sezione 2 descrive applicazioni, caratteristiche e potenzialità degli approcci top-down e bottom-up nel contesto dell’elearning e del knowledge management rispetto alla modellazione di risorse e utenti; la sezione 3 illustra tre casi di studio, che evidenziano come il tagging possa essere integrato sia nel contesto della modellazione delle risorse estendendo i tradizionali meccanismi ontologici, sia come possa essere utilizzato per modellare interessi e caratteristiche dell’utenza per la raccomandazione di risorse; la sezione 4 conclude l’articolo proponendo riflessioni e spunti per lavori futuri. 2 Classificazione di risorse e supporto a processi di profilazione utente e filtering delle risorse Risorse e utenti sono i due componenti fondamentali su cui sono basati i meccanismi di filtraggio e raccomandazione. Nei sistemi di raccomandazione basati sull’analisi del contenuto (Pazzani & Billsus, 2007), le risorse vengono annotate tipicamente mediante un insieme di caratteristiche che possono servire anche per descrivere un potenziale interesse dell’utente. Ogni utente viene quindi messo in relazione a quelle risorse che meglio rappresentano i suoi interessi. È comunque anche possibile mettere in relazione un utente con delle risorse mediante altre caratteristiche che non siano basate sul contenuto (ossia che non esprimono in modo esplicito un interesse), ma che risultano comunque rilevanti per il filtraggio e il suggerimento di risorse all’utente. Nell’e-learning, per esempio, possono essere rilevanti gli obiettivi di formazione o curriculari, le conoscenze e il background dell’utente, il suo stile di apprendimento, ecc. Negli approcci di tipo collaborativo, invece, il meccanismo di raccomandazione si basa sull’individuazione di cluster di utenti “simili”, ai quali vengono suggerite quelle risorse che sono risultate rilevanti per altri utenti appartenenti allo stesso cluster (Schafer et al., 2007). Nella prossima sezione analizzeremo come gli approcci top-down e bottomup siano stati utilizzati sia per la rappresentazione di risorse e utenti, sia per supportare i meccanismi di ragionamento necessari per inferire le caratteristiche E-learning e knowledge management sono strettamente correlati poiché condividono in larga misura principi, tecniche ed obiettivi; le tecniche di knowledge management si propongono di definire strutture per la creazione, l’accesso e la condivisione della conoscenza, mentre l’e-learning mette prevalentemente a fuoco i processi di apprendimento, sia individuali che mediati socialmente (Schmidt 2005). 1 39 | Invited Papers - Vol. 6, n. 2, Maggio 2010 degli utenti utilizzate poi nel processo di raccomandazione. 2.1 Classificazione e rappresentazione delle risorse Questa sezione analizza il supporto che gli approcci top-down e bottom-up possono fornire alla classificazione e alla rappresentazione delle risorse. 2.1.1 Approccio top-down Diversi autori sottolineano i vantaggi connessi all’uso di un cathedral model (Wong et al., 2008), e in particolare di una rappresentazione ontologica, per esplicitare e strutturare conoscenza. Le ontologie offrono definizioni univoche per descrivere concetti ed espressioni all’interno di un vocabolario chiuso. Classi, istanze, attributi e assiomi possono essere usati per dar forma a relazioni strutturali e gerarchiche, oltre a rendere possibile la formulazione di processi inferenziali automatici nei quali si “scopre” nuova conoscenza (Gruber, 1993). In questa prospettiva, un’ontologia fornisce una base adeguata per lo sviluppo di un modello di metadati, i cui elementi possono essere direttamente derivati dai concetti (le classi) dell’ontologia stessa. Specifiche come il LOM (IEEE, 2002) per i contenuti digitali, o l’IMS-LIP (2001), per i profili utente, si sono rivelate utili per consentire interoperabilità tra sistemi e lo scambio di documenti. Molto diffuse sono le versioni XML di questi standard, che tuttavia hanno una potenza espressiva inferiore a quella di un’ontologia e non ammettono flessibilità nella rappresentazione della conoscenza. La differenza sostanziale è che mentre gli Schemi XML sono utilizzati per modellare documenti XML, i linguaggi ontologici sono usati per modellare conoscenza. XML è un linguaggio per la modellazione di dati, mentre i linguaggi ontologici servono per la modellazione di metadati (Nilsson, 2001). Pertanto, non tutta la conoscenza espressa in un’ontologia può essere facilmente replicata in un modello basato sugli standard sopra menzionati. Per tali ragioni, l’ontologia non viene usata solo come risorsa in sede di progettazione, ma viene resa anche accessibile alle applicazioni e ai servizi che interagiscono con l’utente a run-time, quando i meccanismi inferenziali possono aggiungere valore alle funzionalità di raccomandazione e di ricerca. Alcuni sistemi rendono l’ontologia accessibile direttamente anche all’utente, ad esempio mediante interfacce di navigazione a manipolazione diretta (MACE, 2009)2. MACE (2009). Metadata for Architectural Contents in Europe. Last retrieved from http://portal.mace-project.eu/ on Feb. 25, 2010. 2 40 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio 2.1.2 Approccio bottom-up L’approccio basato su un bazaar model (Wong et al, 2008), è per molti aspetti complementare rispetto all’approccio top-down, offrendo pluralità di punti di vista sulle risorse ed evoluzione delle annotazioni nel tempo. Queste evoluzioni possono riguardare cambiamenti di tipo denotativo e connotativo nelle risorse, nell’utenza, nel lessico, negli usi e costumi, che vengono catturate dal processo dinamico di annotazione. Tipicamente la collezione di tutti i tag assegnati da un utente è definita personomy e un insieme di personomies costituisce una folksonomy, dando vita a una rappresentazione che combina dimensione globale e personale. Le classificazioni definite dagli utenti per finalità principalmente personali vengono condivise globalmente: ogni utente può navigare la rete delle risorse seguendo i tag applicati da altri utenti. Nell’ambito dell’e-learning e del knowledge management questo modello può rivelarsi molto utile per individuare percorsi di ricerca e di studio non istituzionali (serendipity) e per esplorare l’area quando al discente manca ancora una conoscenza canonica dei concetti, degli strumenti e delle metodologie. Consentire agli utenti di annotare i contenuti può infatti far emergere molteplici classificazioni delle stesse risorse, incrementando così i percorsi con cui queste vengono reperite. Considerazioni analoghe sono state elaborate anche in ambito museale, dove emergono problematiche simili, relative al gap tra classificazioni ufficiali delle opere d’arte e terminologia utilizzata dai fruitori delle opere stesse (Chan, 2007). Nel processo di annotazione possono essere memorizzati non solo i tag nuovi, ma tutti i tag, unici o ripetuti, assegnati dagli utenti alla risorsa (questo è tipico nei sistemi di social bookmarking). In tal modo le folksonomie permettono di ottenere una sorta di indicizzazione delle risorse basata sull’occorrenza dei tag per ogni singola risorsa (i tag vengono spesso rappresentati graficamente con font di dimensione crescente al crescere della loro popolarità, giungendo a formare la nuvola dei tag associati alla risorsa). Spesso, i tag con maggiore popolarità rappresentano il significato denotativo della risorsa (quello privilegiato nelle classificazioni top-down), ma l’approccio bottom-up permette di dare visibilità anche ai significati connotativi e personali. I tag associati alle risorse possono essere utilizzati per supportare la ricerca di informazioni facendo leva sui tradizionali meccanismi di information retrieval. Tuttavia, la possibilità di analizzare i pattern seguiti dagli utenti durante la fase di annotazione ha aperto interessanti prospettive nei sistemi, come i sistemi di raccomandazione, che personalizzano l’accesso alle informazioni. Il processo di annotazione è utilizzato in sistemi di raccomandazione sia di tipo content-based (Musto et al., 2009; Mobasher et al., 2008), sia di tipo 41 | Invited Papers - Vol. 6, n. 2, Maggio 2010 collaborativo (Zanardi & Carpa, 2008; Nakamura et al., 2007). 2.2 Profilo dell’utente e personalizzazione Obiettivo di questa sezione è analizzare le possibilità offerte dai due approcci come supporto a meccanismi di costruzione del profilo utente e di personalizzazione. 2.2.1 Approccio top-down Negli approcci top-down, l’utilizzo dell’annotazione per inferire conoscenza sugli utenti si basa esclusivamente sulle azioni che gli utenti compiono sulle risorse annotate. Diversamente, negli approcci bottom-up può basarsi, oltre che su queste, anche sulle annotazioni inserite dagli utenti. In questa sezione descriveremo due modalità particolarmente utilizzate in letteratura per inferire conoscenza sugli utenti e personalizzare l’interazione, sfruttando l’annotazione top-down. La prima modalità riguarda la costruzione di un overlay model che permetta un mapping tra la descrizione del dominio e le conoscenze dell’utente. Si tratta di una delle modalità più diffuse di profilazione utente in ambito e-learning, descritto per esempio in (Brusilovsky & Millan, 2007). L’utilizzo di un overlay model consente di rappresentare le competenze che un utente possiede (prerequisiti) o persegue (obiettivi di apprendimento), associando ad ogni elemento di conoscenza un livello di padronanza (skill). Nel processo di annotazione delle risorse educative, il concetto di competenza è particolarmente utile per rappresentare non solo il dominio di conoscenza che la risorsa tratta, ma anche le abilità che l’utente può costruire grazie alla fruizione di quella risorsa. La seconda modalità che citiamo riguarda la possibilità di propagare l’interesse (o la conoscenza) dell’utente per una risorsa sulle proprietà che la descrivono e quindi, di conseguenza, su tutte le risorse descritte (annotate) con quella proprietà. La personalizzazione può quindi essere realizzata senza necessità di un overlay model esplicito. In CHIP (Aroyo et al., 2007), per esempio, le risorse sono annotate semanticamente e agli utenti è richiesto di votare (rating) l’interesse per un insieme di queste. Ciascuna risorsa è descritta mediante diverse proprietà. Quando l’utente vota una risorsa, il voto è propagato alle proprietà, permettendo quindi di suggerire risorse annotate con quella stessa proprietà o con proprietà equivalenti. 2.2.2 Approccio bottom-up Mentre nell’approccio top-down il comportamento del singolo utente può essere direttamente confrontato con la descrizione ontologica del dominio, 42 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio nell’approccio bottom-up è necessario innanzitutto ricondurre la struttura folksonomica, che non prevede relazioni tra tag, ad una forma più ordinata, clusterizzando, ad esempio, i tag disponibili (es. Schwarzkop et al., 2007). Se da un lato la strutturazione delle annotazioni permette di emulare l’approccio top-down, dall’altro l’approccio bottom-up introduce la possibilità di sfruttare la dimensione relativa agli utenti che annotano le risorse. In questo modo il comportamento del singolo utente può essere modellato sia in funzione della semantica dei tag che ha inserito, sia considerando la similarità con altri utenti. Nel primo caso, i tag vengono ricondotti a concetti definiti in ontologie lessicali, quali WordNet, o a concetti definiti in altre tassonomie, come Wikipedia, per inferire in tal modo gli interessi degli utenti (es. Szomszor et al.,2008). Nel secondo caso, invece, l’utente impegnato in un task di ricerca viene confrontato con altri utenti considerando caratteristiche come gli interessi inferiti dai tag utilizzati per annotare le risorse, come in (Schwarzkop et al., 2007) e come illustrato nel caso di studio in sezione 3.2, oppure considerando caratteristiche socio-demografiche, come nel caso di studio presentato nella sezione 3.3. Occorre infine sottolineare che mentre l’approccio top-down si presta maggiormente a modellare le conoscenze dell’utente impegnato in un processo di acquisizione di conoscenze e competenze, l’approccio bottom-up è utilizzato soprattutto per la fase esplorativa e risulta particolarmente efficace per la condivisione di conoscenze e per il peer tutoring (Westera, 2007). 3 Tre casi di studio L’utilizzo degli approcci top-down e bottom-up per migliorare l’accesso alle risorse è il terreno comune su cui sono stati sviluppati i tre casi di studio descritti in questa sezione. Le linee progettuali hanno seguito strategie diverse evidenziando come: l’approccio top-down possa facilitare lo scambio e la classificazione di risorse nel contesto dell’e-learning garantendo margini di integrazione con l’approccio bottom-up (sezione 3.1); meccanismi di raccomandazione possano essere costruiti sull’approccio bottom-up modellando gli interessi degli utenti (sezione 3.2) e utilizzando le caratteristiche sociodemografiche degli utenti associati alle risorse annotate (sezione 3.3). 3.1 Approccio top-down per la connotazione di risorse educative Questo primo caso di studio presenta alcune scelte progettuali messe in atto nell’ambito del progetto Share.TEC3 che, rivolto a sostenere i processi di formazione iniziale e di aggiornamento in servizio dei docenti, ha come obiettivi: SHAring Digital REsources in the Teaching Education Community, eContentplus programme (ECP 2007 EDU 427015) http:// www.share-tec.eu 3 43 | Invited Papers - Vol. 6, n. 2, Maggio 2010 la costruzione di un sistema per aggregare metadati che descrivano le risorse educative digitali nel campo della FD in Europa; l’offerta di servizi personalizzati e connotati culturalmente per rendere disponibili contenuti specifici; il miglioramento della comprensione e della condivisione di pratiche all’interno delle comunità di FD in Europa. Il nucleo semantico del sistema proposto è un’ontologia per la formazione docenti (denominata TEO – Teacher Education Ontology). TEO si propone di modellare quegli aspetti del mondo della formazione utili alla condivisione di risorse educative digitali in una comunità che include formatori di docenti, docenti in fase di auto-aggiornamento, editori e produttori di contenuti. In particolare, l’ontologia (TEO) mira a consentire: la caratterizzazione pedagogica dei contenuti digitali; la rappresentazione dei profili utente e le relative competenze; la costruzione di funzionalità multilinguistiche e multiculturali; l’interazione personalizzata con il sistema, attraverso modelli utente adattativi; l’implementazione di un sistema di raccomandazione. In termini strutturali TEO si articola in cinque sezioni, separate e tuttavia reciprocamente interconnesse e coerenti tra loro (Share.TEC Project, 2008): 1. risorse educative digitali - gli artefatti strettamente connessi al concetto di “learning object” (Alvino et al., 2007; Wiley, 2000); 2. attori e ruoli – la caratterizzazione degli utenti finali del sistema in termini di profili professionali, esperienze, preferenze personali, ecc. (Razmerita et al., 2007; Paneva, 2006); 3. competenze - “conoscenze, abilità e/o altre caratteristiche misurabili, definibili, identificabili e specifiche, che una risorsa umana può possedere e che sono necessarie per compiere attività in un contesto specifico” (Paquette, 2007); 4. contesto - ad es. le caratteristiche delle organizzazioni in cui operano gli utenti del sistema Share.TEC; 5. domini di conoscenza - la rappresentazione tassonomica delle aree del sapere relative al settore formazione docenti, inclusi gli aspetti pedagogici, tecnologici e disciplinari (UNESCO - ISCED 1997 - International Standard Classification of Education). L’approccio ontologico di tipo top-down (sezione 2.1.1), adottato per modellare una conoscenza di tipo generale, viene integrato da un contributo bottomup generato dalle folksonomie dell’utente e dal social tagging (sezione 2.1.2). I due processi sono distinti e tuttavia complementari: il social tagging arricchisce la connotazione dei contenuti digitali senza condizionare direttamente la struttura ontologica. Un aspetto significativo affrontato in Share.TEC è la dimensione multiculturale e multi linguistica associata alla necessità di connotare risorse educative in 44 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio contesto europeo. Quando i formatori cercano risorse digitali spesso si trovano a navigare fra volumi di proposte generate da motori di ricerca generici, o ad interagire con banche dati la cui interfaccia ed i cui metadati rispecchiano un modello culturale e un linguaggio poco familiari. TEO adotta pertanto una struttura a diversi livelli, costituita da una base comune e da una serie di ontologie specifiche, una per ogni particolare contesto culturale e linguistico. Questa struttura ontologica a diversi livelli fornisce una cornice per la definizione del modello di metadati di Share.TEC. Così come l’ontologia, anche il modello di metadati include un livello di riferimento superiore (Modello Comune di Metadati) ed una serie di derivazioni specifiche lingua/contesto (Modello Multiculturale di Metadati). La rete di relazioni fra il livello comune ed i vocabolari specifici di ciascuna cultura consentono di catturare le differenze contestuali, linguistiche e semantiche specifiche (istituzionali, nazionali, ecc.) e di rappresentarle nel sistema Share.TEC. Questo approccio offre una serie di vantaggi agli utenti. In primo luogo l’interfaccia del sistema è disponibile nella lingua di ciascun partner del progetto (bulgaro, inglese, italiano, olandese, svedese). Gli utenti registrati nel sistema vengono associati a profili di tipo ontologico i cui concetti chiave e relazioni sono linguisticamente e culturalmente contestualizzati e rappresentati anche in termini di competenze derivate da elementi rappresentati in TEO (sezione 2.2.1). Gli utenti sono quindi in grado di cercare contenuti da una varietà di ambienti linguistici e culturali diversi, usando la loro lingua e riferendosi al loro modello culturale. Inoltre, sono stati sviluppati meccanismi inferenziali che aggiungono flessibilità ai motori di ricerca consentendo così, per esempio, il reperimento di risorse che non corrispondono esattamente all’interrogazione formale dell’utente ma che possono comunque soddisfare le sue esigenze. 3.2 Approccio bottom-up per il filtraggio collaborativo sulla base degli interessi Il focus del secondo caso di studio che proponiamo in questo lavoro entra più propriamente nel merito dell’utilizzo del tagging per la realizzazione di un meccanismo di raccomandazione. Più in particolare, il meccanismo di raccomandazione descritto in questa sezione parte dall’osservazione che i social bookmark sono una base di conoscenza costruita dagli utenti per finalità personali e che come tali mappano gli interessi degli utenti. È pertanto possibile utilizzare l’approccio bottom-up per modellare sia gli interessi degli utenti (sezione 2.2.2) sia l’associazione tra una risorsa ed un interesse (sezione 2.1.2) I meccanismi tradizionalmente utilizzati nelle applicazioni di social boo- 45 | Invited Papers - Vol. 6, n. 2, Maggio 2010 kmarking per la ricerca di risorse si limitano a suggerire le risorse più popolari associate ad un certo insieme di tag forniti in input. Tuttavia, sebbene la popolarità di una risorsa sia un buon indice di confidenza per la sua qualità, essa non tiene in considerazione la natura eterogenea di un network, composto da insegnanti e studenti, che usano i tag per soddisfare esigenze informative diverse (sia nella fase di classificazione che in quella di ricerca). Nei sistemi di filtraggio collaborativo, al contrario, è centrale l’individuazione di un sottoinsieme di utenti simili a quello per cui si vogliono generare le raccomandazioni. Per poter valutare se due utenti sono effettivamente simili, i sistemi di filtraggio collaborativo debbono confrontare i feedback restituiti dai due utenti quando questi interagiscono con le stesse risorse o quanto meno con risorse correlate. Per questo i sistemi di raccomandazione ottengono buoni risultati quando le risorse appartengono allo stesso dominio informativo: in questo caso non è necessario tenere presente che gli utenti operano sulla base di una pluralità di interessi (Frankowski et al., 2007). Infatti il tradizionale approccio di selezione dei vicini valuta la similarità tra due utenti contando il numero di risorse che questi condividono: maggiore è il numero di risorse condivise maggiore è la probabilità che i due utenti condivideranno risorse in futuro. Tuttavia questo approccio non è efficace in contesti in cui le risorse appartengono a diversi domini informativi. Questa problematica è stata affrontata anche in (Baltrunas & Ricci, 2008) dove gli autori mostrano come la bontà delle predizioni fatte da un sistema di raccomandazione migliori sensibilmente quando la similarità tra utenti viene calcolata considerando solo risorse correlate all’interesse corrente dell’utente. Per questo una strategia capace di individuare sia gli interessi di un utente sia la correlazione tra un interesse ed una risorsa può migliorare la precisione delle raccomandazioni: il sistema può selezionare in maniera dinamica il vicinato confrontando gli utenti solo sulle risorse associate all’interesse corrente. Seguendo quest’idea, un’interessante possibilità è quella di sfruttare le classificazioni fornite dagli utenti per mappare gli interessi degli utenti e produrre suggerimenti personalizzati. Per ovviare al problema dell’assenza di relazioni semantiche tra tag inferiamo relazioni tra tag. In particolare, costruiamo una matrice in cui righe e colonne sono associate rispettivamente a tag e risorse e dove la cella (i,j) conta il numero di volte che il tag i-esimo è stato associato alla risorsa j-esima. La similarità del coseno è quindi usata per quantificare la similarità tra tag (due righe della matrice). Queste relazioni di similarità possono essere usate per raggruppare i tag degli utenti in cluster: dato un utente, un cluster di tag e l’insieme delle risorse che l’utente ha associato a questi tag definiscono un interesse dell’utente. 46 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio Considerato un interesse di un utente, una lista di raccomandazioni è generata considerando solo gli utenti che hanno utilizzato tag correlati a quelli usati dall’utente per riferire lo specifico interesse. In altre parole, la fase di selezione dei vicini è realizzata sulla base dei tag e delle risorse connesse all’interesse corrente del’utente. Al fine di individuare tutti i tag connessi all’interesse corrente, l’insieme dei tag usati dall’utente per definire un interesse è ulteriormente espanso, considerando tag simili a quelli usati dall’utente. L’insieme espanso dei tag permette di: • Filtrare l’insieme dei potenziali vicini. Sono considerati solo gli utenti che hanno utilizzato i tag correlati all’interesse dell’utente. • Filtrare l’insieme delle risorse potenzialmente raccomandabili. Sono considerate solo le risorse che sono state associate ai tag correlati all’interesse dell’utente. Il tradizionale meccanismo di filtraggio collaborativo può essere quindi applicato sull’insieme di dati così filtrato: un valore di similarità viene assegnato ad ogni potenziale vicino in funzione del numero di risorse condivise con l’utente; le risorse taggate dai vicini più simili all’utente otterranno un valore di rilevanza maggiore. Le risorse che ottengono un valore di rilevanza più alto sono infine suggerite. Maggiori dettagli circa il sistema di raccomandazioni sono reperibili in (Dattolo et al., 2009). 3.3 Approccio bottom-up per peer tutoring L’ultimo caso di studio riguarda un sistema di raccomandazione che, analogamente al precedente, utilizza come repository i social bookmark degli utenti e un meccanismo di neighbor selection per individuare utenti simili. Ciò che cambia rispetto al caso di studio precedente, sono le dimensioni dell’utente utilizzate per la personalizzazione dei risultati e la modalità di acquisizione delle stesse. Considerando la classificazione descritta nella sezione 2, questo caso di studio pone in evidenza le potenzialità del social tagging, applicato al social bookmarking, nel selezionare e indicizzare le risorse secondo il punto di vista degli utenti. E gli utenti vengono considerati come entità complesse, multidimensionali. Ciascuna dimensione, o caratteristica, influenza le annotazioni prodotte dall’utente e, in modo corrispondente, può essere utile considerarle in fase di filtraggio e raccomandazione. Il sistema che descriviamo in questo caso di studio tiene conto di questo aspetto, personalizzando i risultati in base alla corrispondenza tra un insieme di caratteristiche dell’utente che ricerca risorse su un certo argomento e le caratteristiche degli utenti che hanno annotato le 47 | Invited Papers - Vol. 6, n. 2, Maggio 2010 risorse. L’idea di base è che, se un utente sta cercando informazioni su un certo argomento, per esempio “come configurare un router”, prediligerà trovare risorse segnalate da persone con il suo stesso problema e con il suo stesso background, in modo tale che la spiegazione sia adeguata alle sua capacità di comprensione. Appare evidente che, per soddisfare quest’esigenza, l’approccio bottom-up offra supporto sia per la classificazione delle risorse, sia per l’individuazione di utenti simili che hanno indicato una certa risorsa come rilevante, rispetto all’oggetto della query. Nell’ambito dell’e-learning, questo approccio risulta particolarmente interessante e supportato da studi relativi all’efficacia del peer tutoring (Westera, 2007). Da questi studi emerge che i suggerimenti dei compagni di corso, relativi a materiali da approfondire, vengano spesso apprezzati e seguiti maggiormente dei suggerimenti degli insegnanti. Il prototipo attualmente implementato, i cui dettagli possono essere approfonditi in (Torre, 2009), utilizza Delicious, e i social bookmarks da questo gestiti, quale repository di risorse annotate. Data una query, basata su uno o più tag, il sistema restituisce l’insieme di risorse (bookmarks) che soddisfano la query stessa e ordina i risultati sulla base dell’occorrenza dei tag. A questo scopo, utilizza la tecnica del TF.IDF, tipicamente impiegata in information retrieval. Il sistema la applica al retrieval di social bookmark nel seguente modo. Per ogni risorsa, i cui tag includano uno o più termini della query, viene calcolato il TF (Term Frequency) come il rapporto tra il numero di occorrenze del tag cercato e il numero totale di tag assegnati dagli utenti a quella risorsa. L’IDF (Inverse Document Frequency) determina, invece, la pertinenza del tag per quella risorsa rispetto alle altre risorse. Viene calcolato dividendo il numero totale di risorse per il numero di risorse taggate con i tag della query e calcolando infine il logaritmo del quoziente. TF e IDF sono moltiplicati e il valore risultante rappresenta un peso per quella risorsa (bookmark), dato il tag della query. I bookmark, ordinati in base ai pesi ottenuti dall’applicazione del TF.IDF, vengono poi riordinati in modo personalizzato, considerando la corrispondenza tra le caratteristiche dell’utente che effettua la query (es. età, sesso, ecc.) e le caratteristiche degli utenti che hanno annotato i bookmark. Questa fase è resa possibile dall’approccio bottom-up, in cui ogni bookmark è associato agli utenti che hanno aggiunto quella risorsa tra i propri preferiti e l’hanno annotata con un insieme di tag. Gli utenti che hanno inserito i bookmark sono caratterizzati da un insieme di attributi che, nel loro insieme, costituiscono l’identità della persona: nome, cognome, età, sesso, interessi, professione, scuola, ecc. Quando l’utente effettua la query, può specificare quali attributi il sistema deve prendere in considerazione per ordinare i risultati. Per esempio, uno studente che stesse cercando 48 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio risorse relative al linguaggio PHP, per effettuare un’esercitazione, potrebbe effettuare una query per cercare, per esempio, librerie PHP, specificando che ha preferenza per risorse annotate da studenti del suo stesso corso di studi. La criticità è acquisire conoscenza sugli utenti che hanno inserito e annotato i bookmark. Delicious, per esempio, mette a disposizione pochi dati nel profilo pubblico degli utenti, quindi il problema diventa come e dove acquisire ulteriore conoscenza su tali utenti. L’approccio seguito per risolvere questo problema è stato sviluppare un servizio di discovery che si comporti come crawler di identità nei social network (cs-ids.di.unito.it). Una volta identificato un utente su uno o più social network, con un fattore di certezza superiore a una certa soglia (0.7, in base ai dati della sperimentazione) i relativi profili vengono combinati, e i dati trovati eventualmente utilizzati per inferire ulteriore conoscenza sugli utenti. Maggiori informazioni relative al funzionamento del crawler sono disponibili in (Carmagnola et al., 2009). Utilizzando questo servizio, il recommender system può così essere impiegato per creare una sorta di classe virtuale composta da compagni di classe virtuali, selezionati dall’insieme complessivo di utenti di Delicious. Il prototipo attuale utilizza come repository un solo bookmarking system, Delicious, ma il sistema è pensato per interrogare più sistemi di bookmarking in parallelo, in modo da poter accrescere la dimensione del repository su cui effettuare ricerche. Conclusioni Questo lavoro ha analizzato capacità, possibilità e prospettive dei meccanismi di annotazione per la classificazione di risorse e la profilazione degli utenti che sono le funzioni alla base dei sistemi di raccomandazione. In particolare, la sezione 3.1 presenta uno studio che utilizza l’approccio top-down per supportare la classificazione di oggetti didattici. La capacità descrittiva dell’approccio top-down si scontra tuttavia con limitazioni e costi connessi alla costruzione e manutenzione della conoscenza. L’approccio bottom-up, viceversa, distribuisce il processo di annotazione sull’utenza che può classificare risorse senza ottemperare a vincoli definiti a priori, ma paga questo vantaggio con la difficoltà di interpretare in modo automatico il significato delle annotazioni. L’approccio bottom-up apre interessanti scenari per quanto riguarda la classificazione di utenti e risorse. Le sezioni 3.2 e 3.3 mostrano infatti come l’approccio bottom-up possa essere impiegato per individuare utenti simili (neighbor selection) considerando rispettivamente la similarità di interessi, dedotti dai tag che gli utenti inseriscono, e la similarità di aspetti socio-demografici, 49 | Invited Papers - Vol. 6, n. 2, Maggio 2010 acquisiti aggregando dati distribuiti nel social Web, al fine di raccomandare risorse. Future analisi potranno confrontare i due meccanismi in modo da ottenere riscontri da un pubblico di studenti e insegnanti e così misurare l’efficacia e le possibilità di integrazione dei due meccanismi. Approccio top-down e bottom-up sono per molti aspetti complementari, come evidenziato per esempio da Macgregor e McCulloch (Macgregor & McCulloch, 2006), anche se mantengono specificità che li differenziano. Seguendo le osservazioni di Chan, che suggerisce che il miglior tipo di classificazione dovrebbe combinare classificazioni ufficiali con social tagging (Chan, 2007), sarebbe interessante capire come l’integrazione tra i due approcci possa supportare classificazione e profilazione. Diversi lavori hanno già analizzato questa possibilità (es. van der Sluijs & Houben, 2008) e il caso di studio presentato nella sezione 3.1 si muove in questa direzione, ma ulteriori analisi sono necessarie per misurare l’effettiva capacità descrittiva del modello di conoscenza generato dall’approccio. Bibliografia Alvino S., Forcheri P., Ierardi M.G., Sarti L. (2007), Un modello per la connotazione pedagogica di LO, Rapporto tecnico IMATI-CNR n. 13/2007. Baltrunas L., Ricci F. (2008), Locally adaptive neighborhood selection for collaborative filtering recommendations, in:AH ’08: Proceedings of the 5th International Conference on Adaptive Hypermedia and Adaptive Web-Based Systems, 22–31, Berlin, Heidelberg, Springer-Verlag. Brusilovsky P., Millan E. (2007), User models for adaptive hypermedia and adaptive educational systems, in: Brusilovsky P., Kobsa A., Neidl W.(eds.): The Adaptive Web,. 3-53, Berlin Heidelberg New York: Springer-Verlag. Carmagnola F., Osborne F., Torre I. (2009), Cross-Systems Identification of Users in the Social Web, in Proc. of the IADIS International Conference WWW/Internet, 129-134, Rome, Italy. Chan S. (2007), Tagging and searching? serendipity and museum collection databases. In Museums and the Web, Archives Museum Informatics. Dattolo A., Ferrara F., Tasso C. (2009), Neighbor selection and recommendations in social bookmarking tools, in Proc. of the Workshop on AI & E-Learning, within the Conference of the Italian Association for Artificial Intelligence (AI*IA), 27-36, Reggio Emilia. Gavrilova T., Puuronen S., Alisova M., Petrashen, E. (2009), First steps in Ontology Development: Knowledge Portal for Software Testers, in: Dicheva D., Nikolov R., Stefanova, E. (eds.), Software, Services & Semantic Technologies, First International Conference, 192-199, Sofia, Bulgaria. Gruber T. (1993), A translation approach to portable ontology specifications, 50 Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei processi di tagging: approcci e casi di studio Knowledge Acquisition. IEEE Learning Technology Standards Committee (2002), Learning Object Metadata, Final Draft Standard. IEEE 1484.12.1-2002. IMS LIP (2001), IMS Learner Information Package, http://www.imsproject.org/ aboutims.html (verificato il 28 Febbraio 2010). Macgregor G., McCulloch E. (2006), Collaborative Tagging as a Knowledge Organisation and Resource Discovery Tool, Library Review. Mika, P. (2005), Ontologies are us: A unified model of social networks and semantics, in: Gil Y., Motta E., Benjamins R.V., Musen M. (eds.), Proceedings of the Fourth Int. Semantic Web Conference (ISWC), 122-136, Galway, Ireland. Musto C., Narducci F., De Gemmis M., Lops P., Semeraro G. (2009), Star: a social tag recommender system, in: Proceedings of the ECML/PKDD 2009 Discovery Challenge Workshop. Nakamoto, R., Nakajima, S., Miyazaki, J., Uemura, S. (2007), Tag based contextual collaborative filtering, Journal of Intelligent Information Systems 34(2). Nilsson, M. (2001), The semantic web: how RDF will change learning technology standards. http://zope.cetis.ac.uk/content/20010927172953, (verificato il 28 Febbraio 2010). Paneva D. (2006), Ontology-based Student Modeling, in: Proceedings of the Fourth CHIRON Open Workshop Ubiquitous Learning Challenges: Design, Experiments and Context Aware Ubiquitous Learning, 17-21, Turin, Italy. Paquette G. (2007), An Ontology and a Software Framework for Competency Modeling and Management, Educational Technology & Society, 10 (3), 1-21. Pazzani M., Billsus D. (2007), Content-Based Recommendation Systems, in: Brusilovsky P., Kobsa A., Nejdl W. (eds) The Adaptive Web, 325–341, Springer-Verlag, Berlin, Germany. Razmerita L., Angehrn A., Nabeth, T. (2003), On the role of Actor models and Actor modelling in Knowledge Management Systems, in: Proceedings of HCI International Conference, Greece, 2003. Schafer, J. B., Frankowski,. D, Herlocker, J., & Sen, S. (2007), Collaborative Filtering Recommendater Systems, in: Brusilovsky P., Kobsa A., Nejdl W. (eds), The Adaptive Web, 291-324, Springer-Verlag, Berlin, Germany. Schmidt A. (2005), Bridging the Gap Between Knowledge Management and E-Learning with Context-Aware Corporate Learning, Professional Knowledge Management, 203-213. Schwarzkopf E., Heckmann D., Dengler D., Kröner A. (2007), Mining the structure of tag spaces for user modelling, in: Proceedings of the workshop on data mining for user modeling, at the International Conference on User Modeling (UM ’07), 63–75, Corfu, Greece. Shepitsen A., Gemmell J., Mobasher B., Burke R (2008), Personalized recommendation in collaborative tagging systems using hierarchical clustering, in: Proceeding of the 2nd ACM International Conference on Recommender Systems, 259-266, Lausanne. 51 | Invited Papers - Vol. 6, n. 2, Maggio 2010 Torre I. (2009), Social Tagging in eLearning. Recommendations from Virtual FellowStudents, in Proc. of the Workshop on AI & E-Learning, within the Conference of the Italian Association for Artificial Intelligence (AI*IA), 27-36, Reggio Emilia. van der Sluijs K., Houben, G. (2008), Relating user tags to ontological information. In: Proce. of the Workshop on Theories and Applications of Ubiquitous User Modeling, at the Int. Conf. of Intelligent User Interfaces (IUI ’08), Canary Islands, Spain. http://www.uni-koblenz.de/confsec/IUI/Proc./data/workshops.html. Westera W. (2007), Peer-allocated instant response (pair): Computational allocation of peer tutors in learning communities. Journal of Artificial Societies and Social Simulation, 10 (2). Wiley D.A. (2000), Connecting learning objects to instructional design theory: A definition, a metaphor, and a taxonomy, in Wiley D.A. (ed.) The Instructional Use of Learning Objects, Association for Instructional Technology. Wong D., Shephard K.L., Phillips, P (2008), The cathedral and the bazaar of e-repository development: encouraging community engagement with moving pictures and sound, ALT-J Research in Learning Technology, 16 (1), 31-40. Zanardi V., Capra L. (2008), Social ranking: Finding relevant content in web 2.0, in: Proceeding of the 2nd ACM International Conference on Recommender Systems, 51-58, Lausanne. 52