Risorse e utenti nei processi di tagging: approcci e casi di - Je-LKS

Transcript

Risorse e utenti nei processi di tagging: approcci e casi di - Je-LKS
Invited Papers
Risorse e utenti nei processi
di tagging: approcci e casi di
studio
Felice Ferrara1, Ilaria Torre2, Luigi Sarti3, Carlo Tasso1,
Antonina Dattolo1, Stefania Bocconi3, Jeff Earp3
Università degli Studi di Udine, 2Università degli Studi di
Genova, 3CNR
1
Keywords: social tagging, ontologies, user profiling, clustering, neighbour
selection
Abstract
In questo lavoro proponiamo un confronto tra due approcci per l’annotazione
di risorse digitali. Il primo approccio è top-down, si riconosce nel cosiddetto
cathedral model ed è basato su una definizione autoritaria e centralizzata
del linguaggio di marcatura. Il secondo è bottom-up, fa riferimento al bazaar
model e raccoglie i contributi di una comunità di utenti. Questi approcci
sono analizzati considerando potenzialità e limiti sia sul piano descrittivo
che in relazione al supporto offerto ai meccanismi di reasoning nei sistemi
di raccomandazione, con particolare attenzione alla profilazione dell’utente.
Vengono poi descritti tre casi di studio, relativi a progetti di ricerca che
implementano questi approcci negli ambiti dell’e-learning e del knowledge
management.
|
Journal of e-Learning and Knowledge Society
Vol. 6, n. 2, Maggio 2010 (pp. 37 - 52)
ISSN: 1826-6223 | eISSN: 1971-8829
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
1 Introduzione
Il processo di annotazione delle risorse risulta fondamentale per la costruzione dei sistemi per l’accesso alle informazioni via Web, ed assume un ruolo
cruciale in ambienti che puntano a snellire il processo di accesso alla conoscenza, come i sistemi di raccomandazione che sono oggetto del presente lavoro.
Due sono gli approcci ampiamente descritti in letteratura: approccio topdown ed approccio bottom-up. Nell’approccio top-down, il processo di annotazione è vincolato ad un modello a priori per l’assegnazione dei metadati. Il modello che veicola l’assegnazione delle annotazioni può basarsi su standard noti,
quali LOM (Learning Object Metadata) e IMS-LIP (Instructional Management
Systems - Learner Information Package) o su ontologie, strutture interpretabili
dalle macchine, che catturano, strutturano e rappresentano la conoscenza di un
certo dominio conoscitivo (Gavrilova et al., 2009). È opportuno sottolineare
che le ontologie modellano aspetti rilevanti di un dominio dalla prospettiva di
una particolare comunità di utenti. Per questo, fattori quali l’evoluzione della
comunità, l’entrata in scena di nuove tipologie di utenti, l’introduzione, l’abbandono e le modifiche delle modalità d’interazione con il sistema richiedono
una sufficiente flessibilità, che si traduce nella capacità evolutiva del modello
di annotazione (Mika, 2005). Un modello di annotazione dovrebbe essere in
grado di catturare queste problematiche al fine di supportare meglio la ricerca
delle informazioni.
Un modello di annotazione dovrebbe anche riuscire a fornire una rappresentazione sfaccettata delle risorse, tanto più utile quanto più l’utenza è diversificata e appartenente a comunità diverse. Con il termine “sfaccettata” intendiamo
una caratterizzazione delle risorse che ne rappresenti sia il significato denotativo sia gli eventuali significati connotativi. Questi, gli ultimi specialmente,
possono variare in base al punto di vista che utenti diversi possono avere della
stessa risorsa. Una strategia di annotazione bottom-up può rispondere meglio
di una top-down a tale esigenza. La forma più comune e popolare per l’annotazione bottom-up è costituita dal social tagging, che permette agli utenti di
condividere risorse e di definire classificazioni personali per mezzo di etichette
note come tag.
I meccanismi di annotazione non sono finalizzati unicamente alla classificazione delle risorse digitali, ma permettono anche di modellare le necessità
informative dell’utenza, e ciò diventa particolarmente rilevante quando i sistemi
per l’accesso alle informazioni sono sistemi di filtering e raccomandazione,
che hanno bisogno di rappresentare conoscenza, interessi e scopi dell’utente
rispetto alle risorse annotate.
Lo stretto legame che unisce le funzionalità di modellazione di risorse e
utenti è da ritrovare nella definizione e nelle caratteristiche dei sistemi di fil-
38
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
tering e raccomandazione, che sono fondamentalmente basati sul confronto,
variamente combinato, di profili costruiti per modellare risorse e utenti. Questo
lavoro cerca di evidenziare queste due componenti nei processi di annotazione
di tipo top-down e bottom-up nei contesti dell’e-learning e knowledge management1.
L’articolo è così strutturato: la sezione 2 descrive applicazioni, caratteristiche e potenzialità degli approcci top-down e bottom-up nel contesto dell’elearning e del knowledge management rispetto alla modellazione di risorse e
utenti; la sezione 3 illustra tre casi di studio, che evidenziano come il tagging
possa essere integrato sia nel contesto della modellazione delle risorse estendendo i tradizionali meccanismi ontologici, sia come possa essere utilizzato
per modellare interessi e caratteristiche dell’utenza per la raccomandazione
di risorse; la sezione 4 conclude l’articolo proponendo riflessioni e spunti per
lavori futuri.
2 Classificazione di risorse e supporto a processi di profilazione utente e
filtering delle risorse
Risorse e utenti sono i due componenti fondamentali su cui sono basati i
meccanismi di filtraggio e raccomandazione. Nei sistemi di raccomandazione
basati sull’analisi del contenuto (Pazzani & Billsus, 2007), le risorse vengono
annotate tipicamente mediante un insieme di caratteristiche che possono servire
anche per descrivere un potenziale interesse dell’utente. Ogni utente viene
quindi messo in relazione a quelle risorse che meglio rappresentano i suoi
interessi. È comunque anche possibile mettere in relazione un utente con delle
risorse mediante altre caratteristiche che non siano basate sul contenuto (ossia
che non esprimono in modo esplicito un interesse), ma che risultano comunque
rilevanti per il filtraggio e il suggerimento di risorse all’utente. Nell’e-learning,
per esempio, possono essere rilevanti gli obiettivi di formazione o curriculari,
le conoscenze e il background dell’utente, il suo stile di apprendimento, ecc.
Negli approcci di tipo collaborativo, invece, il meccanismo di raccomandazione si basa sull’individuazione di cluster di utenti “simili”, ai quali vengono
suggerite quelle risorse che sono risultate rilevanti per altri utenti appartenenti
allo stesso cluster (Schafer et al., 2007).
Nella prossima sezione analizzeremo come gli approcci top-down e bottomup siano stati utilizzati sia per la rappresentazione di risorse e utenti, sia per
supportare i meccanismi di ragionamento necessari per inferire le caratteristiche
E-learning e knowledge management sono strettamente correlati poiché condividono in larga misura principi, tecniche ed
obiettivi; le tecniche di knowledge management si propongono di definire strutture per la creazione, l’accesso e la condivisione
della conoscenza, mentre l’e-learning mette prevalentemente a fuoco i processi di apprendimento, sia individuali che mediati
socialmente (Schmidt 2005).
1
39
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
degli utenti utilizzate poi nel processo di raccomandazione.
2.1 Classificazione e rappresentazione delle risorse
Questa sezione analizza il supporto che gli approcci top-down e bottom-up
possono fornire alla classificazione e alla rappresentazione delle risorse.
2.1.1 Approccio top-down
Diversi autori sottolineano i vantaggi connessi all’uso di un cathedral model
(Wong et al., 2008), e in particolare di una rappresentazione ontologica, per
esplicitare e strutturare conoscenza. Le ontologie offrono definizioni univoche
per descrivere concetti ed espressioni all’interno di un vocabolario chiuso.
Classi, istanze, attributi e assiomi possono essere usati per dar forma a relazioni
strutturali e gerarchiche, oltre a rendere possibile la formulazione di processi inferenziali automatici nei quali si “scopre” nuova conoscenza (Gruber, 1993).
In questa prospettiva, un’ontologia fornisce una base adeguata per lo sviluppo di un modello di metadati, i cui elementi possono essere direttamente
derivati dai concetti (le classi) dell’ontologia stessa.
Specifiche come il LOM (IEEE, 2002) per i contenuti digitali, o l’IMS-LIP
(2001), per i profili utente, si sono rivelate utili per consentire interoperabilità
tra sistemi e lo scambio di documenti. Molto diffuse sono le versioni XML di
questi standard, che tuttavia hanno una potenza espressiva inferiore a quella di
un’ontologia e non ammettono flessibilità nella rappresentazione della conoscenza. La differenza sostanziale è che mentre gli Schemi XML sono utilizzati
per modellare documenti XML, i linguaggi ontologici sono usati per modellare conoscenza. XML è un linguaggio per la modellazione di dati, mentre i
linguaggi ontologici servono per la modellazione di metadati (Nilsson, 2001).
Pertanto, non tutta la conoscenza espressa in un’ontologia può essere facilmente
replicata in un modello basato sugli standard sopra menzionati.
Per tali ragioni, l’ontologia non viene usata solo come risorsa in sede di
progettazione, ma viene resa anche accessibile alle applicazioni e ai servizi
che interagiscono con l’utente a run-time, quando i meccanismi inferenziali
possono aggiungere valore alle funzionalità di raccomandazione e di ricerca.
Alcuni sistemi rendono l’ontologia accessibile direttamente anche all’utente, ad
esempio mediante interfacce di navigazione a manipolazione diretta (MACE,
2009)2.
MACE (2009). Metadata for Architectural Contents in Europe. Last retrieved from http://portal.mace-project.eu/ on Feb. 25,
2010.
2
40
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
2.1.2 Approccio bottom-up
L’approccio basato su un bazaar model (Wong et al, 2008), è per molti
aspetti complementare rispetto all’approccio top-down, offrendo pluralità di
punti di vista sulle risorse ed evoluzione delle annotazioni nel tempo. Queste
evoluzioni possono riguardare cambiamenti di tipo denotativo e connotativo
nelle risorse, nell’utenza, nel lessico, negli usi e costumi, che vengono catturate
dal processo dinamico di annotazione.
Tipicamente la collezione di tutti i tag assegnati da un utente è definita personomy e un insieme di personomies costituisce una folksonomy, dando vita
a una rappresentazione che combina dimensione globale e personale. Le classificazioni definite dagli utenti per finalità principalmente personali vengono
condivise globalmente: ogni utente può navigare la rete delle risorse seguendo
i tag applicati da altri utenti.
Nell’ambito dell’e-learning e del knowledge management questo modello
può rivelarsi molto utile per individuare percorsi di ricerca e di studio non istituzionali (serendipity) e per esplorare l’area quando al discente manca ancora
una conoscenza canonica dei concetti, degli strumenti e delle metodologie.
Consentire agli utenti di annotare i contenuti può infatti far emergere molteplici classificazioni delle stesse risorse, incrementando così i percorsi con cui
queste vengono reperite. Considerazioni analoghe sono state elaborate anche
in ambito museale, dove emergono problematiche simili, relative al gap tra
classificazioni ufficiali delle opere d’arte e terminologia utilizzata dai fruitori
delle opere stesse (Chan, 2007).
Nel processo di annotazione possono essere memorizzati non solo i tag
nuovi, ma tutti i tag, unici o ripetuti, assegnati dagli utenti alla risorsa (questo
è tipico nei sistemi di social bookmarking). In tal modo le folksonomie permettono di ottenere una sorta di indicizzazione delle risorse basata sull’occorrenza
dei tag per ogni singola risorsa (i tag vengono spesso rappresentati graficamente
con font di dimensione crescente al crescere della loro popolarità, giungendo
a formare la nuvola dei tag associati alla risorsa). Spesso, i tag con maggiore
popolarità rappresentano il significato denotativo della risorsa (quello privilegiato nelle classificazioni top-down), ma l’approccio bottom-up permette di
dare visibilità anche ai significati connotativi e personali.
I tag associati alle risorse possono essere utilizzati per supportare la ricerca
di informazioni facendo leva sui tradizionali meccanismi di information retrieval. Tuttavia, la possibilità di analizzare i pattern seguiti dagli utenti durante la
fase di annotazione ha aperto interessanti prospettive nei sistemi, come i sistemi
di raccomandazione, che personalizzano l’accesso alle informazioni.
Il processo di annotazione è utilizzato in sistemi di raccomandazione sia
di tipo content-based (Musto et al., 2009; Mobasher et al., 2008), sia di tipo
41
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
collaborativo (Zanardi & Carpa, 2008; Nakamura et al., 2007).
2.2 Profilo dell’utente e personalizzazione
Obiettivo di questa sezione è analizzare le possibilità offerte dai due approcci come supporto a meccanismi di costruzione del profilo utente e di personalizzazione.
2.2.1 Approccio top-down
Negli approcci top-down, l’utilizzo dell’annotazione per inferire conoscenza
sugli utenti si basa esclusivamente sulle azioni che gli utenti compiono sulle
risorse annotate. Diversamente, negli approcci bottom-up può basarsi, oltre che
su queste, anche sulle annotazioni inserite dagli utenti.
In questa sezione descriveremo due modalità particolarmente utilizzate in
letteratura per inferire conoscenza sugli utenti e personalizzare l’interazione,
sfruttando l’annotazione top-down.
La prima modalità riguarda la costruzione di un overlay model che permetta
un mapping tra la descrizione del dominio e le conoscenze dell’utente. Si tratta
di una delle modalità più diffuse di profilazione utente in ambito e-learning,
descritto per esempio in (Brusilovsky & Millan, 2007). L’utilizzo di un overlay
model consente di rappresentare le competenze che un utente possiede (prerequisiti) o persegue (obiettivi di apprendimento), associando ad ogni elemento
di conoscenza un livello di padronanza (skill). Nel processo di annotazione
delle risorse educative, il concetto di competenza è particolarmente utile per
rappresentare non solo il dominio di conoscenza che la risorsa tratta, ma anche
le abilità che l’utente può costruire grazie alla fruizione di quella risorsa.
La seconda modalità che citiamo riguarda la possibilità di propagare l’interesse (o la conoscenza) dell’utente per una risorsa sulle proprietà che la descrivono e quindi, di conseguenza, su tutte le risorse descritte (annotate) con quella
proprietà. La personalizzazione può quindi essere realizzata senza necessità di
un overlay model esplicito. In CHIP (Aroyo et al., 2007), per esempio, le risorse
sono annotate semanticamente e agli utenti è richiesto di votare (rating) l’interesse per un insieme di queste. Ciascuna risorsa è descritta mediante diverse
proprietà. Quando l’utente vota una risorsa, il voto è propagato alle proprietà,
permettendo quindi di suggerire risorse annotate con quella stessa proprietà o
con proprietà equivalenti.
2.2.2 Approccio bottom-up
Mentre nell’approccio top-down il comportamento del singolo utente può
essere direttamente confrontato con la descrizione ontologica del dominio,
42
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
nell’approccio bottom-up è necessario innanzitutto ricondurre la struttura folksonomica, che non prevede relazioni tra tag, ad una forma più ordinata, clusterizzando, ad esempio, i tag disponibili (es. Schwarzkop et al., 2007).
Se da un lato la strutturazione delle annotazioni permette di emulare l’approccio top-down, dall’altro l’approccio bottom-up introduce la possibilità di
sfruttare la dimensione relativa agli utenti che annotano le risorse. In questo
modo il comportamento del singolo utente può essere modellato sia in funzione
della semantica dei tag che ha inserito, sia considerando la similarità con altri
utenti. Nel primo caso, i tag vengono ricondotti a concetti definiti in ontologie lessicali, quali WordNet, o a concetti definiti in altre tassonomie, come
Wikipedia, per inferire in tal modo gli interessi degli utenti (es. Szomszor et
al.,2008). Nel secondo caso, invece, l’utente impegnato in un task di ricerca
viene confrontato con altri utenti considerando caratteristiche come gli interessi
inferiti dai tag utilizzati per annotare le risorse, come in (Schwarzkop et al.,
2007) e come illustrato nel caso di studio in sezione 3.2, oppure considerando
caratteristiche socio-demografiche, come nel caso di studio presentato nella
sezione 3.3.
Occorre infine sottolineare che mentre l’approccio top-down si presta maggiormente a modellare le conoscenze dell’utente impegnato in un processo di
acquisizione di conoscenze e competenze, l’approccio bottom-up è utilizzato
soprattutto per la fase esplorativa e risulta particolarmente efficace per la condivisione di conoscenze e per il peer tutoring (Westera, 2007).
3 Tre casi di studio
L’utilizzo degli approcci top-down e bottom-up per migliorare l’accesso
alle risorse è il terreno comune su cui sono stati sviluppati i tre casi di studio
descritti in questa sezione. Le linee progettuali hanno seguito strategie diverse evidenziando come: l’approccio top-down possa facilitare lo scambio
e la classificazione di risorse nel contesto dell’e-learning garantendo margini
di integrazione con l’approccio bottom-up (sezione 3.1); meccanismi di raccomandazione possano essere costruiti sull’approccio bottom-up modellando
gli interessi degli utenti (sezione 3.2) e utilizzando le caratteristiche sociodemografiche degli utenti associati alle risorse annotate (sezione 3.3).
3.1 Approccio top-down per la connotazione di risorse educative
Questo primo caso di studio presenta alcune scelte progettuali messe in atto
nell’ambito del progetto Share.TEC3 che, rivolto a sostenere i processi di formazione iniziale e di aggiornamento in servizio dei docenti, ha come obiettivi:
SHAring Digital REsources in the Teaching Education Community, eContentplus programme (ECP 2007 EDU 427015) http://
www.share-tec.eu
3
43
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
la costruzione di un sistema per aggregare metadati che descrivano le risorse
educative digitali nel campo della FD in Europa; l’offerta di servizi personalizzati e connotati culturalmente per rendere disponibili contenuti specifici; il
miglioramento della comprensione e della condivisione di pratiche all’interno
delle comunità di FD in Europa.
Il nucleo semantico del sistema proposto è un’ontologia per la formazione
docenti (denominata TEO – Teacher Education Ontology). TEO si propone di
modellare quegli aspetti del mondo della formazione utili alla condivisione
di risorse educative digitali in una comunità che include formatori di docenti,
docenti in fase di auto-aggiornamento, editori e produttori di contenuti. In
particolare, l’ontologia (TEO) mira a consentire: la caratterizzazione pedagogica dei contenuti digitali; la rappresentazione dei profili utente e le relative
competenze; la costruzione di funzionalità multilinguistiche e multiculturali;
l’interazione personalizzata con il sistema, attraverso modelli utente adattativi;
l’implementazione di un sistema di raccomandazione.
In termini strutturali TEO si articola in cinque sezioni, separate e tuttavia
reciprocamente interconnesse e coerenti tra loro (Share.TEC Project, 2008):
1. risorse educative digitali - gli artefatti strettamente connessi al concetto
di “learning object” (Alvino et al., 2007; Wiley, 2000);
2. attori e ruoli – la caratterizzazione degli utenti finali del sistema in termini di profili professionali, esperienze, preferenze personali, ecc. (Razmerita et al., 2007; Paneva, 2006);
3. competenze - “conoscenze, abilità e/o altre caratteristiche misurabili, definibili, identificabili e specifiche, che una risorsa umana può possedere
e che sono necessarie per compiere attività in un contesto specifico”
(Paquette, 2007);
4. contesto - ad es. le caratteristiche delle organizzazioni in cui operano gli
utenti del sistema Share.TEC;
5. domini di conoscenza - la rappresentazione tassonomica delle aree del
sapere relative al settore formazione docenti, inclusi gli aspetti pedagogici, tecnologici e disciplinari (UNESCO - ISCED 1997 - International
Standard Classification of Education).
L’approccio ontologico di tipo top-down (sezione 2.1.1), adottato per modellare una conoscenza di tipo generale, viene integrato da un contributo bottomup generato dalle folksonomie dell’utente e dal social tagging (sezione 2.1.2).
I due processi sono distinti e tuttavia complementari: il social tagging arricchisce la connotazione dei contenuti digitali senza condizionare direttamente
la struttura ontologica.
Un aspetto significativo affrontato in Share.TEC è la dimensione multiculturale e multi linguistica associata alla necessità di connotare risorse educative in
44
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
contesto europeo. Quando i formatori cercano risorse digitali spesso si trovano
a navigare fra volumi di proposte generate da motori di ricerca generici, o ad
interagire con banche dati la cui interfaccia ed i cui metadati rispecchiano un
modello culturale e un linguaggio poco familiari.
TEO adotta pertanto una struttura a diversi livelli, costituita da una base
comune e da una serie di ontologie specifiche, una per ogni particolare contesto
culturale e linguistico.
Questa struttura ontologica a diversi livelli fornisce una cornice per la definizione del modello di metadati di Share.TEC. Così come l’ontologia, anche
il modello di metadati include un livello di riferimento superiore (Modello
Comune di Metadati) ed una serie di derivazioni specifiche lingua/contesto
(Modello Multiculturale di Metadati). La rete di relazioni fra il livello comune
ed i vocabolari specifici di ciascuna cultura consentono di catturare le differenze
contestuali, linguistiche e semantiche specifiche (istituzionali, nazionali, ecc.)
e di rappresentarle nel sistema Share.TEC.
Questo approccio offre una serie di vantaggi agli utenti. In primo luogo l’interfaccia del sistema è disponibile nella lingua di ciascun partner del progetto
(bulgaro, inglese, italiano, olandese, svedese). Gli utenti registrati nel sistema
vengono associati a profili di tipo ontologico i cui concetti chiave e relazioni
sono linguisticamente e culturalmente contestualizzati e rappresentati anche
in termini di competenze derivate da elementi rappresentati in TEO (sezione
2.2.1). Gli utenti sono quindi in grado di cercare contenuti da una varietà di
ambienti linguistici e culturali diversi, usando la loro lingua e riferendosi al
loro modello culturale. Inoltre, sono stati sviluppati meccanismi inferenziali
che aggiungono flessibilità ai motori di ricerca consentendo così, per esempio,
il reperimento di risorse che non corrispondono esattamente all’interrogazione
formale dell’utente ma che possono comunque soddisfare le sue esigenze.
3.2 Approccio bottom-up per il filtraggio collaborativo sulla base degli
interessi
Il focus del secondo caso di studio che proponiamo in questo lavoro entra
più propriamente nel merito dell’utilizzo del tagging per la realizzazione di un
meccanismo di raccomandazione.
Più in particolare, il meccanismo di raccomandazione descritto in questa
sezione parte dall’osservazione che i social bookmark sono una base di conoscenza costruita dagli utenti per finalità personali e che come tali mappano gli
interessi degli utenti. È pertanto possibile utilizzare l’approccio bottom-up per
modellare sia gli interessi degli utenti (sezione 2.2.2) sia l’associazione tra una
risorsa ed un interesse (sezione 2.1.2)
I meccanismi tradizionalmente utilizzati nelle applicazioni di social boo-
45
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
kmarking per la ricerca di risorse si limitano a suggerire le risorse più popolari associate ad un certo insieme di tag forniti in input. Tuttavia, sebbene la
popolarità di una risorsa sia un buon indice di confidenza per la sua qualità,
essa non tiene in considerazione la natura eterogenea di un network, composto
da insegnanti e studenti, che usano i tag per soddisfare esigenze informative
diverse (sia nella fase di classificazione che in quella di ricerca).
Nei sistemi di filtraggio collaborativo, al contrario, è centrale l’individuazione di un sottoinsieme di utenti simili a quello per cui si vogliono generare
le raccomandazioni.
Per poter valutare se due utenti sono effettivamente simili, i sistemi di filtraggio collaborativo debbono confrontare i feedback restituiti dai due utenti
quando questi interagiscono con le stesse risorse o quanto meno con risorse
correlate. Per questo i sistemi di raccomandazione ottengono buoni risultati
quando le risorse appartengono allo stesso dominio informativo: in questo
caso non è necessario tenere presente che gli utenti operano sulla base di una
pluralità di interessi (Frankowski et al., 2007). Infatti il tradizionale approccio
di selezione dei vicini valuta la similarità tra due utenti contando il numero
di risorse che questi condividono: maggiore è il numero di risorse condivise
maggiore è la probabilità che i due utenti condivideranno risorse in futuro. Tuttavia questo approccio non è efficace in contesti in cui le risorse appartengono
a diversi domini informativi.
Questa problematica è stata affrontata anche in (Baltrunas & Ricci, 2008)
dove gli autori mostrano come la bontà delle predizioni fatte da un sistema di
raccomandazione migliori sensibilmente quando la similarità tra utenti viene
calcolata considerando solo risorse correlate all’interesse corrente dell’utente.
Per questo una strategia capace di individuare sia gli interessi di un utente sia
la correlazione tra un interesse ed una risorsa può migliorare la precisione delle
raccomandazioni: il sistema può selezionare in maniera dinamica il vicinato
confrontando gli utenti solo sulle risorse associate all’interesse corrente.
Seguendo quest’idea, un’interessante possibilità è quella di sfruttare le classificazioni fornite dagli utenti per mappare gli interessi degli utenti e produrre
suggerimenti personalizzati.
Per ovviare al problema dell’assenza di relazioni semantiche tra tag inferiamo relazioni tra tag. In particolare, costruiamo una matrice in cui righe e
colonne sono associate rispettivamente a tag e risorse e dove la cella (i,j) conta
il numero di volte che il tag i-esimo è stato associato alla risorsa j-esima. La
similarità del coseno è quindi usata per quantificare la similarità tra tag (due
righe della matrice). Queste relazioni di similarità possono essere usate per
raggruppare i tag degli utenti in cluster: dato un utente, un cluster di tag e
l’insieme delle risorse che l’utente ha associato a questi tag definiscono un
interesse dell’utente.
46
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
Considerato un interesse di un utente, una lista di raccomandazioni è generata considerando solo gli utenti che hanno utilizzato tag correlati a quelli usati
dall’utente per riferire lo specifico interesse.
In altre parole, la fase di selezione dei vicini è realizzata sulla base dei tag
e delle risorse connesse all’interesse corrente del’utente.
Al fine di individuare tutti i tag connessi all’interesse corrente, l’insieme
dei tag usati dall’utente per definire un interesse è ulteriormente espanso, considerando tag simili a quelli usati dall’utente.
L’insieme espanso dei tag permette di:
• Filtrare l’insieme dei potenziali vicini. Sono considerati solo gli utenti
che hanno utilizzato i tag correlati all’interesse dell’utente.
• Filtrare l’insieme delle risorse potenzialmente raccomandabili. Sono considerate solo le risorse che sono state associate ai tag correlati all’interesse dell’utente.
Il tradizionale meccanismo di filtraggio collaborativo può essere quindi
applicato sull’insieme di dati così filtrato: un valore di similarità viene assegnato ad ogni potenziale vicino in funzione del numero di risorse condivise con
l’utente; le risorse taggate dai vicini più simili all’utente otterranno un valore
di rilevanza maggiore. Le risorse che ottengono un valore di rilevanza più alto
sono infine suggerite. Maggiori dettagli circa il sistema di raccomandazioni
sono reperibili in (Dattolo et al., 2009).
3.3 Approccio bottom-up per peer tutoring
L’ultimo caso di studio riguarda un sistema di raccomandazione che, analogamente al precedente, utilizza come repository i social bookmark degli utenti
e un meccanismo di neighbor selection per individuare utenti simili. Ciò che
cambia rispetto al caso di studio precedente, sono le dimensioni dell’utente
utilizzate per la personalizzazione dei risultati e la modalità di acquisizione
delle stesse.
Considerando la classificazione descritta nella sezione 2, questo caso di
studio pone in evidenza le potenzialità del social tagging, applicato al social
bookmarking, nel selezionare e indicizzare le risorse secondo il punto di vista
degli utenti. E gli utenti vengono considerati come entità complesse, multidimensionali. Ciascuna dimensione, o caratteristica, influenza le annotazioni
prodotte dall’utente e, in modo corrispondente, può essere utile considerarle in
fase di filtraggio e raccomandazione. Il sistema che descriviamo in questo caso
di studio tiene conto di questo aspetto, personalizzando i risultati in base alla
corrispondenza tra un insieme di caratteristiche dell’utente che ricerca risorse
su un certo argomento e le caratteristiche degli utenti che hanno annotato le
47
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
risorse.
L’idea di base è che, se un utente sta cercando informazioni su un certo argomento, per esempio “come configurare un router”, prediligerà trovare risorse
segnalate da persone con il suo stesso problema e con il suo stesso background,
in modo tale che la spiegazione sia adeguata alle sua capacità di comprensione.
Appare evidente che, per soddisfare quest’esigenza, l’approccio bottom-up
offra supporto sia per la classificazione delle risorse, sia per l’individuazione
di utenti simili che hanno indicato una certa risorsa come rilevante, rispetto
all’oggetto della query.
Nell’ambito dell’e-learning, questo approccio risulta particolarmente interessante e supportato da studi relativi all’efficacia del peer tutoring (Westera,
2007). Da questi studi emerge che i suggerimenti dei compagni di corso, relativi
a materiali da approfondire, vengano spesso apprezzati e seguiti maggiormente
dei suggerimenti degli insegnanti.
Il prototipo attualmente implementato, i cui dettagli possono essere approfonditi in (Torre, 2009), utilizza Delicious, e i social bookmarks da questo gestiti, quale repository di risorse annotate. Data una query, basata su uno o più tag,
il sistema restituisce l’insieme di risorse (bookmarks) che soddisfano la query
stessa e ordina i risultati sulla base dell’occorrenza dei tag. A questo scopo,
utilizza la tecnica del TF.IDF, tipicamente impiegata in information retrieval. Il
sistema la applica al retrieval di social bookmark nel seguente modo. Per ogni
risorsa, i cui tag includano uno o più termini della query, viene calcolato il TF
(Term Frequency) come il rapporto tra il numero di occorrenze del tag cercato
e il numero totale di tag assegnati dagli utenti a quella risorsa. L’IDF (Inverse
Document Frequency) determina, invece, la pertinenza del tag per quella risorsa
rispetto alle altre risorse. Viene calcolato dividendo il numero totale di risorse
per il numero di risorse taggate con i tag della query e calcolando infine il logaritmo del quoziente. TF e IDF sono moltiplicati e il valore risultante rappresenta
un peso per quella risorsa (bookmark), dato il tag della query.
I bookmark, ordinati in base ai pesi ottenuti dall’applicazione del TF.IDF,
vengono poi riordinati in modo personalizzato, considerando la corrispondenza
tra le caratteristiche dell’utente che effettua la query (es. età, sesso, ecc.) e le
caratteristiche degli utenti che hanno annotato i bookmark. Questa fase è resa
possibile dall’approccio bottom-up, in cui ogni bookmark è associato agli utenti
che hanno aggiunto quella risorsa tra i propri preferiti e l’hanno annotata con
un insieme di tag.
Gli utenti che hanno inserito i bookmark sono caratterizzati da un insieme
di attributi che, nel loro insieme, costituiscono l’identità della persona: nome,
cognome, età, sesso, interessi, professione, scuola, ecc. Quando l’utente effettua
la query, può specificare quali attributi il sistema deve prendere in considerazione per ordinare i risultati. Per esempio, uno studente che stesse cercando
48
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
risorse relative al linguaggio PHP, per effettuare un’esercitazione, potrebbe
effettuare una query per cercare, per esempio, librerie PHP, specificando che
ha preferenza per risorse annotate da studenti del suo stesso corso di studi.
La criticità è acquisire conoscenza sugli utenti che hanno inserito e annotato i bookmark. Delicious, per esempio, mette a disposizione pochi dati nel
profilo pubblico degli utenti, quindi il problema diventa come e dove acquisire
ulteriore conoscenza su tali utenti.
L’approccio seguito per risolvere questo problema è stato sviluppare un
servizio di discovery che si comporti come crawler di identità nei social network (cs-ids.di.unito.it). Una volta identificato un utente su uno o più social
network, con un fattore di certezza superiore a una certa soglia (0.7, in base ai
dati della sperimentazione) i relativi profili vengono combinati, e i dati trovati
eventualmente utilizzati per inferire ulteriore conoscenza sugli utenti. Maggiori informazioni relative al funzionamento del crawler sono disponibili in
(Carmagnola et al., 2009).
Utilizzando questo servizio, il recommender system può così essere impiegato per creare una sorta di classe virtuale composta da compagni di classe
virtuali, selezionati dall’insieme complessivo di utenti di Delicious.
Il prototipo attuale utilizza come repository un solo bookmarking system,
Delicious, ma il sistema è pensato per interrogare più sistemi di bookmarking
in parallelo, in modo da poter accrescere la dimensione del repository su cui
effettuare ricerche.
Conclusioni
Questo lavoro ha analizzato capacità, possibilità e prospettive dei meccanismi di annotazione per la classificazione di risorse e la profilazione degli utenti
che sono le funzioni alla base dei sistemi di raccomandazione.
In particolare, la sezione 3.1 presenta uno studio che utilizza l’approccio
top-down per supportare la classificazione di oggetti didattici. La capacità
descrittiva dell’approccio top-down si scontra tuttavia con limitazioni e costi connessi alla costruzione e manutenzione della conoscenza. L’approccio
bottom-up, viceversa, distribuisce il processo di annotazione sull’utenza che
può classificare risorse senza ottemperare a vincoli definiti a priori, ma paga
questo vantaggio con la difficoltà di interpretare in modo automatico il significato delle annotazioni.
L’approccio bottom-up apre interessanti scenari per quanto riguarda la
classificazione di utenti e risorse. Le sezioni 3.2 e 3.3 mostrano infatti come
l’approccio bottom-up possa essere impiegato per individuare utenti simili (neighbor selection) considerando rispettivamente la similarità di interessi, dedotti
dai tag che gli utenti inseriscono, e la similarità di aspetti socio-demografici,
49
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
acquisiti aggregando dati distribuiti nel social Web, al fine di raccomandare
risorse. Future analisi potranno confrontare i due meccanismi in modo da ottenere riscontri da un pubblico di studenti e insegnanti e così misurare l’efficacia
e le possibilità di integrazione dei due meccanismi.
Approccio top-down e bottom-up sono per molti aspetti complementari,
come evidenziato per esempio da Macgregor e McCulloch (Macgregor & McCulloch, 2006), anche se mantengono specificità che li differenziano.
Seguendo le osservazioni di Chan, che suggerisce che il miglior tipo di
classificazione dovrebbe combinare classificazioni ufficiali con social tagging
(Chan, 2007), sarebbe interessante capire come l’integrazione tra i due approcci possa supportare classificazione e profilazione. Diversi lavori hanno già
analizzato questa possibilità (es. van der Sluijs & Houben, 2008) e il caso di
studio presentato nella sezione 3.1 si muove in questa direzione, ma ulteriori
analisi sono necessarie per misurare l’effettiva capacità descrittiva del modello
di conoscenza generato dall’approccio.
Bibliografia
Alvino S., Forcheri P., Ierardi M.G., Sarti L. (2007), Un modello per la connotazione
pedagogica di LO, Rapporto tecnico IMATI-CNR n. 13/2007.
Baltrunas L., Ricci F. (2008), Locally adaptive neighborhood selection for collaborative
filtering recommendations, in:AH ’08: Proceedings of the 5th International
Conference on Adaptive Hypermedia and Adaptive Web-Based Systems, 22–31,
Berlin, Heidelberg, Springer-Verlag.
Brusilovsky P., Millan E. (2007), User models for adaptive hypermedia and adaptive
educational systems, in: Brusilovsky P., Kobsa A., Neidl W.(eds.): The Adaptive
Web,. 3-53, Berlin Heidelberg New York: Springer-Verlag.
Carmagnola F., Osborne F., Torre I. (2009), Cross-Systems Identification of Users in
the Social Web, in Proc. of the IADIS International Conference WWW/Internet,
129-134, Rome, Italy.
Chan S. (2007), Tagging and searching? serendipity and museum collection databases.
In Museums and the Web, Archives Museum Informatics.
Dattolo A., Ferrara F., Tasso C. (2009), Neighbor selection and recommendations in
social bookmarking tools, in Proc. of the Workshop on AI & E-Learning, within
the Conference of the Italian Association for Artificial Intelligence (AI*IA), 27-36,
Reggio Emilia.
Gavrilova T., Puuronen S., Alisova M., Petrashen, E. (2009), First steps in Ontology
Development: Knowledge Portal for Software Testers, in: Dicheva D., Nikolov
R., Stefanova, E. (eds.), Software, Services & Semantic Technologies, First
International Conference, 192-199, Sofia, Bulgaria.
Gruber T. (1993), A translation approach to portable ontology specifications,
50
Felice Ferrara, Ilaria Torre, Luigi Sarti, Carlo Tasso, Antonina Dattolo, Stefania Bocconi, Jeff Earp - Risorse e utenti nei
processi di tagging: approcci e casi di studio
Knowledge Acquisition.
IEEE Learning Technology Standards Committee (2002), Learning Object Metadata,
Final Draft Standard. IEEE 1484.12.1-2002.
IMS LIP (2001), IMS Learner Information Package, http://www.imsproject.org/
aboutims.html (verificato il 28 Febbraio 2010).
Macgregor G., McCulloch E. (2006), Collaborative Tagging as a Knowledge
Organisation and Resource Discovery Tool, Library Review.
Mika, P. (2005), Ontologies are us: A unified model of social networks and semantics,
in: Gil Y., Motta E., Benjamins R.V., Musen M. (eds.), Proceedings of the Fourth
Int. Semantic Web Conference (ISWC), 122-136, Galway, Ireland.
Musto C., Narducci F., De Gemmis M., Lops P., Semeraro G. (2009), Star: a social
tag recommender system, in: Proceedings of the ECML/PKDD 2009 Discovery
Challenge Workshop.
Nakamoto, R., Nakajima, S., Miyazaki, J., Uemura, S. (2007), Tag based contextual
collaborative filtering, Journal of Intelligent Information Systems 34(2).
Nilsson, M. (2001), The semantic web: how RDF will change learning technology
standards. http://zope.cetis.ac.uk/content/20010927172953, (verificato il 28
Febbraio 2010).
Paneva D. (2006), Ontology-based Student Modeling, in: Proceedings of the Fourth
CHIRON Open Workshop Ubiquitous Learning Challenges: Design, Experiments
and Context Aware Ubiquitous Learning, 17-21, Turin, Italy.
Paquette G. (2007), An Ontology and a Software Framework for Competency Modeling
and Management, Educational Technology & Society, 10 (3), 1-21.
Pazzani M., Billsus D. (2007), Content-Based Recommendation Systems, in: Brusilovsky
P., Kobsa A., Nejdl W. (eds) The Adaptive Web, 325–341, Springer-Verlag, Berlin,
Germany.
Razmerita L., Angehrn A., Nabeth, T. (2003), On the role of Actor models and Actor
modelling in Knowledge Management Systems, in: Proceedings of HCI International
Conference, Greece, 2003.
Schafer, J. B., Frankowski,. D, Herlocker, J., & Sen, S. (2007), Collaborative Filtering
Recommendater Systems, in: Brusilovsky P., Kobsa A., Nejdl W. (eds), The Adaptive
Web, 291-324, Springer-Verlag, Berlin, Germany.
Schmidt A. (2005), Bridging the Gap Between Knowledge Management and E-Learning
with Context-Aware Corporate Learning, Professional Knowledge Management,
203-213.
Schwarzkopf E., Heckmann D., Dengler D., Kröner A. (2007), Mining the structure
of tag spaces for user modelling, in: Proceedings of the workshop on data mining
for user modeling, at the International Conference on User Modeling (UM ’07),
63–75, Corfu, Greece.
Shepitsen A., Gemmell J., Mobasher B., Burke R (2008), Personalized recommendation
in collaborative tagging systems using hierarchical clustering, in: Proceeding
of the 2nd ACM International Conference on Recommender Systems, 259-266,
Lausanne.
51
| Invited Papers
- Vol. 6, n. 2, Maggio 2010
Torre I. (2009), Social Tagging in eLearning. Recommendations from Virtual FellowStudents, in Proc. of the Workshop on AI & E-Learning, within the Conference of
the Italian Association for Artificial Intelligence (AI*IA), 27-36, Reggio Emilia.
van der Sluijs K., Houben, G. (2008), Relating user tags to ontological information. In:
Proce. of the Workshop on Theories and Applications of Ubiquitous User Modeling,
at the Int. Conf. of Intelligent User Interfaces (IUI ’08), Canary Islands, Spain.
http://www.uni-koblenz.de/confsec/IUI/Proc./data/workshops.html.
Westera W. (2007), Peer-allocated instant response (pair): Computational allocation
of peer tutors in learning communities. Journal of Artificial Societies and Social
Simulation, 10 (2).
Wiley D.A. (2000), Connecting learning objects to instructional design theory: A
definition, a metaphor, and a taxonomy, in Wiley D.A. (ed.) The Instructional Use
of Learning Objects, Association for Instructional Technology.
Wong D., Shephard K.L., Phillips, P (2008), The cathedral and the bazaar of e-repository
development: encouraging community engagement with moving pictures and sound,
ALT-J Research in Learning Technology, 16 (1), 31-40.
Zanardi V., Capra L. (2008), Social ranking: Finding relevant content in web 2.0, in:
Proceeding of the 2nd ACM International Conference on Recommender Systems,
51-58, Lausanne.
52