Scarica il testo del quaderno in formato

Transcript

Scarica il testo del quaderno in formato
I quaderni di
Utente senza segreti
informazione personalizzata
Le
tecnologie si evolvono progressivamente tanto che l’evoluzione non è più di per sé
una novità, ma questa evoluzione ha portato a superare certi limiti e quindi a cambia-
re in modo repentino e radicale le regole del gioco. Invisibili su Internet? Un sogno che è durato poco. Una vignetta americana recitava:“On the Internet, nobody knows you’re a dog”, su Internet nessuno sa che sei un cane! Non è più così. L’utente oggi lascia tracce ad ogni passaggio.
Chi sfrutta le informazioni? Chi tutela la privacy? Le evoluzioni tecnologiche nel settore dei supporti di memorizzazione, nella capacità elaborativa, rilevazione dati, distribuzione e fruizione sono e saranno elementi di dirompenza per il business in generale, soprattutto per il business legato al mondo dei Media e per le relative catene del valore (vedi Media Duemila n. 237). I fattori che portano al cambiamento sono molteplici, certamente cultura e società hanno un ruolo determinante. Ricordare ed analizzare ogni contesto nel quale si produce una piccola o grande rivoluzione è sempre utile: questo numero è dedicato alla profilazione dell’utente e all’informazione personalizzata. Sicuramente la curiosità viene stimolata di più dal primo concetto perché l’invisibilità, come l’onnipresenza e l’onniscienza, sono condizioni alle quali l’uomo anela da
sempre. In questo numero scientificamente si riporta la storia, non troppo antica, dell’accesso
alle informazioni in formato digitale che è diventato solo recentemente un fenomeno sociale
ed economico formidabile, ma le sue radici tecniche sono più antiche. Già negli anni ’70 e ’80,
ben prima che la fame di informazioni, intrattenimento e socializzazione via Internet contagiasse noi tutti, le ricerche in “information retrieval” e intelligenza artificiale individuano alcuni principi di base e metodologie che ancora oggi presiedono al funzionamento dei motori di ricerca
e dei sistemi per il filtraggio e l’erogazione delle informazioni. Nello stesso ambito si inserisce
la prassi di predire i gusti dell’utente, pratica tanto importante che la Netflix, il più grosso servizio on line di noleggio dvd in USA, ha messo in palio un milione di dollari per chi riuscirà a
migliorare l’accuratezza del sistema di predizione dei gusti dei propri utenti. La personalizzazione è sicuramente la killer application del futuro con tutti i suoi limiti e le sue potenzialità, la perdita di privacy è un limite? Per alcuni sì, per altri assolutamente no.
SUPPLEMENTO AL NUMERO 255 APRILE 2008 DI
I N D I C E
Introduzione
51
Un po’ di storia
52
Tecniche di profilazione dell’utente
e di erogazione personalizzata delle informazioni
53
La personalizzazione è il PageRank del futuro?
63
Privacy e servizi informativi personalizzati: una convivenza possibile
63
Conclusioni
64
Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni.
Presidente il prof. Maurizio Dècina
Direttore Generale il prof. Antonio Sassano
Direttore delle Ricerche l’ing. Mario Frullone
Curatori del Quaderno:
Andrea Bernardini, Claudio Carpineto, Raffaele Nicolussi.
SONO USCITI NEL 2007/2008:
Modelli di business per le tv locali
FEBBRAIO
2007
MARZO
2007
APRILE
2007
Nuovi servizi richiedono una Banda Larga sempre più ampia
MAGGIO
2007
La logistica apre le porte a nuovi business
GIUGNO
2007
LUGLIO/AGOSTO
2007
SETTEMBRE
2007
OTTOBRE
2007
NOVEMBRE
2007
2007/GENNAIO
2008
FEBBRAIO
2008
MARZO
2008
Cresce la multimodalità nella comunicazione
Con la nomadicitá cambiano le abitudini
Verso le reti di nuova generazione: il ruolo di Ethernet
Nuovi servizi a larga banda su Internet
Segno di riconoscimento: la voce
Elettromagnetismo tra scienza e comunicazione
L’importanza dello spettro radio per un mondo senza fili
Società dell’informazione e contenuti digitali: tutela dei diritti in un mondo che cambia
Il mondo gestito da una rete invisibile e senza fili
50
DICEMBRE
I quaderni di

Introduzione
na famosa vignetta del New Yorker (5 luglio 1993) mostrava due cani davanti ad
un computer ed uno diceva all’altro per spiegargli come la comunicazione su Internet fosse anonima: “On the Internet, nobody knows
you’re a dog”. Al giorno d’oggi questo potrebbe non essere più vero.
U
Noi lasciamo le nostre impronte sui media
che adoperiamo anche se spesso non ce ne
accorgiamo. Quando visitiamo un sito, guardiamo un video o facciamo un’interrogazione con
un motore di ricerca, vengono trasmesse al server una serie di informazioni sulla identità della macchina che si è collegata e sui dati immessi e le operazioni eseguite ad ogni stadio dell’interazione col sistema.
Aggregando tali informazioni, anche basandosi su tracce lasciate a distanza di tempo, si possono dedurre il profilo ed i gusti di un utente.
Il risvolto commerciale dell’utilizzo di queste informazioni è immediato. Dal profilo di un
utente e dalle sue azioni si possono raffinare i
risultati di un motore di ricerca, pianificare offerte commerciali mirate ed addirittura prevedere i suoi comportamenti.
Una famosa applicazione è il sistema sviluppato da Amazon per segnalare all’utente
prodotti di suo possibile interesse. Quando
viene visualizzato un prodotto vengono suggeriti anche i prodotti ad esso correlati sulla
base delle interazioni passate di altri utenti
(chi ha comprato il libro X ha anche comprato il libro Y).
La possibilità di sfruttare i profili degli utenti ha dato vita ad una serie di ricerche molto
interessanti.
APRILE 2008
Presso i Google Labs è stata investigata la possibilità di utilizzare un profilo d’utente e di graduare la sua influenza sui risultati ottenuti senza
il profilo, lungo uno spettro di combinazioni che
vanno dalla personalizzazione totale all’assenza
di personalizzazione. Un approccio più ambizioso ed invasivo, studiato soprattutto in ambiente
Microsoft, si basa sull’analisi dei comportamenti
dell’utente desunti dalle informazioni presenti sul
suo computer: le ricerche antecedenti che ha
fatto, i file memorizzati, con chi scambia messaggi di posta e su quale argomento.
Lo sviluppo di innovative applicazioni di personalizzazione è legato ad una serie di ricerche
che sono attualmente in corso di svolgimento.
In questo articolo viene data una panoramica
della storia, delle attuali metodologie e delle prospettive di questo filone di ricerca anche alla luce delle esigenze di privacy degli utenti.
Il Quaderno è strutturato nei seguenti 4 capitoli:
쩦 il capitolo 1 offre una panoramica della storia dell’interrogazione e del filtraggio delle
informazioni.
쩦
il capitolo 2 si concentra su tre interessanti approcci di profilazione dell’utente ed
erogazione personalizzata delle informazioni rispettivamente:
– Filtraggio collaborativo delle informazioni
– Apprendimento automatico di funzioni di
ordinamento
– Espansione automatica personalizzata dell’interrogazione
쩦
il capitolo 3 si concentra sul futuro delle tecniche di personalizzazione.
쩦
il capitolo 4 affronta invece il delicato rapporto tra profilazione e privacy dell’utente
51
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
Un po’ di storia
accesso alle informazioni è diventato solo recentemente un fenomeno sociale ed economico formidabile, ma le sue radici tecniche sono più
antiche. Già negli anni ‘70 e ‘80, ben prima che la fame di informazioni, intrattenimento e socializzazione via Internet contagiasse noi tutti, le ricerche in
“information retrieval” e intelligenza artificiale individuano alcuni principi di base e metodologie che
ancora oggi presiedono al funzionamento dei motori di ricerca e dei sistemi per il filtraggio e la fornitura delle informazioni.
L’
In un classico ar ticolo del 1992 apparso sulle
Communications of the ACM (“Information filtering and information retrieval:Two sides of the same coin?”) Nick Belkin e Bruce Croft postulano
una dualità fra le due modalità principali di erogazione delle informazioni, quella di accesso (pull), in
cui il sistema reperisce le informazioni d’interesse
in risposta ad una interrogazione, e quella di filtraggio (push), in cui le informazioni vengono spedite
ad un utente verosimilmente interessato a riceverle. Documenti, interrogazione e profilo d’utente
sono rappresentati allo stesso modo, cioè mediante un vettore di termini pesati dove ciascun peso
riflette l’importanza di quel termine nel documento (o interrogazione, o profilo), e la selezione dei
documenti pertinenti ad una certa interrogazione
o profilo viene ricondotta al “best matching” dei
vettori corrispondenti.
È subito chiaro però che il metodo basato sul
contenuto da solo non è sufficiente a selezionare
i documenti pertinenti e a scartare quelli non pertinenti in modo accurato. Ciò è dovuto principalmente all’ambiguità del linguaggio naturale, che fa
si che gli stessi concetti possano essere espressi in
modo differente nei documenti e nella interrogazione (o profilo). Ma non bisogna neanche trascurare il fatto che il pieno soddisfacimento di un bisogno informativo, oltre che alla sua comprensione, è legato anche alla conoscenza di chi lo ha formulato e perché – ad esempio con un’interrogazione “flower” gli uomini vogliono di solito spedi-
52
re fiori, le donne ordinare semi e piante da giardino. Il metodo basato sul contenuto è stato così
progressivamente arricchito con altre informazioni di contesto, quelle personali in primis. utilizzate
per tarare e raffinare il metodo di base oppure per
dare luogo a funzioni di selezione dei documenti
autonome da usare in combinazione con esso. La
personalizzazione dei risultati è diventata così uno
dei tratti distintivi dell’accesso intelligente alle informazioni, ed è stata studiata per anni, con alterne fortune, utilizzando anche la metafora degli agenti software. Una delle sue prime e più note incarnazioni è la tecnica di “relevance feedback”, in cui
la funzione di selezione dei documenti viene modellata come un processo di apprendimento guidato dai giudizi di pertinenza sui risultati ritornati
durante la fase di addestramento. In sostanza, il vettore della interrogazione (o del profilo) viene modificato ad ogni iterazione aumentando o diminuendo il peso dei suoi termini a seconda che quei termini siano presenti in documenti recuperati pertinenti oppure non pertinenti.
Questa tecnica è stata utilizzata in vari modi, incluso il reperimento delle immagini, anche se in applicazioni prevalentemente di laboratorio. Il suo limite principale è che le informazioni di addestramento devono essere fornite esplicitamente dall’utente, mediante un’attività aggiuntiva al normale
sforzo di ricerca e di solito poco gradita. Oggi il tema della personalizzazione è ridiventato centrale, in
parte perché c’è stata una moltiplicazione di sorgenti informative che contengono implicitamente le
preferenze degli utenti, in parte grazie alla evoluzione degli strumenti per il rilevamento e l’estrazione
automatica dei dati personali da dette sorgenti (come ad esempio le applicazioni per il “desktop search”). Contemporaneamente, sono state affilate le
tecniche di apprendimento automatico e information retrieval che fanno leva sul possesso di dati personali, e la combinazione dei due fattori potrebbe
quindi condurre ad un decisivo miglioramento delle prestazioni in termini di accuratezza e rispondenza dei risultati alle attese degli utenti.
I quaderni di
TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI

Tecniche di profilazione
dell’utente e di erogazione
personalizzata delle informazioni
el seguito vengono introdotti tre interessanti
approcci di ricerca. Filtraggio collaborativo delle informazioni.
쩧 Apprendimento automatico di funzioni
di ordinamento
쩧 Espansione automatica personalizzata
dell’interrogazione
쩧 Per ognuno degli approcci proposti viene
fornita una breve introduzione prima
di focalizzare l’attenzione sugli aspetti
più metodologici e tecnici. Al termine di ogni
trattazione sono fornite indicazioni
per ulteriori approfondimenti.
N
FILTRAGGIO COLLABORATIVO
DELLE INFORMAZIONI
(COLLABORATIVE FILTERING)
Si definisce Collaborative Filtering (CF) il processo di filtraggio delle informazioni basato su tecniche collaborative implicite ed esplicite tra agenti
intelligenti, sorgenti dati e utenti. A causa delle immediate ricadute commerciali è di particolare interesse il CF che si concentra sui comportamenti degli utenti. È possibile infatti costruire predizioni inerenti gli interessi di una persona confrontando le sue azioni con quelle svolte da altri utenti. Una famosa applicazione di questa tecnica è il
sistema sviluppato da Amazon per suggerire libri
(chi ha comprato il libro X ha anche comprato il
libro Y). In seguito molti altri siti commerciali (Barnes and Noble, iTunes, StumbleUpon ecc.) hanno compreso i vantaggi di questo approccio ed
integrato meccanismi di CF nei loro portali. A testimonianza dell’interesse di questa area di ricerca Netflix, il più grosso servizio online di noleggio dvd negli USA, ha messo in palio in palio un
milione di dollari per chi riuscirà a migliorare
l’accuratezza del sistema di predizione dei gusti
dei propri utenti.
APRILE 2008
METODOLOGIA
Il Collaborative Filtering può essere suddiviso in due
tipologie principali, user based e item based, e relative tecniche di raccolta delle informazioni (implicite ed esplicite).
Si può chiedere infatti ad un utente (modalità
esplicita) di esprimere un giudizio (rating) su un
item, ad esempio un video di Youtube, un libro di
Amazon, un link interessante con StumbleUpon,
oppure raccogliere dati (modalità implicita) dal
comportamento all’interno di un sito web (tempo speso per singola pagina, percorso seguito ecc.),
dal tipo di contenuti pubblicati in uno spazio condiviso o dalle interrogazioni formulate e dalle successive esplorazioni dei risultati.
L’assunzione di base del CF è che coloro che hanno manifestato comportamenti simili nel passato
tenderanno a condividerli anche in futuro. Le fasi di
un approccio di CF sono:
쩦 Registrazione delle preferenze di un gruppo numeroso di utenti (Input).
쩦 Utilizzo di algoritmi di Collaborative Filtering (memory based o model based) per individuare uno
o più profili di utenza che hanno gusti simili a
quella dell’utente di interesse.
쩦 In base alla somiglianza con i profili di utenza presenti del dataset e in base ai loro comportamenti
passati registrati costruzione di una predizione/raccomandazione (Output).
MODELLAZIONE
In uno scenario tipico di CF, c’è una lista di m utenti ed una lista di n item (vedi figura 1). Ogni utente
ui ha una lista di item Iu per i quali ha espresso
un’opinione (implicita od esplicita). Scopo dell’algoritmo di collaborative filtering è quello di predire per
un active user il grado di preferenza (likeliness) re-
53
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
i1
i2
i2
u1
Paj (predizione riguardo
item j per l’active user)
PREDISPOSIZIONE
ua
RACCOMANDAZIONE
(Tt1 ....Ttn )
raccomandazione di
n item per l’active user
um
Active
user
Imput (Matrice dei rating)
Algoritmo di Cf
Output
Figura 1. Scenario generale di Collaborative Filtering.
lativo ad uno o più item. Il risultato può essere
espresso in due forme:
쩦 Una predizione ovvero un valore numerico Pa
che esprime la likeliness di un active user ua per,j
un item ij (usando una metrica di riferimento per
le opinioni come ad esempio una scala di valori
da 1 a 5).
쩦 Una raccomandazione ovvero una lista degli N
item, che potrebbero interessare l’active user ua.
Gli algoritmi di tipo memory based ottengono
di norma migliori risultati assoluti e sono più adattabili a contesti dinamici (frequente variazione delle entry della matrice dei rating), ma richiedono molta potenza computazionale. Per questo nel caso di
data set molto grandi si preferisce utilizzate algoritmi di tipo model based.
Esistono due tipologie di algoritmi per il Collaborative Filtering: model-based e memory-based.
Algoritmi model-based – questi algoritmi utilizzano la matrice dei rating in modalità offline per
costruire un modello che viene poi utilizzato per
fare le previsioni. L’approccio seguito è di tipo
probabilistico con algoritmi di machine learning
basati su Bayesian network, clustering, e regole di
associazione.
CONCLUSIONI
Il Collaborative Filtering rappresenta un approccio molto interessante al problema dell’enorme
crescita del web poiché permette di declinare le
informazioni in base alla tipologia di utente che
si ha davanti. Esistono diversi approcci e metodologie per il CF in base alla tipologia delle informazioni raccolte(implicite/esplicite) ed al tipo
di risposta che si vuole generare (predizione o
raccomandazioni).
Algoritmi memory-based – questi algoritmi
lavorano in tempo reale su tutta la matrice dei
rating per fare le previsioni.
Gli algoritmi memory based cercano di individuare
un sottoinsieme di utenti affini (neighbors), che in
passato hanno concordato con le scelte dell’active
user (rating simile assegnato su diversi item).
Una volta trovato un sottoinsieme di neighbors
si combinano le preferenze dei neighbors per trovare una predizione o n raccomandazioni per
l’active user (vedere riquadro 1).
Uno dei vincoli attualmente esistenti è però legato alla potenza di calcolo necessaria alla computazione degli algoritmi di CF. Le soluzioni migliori e
più adattabili infatti si basano su algoritmi di tipo
memory based che richiedono però una grossa
potenza di calcolo. Al crescere del dimensione del
dataset invece si preferisce utilizzare algoritmi di
tipo model based in grado di costruire un modello offline su cui basare le predizioni. L’attualità e
l’interesse di ricerca nel Collaborative Filtering è
testimoniato dal massiccio utilizzo che ne viene fat-
54
I quaderni di
TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI

Fasi di un algoritmo nearest-neighbor memory based
FASE 1: PESARE TUTTI GLI UTENTI U
In base ai rating dati dagli m utenti U = {u1, u2,... um} agli n item I = {i1, i2,… in} del dataset viene calcolato un
grado di similarità con l’active user ua. Gli utenti con maggiore similarità verranno usati come predittori delle scelte dell’active user.
Per calcolare la similarità tra due utenti, si possono utilizzare varie metriche, come ad esempio:
쩦 coefficiente di correlazione di Spearman;
쩦 coefficiente di correlazione di Pearson;
쩦 coseno dell’angolo tra vettori;
쩦 misure di incertezza basate sull’entropia;
쩦 differenza quadratica media.
FASE 2: SELEZIONARE UN SOTTOINSIEME DEGLI UTENTI PER USARLI COME PREDITTORI
Spesso gli utenti presenti nel dataset sono molto numerosi. Per garantire adeguate prestazioni computazionali si
devono selezionare un numero limitato di utenti come predittori. Un popolare approccio è quello di individuare i K
nearest-neighbors dell’active user (un’altra strategia prevede di imporre un valore soglia di similarità ed utilizzare
come predittori tutti gli utenti con un valore sopra la soglia). Per selezionare il sottoinsieme degli utenti si usa la
distanza Euclidea vincolata al parametro K di utenti. Il numero k dovrebbe essere:
쩧 grande abbastanza per garantire una buona classificazione dell’utente di interesse.
쩧 piccolo (rispetto al numero dei sample) in modo che i neighbors selezionati siano abbastanza vicini per fornire una buona stima di X.
ESEMPIO DI SCELTA DEL K
L’oggetto del test (cerchio verde)deve essere classificato come appartenente alla
classe dei quadrati blu o alla classe dei
triangoli rossi (figura 2).
Se k = 3 verrà classificato nella seconda
classe poiché ci sono 2 triangoli ed un
solo quadrato. Se k = 5 verrà classificato
nella prima classe (3 quadrati contro 2
triangoli. Alla luce del precedente esempio sembra chiaro come la scelta del parametro k sia cruciale per effettuare una
corretta predizione. Per selezionare un
buon valore e ridurre il rischio di errore
nella selezione dei predittori sono di norma utilizzate tecniche euristiche o si ricorre ad algoritmi genetici.
Figura 2. Scelta del numero k di nearest-neighbors.
FASE 3: CALCOLO DELLA PREDIZIONE
Una volta selezionati, i predittori vengono poi pesati in funzione della effettiva similarità con l’active user (i pesi
sono l’inverso della distanza). La predizione del rating dell’active user per un item sarà quindi data dalla somma
pesata dei rating dati dai k predittori.
APRILE 2008
55
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
to nei grandi portali commerciali come Amazon
o Netflix ed in tutte le applicazioni dove è possibile costruire un profilo utente.
Per approfondire:
Collaborative filtering research paper
http://jamesthornton.com/cf/
Collaborative Filtering Resources
http://genlab.tudelft.nl/~jun/Collaborative
Filtering.html
The Netflix Prize
http://www.netflixprize.com/
Amazon.com recommendations: item-to-item collaborative filtering http://ieeexplore.ieee.org/
xpl/freeabs_all.jsp?arnumber=1167344
Evaluating Collaborative Filtering Recommender Systems by J. Herlocker, J. Konstan, L.Terveen, and J. Riedl
http://portal.acm.org/citation.cfm?id=1297240
APPRENDIMENTO AUTOMATICO
DI FUNZIONI DI ORDINAMENTO
(LEARNING TO RANK)
Gli algoritmi di ricerca basati sul Learning to Rank
(L2R) sono in grado, in modo automatico, di ricavare e utilizzare le informazioni derivanti dai gusti
e desideri dell’utente per raffinare i risultati di una
ricerca. Queste informazioni posso essere ottenute sia in modo esplicito, per esempio quando
l’utente compila una form indicando delle chiavi di
ricerca, sia in modo implicito.
Ogni volta che un utente clicca sul risultato di
una ricerca, preferendo in questo modo un link
a discapito degli altri, genera un feedback implicito che può essere facilmente esaminato dal motore di ricerca per raffinare le interrogazione
(query) successive. Anche l’analisi di alcuni dati
sensibili presenti sul dispositivo utilizzato, come
il calendario degli appuntamenti, la propria rubrica telefonica, la cache o la history dei siti visitati
e altro ancora, possono costituire indicazioni sui
gusti dell’utente che egli fornisce in modo implicito e quindi, spesso, a sua insaputa. Questo modo di ricavare informazioni presenta indubbie
problematiche legate alla questione della privacy: i dati utilizzati potrebbero contenere informazioni riservate il cui uso, per effettuare un raf-
56
finamento delle ricerca, potrebbe essere mal visto dall’utente.
Un altro modo di procedere del L2R è costituito dall’analisi della sequenza di ricerche e click
effettuati da un utente per arrivare a trovare una
par ticolare informazione. L’esperienza acquisita
dall’Intelligenza Artificiale, alla base dell’algoritmo
del L2R, viene così utilizzata per migliorare ricerche simili a quelle realizzate da altri utenti. Per
esempio un motore di ricerca basato sul L2R potrebbe osservare che tutti gli utenti che cercano
la stringa “rimborso viaggi” cliccano, successivamente, sul link relativo alla form che è necessario compilare per effettuare la richiesta di rimborso. Da
questa analisi il motore potrebbe aggiungere direttamente, tra i suoi risultati, il link per arrivare
immediatamente alla form desiderata.
MODELLAZIONE
Per formalizzare il funzionamento di un sistema basato sul L2R possiamo dire che le azioni di un utente possono essere interpretate come preferenze
relative: per una certa query q l’utente preferisce il
documento d1 rispetto al d2. Per ogni utente u, query q e documento d viene calcolata una funzione h(q,
u, d) che rappresenta l’utilità o pertinenza del documento rispetto alle interrogazioni e all’utente, il
cui risultato cambia con l’acquisizione di nuova esperienza da parte del sistema.
Quando, infatti, l’utente preferisce una risposta d1,
rispetto a d2, stabilisce implicitamente una relazione del tipo:
h(q, u, d1) > h(q, u, d2)
La figura seguente (figura 3) mostra il paradigma generale di funzionamento dalla maggior parte dei metodi di ricerca basati sul L2R.
Il processo di apprendimento è sintetizzato attraverso due passi: il training e il test.
Nella fase di training una collezione di query
Q = {q1, …, q|Q|} e una di documenti D = {d1, …, d|D|}
vengono combinate per realizzare il training corpus.
Questo viene generato come un insieme di coppie
query-documento tali che (qi, dj) € Q X D. Un etichettatore (Labeler) si occupa, poi, di definire il grado di rilevanza per ogni coppia qi e dj mentre il mo-
I quaderni di
TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI

Figura 3. Paradigma generale di funzionamento dei metodi di ricerca basati sul L2R.
dulo del Feature Extractor genera, a partire dalle
coppie (qi, dj), un vettore di caratteristiche che descrive il livello di corrispondenza esistente tra gli
elementi della coppia.
Il Learning Algoritm, poi, riceve come input queste informazioni e produce una funzione di ranking
f, con f(qi, dj) che si suppone essere in grado di dare il vero livello di rilevanza esistente tra i due elementi della coppia (d e q).
Nella fase di test la funzione f, individuata durante il training, viene testata con una nuova query q
sul set di documenti usati nella fase precedente.
I vantaggi dell’uso di un feedback implicito sono
molteplici:
쩦 è economico poiché può essere ricavato dall’analisi dell’attività svolta da un utente su un motore di ricerca o dai log delle sue attività;
쩦 è specifico per un particolare utente
o collezione di dati;
쩦 riflette il naturale uso del motore
di ricerca.
Per esempio un motore di ricerca interno ad un
sito che offre ricette culinarie e al quale verrà richiesto di cercare il termine pesca sarà in grado di
privilegiare i risultati contenenti il frutto anziché
quelli relativi all’attività sportiva.
APRILE 2008
Riprendendo l’esempio indicato sopra (ricerca
del modulo per il rimborso di una trasferta) un’altra forma di feedback implicito può essere quello
generato dalla riformulazione delle query: quando
l’utente non è soddisfatto dei risultati ottenuti e riformula nuovamente i termini della ricerca, magari
senza aver prima cliccato su nessuno dei link, il motore di ricerca può tenere conto di questa informazione per facilitare le interrogazioni realizzate da
altri utenti in possesso di gusti simili.
Seppur caratterizzati da indubbi vantaggi i feedback impliciti posso presentare dei grossi problemi:
spesso, infatti, forniscono informazioni parziali e sono affetti da disturbo. Attraverso, comunque, una opportuna interpretazione essi possono costituire degli economici e accurati dataset nella forma di coppie di preferenze.
Per comprendere gli errori di valutazione in cui
spesso si può cadere esaminando le azioni di un
utente che usa un motore di ricerca consideriamo
il caso della ricerca del termine jaguar.
Oltre che ai link relativi alla macchina, che supponiamo siano quelli desiderati dall’utente, vengono presentati anche risultati inerenti l’animale giaguaro. Ovviamente questi risultati indesiderati si manifestano in modo meno frequente se, per esempio, le ricerche vengono realizzate con un motore
in lingua diversa da quella inglese (lingua per la qua-
57
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
le c’è confusione tra i due termini) e magari si annullano se il motore è dedicato al mondo dell’automobilismo.
Supponiamo di trovarci nel caso peggiore di motore generico e in lingua inglese.
La domanda che ci poniamo è quanto sia significativo il fatto che l’utente clicchi sul primo, terzo
e quarto risultato di quelli ottenuti dalla sua ricerca e se questa è una informazione sufficiente perché sia possibile dare un ranking ai link scelti. Molti esperimenti sono stati realizzati, la maggior parte
usando software di eyetracking che permettono di
analizzare su quali link lo sguardo dell’utente si sofferma, e si è visto che le azioni dell’utente sono
estremamente influenzate da come il motore di ricerca presenta i risultati. Per cui il primo ad essere
presentato sarà sempre quello maggiormente cliccato e via a seguire.
A suffragio di questa tesi è stato provato che invertendo i primi due risultati (o, addirittura, tutta la
lista) quello che prima era il meno cliccato diventa
quello più selezionato.
È chiaro, quindi, che una semplice analisi dei link
cliccati non è sufficiente a definire un ranking tra i
risultati, si parla, in questo caso, di presentation bias.
Come possiamo, quindi, usare il feedback implicito? In realtà scopriamo come questo non sia
in grado di fornirci una risposta assoluta (A è buono) ma solo informazioni relative (A è migliore di
B). E questa informazione ci deriva dalla considerazione che l’utente, scegliendo di cliccare il primo e il terzo link, salti il secondo comunicandoci
che quel link è peggiore del terzo (e del primo, …).
Generalizzando, quindi, è possibile valutare le azioni dell’utente comparandole con le alternative che
aveva a disposizione e che aveva osservato prima di prendere una decisione (ovvero cliccare su
un link). Ulteriori studi su questo argomento hanno dimostrato come questa intuizione si sia rivelata, poi, corretta. Confrontando i ranking dedotti automaticamente dall’analisi dei click (e i non
click) dell’utente con quelli individuati manualmente da tecnici esperti si è visto come questi fossero molto simili.
Fino ad ora abbiamo visto come un motore di
ricerca possa collezionare in modo passivo i feedback impliciti ottenuti dalle ricerche e dalla navigazione degli utenti.Vediamo, ora, come questa esperienza possa essere sfruttata per migliorare le ricerche future svolte con il motore di ricerca.
58
A tal proposito sono stati effettuati vari tipi di
esperimenti, uno particolarmente significativo (paired blind experiment), metteva a confronto i risultati provenienti da due motori di ricerca diversi
per individuare quale fosse il migliore. Una stessa interrogazione era fornita ai due motori in esame e i risultati ottenuti erano visualizzati affiancati su due colonne, così da non avvantaggiare, graficamente, gli uni rispetto agli altri. Successivamente si analizzavano, al solito, i click, e così le preferenze, degli utenti. Esaminando la sequenza dei
link scelti è stato possibile individuare quale dei
due motori presentasse risultati più affini ai desideri dell’utente.
Un altro interessante esperimento, invece, è
stato realizzato per permettere la valutazione di
risultati che, in genere, venivano posizionati in basso nella lista dei link presentati dai motori di ricerca e, conseguentemente, ignorati dall’utente.
Questi link, trovandosi in basso, non venivano mai
scelti dall’utente e quindi non era possibile calcolare un feedback implicito per essi. In modo casuale alcuni dei risultati caratterizzati da un basso punteggio venivano mischiati con quelli che,
invece, conquistavano i primi posti in modo da
poter analizzare il feedback dell’utente anche su
di essi. Nel breve periodo questo motore di ricerca presentava un livello di qualità basso poiché, spesso, i link presi dal fondo non avevano, effettivamente, nulla a che vedere con i risultati cercati dell’utente. Si è dimostrato come, col passare del tempo e grazie all’apprendimento svolto
dal motore di ricerca in base al ranking ottenuto
dal feedback degli utenti, i risultati forniti nel lungo periodo erano sempre più raffinati e vicini ai
gusti dell’utente.
Fino ad ora abbiamo visto un solo tipo di feedback
implicito: il click degli utenti. Ma ne esistono molti
altri che andrebbero considerati:
쩦 tempo di lettura: un click seguito, subito dopo, da
un altro click indica che la prima pagina esaminata non era effettivamente quella cercata dall’utente
쩦 abbandono: si verifica quando nessun link presentato dal motore di ricerca viene cliccato. Spesso, ma non necessariamente, è seguito dalla riformulazione della query
쩦 riformulazione della query: quando i link presentati (ed eventualmente visitati) non hanno sod-
I quaderni di
TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI

disfatto l’utente spesso la query viene riformulata, in parte o totalmente. Si hanno, in questo
caso, quelle che vengono conosciute come query chain (catene di query).
Le azioni di un utente u permettono di individuare, data una quer y q e due risposte, d1 e
d2, quale questi preferisca potendo, così, stabilire che, per esempio e per quell’utente, d1 è migliore di d2.
Purtroppo la stragrande maggioranza degli algoritmi di machine learning operano con informazioni del tipo d1 è rilevante o d2 non è rilevante per
cui è necessario trovare un modo per adattare i risultati trovati da questi algoritmi.
Un possibile adattamento potrebbe essere quello di tradurre il learning problem in uno di classificazione binaria. Ogni coppia di preferenze creerebbe
due modelli di classificazione binaria: quello positivo
(q, u, d1, d2) e quello negativo (q, u, d2, d1). Purtroppo il processo di fusione dei risultati avrebbe
complessità computazionale NP-hard il che si tradurrebbe in tempistiche di elaborazione molto lunghe qualora il sistema venisse applicato a motori di
ricerca che lavorano su indici grandi.
Una soluzione alternativa, a cui abbiamo già accennato in precedenza, e che richiederebbe solo
una singola operazione di ordinamento, è quella
che prevede non di apprendere una coppia di
preferenze ma direttamente una funzione h(q, u,
d) avente lo scopo di assegnare un punteggio di
utilità reale ad ogni documento d per una certa
query q e utente u. Una volta che l’algoritmo avrà
appreso una particolare funzione h, per ogni nuova query q1 il motore di ricerca non dovrà far altro che ordinare i documenti in base alla loro utilità decrescente.
In altre parole ogni volta che si presenta una
preferenza del tipo “per la query q l’utente u preferisce d1 rispetto a d2” questa viene interpretata
come il fatto che per l’utente u e la query q il valore di utilità d1 è maggiore di quello di d2. Formalmente questo può essere interpretato come
il vincolo che la funzione h, che vogliamo apprendere, è soggetta alla relazione h (q, u, d1) > h (q,
u, d2). Se la funzione di utilità è lineare nel parametro w per un dato vettore F (q, u, d) che de-
APRILE 2008
scrive l’abbinamento tra q, u e d possiamo scrivere h(q, u, d)= w X F (q, u, d).Trovare la funzione h
soggetta a tutte le preferenze P si riduce, semplicemente, nella soluzione di un sistema lineare. È
molto probabile, comunque, che a causa del disturbo presente nell’analisi dei click dell’utente il
sistema lineare sia inconsistente.
SPERIMENTAZIONE
Basandosi su queste considerazioni un gruppo di
ricercatori della Cornell University con a capo
Thorsten Joachims ha progettato e testato un
motore di ricerca basato sul L2R: Striver. Il testing,
realizzato per verificarne l’efficacia, è stato condotto sottoponendo le quer y di un gruppo di
utenti a più motori di ricerca (Google, MSN,Yahoo!, ecc.). I primi 100 risultati prodotti da ogni
motore di ricerca venivano, poi, fusi con quelli ottenuti dagli altri ottenendo, così, l’insieme candidato K. L’insieme K veniva, successivamente, dato come input a Striver che, applicando la sua
funzione di apprendimento, provvedeva ad attribuire un punteggio (rank) per ogni documento
presente nell’insieme. Questa nuova lista veniva,
infine, presentata all’utente al quale era chiesta
una valutazione.
Dopo circa 2 settimane di sperimentazione
condotta su almeno 20 utenti esperti che hanno
prodotto circa 260 interrogazioni è stato possibile confrontare il ranking attribuito ai documenti
dalla funzione di apprendimento con quelli prodotti dai vari motori di ricerca usati nella fase di
creazione del dataset. Si è, così, potuto vedere come i risultati ottenuti dalla funzione di apprendimento fossero mediamente migliori rispetto a
quelli forniti dai motori di ricerca.
CONCLUSIONI
Il confronto tra i motori di ricerca tradizionali e quelli basati sulle funzioni di apprendimento mostra come
l’uso del feedback implicito e del machine learning consenta di realizzare sistemi altamente specializzati.
Anche se il feedback implicito è soggetto ad errori, esistono molte tecniche in grado di ridurlo sensibilmente e permettere l’individuazione di dati utilizzabili con successo nella fase di apprendimento.
Molte sono, comunque, le cose ancora su cui lavorare che vanno dalle considerazioni inerenti i pro-
59
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
blemi di privacy a quelle relative all’individuazione di
tecniche in grado di evitare l’influenza dello spam
oppure alla progettazione e realizzazione di sistemi
attraverso i quali sperimentare efficacemente i nuovi sistemi di apprendimento.
Seppur inizialmente possa sembrare poco efficace l’adattare un motore di ricerca a un particolare
gruppo di utenti o documenti si è potuto osservare come questo sia, invece, un processo molto conveniente. L’idea che un unico sistema vada bene per
tutti costituisce un compromesso spesso inefficiente e l’alternativa di adattarlo manualmente, in base
alle esigenze del particolare gruppo di utilizzatori, è
inaccettabile a causa del tempo che si andrebbe a
spendere per la sua realizzazione. Proprio per questi motivi la ricerca sull’adattamento automatico dei
motori di ricerca grazie all’uso del machine learning
sta ricevendo, soprattutto in questo periodo, grande attenzione.
Rimane, comunque, ancora il problema della disponibilità dei dataset necessari all’addestramento
dei sistemi e alla loro valutazione. In rete è possibile reperirne alcuni, spesso derivati da quelli usati al TREC (Text REtrieval Conference, conferenza internazionale sul recupero dei documenti).
Tra questi è interessante LETOR (LEarning TORank) che è distribuito dalla Microsoft Research
Asia e copre la maggior parte delle caratteristiche richieste dall’IR.
Per approfondire:
Home Page of Thorsten Joachims
http://www.cs.cornell.edu/People/tj/
Machine Learning http://it.wikipedia.org/wiki/
Apprendimento_automatico
Learning to Rank for Information Retrieval
http://delivery.acm.org/10.1145/1330000/
1328974/p58-joachims.pdf?key1=
1328974&key2=9841222021&coll=GUIDE&dl=
&CFID=15151515&CFTOKEN=6184618
Learning to Rank: A Machine Learning Approach to
Static
Ranking
http://www.cs.technion.ac.il/~litalma/notes_l
ectures/LearningtoRank.pdf
Learning to Rank http://www.cs.otago.ac.nz/
60
postgrads/andrew/2004-1.pdf
LETOR: Benchmark Data Sets for Learning to Rank
http://research.microsoft.com/research/
downloads/Details/22a1b3e9-c5c6-4cfe-86f91d2ea1c199e8/Details.aspx
Learning to Rank for Information Retrieval Using Genetic Programming http://jenyuan.yeh.google pages.com/jyyeh-LR4IR07.pdf
X. Geng, T.-Y. Liu, T. Qin, and H. Li. Feature selection for ranking. In SIGIR ’07: Proceedings of the
30th annual international ACM SIGIR Conference on Research and development in information
retrieval, pages 407-414, New York, NY, USA, 2007.
ACM Press.
ESPANSIONE AUTOMATICA
PERSONALIZZATA
DELL’INTERROGAZIONE
Lo schema di principio di un sistema per il reperimento delle informazioni dal Web, inclusi i maggiori motori di ricerca, prevede una fase off-line
di raccolta delle pagine e successiva costruzione
di un file indice che associa a ciascuna parola le
pagine in cui quella parola compare. A questo
punto ciascuna interrogazione viene elaborata
recuperando soltanto le pagine (documenti) che
contengono esattamente le parole specificate nell’interrogazione.
Come già evidenziato, questa è una limitazione
molto forte, alla luce della ricchezza e dell’ambiguità del linguaggio naturale. In particolare, se una pagina contiene lo stesso concetto espresso con parole differenti essa non viene recuperata (problema del vocabolario). La situazione è ulteriormente
complicata dal fatto che le interrogazioni sono brevi (di solito non più di due o tre parole) e il Web
è estremamente ricco ed eterogeneo in contenuti. In queste condizioni, a causa dei problemi di sinonimia (parole differenti con lo stesso significato)
e polisemia (una stessa parola con significati differenti), è ancora più probabile che il sistema non
riesca a recuperare pagine pertinenti che non contengono gli stessi termini dell’interrogazione oppure, simmetricamente, che recuperi molte pagine
non pertinenti.
Per alleviare questo problema, si può cercare
di espandere automaticamente l’interrogazione
con termini e concetti che non sono presenti nel-
I quaderni di
TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI

la sua formulazione originaria e che descrivono
con più precisione il bisogno informativo dell’utente. In realtà non ci si limita ad aggiungere termini;
si attribuisce loro anche un peso, perché a “runtime” il punteggio di pertinenza di ciascun documento a fronte di una interrogazione viene ottenuto sommando i prodotti dei pesi dei termini
dell’interrogazione e dei pesi dei termini corrispondenti presenti nel documento.
VANTAGGI E LIMITI
Assumendo implicitamente che i termini dell’interrogazione siano in OR, la prima conseguenza
dell’ampliamento del loro numero è che aumenta il richiamo del sistema, cioè la capacita di recuperare tutti i documenti pertinenti. Ad esempio,
se l’interrogazione “Al-Qaeda” viene espansa con
“Al-Qaida” e “Osama bin Laden”, la nuova interrogazione non solo recupererà i documenti che
contengono il termine originario (Al-Qaeda), ma
anche i documenti in cui l’organizzazione viene
denominata con una ortografia differente o in cui
essa non viene menzionata direttamente. Per
quanto riguarda la capacità di recuperare solo i
documenti per tinenti (precisione), che è l’altra
variabile che tipicamente misura le prestazioni di
un sistema per il reperimento delle informazioni, essa può peggiorare o migliorare. Peggiorerà
se i termini aggiuntivi non sono sufficientemente
correlati con l’interrogazione o se sono correlati solo ad alcuni dei suoi termini, causando cosi
uno slittamento del significato della stessa con
conseguente recupero di documenti non per tinenti. Migliorerà se i termini aggiuntivi concorrono a polarizzare il reperimento verso il significato cercato, filtrando cosi i documenti che in realtà sarebbero pertinenti solo a qualche componente dell’interrogazione. Ad esempio, se
l’interrogazione “tiger, operating systems” viene
espansa con “Mac OS X”, il punteggio dei documenti che parlano del sistema operativo Tiger aumenterà mentre quello dei documenti che parlano degli altri significati di tiger o di differenti sistemi operativi diminuirà. In realtà la maggior parte dei test di laboratorio hanno confermato che
la misura combinata di prestazione (richiamo +
precisione) può aumentare notevolmente con
l’uso di interrogazioni espanse, anche perché negli ultimi anni le tecniche di espansione sono diventate molto più efficaci.
APRILE 2008
I limiti principali di questo approccio riguardano la sua robustezza, perché non è ugualmente efficace per tutte le interrogazioni, l’aggravio
computazionale che comporterebbe la sua adozione nei sistemi per l’accesso in tempo reale alle informazioni sul Web, e infine il potenziale disorientamento cognitivo che potrebbe derivare
da una accresciuta distanza fra il contenuto letterale dei documenti recuperati e quello della interrogazione originaria. Questi motivi hanno finora frenato l’impiego della espansione automatica dell’interrogazione come un componente
standard dei sistemi operazionali per il reperimento delle informazioni, ad esempio i motori
di ricerca per il Web.
TECNICHE DI ESPANSIONE AUTOMATICA
Passando all’analisi delle tecniche di espansione,
bisogna innanzitutto considerare che un sistema
di questo tipo consiste di varie componenti in
cascata: selezione delle sorgenti da cui estrarre
le informazioni, selezione dei termini (o concetti) candidati all’espansione, ordinamento (ranking) di questi ultimi, e infine ripesatura dell’interrogazione. Di fatto, è stata utilizzata una grande varietà di sorgenti informative (la collezione
completa sottostante, i documenti recuperati senza espansione, log con le interrogazioni, tesauri,
ancore testuali,..) e numerosi metodi e algoritmi
per estrarre da esse i termini collegati semanticamente a quelli dell’interrogazione (correlazione statistica, clustering, elaborazione del linguaggio naturale, teoria dell’informazione, calcolo della probabilità). Recentemente, si è cominciato ad
utilizzare anche le informazioni personali dell’utente per eseguire l’espansione automatica dell’interrogazione.
ESPANDERE L’INTERROGAZIONE
UTILIZZANDO LE INFORMAZIONI
SUL PERSONAL COMPUTER
Il primo passo consiste nell’indicizzare tutti i documenti contenuti in un computer che hanno valenza personale, ad esempio quelli contenuti in
determinate directory, i messaggi di posta elettronica, le pagine Web nella cache, ecc. Questi
documenti costituiscono la “Personal Information
Repository” (PIR). Successivamente, data una cer-
61
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
ta interrogazione, si trovano i documenti della PIR
che sono più pertinenti all’interrogazione. In pratica si può fare facilmente utilizzando una qualsiasi applicazione di “desktop search”. A questo punto, si possono utilizzare un ventaglio di metodi
per estrarre termini e concetti di espansione dai
documenti pertinenti della PIR:
쩦
쩦
쩦
Si assegna a ciascun termine presente in ciascun
documento del PIR un punteggio proporzionale alla frequenza del termine nel documento, all’inverso della sua posizione nel documento (i
termini più informativi di solito sono in testa), e
al numero di documenti (o sunti di documento) in cui il termine appare. Poi si selezionano i
termini coi punteggi più alti.
Previa applicazione off-line di sistemi per
l’identificazione delle parti del discorso all’insieme di documenti pertinenti della PIR, si identificano tutti i composti lessicali in cui compaiono
i termini dell’interrogazione e si scelgono i più
frequenti. In pratica è sufficiente utilizzare un analizzatore morfologico e limitarsi ai composti formati da coppie “aggettivo-nome”.
Utilizzando le tecniche per la sommarizzazione dei documenti, si assegna un punteggio a
ciascuna frase, poi si scelgono le frasi con il
punteggio più alto. Il criterio usato per stabilire il punteggio tipicamente tiene conto della percentuale di parole significative contenute nella frase (valutata utilizzando la frequenza di ciascuna parola nelle frasi del documento) e della posizione della frase nel documento (le frasi in testa sono più impor tanti se il
documento è lungo.
Questi metodi possono essere usati singolarmente o combinati. Si è visto che la loro adozione può
migliorare la precisione del reperimento delle informazioni, confrontando i risultati recuperati da
Google senza e con espansione.
Uno dei parametri fondamentali di questa tecnica di espansione automatica, cosi come delle
62
altre, è il numero di termini di espansione che
alla fine verranno usati. Un approccio promettente consiste nel rendere questa scelta dipendente dall’ambiguità (o difficoltà) della interrogazione originaria (più termini per interrogazioni più ambigue), la quale può essere stimata con
un cer to grado di approssimazione con metodi
sia statistici sia basati sulla elaborazione del linguaggio naturale.
Per approfondire:
Libro in corso di stampa su Information retrieval con capitolo su Query expansion:
Manning, C. D., Raghavan, P. and Schutze, H.
(2008). Introduction to Information Retrieval,
Cambridge University Press.
http://nlp.stanford.edu/IR-book/pdf/
irbookonlinereading.pdf
쩦
Articolo con confronto e combinazione di tecniche per l’espansione dell’interrogazione basata su retroazione di pseudo-pertinenza (pseudo-relevance feedback):
C. Carpineto, G. Romano and V. Giannini (2002).
Improving retrieval feedback with multiple termranking function combination, ACM Transactions
on Information Systems (TOIS), 20(3), pp. 259-290.
http://search.fub.it/claudio/pdf/TOIS2002.pdf
쩦
Articolo sulla robustezza delle tecniche di espansione automatica:
G. Amati, C. Carpineto and G. Romano (2004).
Query difficuly, robustness and selective application of query expansion, Proceedings of the
26th European Conference on Information Retrieval (ECIR 2004), pp. 127-137.
http://search.fub.it/claudio/pdf/ECIR2004.pdf
쩦
쩦
Articolo recente sulla espansione personalizzata:
P.-A. Chirita, C. Firan and W. Nejdl (2007). Personalized query expansion for the Web, Proceedings of SIGIR’07, pp. 7-14.
Link alla Relevance Feedback track che viene
inaugurata nel 2008 all’interno del forum TREC
http://trec.nist.gov
쩦
I quaderni di
L A P E R S O N A L I Z Z A Z I O N E È I L PAG E R A N K D E L F U T U RO

La personalizzazione
è il PageRank del futuro?
i noti che la personalizzazione non è l’unica tecnica disponibile per complementare la selezione delle informazioni sul Web basata sul contenuto.
In effetti, il secondo criterio fondamentale per riuscire a filtrare ed ordinare in modo più efficace
l’enorme quantità di pagine teoricamente pertinenti ad una interrogazione è basato sui link che collegano le pagine Web, a prescindere dal contenuto testuale delle pagine stesse. L’osservazione chiave è
che certi siti Web sono oggettivamente più importanti o “popolari” di altri, e che un indice significativo della loro importanza è costituito dalla quantità
e qualità delle pagine che puntano ad essi. PageRank,
utilizzato da Google, è l’algoritmo più noto, anche
se probabilmente non il migliore, per assegnare a
ciascuna pagina un punteggio di questo tipo.
Negli ultimi anni il miglioramento dei sistemi
per l’accesso alle informazioni ha riguardato soprattutto l’aumento della copertura e della velocità di aggiornamento degli indici, ma la logica di
ricerca è rimasta sostanzialmente immutata. Non
siamo ancora pronti per passare dai motori di ricerca ai motori di risposta, perché le tecniche ba-
S
sate sull’elaborazione del linguaggio naturale e sul
Web semantico non sono ancora mature, mentre
quelle basate sul rilevamento delle variabili ambientali legate al momento, al luogo e al tipo di dispositivo utilizzato hanno un ambito di applicazione ancora limitato. Probabilmente la personalizzazione è al momento la tecnica più promettente
per costruire i sistemi di prossima generazione,
anche se è ancora presto per dire che essa diventerà la PageRank del futuro.
Parallelamente, il miglioramento nelle tecnologie di personalizzazione può avviare la trasformazione dei motori di ricerca (o di risposta) in sistemi per la fornitura automatica di informazioni (“information supply”), specifiche per utenti e attività,
in grado di intercettare il bisogno informativo di
un utente prima che questo venga espresso. Questa evoluzione è stata postulata anche alla luce dell’affermazione di un analogo paradigma di fornitura mirata di informazioni e pubblicità in vari contesti specializzati quali il commercio elettronico, le
reti sociali, i browser, le notizie, la posta elettronica, e gli stessi motori di ricerca.
Privacy e servizi informativi
personalizzati: una convivenza
possibile
possesso di informazioni relative alle caratteristiche e ai gusti degli utenti pone senza dubbio
un problema di privacy. Gli utenti temono che queste informazioni possano essere divulgate o trafugate o adoperate in modo improprio o dannoso.
D’altra parte, essi apprezzano il fatto che un servizio personalizzato spesso si traduce in un risparmio
di tempo e/o denaro. Questi desideri contrastanti
Il
APRILE 2008
hanno un peso variabile nelle persone. Alcuni indagini recenti hanno mostrato che esistono tre tipi di
atteggiamento verso la privacy. Ci sono i fondamentalisti, che non vogliono correre rischi, i disinteressati, per i quali quello della eventuale violazione della privacy non costituisce un problema, e i pragmatici, i quali essenzialmente valutano costi e benefici. Queste tre classi sono all’incirca nella proporzio-
63
UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA
ne 1:1:2. Indipendentemente dalla loro attitudine,
bisogna considerare che la scelta delle persone in
definitiva è dettata da una serie di considerazioni
che riguardano le caratteristiche del servizio. Due
fattori importanti sono il tipo di informazione e il
valore del servizio. Alle persone non piace sicuramente mandare in giro il numero della propria carta di credito o i contatti personali, e sono anche generalmente restie a diffondere informazioni sugli
acquisti che fanno o le interrogazioni che inviano ai
motori di ricerca, mentre sono più disposte ad accettare l’eventualità che qualcuno possa venire a
conoscenza dei loro hobby e stili di vita. La maggiore propensione ad accettare il rischio privacy dipende poi chiaramente dalla percezione dei benefici ricevuti nella fruizione del servizio, i quali dovrebbero essere sempre esplicitati in modo chiaro.
Altri fattori che concorrono alla scelta dell’utente
sono la consapevolezza dell’uso che verrà fatto delle informazioni personali, la possibilità di controllare e eventualmente correggere dette informazioni,
e infine la fiducia nella correttezza e professionalità dell’erogatore di servizio e del suo sito Web.
Questi fattori dovrebbero essere considerati attentamente in fase di progettazione e realizzazione
di un servizio personalizzato, perché il successo dello stesso dipenderà probabilmente dall’ottemperanza a questi principi. Già oggi alcuni siti di commercio
elettronico pongono grande attenzione a questi aspetti. Un passo ulteriore e probabilmente decisivo è rappresentato dall’adozione di politiche sicure per la conservazione e gestione dei dati personali. Già oggi sono disponibili una serie di tecniche e altre sono in fase di studio che renderanno sempre più difficile risalire alla identità delle persone. Fra i meccanismi di protezione più efficaci si possono citare le tecniche di
anonimizzazione e pseudonimizzazione, il trasferimento delle elaborazioni sul lato client (nei casi in cui non
si tratta di gestire e analizzare preferenze e scelte di
intere popolazioni di utenti) e l’adozione di modelli
distribuiti per la protezione dei grandi archivi di dati
personali multi-utente. Nel complesso si tratta di favorire una evoluzione in cui il rischio privacy non rappresenti più un ostacolo allo sviluppo e alla fornitura
di servizi personalizzati ma piuttosto un vincolo e un
incentivo per il loro miglioramento
Conclusioni
grande sviluppo del web ha portato all’esigenza
di individuare metodi sempre più raffinati per ottimizzare i risultati dei motori di ricerca e per predire
gli interessi degli utenti.
Allo stesso tempo si assiste alla graduale perdita
di quella caratteristica di anonimato che aveva distinto il web nei primi anni della sua espansione. Durante la navigazione infatti, lasciamo tantissime tracce del
nostro passaggio, dalle scelte realizzate alle preferenze espresse.Tutta questa serie di informazioni costituiscono, oggi, le fondamenta attraverso cui i sistemi
automatici costruiscono il profilo degli utenti.
Basandosi sulla storia delle nostre azioni e sugli
interessi espressi in modo esplicito o meno, sono
state sviluppate alcune strategie innovative come,
ad esempio, il filtraggio collaborativo delle informa-
Il
64
zioni, l’apprendimento automatico di funzioni di ordinamento e l’espansione automatica personalizzata delle interrogazioni.
L’evoluzione nel rapporto tra i fruitori della rete ed
i portali web ha però notevoli implicazioni dal punto
di vista della privacy.
La personalizzazione dei contenuti potrebbe rappresentare la killer application del futuro. È fondamentale, però, l’individuazione e l’applicazione di politiche
sicure per la conservazione, la gestione e la tutela dei
dati personali degli utenti.
Andrea Bernardini,
Claudio Carpineto,
Raffaele Nicolussi
Fondazione Ugo Bordoni
I quaderni di