Scarica il testo del quaderno in formato
Transcript
Scarica il testo del quaderno in formato
I quaderni di Utente senza segreti informazione personalizzata Le tecnologie si evolvono progressivamente tanto che l’evoluzione non è più di per sé una novità, ma questa evoluzione ha portato a superare certi limiti e quindi a cambia- re in modo repentino e radicale le regole del gioco. Invisibili su Internet? Un sogno che è durato poco. Una vignetta americana recitava:“On the Internet, nobody knows you’re a dog”, su Internet nessuno sa che sei un cane! Non è più così. L’utente oggi lascia tracce ad ogni passaggio. Chi sfrutta le informazioni? Chi tutela la privacy? Le evoluzioni tecnologiche nel settore dei supporti di memorizzazione, nella capacità elaborativa, rilevazione dati, distribuzione e fruizione sono e saranno elementi di dirompenza per il business in generale, soprattutto per il business legato al mondo dei Media e per le relative catene del valore (vedi Media Duemila n. 237). I fattori che portano al cambiamento sono molteplici, certamente cultura e società hanno un ruolo determinante. Ricordare ed analizzare ogni contesto nel quale si produce una piccola o grande rivoluzione è sempre utile: questo numero è dedicato alla profilazione dell’utente e all’informazione personalizzata. Sicuramente la curiosità viene stimolata di più dal primo concetto perché l’invisibilità, come l’onnipresenza e l’onniscienza, sono condizioni alle quali l’uomo anela da sempre. In questo numero scientificamente si riporta la storia, non troppo antica, dell’accesso alle informazioni in formato digitale che è diventato solo recentemente un fenomeno sociale ed economico formidabile, ma le sue radici tecniche sono più antiche. Già negli anni ’70 e ’80, ben prima che la fame di informazioni, intrattenimento e socializzazione via Internet contagiasse noi tutti, le ricerche in “information retrieval” e intelligenza artificiale individuano alcuni principi di base e metodologie che ancora oggi presiedono al funzionamento dei motori di ricerca e dei sistemi per il filtraggio e l’erogazione delle informazioni. Nello stesso ambito si inserisce la prassi di predire i gusti dell’utente, pratica tanto importante che la Netflix, il più grosso servizio on line di noleggio dvd in USA, ha messo in palio un milione di dollari per chi riuscirà a migliorare l’accuratezza del sistema di predizione dei gusti dei propri utenti. La personalizzazione è sicuramente la killer application del futuro con tutti i suoi limiti e le sue potenzialità, la perdita di privacy è un limite? Per alcuni sì, per altri assolutamente no. SUPPLEMENTO AL NUMERO 255 APRILE 2008 DI I N D I C E Introduzione 51 Un po’ di storia 52 Tecniche di profilazione dell’utente e di erogazione personalizzata delle informazioni 53 La personalizzazione è il PageRank del futuro? 63 Privacy e servizi informativi personalizzati: una convivenza possibile 63 Conclusioni 64 Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni. Presidente il prof. Maurizio Dècina Direttore Generale il prof. Antonio Sassano Direttore delle Ricerche l’ing. Mario Frullone Curatori del Quaderno: Andrea Bernardini, Claudio Carpineto, Raffaele Nicolussi. SONO USCITI NEL 2007/2008: Modelli di business per le tv locali FEBBRAIO 2007 MARZO 2007 APRILE 2007 Nuovi servizi richiedono una Banda Larga sempre più ampia MAGGIO 2007 La logistica apre le porte a nuovi business GIUGNO 2007 LUGLIO/AGOSTO 2007 SETTEMBRE 2007 OTTOBRE 2007 NOVEMBRE 2007 2007/GENNAIO 2008 FEBBRAIO 2008 MARZO 2008 Cresce la multimodalità nella comunicazione Con la nomadicitá cambiano le abitudini Verso le reti di nuova generazione: il ruolo di Ethernet Nuovi servizi a larga banda su Internet Segno di riconoscimento: la voce Elettromagnetismo tra scienza e comunicazione L’importanza dello spettro radio per un mondo senza fili Società dell’informazione e contenuti digitali: tutela dei diritti in un mondo che cambia Il mondo gestito da una rete invisibile e senza fili 50 DICEMBRE I quaderni di Introduzione na famosa vignetta del New Yorker (5 luglio 1993) mostrava due cani davanti ad un computer ed uno diceva all’altro per spiegargli come la comunicazione su Internet fosse anonima: “On the Internet, nobody knows you’re a dog”. Al giorno d’oggi questo potrebbe non essere più vero. U Noi lasciamo le nostre impronte sui media che adoperiamo anche se spesso non ce ne accorgiamo. Quando visitiamo un sito, guardiamo un video o facciamo un’interrogazione con un motore di ricerca, vengono trasmesse al server una serie di informazioni sulla identità della macchina che si è collegata e sui dati immessi e le operazioni eseguite ad ogni stadio dell’interazione col sistema. Aggregando tali informazioni, anche basandosi su tracce lasciate a distanza di tempo, si possono dedurre il profilo ed i gusti di un utente. Il risvolto commerciale dell’utilizzo di queste informazioni è immediato. Dal profilo di un utente e dalle sue azioni si possono raffinare i risultati di un motore di ricerca, pianificare offerte commerciali mirate ed addirittura prevedere i suoi comportamenti. Una famosa applicazione è il sistema sviluppato da Amazon per segnalare all’utente prodotti di suo possibile interesse. Quando viene visualizzato un prodotto vengono suggeriti anche i prodotti ad esso correlati sulla base delle interazioni passate di altri utenti (chi ha comprato il libro X ha anche comprato il libro Y). La possibilità di sfruttare i profili degli utenti ha dato vita ad una serie di ricerche molto interessanti. APRILE 2008 Presso i Google Labs è stata investigata la possibilità di utilizzare un profilo d’utente e di graduare la sua influenza sui risultati ottenuti senza il profilo, lungo uno spettro di combinazioni che vanno dalla personalizzazione totale all’assenza di personalizzazione. Un approccio più ambizioso ed invasivo, studiato soprattutto in ambiente Microsoft, si basa sull’analisi dei comportamenti dell’utente desunti dalle informazioni presenti sul suo computer: le ricerche antecedenti che ha fatto, i file memorizzati, con chi scambia messaggi di posta e su quale argomento. Lo sviluppo di innovative applicazioni di personalizzazione è legato ad una serie di ricerche che sono attualmente in corso di svolgimento. In questo articolo viene data una panoramica della storia, delle attuali metodologie e delle prospettive di questo filone di ricerca anche alla luce delle esigenze di privacy degli utenti. Il Quaderno è strutturato nei seguenti 4 capitoli: 쩦 il capitolo 1 offre una panoramica della storia dell’interrogazione e del filtraggio delle informazioni. 쩦 il capitolo 2 si concentra su tre interessanti approcci di profilazione dell’utente ed erogazione personalizzata delle informazioni rispettivamente: – Filtraggio collaborativo delle informazioni – Apprendimento automatico di funzioni di ordinamento – Espansione automatica personalizzata dell’interrogazione 쩦 il capitolo 3 si concentra sul futuro delle tecniche di personalizzazione. 쩦 il capitolo 4 affronta invece il delicato rapporto tra profilazione e privacy dell’utente 51 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA Un po’ di storia accesso alle informazioni è diventato solo recentemente un fenomeno sociale ed economico formidabile, ma le sue radici tecniche sono più antiche. Già negli anni ‘70 e ‘80, ben prima che la fame di informazioni, intrattenimento e socializzazione via Internet contagiasse noi tutti, le ricerche in “information retrieval” e intelligenza artificiale individuano alcuni principi di base e metodologie che ancora oggi presiedono al funzionamento dei motori di ricerca e dei sistemi per il filtraggio e la fornitura delle informazioni. L’ In un classico ar ticolo del 1992 apparso sulle Communications of the ACM (“Information filtering and information retrieval:Two sides of the same coin?”) Nick Belkin e Bruce Croft postulano una dualità fra le due modalità principali di erogazione delle informazioni, quella di accesso (pull), in cui il sistema reperisce le informazioni d’interesse in risposta ad una interrogazione, e quella di filtraggio (push), in cui le informazioni vengono spedite ad un utente verosimilmente interessato a riceverle. Documenti, interrogazione e profilo d’utente sono rappresentati allo stesso modo, cioè mediante un vettore di termini pesati dove ciascun peso riflette l’importanza di quel termine nel documento (o interrogazione, o profilo), e la selezione dei documenti pertinenti ad una certa interrogazione o profilo viene ricondotta al “best matching” dei vettori corrispondenti. È subito chiaro però che il metodo basato sul contenuto da solo non è sufficiente a selezionare i documenti pertinenti e a scartare quelli non pertinenti in modo accurato. Ciò è dovuto principalmente all’ambiguità del linguaggio naturale, che fa si che gli stessi concetti possano essere espressi in modo differente nei documenti e nella interrogazione (o profilo). Ma non bisogna neanche trascurare il fatto che il pieno soddisfacimento di un bisogno informativo, oltre che alla sua comprensione, è legato anche alla conoscenza di chi lo ha formulato e perché – ad esempio con un’interrogazione “flower” gli uomini vogliono di solito spedi- 52 re fiori, le donne ordinare semi e piante da giardino. Il metodo basato sul contenuto è stato così progressivamente arricchito con altre informazioni di contesto, quelle personali in primis. utilizzate per tarare e raffinare il metodo di base oppure per dare luogo a funzioni di selezione dei documenti autonome da usare in combinazione con esso. La personalizzazione dei risultati è diventata così uno dei tratti distintivi dell’accesso intelligente alle informazioni, ed è stata studiata per anni, con alterne fortune, utilizzando anche la metafora degli agenti software. Una delle sue prime e più note incarnazioni è la tecnica di “relevance feedback”, in cui la funzione di selezione dei documenti viene modellata come un processo di apprendimento guidato dai giudizi di pertinenza sui risultati ritornati durante la fase di addestramento. In sostanza, il vettore della interrogazione (o del profilo) viene modificato ad ogni iterazione aumentando o diminuendo il peso dei suoi termini a seconda che quei termini siano presenti in documenti recuperati pertinenti oppure non pertinenti. Questa tecnica è stata utilizzata in vari modi, incluso il reperimento delle immagini, anche se in applicazioni prevalentemente di laboratorio. Il suo limite principale è che le informazioni di addestramento devono essere fornite esplicitamente dall’utente, mediante un’attività aggiuntiva al normale sforzo di ricerca e di solito poco gradita. Oggi il tema della personalizzazione è ridiventato centrale, in parte perché c’è stata una moltiplicazione di sorgenti informative che contengono implicitamente le preferenze degli utenti, in parte grazie alla evoluzione degli strumenti per il rilevamento e l’estrazione automatica dei dati personali da dette sorgenti (come ad esempio le applicazioni per il “desktop search”). Contemporaneamente, sono state affilate le tecniche di apprendimento automatico e information retrieval che fanno leva sul possesso di dati personali, e la combinazione dei due fattori potrebbe quindi condurre ad un decisivo miglioramento delle prestazioni in termini di accuratezza e rispondenza dei risultati alle attese degli utenti. I quaderni di TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI Tecniche di profilazione dell’utente e di erogazione personalizzata delle informazioni el seguito vengono introdotti tre interessanti approcci di ricerca. Filtraggio collaborativo delle informazioni. 쩧 Apprendimento automatico di funzioni di ordinamento 쩧 Espansione automatica personalizzata dell’interrogazione 쩧 Per ognuno degli approcci proposti viene fornita una breve introduzione prima di focalizzare l’attenzione sugli aspetti più metodologici e tecnici. Al termine di ogni trattazione sono fornite indicazioni per ulteriori approfondimenti. N FILTRAGGIO COLLABORATIVO DELLE INFORMAZIONI (COLLABORATIVE FILTERING) Si definisce Collaborative Filtering (CF) il processo di filtraggio delle informazioni basato su tecniche collaborative implicite ed esplicite tra agenti intelligenti, sorgenti dati e utenti. A causa delle immediate ricadute commerciali è di particolare interesse il CF che si concentra sui comportamenti degli utenti. È possibile infatti costruire predizioni inerenti gli interessi di una persona confrontando le sue azioni con quelle svolte da altri utenti. Una famosa applicazione di questa tecnica è il sistema sviluppato da Amazon per suggerire libri (chi ha comprato il libro X ha anche comprato il libro Y). In seguito molti altri siti commerciali (Barnes and Noble, iTunes, StumbleUpon ecc.) hanno compreso i vantaggi di questo approccio ed integrato meccanismi di CF nei loro portali. A testimonianza dell’interesse di questa area di ricerca Netflix, il più grosso servizio online di noleggio dvd negli USA, ha messo in palio in palio un milione di dollari per chi riuscirà a migliorare l’accuratezza del sistema di predizione dei gusti dei propri utenti. APRILE 2008 METODOLOGIA Il Collaborative Filtering può essere suddiviso in due tipologie principali, user based e item based, e relative tecniche di raccolta delle informazioni (implicite ed esplicite). Si può chiedere infatti ad un utente (modalità esplicita) di esprimere un giudizio (rating) su un item, ad esempio un video di Youtube, un libro di Amazon, un link interessante con StumbleUpon, oppure raccogliere dati (modalità implicita) dal comportamento all’interno di un sito web (tempo speso per singola pagina, percorso seguito ecc.), dal tipo di contenuti pubblicati in uno spazio condiviso o dalle interrogazioni formulate e dalle successive esplorazioni dei risultati. L’assunzione di base del CF è che coloro che hanno manifestato comportamenti simili nel passato tenderanno a condividerli anche in futuro. Le fasi di un approccio di CF sono: 쩦 Registrazione delle preferenze di un gruppo numeroso di utenti (Input). 쩦 Utilizzo di algoritmi di Collaborative Filtering (memory based o model based) per individuare uno o più profili di utenza che hanno gusti simili a quella dell’utente di interesse. 쩦 In base alla somiglianza con i profili di utenza presenti del dataset e in base ai loro comportamenti passati registrati costruzione di una predizione/raccomandazione (Output). MODELLAZIONE In uno scenario tipico di CF, c’è una lista di m utenti ed una lista di n item (vedi figura 1). Ogni utente ui ha una lista di item Iu per i quali ha espresso un’opinione (implicita od esplicita). Scopo dell’algoritmo di collaborative filtering è quello di predire per un active user il grado di preferenza (likeliness) re- 53 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA i1 i2 i2 u1 Paj (predizione riguardo item j per l’active user) PREDISPOSIZIONE ua RACCOMANDAZIONE (Tt1 ....Ttn ) raccomandazione di n item per l’active user um Active user Imput (Matrice dei rating) Algoritmo di Cf Output Figura 1. Scenario generale di Collaborative Filtering. lativo ad uno o più item. Il risultato può essere espresso in due forme: 쩦 Una predizione ovvero un valore numerico Pa che esprime la likeliness di un active user ua per,j un item ij (usando una metrica di riferimento per le opinioni come ad esempio una scala di valori da 1 a 5). 쩦 Una raccomandazione ovvero una lista degli N item, che potrebbero interessare l’active user ua. Gli algoritmi di tipo memory based ottengono di norma migliori risultati assoluti e sono più adattabili a contesti dinamici (frequente variazione delle entry della matrice dei rating), ma richiedono molta potenza computazionale. Per questo nel caso di data set molto grandi si preferisce utilizzate algoritmi di tipo model based. Esistono due tipologie di algoritmi per il Collaborative Filtering: model-based e memory-based. Algoritmi model-based – questi algoritmi utilizzano la matrice dei rating in modalità offline per costruire un modello che viene poi utilizzato per fare le previsioni. L’approccio seguito è di tipo probabilistico con algoritmi di machine learning basati su Bayesian network, clustering, e regole di associazione. CONCLUSIONI Il Collaborative Filtering rappresenta un approccio molto interessante al problema dell’enorme crescita del web poiché permette di declinare le informazioni in base alla tipologia di utente che si ha davanti. Esistono diversi approcci e metodologie per il CF in base alla tipologia delle informazioni raccolte(implicite/esplicite) ed al tipo di risposta che si vuole generare (predizione o raccomandazioni). Algoritmi memory-based – questi algoritmi lavorano in tempo reale su tutta la matrice dei rating per fare le previsioni. Gli algoritmi memory based cercano di individuare un sottoinsieme di utenti affini (neighbors), che in passato hanno concordato con le scelte dell’active user (rating simile assegnato su diversi item). Una volta trovato un sottoinsieme di neighbors si combinano le preferenze dei neighbors per trovare una predizione o n raccomandazioni per l’active user (vedere riquadro 1). Uno dei vincoli attualmente esistenti è però legato alla potenza di calcolo necessaria alla computazione degli algoritmi di CF. Le soluzioni migliori e più adattabili infatti si basano su algoritmi di tipo memory based che richiedono però una grossa potenza di calcolo. Al crescere del dimensione del dataset invece si preferisce utilizzare algoritmi di tipo model based in grado di costruire un modello offline su cui basare le predizioni. L’attualità e l’interesse di ricerca nel Collaborative Filtering è testimoniato dal massiccio utilizzo che ne viene fat- 54 I quaderni di TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI Fasi di un algoritmo nearest-neighbor memory based FASE 1: PESARE TUTTI GLI UTENTI U In base ai rating dati dagli m utenti U = {u1, u2,... um} agli n item I = {i1, i2,… in} del dataset viene calcolato un grado di similarità con l’active user ua. Gli utenti con maggiore similarità verranno usati come predittori delle scelte dell’active user. Per calcolare la similarità tra due utenti, si possono utilizzare varie metriche, come ad esempio: 쩦 coefficiente di correlazione di Spearman; 쩦 coefficiente di correlazione di Pearson; 쩦 coseno dell’angolo tra vettori; 쩦 misure di incertezza basate sull’entropia; 쩦 differenza quadratica media. FASE 2: SELEZIONARE UN SOTTOINSIEME DEGLI UTENTI PER USARLI COME PREDITTORI Spesso gli utenti presenti nel dataset sono molto numerosi. Per garantire adeguate prestazioni computazionali si devono selezionare un numero limitato di utenti come predittori. Un popolare approccio è quello di individuare i K nearest-neighbors dell’active user (un’altra strategia prevede di imporre un valore soglia di similarità ed utilizzare come predittori tutti gli utenti con un valore sopra la soglia). Per selezionare il sottoinsieme degli utenti si usa la distanza Euclidea vincolata al parametro K di utenti. Il numero k dovrebbe essere: 쩧 grande abbastanza per garantire una buona classificazione dell’utente di interesse. 쩧 piccolo (rispetto al numero dei sample) in modo che i neighbors selezionati siano abbastanza vicini per fornire una buona stima di X. ESEMPIO DI SCELTA DEL K L’oggetto del test (cerchio verde)deve essere classificato come appartenente alla classe dei quadrati blu o alla classe dei triangoli rossi (figura 2). Se k = 3 verrà classificato nella seconda classe poiché ci sono 2 triangoli ed un solo quadrato. Se k = 5 verrà classificato nella prima classe (3 quadrati contro 2 triangoli. Alla luce del precedente esempio sembra chiaro come la scelta del parametro k sia cruciale per effettuare una corretta predizione. Per selezionare un buon valore e ridurre il rischio di errore nella selezione dei predittori sono di norma utilizzate tecniche euristiche o si ricorre ad algoritmi genetici. Figura 2. Scelta del numero k di nearest-neighbors. FASE 3: CALCOLO DELLA PREDIZIONE Una volta selezionati, i predittori vengono poi pesati in funzione della effettiva similarità con l’active user (i pesi sono l’inverso della distanza). La predizione del rating dell’active user per un item sarà quindi data dalla somma pesata dei rating dati dai k predittori. APRILE 2008 55 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA to nei grandi portali commerciali come Amazon o Netflix ed in tutte le applicazioni dove è possibile costruire un profilo utente. Per approfondire: Collaborative filtering research paper http://jamesthornton.com/cf/ Collaborative Filtering Resources http://genlab.tudelft.nl/~jun/Collaborative Filtering.html The Netflix Prize http://www.netflixprize.com/ Amazon.com recommendations: item-to-item collaborative filtering http://ieeexplore.ieee.org/ xpl/freeabs_all.jsp?arnumber=1167344 Evaluating Collaborative Filtering Recommender Systems by J. Herlocker, J. Konstan, L.Terveen, and J. Riedl http://portal.acm.org/citation.cfm?id=1297240 APPRENDIMENTO AUTOMATICO DI FUNZIONI DI ORDINAMENTO (LEARNING TO RANK) Gli algoritmi di ricerca basati sul Learning to Rank (L2R) sono in grado, in modo automatico, di ricavare e utilizzare le informazioni derivanti dai gusti e desideri dell’utente per raffinare i risultati di una ricerca. Queste informazioni posso essere ottenute sia in modo esplicito, per esempio quando l’utente compila una form indicando delle chiavi di ricerca, sia in modo implicito. Ogni volta che un utente clicca sul risultato di una ricerca, preferendo in questo modo un link a discapito degli altri, genera un feedback implicito che può essere facilmente esaminato dal motore di ricerca per raffinare le interrogazione (query) successive. Anche l’analisi di alcuni dati sensibili presenti sul dispositivo utilizzato, come il calendario degli appuntamenti, la propria rubrica telefonica, la cache o la history dei siti visitati e altro ancora, possono costituire indicazioni sui gusti dell’utente che egli fornisce in modo implicito e quindi, spesso, a sua insaputa. Questo modo di ricavare informazioni presenta indubbie problematiche legate alla questione della privacy: i dati utilizzati potrebbero contenere informazioni riservate il cui uso, per effettuare un raf- 56 finamento delle ricerca, potrebbe essere mal visto dall’utente. Un altro modo di procedere del L2R è costituito dall’analisi della sequenza di ricerche e click effettuati da un utente per arrivare a trovare una par ticolare informazione. L’esperienza acquisita dall’Intelligenza Artificiale, alla base dell’algoritmo del L2R, viene così utilizzata per migliorare ricerche simili a quelle realizzate da altri utenti. Per esempio un motore di ricerca basato sul L2R potrebbe osservare che tutti gli utenti che cercano la stringa “rimborso viaggi” cliccano, successivamente, sul link relativo alla form che è necessario compilare per effettuare la richiesta di rimborso. Da questa analisi il motore potrebbe aggiungere direttamente, tra i suoi risultati, il link per arrivare immediatamente alla form desiderata. MODELLAZIONE Per formalizzare il funzionamento di un sistema basato sul L2R possiamo dire che le azioni di un utente possono essere interpretate come preferenze relative: per una certa query q l’utente preferisce il documento d1 rispetto al d2. Per ogni utente u, query q e documento d viene calcolata una funzione h(q, u, d) che rappresenta l’utilità o pertinenza del documento rispetto alle interrogazioni e all’utente, il cui risultato cambia con l’acquisizione di nuova esperienza da parte del sistema. Quando, infatti, l’utente preferisce una risposta d1, rispetto a d2, stabilisce implicitamente una relazione del tipo: h(q, u, d1) > h(q, u, d2) La figura seguente (figura 3) mostra il paradigma generale di funzionamento dalla maggior parte dei metodi di ricerca basati sul L2R. Il processo di apprendimento è sintetizzato attraverso due passi: il training e il test. Nella fase di training una collezione di query Q = {q1, …, q|Q|} e una di documenti D = {d1, …, d|D|} vengono combinate per realizzare il training corpus. Questo viene generato come un insieme di coppie query-documento tali che (qi, dj) € Q X D. Un etichettatore (Labeler) si occupa, poi, di definire il grado di rilevanza per ogni coppia qi e dj mentre il mo- I quaderni di TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI Figura 3. Paradigma generale di funzionamento dei metodi di ricerca basati sul L2R. dulo del Feature Extractor genera, a partire dalle coppie (qi, dj), un vettore di caratteristiche che descrive il livello di corrispondenza esistente tra gli elementi della coppia. Il Learning Algoritm, poi, riceve come input queste informazioni e produce una funzione di ranking f, con f(qi, dj) che si suppone essere in grado di dare il vero livello di rilevanza esistente tra i due elementi della coppia (d e q). Nella fase di test la funzione f, individuata durante il training, viene testata con una nuova query q sul set di documenti usati nella fase precedente. I vantaggi dell’uso di un feedback implicito sono molteplici: 쩦 è economico poiché può essere ricavato dall’analisi dell’attività svolta da un utente su un motore di ricerca o dai log delle sue attività; 쩦 è specifico per un particolare utente o collezione di dati; 쩦 riflette il naturale uso del motore di ricerca. Per esempio un motore di ricerca interno ad un sito che offre ricette culinarie e al quale verrà richiesto di cercare il termine pesca sarà in grado di privilegiare i risultati contenenti il frutto anziché quelli relativi all’attività sportiva. APRILE 2008 Riprendendo l’esempio indicato sopra (ricerca del modulo per il rimborso di una trasferta) un’altra forma di feedback implicito può essere quello generato dalla riformulazione delle query: quando l’utente non è soddisfatto dei risultati ottenuti e riformula nuovamente i termini della ricerca, magari senza aver prima cliccato su nessuno dei link, il motore di ricerca può tenere conto di questa informazione per facilitare le interrogazioni realizzate da altri utenti in possesso di gusti simili. Seppur caratterizzati da indubbi vantaggi i feedback impliciti posso presentare dei grossi problemi: spesso, infatti, forniscono informazioni parziali e sono affetti da disturbo. Attraverso, comunque, una opportuna interpretazione essi possono costituire degli economici e accurati dataset nella forma di coppie di preferenze. Per comprendere gli errori di valutazione in cui spesso si può cadere esaminando le azioni di un utente che usa un motore di ricerca consideriamo il caso della ricerca del termine jaguar. Oltre che ai link relativi alla macchina, che supponiamo siano quelli desiderati dall’utente, vengono presentati anche risultati inerenti l’animale giaguaro. Ovviamente questi risultati indesiderati si manifestano in modo meno frequente se, per esempio, le ricerche vengono realizzate con un motore in lingua diversa da quella inglese (lingua per la qua- 57 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA le c’è confusione tra i due termini) e magari si annullano se il motore è dedicato al mondo dell’automobilismo. Supponiamo di trovarci nel caso peggiore di motore generico e in lingua inglese. La domanda che ci poniamo è quanto sia significativo il fatto che l’utente clicchi sul primo, terzo e quarto risultato di quelli ottenuti dalla sua ricerca e se questa è una informazione sufficiente perché sia possibile dare un ranking ai link scelti. Molti esperimenti sono stati realizzati, la maggior parte usando software di eyetracking che permettono di analizzare su quali link lo sguardo dell’utente si sofferma, e si è visto che le azioni dell’utente sono estremamente influenzate da come il motore di ricerca presenta i risultati. Per cui il primo ad essere presentato sarà sempre quello maggiormente cliccato e via a seguire. A suffragio di questa tesi è stato provato che invertendo i primi due risultati (o, addirittura, tutta la lista) quello che prima era il meno cliccato diventa quello più selezionato. È chiaro, quindi, che una semplice analisi dei link cliccati non è sufficiente a definire un ranking tra i risultati, si parla, in questo caso, di presentation bias. Come possiamo, quindi, usare il feedback implicito? In realtà scopriamo come questo non sia in grado di fornirci una risposta assoluta (A è buono) ma solo informazioni relative (A è migliore di B). E questa informazione ci deriva dalla considerazione che l’utente, scegliendo di cliccare il primo e il terzo link, salti il secondo comunicandoci che quel link è peggiore del terzo (e del primo, …). Generalizzando, quindi, è possibile valutare le azioni dell’utente comparandole con le alternative che aveva a disposizione e che aveva osservato prima di prendere una decisione (ovvero cliccare su un link). Ulteriori studi su questo argomento hanno dimostrato come questa intuizione si sia rivelata, poi, corretta. Confrontando i ranking dedotti automaticamente dall’analisi dei click (e i non click) dell’utente con quelli individuati manualmente da tecnici esperti si è visto come questi fossero molto simili. Fino ad ora abbiamo visto come un motore di ricerca possa collezionare in modo passivo i feedback impliciti ottenuti dalle ricerche e dalla navigazione degli utenti.Vediamo, ora, come questa esperienza possa essere sfruttata per migliorare le ricerche future svolte con il motore di ricerca. 58 A tal proposito sono stati effettuati vari tipi di esperimenti, uno particolarmente significativo (paired blind experiment), metteva a confronto i risultati provenienti da due motori di ricerca diversi per individuare quale fosse il migliore. Una stessa interrogazione era fornita ai due motori in esame e i risultati ottenuti erano visualizzati affiancati su due colonne, così da non avvantaggiare, graficamente, gli uni rispetto agli altri. Successivamente si analizzavano, al solito, i click, e così le preferenze, degli utenti. Esaminando la sequenza dei link scelti è stato possibile individuare quale dei due motori presentasse risultati più affini ai desideri dell’utente. Un altro interessante esperimento, invece, è stato realizzato per permettere la valutazione di risultati che, in genere, venivano posizionati in basso nella lista dei link presentati dai motori di ricerca e, conseguentemente, ignorati dall’utente. Questi link, trovandosi in basso, non venivano mai scelti dall’utente e quindi non era possibile calcolare un feedback implicito per essi. In modo casuale alcuni dei risultati caratterizzati da un basso punteggio venivano mischiati con quelli che, invece, conquistavano i primi posti in modo da poter analizzare il feedback dell’utente anche su di essi. Nel breve periodo questo motore di ricerca presentava un livello di qualità basso poiché, spesso, i link presi dal fondo non avevano, effettivamente, nulla a che vedere con i risultati cercati dell’utente. Si è dimostrato come, col passare del tempo e grazie all’apprendimento svolto dal motore di ricerca in base al ranking ottenuto dal feedback degli utenti, i risultati forniti nel lungo periodo erano sempre più raffinati e vicini ai gusti dell’utente. Fino ad ora abbiamo visto un solo tipo di feedback implicito: il click degli utenti. Ma ne esistono molti altri che andrebbero considerati: 쩦 tempo di lettura: un click seguito, subito dopo, da un altro click indica che la prima pagina esaminata non era effettivamente quella cercata dall’utente 쩦 abbandono: si verifica quando nessun link presentato dal motore di ricerca viene cliccato. Spesso, ma non necessariamente, è seguito dalla riformulazione della query 쩦 riformulazione della query: quando i link presentati (ed eventualmente visitati) non hanno sod- I quaderni di TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI disfatto l’utente spesso la query viene riformulata, in parte o totalmente. Si hanno, in questo caso, quelle che vengono conosciute come query chain (catene di query). Le azioni di un utente u permettono di individuare, data una quer y q e due risposte, d1 e d2, quale questi preferisca potendo, così, stabilire che, per esempio e per quell’utente, d1 è migliore di d2. Purtroppo la stragrande maggioranza degli algoritmi di machine learning operano con informazioni del tipo d1 è rilevante o d2 non è rilevante per cui è necessario trovare un modo per adattare i risultati trovati da questi algoritmi. Un possibile adattamento potrebbe essere quello di tradurre il learning problem in uno di classificazione binaria. Ogni coppia di preferenze creerebbe due modelli di classificazione binaria: quello positivo (q, u, d1, d2) e quello negativo (q, u, d2, d1). Purtroppo il processo di fusione dei risultati avrebbe complessità computazionale NP-hard il che si tradurrebbe in tempistiche di elaborazione molto lunghe qualora il sistema venisse applicato a motori di ricerca che lavorano su indici grandi. Una soluzione alternativa, a cui abbiamo già accennato in precedenza, e che richiederebbe solo una singola operazione di ordinamento, è quella che prevede non di apprendere una coppia di preferenze ma direttamente una funzione h(q, u, d) avente lo scopo di assegnare un punteggio di utilità reale ad ogni documento d per una certa query q e utente u. Una volta che l’algoritmo avrà appreso una particolare funzione h, per ogni nuova query q1 il motore di ricerca non dovrà far altro che ordinare i documenti in base alla loro utilità decrescente. In altre parole ogni volta che si presenta una preferenza del tipo “per la query q l’utente u preferisce d1 rispetto a d2” questa viene interpretata come il fatto che per l’utente u e la query q il valore di utilità d1 è maggiore di quello di d2. Formalmente questo può essere interpretato come il vincolo che la funzione h, che vogliamo apprendere, è soggetta alla relazione h (q, u, d1) > h (q, u, d2). Se la funzione di utilità è lineare nel parametro w per un dato vettore F (q, u, d) che de- APRILE 2008 scrive l’abbinamento tra q, u e d possiamo scrivere h(q, u, d)= w X F (q, u, d).Trovare la funzione h soggetta a tutte le preferenze P si riduce, semplicemente, nella soluzione di un sistema lineare. È molto probabile, comunque, che a causa del disturbo presente nell’analisi dei click dell’utente il sistema lineare sia inconsistente. SPERIMENTAZIONE Basandosi su queste considerazioni un gruppo di ricercatori della Cornell University con a capo Thorsten Joachims ha progettato e testato un motore di ricerca basato sul L2R: Striver. Il testing, realizzato per verificarne l’efficacia, è stato condotto sottoponendo le quer y di un gruppo di utenti a più motori di ricerca (Google, MSN,Yahoo!, ecc.). I primi 100 risultati prodotti da ogni motore di ricerca venivano, poi, fusi con quelli ottenuti dagli altri ottenendo, così, l’insieme candidato K. L’insieme K veniva, successivamente, dato come input a Striver che, applicando la sua funzione di apprendimento, provvedeva ad attribuire un punteggio (rank) per ogni documento presente nell’insieme. Questa nuova lista veniva, infine, presentata all’utente al quale era chiesta una valutazione. Dopo circa 2 settimane di sperimentazione condotta su almeno 20 utenti esperti che hanno prodotto circa 260 interrogazioni è stato possibile confrontare il ranking attribuito ai documenti dalla funzione di apprendimento con quelli prodotti dai vari motori di ricerca usati nella fase di creazione del dataset. Si è, così, potuto vedere come i risultati ottenuti dalla funzione di apprendimento fossero mediamente migliori rispetto a quelli forniti dai motori di ricerca. CONCLUSIONI Il confronto tra i motori di ricerca tradizionali e quelli basati sulle funzioni di apprendimento mostra come l’uso del feedback implicito e del machine learning consenta di realizzare sistemi altamente specializzati. Anche se il feedback implicito è soggetto ad errori, esistono molte tecniche in grado di ridurlo sensibilmente e permettere l’individuazione di dati utilizzabili con successo nella fase di apprendimento. Molte sono, comunque, le cose ancora su cui lavorare che vanno dalle considerazioni inerenti i pro- 59 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA blemi di privacy a quelle relative all’individuazione di tecniche in grado di evitare l’influenza dello spam oppure alla progettazione e realizzazione di sistemi attraverso i quali sperimentare efficacemente i nuovi sistemi di apprendimento. Seppur inizialmente possa sembrare poco efficace l’adattare un motore di ricerca a un particolare gruppo di utenti o documenti si è potuto osservare come questo sia, invece, un processo molto conveniente. L’idea che un unico sistema vada bene per tutti costituisce un compromesso spesso inefficiente e l’alternativa di adattarlo manualmente, in base alle esigenze del particolare gruppo di utilizzatori, è inaccettabile a causa del tempo che si andrebbe a spendere per la sua realizzazione. Proprio per questi motivi la ricerca sull’adattamento automatico dei motori di ricerca grazie all’uso del machine learning sta ricevendo, soprattutto in questo periodo, grande attenzione. Rimane, comunque, ancora il problema della disponibilità dei dataset necessari all’addestramento dei sistemi e alla loro valutazione. In rete è possibile reperirne alcuni, spesso derivati da quelli usati al TREC (Text REtrieval Conference, conferenza internazionale sul recupero dei documenti). Tra questi è interessante LETOR (LEarning TORank) che è distribuito dalla Microsoft Research Asia e copre la maggior parte delle caratteristiche richieste dall’IR. Per approfondire: Home Page of Thorsten Joachims http://www.cs.cornell.edu/People/tj/ Machine Learning http://it.wikipedia.org/wiki/ Apprendimento_automatico Learning to Rank for Information Retrieval http://delivery.acm.org/10.1145/1330000/ 1328974/p58-joachims.pdf?key1= 1328974&key2=9841222021&coll=GUIDE&dl= &CFID=15151515&CFTOKEN=6184618 Learning to Rank: A Machine Learning Approach to Static Ranking http://www.cs.technion.ac.il/~litalma/notes_l ectures/LearningtoRank.pdf Learning to Rank http://www.cs.otago.ac.nz/ 60 postgrads/andrew/2004-1.pdf LETOR: Benchmark Data Sets for Learning to Rank http://research.microsoft.com/research/ downloads/Details/22a1b3e9-c5c6-4cfe-86f91d2ea1c199e8/Details.aspx Learning to Rank for Information Retrieval Using Genetic Programming http://jenyuan.yeh.google pages.com/jyyeh-LR4IR07.pdf X. Geng, T.-Y. Liu, T. Qin, and H. Li. Feature selection for ranking. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR Conference on Research and development in information retrieval, pages 407-414, New York, NY, USA, 2007. ACM Press. ESPANSIONE AUTOMATICA PERSONALIZZATA DELL’INTERROGAZIONE Lo schema di principio di un sistema per il reperimento delle informazioni dal Web, inclusi i maggiori motori di ricerca, prevede una fase off-line di raccolta delle pagine e successiva costruzione di un file indice che associa a ciascuna parola le pagine in cui quella parola compare. A questo punto ciascuna interrogazione viene elaborata recuperando soltanto le pagine (documenti) che contengono esattamente le parole specificate nell’interrogazione. Come già evidenziato, questa è una limitazione molto forte, alla luce della ricchezza e dell’ambiguità del linguaggio naturale. In particolare, se una pagina contiene lo stesso concetto espresso con parole differenti essa non viene recuperata (problema del vocabolario). La situazione è ulteriormente complicata dal fatto che le interrogazioni sono brevi (di solito non più di due o tre parole) e il Web è estremamente ricco ed eterogeneo in contenuti. In queste condizioni, a causa dei problemi di sinonimia (parole differenti con lo stesso significato) e polisemia (una stessa parola con significati differenti), è ancora più probabile che il sistema non riesca a recuperare pagine pertinenti che non contengono gli stessi termini dell’interrogazione oppure, simmetricamente, che recuperi molte pagine non pertinenti. Per alleviare questo problema, si può cercare di espandere automaticamente l’interrogazione con termini e concetti che non sono presenti nel- I quaderni di TECNICHE DI PROFILAZIONE DELL’UTENTE E DI EROGAZIONE PERSONALIZZATA DELLE INFORMAZIONI la sua formulazione originaria e che descrivono con più precisione il bisogno informativo dell’utente. In realtà non ci si limita ad aggiungere termini; si attribuisce loro anche un peso, perché a “runtime” il punteggio di pertinenza di ciascun documento a fronte di una interrogazione viene ottenuto sommando i prodotti dei pesi dei termini dell’interrogazione e dei pesi dei termini corrispondenti presenti nel documento. VANTAGGI E LIMITI Assumendo implicitamente che i termini dell’interrogazione siano in OR, la prima conseguenza dell’ampliamento del loro numero è che aumenta il richiamo del sistema, cioè la capacita di recuperare tutti i documenti pertinenti. Ad esempio, se l’interrogazione “Al-Qaeda” viene espansa con “Al-Qaida” e “Osama bin Laden”, la nuova interrogazione non solo recupererà i documenti che contengono il termine originario (Al-Qaeda), ma anche i documenti in cui l’organizzazione viene denominata con una ortografia differente o in cui essa non viene menzionata direttamente. Per quanto riguarda la capacità di recuperare solo i documenti per tinenti (precisione), che è l’altra variabile che tipicamente misura le prestazioni di un sistema per il reperimento delle informazioni, essa può peggiorare o migliorare. Peggiorerà se i termini aggiuntivi non sono sufficientemente correlati con l’interrogazione o se sono correlati solo ad alcuni dei suoi termini, causando cosi uno slittamento del significato della stessa con conseguente recupero di documenti non per tinenti. Migliorerà se i termini aggiuntivi concorrono a polarizzare il reperimento verso il significato cercato, filtrando cosi i documenti che in realtà sarebbero pertinenti solo a qualche componente dell’interrogazione. Ad esempio, se l’interrogazione “tiger, operating systems” viene espansa con “Mac OS X”, il punteggio dei documenti che parlano del sistema operativo Tiger aumenterà mentre quello dei documenti che parlano degli altri significati di tiger o di differenti sistemi operativi diminuirà. In realtà la maggior parte dei test di laboratorio hanno confermato che la misura combinata di prestazione (richiamo + precisione) può aumentare notevolmente con l’uso di interrogazioni espanse, anche perché negli ultimi anni le tecniche di espansione sono diventate molto più efficaci. APRILE 2008 I limiti principali di questo approccio riguardano la sua robustezza, perché non è ugualmente efficace per tutte le interrogazioni, l’aggravio computazionale che comporterebbe la sua adozione nei sistemi per l’accesso in tempo reale alle informazioni sul Web, e infine il potenziale disorientamento cognitivo che potrebbe derivare da una accresciuta distanza fra il contenuto letterale dei documenti recuperati e quello della interrogazione originaria. Questi motivi hanno finora frenato l’impiego della espansione automatica dell’interrogazione come un componente standard dei sistemi operazionali per il reperimento delle informazioni, ad esempio i motori di ricerca per il Web. TECNICHE DI ESPANSIONE AUTOMATICA Passando all’analisi delle tecniche di espansione, bisogna innanzitutto considerare che un sistema di questo tipo consiste di varie componenti in cascata: selezione delle sorgenti da cui estrarre le informazioni, selezione dei termini (o concetti) candidati all’espansione, ordinamento (ranking) di questi ultimi, e infine ripesatura dell’interrogazione. Di fatto, è stata utilizzata una grande varietà di sorgenti informative (la collezione completa sottostante, i documenti recuperati senza espansione, log con le interrogazioni, tesauri, ancore testuali,..) e numerosi metodi e algoritmi per estrarre da esse i termini collegati semanticamente a quelli dell’interrogazione (correlazione statistica, clustering, elaborazione del linguaggio naturale, teoria dell’informazione, calcolo della probabilità). Recentemente, si è cominciato ad utilizzare anche le informazioni personali dell’utente per eseguire l’espansione automatica dell’interrogazione. ESPANDERE L’INTERROGAZIONE UTILIZZANDO LE INFORMAZIONI SUL PERSONAL COMPUTER Il primo passo consiste nell’indicizzare tutti i documenti contenuti in un computer che hanno valenza personale, ad esempio quelli contenuti in determinate directory, i messaggi di posta elettronica, le pagine Web nella cache, ecc. Questi documenti costituiscono la “Personal Information Repository” (PIR). Successivamente, data una cer- 61 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA ta interrogazione, si trovano i documenti della PIR che sono più pertinenti all’interrogazione. In pratica si può fare facilmente utilizzando una qualsiasi applicazione di “desktop search”. A questo punto, si possono utilizzare un ventaglio di metodi per estrarre termini e concetti di espansione dai documenti pertinenti della PIR: 쩦 쩦 쩦 Si assegna a ciascun termine presente in ciascun documento del PIR un punteggio proporzionale alla frequenza del termine nel documento, all’inverso della sua posizione nel documento (i termini più informativi di solito sono in testa), e al numero di documenti (o sunti di documento) in cui il termine appare. Poi si selezionano i termini coi punteggi più alti. Previa applicazione off-line di sistemi per l’identificazione delle parti del discorso all’insieme di documenti pertinenti della PIR, si identificano tutti i composti lessicali in cui compaiono i termini dell’interrogazione e si scelgono i più frequenti. In pratica è sufficiente utilizzare un analizzatore morfologico e limitarsi ai composti formati da coppie “aggettivo-nome”. Utilizzando le tecniche per la sommarizzazione dei documenti, si assegna un punteggio a ciascuna frase, poi si scelgono le frasi con il punteggio più alto. Il criterio usato per stabilire il punteggio tipicamente tiene conto della percentuale di parole significative contenute nella frase (valutata utilizzando la frequenza di ciascuna parola nelle frasi del documento) e della posizione della frase nel documento (le frasi in testa sono più impor tanti se il documento è lungo. Questi metodi possono essere usati singolarmente o combinati. Si è visto che la loro adozione può migliorare la precisione del reperimento delle informazioni, confrontando i risultati recuperati da Google senza e con espansione. Uno dei parametri fondamentali di questa tecnica di espansione automatica, cosi come delle 62 altre, è il numero di termini di espansione che alla fine verranno usati. Un approccio promettente consiste nel rendere questa scelta dipendente dall’ambiguità (o difficoltà) della interrogazione originaria (più termini per interrogazioni più ambigue), la quale può essere stimata con un cer to grado di approssimazione con metodi sia statistici sia basati sulla elaborazione del linguaggio naturale. Per approfondire: Libro in corso di stampa su Information retrieval con capitolo su Query expansion: Manning, C. D., Raghavan, P. and Schutze, H. (2008). Introduction to Information Retrieval, Cambridge University Press. http://nlp.stanford.edu/IR-book/pdf/ irbookonlinereading.pdf 쩦 Articolo con confronto e combinazione di tecniche per l’espansione dell’interrogazione basata su retroazione di pseudo-pertinenza (pseudo-relevance feedback): C. Carpineto, G. Romano and V. Giannini (2002). Improving retrieval feedback with multiple termranking function combination, ACM Transactions on Information Systems (TOIS), 20(3), pp. 259-290. http://search.fub.it/claudio/pdf/TOIS2002.pdf 쩦 Articolo sulla robustezza delle tecniche di espansione automatica: G. Amati, C. Carpineto and G. Romano (2004). Query difficuly, robustness and selective application of query expansion, Proceedings of the 26th European Conference on Information Retrieval (ECIR 2004), pp. 127-137. http://search.fub.it/claudio/pdf/ECIR2004.pdf 쩦 쩦 Articolo recente sulla espansione personalizzata: P.-A. Chirita, C. Firan and W. Nejdl (2007). Personalized query expansion for the Web, Proceedings of SIGIR’07, pp. 7-14. Link alla Relevance Feedback track che viene inaugurata nel 2008 all’interno del forum TREC http://trec.nist.gov 쩦 I quaderni di L A P E R S O N A L I Z Z A Z I O N E È I L PAG E R A N K D E L F U T U RO La personalizzazione è il PageRank del futuro? i noti che la personalizzazione non è l’unica tecnica disponibile per complementare la selezione delle informazioni sul Web basata sul contenuto. In effetti, il secondo criterio fondamentale per riuscire a filtrare ed ordinare in modo più efficace l’enorme quantità di pagine teoricamente pertinenti ad una interrogazione è basato sui link che collegano le pagine Web, a prescindere dal contenuto testuale delle pagine stesse. L’osservazione chiave è che certi siti Web sono oggettivamente più importanti o “popolari” di altri, e che un indice significativo della loro importanza è costituito dalla quantità e qualità delle pagine che puntano ad essi. PageRank, utilizzato da Google, è l’algoritmo più noto, anche se probabilmente non il migliore, per assegnare a ciascuna pagina un punteggio di questo tipo. Negli ultimi anni il miglioramento dei sistemi per l’accesso alle informazioni ha riguardato soprattutto l’aumento della copertura e della velocità di aggiornamento degli indici, ma la logica di ricerca è rimasta sostanzialmente immutata. Non siamo ancora pronti per passare dai motori di ricerca ai motori di risposta, perché le tecniche ba- S sate sull’elaborazione del linguaggio naturale e sul Web semantico non sono ancora mature, mentre quelle basate sul rilevamento delle variabili ambientali legate al momento, al luogo e al tipo di dispositivo utilizzato hanno un ambito di applicazione ancora limitato. Probabilmente la personalizzazione è al momento la tecnica più promettente per costruire i sistemi di prossima generazione, anche se è ancora presto per dire che essa diventerà la PageRank del futuro. Parallelamente, il miglioramento nelle tecnologie di personalizzazione può avviare la trasformazione dei motori di ricerca (o di risposta) in sistemi per la fornitura automatica di informazioni (“information supply”), specifiche per utenti e attività, in grado di intercettare il bisogno informativo di un utente prima che questo venga espresso. Questa evoluzione è stata postulata anche alla luce dell’affermazione di un analogo paradigma di fornitura mirata di informazioni e pubblicità in vari contesti specializzati quali il commercio elettronico, le reti sociali, i browser, le notizie, la posta elettronica, e gli stessi motori di ricerca. Privacy e servizi informativi personalizzati: una convivenza possibile possesso di informazioni relative alle caratteristiche e ai gusti degli utenti pone senza dubbio un problema di privacy. Gli utenti temono che queste informazioni possano essere divulgate o trafugate o adoperate in modo improprio o dannoso. D’altra parte, essi apprezzano il fatto che un servizio personalizzato spesso si traduce in un risparmio di tempo e/o denaro. Questi desideri contrastanti Il APRILE 2008 hanno un peso variabile nelle persone. Alcuni indagini recenti hanno mostrato che esistono tre tipi di atteggiamento verso la privacy. Ci sono i fondamentalisti, che non vogliono correre rischi, i disinteressati, per i quali quello della eventuale violazione della privacy non costituisce un problema, e i pragmatici, i quali essenzialmente valutano costi e benefici. Queste tre classi sono all’incirca nella proporzio- 63 UTENTE SENZA SEGRETI INFORMAZIONE PERSONALIZZATA ne 1:1:2. Indipendentemente dalla loro attitudine, bisogna considerare che la scelta delle persone in definitiva è dettata da una serie di considerazioni che riguardano le caratteristiche del servizio. Due fattori importanti sono il tipo di informazione e il valore del servizio. Alle persone non piace sicuramente mandare in giro il numero della propria carta di credito o i contatti personali, e sono anche generalmente restie a diffondere informazioni sugli acquisti che fanno o le interrogazioni che inviano ai motori di ricerca, mentre sono più disposte ad accettare l’eventualità che qualcuno possa venire a conoscenza dei loro hobby e stili di vita. La maggiore propensione ad accettare il rischio privacy dipende poi chiaramente dalla percezione dei benefici ricevuti nella fruizione del servizio, i quali dovrebbero essere sempre esplicitati in modo chiaro. Altri fattori che concorrono alla scelta dell’utente sono la consapevolezza dell’uso che verrà fatto delle informazioni personali, la possibilità di controllare e eventualmente correggere dette informazioni, e infine la fiducia nella correttezza e professionalità dell’erogatore di servizio e del suo sito Web. Questi fattori dovrebbero essere considerati attentamente in fase di progettazione e realizzazione di un servizio personalizzato, perché il successo dello stesso dipenderà probabilmente dall’ottemperanza a questi principi. Già oggi alcuni siti di commercio elettronico pongono grande attenzione a questi aspetti. Un passo ulteriore e probabilmente decisivo è rappresentato dall’adozione di politiche sicure per la conservazione e gestione dei dati personali. Già oggi sono disponibili una serie di tecniche e altre sono in fase di studio che renderanno sempre più difficile risalire alla identità delle persone. Fra i meccanismi di protezione più efficaci si possono citare le tecniche di anonimizzazione e pseudonimizzazione, il trasferimento delle elaborazioni sul lato client (nei casi in cui non si tratta di gestire e analizzare preferenze e scelte di intere popolazioni di utenti) e l’adozione di modelli distribuiti per la protezione dei grandi archivi di dati personali multi-utente. Nel complesso si tratta di favorire una evoluzione in cui il rischio privacy non rappresenti più un ostacolo allo sviluppo e alla fornitura di servizi personalizzati ma piuttosto un vincolo e un incentivo per il loro miglioramento Conclusioni grande sviluppo del web ha portato all’esigenza di individuare metodi sempre più raffinati per ottimizzare i risultati dei motori di ricerca e per predire gli interessi degli utenti. Allo stesso tempo si assiste alla graduale perdita di quella caratteristica di anonimato che aveva distinto il web nei primi anni della sua espansione. Durante la navigazione infatti, lasciamo tantissime tracce del nostro passaggio, dalle scelte realizzate alle preferenze espresse.Tutta questa serie di informazioni costituiscono, oggi, le fondamenta attraverso cui i sistemi automatici costruiscono il profilo degli utenti. Basandosi sulla storia delle nostre azioni e sugli interessi espressi in modo esplicito o meno, sono state sviluppate alcune strategie innovative come, ad esempio, il filtraggio collaborativo delle informa- Il 64 zioni, l’apprendimento automatico di funzioni di ordinamento e l’espansione automatica personalizzata delle interrogazioni. L’evoluzione nel rapporto tra i fruitori della rete ed i portali web ha però notevoli implicazioni dal punto di vista della privacy. La personalizzazione dei contenuti potrebbe rappresentare la killer application del futuro. È fondamentale, però, l’individuazione e l’applicazione di politiche sicure per la conservazione, la gestione e la tutela dei dati personali degli utenti. Andrea Bernardini, Claudio Carpineto, Raffaele Nicolussi Fondazione Ugo Bordoni I quaderni di