pdf - Pasquale De Meo
Transcript
pdf - Pasquale De Meo
Università degli Studi Mediterranea di Reggio Calabria Facoltà di Giurisprudenza Corso di Laurea in Scienze Economiche Appunti del Corso di Sistemi Informativi Pasquale De Meo Anno Accademico 2009-2010 Indice 1 Il commercio elettronico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Il Business-to-business (B2B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Il Business-to-consumer (B2C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Il Consumer-to-consumer (C2C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Il Consumer-to-business (C2B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 I fattori chiave per avere successo nell’e-commerce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Problematiche del commercio elettronico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 Il problema della sicurezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 2 3 4 4 2 L’estrazione di Regole Associative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 Introduzione al Mining di Regole Associative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Market Basket Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Concetti di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori . . . . . . . . . 9 2.4.1 Estrazione degli itemset frequenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4.2 Generazione di regole associative dagli itemset frequenti . . . . . . . . . . . . . . . . . . . . . 12 3 I Recommender System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Concetti generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 I metodi Content Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 I Limiti dei Sistemi Content Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 I metodi Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 I Limiti del Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 15 17 17 18 19 19 20 4 Il credit scoring e la Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Background culturale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 La Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Caratteristiche generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 I Classificatori Bayesiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Teorema di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Classificazione bayesiana naive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 21 22 22 23 23 23 5 Il Forex e la predizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 La Predizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Regressione lineare e multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 25 27 1 Il commercio elettronico 1.1 Introduzione Il commercio elettronico (e-commerce in inglese) viene utilizzato per indicare l’insieme delle transazioni per la commercializzazione di beni e servizi tra produttore (offerta) e consumatore (domanda), realizzate tramite Internet. Nell’industria delle telecomunicazioni si può intendere l’e-commerce anche come l’insieme delle applicazioni dedicate alle transazioni commerciali. Secondo una terza definizione il commercio elettronico è la comunicazione e la gestione di attività commerciali attraverso modalità elettroniche, come l’EDI (Electronic Data Interchange) e con sistemi automatizzati di raccolta dati. Secondo una ricerca italiana del 2008 l’e-commerce in Italia ha un valore stimato di 4,868 miliardi di euro nel 2007, con una crescita del fatturato del 42,2%. Nel 2007 sono stati eseguiti circa 23 milioni di ordini on line in Italia. In base al fatto che la transazione coinvolga aziende piuttosto che singoli individui, si possono distinguere quattro forme di commercio elettronico: business to business, business to consumer, consumer to consumer e consumer to business. Il più grande volume d’affari è prodotto dal business-to-business, il primo ad essere nato, ma anche il business-to-consumer sta prendendo piede. La creazione delle aste on line ha generato due nuovi termini: consumer-to-consumer e consumer-to-business. Nelle sezioni successive verranno analizzate le quattro forme di commercio elettronico in maniera più dettagliata. Inoltre verranno analizzati i fattori che determinano il successo di un sito di e-commerce. Infine verrà trattato il problema della sicurezza nell’e-commerce. 1.2 Il Business-to-business (B2B) Il Business-to-business (B2B) riguarda transazioni commerciale tra aziende, quindi non interessa il consumatore finale di beni e servizi. Questo tipo di transazione di solito coinvolge un numero limitato di soggetti, ma gli importi sono mediamente elevati e generalmente sono gestiti off line. Come si è detto precedentemente, il giro d’affari più importante nei marketplaces virtuali è soprattutto condotta nel settore del business-to-business. Secondo la AMR Research il 29% delle transazioni commerciali avverrà attraverso Internet entro il 2004. Questo perché come eBay ha reso possibile ai collezionisti di incontrarsi in rete e scambiarsi gli oggetti più svariati, allo stesso modo i marketplaces del B2B renderanno più facile e conveniente per le aziende riunirsi e fare affari tra di loro. Gli e-marketplaces sono per certi aspetti un’evoluzione dell’EDI, solo che ora non sono più necessari i costosi software o hardware che il sistema richiedeva. Inoltre le aziende possono operare in tempo reale e ciò significa che le informazioni a disposizione sono aggiornate costantemente. Queste transazioni commerciali sono molto più economiche rispetto a quelle mediate dall’EDI. Le barriere all’entrata sono molto più basse, consentendo facilmente ad un ampio numero di compratori di raggiungere una vasta comunità di venditori e di ottenere il prezzo più basso. La possibilità di risparmiare denaro è una delle attrattive dell’e-commerce, ma la miglior efficienza nella catena di approvvigionamento è un altro importante fattore che spiega il boom dei B2B marketplaces, perché ciò significa maggior velocità nella vendita, rapido accesso a nuovi fornitori e acquirenti e una più veloce e facile entrata in nuovi mercati. 2 1 Il commercio elettronico Una forma particolare di e-commerce tra aziende è gestita da alcuni siti negli Stati Uniti, questi siti coordinano aste nel settore del B2B, ad esempio permettendo alle aziende di mettere all’asta il surplus di prodotti. 1.3 Il Business-to-consumer (B2C) Il Business-to-consumer (B2C) è il modello più noto di commercio elettronico e riguarda l’acquisto di beni e servizi da parte del consumatore finale. La sua espansione ha coinciso con la capillare diffusione di Internet negli uffici, nelle case e nelle scuole. Se da un lato questo nuovo media ha permesso ad aziende di tutto il mondo di entrare in contatto con consumatori altrimenti difficilmente raggiungibili, dall’altro, per i consumatori stessi, si è aperta la possibilità di avere accesso ad una offerta eccezionalmente ampia di prodotti, stando comodamente seduti davanti al proprio computer. Uno dei casi di maggior successo è quello di Amazon, una vera e propria libreria virtuale che mette a disposizione oltre 2.000.000 di titoli. Il cliente può trovare anche il libro più raro, beneficiando di sconti e della possibilità di farselo recapitare a casa anche in meno di 48 ore. Relativamente alle modalità di spedizione del prodotto, si può effettuate un’ulteriore distinzione tra commercio elettronico diretto e indiretto. Nel primo caso il prodotto acquistato è un bene fisico, ad esempio una stampante, quindi viene consegnato attraverso un corriere. Nel secondo invece, il bene è in formato digitale, come un software o un CD musicale, quindi può essere trasmesso direttamente via Internet. 1.4 Il Consumer-to-consumer (C2C) Il Consumer-to-consumer (C2C) è una forma più recente di commercio elettronico e sta diventando sempre più popolare grazie all’attivazione di numerosi siti che gestiscono aste on line. In questo caso il sito gestisce l’ambiente in cui gli utenti interagiscono e gli importi delle transazioni sono piuttosto contenuti, dato che di solito si scambia un sono articolo per volta. Le modalità di regolazione della transazione sono stabilite dal venditore e dall’acquirente. eBay è il sito che sta dominando il mercato in questo senso. Compratori e venditori si incontrano per prendere parte ad un’asta che può riguardare qualsiasi tipo di prodotto. eBay è una delle poche società leader in Internet che oltre ad essersi affermata come brand, ottiene anche un profitto economico. Fondata nel 1995, ha raggiunto uno dei migliori risultati nel settore delle aste ondine. La sede californiana ha catturato circa l’85% del mercato americano e ha sette siti in lingue differenti. Assieme ad Amazon è considerato uno dei barometri di borsa dell’e-commerce. La cosa eccezionale è che eBay genera un enorme profitto lasciando che i propri utenti facciano da soli gran parte del lavoro, quindi investendo un capitale molto limitato. Non deve tenere un inventario, spedire prodotti o trasferire pagamenti. Lascia che gli utenti discutano sul prezzo scrivendosi sul Web. Gran parte delle entrare deriva dalla percentuale sulle transazioni che percepisce di diritto. Se si è un venditore, si paga una tariffa d’inserzione che varia tra 0,05 e 1,00 Euro a seconda del prezzo di partenza, e una commissione sul prezzo di vendita finale. Questa tariffa di solito è compresa tra l’1,5% e il 5% del prezzo di vendita finale, quindi più è alto il valore dell’articolo, maggiore è il ricavo di eBay. 1.5 Il Consumer-to-business (C2B) Il Consumer-to-business (C2B) è un tipo di commercio elettronico nato solo recentemente e non ancora sviluppato come le tre forme viste precedentemente. In questa particolare forma, i consumatori stabiliscono il prezzo che sono disposti a pagare per un prodotto o servizio e allo stesso tempo le aziende possono accettare o rifiutare l’offerta. Ad esempio potenziali clienti propongono il prezzo per un volo aereo e la compagnia di volo può stabilire se accettare di concludere la transazione. Si tratta del processo inverso rispetto al B2C, in cui sono le aziende a stabilire i prezzi dei propri prodotti e servizi ai clienti. L’esempio più classico è quello del sito Priceline.com, che esordı̀ invitando i suoi clienti a proporre il costo del biglietto aereo che intendevano pagare. Il meccanismo funziona in questo modo: il potenziale cliente deposita presso il sito di Priceline una richiesta sulla destinazione, 1.6 I fattori chiave per avere successo nell’e-commerce 3 le date previste per il viaggio e quanto è disposto a spendere, inoltre deve garantire la richiesta con il numero della carta di credito; Priceline a questo punto agisce da intermediario e smista la richiesta alle linee aeree con cui è in contatto. Se una di loro è interessata a vendere quel viaggio, si conclude la transazione e Priceline ne ricava una percentuale. Il vantaggio non è solo per i consumatori che riescono a trovare prezzi vantaggiosi e assumono una posizione di potere nella transazione, ma anche per le compagnie aeree che hanno tutto l’interesse a riempire i loro voli, dato che ogni posto vuoto comporta una perdita. Successivamente l’offerta di Priceline si è ampliata, fornendo lo stesso tipo di servizio anche per stanze d’albergo e la vendita di automobili. In questa forma di e-commerce il ruolo dell’intermediario è tutt’altro che scomparso grazie ad Internet, che viene spesso accusato di essere il cannibale dei servizi di intermediazione, semplicemente assume una forma nuova (a questo proposito è stato coniato il termine “Infomediari”). 1.6 I fattori chiave per avere successo nell’e-commerce Per realizzare un’attività di commercio elettronico di successo sono necessari alcuni fattori chiave. Tra i principali ricordiamo: 1. Generazione di valore per il cliente. Il venditore può raggiungere questo obiettivo offrendo un prodotto o un assortimento in grado di attirare clienti potenziali a un prezzo competitivo come accade nel commercio tradizionale. 2. Offerta di servizi e prestazioni. L’offerta di un’esperienza di acquisto con un alto livello informativo e con un tono amichevole verso il cliente come se fossimo nel negozietto sotto casa può permettere di raggiungere questi traguardi. 3. Realizzare un sito Internet accattivante. Il corretto accostamento di colori, elementi grafici, animazione, fotografie, caratteri tipografici e un rapporto tra spazio della pagina e spazio occupato da testo e immagini può risultare determinante a tale riguardo. 4. Incentivare il cliente all’acquisto e successiva fidelizzazione. La politica commerciale in tal senso può comprendere buoni sconto, offerte speciali e varie tipologie di sconto. Può essere utile il ricorso anche a siti affiliati con la realizzazione di scambio di link come pure la realizzazione di campagne pubblicitarie comuni ad altri siti. 5. Rapporto personalizzato con la clientela. Siti internet che siano il più possibile personalizzabili dal cliente o tramite interfacce apposite, suggerimenti di acquisto e offerte speciali ad personam possono essere degli efficaci sostituti di un contatto diretto commesso-cliente come avviene nei negozi tradizionali. 6. . Organizzazione di un senso di comunità tra i visitatori. Chat, Gruppi di discussione su Internet, in modo da ricevere i suggerimenti dei visitatori, programmi di fidelizzazione e integrazioni commerciali con altri siti possono contribuire a rafforzare questo sentimento tra gli utenti. 7. Offrire affidabilità e sicurezza. Server in parallelo, ridondanza hardware, tecnologia a prova di errore, crittografia dei dati e firewall possono migliorare notevolmente questo aspetto. 8. Il rapporto con la clientela va visto in un’ottica a tutto campo, assicurandosi che tutti i dipendenti, i fornitori e i partner abbiano una visione unica e completa del cliente stesso. 9. Gestione di tutto il vissuto commerciale del cliente. I negozianti on-line sviluppano questo aspetto gestendo ogni contatto con il cliente come se fosse parte di un’esperienza, che a sua volta si identifica con il marchio. 10. Snellimento dei processi di business, se possibile attraverso una re-engineering e il ricorso all’information technology. 11. Progettare una filiera informatica, in cui ciascuno dei partecipanti si focalizza su un numero “limitato” di competenze sui prodotti o servizi offerti - ovvero l’opposto di un’attività generalista (i negozi on-line, a seconda di come sono stati programmati, possono sembrare generalisti o specializzati). 4 1 Il commercio elettronico 1.7 Problematiche del commercio elettronico Anche se un fornitore di beni e servizi di Commercio Elettronico seguisse in maniera rigorosa i sopracitati “fattori chiave” per realizzare una strategia di vendita on-line, possono tuttavia sorgere ugualmente delle difficoltà. Tra le principali citiamo: 1. Difetti di comprensione del comportamento della clientela, vale a dire come e perché acquistano un certo prodotto. Se i produttori e i venditori non sono in grado di cogliere le abitudini di acquisto dei consumatori, come pure le aspettative e le motivazioni, anche un prodotto blasonato o rinomato può non raggiungere i target di vendita prefissati. Il commercio elettronico potrebbe ovviare a tale potenziale inconveniente con ricerche di mercato più aggressive e mirate, simili a quelle intraprese dai canali di vendita tradizionali. 2. Mancanza di analisi dello scenario concorrenziale. È possibile disporre delle capacità tecniche per realizzare un’attività di vendita di libri on-line, ma potrebbe essere che manchi la volontà per competere con Amazon.com. 3. Incapacità di prevedere le reazioni nell’ambiente in cui opera l’impresa. Cosa faranno i concorrenti? Introdurranno marchi in concorrenza con il nostro o addirittura potrebbero realizzare dei siti web analoghi al nostro e farci concorrenza. Amplieranno i servizi offerti? Cercheranno di sabotare il sito di un concorrente? Scoppierà la guerra dei prezzi? Come reagirà il governo? Per attenuare queste possibili conseguenze è consigliabile analizzare la concorrenza, i settori industriali e i mercati coinvolti, proprio come si farebbe nel caso di un’attività tradizionale. 4. Sovrastima delle competenze aziendali. I dipendenti, il sistema hardware, i software adottati e i flussi di informazione tra questi soggetti, possono tutti insieme padroneggiare la strategia adottata? I negozianti on-line sono riusciti a formare adeguatamente i propri dipendenti e a sviluppare le competenze necessarie? Queste tematiche possono rendere necessarie una pianificazione delle risorse maggiormente dettagliata e una formazione dei dipendenti più estesa. 5. Mancanza di coordinazione. Se i controlli e la reportistica non bastano, è possibile cambiarli adottando una struttura organizzativa maggiormente flessibile, affidabile e lineare, anche se non è detto che questo cambiamento permetta di raggiungere un migliore coordinamento interno. 6. Incapacità nell’assicurarsi l’impegno dei vertici aziendali. Spesso la conseguenza principale si traduce nell’impossibilità di raggiungere un determinato obiettivo societario a causa delle scarse risorse allocate a quest’ultimo. Si consiglia di coinvolgere fin dall’inizio i vertici aziendali nella nuova avventura del commercio elettronico. 7. Incapacità nell’assicurarsi l’impegno da parte dei dipendenti. Se i progettisti non traducono in modo chiaro la loro strategia ai sottoposti, oppure non riescono a delineare loro l’intero quadro in cui si troveranno a operare, un possibile rimedio può essere quello di offrire un percorso di formazione dedicato, come pure di fissare uno schema di incentivi ai dipendenti. 8. Sottovalutazione dei tempi richiesti per il raggiungimento degli obiettivi aziendali. La realizzazione di un’impresa di e-commerce può richiedere un considerevole dispendio di tempo e danaro, e l’incapacità di comprendere la giusta sequenza dei processi imprenditoriali e la tempistica relativa a tali operazioni può portare a rilevanti aumenti dei costi, rispetto a quanto preventivato. È possibile ovviare a questi inconvenienti con dei tipici strumenti di gestione aziendale: benchmarks (indicatori dell’attività dei concorrenti presi a riferimento), traguardi interni di performance, analisi della variazione degli indicatori aziendali, istituzione di penalizzazioni per il conseguimento di performance negativa o, viceversa, ricompense per il raggiungimento di obiettivi aziendali, e, infine, misure per riallineare l’attività aziendale. 1.8 Il problema della sicurezza Una delle problematiche più sentite nel mondo dell’ e-commerce è indubbiamente la sicurezza nelle modalità di pagamento. Ad oggi, le modalità più diffuse sono il bonifico bancario, il contrassegno e il pagamento con la carta di credito, sicuramente più interessato da questo problema. Inizialmente, il trasferimento delle informazioni e dei dati personali tra venditore e cliente avveniva in chiaro. Questo costituiva un enorme problema per la sicurezza, in quanto i dati trasferiti erano suscettibili di essere intercettati e quindi 1.8 Il problema della sicurezza 5 utilizzati da terzi per operazioni al di fuori della pratica commerciale in atto. Oggi, questa pratica di trasferimento dei dati è stata abbandonata, a favore di pratiche più sicure che garantiscano una maggiore riservatezza delle informazioni personali e che quindi assicurino la bontà delle transazioni. In particolare, la maggior parte dei siti di e-commerce odierni utilizzano livelli di crittografia elevati quali, ad esempio il Transport Layer Security (SSL/TLS). L’abbinamento di questo protocollo al normale HTTP permette di ottenere un nuovo protocollo: l’HTTPS. Questi garantisce l’invio delle informazioni personali sottoforma di pacchetti criptati. In questo modo, la trasmissione delle informazioni avviene in maniera sicura, prevenendo intrusioni, manomissioni e falsificazioni dei messaggi da parte di terzi. Il protocollo HTTPS garantisce quindi tanto la trasmissione confidenziale dei dati, quanto la loro integrità. La maggior parte dei browser contraddistingue con un lucchetto i siti protetti. Ad oggi è sicuramente il sistema più usato, in quanto può essere supportato dai principali browser (Internet Explorer 3.01 e seguenti, Netscape Navigatror 4.01 e seguenti) e non necessita di alcun software specifico o password. Le pagine protette da questo protocollo sono facilmente riconoscibili, in quanto la scritta “https” precede l’indirizzo del sito protetto e le sue pagine vengono contrassegnate da un lucchetto, visualizzabile nella parte inferiore del proprio browser. Un secondo strumento è costrituito dal Secure Electronic Transaction (SET ). Questo protocollo nasce dalla collaborazione di Visa e MasterCard allo scopo di rendere più sicure le operazioni di pagamento online, garantendo una maggiore segretezza e autenticità dei dati. Per utilizzare questo protocollo è però necessario che il venditore disponga sul suo server di alcuni software e che il pc del compratore sia munito di un wallet e di un PIN, rilasciatogli dalla compagnia che ha emesso la sua carta di credito. La grande novità del protocollo SET consiste nel sistema di autenticazione del venditore e del compratore: i “contraenti” hanno, cioè, la possibilità di identificarsi con certezza prima che qualsiasi transazione abbia inizio. Questo avviene attraverso l’utilizzo di certificati digitali, che vengono rilasciati alle due parti dal proprio istituto bancario. In questo modo, l’acquirente può verificare l’identità del venditore, acquisendo cosı̀ una maggiore garanzia circa i beni o i servizi che riceverà e il venditore può verificare a sua volta l’identità del compratore, acquisendo maggiori garanzie circa il pagamento. Affinché, quindi, il commercio elettronico possa svilupparsi è necessario che gli utenti (l’acquirente da un lato, il venditore dall’altro) possano svolgere le loro transazioni serenamente, senza temere intromissioni esterne. In questo senso, assume molta importanza la procedura di “autenticazione dell’utente”. Generalmente, questa procedura avviene tramite la richiesta da parte del server di uno username al quale è associata una password. Tuttavia, è stato dimostrato che questo sistema non può essere considerato del tutto sicuro, in quanto i tempi di individuazione della password da parte di terzi vanno sempre più riducendosi. Per questo motivo, oggi, viene sempre più consigliato all’utente il cambio periodico della propria password. Questo avviene soprattutto per i sistemi di home banking che prevedono che i propri utenti cambino obbligatoriamente la password con una cadenza fissa o che facciano uso di una password “usa e getta” (one-time password) che viene sostituita ogni volta che si accede a un servizio. Sebbene, la disciplina riguardante il commercio elettronico sia volta soprattutto alla tutela del consumatore, non bisogna dimenticare l’equivalente diritto del venditore a operare sul mercato online in maniera serena. Una delle principali problematiche che interessa colui che decide di offrire un bene o un servizio online è sicuramente il non ripudio da parte dell’acquirente. In questa direzione opera l’utilizzo della firma digitale che fa sı̀ che un contratto firmato digitalmente non possa essere disconosciuto da coloro che l’hanno sottoscritto. Inizialmente il trasferimento dei dati tra il sito di e-commerce e il cliente avveniva in chiaro. Questo costituiva un possibile problema di sicurezza, soprattutto quando c’era un pagamento con carta di credito. Con l’avvento del Secure socket layer questo rischio è stato ridotto, ma sono poi comparsi altri problemi quale il Phishing e la comparsa di virus troiani che cercano di rubare informazioni utilizzabili per finalità losche. Con la diffusione dell’e-commerce si sono diffuse truffe sempre più insidiose che colpiscono principalmente gli acquirenti. I principali casi sono: Vendita di prodotti da siti civetta: al ricevimento del pagamento non viene inviata la merce, o viene solamente simulata la spedizione. Problema presente anche su ebay con inserzioni truffa. Realizzazione di siti clonati con la finalità di rubare informazioni quali il codice della carta di credito. Aziende fallimentari che accumulano ordini, e introiti, senza la possibilità di evaderli. La normativa italiana prevede che tutti i siti di commercio elettronico riportino nella home page la partita IVA e la denominazione dell’azienda. I siti più importanti di e-commerce hanno un certificato 6 1 Il commercio elettronico digitale che consente di verificare l’autenticità del sito visitato. Il principale problema dal punto di vista delle aziende è la gestione degli ordini simulati, dove vengono indicate generalità false o non corrette per l’invio dei prodotti. Per ridurre il problema molte aziende accettano solamente pagamenti anticipati. 2 L’estrazione di Regole Associative 2.1 Introduzione al Mining di Regole Associative Il Mining di Regole Associative ha lo scopo di individuare associazioni, o relazioni di correlazione, interessanti in un grosso insieme di dati. A causa della quantità enorme di dati che continuamente vengono collezionati e memorizzati, molte industrie stanno cominciando ad interessarsi all’estrazione di regole associative dalle loro basi di dati. La scoperta di regole associative interessanti da enormi quantità di dati può aiutare in molti processi decisionali, quali la progettazione dei cataloghi, le vendite incrociate, ecc. Un tipico esempio di mining di regole associative è la Market Basket Analysis. Questo processo analizza le abitudini di acquisto dei clienti trovando associazioni tra i diversi prodotti che essi mettono nel loro carrello. La scoperta di tali associazioni può aiutare i venditori a sviluppare strategie di marketing considerando quali prodotti vengono comprati frequentemente insieme dai clienti. Per esempio, un tipico problema di Market Basket Analysis potrebbe essere il seguente: se i clienti stanno comprando latte, con quale probabilità essi compreranno anche pane (e che tipo di pane) durante la stessa spesa nel supermercato? Tale informazione può portare ad un aumento delle vendite aiutando i venditori sia a definire politiche di marketing mirate che a posizionare in modo opportuno la propria merce negli scaffali. La Market Basket Analysis sarà proprio il caso d’uso che ci guiderà nello studio delle Regole Associative. Nella prossima sezione esamineremo più dettagliatamente tale problematica. 2.2 Market Basket Analysis Si supponga di essere un manager di un negozio di prodotti elettronici e di voler conoscere meglio le abitudini di acquisto dei clienti. Più specificatamente, si vorrebbe sapere quali gruppi o insiemi di prodotti è probabile che i clienti comprino insieme durante una visita al negozio. Per rispondere a tale domanda, è possibile eseguire la Market Basket Analysis sui dati delle transazioni relative agli acquisti dei clienti nel negozio. Questi risultati possono essere utilizzati per pianificare le strategie di marketing o le strategie pubblicitarie, come pure per la progettazione dei cataloghi. Per esempio, la Market Basket Analysis può supportare i manager nella progettazione della disposizione dei prodotti nel negozio. Per quel che riguarda tale problematica esistono svariate strategie, molto spesso diametralmente opposte. Una prima strategia prevede che i prodotti frequentemente comprati insieme possano essere posizionati in stretta vicinanza, al fine di incoraggiare la vendita contemporanea degli stessi. Se i clienti che comprano computer tendono anche a comprare contemporaneamente software di gestione finanziaria, allora inserire il reparto hardware vicino al reparto software può aiutare ad incrementare le vendite di entrambi questi prodotti. Una strategia alternativa prevede di posizionare i prodotti acquistati frequentemente insieme ad estremi opposti del negozio per stimolare i clienti che comprano tali prodotti di comprare altri prodotti lungo la strada. Per esempio, dopo aver deciso l’acquisto di un computer costoso, un cliente può 8 2 L’estrazione di Regole Associative osservare sistemi di sicurezza in vendita mentre cerca il reparto software per comprare il software di gestione aziendale e può decidere di comprare anche un sistema di sicurezza per la casa. La Market Basket Analysis può anche aiutare i venditori a pianificare quali prodotti mettere in vendita a prezzi ridotti. Se i clienti tendono a comprare computer e stampanti insieme, allora avere uno sconto sui computer può incoraggiare la vendita sia dei computer che delle stampanti. Se il nostro universo di riferimento è costituito dall’insieme di prodotti disponibili nel magazzino, allora ciascun prodotto può essere rappresentato mediante una variabile booleana che rappresenta la sua presenza o la sua assenza dal carrello della spesa. Ciascun basket può, quindi, essere rappresentato mediante un vettore booleano di valori assegnati alle variabili associate ai prodotti. I vettori booleani possono essere analizzati per individuare pattern sugli acquisti che indicano i prodotti che vengono frequentemente comprati insieme. Tali pattern possono essere rappresentati sotto forma di Regole Associative. Per esempio, l’informazione che i clienti che comprano computer tendono anche a comprare contemporaneamente software di gestione finanziaria è rappresentata dalla seguente regola associativa: computer ⇒ financial management software [supporto = 2%, confidenza = 60%] Il supporto e la confidenza di una regola sono due misure del suo interesse. Essi riflettono, rispettivamente, l’utilità e la certezza delle regole scoperte. Un supporto del 2% per la regola associativa precedente indica che il 2% di tutte le transazioni sotto analisi registrano l’acquisto di un computer e, contemporaneamente, di un software di gestione finanziaria. Una confidenza del 60% indica che il 60% dei clienti che hanno comprato un computer hanno comprato anche un software di gestione finanziaria. Tipicamente le regole associative sono considerate interessanti se soddisfano tanto una soglia di supporto minimo che una soglia di confidenza minima. Tali soglie possono essere determinate dagli utenti stessi oppure da esperti del dominio applicativo. 2.3 Concetti di base Sia I = {i1 , i2 , . . . , im } un insieme di prodotti. Sia D un insieme di transazioni, dove ciascuna transazione T è un insieme di prodotti tali che T ⊆ I. Ciascuna transazione ha associato un identificatore, denominato TID. Sia A un insieme di prodotti. Si dice che una transazione T contiene A se e solo se A ⊆ T . Una regola associativa è un’implicazione della forma A ⇒ B, dove A ⊂ I, B ⊂ I e A ∩ B = ∅. La regola A ⇒ B vale nell’insieme di transazioni D con supporto s, dove s è la percentuale di transazioni in D che contiene A ∪ B. La regola A ⇒ B ha confidenza c nell’insieme di transazioni D se c è la percentuale di transazioni in D che, contenendo A, contengono anche B. In altre parole: supporto(A ⇒ B) = P rob(A ∪ B) conf idenza(A ⇒ B) = P rob(B|A) Le regole che soddisfano sia una soglia minima di supporto (min sup) che una soglia minima di confidenza (min conf) sono dette forti. Un insieme di prodotti è denominato itemset. Un itemset che contiene k item è un k-itemset. Ad esempio, l’insieme { computer, financial management software } è un 2-itemset. La frequenza di occorrenza di un itemset è il numero di transazioni che contengono l’itemset. Tale numero è noto, anche, come frequenza, support count o, semplicemente, count dell’itemset. Un itemset soddisfa il supporto minimo se la frequenza di occorrenza dell’itemset è maggiore o uguale al prodotto di min sup per il numero totale di transazioni in D. Il numero di transazioni richieste all’itemset per soddisfare il supporto minimo è denominato minimum support count. Se un itemset soddisfa il supporto minimo, allora è detto itemset frequente. L’insieme di k-itemset frequenti è comunemente denotato con Lk . Il mining di regole associative consiste nei seguenti passi: 2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori 9 1. Ricerca di tutti gli itemset frequenti; per definizione, la frequenza di ciascuno di questi itemset sarà maggiore o uguale al minimum support count. 2. Generazione di regole associative forti a partire dagli itemset frequenti; per definizione, tali regole devono avere un supporto e una confidenza superiori ad opportune soglie. Qualora se ne ravvisi la necessità è possibile utilizzare ulteriori misure di interesse. Il secondo passo è il più facile dei due; pertanto, di fatto, la performance complessiva del processo di Mining di regole associative è determinata dal primo passo. 2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori Apriori è un algoritmo molto famoso pensato per estrarre itemset frequenti per regole associative booleane. Esso è stato proposto nel 1994 da Agrawal e Srikant. Il nome dell’algoritmo è basato sul fatto che esso, in ogni passo, utilizza la conoscenza acquisita durante i passi precedenti. Apriori adotta un approccio iterativo noto come level-wise search; tale approccio prevede che i k-itemset vengono utilizzati per esplorare i (k + 1)-itemset. Innanzitutto viene individuato l’insieme di 1−itemset frequenti; ciò avviene scorrendo il database, contando quante volte appare ciascun prodotto e collezionando quei prodotti che soddisfano il supporto minimo. Questo insieme è denotato con L1 . L1 viene utilizzato per trovare L2 , ovvero l’insieme dei 2−itemset frequenti; questo, a sua volta, viene utilizato per trovare L3 , e cosı̀ via, fino a quando non possono essere più trovati k−itemset frequenti. La ricerca di ciascun L k richiede una scansione completa del database. Per migliorare l’efficienza della generazione level-wise di itemset frequenti, viene utilizzata la seguente, importante, proprietà, denominata, proprietà Apriori: Tutti i sottoinsiemi non vuoti di un itemset frequente devono anche essere frequenti. Come vedremo, grazie a tale proprietà, è possibile ridurre facilmente e notevolmente lo spazio di ricerca. Questa proprietà è basata sulla seguente osservazione. Per definizione, se un itemset I non soddisfa la soglia di supporto minima, min sup, allora I non è frequente, cioè P (I) < min sup. Se un prodotto A viene aggiunto all’itemset I, allora l’itemset risultante (cioè, I ∪ A) non può essere più frequente di I. Pertanto, I ∪ A sicuramente non sarà frequente, ovvero P (I ∪ A) < min sup. Questa proprietà appartiene ad una categoria speciale di proprietà denominate proprietà antimonotone; esse, in genere, ci dicono che se un insieme non può superare un test, anche tutti i suoi sovrainsiemi falliranno anche sullo stesso test. Il termine “anti-monotona” deriva dal fatto che la proprietà è monotona nel far fallire un test. 2.4.1 Estrazione degli itemset frequenti Come viene utilizzata la proprietà Apriori nel contesto dell’algoritmo? Per comprendere ciò, dobbiamo esaminare come viene utilizzato Lk−1 per costruire Lk . A tal fine viene adottato un processo a due passi, che consiste in azioni di join e di prune. Passo di join. Per costruire Lk viene generato un insieme di k-itemset candidati, effettuando il join di Lk−1 con se stesso; in questa attività i membri di Lk−1 vengono posti in join se hanno (k − 2) prodotti in comune; più formalmente, si avrà che: Lk = {A 1 B|A, B ∈ Lk−1 , |A ∩ B| = k − 2} L’insieme di k-itemset candidati cosı̀ ottenuto viene indicato con Ck . Passo di prune. Ck è un sovrainsieme di Lk ; infatti, i suoi membri possono essere o non essere frequenti ma, sicuramente, tutti i k-itemset frequenti sono inclusi in C k . A questo punto è necessario esaminare il database per contare ciascun candidato in Ck ; quelli il cui conteggio non è minore di una certa soglia sono, per definizione, frequenti e, pertanto, appartengono ad L k . 10 2 L’estrazione di Regole Associative Ck , tuttavia, può essere enorme e, pertanto, potrebbe richiedere dei calcoli pesanti. Al fine di ridurre la dimensione di Ck viene opportunamente utilizzata la proprietà Apriori. Più specificatamente, ciascun (k-1)-itemset che non risulta essere frequente non può essere un sottoinsieme di un k-itemset frequente. Pertanto, se qualcuno dei (k-1)-sottoinsiemi di un k-itemset candidato non è in Lk−1 , allora il candidato non può essere frequente e può essere rimosso da C k . È opportuno evidenziare che questo testing dei sottoinsiemi può essere effettuato velocemente mantenendo un hash tree di tutti gli itemset frequenti. Esempio Esaminiamo un esempio concreto di Apriori, basandoci su un database D di transazioni relativo a prodotti di elettronica; tale database è illustrato nella Tabella 2.1. In esso vi sono nove transazioni; pertanto, |D| = 9. TID T100 T200 T300 T400 T500 T600 T700 T800 T900 Lista degli ID degli item I1, I2, I5 I2, I4 I2, I3 I1, I2, I4 I1, I3 I2, I3 I1, I3 I1, I2, I3, I5 I1, I2, I3 Tabella 2.1. Dati transazionali relativi alla realtà di interesse Durante la prima iterazione dell’algoritmo ciascun prodotto è un membro dell’insieme C 1 degli itemset candidati. L’algoritmo, semplicemente, scansiona tutte le transazioni al fine di contare il numero di occorrenze di ciascun prodotto (Tabella 2.2). Itemset {I1} {I2} {I3} {I4} {I5} Support Count 6 7 6 2 2 Tabella 2.2. Insieme C1 Si supponga che il minimum support count richiesto è 2 (ovvero, min sup = 2/9 = 0.22). A questo punto è possibile determinare gli 1-itemset frequenti, come quegli 1-itemset candidati che hanno un support count maggiore o uguale al minimum support count (Tabella 2.3). Itemset {I1} {I2} {I3} {I4} {I5} Support Count 6 7 6 2 2 Tabella 2.3. Insieme L1 2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori 11 Per individuare l’insieme L2 dei 2-itemset frequenti, l’algoritmo effettua la join di L1 con se stesso, secondo le regole precedentemente specificate, e genera un insieme candidato C 2 di 2-itemset. A questo punto, l’algoritmo esamina le transazioni in D e calcola il support count di ciascun itemset in C2 (Tabella 2.4). Itemset {I1, I2} {I1, I3} {I1, I4} {I1, I5} {I2, I3} {I2, I4} {I2, I5} {I3, I4} {I3, I5} {I4, I5} Support Count 4 4 1 2 4 2 2 0 1 0 Tabella 2.4. Insieme C2 Viene, quindi, determinato l’insieme L2 dei 2-itemset frequenti; esso comprende i 2-itemset candidati in C2 che hanno un support count maggiore o uguale a quello minimo (Tabella ??). Itemset {I1, I2} {I1, I3} {I1, I5} {I2, I3} {I2, I4} {I2, I5} Support Count 4 4 2 4 2 2 Tabella 2.5. Insieme L2 Viene, quindi, generato l’insieme C3 dei 3-itemset candidati; tale generazione avviene effettuando la join di L2 con se stesso secondo le regole precedentemente specificate; al termine di tale attività si avrà: C3 = L 2 1 L 2 = {{I1, I2, I3}, {I1, I2, I4}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}} Basandosi sulla proprietà Apriori secondo cui tutti i sottoinsiemi di un itemset frequente devono essere frequenti, è possibile determinare facilmente che gli ultimi cinque candidati non possono essere frequenti. Infatti: – I sottoinsiemi di {I1, I2, I3} sono {I1, I2}, {I1, I3} e {I2, I3}; tutti questi sono sottoinsiemi di L2 ; pertanto, {I1 , I2 , I3 } viene lasciato in C3 . – I sottoinsiemi di {I1, I2, I4} sono {I1, I2}, {I1, I4} e {I2, I4}; {I2, I4} non è un membro di L2 e, pertanto, non è frequente; di conseguenza, {I1 , I2 , I4 } viene rimosso da C3 . – I sottoinsiemi di {I1, I2, I5} sono {I1, I2}, {I1, I5} e {I2, I5}; tutti questi sono sottoinsiemi di L2 ; pertanto {I1, I2, I5} viene lasciato in C3 . – I sottoinsiemi di {I1, I3, I5} sono {I1, I3}, {I1, I5} e {I3, I5}; {I3, I5} non è un membro di L2 e, pertanto, non è frequente; di conseguenza, {I1, I3, I5} viene rimosso da C 3 . – I sottoinsiemi di {I2, I3, I4} sono {I2, I3}, {I2, I4} e {I3, I4}; {I3, I4} non è un membro di L2 e, pertanto, non è frequente; di conseguenza, {I2, I3, I4} viene rimosso da C 3 . – I sottoinsiemi di {I2, I3, I5} sono {I2, I3}, {I2, I5} e {I3, I5}; {I3, I5} non è un membro di L2 e, pertanto, non è frequente; di conseguenza, {I2, I3, I5} viene rimosso da C 3 . 12 2 L’estrazione di Regole Associative I sottoinsiemi di {I2, I4, I5} sono {I2, I4}, {I2, I5} e {I4, I5}; {I4, I5} non è un membro di L2 e, pertanto, non è frequente; di conseguenza, {I2, I4, I5} viene rimosso da C 3 . Pertanto possiamo rimuovere gli ultimi cinque insiemi da C3, risparmiandoci lo sforzo di ottenere inutilmente i loro conteggi durante la successiva scansione di D per determinare L 3 . Si noti che, quando si esamina un dato k-itemset, è necessario verificare soltanto se i suoi (k-1) itemset sono frequenti, dal momento che l’algoritmo Apriori utilizza la strategia level-wise search. A questo punto vengono esaminate le transazioni in D al fine di determinare L 3 ; quest’ultimo è composto da quei 3-itemset candidati in C3 che hanno un support count maggiore di quello minimo (Tabella 2.6). – Itemset Support Count {I1, I2, I3} 2 {I1, I2, I5} 2 Tabella 2.6. Insieme L3 L’algoritmo effettua la join di L3 con se stesso, secondo le regole precedentemente specificate, per generare un insieme candidato C4 di 4-itemset. Sebbene l’operazione di join restituisce {{I1, I2, I3, I5}}, questo itemset viene eliminato dal momento che il sottoinsieme {I2, I3, I5} non è frequente. Pertanto C4 = ∅ e l’algoritmo termina, avendo individuato tutti i possibili itemset frequenti. 2 2.4.2 Generazione di regole associative dagli itemset frequenti Una volta individuati gli itemset frequenti dalle transazioni di un database D, è immediato generare regole associative forti da essi (si ricordi che, per regole associative forti, intendiamo regole che soddisfano sia il supporto minimo che la confidenza minima). Per calcolare la confidenza si utilizza la seguente formula, in cui la probabilità condizionale viene espressa in termini di support count associato agli itemset: conf idenza(A ⇒ B) = P rob(B|A) = support count(A∪B) support count(A) dove support count(A ∪ B) è il numero di transazioni che contengono l’unione degli itemset A e B, mentre support count(A) è il numero di transazioni che contengono l’itemset A. Basandosi su tale equazione, le regole associative possono essere generate nel seguente modo: Per ciascun itemset frequente, l, vengono generati tutti i sottoinsiemi non vuoti di l; Per ciascun sottoinsieme non vuoto s di l, viene restituita la regola: s ⇒ (l − s) se support count(l) support count(s) ≥ min conf , dove min conf è la minima soglia di confidenza accettabile. Dal momento che le regole vengono generate da itemset frequenti, ciascuna di esse soddisfa automaticamente il supporto minimo. Gli itemset frequenti possono essere memorizzati in tabelle hash, insieme con i loro contatori, in modo tale che possano essere acceduti velocemente. Esempio Consideriamo i dati transazionali visti precedentemente. Si supponga che i dati contengono l’itemset frequente l = {I1, I2, I5}. Quali sono le regole associative che possono essere generate da l? I sottoinsiemi non vuoti di l sono {I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2} e {I5}. Le regole associative risultanti, ciascuna con la corrispondente confidenza, sono le seguenti: I1 ∧ I2 ⇒ I5 con confidenza = 2/4 = 50% 2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori I1 ∧ I5 ⇒ I2 I2 ∧ I5 ⇒ I1 I1 ⇒ I2 ∧ I5 I2 ⇒ I1 ∧ I5 I5 ⇒ I1 ∧ I2 con con con con con confidenza confidenza confidenza confidenza confidenza = = = = = 13 2/2 = 100% 2/2 = 100% 2/6 = 33% 2/7 = 29% 2/2 = 100% Se la soglia di confidenza minima è pari al 70%, allora soltanto la seconda, la terza e l’ultima delle regole precedenti vengono restituite, dal momento che soltanto esse risultano essere forti. 2 3 I Recommender System 3.1 Introduzione I recommender system costituiscono un’importante area di ricerca sin dalla metà degli anni Novanta. I recommender system sono dei sistemi di supporto alle decisioni utilizzati (in misura sempre maggiore) dai moderni siti di e-commerce. In particolare, molti siti di e-commerce quali ad esempio Amazon, sono capaci di generare delle “recommendations”, cioè dei suggerimenti per guidare l’utente nei suoi acquisti on line. Un esempio molto semplice di raccomandazione on line è il seguente: consideriamo un utente che, nel corso della sua interazione con un sito di e-commerce, abbia espresso, in forma esplicita oppure implicita, preferenze per i libri di un autore di libri gialli. Dopo aver acquisito tali preferenze, il recommender system assegnerà quell’utente a un gruppo di altri utenti che hanno mostrato di gradire gli stessi oggetti (i e, successivamente, suggerirà, allo stesso utente, di acquistare quei libri che, in media, gli utenti del gruppo a cui è stato assegnato hanno poi effettivamente acquistato (ad esempio altri libri gialli ma di autori diversi). In futuro, è ragionevole assumere che i siti Web che offriranno servizi di questo tipo si moltiplicheranno sempre di più. Probabilmente nascerà un nuovo modello di business on line fondato su uno dei più antichi bisogni dell’uomo, ovvero quello di ricevere consigli e suggerimenti. In questo capitolo verrà proposta un’analisi dettagliata dei recommender system esistenti e verrà fornita una loro classificazione. 3.2 Concetti generali I recommender system sono emersi come area di ricerca indipendente a metà degli anni 90 quando i ricercatori si concentrarono su problemi di recommendation che, in maniera esplicita, tenevano conto delle valutazioni (rating) fornite dagli utenti. Nella sua formulazione più comune, il problema della raccomandazione è ricondotto al problema di stimare i rating per degli oggetti che non sono mai stati valutati dall’utente. Intuitivamente, questa stima è generalmente basata sui rating che l’utente attribuisce ad altri oggetti (item) oppure su altre informazioni. Una volta che è stato possibile stimare i rating per gli oggetti non ancora valutati, sarà possibile suggerire all’utente l’item (o gli item) dotati del più elevato rating stimato. In maniera più formale, il problema del recommendation può essere formulato come segue: Sia C l’insieme di tutti gli utenti di un sito di e-commerce e sia S l’insieme di tutti i possibili item che possono essere suggeriti (ad esempio libri o film). Lo spazio S degli item possibili può essere estremamente vasto e, nei casi pratici, può variare da centinaia di migliaia a milioni di oggetti. In modo analogo, lo spazio degli utenti può essere estrememente vasto e può comprendere in alcuni casi anche milioni di utenti. Sia u una funzione di utilità che misura l’utilità di un item s per un utente c. In altre parole, sia u : C × S ← R, dove R è un insieme totalmente ordinato (ad esempio R potrebbe essere l’insieme dei numeri interi non negativi oppure l’insieme dei numeri reali appartenenti a un certo intervallo). Dunque, per ciascun utente c ∈ C, il nostro obiettivo è scegliere gli item s 0 ∈ S che massimizzano la funzione di utilità u. 16 3 I Recommender System In maniera più formale: ∀c ∈ C s0c = arg max u(c, s) s∈S (3.1) Nei recommender system, l’utilità di un item è tipicamente rappresentata da un rating, ovvero un coefficiente numerico che specifica quanto un particolare oggetto è gradito a un certo utente: ad esempio un utente come Marco Rossi potrebbe dare 7 punti (su 10) al film “Harry Potter” per esprimere il suo gradimento del film. Ciascun elemento dello spazio C può essere definito mediante un profilo che include varie caratteristiche come l’età, il sesso, il reddito annuale, lo stato civile e cosi via. Nel caso più semplice il profilo può contenere anche un solo elemento (ad esempio, nel caso di applicazioni Web il profilo di un utente potrebbe coincidere con il suo nickname). In modo analogo, ciascun elemento dello spazio S è definito da un insieme di caratteristiche. Ad esempio, nel contesto di un applicazione che suggerisce film ai propri utenti, ciascun film potrebbe essere identificato da un codice, un titolo, un genere, il regista, l’anno di produzione, l’attore protagonista e cosi via. Il problema centrale nei recommender system deriva dal fatto che la funzione di utilità non è definita sull’intero spazio C × S, ma solo su un sottoinsieme di questo spazio. Ciò significa che u deve essere estrapolato all’intero spazio C × S. Nei recommender system, l’utilità è tipicamente rappresentata mediante dei rating ed è inizialmente definita solo sugli oggetti che sono stati in passato valutati dagli utenti. Ad esempio, nel contesto di un sistema di raccomandazione dei film, possiamo assumere che ciascun utente, inizialmente, attribuisca un punteggio solo ai film che ha visto. I rating degli utenti ai film possono essere convenientemente rappresentati mediante una matrice (detta user-item matrix); un esempio di user-item matrix è riportato nella Tabella 3.1. Utente-Film Harry Potter Memento Kill Bill Notorius Marco ∅ ∅ ∅ 4 Anna 2 ∅ ∅ 3 Luisa ∅ 1 5 ∅ Carlo ∅ ∅ 4 ∅ Francesca 3 3 2 ∅ Tabella 3.1. Un esempio di matrice user-item. In questa tabella, gli utenti attribuiscono un punteggio compreso tra 1 e 5 per i film che hanno visto mentre il simbolo ∅ indica che l’utente non ha ancora visto il film. Pertanto, l’obiettivo di un algoritmo di un recommender system è quello di stimare (o predire) i rating dei film che non sono stati valutati. L’attività di estrapolare rating sconosciuti a partire da rating conosciuti avviene tipicamente in due fasi: Ipotizzare che la funzione di utilità abbia una certa forma (ad esempio la funzione di utilità potrebbe essere una funzione lineare). Stimare i parametri della funzione di utilità in modo da ottimizzare certi parametri (ad esempio minimizzare l’errore quadratico medio). Dopo aver stimato i rating sconosciuti, il sistema associa a ciascun item un potenziale rating e estrae gli N oggetti che hanno rating più alto. Questi item verranno infine proposti agli utenti come oggetti potenzialmente rilevanti alle sue esigenze. Esistono numerose tecniche per stimare i rating di item che non sono stati valutati esplicitamente dagli utenti. Queste tecniche sono state mutuate dall’Intelligenza Artificiale e dall’approximation theory. I recommender systems sono generalmente classificati in rapporto al loro approccio per la stima dei rating e, nelle sezioni successive, presenteremo le classificazione proposta in letteratura. I recommender system sono generalmente classificati nelle seguenti categorie: Content Based. Gli oggetti saranno suggeriti in base alla loro similarità ad altri oggetti che l’utente ha in passato mostrato di gradire. 3.3 I metodi Content Based 17 Collaborative Filtering. Un utente riceverà dei suggerimenti su degli oggetti che sono graditi ad altri utenti che presentano gusti simili ai suoi. Approcci Ibridi. Questi approcci mescolano caratteristiche delle tecniche content-based e collaborative filtering. In aggiunta ai recommender system che predicono il valore assoluto di un rating che gli utenti attribuirebbero individualmente agli oggetti non valutati, sono stati prodotti degli importanti contributi nel settore del preference-based filtering, vale a dire nel predire il valore relativo delle preferenze di un utente. Sistemi di questo tipo, applicati all’esempio precedente, ci permettono di dire che l’utente Francesca preferisce il film Memento al film Kill Bill ma non ci dicono se Memento è effettivamente piaciuto a Francesca. Nel seguito forniremo una descrizione dettagliata dei sistemi Content-Based e Collaborative Filtering. 3.3 I metodi Content Based 3.3.1 Caratteristiche Generali Nei metodi content based, l’utilità u(c, s) di un oggetto s per l’utente c è stimata in base alle utilità u(c, si ) assegnate dall’utente c agli oggetti si ∈ S che sono “simili” all’oggetto s. Ad esempio, in un’applicazione di raccomandazione dei film, al fine di suggerire dei film all’utente c il sistema content-based cerca di identificare gli “elementi comuni” tra i film a cui c ha attribuito un punteggio elevato nel passato e i film da valutare. Ad esempio se un film ha per autore un regista che ha diretto film che a c sono piaciuti, il film riceverà un punteggio elevato. Il film che hanno un elevato grado di similarità con i film che sono piaciuti a c saranno suggeriti a c. L’approccio content-based ha le sue radici nell’information retrieval e nell’information filtering. A causa dei significativi risultati ottenuti nel settore dell’information retrieval e a causa della diffusione di applicazioni di tipo testuale, molti sistemi content-based sono specializzati per suggerire item che contengono informazioni di tipo testuale come ad esempio documenti, siti Web, e notizie. Il miglioramento rispetto ai sistemi di information retrieval classici deriva dall’utilizzo di profili utente che contengono informazioni sui gusti, le preferenze e i bisogni degli utenti. L’attività di costruzione del profilo può avvenire in modo esplicito, vale a dire somministrando dei questionari agli utenti o implicita, ovvero monitorando il loro comportamento nel tempo e identificando, grazie a questo monitoraggio, i loro gusti. In modo più formale, supponiamo che Content(s) sia il profilo di un item, ovvero sia un insieme di attributi che caratterizzano s. Il profilo di un item viene generalmente calcolato analizzando s ed estraendo un insieme di caratteristiche (dette feature) che lo descrivono. Il profilo dell’item s verrà utilizzato per determinare l’aderenza dell’item alle preferenze di un utente. In generale, il profilo di un item è espresso da una sequenza di parole dette keywords. Ad esempio, in alcuni sistemi di suggerimento delle pagine Web quali Syskill&Webert, una pagina Web è rappresentata mediante le 128 parole più caratterizzanti che appaiono nella pagina stessa. Al fine di estrarre le keyword che descrivono un item sono state proposte numerose tecniche. Una delle tecniche più largamente impiegate fa uso di una parametro detto term frequency/inverse document frequency o anche TF/IDF. Per definire questo parametro, supponiamo che N sia il numero totale di documenti che possono essere suggeriti a un utente (ad esempio pagine Web) e si supponga che la keyword kj appaia in ni documenti. Ad esempio, la collezione di pagine da suggerire potrebbe essere una sequenza di N = 100 pagine che hanno per oggetto la Borsa; una possibile keyword k i potrebbe essere “obbligazione” e, infine, se la parola “obbligazione” appare in 35 pagine Web avremo che ni = 35. Infine, si assuma che la keyword ki appaia fij volte nel documento dj . In questo caso, la term frequency T Fij di ki in dj è definita come: T Fij = fij maxz fzj (3.2) Il termine maxz fzj indica la frequenza della keyword kz che è più frequente in dj e viene introdotta per normalizzare a 1 il term frequency. Tuttavia, le keyword che appaiono in molti documenti non sono utili a distinguere i documenti rilevanti da quelli non rilevanti. Pertanto, viene introdotto un 18 3 I Recommender System parametro detto inverse document frequency (indicato con IDFi ) per ridurre il contributo delle parole che appaiono in un numero elevato di documenti. L’inverse document frequency viene generalmente definito come segue: IDFi = log N ni (3.3) Da ciò consegue che il peso TF-IDF associato a una keyword ki nel documento dj è definito come: wij = T Fij × IDFi (3.4) mentre il contenuto del documento di è definito come: Content(dj ) = (w1j , . . . , wkj ) (3.5) Come detto in precedenza, i recommender system di tipo content-based suggeriscono all’utente degli oggetti simili a quelli che sono piaciuti all’utente nel passato. In particolare, in presenza di più oggetti candidati ad essere suggeriti all’utente, una tecnica content based confronta ciascun candidato con gli oggetti che l’utente ha già valutato nel passato e classificato come oggetti graditi; gli oggetti che mostrano il più elevato grado di somiglianza verranno poi suggeriti all’utente. In maniera più formale, sia ContentBasedP rof ile(c) il profilo di c che memorizza i gusti e le preferenze di c. I profili sono ottenuti analizzando il contenuto degli oggetti precedentemente esaminati e valutati dall’utente; i profili sono generalmente costruiti usando le tecniche di estrazione delle keyword definite nell’ambito dell’Information Retrieval. Ad esempio, ContentBasedP rof ile(c) potrebbe essere definito come un vettore di pesi del tipo (wc1 , . . . , wck ) dove ciascun peso wci indica la rilevanza delal keyword ki per l’utente c e può essere calcolato usando diverse tecniche. Ad esempio alcuni approcci usano l’algoritmo di Rocchio mentre altri approcci fanno uso di classificatori bayesiani. Un ulteriore categoria di approcci usa l’algoritmo di Winnow. Nei sistemi content based la funzione di utilità u(c, s) è generalmente definita come: u(c, s) = score(ContentBasedP rof ile(c), Content(s)) (3.6) Si osservi che sia il profilo dell’utente ContentBasedP rof ile(c) che il profilo Content(s) del docu→e− →. Inoltre, gli approcci tradizionali mento s possono essere rappresentati mediante due vettori − w w c s dell’Information Retrieval modellano la funzione u(c, s) pplicando la nozione di coseno-similarità: − →·− → w c ws →, − →) = u(c, s) = cos(− w w c s →|| × ||− →|| ||− w w c s (3.7) Accanto alle tecniche basate sull’Information Retrieval, esistono tecniche basate sul Data Mining e la Statistica quali i classificatori Bayesiani e numerose applicazioni delle tecniche di machine learning quali clustering, alberi di decisione e reti neurali. Queste tecniche non applicano formule euristiche per predire l’utilità di un oggetto per un utente ma si basano su un modello costruito mediante tecniche statistiche. 3.3.2 I Limiti dei Sistemi Content Based Il limite principale dei sistemi Content Based deriva dalla necessità di analizzare un oggetto ed estrarre le sue caratteristiche (feature). Questo processo può essere realizzato in modo automatico se l’oggetto è associato a una descrizione testuale ma è estremamente complicato analizzare flussi di dati multimediali (ad esempio uno stream video). Un secondo problema deriva dal fatto che se due oggetti sono descritti dallo stesso insieme di features, allora essi sono indistinguibili. Un terzo problema è costituito dall’overspecialization. In altre parole un sistema content based identifica oggetti che hanno un forte grado di correlazione con il profilo dell’utente; gli oggetti individuati potrebbero essere molto simili tra di loro e, di conseguenza, la qualità dei suggerimenti (e la loro utilità per l’utente) potrebbe essere bassa. Ad esempio se ad un utente piace un film di Woody Allen non è una buona idea quella di suggerirgli tutti i film di Woody Allen ma sarebbe opportuno creare una lista di suggerimenti tra loro diversificati. 3.4 I metodi Collaborative Filtering 19 Infine un quarto problema è il cosiddetto new user problem. Se un utente ha valutato pochi oggetti, il sistema ha a disposizione poche informazioni sui gusti dell’utente e, dunque, potrebbe non essere in grado di identificare i suoi gusti. 3.4 I metodi Collaborative Filtering 3.4.1 Caratteristiche Generali Il Collaborative Filtering adotta un approccio che tiene maggiormente conto delle implicazioni sociali del procedimento di raccomandazione. Invece di raccomandare elementi simili a quelli che l’utente ha dimostrato di gradire in passato, esso raccomanda elementi che altri utenti simili hanno dimostrato di gradire. A livello umano, questa tecnica è utilizzata ogni volta che qualcuno basa le proprie azioni (ad esempio, andare o meno a vedere un film) sui consigli ricevuti dalle persone che egli sa solitamente essere d’accordo con lui, tipicamente gli amici. Gli algoritmi più utilizzati nel contesto del collaborative filtering (nonché i primi proposti) sono stati quelli basati sul vicinato (neighborhood-based). In questi metodi, fissato un utente u, viene selezionato un sottoinsieme di utenti sulla base della loro similarità con u. Ciascuno degli utenti selezionati esprime un opinione su un oggetto e queste opinioni vengono aggregate per determinare un punteggio numerico (score). Lo score rappresenta quanto un oggetto è gradito o no all’utente attivo u. In genere i metodi neighbourhood-based possono essere separati in tre passi: 1. Pesare tutti gli utenti sulla base della similarità con l’utente attivo. 2. Selezionare un sottoinsieme degli utenti per usarli come predittori (possibilmente per ogni singola predizione). 3. Normalizzare i voti e calcolare una predizione come combinazione pesata dei voti dei vicini selezionati. Per il passo 1 sono possibili innumerevoli soluzioni, tra le quali meritano di essere citare le seguenti: coefficiente di correlazione di Pearson; coefficiente di correlazione di Spearman; coseno dell’angolo tra vettori; misure di incertezza basate sull’entropia; differenza quadrata media Il coefficiente di correlazione di Pearson garantisce i migliori risultati. Il coefficiente di correlazione di Pearson wa,u tra l’utente a e l’utente u è definito come segue: Pm (ra,i − ra ) ∗ (ru,i − ru ) wa,u = i=1 σa ∗ σ u dove m è il numero di oggetti co-valutati; ra, i è il voto dato dall’utente a all’oggetto i; r a è la media dei voti di a e σa è la varianza dei voti di a. Il coefficiente di correlazione di Spearman, invece di utilizzare i voti veri e propri (rating), li aggrega prima in classi di voto (rank) ed è cosı̀ definito: Pm (ranka,i − rank a ) ∗ (ranku,i − rank u ) wa,u = i=1 σa ∗ σ u Il coseno dell’angolo tra due vettori è una misura molto usata in Information Retrieval. Nel caso del Collaborative Filtering gli utenti possono essere considerati come vettori di valutazioni su oggetti conducendo alla seguente formula: wa,u = m X i=1 v qP a,i m k=1 2 va,k vu,i ∗ qP m k=1 2 va,k dove i denominatori servono per normalizzare i voti in modo che gli utenti che votano più oggetti non siano a priori più simili agli altri utenti. 20 3 I Recommender System La misura di associazione basata sull’entropia usa tecniche di probabilità condizionata per misurare la riduzione di entropia dei voti dell’utente attivo che risulta dalla conoscenza dei voti di un altro utente. Indipendentemente dalla scelta del grado di similarità tra utenti prescelto, per predire il valore di gradimento dell’oggetto i da parte dell’utente a, viene utilizzata la seguente formula Pn (ru,i − ru ) ∗ wa,u pa,i = ra + u=1 Pn u=1 wa,u ovvero si somma alla media dei voti dell’utente a la media pesata delle deviazioni dalla media dei vicini; pa,i rappresenta la predizione per l’agente attivo a relativamente all’oggetto i, n è il numero dei vicini, ru,i è il voto dato da u all’oggetto i, r a la media dei voti dati da a e wa,u è la misura di similarità tra l’utente u e quello attivo a (usata come peso). 3.4.2 I Limiti del Collaborative Filtering Gli oggetti appena inseriti nel sistema (un film o un libro appena usciti, un ristorante appena inaugurato) non hanno ancora ricevuto voti e quindi le previsioni relativamente ad essi non sono possibili. In seguito, le predizioni saranno influenzate esclusivamente dai pochi utenti che le hanno valutate per primi. In maniera simile, un utente che entra nel sistema, non avendo ancora espresso voti, non può essere confrontato con gli altri sulla base delle sue opinioni e quindi non è possibile produrre raccomandazioni. L’utente comunque per essere comparato con gli altri e ricevere i suggerimenti deve fare lo sforzo di esprimere la sua opinione sul maggior numero possibile di oggetti e questo richiede uno sforzo da parte dell’utente. In molti domini, il numero degli oggetti eccede di molto il numero che ogni individuo può assorbire e valutare (si pensi a quanto detto precedentemente riguardo ai film prodotti in un anno) e quindi il grado di sovrapposizione tra due utenti è molto basso. Se il numero di utenti non è eccessivamente elevato, ci possono essere individui con gusti inusuali che non beneficiano del sistema in quanto le loro opinioni non concordano né discordano in maniera decisa con alcuno degli altri. 4 Il credit scoring e la Classificazione 4.1 Introduzione Quando un soggetto viene considerato insolvente? In particolare, un’impresa è considerata insolvente solo quando iniziano le procedure di fallimento oppure anche prima può essere considerata tale? Il problema di valutare la capacità di un azienda o di un soggetto privato di onorare un mutuo o un prestito prende, in letteratura il nome di credit scoring. Il credit scoring costituisce un argomento di valore centrale nella letteratura economica e finanziaria e, negli ultimi anni, sono stati proposti molteplici strumenti per la valutazione del rischio di credito. Gli strumenti proposti fanno largo uso di tecnologie e algoritmi definiti nel contesto del Data Mining. In questo capitolo verrà illustrato il concetto di rischio di credito e verrà presentato un approccio per la valutazione del rischio di credito. 4.2 Background culturale Secondo la teoria classica, è necessario distinguere tra insolvenza in senso statico e dinamico. In particolare, la prima si verifica quando limpresa ha un capitale netto negativo (ovvero i ricavi sono inferiori alle spese), mentre la seconda accade quando il cash flow aziendale è insufficiente a coprire tutti i pagamenti richiesti. Successivamente, una parte della letteratura ha legato il concetto di rischio di insolvenza a quello di financial distress, ovvero quando il cash flow operativo aziendale non permette di poter far fronte alle obbligazioni correnti. La valutazione del rischio di credito è affidata ad apposite società, dette società di rating. Ciascuna società è dotata di una regolamentazione interna per poter definire, in maniera oggettiva e quantitativa il rischio di credito. Ad esempio la definizione suggerita dall’agenzia di Standard & Poor’s (S&P), dichiara che “si ha default (ovvero insolvenza) quando vengono meno la capacità o la volontà del debitore di tenere fede ai suoi impegni finanziari relativi a unobbligazione, rispettandone i termini originari”. In particolare si ha insolvenza nei seguenti casi: Quando un pagamento di interessi e/o capitale è dovuto e non viene effettuato; In seguito ad unofferta di ristrutturazione del debito che ne riduce chiaramente il valore totale. Nonostante la definizione di insolvenza da parte degli istituti finanziatori sia completamente libera, si è resa sempre più necessaria la creazione di uno standard per la definizione di tale problema, dunque molte aziende di credito tendono comunemente ad identificare il default con il momento del passaggio in sofferenza. Rispetto al concetto di “sofferenza”, la Banca Centrale Europea ha elaborato un insieme di informazioni statistiche sul rischio di insolvenza basate proprio su tale concetto in una versione rettificata per tener conto di eventuali difformità di giudizio da parte delle banche segnalanti. In particolare, dal momento che la solidità patrimoniale degli istituti di credito è un fattore driver nello sviluppo economico, diviene prioritario definire delle procedure generali. A questo scopo gli enti regolatori del G10 (composto attualmente da undici paesi) più il Lussemburgo hanno definito gli Accordi di Basilea, ovvero delle linee guida in materia di requisiti patrimoniali delle banche. Il primo accordo è stato siglato nel 1988 ed è nto con il nome di Accordo di Basilea I. L’accordo conteneva la prima definizione e la prima misura (standard) del capitale minimo bancario accettate 22 4 Il credit scoring e la Classificazione a livello internazionale. L’assunto di fondo è che a ciascuna operazione di prestito deve corrispondere una quota di capitale da detenere a scopo precauzionale (l’ onere di capitale). Per un gruppo bancario, il patrimonio di vigilanza bancario deve essere pari ad almeno l’8% delle attività creditizie ponderate per il rischio di credito (Coefficiente di solvibilità). L’Accordo di Basilea obbligava le banche ad accantonare l’8% del capitale erogato, non investibile in attività creditizia tipica, né in attività paraassicurative, né in operazioni finanziarie sui mercati mobiliari, al fine di garantire solidità e fiducia nel sistema creditizio. Col tempo, l’Accordo si è rivelato inadatto. In particolare la sua inadeguatezza deriva dalla presenza di nuovi prodotti finanziari e dall’emergere di nuovi mercati bancari. In particolar modo, non vengono presi in considerazione i rischi derivanti dalle operazioni sui mercati immobiliari e non sono accuratamente misurati i rischi di credito, che vengono piuttosto sottostimati. In pratica, a fronte del rispetto apparente della formula di Basilea I, il management bancario è incentivato a: Concedere i tradizionali prestiti alle controparti relativamente più rischiose; Intraprendere operazioni finanziarie innovative sempre più sofisticate e con un basso o nullo onere di capitale corrispondente. Inoltre Basilea I valutava le aziende in base a requisiti molto semplificati: da quanto tempo esisteva un certa azienda, il suo patrimonio e la ragione sociale. Basilea I considerava solo la “storia” patrimoniale di una ditta, e della capacità attuale di rimborso della stessa, senza avere la possibilità di valutare se, quanto e in quanto tempo la ditta avrebbe generato reddito. Questo induceva un notevole immobilismo e penalizzava fortemente tutta una serie di settori e di investimenti, primi fra tutti quelli sull’innovazione e sulla ricerca. Per far fronte a queste nuove problematiche si è provveduto ad una revisione dell’Accordo, culminata con il cosiddetto Basilea II. L’elemento di maggiore interesse di Basilea II per noi è costituito dalla definizione di nuove procedure di rating. Il rating è l’insieme di procedure di analisi e di calcolo grazie al quale una banca valuta quanto un cliente sia rischioso e quanto sarà produttivo in futuro, se gli venisse concesso il credito che chiede. Tramite il rating si calcola la probabilità di default ovvero la Pd (probability of default) associata ad ogni classe di rischio misurata negli anni passati, si raccolgono nuove informazioni sulla capacità di generare reddito futuro del beneficiario. Il rating di Basilea II cambia notevolmente rispetto al passato ed è improntato a una notevole flessibilità, restando però vincolato ad un controllo incrociato di enti interni ed esterni all’istituto. Basilea II, infatti, introduce la possibilità, per gli istituti di credito, di affiancare ai rating emessi dalle agenzie specializzate, Ecai (External Credit Assessment Institution), rating prodotti al proprio interno. Ciò significa che le banche potranno dotarsi di strumenti particolareggiati volti alla misurazione del rischio. Oltra alla metodologia standard, troviamo il metodo di misurazione IRB (Internal Rating Based Approach), diviso a sua volta nel metodo di base e nel metodo avanzato. Questa novità procedurale fornisce molte più informazioni rilevanti e permette di fare valutazioni molto più concrete e realistiche. 4.3 La Classificazione 4.4 Caratteristiche generali La classificazione è una forma di analisi dei dati che viene utilizzata per estrarre modelli che descrivono importanti classi di dati. Il problema della classificazione consiste nellattribuire le osservazioni sperimentali a una tra c differenti categorie già note. Nel caso del credit scoring le categorie possibili sono due : buon pagatore e cattivo pagatore. Molti metodi di classificazione sono stati proposti da ricercatori nel campo del machine learning, dei sistemi esperti, della statistica e della neurobiologia. Recentemente sono state sviluppate ricerche specifiche di Data Mining su tale argomento; queste hanno portato allo sviluppo di tecniche di classificazione scalabili, capaci di gestire grandi quantità di dati. 4.5 I Classificatori Bayesiani 23 4.5 I Classificatori Bayesiani I classificatori bayesiani sono classificatori statistici che hanno lo scopo di predire le probabilità di appartenenza di classe; con questo termine si intende la probabilità che un determinato campione appartenga ad una particolare classe. In particolare, nel credit scoring abbiamo due possibili categorie di classe ovvero (i) “Buoni” e (ii) “Cattivi” clienti. La classificazione Bayesiana è basata sul teorema di Bayes, descritto successivamente. 4.5.1 Teorema di Bayes Il teorema di Bayes prende il nome da Thomas Bayes, un sacerdote inglese che concentrò la sua attenzione sugli studi di probabilità e statistica nel XVIII secolo. Sia X un campione di dati la cui etichetta di classe è sconosciuta. Nel nostro caso X è un insieme di clienti di una banca. Sia H l’ipotesi che X appartenga ad una specifica classe C (che nel nostro caso potrebbe essere la classe dei buoni o dei cattivi). Per i problemi di classificazione, vogliamo determinare P (H|X), ovvero la probabilità che valga l’ipotesi H dato il campione di dati osservato X. P (H|X) è la probabilità a posteriori di H condizionata su X. Per esempio, si supponga che che X sia un campione di soggetti che hanno un contratto a tempo indeterminato e che H sia l’ipotesi che X sia un buon pagatore. Allora P (H|X) riflette la nostra confidenza che X sia capace di onorare un mutuo dato che sappiamo che X ha un contratto a tempo indeterminato. Al contrario, P (H) è la probabilità a priori di H. Nel nostro esempio, questa è la probabilità che un determinato campione di dati sia un buon cliente, a prescindere dalla sua condizione occupazionale. La probabilità a posteriori, P (H|X) è basata su più informazioni (ad esempio, la conoscenza di background) rispetto alla probabilità a priori P (H), che è indipendente da X. Similmente, P (X|H) è la probabilità a posteriori di X condizionata su H. Essa è la probabilità che X sia rossa e rotonda nel momento in cui sappiamo che X è una mela. P (X) è la probabilità a priori di X. Usando il nostro esempio, essa è la probabilità che un dato campione del nostro insieme di clienti abbia un contratto a tempo indeterminato. Il Teorema di Bayes è utile in quanto esso fornisce un modo per calcolare la probabilità a posteriori, P (H|X), da P (H), P (X) e P (X|H). Tale teorema ci dice che: P (X|H)P (H) P (X) Nella prossima sezione vedremo come tale teorema viene utilizzato nel classificatore Bayesiano naive. P (H|X) = 4.5.2 Classificazione bayesiana naive Il classificatore bayesiano naive, o classificatore bayesiano semplice, opera nel seguente modo: 1. Ciascun campione di dati viene rappresentato da un vettore di caratteristiche n-dimensionali X = (x1 , x2 , . . . , xn ), che descrive le misure effettuate sul campione e corrispondenti agli n attributi, A1 , A2 , . . . , An , rispettivamente. Ad esempio le caratteristiche nel nostro caso potrebbero essere il reddito, il tipo di contratto, il possesso di beni mobili, il possesso di beni immobili e cosi via. 2. Si supponga che vi siano m classi, C1 , C2 , . . . , Cm . Dato un campione di dati sconosciuto, X (che non ha nessuna etichetta di classe), il classificatore predirà che X appartiene alla classe che ha la più alta probabilità a posteriori, condizionata su X. In altre parole, il classificatore bayesiano naive assegna un campione sconosciuto X alla classe C i se e solo se: P (Ci |X) > P (Cj |X) per 1 ≤ j ≤ m, j 6= i Pertanto, lo scopo del metodo è quello di massimizzare P (Ci |X). La classe Ci per cui P (Ci |X) viene massimizzata è denominato ipotesi a posteriori massima. Per il teorema di Bayes si ha: P (Ci |X) = P (X|Ci )P (Ci ) P (X) 24 4 Il credit scoring e la Classificazione 3. Poiché P (X) è costante per tutte le classi, è necessario massimizzare solo P (X|C i )P (Ci ). Se le probabilità a priori delle varie classi non sono note, allora viene comunemente assunto che le classi siano tutte ugualmente probabili, ovvero P (C1 ) = P (C2 ) = . . . = P (Cm ). Se tale ipotesi è verificata sarà necessario massimizzare soltanto P (X|Ci ); in caso contrario, si dovrà massimizzare il prodotto P (X|Ci )P (Ci ). Si noti che la probabilità a priori di classe può essere stimata da P (Ci ) = ssi , dove si è il numero di training sample della classe Ci , e s è il numero totale di training sample. 4. Quando i dati in esame possiedono molti attributi, è estremamente costoso, dal punto di vista computazionale, calcolare P (X|Ci ). Al fine di ridurre il costo della valutazione di P (X|Ci ), viene considerata l’assunzione naive di indipendenza condizionale di classe. Questa presume che i valori degli attributi siano condizionalmente indipendenti l’un l’altro, ovvero che non vi è alcuna relazione di dipendenza tra gli attributi. In altre parole, l’assunzione prevede che: Y P (xk |Ci ) P (X|Ci ) = k=1..n Le probabilità P (x1 |Ci ), P (x2 |Ci ), . . ., P (xn |Ci ) possono essere stimate dai training sample, come di seguito specificato: s Se Ak è categorico, allora P (xk |Ci ) = siik , dove sik è il numero di training sample della classe Ci che hanno il valore xk per Ak , e si è il numero di training sample appartenenti a Ci . Se Ak è a valori continui, allora si assume, tipicamente, che esso abbia una distribuzione gaussiana: P (xk |Ci ) = g(xk , µCi , σCi ) dove g(xk , µCi , σCi ) è la funzione di densità (normale) gaussiana per l’attributo Ak ; µCi e σCi sono, rispettivamente, la media e la deviazione standard derivate dai valori dell’attributo A k per i training sample della classe Ci . 5. Al fine di classificare un campione sconosciuto X, è necessario valutare P (X|C i )P (Ci ) per ciascuna classe Ci . Il campione X viene, quindi, assegnato alla classe Ci se e solo se: P (X|Ci )P (Ci ) > P (X|Cj )P (Cj ) per 1 ≤ j ≤ m, j 6= i In altre parole, esso viene assegnato alla classe Ci per cui P (X|Ci )P (Ci ) è massimo. 5 Il Forex e la predizione 5.1 Introduzione Il mercato Forex (abbreviazione di Foreign Exchange Market) è un mercato monetario creato nel 1971. Il Forex consiste nell’acquistare o vendere valuta, realizzando un guadagno sul valore di cambio. Il volume medio giornaliero di scambi monetari che si verificano nel Forex è enorme. In particolare, secondo uno studio della Banca dei Regolamenti internazionali, il turnover giornaliero medio sui mercati forex tradizionali è stimato ammontare a 1.880 miliardi di dollari. Alla fine della seconda guerra mondiale vennero conclusi degli accordi (denominati Bretton Woods Agreement) impediva la speculazione sui mercati valutari. Lo scopo degli accordi di Bretton Woods era stabilizzare le valute internazionali e prevenire la fuga dei capitali tra le nazioni. Questi accordi fissarono un tasso di cambio tra tutte le valute ed il dollaro e fissarono il tasso di cambio tra il dollaro e l’oro (35 dollari per oncia). Gli accordi di Bretton Woods furono abbandonati nel 1971, e in seguito a ciò il dollaro non fu più convertibile in oro. A partire dal 1973, le valute delle nazioni maggiormente industrializzate divennero più liberamente fluttuanti, essendo spinte principalmente dalle forze dell’offerta e della domanda. I prezzi erano formati da volumi, velocità e volatilità crescenti durante gli anni 70. Ciò porto alla nascita di nuovi strumenti finanziari, alla deregolazione del mercato e al libero scambio. Negli anni 80 i movimenti internazionali di capitali ebbero un’accelerazione per l’avvento dell’informatica ed il mercato divenne continuo, con scambi che si svolgevano tra i continenti asiatico, europeo ed americano, ed i relativi fusi orari. In questo capitolo illustreremo delle tecniche per effettuare la predizione. 5.2 La Predizione La Predizione di valori continui può essere modellata tramite tecniche statistiche di regressione. Per esempio, potremmo voler sviluppare un modello per predire lo stipendio dei laureati con 10 anni di esperienza lavorativa oppure le vendite potenziali di un nuovo prodotto a partire dal suo prezzo. L’approccio più utilizzato per la predizione numerica è la regressione, una metodologia statistica sviluppata nell’‘800 da Galton. La regressione modella la relazione tra una o più variabili predittore indipendenti e una variabile risposta dipendente (quest’ultima è una variabile a valori continui). In genere, i valori delle variabili predittore sono note (tuttavia esistono tecniche per gestire i casi in cui tali valori possono mancare). Molti dei problemi pratici possono essere risolti mediante la regressione lineare e molti altri ancora possono essere affrontati applicando trasformazioni alle variabili in modo tale che un problema non lineare possa essere convertito in uno lineare. In questo corso non forniremo una descrizione dettagliata della regressione ma, semplicemente, un’introduzione intuitiva al problema. 5.2.1 Regressione lineare e multipla Nella regressione lineare i dati vengono modellati utilizzando una linea retta. La regressione lineare è la forma più semplice di regressione. 26 5 Il Forex e la predizione La regressione lineare bivariata modella una variabile casuale Y (denominata variabile risposta) come una funzione lineare di un’altra variabile casuale X (denominata variabile predittore), ovvero: Y = α + βX dove si assume che la varianza di Y è costante e α e β sono i coefficienti di regressione che specificano il valore sull’asse delle Y e la pendenza della retta, rispettivamente. Tali coefficienti possono essere individuati mediante il metodo dei minimi quadrati che minimizza l’errore tra i dati reali e la stima che essa fornisce. Dati s campioni, o punti, della forma (x1 , y1 ), (x2 , y2 ), . . . , (xs , ys ), il metodo dei minimi quadrati stima i coefficienti di regressione mediante la seguente formula: Ps (x − x)(yi − y) Ps i β = i=1 2 i=1 (xi − x) α = y − βx dove x è la media di x1 , x2 , . . . , xs e y è la media di y1 , y2 , . . . , ys . I coefficienti α e β forniscono, spesso, buone approssimazioni ad equazioni di regressione altrimenti complicate. Esempio 5.1. Si consideri la Tabella 5.1 che mostra un insieme di dati accoppiati dove X è il numero di anni di esperienza di lavoro di un laureato e Y è il corrispondente stipendio. Anni di Esperienza - X Stipendio (in migliaia di Euro) - Y 3 30 8 57 9 64 13 72 3 36 6 43 11 59 21 90 1 20 16 83 Tabella 5.1. Dati sugli stipendi Supponiamo che lo stipendio possa essere correlato al numero di anni di esperienza lavorativi mediante l’equazione Y = α + βX. A partire dai dati specificati sopra, calcoliamo x = 9.1 e y = 55.4. Sostituendo questi valori nelle equazioni precedenti, otteniamo: β= (3 − 9.1)(30 − 55.4) + (8 − 9.1)(57 − 55.4) + . . . + (16 − 9.1)(83 − 55.4) = 3.5 (3 − 9.1)2 + (8 − 9.1)2 + . . . + (16 − 9.1)2 α = 55.4 − (3.7)(9.1) = 23.6 Pertanto, l’equazione della retta dei minimi quadrati è stimata da Y = 23.6 + 3.5X. Utilizzando questa equazione, è possibile predire che lo stipendio di un laureato con 10 anni di esperienza è 58.600 euro. La regressione multipla è un’estensione della regressione lineare che coinvolge più di una variabile predittore. Essa consente che una variabile risposta Y venga modellata come una funzione lineare di un vettore multidimensionale di caratteristiche. Un esempio di modello di regressione multipla basato su due variabili predittori X 1 e X2 è il seguente: Y = α + β 1 X1 + β 2 X2 I valori di α, β1 e β2 possono essere predetti applicando il metodo dei minimi quadrati. 2 5.2 La Predizione 27 5.2.2 Regressione non lineare La regressione polinomiale può essere modellata aggiungendo termini polinomiali al modello lineare di base. Applicando opportune trasformazioni alle variabili è possibile convertire un modello non lineare in uno lineare che può essere risolto mediante il metodo dei minimi quadrati. Esempio 5.2. Si consideri una relazione polinomiale cubica data da: Y = α + β 1 X + β 2 X 2 + β3 X 3 Per convertire questa equazione nella forma lineare, definiamo nuove variabili X1 = X X2 = X 2 X3 = X 3 A questo punto si ottiene l’equazione Y = α + β 1 X1 + β 2 X2 + β 3 X3 che può essere risolta con il metodo dei minimi quadrati. Alcuni metodi sono intrattabilmente non lineari (ad esempio, la somma di termini esponenziali) e non possono essere convertiti in un modello lineare. Per tali casi è possibile ottenere delle stime sui minimi quadrati attraverso molti calcoli effettuati su formule più complesse. 2