pdf - Pasquale De Meo

Transcript

Università degli Studi Mediterranea di Reggio Calabria
Facoltà di Giurisprudenza
Corso di Laurea in Scienze Economiche
Appunti del Corso di Sistemi Informativi
Pasquale De Meo
Anno Accademico 2009-2010
Indice
1
Il commercio elettronico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Il Business-to-business (B2B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Il Business-to-consumer (B2C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Il Consumer-to-consumer (C2C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Il Consumer-to-business (C2B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 I fattori chiave per avere successo nell’e-commerce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Problematiche del commercio elettronico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8 Il problema della sicurezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
2
2
2
3
4
4
2
L’estrazione di Regole Associative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Introduzione al Mining di Regole Associative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Market Basket Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Concetti di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori . . . . . . . . . 9
2.4.1 Estrazione degli itemset frequenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Generazione di regole associative dagli itemset frequenti . . . . . . . . . . . . . . . . . . . . . 12
3
I Recommender System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Concetti generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 I metodi Content Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 I Limiti dei Sistemi Content Based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 I metodi Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 I Limiti del Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
15
15
17
17
18
19
19
20
4
Il credit scoring e la Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Background culturale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 La Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Caratteristiche generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 I Classificatori Bayesiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Teorema di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2 Classificazione bayesiana naive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
21
22
22
23
23
23
5
Il Forex e la predizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 La Predizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Regressione lineare e multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
25
25
25
27
1
Il commercio elettronico
1.1 Introduzione
Il commercio elettronico (e-commerce in inglese) viene utilizzato per indicare l’insieme delle transazioni per la commercializzazione di beni e servizi tra produttore (offerta) e consumatore (domanda),
realizzate tramite Internet.
Nell’industria delle telecomunicazioni si può intendere l’e-commerce anche come l’insieme delle applicazioni dedicate alle transazioni commerciali. Secondo una terza definizione il commercio elettronico
è la comunicazione e la gestione di attività commerciali attraverso modalità elettroniche, come l’EDI
(Electronic Data Interchange) e con sistemi automatizzati di raccolta dati.
Secondo una ricerca italiana del 2008 l’e-commerce in Italia ha un valore stimato di 4,868 miliardi
di euro nel 2007, con una crescita del fatturato del 42,2%. Nel 2007 sono stati eseguiti circa 23 milioni
di ordini on line in Italia.
In base al fatto che la transazione coinvolga aziende piuttosto che singoli individui, si possono distinguere quattro forme di commercio elettronico: business to business, business to consumer, consumer
to consumer e consumer to business. Il più grande volume d’affari è prodotto dal business-to-business,
il primo ad essere nato, ma anche il business-to-consumer sta prendendo piede. La creazione delle aste
on line ha generato due nuovi termini: consumer-to-consumer e consumer-to-business.
Nelle sezioni successive verranno analizzate le quattro forme di commercio elettronico in maniera più dettagliata. Inoltre verranno analizzati i fattori che determinano il successo di un sito di
e-commerce. Infine verrà trattato il problema della sicurezza nell’e-commerce.
1.2 Il Business-to-business (B2B)
Il Business-to-business (B2B) riguarda transazioni commerciale tra aziende, quindi non interessa il
consumatore finale di beni e servizi. Questo tipo di transazione di solito coinvolge un numero limitato
di soggetti, ma gli importi sono mediamente elevati e generalmente sono gestiti off line.
Come si è detto precedentemente, il giro d’affari più importante nei marketplaces virtuali è soprattutto condotta nel settore del business-to-business. Secondo la AMR Research il 29% delle transazioni
commerciali avverrà attraverso Internet entro il 2004. Questo perché come eBay ha reso possibile ai
collezionisti di incontrarsi in rete e scambiarsi gli oggetti più svariati, allo stesso modo i marketplaces del B2B renderanno più facile e conveniente per le aziende riunirsi e fare affari tra di loro. Gli
e-marketplaces sono per certi aspetti un’evoluzione dell’EDI, solo che ora non sono più necessari i
costosi software o hardware che il sistema richiedeva. Inoltre le aziende possono operare in tempo
reale e ciò significa che le informazioni a disposizione sono aggiornate costantemente.
Queste transazioni commerciali sono molto più economiche rispetto a quelle mediate dall’EDI. Le
barriere all’entrata sono molto più basse, consentendo facilmente ad un ampio numero di compratori
di raggiungere una vasta comunità di venditori e di ottenere il prezzo più basso. La possibilità di
risparmiare denaro è una delle attrattive dell’e-commerce, ma la miglior efficienza nella catena di
approvvigionamento è un altro importante fattore che spiega il boom dei B2B marketplaces, perché
ciò significa maggior velocità nella vendita, rapido accesso a nuovi fornitori e acquirenti e una più
veloce e facile entrata in nuovi mercati.
2
1 Il commercio elettronico
Una forma particolare di e-commerce tra aziende è gestita da alcuni siti negli Stati Uniti, questi
siti coordinano aste nel settore del B2B, ad esempio permettendo alle aziende di mettere all’asta il
surplus di prodotti.
1.3 Il Business-to-consumer (B2C)
Il Business-to-consumer (B2C) è il modello più noto di commercio elettronico e riguarda l’acquisto di
beni e servizi da parte del consumatore finale. La sua espansione ha coinciso con la capillare diffusione
di Internet negli uffici, nelle case e nelle scuole.
Se da un lato questo nuovo media ha permesso ad aziende di tutto il mondo di entrare in contatto
con consumatori altrimenti difficilmente raggiungibili, dall’altro, per i consumatori stessi, si è aperta
la possibilità di avere accesso ad una offerta eccezionalmente ampia di prodotti, stando comodamente
seduti davanti al proprio computer. Uno dei casi di maggior successo è quello di Amazon, una vera e
propria libreria virtuale che mette a disposizione oltre 2.000.000 di titoli. Il cliente può trovare anche
il libro più raro, beneficiando di sconti e della possibilità di farselo recapitare a casa anche in meno di
48 ore.
Relativamente alle modalità di spedizione del prodotto, si può effettuate un’ulteriore distinzione
tra commercio elettronico diretto e indiretto. Nel primo caso il prodotto acquistato è un bene fisico,
ad esempio una stampante, quindi viene consegnato attraverso un corriere. Nel secondo invece, il bene
è in formato digitale, come un software o un CD musicale, quindi può essere trasmesso direttamente
via Internet.
1.4 Il Consumer-to-consumer (C2C)
Il Consumer-to-consumer (C2C) è una forma più recente di commercio elettronico e sta diventando
sempre più popolare grazie all’attivazione di numerosi siti che gestiscono aste on line.
In questo caso il sito gestisce l’ambiente in cui gli utenti interagiscono e gli importi delle transazioni
sono piuttosto contenuti, dato che di solito si scambia un sono articolo per volta. Le modalità di
regolazione della transazione sono stabilite dal venditore e dall’acquirente. eBay è il sito che sta
dominando il mercato in questo senso. Compratori e venditori si incontrano per prendere parte ad
un’asta che può riguardare qualsiasi tipo di prodotto.
eBay è una delle poche società leader in Internet che oltre ad essersi affermata come brand, ottiene
anche un profitto economico. Fondata nel 1995, ha raggiunto uno dei migliori risultati nel settore delle
aste ondine. La sede californiana ha catturato circa l’85% del mercato americano e ha sette siti in
lingue differenti. Assieme ad Amazon è considerato uno dei barometri di borsa dell’e-commerce. La
cosa eccezionale è che eBay genera un enorme profitto lasciando che i propri utenti facciano da soli
gran parte del lavoro, quindi investendo un capitale molto limitato. Non deve tenere un inventario,
spedire prodotti o trasferire pagamenti. Lascia che gli utenti discutano sul prezzo scrivendosi sul Web.
Gran parte delle entrare deriva dalla percentuale sulle transazioni che percepisce di diritto. Se si è
un venditore, si paga una tariffa d’inserzione che varia tra 0,05 e 1,00 Euro a seconda del prezzo di
partenza, e una commissione sul prezzo di vendita finale. Questa tariffa di solito è compresa tra l’1,5%
e il 5% del prezzo di vendita finale, quindi più è alto il valore dell’articolo, maggiore è il ricavo di eBay.
1.5 Il Consumer-to-business (C2B)
Il Consumer-to-business (C2B) è un tipo di commercio elettronico nato solo recentemente e non
ancora sviluppato come le tre forme viste precedentemente. In questa particolare forma, i consumatori
stabiliscono il prezzo che sono disposti a pagare per un prodotto o servizio e allo stesso tempo le
aziende possono accettare o rifiutare l’offerta. Ad esempio potenziali clienti propongono il prezzo per
un volo aereo e la compagnia di volo può stabilire se accettare di concludere la transazione.
Si tratta del processo inverso rispetto al B2C, in cui sono le aziende a stabilire i prezzi dei propri
prodotti e servizi ai clienti. L’esempio più classico è quello del sito Priceline.com, che esordı̀ invitando
i suoi clienti a proporre il costo del biglietto aereo che intendevano pagare. Il meccanismo funziona in
questo modo: il potenziale cliente deposita presso il sito di Priceline una richiesta sulla destinazione,
1.6 I fattori chiave per avere successo nell’e-commerce
3
le date previste per il viaggio e quanto è disposto a spendere, inoltre deve garantire la richiesta con
il numero della carta di credito; Priceline a questo punto agisce da intermediario e smista la richiesta
alle linee aeree con cui è in contatto. Se una di loro è interessata a vendere quel viaggio, si conclude
la transazione e Priceline ne ricava una percentuale.
Il vantaggio non è solo per i consumatori che riescono a trovare prezzi vantaggiosi e assumono una
posizione di potere nella transazione, ma anche per le compagnie aeree che hanno tutto l’interesse
a riempire i loro voli, dato che ogni posto vuoto comporta una perdita. Successivamente l’offerta di
Priceline si è ampliata, fornendo lo stesso tipo di servizio anche per stanze d’albergo e la vendita di
automobili.
In questa forma di e-commerce il ruolo dell’intermediario è tutt’altro che scomparso grazie ad
Internet, che viene spesso accusato di essere il cannibale dei servizi di intermediazione, semplicemente
assume una forma nuova (a questo proposito è stato coniato il termine “Infomediari”).
1.6 I fattori chiave per avere successo nell’e-commerce
Per realizzare un’attività di commercio elettronico di successo sono necessari alcuni fattori chiave. Tra
i principali ricordiamo:
1. Generazione di valore per il cliente. Il venditore può raggiungere questo obiettivo offrendo un
prodotto o un assortimento in grado di attirare clienti potenziali a un prezzo competitivo come
accade nel commercio tradizionale.
2. Offerta di servizi e prestazioni. L’offerta di un’esperienza di acquisto con un alto livello informativo
e con un tono amichevole verso il cliente come se fossimo nel negozietto sotto casa può permettere
di raggiungere questi traguardi.
3. Realizzare un sito Internet accattivante. Il corretto accostamento di colori, elementi grafici, animazione, fotografie, caratteri tipografici e un rapporto tra spazio della pagina e spazio occupato
da testo e immagini può risultare determinante a tale riguardo.
4. Incentivare il cliente all’acquisto e successiva fidelizzazione. La politica commerciale in tal senso
può comprendere buoni sconto, offerte speciali e varie tipologie di sconto. Può essere utile il ricorso
anche a siti affiliati con la realizzazione di scambio di link come pure la realizzazione di campagne
pubblicitarie comuni ad altri siti.
5. Rapporto personalizzato con la clientela. Siti internet che siano il più possibile personalizzabili
dal cliente o tramite interfacce apposite, suggerimenti di acquisto e offerte speciali ad personam
possono essere degli efficaci sostituti di un contatto diretto commesso-cliente come avviene nei
negozi tradizionali.
6. . Organizzazione di un senso di comunità tra i visitatori. Chat, Gruppi di discussione su Internet, in modo da ricevere i suggerimenti dei visitatori, programmi di fidelizzazione e integrazioni
commerciali con altri siti possono contribuire a rafforzare questo sentimento tra gli utenti.
7. Offrire affidabilità e sicurezza. Server in parallelo, ridondanza hardware, tecnologia a prova di
errore, crittografia dei dati e firewall possono migliorare notevolmente questo aspetto.
8. Il rapporto con la clientela va visto in un’ottica a tutto campo, assicurandosi che tutti i dipendenti,
i fornitori e i partner abbiano una visione unica e completa del cliente stesso.
9. Gestione di tutto il vissuto commerciale del cliente. I negozianti on-line sviluppano questo aspetto
gestendo ogni contatto con il cliente come se fosse parte di un’esperienza, che a sua volta si
identifica con il marchio.
10. Snellimento dei processi di business, se possibile attraverso una re-engineering e il ricorso
all’information technology.
11. Progettare una filiera informatica, in cui ciascuno dei partecipanti si focalizza su un numero
“limitato” di competenze sui prodotti o servizi offerti - ovvero l’opposto di un’attività generalista (i negozi on-line, a seconda di come sono stati programmati, possono sembrare generalisti o
specializzati).
4
1.7 Problematiche del commercio elettronico
Anche se un fornitore di beni e servizi di Commercio Elettronico seguisse in maniera rigorosa i sopracitati “fattori chiave” per realizzare una strategia di vendita on-line, possono tuttavia sorgere
ugualmente delle difficoltà. Tra le principali citiamo:
1. Difetti di comprensione del comportamento della clientela, vale a dire come e perché acquistano un
certo prodotto. Se i produttori e i venditori non sono in grado di cogliere le abitudini di acquisto dei
consumatori, come pure le aspettative e le motivazioni, anche un prodotto blasonato o rinomato
può non raggiungere i target di vendita prefissati. Il commercio elettronico potrebbe ovviare a tale
potenziale inconveniente con ricerche di mercato più aggressive e mirate, simili a quelle intraprese
dai canali di vendita tradizionali.
2. Mancanza di analisi dello scenario concorrenziale. È possibile disporre delle capacità tecniche per
realizzare un’attività di vendita di libri on-line, ma potrebbe essere che manchi la volontà per
competere con Amazon.com.
3. Incapacità di prevedere le reazioni nell’ambiente in cui opera l’impresa. Cosa faranno i concorrenti?
Introdurranno marchi in concorrenza con il nostro o addirittura potrebbero realizzare dei siti web
analoghi al nostro e farci concorrenza. Amplieranno i servizi offerti? Cercheranno di sabotare il
sito di un concorrente? Scoppierà la guerra dei prezzi? Come reagirà il governo? Per attenuare
queste possibili conseguenze è consigliabile analizzare la concorrenza, i settori industriali e i mercati
coinvolti, proprio come si farebbe nel caso di un’attività tradizionale.
4. Sovrastima delle competenze aziendali. I dipendenti, il sistema hardware, i software adottati e i
flussi di informazione tra questi soggetti, possono tutti insieme padroneggiare la strategia adottata?
I negozianti on-line sono riusciti a formare adeguatamente i propri dipendenti e a sviluppare
le competenze necessarie? Queste tematiche possono rendere necessarie una pianificazione delle
risorse maggiormente dettagliata e una formazione dei dipendenti più estesa.
5. Mancanza di coordinazione. Se i controlli e la reportistica non bastano, è possibile cambiarli
adottando una struttura organizzativa maggiormente flessibile, affidabile e lineare, anche se non è
detto che questo cambiamento permetta di raggiungere un migliore coordinamento interno.
6. Incapacità nell’assicurarsi l’impegno dei vertici aziendali. Spesso la conseguenza principale si traduce nell’impossibilità di raggiungere un determinato obiettivo societario a causa delle scarse
risorse allocate a quest’ultimo. Si consiglia di coinvolgere fin dall’inizio i vertici aziendali nella
nuova avventura del commercio elettronico.
7. Incapacità nell’assicurarsi l’impegno da parte dei dipendenti. Se i progettisti non traducono in
modo chiaro la loro strategia ai sottoposti, oppure non riescono a delineare loro l’intero quadro
in cui si troveranno a operare, un possibile rimedio può essere quello di offrire un percorso di
formazione dedicato, come pure di fissare uno schema di incentivi ai dipendenti.
8. Sottovalutazione dei tempi richiesti per il raggiungimento degli obiettivi aziendali. La realizzazione
di un’impresa di e-commerce può richiedere un considerevole dispendio di tempo e danaro, e
l’incapacità di comprendere la giusta sequenza dei processi imprenditoriali e la tempistica relativa
a tali operazioni può portare a rilevanti aumenti dei costi, rispetto a quanto preventivato.
È possibile ovviare a questi inconvenienti con dei tipici strumenti di gestione aziendale: benchmarks (indicatori dell’attività dei concorrenti presi a riferimento), traguardi interni di performance,
analisi della variazione degli indicatori aziendali, istituzione di penalizzazioni per il conseguimento di
performance negativa o, viceversa, ricompense per il raggiungimento di obiettivi aziendali, e, infine,
misure per riallineare l’attività aziendale.
1.8 Il problema della sicurezza
Una delle problematiche più sentite nel mondo dell’ e-commerce è indubbiamente la sicurezza nelle
modalità di pagamento.
Ad oggi, le modalità più diffuse sono il bonifico bancario, il contrassegno e il pagamento con la
carta di credito, sicuramente più interessato da questo problema. Inizialmente, il trasferimento delle
informazioni e dei dati personali tra venditore e cliente avveniva in chiaro. Questo costituiva un enorme
problema per la sicurezza, in quanto i dati trasferiti erano suscettibili di essere intercettati e quindi
1.8 Il problema della sicurezza
5
utilizzati da terzi per operazioni al di fuori della pratica commerciale in atto. Oggi, questa pratica
di trasferimento dei dati è stata abbandonata, a favore di pratiche più sicure che garantiscano una
maggiore riservatezza delle informazioni personali e che quindi assicurino la bontà delle transazioni. In
particolare, la maggior parte dei siti di e-commerce odierni utilizzano livelli di crittografia elevati quali,
ad esempio il Transport Layer Security (SSL/TLS). L’abbinamento di questo protocollo al normale
HTTP permette di ottenere un nuovo protocollo: l’HTTPS. Questi garantisce l’invio delle informazioni
personali sottoforma di pacchetti criptati. In questo modo, la trasmissione delle informazioni avviene
in maniera sicura, prevenendo intrusioni, manomissioni e falsificazioni dei messaggi da parte di terzi.
Il protocollo HTTPS garantisce quindi tanto la trasmissione confidenziale dei dati, quanto la loro
integrità. La maggior parte dei browser contraddistingue con un lucchetto i siti protetti. Ad oggi è
sicuramente il sistema più usato, in quanto può essere supportato dai principali browser (Internet
Explorer 3.01 e seguenti, Netscape Navigatror 4.01 e seguenti) e non necessita di alcun software
specifico o password. Le pagine protette da questo protocollo sono facilmente riconoscibili, in quanto
la scritta “https” precede l’indirizzo del sito protetto e le sue pagine vengono contrassegnate da un
lucchetto, visualizzabile nella parte inferiore del proprio browser.
Un secondo strumento è costrituito dal Secure Electronic Transaction (SET ). Questo protocollo
nasce dalla collaborazione di Visa e MasterCard allo scopo di rendere più sicure le operazioni di
pagamento online, garantendo una maggiore segretezza e autenticità dei dati. Per utilizzare questo
protocollo è però necessario che il venditore disponga sul suo server di alcuni software e che il pc
del compratore sia munito di un wallet e di un PIN, rilasciatogli dalla compagnia che ha emesso
la sua carta di credito. La grande novità del protocollo SET consiste nel sistema di autenticazione
del venditore e del compratore: i “contraenti” hanno, cioè, la possibilità di identificarsi con certezza
prima che qualsiasi transazione abbia inizio. Questo avviene attraverso l’utilizzo di certificati digitali,
che vengono rilasciati alle due parti dal proprio istituto bancario. In questo modo, l’acquirente può
verificare l’identità del venditore, acquisendo cosı̀ una maggiore garanzia circa i beni o i servizi che
riceverà e il venditore può verificare a sua volta l’identità del compratore, acquisendo maggiori garanzie
circa il pagamento.
Affinché, quindi, il commercio elettronico possa svilupparsi è necessario che gli utenti (l’acquirente da un lato, il venditore dall’altro) possano svolgere le loro transazioni serenamente, senza temere
intromissioni esterne. In questo senso, assume molta importanza la procedura di “autenticazione dell’utente”. Generalmente, questa procedura avviene tramite la richiesta da parte del server di uno
username al quale è associata una password. Tuttavia, è stato dimostrato che questo sistema non può
essere considerato del tutto sicuro, in quanto i tempi di individuazione della password da parte di
terzi vanno sempre più riducendosi. Per questo motivo, oggi, viene sempre più consigliato all’utente
il cambio periodico della propria password. Questo avviene soprattutto per i sistemi di home banking
che prevedono che i propri utenti cambino obbligatoriamente la password con una cadenza fissa o che
facciano uso di una password “usa e getta” (one-time password) che viene sostituita ogni volta che si
accede a un servizio. Sebbene, la disciplina riguardante il commercio elettronico sia volta soprattutto
alla tutela del consumatore, non bisogna dimenticare l’equivalente diritto del venditore a operare sul
mercato online in maniera serena.
Una delle principali problematiche che interessa colui che decide di offrire un bene o un servizio
online è sicuramente il non ripudio da parte dell’acquirente. In questa direzione opera l’utilizzo della
firma digitale che fa sı̀ che un contratto firmato digitalmente non possa essere disconosciuto da coloro
che l’hanno sottoscritto. Inizialmente il trasferimento dei dati tra il sito di e-commerce e il cliente
avveniva in chiaro. Questo costituiva un possibile problema di sicurezza, soprattutto quando c’era un
pagamento con carta di credito. Con l’avvento del Secure socket layer questo rischio è stato ridotto,
ma sono poi comparsi altri problemi quale il Phishing e la comparsa di virus troiani che cercano di
rubare informazioni utilizzabili per finalità losche. Con la diffusione dell’e-commerce si sono diffuse
truffe sempre più insidiose che colpiscono principalmente gli acquirenti. I principali casi sono:
Vendita di prodotti da siti civetta: al ricevimento del pagamento non viene inviata la merce, o viene
solamente simulata la spedizione. Problema presente anche su ebay con inserzioni truffa.
Realizzazione di siti clonati con la finalità di rubare informazioni quali il codice della carta di
credito.
Aziende fallimentari che accumulano ordini, e introiti, senza la possibilità di evaderli.
La normativa italiana prevede che tutti i siti di commercio elettronico riportino nella home page la
partita IVA e la denominazione dell’azienda. I siti più importanti di e-commerce hanno un certificato
6
digitale che consente di verificare l’autenticità del sito visitato. Il principale problema dal punto di
vista delle aziende è la gestione degli ordini simulati, dove vengono indicate generalità false o non
corrette per l’invio dei prodotti. Per ridurre il problema molte aziende accettano solamente pagamenti
anticipati.
2
L’estrazione di Regole Associative
2.1 Introduzione al Mining di Regole Associative
Il Mining di Regole Associative ha lo scopo di individuare associazioni, o relazioni di correlazione,
interessanti in un grosso insieme di dati.
A causa della quantità enorme di dati che continuamente vengono collezionati e memorizzati, molte
industrie stanno cominciando ad interessarsi all’estrazione di regole associative dalle loro basi di dati.
La scoperta di regole associative interessanti da enormi quantità di dati può aiutare in molti processi
decisionali, quali la progettazione dei cataloghi, le vendite incrociate, ecc.
Un tipico esempio di mining di regole associative è la Market Basket Analysis. Questo processo
analizza le abitudini di acquisto dei clienti trovando associazioni tra i diversi prodotti che essi mettono
nel loro carrello. La scoperta di tali associazioni può aiutare i venditori a sviluppare strategie di
marketing considerando quali prodotti vengono comprati frequentemente insieme dai clienti.
Per esempio, un tipico problema di Market Basket Analysis potrebbe essere il seguente: se i clienti
stanno comprando latte, con quale probabilità essi compreranno anche pane (e che tipo di pane)
durante la stessa spesa nel supermercato?
Tale informazione può portare ad un aumento delle vendite aiutando i venditori sia a definire
politiche di marketing mirate che a posizionare in modo opportuno la propria merce negli scaffali.
La Market Basket Analysis sarà proprio il caso d’uso che ci guiderà nello studio delle Regole
Associative. Nella prossima sezione esamineremo più dettagliatamente tale problematica.
2.2 Market Basket Analysis
Si supponga di essere un manager di un negozio di prodotti elettronici e di voler conoscere meglio
le abitudini di acquisto dei clienti. Più specificatamente, si vorrebbe sapere quali gruppi o insiemi di
prodotti è probabile che i clienti comprino insieme durante una visita al negozio.
Per rispondere a tale domanda, è possibile eseguire la Market Basket Analysis sui dati delle
transazioni relative agli acquisti dei clienti nel negozio.
Questi risultati possono essere utilizzati per pianificare le strategie di marketing o le strategie
pubblicitarie, come pure per la progettazione dei cataloghi.
Per esempio, la Market Basket Analysis può supportare i manager nella progettazione della
disposizione dei prodotti nel negozio.
Per quel che riguarda tale problematica esistono svariate strategie, molto spesso diametralmente
opposte.
Una prima strategia prevede che i prodotti frequentemente comprati insieme possano essere posizionati in stretta vicinanza, al fine di incoraggiare la vendita contemporanea degli stessi. Se i clienti che
comprano computer tendono anche a comprare contemporaneamente software di gestione finanziaria,
allora inserire il reparto hardware vicino al reparto software può aiutare ad incrementare le vendite
di entrambi questi prodotti.
Una strategia alternativa prevede di posizionare i prodotti acquistati frequentemente insieme ad
estremi opposti del negozio per stimolare i clienti che comprano tali prodotti di comprare altri prodotti
lungo la strada. Per esempio, dopo aver deciso l’acquisto di un computer costoso, un cliente può
8
2 L’estrazione di Regole Associative
osservare sistemi di sicurezza in vendita mentre cerca il reparto software per comprare il software di
gestione aziendale e può decidere di comprare anche un sistema di sicurezza per la casa.
La Market Basket Analysis può anche aiutare i venditori a pianificare quali prodotti mettere in
vendita a prezzi ridotti. Se i clienti tendono a comprare computer e stampanti insieme, allora avere
uno sconto sui computer può incoraggiare la vendita sia dei computer che delle stampanti.
Se il nostro universo di riferimento è costituito dall’insieme di prodotti disponibili nel magazzino,
allora ciascun prodotto può essere rappresentato mediante una variabile booleana che rappresenta la
sua presenza o la sua assenza dal carrello della spesa.
Ciascun basket può, quindi, essere rappresentato mediante un vettore booleano di valori assegnati
alle variabili associate ai prodotti.
I vettori booleani possono essere analizzati per individuare pattern sugli acquisti che indicano i
prodotti che vengono frequentemente comprati insieme. Tali pattern possono essere rappresentati
sotto forma di Regole Associative.
Per esempio, l’informazione che i clienti che comprano computer tendono anche a comprare
contemporaneamente software di gestione finanziaria è rappresentata dalla seguente regola associativa:
computer ⇒ financial management software
[supporto = 2%, confidenza = 60%]
Il supporto e la confidenza di una regola sono due misure del suo interesse. Essi riflettono,
rispettivamente, l’utilità e la certezza delle regole scoperte.
Un supporto del 2% per la regola associativa precedente indica che il 2% di tutte le transazioni
sotto analisi registrano l’acquisto di un computer e, contemporaneamente, di un software di gestione
finanziaria.
Una confidenza del 60% indica che il 60% dei clienti che hanno comprato un computer hanno
comprato anche un software di gestione finanziaria.
Tipicamente le regole associative sono considerate interessanti se soddisfano tanto una soglia di
supporto minimo che una soglia di confidenza minima. Tali soglie possono essere determinate dagli
utenti stessi oppure da esperti del dominio applicativo.
2.3 Concetti di base
Sia I = {i1 , i2 , . . . , im } un insieme di prodotti.
Sia D un insieme di transazioni, dove ciascuna transazione T è un insieme di prodotti tali che
T ⊆ I. Ciascuna transazione ha associato un identificatore, denominato TID.
Sia A un insieme di prodotti. Si dice che una transazione T contiene A se e solo se A ⊆ T .
Una regola associativa è un’implicazione della forma A ⇒ B, dove A ⊂ I, B ⊂ I e A ∩ B = ∅.
La regola A ⇒ B vale nell’insieme di transazioni D con supporto s, dove s è la percentuale di
transazioni in D che contiene A ∪ B.
La regola A ⇒ B ha confidenza c nell’insieme di transazioni D se c è la percentuale di transazioni
in D che, contenendo A, contengono anche B. In altre parole:
supporto(A ⇒ B) = P rob(A ∪ B)
conf idenza(A ⇒ B) = P rob(B|A)
Le regole che soddisfano sia una soglia minima di supporto (min sup) che una soglia minima di
confidenza (min conf) sono dette forti.
Un insieme di prodotti è denominato itemset. Un itemset che contiene k item è un k-itemset. Ad
esempio, l’insieme { computer, financial management software } è un 2-itemset.
La frequenza di occorrenza di un itemset è il numero di transazioni che contengono l’itemset. Tale
numero è noto, anche, come frequenza, support count o, semplicemente, count dell’itemset. Un itemset
soddisfa il supporto minimo se la frequenza di occorrenza dell’itemset è maggiore o uguale al prodotto
di min sup per il numero totale di transazioni in D.
Il numero di transazioni richieste all’itemset per soddisfare il supporto minimo è denominato
minimum support count.
Se un itemset soddisfa il supporto minimo, allora è detto itemset frequente. L’insieme di k-itemset
frequenti è comunemente denotato con Lk .
Il mining di regole associative consiste nei seguenti passi:
2.4 Mining di regole associative booleane monodimensionali: l’algoritmo Apriori
9
1. Ricerca di tutti gli itemset frequenti; per definizione, la frequenza di ciascuno di questi itemset sarà
maggiore o uguale al minimum support count.
2. Generazione di regole associative forti a partire dagli itemset frequenti; per definizione, tali regole
devono avere un supporto e una confidenza superiori ad opportune soglie.
Qualora se ne ravvisi la necessità è possibile utilizzare ulteriori misure di interesse.
Il secondo passo è il più facile dei due; pertanto, di fatto, la performance complessiva del processo
di Mining di regole associative è determinata dal primo passo.
2.4 Mining di regole associative booleane monodimensionali: l’algoritmo
Apriori
Apriori è un algoritmo molto famoso pensato per estrarre itemset frequenti per regole associative
booleane. Esso è stato proposto nel 1994 da Agrawal e Srikant.
Il nome dell’algoritmo è basato sul fatto che esso, in ogni passo, utilizza la conoscenza acquisita
durante i passi precedenti.
Apriori adotta un approccio iterativo noto come level-wise search; tale approccio prevede che i
k-itemset vengono utilizzati per esplorare i (k + 1)-itemset.
Innanzitutto viene individuato l’insieme di 1−itemset frequenti; ciò avviene scorrendo il database,
contando quante volte appare ciascun prodotto e collezionando quei prodotti che soddisfano il supporto
minimo. Questo insieme è denotato con L1 . L1 viene utilizzato per trovare L2 , ovvero l’insieme dei
2−itemset frequenti; questo, a sua volta, viene utilizato per trovare L3 , e cosı̀ via, fino a quando
non possono essere più trovati k−itemset frequenti. La ricerca di ciascun L k richiede una scansione
completa del database.
Per migliorare l’efficienza della generazione level-wise di itemset frequenti, viene utilizzata la
seguente, importante, proprietà, denominata, proprietà Apriori:
Tutti i sottoinsiemi non vuoti di un itemset frequente devono anche essere frequenti.
Come vedremo, grazie a tale proprietà, è possibile ridurre facilmente e notevolmente lo spazio di
ricerca.
Questa proprietà è basata sulla seguente osservazione. Per definizione, se un itemset I non soddisfa
la soglia di supporto minima, min sup, allora I non è frequente, cioè P (I) < min sup. Se un prodotto
A viene aggiunto all’itemset I, allora l’itemset risultante (cioè, I ∪ A) non può essere più frequente di
I. Pertanto, I ∪ A sicuramente non sarà frequente, ovvero P (I ∪ A) < min sup.
Questa proprietà appartiene ad una categoria speciale di proprietà denominate proprietà antimonotone; esse, in genere, ci dicono che se un insieme non può superare un test, anche tutti i suoi
sovrainsiemi falliranno anche sullo stesso test. Il termine “anti-monotona” deriva dal fatto che la
proprietà è monotona nel far fallire un test.
2.4.1 Estrazione degli itemset frequenti
Come viene utilizzata la proprietà Apriori nel contesto dell’algoritmo? Per comprendere ciò, dobbiamo
esaminare come viene utilizzato Lk−1 per costruire Lk .
A tal fine viene adottato un processo a due passi, che consiste in azioni di join e di prune.
Passo di join. Per costruire Lk viene generato un insieme di k-itemset candidati, effettuando il
join di Lk−1 con se stesso; in questa attività i membri di Lk−1 vengono posti in join se hanno
(k − 2) prodotti in comune; più formalmente, si avrà che:
Lk = {A 1 B|A, B ∈ Lk−1 , |A ∩ B| = k − 2}
L’insieme di k-itemset candidati cosı̀ ottenuto viene indicato con Ck .
Passo di prune. Ck è un sovrainsieme di Lk ; infatti, i suoi membri possono essere o non essere
frequenti ma, sicuramente, tutti i k-itemset frequenti sono inclusi in C k . A questo punto è necessario
esaminare il database per contare ciascun candidato in Ck ; quelli il cui conteggio non è minore di
una certa soglia sono, per definizione, frequenti e, pertanto, appartengono ad L k .
10
Ck , tuttavia, può essere enorme e, pertanto, potrebbe richiedere dei calcoli pesanti.
Al fine di ridurre la dimensione di Ck viene opportunamente utilizzata la proprietà Apriori. Più
specificatamente, ciascun (k-1)-itemset che non risulta essere frequente non può essere un sottoinsieme di un k-itemset frequente. Pertanto, se qualcuno dei (k-1)-sottoinsiemi di un k-itemset
candidato non è in Lk−1 , allora il candidato non può essere frequente e può essere rimosso da C k .
È opportuno evidenziare che questo testing dei sottoinsiemi può essere effettuato velocemente
mantenendo un hash tree di tutti gli itemset frequenti.
Esempio
Esaminiamo un esempio concreto di Apriori, basandoci su un database D di transazioni relativo
a prodotti di elettronica; tale database è illustrato nella Tabella 2.1. In esso vi sono nove transazioni;
pertanto, |D| = 9.
TID
T100
T200
T300
T400
T500
T600
T700
T800
T900
Lista degli ID degli item
I1, I2, I5
I2, I4
I2, I3
I1, I2, I4
I1, I3
I2, I3
I1, I3
I1, I2, I3, I5
I1, I2, I3
Tabella 2.1. Dati transazionali relativi alla realtà di interesse
Durante la prima iterazione dell’algoritmo ciascun prodotto è un membro dell’insieme C 1 degli
itemset candidati. L’algoritmo, semplicemente, scansiona tutte le transazioni al fine di contare il
numero di occorrenze di ciascun prodotto (Tabella 2.2).
Itemset
{I1}
{I2}
{I3}
{I4}
{I5}
Support Count
6
7
6
2
2
Tabella 2.2. Insieme C1
Si supponga che il minimum support count richiesto è 2 (ovvero, min sup = 2/9 = 0.22). A questo
punto è possibile determinare gli 1-itemset frequenti, come quegli 1-itemset candidati che hanno
un support count maggiore o uguale al minimum support count (Tabella 2.3).
Itemset
{I1}
{I2}
{I3}
{I4}
{I5}
Support Count
6
7
6
2
2
Tabella 2.3. Insieme L1
11
Per individuare l’insieme L2 dei 2-itemset frequenti, l’algoritmo effettua la join di L1 con se stesso,
secondo le regole precedentemente specificate, e genera un insieme candidato C 2 di 2-itemset.
A questo punto, l’algoritmo esamina le transazioni in D e calcola il support count di ciascun itemset
in C2 (Tabella 2.4).
Itemset
{I1, I2}
{I1, I3}
{I1, I4}
{I1, I5}
{I2, I3}
{I2, I4}
{I2, I5}
{I3, I4}
{I3, I5}
{I4, I5}
Support Count
4
4
1
2
4
2
2
0
1
0
Tabella 2.4. Insieme C2
Viene, quindi, determinato l’insieme L2 dei 2-itemset frequenti; esso comprende i 2-itemset
candidati in C2 che hanno un support count maggiore o uguale a quello minimo (Tabella ??).
Itemset
{I1, I2}
{I1, I3}
{I1, I5}
{I2, I3}
{I2, I4}
{I2, I5}
Support Count
4
4
2
4
2
2
Viene, quindi, generato l’insieme C3 dei 3-itemset candidati; tale generazione avviene effettuando
la join di L2 con se stesso secondo le regole precedentemente specificate; al termine di tale attività
si avrà:
C3 = L 2 1 L 2 =
{{I1, I2, I3}, {I1, I2, I4}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}}
Basandosi sulla proprietà Apriori secondo cui tutti i sottoinsiemi di un itemset frequente devono
essere frequenti, è possibile determinare facilmente che gli ultimi cinque candidati non possono
essere frequenti. Infatti:
– I sottoinsiemi di {I1, I2, I3} sono {I1, I2}, {I1, I3} e {I2, I3}; tutti questi sono sottoinsiemi
di L2 ; pertanto, {I1 , I2 , I3 } viene lasciato in C3 .
– I sottoinsiemi di {I1, I2, I4} sono {I1, I2}, {I1, I4} e {I2, I4}; {I2, I4} non è un membro di
L2 e, pertanto, non è frequente; di conseguenza, {I1 , I2 , I4 } viene rimosso da C3 .
– I sottoinsiemi di {I1, I2, I5} sono {I1, I2}, {I1, I5} e {I2, I5}; tutti questi sono sottoinsiemi
di L2 ; pertanto {I1, I2, I5} viene lasciato in C3 .
L2 e, pertanto, non è frequente; di conseguenza, {I1, I3, I5} viene rimosso da C 3 .
12
I sottoinsiemi di {I2, I4, I5} sono {I2, I4}, {I2, I5} e {I4, I5}; {I4, I5} non è un membro di
Pertanto possiamo rimuovere gli ultimi cinque insiemi da C3, risparmiandoci lo sforzo di ottenere
inutilmente i loro conteggi durante la successiva scansione di D per determinare L 3 . Si noti che,
quando si esamina un dato k-itemset, è necessario verificare soltanto se i suoi (k-1) itemset sono
frequenti, dal momento che l’algoritmo Apriori utilizza la strategia level-wise search.
A questo punto vengono esaminate le transazioni in D al fine di determinare L 3 ; quest’ultimo è
composto da quei 3-itemset candidati in C3 che hanno un support count maggiore di quello minimo
(Tabella 2.6).
–
Itemset Support Count
{I1, I2, I3} 2
{I1, I2, I5} 2
L’algoritmo effettua la join di L3 con se stesso, secondo le regole precedentemente specificate, per generare un insieme candidato C4 di 4-itemset. Sebbene l’operazione di join restituisce
{{I1, I2, I3, I5}}, questo itemset viene eliminato dal momento che il sottoinsieme {I2, I3, I5} non
è frequente. Pertanto C4 = ∅ e l’algoritmo termina, avendo individuato tutti i possibili itemset
frequenti.
2
2.4.2 Generazione di regole associative dagli itemset frequenti
Una volta individuati gli itemset frequenti dalle transazioni di un database D, è immediato generare regole associative forti da essi (si ricordi che, per regole associative forti, intendiamo regole che
soddisfano sia il supporto minimo che la confidenza minima).
Per calcolare la confidenza si utilizza la seguente formula, in cui la probabilità condizionale viene
espressa in termini di support count associato agli itemset:
conf idenza(A ⇒ B) = P rob(B|A) =
support count(A∪B)
support count(A)
dove support count(A ∪ B) è il numero di transazioni che contengono l’unione degli itemset A e
B, mentre support count(A) è il numero di transazioni che contengono l’itemset A.
Basandosi su tale equazione, le regole associative possono essere generate nel seguente modo:
Per ciascun itemset frequente, l, vengono generati tutti i sottoinsiemi non vuoti di l;
Per ciascun sottoinsieme non vuoto s di l, viene restituita la regola:
s ⇒ (l − s)
se
support count(l)
support count(s)
≥ min conf , dove min conf è la minima soglia di confidenza accettabile.
Dal momento che le regole vengono generate da itemset frequenti, ciascuna di esse soddisfa
automaticamente il supporto minimo.
Gli itemset frequenti possono essere memorizzati in tabelle hash, insieme con i loro contatori, in
modo tale che possano essere acceduti velocemente.
Esempio
Consideriamo i dati transazionali visti precedentemente. Si supponga che i dati contengono l’itemset frequente l = {I1, I2, I5}. Quali sono le regole associative che possono essere generate da
l?
I sottoinsiemi non vuoti di l sono {I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2} e {I5}. Le regole
associative risultanti, ciascuna con la corrispondente confidenza, sono le seguenti:
I1 ∧ I2 ⇒ I5 con confidenza = 2/4 = 50%
I1 ∧ I5 ⇒ I2
I2 ∧ I5 ⇒ I1
I1 ⇒ I2 ∧ I5
I2 ⇒ I1 ∧ I5
I5 ⇒ I1 ∧ I2
con
con
con
con
con
confidenza
confidenza
confidenza
confidenza
confidenza
=
=
=
=
=
13
2/2 = 100%
2/2 = 100%
2/6 = 33%
2/7 = 29%
2/2 = 100%
Se la soglia di confidenza minima è pari al 70%, allora soltanto la seconda, la terza e l’ultima delle
regole precedenti vengono restituite, dal momento che soltanto esse risultano essere forti.
2
3
I Recommender System
3.1 Introduzione
I recommender system costituiscono un’importante area di ricerca sin dalla metà degli anni Novanta. I
recommender system sono dei sistemi di supporto alle decisioni utilizzati (in misura sempre maggiore)
dai moderni siti di e-commerce. In particolare, molti siti di e-commerce quali ad esempio Amazon,
sono capaci di generare delle “recommendations”, cioè dei suggerimenti per guidare l’utente nei suoi
acquisti on line.
Un esempio molto semplice di raccomandazione on line è il seguente: consideriamo un utente che,
nel corso della sua interazione con un sito di e-commerce, abbia espresso, in forma esplicita oppure
implicita, preferenze per i libri di un autore di libri gialli. Dopo aver acquisito tali preferenze, il
recommender system assegnerà quell’utente a un gruppo di altri utenti che hanno mostrato di gradire
gli stessi oggetti (i e, successivamente, suggerirà, allo stesso utente, di acquistare quei libri che, in
media, gli utenti del gruppo a cui è stato assegnato hanno poi effettivamente acquistato (ad esempio
altri libri gialli ma di autori diversi). In futuro, è ragionevole assumere che i siti Web che offriranno
servizi di questo tipo si moltiplicheranno sempre di più. Probabilmente nascerà un nuovo modello di
business on line fondato su uno dei più antichi bisogni dell’uomo, ovvero quello di ricevere consigli e
suggerimenti.
In questo capitolo verrà proposta un’analisi dettagliata dei recommender system esistenti e verrà
fornita una loro classificazione.
3.2 Concetti generali
I recommender system sono emersi come area di ricerca indipendente a metà degli anni 90 quando i
ricercatori si concentrarono su problemi di recommendation che, in maniera esplicita, tenevano conto
delle valutazioni (rating) fornite dagli utenti. Nella sua formulazione più comune, il problema della
raccomandazione è ricondotto al problema di stimare i rating per degli oggetti che non sono mai
stati valutati dall’utente. Intuitivamente, questa stima è generalmente basata sui rating che l’utente
attribuisce ad altri oggetti (item) oppure su altre informazioni. Una volta che è stato possibile stimare
i rating per gli oggetti non ancora valutati, sarà possibile suggerire all’utente l’item (o gli item) dotati
del più elevato rating stimato.
In maniera più formale, il problema del recommendation può essere formulato come segue: Sia C
l’insieme di tutti gli utenti di un sito di e-commerce e sia S l’insieme di tutti i possibili item che possono
essere suggeriti (ad esempio libri o film). Lo spazio S degli item possibili può essere estremamente
vasto e, nei casi pratici, può variare da centinaia di migliaia a milioni di oggetti. In modo analogo, lo
spazio degli utenti può essere estrememente vasto e può comprendere in alcuni casi anche milioni di
utenti.
Sia u una funzione di utilità che misura l’utilità di un item s per un utente c. In altre parole, sia
u : C × S ← R, dove R è un insieme totalmente ordinato (ad esempio R potrebbe essere l’insieme
dei numeri interi non negativi oppure l’insieme dei numeri reali appartenenti a un certo intervallo).
Dunque, per ciascun utente c ∈ C, il nostro obiettivo è scegliere gli item s 0 ∈ S che massimizzano la
funzione di utilità u.
16
3 I Recommender System
In maniera più formale:
∀c ∈ C
s0c = arg max u(c, s)
s∈S
(3.1)
Nei recommender system, l’utilità di un item è tipicamente rappresentata da un rating, ovvero
un coefficiente numerico che specifica quanto un particolare oggetto è gradito a un certo utente:
ad esempio un utente come Marco Rossi potrebbe dare 7 punti (su 10) al film “Harry Potter” per
esprimere il suo gradimento del film.
Ciascun elemento dello spazio C può essere definito mediante un profilo che include varie caratteristiche come l’età, il sesso, il reddito annuale, lo stato civile e cosi via. Nel caso più semplice il profilo
può contenere anche un solo elemento (ad esempio, nel caso di applicazioni Web il profilo di un utente
potrebbe coincidere con il suo nickname). In modo analogo, ciascun elemento dello spazio S è definito
da un insieme di caratteristiche. Ad esempio, nel contesto di un applicazione che suggerisce film ai
propri utenti, ciascun film potrebbe essere identificato da un codice, un titolo, un genere, il regista,
l’anno di produzione, l’attore protagonista e cosi via.
Il problema centrale nei recommender system deriva dal fatto che la funzione di utilità non è definita
sull’intero spazio C × S, ma solo su un sottoinsieme di questo spazio. Ciò significa che u deve essere
estrapolato all’intero spazio C × S. Nei recommender system, l’utilità è tipicamente rappresentata
mediante dei rating ed è inizialmente definita solo sugli oggetti che sono stati in passato valutati dagli
utenti. Ad esempio, nel contesto di un sistema di raccomandazione dei film, possiamo assumere che
ciascun utente, inizialmente, attribuisca un punteggio solo ai film che ha visto. I rating degli utenti ai
film possono essere convenientemente rappresentati mediante una matrice (detta user-item matrix);
un esempio di user-item matrix è riportato nella Tabella 3.1.
Utente-Film Harry Potter Memento Kill Bill Notorius
Marco
∅
∅
∅
4
Anna
2
∅
∅
3
Luisa
∅
1
5
∅
Carlo
∅
∅
4
∅
Francesca
3
3
2
∅
Tabella 3.1. Un esempio di matrice user-item.
In questa tabella, gli utenti attribuiscono un punteggio compreso tra 1 e 5 per i film che hanno
visto mentre il simbolo ∅ indica che l’utente non ha ancora visto il film. Pertanto, l’obiettivo di un
algoritmo di un recommender system è quello di stimare (o predire) i rating dei film che non sono stati
valutati.
L’attività di estrapolare rating sconosciuti a partire da rating conosciuti avviene tipicamente in
due fasi:
Ipotizzare che la funzione di utilità abbia una certa forma (ad esempio la funzione di utilità
potrebbe essere una funzione lineare).
Stimare i parametri della funzione di utilità in modo da ottimizzare certi parametri (ad esempio
minimizzare l’errore quadratico medio).
Dopo aver stimato i rating sconosciuti, il sistema associa a ciascun item un potenziale rating e
estrae gli N oggetti che hanno rating più alto. Questi item verranno infine proposti agli utenti come
oggetti potenzialmente rilevanti alle sue esigenze.
Esistono numerose tecniche per stimare i rating di item che non sono stati valutati esplicitamente
dagli utenti. Queste tecniche sono state mutuate dall’Intelligenza Artificiale e dall’approximation theory. I recommender systems sono generalmente classificati in rapporto al loro approccio per la stima
dei rating e, nelle sezioni successive, presenteremo le classificazione proposta in letteratura.
I recommender system sono generalmente classificati nelle seguenti categorie:
Content Based. Gli oggetti saranno suggeriti in base alla loro similarità ad altri oggetti che l’utente
ha in passato mostrato di gradire.
3.3 I metodi Content Based
17
Collaborative Filtering. Un utente riceverà dei suggerimenti su degli oggetti che sono graditi ad
altri utenti che presentano gusti simili ai suoi.
Approcci Ibridi. Questi approcci mescolano caratteristiche delle tecniche content-based e collaborative filtering.
In aggiunta ai recommender system che predicono il valore assoluto di un rating che gli utenti attribuirebbero individualmente agli oggetti non valutati, sono stati prodotti degli importanti contributi
nel settore del preference-based filtering, vale a dire nel predire il valore relativo delle preferenze di
un utente. Sistemi di questo tipo, applicati all’esempio precedente, ci permettono di dire che l’utente
Francesca preferisce il film Memento al film Kill Bill ma non ci dicono se Memento è effettivamente
piaciuto a Francesca.
Nel seguito forniremo una descrizione dettagliata dei sistemi Content-Based e Collaborative
Filtering.
3.3 I metodi Content Based
3.3.1 Caratteristiche Generali
Nei metodi content based, l’utilità u(c, s) di un oggetto s per l’utente c è stimata in base alle utilità
u(c, si ) assegnate dall’utente c agli oggetti si ∈ S che sono “simili” all’oggetto s.
Ad esempio, in un’applicazione di raccomandazione dei film, al fine di suggerire dei film all’utente
c il sistema content-based cerca di identificare gli “elementi comuni” tra i film a cui c ha attribuito un
punteggio elevato nel passato e i film da valutare. Ad esempio se un film ha per autore un regista che
ha diretto film che a c sono piaciuti, il film riceverà un punteggio elevato. Il film che hanno un elevato
grado di similarità con i film che sono piaciuti a c saranno suggeriti a c.
L’approccio content-based ha le sue radici nell’information retrieval e nell’information filtering. A
causa dei significativi risultati ottenuti nel settore dell’information retrieval e a causa della diffusione di
applicazioni di tipo testuale, molti sistemi content-based sono specializzati per suggerire item che contengono informazioni di tipo testuale come ad esempio documenti, siti Web, e notizie. Il miglioramento
rispetto ai sistemi di information retrieval classici deriva dall’utilizzo di profili utente che contengono
informazioni sui gusti, le preferenze e i bisogni degli utenti. L’attività di costruzione del profilo può
avvenire in modo esplicito, vale a dire somministrando dei questionari agli utenti o implicita, ovvero
monitorando il loro comportamento nel tempo e identificando, grazie a questo monitoraggio, i loro
gusti.
In modo più formale, supponiamo che Content(s) sia il profilo di un item, ovvero sia un insieme
di attributi che caratterizzano s. Il profilo di un item viene generalmente calcolato analizzando s ed
estraendo un insieme di caratteristiche (dette feature) che lo descrivono. Il profilo dell’item s verrà
utilizzato per determinare l’aderenza dell’item alle preferenze di un utente. In generale, il profilo
di un item è espresso da una sequenza di parole dette keywords. Ad esempio, in alcuni sistemi di
suggerimento delle pagine Web quali Syskill&Webert, una pagina Web è rappresentata mediante le
128 parole più caratterizzanti che appaiono nella pagina stessa.
Al fine di estrarre le keyword che descrivono un item sono state proposte numerose tecniche.
Una delle tecniche più largamente impiegate fa uso di una parametro detto term frequency/inverse
document frequency o anche TF/IDF. Per definire questo parametro, supponiamo che N sia il numero
totale di documenti che possono essere suggeriti a un utente (ad esempio pagine Web) e si supponga
che la keyword kj appaia in ni documenti. Ad esempio, la collezione di pagine da suggerire potrebbe
essere una sequenza di N = 100 pagine che hanno per oggetto la Borsa; una possibile keyword k i
potrebbe essere “obbligazione” e, infine, se la parola “obbligazione” appare in 35 pagine Web avremo
che ni = 35. Infine, si assuma che la keyword ki appaia fij volte nel documento dj . In questo caso, la
term frequency T Fij di ki in dj è definita come:
T Fij =
fij
maxz fzj
(3.2)
Il termine maxz fzj indica la frequenza della keyword kz che è più frequente in dj e viene introdotta
per normalizzare a 1 il term frequency. Tuttavia, le keyword che appaiono in molti documenti non
sono utili a distinguere i documenti rilevanti da quelli non rilevanti. Pertanto, viene introdotto un
18
parametro detto inverse document frequency (indicato con IDFi ) per ridurre il contributo delle parole
che appaiono in un numero elevato di documenti. L’inverse document frequency viene generalmente
definito come segue:
IDFi = log
N
ni
(3.3)
Da ciò consegue che il peso TF-IDF associato a una keyword ki nel documento dj è definito come:
wij = T Fij × IDFi
(3.4)
mentre il contenuto del documento di è definito come:
Content(dj ) = (w1j , . . . , wkj )
(3.5)
Come detto in precedenza, i recommender system di tipo content-based suggeriscono all’utente
degli oggetti simili a quelli che sono piaciuti all’utente nel passato. In particolare, in presenza di più
oggetti candidati ad essere suggeriti all’utente, una tecnica content based confronta ciascun candidato
con gli oggetti che l’utente ha già valutato nel passato e classificato come oggetti graditi; gli oggetti
che mostrano il più elevato grado di somiglianza verranno poi suggeriti all’utente.
In maniera più formale, sia ContentBasedP rof ile(c) il profilo di c che memorizza i gusti e le
preferenze di c. I profili sono ottenuti analizzando il contenuto degli oggetti precedentemente esaminati
e valutati dall’utente; i profili sono generalmente costruiti usando le tecniche di estrazione delle keyword
definite nell’ambito dell’Information Retrieval. Ad esempio, ContentBasedP rof ile(c) potrebbe essere
definito come un vettore di pesi del tipo (wc1 , . . . , wck ) dove ciascun peso wci indica la rilevanza delal
keyword ki per l’utente c e può essere calcolato usando diverse tecniche. Ad esempio alcuni approcci
usano l’algoritmo di Rocchio mentre altri approcci fanno uso di classificatori bayesiani. Un ulteriore
categoria di approcci usa l’algoritmo di Winnow.
Nei sistemi content based la funzione di utilità u(c, s) è generalmente definita come:
u(c, s) = score(ContentBasedP rof ile(c), Content(s))
(3.6)
Si osservi che sia il profilo dell’utente ContentBasedP rof ile(c) che il profilo Content(s) del docu→e−
→. Inoltre, gli approcci tradizionali
mento s possono essere rappresentati mediante due vettori −
w
w
c
s
dell’Information Retrieval modellano la funzione u(c, s) pplicando la nozione di coseno-similarità:
−
→·−
→
w
c ws
→, −
→) =
u(c, s) = cos(−
w
w
c
s
→|| × ||−
→||
||−
w
w
c
s
(3.7)
Accanto alle tecniche basate sull’Information Retrieval, esistono tecniche basate sul Data Mining e
la Statistica quali i classificatori Bayesiani e numerose applicazioni delle tecniche di machine learning
quali clustering, alberi di decisione e reti neurali. Queste tecniche non applicano formule euristiche per
predire l’utilità di un oggetto per un utente ma si basano su un modello costruito mediante tecniche
statistiche.
3.3.2 I Limiti dei Sistemi Content Based
Il limite principale dei sistemi Content Based deriva dalla necessità di analizzare un oggetto ed estrarre le sue caratteristiche (feature). Questo processo può essere realizzato in modo automatico se l’oggetto è associato a una descrizione testuale ma è estremamente complicato analizzare flussi di dati
multimediali (ad esempio uno stream video).
Un secondo problema deriva dal fatto che se due oggetti sono descritti dallo stesso insieme di
features, allora essi sono indistinguibili.
Un terzo problema è costituito dall’overspecialization. In altre parole un sistema content based
identifica oggetti che hanno un forte grado di correlazione con il profilo dell’utente; gli oggetti individuati potrebbero essere molto simili tra di loro e, di conseguenza, la qualità dei suggerimenti (e la
loro utilità per l’utente) potrebbe essere bassa. Ad esempio se ad un utente piace un film di Woody
Allen non è una buona idea quella di suggerirgli tutti i film di Woody Allen ma sarebbe opportuno
creare una lista di suggerimenti tra loro diversificati.
3.4 I metodi Collaborative Filtering
19
Infine un quarto problema è il cosiddetto new user problem. Se un utente ha valutato pochi oggetti,
il sistema ha a disposizione poche informazioni sui gusti dell’utente e, dunque, potrebbe non essere in
grado di identificare i suoi gusti.
3.4 I metodi Collaborative Filtering
3.4.1 Caratteristiche Generali
Il Collaborative Filtering adotta un approccio che tiene maggiormente conto delle implicazioni sociali
del procedimento di raccomandazione. Invece di raccomandare elementi simili a quelli che l’utente ha
dimostrato di gradire in passato, esso raccomanda elementi che altri utenti simili hanno dimostrato
di gradire.
A livello umano, questa tecnica è utilizzata ogni volta che qualcuno basa le proprie azioni (ad
esempio, andare o meno a vedere un film) sui consigli ricevuti dalle persone che egli sa solitamente
essere d’accordo con lui, tipicamente gli amici.
Gli algoritmi più utilizzati nel contesto del collaborative filtering (nonché i primi proposti) sono
stati quelli basati sul vicinato (neighborhood-based). In questi metodi, fissato un utente u, viene selezionato un sottoinsieme di utenti sulla base della loro similarità con u. Ciascuno degli utenti selezionati
esprime un opinione su un oggetto e queste opinioni vengono aggregate per determinare un punteggio
numerico (score). Lo score rappresenta quanto un oggetto è gradito o no all’utente attivo u.
In genere i metodi neighbourhood-based possono essere separati in tre passi:
1. Pesare tutti gli utenti sulla base della similarità con l’utente attivo.
2. Selezionare un sottoinsieme degli utenti per usarli come predittori (possibilmente per ogni singola
predizione).
3. Normalizzare i voti e calcolare una predizione come combinazione pesata dei voti dei vicini
selezionati.
Per il passo 1 sono possibili innumerevoli soluzioni, tra le quali meritano di essere citare le seguenti:
coefficiente di correlazione di Pearson;
coefficiente di correlazione di Spearman;
coseno dell’angolo tra vettori;
misure di incertezza basate sull’entropia;
differenza quadrata media
Il coefficiente di correlazione di Pearson garantisce i migliori risultati. Il coefficiente di correlazione
di Pearson wa,u tra l’utente a e l’utente u è definito come segue:
Pm
(ra,i − ra ) ∗ (ru,i − ru )
wa,u = i=1
σa ∗ σ u
dove m è il numero di oggetti co-valutati; ra, i è il voto dato dall’utente a all’oggetto i; r a è la
media dei voti di a e σa è la varianza dei voti di a.
Il coefficiente di correlazione di Spearman, invece di utilizzare i voti veri e propri (rating), li aggrega
prima in classi di voto (rank) ed è cosı̀ definito:
Pm
(ranka,i − rank a ) ∗ (ranku,i − rank u )
wa,u = i=1
σa ∗ σ u
Il coseno dell’angolo tra due vettori è una misura molto usata in Information Retrieval. Nel caso
del Collaborative Filtering gli utenti possono essere considerati come vettori di valutazioni su oggetti
conducendo alla seguente formula:
wa,u =
m
X
i=1
v
qP a,i
m
k=1
2
va,k
vu,i
∗ qP
m
k=1
2
va,k
dove i denominatori servono per normalizzare i voti in modo che gli utenti che votano più oggetti
non siano a priori più simili agli altri utenti.
20
La misura di associazione basata sull’entropia usa tecniche di probabilità condizionata per misurare
la riduzione di entropia dei voti dell’utente attivo che risulta dalla conoscenza dei voti di un altro
utente.
Indipendentemente dalla scelta del grado di similarità tra utenti prescelto, per predire il valore di
gradimento dell’oggetto i da parte dell’utente a, viene utilizzata la seguente formula
Pn
(ru,i − ru ) ∗ wa,u
pa,i = ra + u=1 Pn
u=1 wa,u
ovvero si somma alla media dei voti dell’utente a la media pesata delle deviazioni dalla media dei
vicini; pa,i rappresenta la predizione per l’agente attivo a relativamente all’oggetto i, n è il numero
dei vicini, ru,i è il voto dato da u all’oggetto i, r a la media dei voti dati da a e wa,u è la misura di
similarità tra l’utente u e quello attivo a (usata come peso).
3.4.2 I Limiti del Collaborative Filtering
Gli oggetti appena inseriti nel sistema (un film o un libro appena usciti, un ristorante appena
inaugurato) non hanno ancora ricevuto voti e quindi le previsioni relativamente ad essi non sono
possibili. In seguito, le predizioni saranno influenzate esclusivamente dai pochi utenti che le hanno
valutate per primi. In maniera simile, un utente che entra nel sistema, non avendo ancora espresso
voti, non può essere confrontato con gli altri sulla base delle sue opinioni e quindi non è possibile
produrre raccomandazioni.
L’utente comunque per essere comparato con gli altri e ricevere i suggerimenti deve fare lo sforzo
di esprimere la sua opinione sul maggior numero possibile di oggetti e questo richiede uno sforzo
da parte dell’utente.
In molti domini, il numero degli oggetti eccede di molto il numero che ogni individuo può assorbire
e valutare (si pensi a quanto detto precedentemente riguardo ai film prodotti in un anno) e quindi
il grado di sovrapposizione tra due utenti è molto basso.
Se il numero di utenti non è eccessivamente elevato, ci possono essere individui con gusti inusuali
che non beneficiano del sistema in quanto le loro opinioni non concordano né discordano in maniera
decisa con alcuno degli altri.
4
Il credit scoring e la Classificazione
4.1 Introduzione
Quando un soggetto viene considerato insolvente? In particolare, un’impresa è considerata insolvente
solo quando iniziano le procedure di fallimento oppure anche prima può essere considerata tale?
Il problema di valutare la capacità di un azienda o di un soggetto privato di onorare un mutuo o
un prestito prende, in letteratura il nome di credit scoring. Il credit scoring costituisce un argomento
di valore centrale nella letteratura economica e finanziaria e, negli ultimi anni, sono stati proposti
molteplici strumenti per la valutazione del rischio di credito. Gli strumenti proposti fanno largo uso
di tecnologie e algoritmi definiti nel contesto del Data Mining. In questo capitolo verrà illustrato il
concetto di rischio di credito e verrà presentato un approccio per la valutazione del rischio di credito.
4.2 Background culturale
Secondo la teoria classica, è necessario distinguere tra insolvenza in senso statico e dinamico. In
particolare, la prima si verifica quando limpresa ha un capitale netto negativo (ovvero i ricavi sono
inferiori alle spese), mentre la seconda accade quando il cash flow aziendale è insufficiente a coprire
tutti i pagamenti richiesti. Successivamente, una parte della letteratura ha legato il concetto di rischio
di insolvenza a quello di financial distress, ovvero quando il cash flow operativo aziendale non permette
di poter far fronte alle obbligazioni correnti.
La valutazione del rischio di credito è affidata ad apposite società, dette società di rating. Ciascuna
società è dotata di una regolamentazione interna per poter definire, in maniera oggettiva e quantitativa
il rischio di credito. Ad esempio la definizione suggerita dall’agenzia di Standard & Poor’s (S&P),
dichiara che “si ha default (ovvero insolvenza) quando vengono meno la capacità o la volontà del
debitore di tenere fede ai suoi impegni finanziari relativi a unobbligazione, rispettandone i termini
originari”.
In particolare si ha insolvenza nei seguenti casi:
Quando un pagamento di interessi e/o capitale è dovuto e non viene effettuato;
In seguito ad unofferta di ristrutturazione del debito che ne riduce chiaramente il valore totale.
Nonostante la definizione di insolvenza da parte degli istituti finanziatori sia completamente libera,
si è resa sempre più necessaria la creazione di uno standard per la definizione di tale problema, dunque
molte aziende di credito tendono comunemente ad identificare il default con il momento del passaggio in
sofferenza. Rispetto al concetto di “sofferenza”, la Banca Centrale Europea ha elaborato un insieme
di informazioni statistiche sul rischio di insolvenza basate proprio su tale concetto in una versione
rettificata per tener conto di eventuali difformità di giudizio da parte delle banche segnalanti.
In particolare, dal momento che la solidità patrimoniale degli istituti di credito è un fattore driver
nello sviluppo economico, diviene prioritario definire delle procedure generali. A questo scopo gli enti
regolatori del G10 (composto attualmente da undici paesi) più il Lussemburgo hanno definito gli
Accordi di Basilea, ovvero delle linee guida in materia di requisiti patrimoniali delle banche.
Il primo accordo è stato siglato nel 1988 ed è nto con il nome di Accordo di Basilea I. L’accordo
conteneva la prima definizione e la prima misura (standard) del capitale minimo bancario accettate
22
4 Il credit scoring e la Classificazione
a livello internazionale. L’assunto di fondo è che a ciascuna operazione di prestito deve corrispondere
una quota di capitale da detenere a scopo precauzionale (l’ onere di capitale). Per un gruppo bancario,
il patrimonio di vigilanza bancario deve essere pari ad almeno l’8% delle attività creditizie ponderate
per il rischio di credito (Coefficiente di solvibilità). L’Accordo di Basilea obbligava le banche ad
accantonare l’8% del capitale erogato, non investibile in attività creditizia tipica, né in attività paraassicurative, né in operazioni finanziarie sui mercati mobiliari, al fine di garantire solidità e fiducia nel
sistema creditizio.
Col tempo, l’Accordo si è rivelato inadatto. In particolare la sua inadeguatezza deriva dalla presenza di nuovi prodotti finanziari e dall’emergere di nuovi mercati bancari. In particolar modo, non
vengono presi in considerazione i rischi derivanti dalle operazioni sui mercati immobiliari e non sono
accuratamente misurati i rischi di credito, che vengono piuttosto sottostimati. In pratica, a fronte del
rispetto apparente della formula di Basilea I, il management bancario è incentivato a:
Concedere i tradizionali prestiti alle controparti relativamente più rischiose;
Intraprendere operazioni finanziarie innovative sempre più sofisticate e con un basso o nullo onere
di capitale corrispondente.
Inoltre Basilea I valutava le aziende in base a requisiti molto semplificati: da quanto tempo esisteva un certa azienda, il suo patrimonio e la ragione sociale. Basilea I considerava solo la “storia”
patrimoniale di una ditta, e della capacità attuale di rimborso della stessa, senza avere la possibilità di
valutare se, quanto e in quanto tempo la ditta avrebbe generato reddito. Questo induceva un notevole
immobilismo e penalizzava fortemente tutta una serie di settori e di investimenti, primi fra tutti quelli
sull’innovazione e sulla ricerca.
Per far fronte a queste nuove problematiche si è provveduto ad una revisione dell’Accordo,
culminata con il cosiddetto Basilea II.
L’elemento di maggiore interesse di Basilea II per noi è costituito dalla definizione di nuove procedure di rating. Il rating è l’insieme di procedure di analisi e di calcolo grazie al quale una banca valuta
quanto un cliente sia rischioso e quanto sarà produttivo in futuro, se gli venisse concesso il credito
che chiede. Tramite il rating si calcola la probabilità di default ovvero la Pd (probability of default)
associata ad ogni classe di rischio misurata negli anni passati, si raccolgono nuove informazioni sulla
capacità di generare reddito futuro del beneficiario.
Il rating di Basilea II cambia notevolmente rispetto al passato ed è improntato a una notevole
flessibilità, restando però vincolato ad un controllo incrociato di enti interni ed esterni all’istituto.
Basilea II, infatti, introduce la possibilità, per gli istituti di credito, di affiancare ai rating emessi dalle
agenzie specializzate, Ecai (External Credit Assessment Institution), rating prodotti al proprio interno.
Ciò significa che le banche potranno dotarsi di strumenti particolareggiati volti alla misurazione del
rischio. Oltra alla metodologia standard, troviamo il metodo di misurazione IRB (Internal Rating
Based Approach), diviso a sua volta nel metodo di base e nel metodo avanzato.
Questa novità procedurale fornisce molte più informazioni rilevanti e permette di fare valutazioni
molto più concrete e realistiche.
4.3 La Classificazione
4.4 Caratteristiche generali
La classificazione è una forma di analisi dei dati che viene utilizzata per estrarre modelli che descrivono importanti classi di dati. Il problema della classificazione consiste nellattribuire le osservazioni
sperimentali a una tra c differenti categorie già note. Nel caso del credit scoring le categorie possibili
sono due : buon pagatore e cattivo pagatore.
Molti metodi di classificazione sono stati proposti da ricercatori nel campo del machine learning,
dei sistemi esperti, della statistica e della neurobiologia. Recentemente sono state sviluppate ricerche specifiche di Data Mining su tale argomento; queste hanno portato allo sviluppo di tecniche di
classificazione scalabili, capaci di gestire grandi quantità di dati.
4.5 I Classificatori Bayesiani
23
4.5 I Classificatori Bayesiani
I classificatori bayesiani sono classificatori statistici che hanno lo scopo di predire le probabilità di
appartenenza di classe; con questo termine si intende la probabilità che un determinato campione
appartenga ad una particolare classe.
In particolare, nel credit scoring abbiamo due possibili categorie di classe ovvero (i) “Buoni” e (ii)
“Cattivi” clienti.
La classificazione Bayesiana è basata sul teorema di Bayes, descritto successivamente.
4.5.1 Teorema di Bayes
Il teorema di Bayes prende il nome da Thomas Bayes, un sacerdote inglese che concentrò la sua
attenzione sugli studi di probabilità e statistica nel XVIII secolo.
Sia X un campione di dati la cui etichetta di classe è sconosciuta. Nel nostro caso X è un insieme
di clienti di una banca. Sia H l’ipotesi che X appartenga ad una specifica classe C (che nel nostro caso
potrebbe essere la classe dei buoni o dei cattivi). Per i problemi di classificazione, vogliamo determinare
P (H|X), ovvero la probabilità che valga l’ipotesi H dato il campione di dati osservato X.
P (H|X) è la probabilità a posteriori di H condizionata su X. Per esempio, si supponga che che X
sia un campione di soggetti che hanno un contratto a tempo indeterminato e che H sia l’ipotesi che
X sia un buon pagatore. Allora P (H|X) riflette la nostra confidenza che X sia capace di onorare un
mutuo dato che sappiamo che X ha un contratto a tempo indeterminato.
Al contrario, P (H) è la probabilità a priori di H. Nel nostro esempio, questa è la probabilità che un
determinato campione di dati sia un buon cliente, a prescindere dalla sua condizione occupazionale.
La probabilità a posteriori, P (H|X) è basata su più informazioni (ad esempio, la conoscenza di
background) rispetto alla probabilità a priori P (H), che è indipendente da X.
Similmente, P (X|H) è la probabilità a posteriori di X condizionata su H. Essa è la probabilità
che X sia rossa e rotonda nel momento in cui sappiamo che X è una mela.
P (X) è la probabilità a priori di X. Usando il nostro esempio, essa è la probabilità che un dato
campione del nostro insieme di clienti abbia un contratto a tempo indeterminato.
Il Teorema di Bayes è utile in quanto esso fornisce un modo per calcolare la probabilità a posteriori,
P (H|X), da P (H), P (X) e P (X|H). Tale teorema ci dice che:
P (X|H)P (H)
P (X)
Nella prossima sezione vedremo come tale teorema viene utilizzato nel classificatore Bayesiano
naive.
P (H|X) =
4.5.2 Classificazione bayesiana naive
Il classificatore bayesiano naive, o classificatore bayesiano semplice, opera nel seguente modo:
1. Ciascun campione di dati viene rappresentato da un vettore di caratteristiche n-dimensionali X =
(x1 , x2 , . . . , xn ), che descrive le misure effettuate sul campione e corrispondenti agli n attributi,
A1 , A2 , . . . , An , rispettivamente. Ad esempio le caratteristiche nel nostro caso potrebbero essere il
reddito, il tipo di contratto, il possesso di beni mobili, il possesso di beni immobili e cosi via.
2. Si supponga che vi siano m classi, C1 , C2 , . . . , Cm . Dato un campione di dati sconosciuto, X (che
non ha nessuna etichetta di classe), il classificatore predirà che X appartiene alla classe che ha la
più alta probabilità a posteriori, condizionata su X.
In altre parole, il classificatore bayesiano naive assegna un campione sconosciuto X alla classe C i
se e solo se:
P (Ci |X) > P (Cj |X) per 1 ≤ j ≤ m, j 6= i
Pertanto, lo scopo del metodo è quello di massimizzare P (Ci |X). La classe Ci per cui P (Ci |X)
viene massimizzata è denominato ipotesi a posteriori massima.
Per il teorema di Bayes si ha:
P (Ci |X) =
P (X|Ci )P (Ci )
P (X)
24
4 Il credit scoring e la Classificazione
3. Poiché P (X) è costante per tutte le classi, è necessario massimizzare solo P (X|C i )P (Ci ). Se le
probabilità a priori delle varie classi non sono note, allora viene comunemente assunto che le
classi siano tutte ugualmente probabili, ovvero P (C1 ) = P (C2 ) = . . . = P (Cm ). Se tale ipotesi è
verificata sarà necessario massimizzare soltanto P (X|Ci ); in caso contrario, si dovrà massimizzare
il prodotto P (X|Ci )P (Ci ).
Si noti che la probabilità a priori di classe può essere stimata da P (Ci ) = ssi , dove si è il numero
di training sample della classe Ci , e s è il numero totale di training sample.
4. Quando i dati in esame possiedono molti attributi, è estremamente costoso, dal punto di vista
computazionale, calcolare P (X|Ci ).
Al fine di ridurre il costo della valutazione di P (X|Ci ), viene considerata l’assunzione naive di
indipendenza condizionale di classe.
Questa presume che i valori degli attributi siano condizionalmente indipendenti l’un l’altro, ovvero
che non vi è alcuna relazione di dipendenza tra gli attributi. In altre parole, l’assunzione prevede
che:
Y
P (xk |Ci )
P (X|Ci ) =
k=1..n
Le probabilità P (x1 |Ci ), P (x2 |Ci ), . . ., P (xn |Ci ) possono essere stimate dai training sample, come
di seguito specificato:
s
Se Ak è categorico, allora P (xk |Ci ) = siik , dove sik è il numero di training sample della classe
Ci che hanno il valore xk per Ak , e si è il numero di training sample appartenenti a Ci .
Se Ak è a valori continui, allora si assume, tipicamente, che esso abbia una distribuzione
gaussiana:
P (xk |Ci ) = g(xk , µCi , σCi )
dove g(xk , µCi , σCi ) è la funzione di densità (normale) gaussiana per l’attributo Ak ; µCi e σCi
sono, rispettivamente, la media e la deviazione standard derivate dai valori dell’attributo A k
per i training sample della classe Ci .
5. Al fine di classificare un campione sconosciuto X, è necessario valutare P (X|C i )P (Ci ) per ciascuna
classe Ci . Il campione X viene, quindi, assegnato alla classe Ci se e solo se:
P (X|Ci )P (Ci ) > P (X|Cj )P (Cj ) per 1 ≤ j ≤ m, j 6= i
In altre parole, esso viene assegnato alla classe Ci per cui P (X|Ci )P (Ci ) è massimo.
5
Il Forex e la predizione
5.1 Introduzione
Il mercato Forex (abbreviazione di Foreign Exchange Market) è un mercato monetario creato nel 1971.
Il Forex consiste nell’acquistare o vendere valuta, realizzando un guadagno sul valore di cambio.
Il volume medio giornaliero di scambi monetari che si verificano nel Forex è enorme. In particolare, secondo uno studio della Banca dei Regolamenti internazionali, il turnover giornaliero medio sui
mercati forex tradizionali è stimato ammontare a 1.880 miliardi di dollari.
Alla fine della seconda guerra mondiale vennero conclusi degli accordi (denominati Bretton Woods
Agreement) impediva la speculazione sui mercati valutari. Lo scopo degli accordi di Bretton Woods
era stabilizzare le valute internazionali e prevenire la fuga dei capitali tra le nazioni. Questi accordi
fissarono un tasso di cambio tra tutte le valute ed il dollaro e fissarono il tasso di cambio tra il dollaro
e l’oro (35 dollari per oncia).
Gli accordi di Bretton Woods furono abbandonati nel 1971, e in seguito a ciò il dollaro non fu più
convertibile in oro. A partire dal 1973, le valute delle nazioni maggiormente industrializzate divennero
più liberamente fluttuanti, essendo spinte principalmente dalle forze dell’offerta e della domanda. I
prezzi erano formati da volumi, velocità e volatilità crescenti durante gli anni 70. Ciò porto alla nascita
di nuovi strumenti finanziari, alla deregolazione del mercato e al libero scambio.
Negli anni 80 i movimenti internazionali di capitali ebbero un’accelerazione per l’avvento dell’informatica ed il mercato divenne continuo, con scambi che si svolgevano tra i continenti asiatico, europeo
ed americano, ed i relativi fusi orari.
In questo capitolo illustreremo delle tecniche per effettuare la predizione.
5.2 La Predizione
La Predizione di valori continui può essere modellata tramite tecniche statistiche di regressione. Per
esempio, potremmo voler sviluppare un modello per predire lo stipendio dei laureati con 10 anni di
esperienza lavorativa oppure le vendite potenziali di un nuovo prodotto a partire dal suo prezzo.
L’approccio più utilizzato per la predizione numerica è la regressione, una metodologia statistica
sviluppata nell’‘800 da Galton.
La regressione modella la relazione tra una o più variabili predittore indipendenti e una variabile
risposta dipendente (quest’ultima è una variabile a valori continui). In genere, i valori delle variabili
predittore sono note (tuttavia esistono tecniche per gestire i casi in cui tali valori possono mancare).
Molti dei problemi pratici possono essere risolti mediante la regressione lineare e molti altri ancora
possono essere affrontati applicando trasformazioni alle variabili in modo tale che un problema non
lineare possa essere convertito in uno lineare.
In questo corso non forniremo una descrizione dettagliata della regressione ma, semplicemente,
un’introduzione intuitiva al problema.
5.2.1 Regressione lineare e multipla
Nella regressione lineare i dati vengono modellati utilizzando una linea retta. La regressione lineare è
la forma più semplice di regressione.
26
5 Il Forex e la predizione
La regressione lineare bivariata modella una variabile casuale Y (denominata variabile risposta)
come una funzione lineare di un’altra variabile casuale X (denominata variabile predittore), ovvero:
Y = α + βX
dove si assume che la varianza di Y è costante e α e β sono i coefficienti di regressione che specificano
il valore sull’asse delle Y e la pendenza della retta, rispettivamente.
Tali coefficienti possono essere individuati mediante il metodo dei minimi quadrati che minimizza
l’errore tra i dati reali e la stima che essa fornisce.
Dati s campioni, o punti, della forma (x1 , y1 ), (x2 , y2 ), . . . , (xs , ys ), il metodo dei minimi quadrati
stima i coefficienti di regressione mediante la seguente formula:
Ps
(x − x)(yi − y)
Ps i
β = i=1
2
i=1 (xi − x)
α = y − βx
dove x è la media di x1 , x2 , . . . , xs e y è la media di y1 , y2 , . . . , ys . I coefficienti α e β forniscono,
spesso, buone approssimazioni ad equazioni di regressione altrimenti complicate.
Esempio 5.1. Si consideri la Tabella 5.1 che mostra un insieme di dati accoppiati dove X è il numero
di anni di esperienza di lavoro di un laureato e Y è il corrispondente stipendio.
Anni di Esperienza - X Stipendio (in migliaia di Euro) - Y
3
30
8
57
9
64
13
72
3
36
6
43
11
59
21
90
1
20
16
83
Tabella 5.1. Dati sugli stipendi
Supponiamo che lo stipendio possa essere correlato al numero di anni di esperienza lavorativi
mediante l’equazione Y = α + βX.
A partire dai dati specificati sopra, calcoliamo x = 9.1 e y = 55.4. Sostituendo questi valori nelle
equazioni precedenti, otteniamo:
β=
(3 − 9.1)(30 − 55.4) + (8 − 9.1)(57 − 55.4) + . . . + (16 − 9.1)(83 − 55.4)
= 3.5
(3 − 9.1)2 + (8 − 9.1)2 + . . . + (16 − 9.1)2
α = 55.4 − (3.7)(9.1) = 23.6
Pertanto, l’equazione della retta dei minimi quadrati è stimata da Y = 23.6 + 3.5X. Utilizzando
questa equazione, è possibile predire che lo stipendio di un laureato con 10 anni di esperienza è 58.600
euro.
La regressione multipla è un’estensione della regressione lineare che coinvolge più di una variabile
predittore. Essa consente che una variabile risposta Y venga modellata come una funzione lineare di
un vettore multidimensionale di caratteristiche.
Un esempio di modello di regressione multipla basato su due variabili predittori X 1 e X2 è il
seguente:
Y = α + β 1 X1 + β 2 X2
I valori di α, β1 e β2 possono essere predetti applicando il metodo dei minimi quadrati.
2
5.2 La Predizione
27
5.2.2 Regressione non lineare
La regressione polinomiale può essere modellata aggiungendo termini polinomiali al modello lineare di
base. Applicando opportune trasformazioni alle variabili è possibile convertire un modello non lineare
in uno lineare che può essere risolto mediante il metodo dei minimi quadrati.
Esempio 5.2. Si consideri una relazione polinomiale cubica data da:
Y = α + β 1 X + β 2 X 2 + β3 X 3
Per convertire questa equazione nella forma lineare, definiamo nuove variabili
X1 = X
X2 = X 2
X3 = X 3
A questo punto si ottiene l’equazione
Y = α + β 1 X1 + β 2 X2 + β 3 X3
che può essere risolta con il metodo dei minimi quadrati.
Alcuni metodi sono intrattabilmente non lineari (ad esempio, la somma di termini esponenziali) e
non possono essere convertiti in un modello lineare.
Per tali casi è possibile ottenere delle stime sui minimi quadrati attraverso molti calcoli effettuati
su formule più complesse.
2

pdf - Pasquale De Meo

Transcript

Documenti analoghi

lo spazio virtuale

Modello binario ad un periodo. Consideriamo un mercato finanziario

E-Commerce - Camere di Commercio

testi - Disfida matematica

Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene

TEST STATISTICI PARAMETRICI

RATING TERNA