DBG DB MG - DataBase and Data Mining Group

Transcript

DBG DB MG - DataBase and Data Mining Group
Business Intelligence
Progetti di analisi di dati
B
D MG
Data Base and Data Mining Group of Politecnico di Torino
AA 2011-2012 - Politecnico di Torino
Obiettivo
„
Utilizzo di una tecnica di data mining per
analizzare un dataset reale
„
R
Regole
l di associazione
i i
„
„
„
Clustering
„
„
„
„
Effettuare più sessioni di analisi con un algoritmo
specifico (e.g., K
K-Means)
Means)
Variare i parametri di input e
Valutare gli indici di qualità (e.g., SSE, rand index)
Classificazione
„
„
DB
MG
Effettuare più sessioni di analisi
Variare gli indici di qualità (e.g., supporto, confidenza,
lift)
Effettuare più sessioni di analisi con almeno 2 algoritmi
di classificazione (e.g., alberi di decisione, reti neurali)
Validare i risultati ottenuti
2
Obiettivo
„
Datasets reali
„
Internet Advertisements Data Set
„
„
Abalone Data Set
„
„
http://archive.ics.uci.edu/ml/datasets/Poker+Hand
Adult Data Set
„
DB
MG
http://archive.ics.uci.edu/ml/datasets/Abalone
Poker Hand Data Set
„
„
htt // hi i
http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements
i d / l/d t t /I t
t Ad ti
t
http://archive.ics.uci.edu/ml/datasets.html
3
Datasets
Dataset
Descrizione
Task di base
Tipi di
attributi
#
Istanze
#
Attributi
Internet
Advertisements
dataset
Insieme di advertisement su
pagine web.
web Gli attributi
codificano: la geometria
dell'immagine, le URL, l'attributo
alt delle immagini, etc.
Classificazione
Categorici
Interi
Reali
3279
1558
Abalone
dataset
Ogni record,
record che descrive un
abalone (“orecchia di mare”),
contiene le informazioni relative
a: sesso, lunghezza, diametro,
peso, etc.
Classificazione
(previsione
dell'età degli
abalone)
Categorici
Interi
Reali
4177
8
Poker Hand
dataset
Ogni record rappresenta una
mano di poker caratterizzata da 5
carte da gioco estratte da un
mazzo standard di 52 carte. Ogni
carta è descritta usando due
attributi (seme e valore).
Classificazione
(previsione delle
mani di poker)
Categorici
Interi
1025010
11
Adult dataset
Collezione di dati estratti dal
database Census del 1994. Ogni
record contiene le informazioni
relative a: età, classe di lavoro,
livello di istruzione, occupazione,
stato civile, sesso, etc..
Classificazione
(previsione sul
reddito: >|<
$50K/anno)
Categorici
Interi
48842
14
DB
MG
4
Regole
„
„
Gruppi di
d massimo due
d persone
Ogni gruppo deve
„
Effettuare diverse sessioni di analisi su un dataset
utilizzando il tool RapidMiner
„
„
„
„
Link al software sul sito web
Analizzare i risultati e sintetizzarli in grafici
Preparare una breve ma completa relazione sulle
attività svolte
Presentare i risultati ai compagni di corso in 15
minuti
DB
MG
„
5 minuti di
d presentazione a testa e 5 di
d domande
d
d
5
Date importanti
„
„
La relazione e i lucidi della presentazione
devono essere consegnate via mail a Tania
Cerquitelli entro il giorno 23/1/2012
Le presentazioni saranno svolte nella
settimana 23/1 – 27/1/2012
DB
MG
6
Valutazione
„
Gli studenti che svolgono il progetto
sosterranno un esame orale ridotto
„
„
Una sola domanda su un argomento di data
mining diverso da quello trattato nel progetto
Ogni studente del gruppo sarà valutato con
un punteggio in trentesimi
„
Tale voto sarà mediato con il voto conseguito
all’esame
all
esame orale ridotto
DB
MG
7
Per svolgere il progetto
„
Ogni gruppo deve inviare una mail a Tania
Cerquitelli per comunicare la formazione del
gruppo
„
„
Oggetto della mail: Business intelligence –
Progetto
Consulenza per le tesine durante i laboratori
di gennaio (9 ore totali)
DB
MG
8
Scadenze
„
Invio della mail di definizione del gruppo
„
„
„
„
„
entro il 21/12/2011
entro il 10/1/2012
Le assegnazioni dei progetti saranno
pubblicate sul sito web entro due giorni dopo
la scadenza
Consegna progetti 23/1/2012
Presentazioni: settimana 23/1 – 27/1/2012
DB
MG
9