DBG DB MG - DataBase and Data Mining Group
Transcript
DBG DB MG - DataBase and Data Mining Group
Business Intelligence Progetti di analisi di dati B D MG Data Base and Data Mining Group of Politecnico di Torino AA 2011-2012 - Politecnico di Torino Obiettivo Utilizzo di una tecnica di data mining per analizzare un dataset reale R Regole l di associazione i i Clustering Effettuare più sessioni di analisi con un algoritmo specifico (e.g., K K-Means) Means) Variare i parametri di input e Valutare gli indici di qualità (e.g., SSE, rand index) Classificazione DB MG Effettuare più sessioni di analisi Variare gli indici di qualità (e.g., supporto, confidenza, lift) Effettuare più sessioni di analisi con almeno 2 algoritmi di classificazione (e.g., alberi di decisione, reti neurali) Validare i risultati ottenuti 2 Obiettivo Datasets reali Internet Advertisements Data Set Abalone Data Set http://archive.ics.uci.edu/ml/datasets/Poker+Hand Adult Data Set DB MG http://archive.ics.uci.edu/ml/datasets/Abalone Poker Hand Data Set htt // hi i http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements i d / l/d t t /I t t Ad ti t http://archive.ics.uci.edu/ml/datasets.html 3 Datasets Dataset Descrizione Task di base Tipi di attributi # Istanze # Attributi Internet Advertisements dataset Insieme di advertisement su pagine web. web Gli attributi codificano: la geometria dell'immagine, le URL, l'attributo alt delle immagini, etc. Classificazione Categorici Interi Reali 3279 1558 Abalone dataset Ogni record, record che descrive un abalone (“orecchia di mare”), contiene le informazioni relative a: sesso, lunghezza, diametro, peso, etc. Classificazione (previsione dell'età degli abalone) Categorici Interi Reali 4177 8 Poker Hand dataset Ogni record rappresenta una mano di poker caratterizzata da 5 carte da gioco estratte da un mazzo standard di 52 carte. Ogni carta è descritta usando due attributi (seme e valore). Classificazione (previsione delle mani di poker) Categorici Interi 1025010 11 Adult dataset Collezione di dati estratti dal database Census del 1994. Ogni record contiene le informazioni relative a: età, classe di lavoro, livello di istruzione, occupazione, stato civile, sesso, etc.. Classificazione (previsione sul reddito: >|< $50K/anno) Categorici Interi 48842 14 DB MG 4 Regole Gruppi di d massimo due d persone Ogni gruppo deve Effettuare diverse sessioni di analisi su un dataset utilizzando il tool RapidMiner Link al software sul sito web Analizzare i risultati e sintetizzarli in grafici Preparare una breve ma completa relazione sulle attività svolte Presentare i risultati ai compagni di corso in 15 minuti DB MG 5 minuti di d presentazione a testa e 5 di d domande d d 5 Date importanti La relazione e i lucidi della presentazione devono essere consegnate via mail a Tania Cerquitelli entro il giorno 23/1/2012 Le presentazioni saranno svolte nella settimana 23/1 – 27/1/2012 DB MG 6 Valutazione Gli studenti che svolgono il progetto sosterranno un esame orale ridotto Una sola domanda su un argomento di data mining diverso da quello trattato nel progetto Ogni studente del gruppo sarà valutato con un punteggio in trentesimi Tale voto sarà mediato con il voto conseguito all’esame all esame orale ridotto DB MG 7 Per svolgere il progetto Ogni gruppo deve inviare una mail a Tania Cerquitelli per comunicare la formazione del gruppo Oggetto della mail: Business intelligence – Progetto Consulenza per le tesine durante i laboratori di gennaio (9 ore totali) DB MG 8 Scadenze Invio della mail di definizione del gruppo entro il 21/12/2011 entro il 10/1/2012 Le assegnazioni dei progetti saranno pubblicate sul sito web entro due giorni dopo la scadenza Consegna progetti 23/1/2012 Presentazioni: settimana 23/1 – 27/1/2012 DB MG 9