Corso di Elementi di Data Mining - Prof. M. Romanazzi
Transcript
Corso di Elementi di Data Mining - Prof. M. Romanazzi
1 Università Ca’ Foscari di Venezia Corso di Elementi di Data Mining - Prof. M. Romanazzi Esercitazione Finale 15 Dicembre 2015 Cognome e Nome Matricola Punteggio totale (teorico): 30/30 (3 punti per ogni domanda). Punteggio minimo per la sufficienza: 18/30. 2 Variabile comune masc anzm anzf giom giof laum lauf occm occf stra Descrizione Nome del comune % maschi su popolazione residente % residenti anziani su popolazione residente, maschi % residenti anziani su popolazione residente, femmine % residenti giovani su popolazione residente, maschi % residenti giovani su popolazione residente, femmine % residenti laureati su popolazione residente, maschi % residenti laureati su popolazione residente, femmine % residenti occupati su popolazione residente, maschi % residenti occupati su popolazione residente, femmine % residenti stranieri su popolazione residente Tabella 1: Comuni della provincia di Venezia. Descrizione delle variabili. Esercizio 1 Il data set venezia descrive alcune caratteristiche dei comuni della provincia di Venezia, cosı̀ come registrate nel censimento del 2011 (fonte: ISTAT). Le variabili sono 11 e la loro descrizione è riportata nella Tabella 1. La funzione per caricare in R i dati è > ve <- read.csv("http://venus.unive.it/romanaz/edami/dati/venezia.csv") 1. Quanti sono i comuni della provincia di Venezia in cui la % dei maschi supera quella delle femmine? 2. Confronta i dati del comune di Venezia col centroide della distribuzione e illustra le principali differenze. 3. Considera la % di stranieri residenti nei comuni. Quali sono i comuni col minimo e massimo valore della variabile? Esamina le proprietà della distribuzione con un istogramma o un diagramma scatola-baffi. È di tipo normale? 4. Si può affermare che al crescere della % di laureati cresce anche, mediamente, la % di occupati? Considera separatamente maschi e femmine. Esercizio 2 Considera ancora il data set venezia del problema precedente. Ci proponiamo di ottenere una rappresentazione semplificata delle variabili, riducendone la dimensionalità. 1. Ricava la matrice di correlazione delle variabili. Qual è la coppia di variabili con la più alta correlazione, in valore assoluto? Qual è la coppia di variabili con la più bassa correlazione, in valore assoluto? Quali relazioni vengono suggerite dalla matrice di correlazione? 2. Ricava le componenti principali delle variabili standardizzate. Quante componenti si devono considerare per avere una varianza spiegata superiore a 80%? Come si interpretano? 3. Considera il diagramma di dispersione dei dati campionari sul piano delle prime due componenti. Qual è la posizione del comune di Venezia? Centrale, non centrale, periferica? Proponi una interpretazione. 3 Variabile area peri comp length width asym linc class Descrizione Area. Perimetro. Compattezza. Lunghezza. Larghezza. Asimmetria. Lunghezza dell’incisione. Varietà (1: Kama, 2: Rosa, 3: Canadian) Tabella 2: Semi di frumento. Descrizione delle variabili. Esercizio 3 Vogliamo indagare se esiste una struttura di gruppo nel data set venezia dell’Esercizio 1. 1. Ricava la matrice delle distanze euclidee dei comuni (dati standardizzati), applica ad essa l’algoritmo legame medio di clustering gerarchico e visualizza il dendrogramma. 2. Considera nuovamente il comune di Venezia ed il suo posizionamento ottenuto mediante le componenti principali (vedi Esercizio 2.3) ed il clustering gerarchico. I risultati sono concordanti? Qual è l’interpretazione? 3. Supponi di tagliare il dendrogramma ad una distanza euclidea pari a 4.5. Quanti sono i gruppi che si ottengono? Qual è l’interpretazione? Ricava i centroidi dei gruppi. Esercizio 4 È stato effettuato un esperimento per riconoscere le varietà di frumento in base alle caratteristiche dei semi. Le varietà considerate sono C1 : Kama, C2 : Rosa, C3 : Canadian. Per quanto riguarda le caratteristiche dei semi, sono state rilevate 7 variabili numeriche X1 , . . . , X7 , la cui descrizione è riportata nella Tabella 2. I dati corrispondenti sono stati rilevati in un campione di 210 semi, 70 semi per cascuna varietà. La funzione per caricare i dati in R è1 > semi <- read.table("http://venus.unive.it/romanaz/edami/dati/seed.txt", header=TRUE) 1. Valuta la capacità discriminatoria delle variabili usando gli indicatori appropriati. Qual è la variabile migliore? 2. Calcola le variabili canoniche e visualizza il diagramma di dispersione dei dati sul piano delle prime due variabili canoniche insieme con i centroidi delle classi. Quali sono le principali differenze tra le classi? 3. Classifica le unità campionarie usando il criterio della minima distanza dai centroidi nello spazio delle variabili canoniche e ricava la stima della probabilità d’errore. 4. Confronta i risultati precedenti con la classificazione knn. Qual è il metodo migliore? 1 http://archive.ics.uci.edu/ml/datasets/seeds