Corso di Elementi di Data Mining - Prof. M. Romanazzi

Transcript

Corso di Elementi di Data Mining - Prof. M. Romanazzi
1
Università Ca’ Foscari di Venezia
Corso di Elementi di Data Mining - Prof. M. Romanazzi
Esercitazione Finale 15 Dicembre 2015
Cognome e Nome
Matricola
ˆ Punteggio totale (teorico): 30/30 (3 punti per ogni domanda).
ˆ Punteggio minimo per la sufficienza: 18/30.
2
Variabile
comune
masc
anzm
anzf
giom
giof
laum
lauf
occm
occf
stra
Descrizione
Nome del comune
% maschi su popolazione residente
% residenti anziani su popolazione residente, maschi
% residenti anziani su popolazione residente, femmine
% residenti giovani su popolazione residente, maschi
% residenti giovani su popolazione residente, femmine
% residenti laureati su popolazione residente, maschi
% residenti laureati su popolazione residente, femmine
% residenti occupati su popolazione residente, maschi
% residenti occupati su popolazione residente, femmine
% residenti stranieri su popolazione residente
Tabella 1: Comuni della provincia di Venezia. Descrizione delle variabili.
Esercizio 1 Il data set venezia descrive alcune caratteristiche dei comuni della provincia di Venezia, cosı̀ come
registrate nel censimento del 2011 (fonte: ISTAT). Le variabili sono 11 e la loro descrizione è
riportata nella Tabella 1. La funzione per caricare in R i dati è
> ve <- read.csv("http://venus.unive.it/romanaz/edami/dati/venezia.csv")
1. Quanti sono i comuni della provincia di Venezia in cui la % dei maschi supera quella delle
femmine?
2. Confronta i dati del comune di Venezia col centroide della distribuzione e illustra le principali
differenze.
3. Considera la % di stranieri residenti nei comuni. Quali sono i comuni col minimo e massimo valore della variabile? Esamina le proprietà della distribuzione con un istogramma o un
diagramma scatola-baffi. È di tipo normale?
4. Si può affermare che al crescere della % di laureati cresce anche, mediamente, la % di occupati?
Considera separatamente maschi e femmine.
Esercizio 2 Considera ancora il data set venezia del problema precedente. Ci proponiamo di ottenere una
rappresentazione semplificata delle variabili, riducendone la dimensionalità.
1. Ricava la matrice di correlazione delle variabili. Qual è la coppia di variabili con la più alta
correlazione, in valore assoluto? Qual è la coppia di variabili con la più bassa correlazione, in
valore assoluto? Quali relazioni vengono suggerite dalla matrice di correlazione?
2. Ricava le componenti principali delle variabili standardizzate. Quante componenti si devono
considerare per avere una varianza spiegata superiore a 80%? Come si interpretano?
3. Considera il diagramma di dispersione dei dati campionari sul piano delle prime due componenti. Qual è la posizione del comune di Venezia? Centrale, non centrale, periferica? Proponi
una interpretazione.
3
Variabile
area
peri
comp
length
width
asym
linc
class
Descrizione
Area.
Perimetro.
Compattezza.
Lunghezza.
Larghezza.
Asimmetria.
Lunghezza dell’incisione.
Varietà (1: Kama, 2: Rosa, 3: Canadian)
Tabella 2: Semi di frumento. Descrizione delle variabili.
Esercizio 3 Vogliamo indagare se esiste una struttura di gruppo nel data set venezia dell’Esercizio 1.
1. Ricava la matrice delle distanze euclidee dei comuni (dati standardizzati), applica ad essa
l’algoritmo legame medio di clustering gerarchico e visualizza il dendrogramma.
2. Considera nuovamente il comune di Venezia ed il suo posizionamento ottenuto mediante le componenti principali (vedi Esercizio 2.3) ed il clustering gerarchico. I risultati sono concordanti?
Qual è l’interpretazione?
3. Supponi di tagliare il dendrogramma ad una distanza euclidea pari a 4.5. Quanti sono i gruppi
che si ottengono? Qual è l’interpretazione? Ricava i centroidi dei gruppi.
Esercizio 4 È stato effettuato un esperimento per riconoscere le varietà di frumento in base alle caratteristiche
dei semi. Le varietà considerate sono C1 : Kama, C2 : Rosa, C3 : Canadian. Per quanto riguarda
le caratteristiche dei semi, sono state rilevate 7 variabili numeriche X1 , . . . , X7 , la cui descrizione è
riportata nella Tabella 2. I dati corrispondenti sono stati rilevati in un campione di 210 semi, 70
semi per cascuna varietà. La funzione per caricare i dati in R è1
> semi <- read.table("http://venus.unive.it/romanaz/edami/dati/seed.txt", header=TRUE)
1. Valuta la capacità discriminatoria delle variabili usando gli indicatori appropriati. Qual è la
variabile migliore?
2. Calcola le variabili canoniche e visualizza il diagramma di dispersione dei dati sul piano delle
prime due variabili canoniche insieme con i centroidi delle classi. Quali sono le principali
differenze tra le classi?
3. Classifica le unità campionarie usando il criterio della minima distanza dai centroidi nello
spazio delle variabili canoniche e ricava la stima della probabilità d’errore.
4. Confronta i risultati precedenti con la classificazione knn. Qual è il metodo migliore?
1 http://archive.ics.uci.edu/ml/datasets/seeds