Corso di Elementi di Data Mining - Prof. M. Romanazzi

Transcript

1
Università Ca’ Foscari di Venezia
Corso di Elementi di Data Mining - Prof. M. Romanazzi
Esercitazione Finale 15 Dicembre 2015
Cognome e Nome
Matricola
Punteggio totale (teorico): 30/30 (3 punti per ogni domanda).
Punteggio minimo per la sufficienza: 18/30.
2
Variabile
comune
masc
anzm
anzf
giom
giof
laum
lauf
occm
occf
stra
Descrizione
Nome del comune
% maschi su popolazione residente
% residenti anziani su popolazione residente, maschi
% residenti anziani su popolazione residente, femmine
% residenti giovani su popolazione residente, maschi
% residenti giovani su popolazione residente, femmine
% residenti laureati su popolazione residente, maschi
% residenti laureati su popolazione residente, femmine
% residenti occupati su popolazione residente, maschi
% residenti occupati su popolazione residente, femmine
% residenti stranieri su popolazione residente
Tabella 1: Comuni della provincia di Venezia. Descrizione delle variabili.
Esercizio 1 Il data set venezia descrive alcune caratteristiche dei comuni della provincia di Venezia, cosı̀ come
registrate nel censimento del 2011 (fonte: ISTAT). Le variabili sono 11 e la loro descrizione è
riportata nella Tabella 1. La funzione per caricare in R i dati è
> ve <- read.csv("http://venus.unive.it/romanaz/edami/dati/venezia.csv")
1. Quanti sono i comuni della provincia di Venezia in cui la % dei maschi supera quella delle
femmine?
2. Confronta i dati del comune di Venezia col centroide della distribuzione e illustra le principali
differenze.
3. Considera la % di stranieri residenti nei comuni. Quali sono i comuni col minimo e massimo valore della variabile? Esamina le proprietà della distribuzione con un istogramma o un
diagramma scatola-baffi. È di tipo normale?
4. Si può affermare che al crescere della % di laureati cresce anche, mediamente, la % di occupati?
Considera separatamente maschi e femmine.
Esercizio 2 Considera ancora il data set venezia del problema precedente. Ci proponiamo di ottenere una
rappresentazione semplificata delle variabili, riducendone la dimensionalità.
1. Ricava la matrice di correlazione delle variabili. Qual è la coppia di variabili con la più alta
correlazione, in valore assoluto? Qual è la coppia di variabili con la più bassa correlazione, in
valore assoluto? Quali relazioni vengono suggerite dalla matrice di correlazione?
2. Ricava le componenti principali delle variabili standardizzate. Quante componenti si devono
considerare per avere una varianza spiegata superiore a 80%? Come si interpretano?
3. Considera il diagramma di dispersione dei dati campionari sul piano delle prime due componenti. Qual è la posizione del comune di Venezia? Centrale, non centrale, periferica? Proponi
una interpretazione.
3
Variabile
area
peri
comp
length
width
asym
linc
class
Descrizione
Area.
Perimetro.
Compattezza.
Lunghezza.
Larghezza.
Asimmetria.
Lunghezza dell’incisione.
Varietà (1: Kama, 2: Rosa, 3: Canadian)
Tabella 2: Semi di frumento. Descrizione delle variabili.
Esercizio 3 Vogliamo indagare se esiste una struttura di gruppo nel data set venezia dell’Esercizio 1.
1. Ricava la matrice delle distanze euclidee dei comuni (dati standardizzati), applica ad essa
l’algoritmo legame medio di clustering gerarchico e visualizza il dendrogramma.
2. Considera nuovamente il comune di Venezia ed il suo posizionamento ottenuto mediante le componenti principali (vedi Esercizio 2.3) ed il clustering gerarchico. I risultati sono concordanti?
Qual è l’interpretazione?
3. Supponi di tagliare il dendrogramma ad una distanza euclidea pari a 4.5. Quanti sono i gruppi
che si ottengono? Qual è l’interpretazione? Ricava i centroidi dei gruppi.
Esercizio 4 È stato effettuato un esperimento per riconoscere le varietà di frumento in base alle caratteristiche
dei semi. Le varietà considerate sono C1 : Kama, C2 : Rosa, C3 : Canadian. Per quanto riguarda
le caratteristiche dei semi, sono state rilevate 7 variabili numeriche X1 , . . . , X7 , la cui descrizione è
riportata nella Tabella 2. I dati corrispondenti sono stati rilevati in un campione di 210 semi, 70
semi per cascuna varietà. La funzione per caricare i dati in R è1
> semi <- read.table("http://venus.unive.it/romanaz/edami/dati/seed.txt", header=TRUE)
1. Valuta la capacità discriminatoria delle variabili usando gli indicatori appropriati. Qual è la
variabile migliore?
2. Calcola le variabili canoniche e visualizza il diagramma di dispersione dei dati sul piano delle
prime due variabili canoniche insieme con i centroidi delle classi. Quali sono le principali
differenze tra le classi?
3. Classifica le unità campionarie usando il criterio della minima distanza dai centroidi nello
spazio delle variabili canoniche e ricava la stima della probabilità d’errore.
4. Confronta i risultati precedenti con la classificazione knn. Qual è il metodo migliore?
1 http://archive.ics.uci.edu/ml/datasets/seeds

Corso di Elementi di Data Mining - Prof. M. Romanazzi

Transcript

Documenti analoghi

Il Gazzettino di Venezia

Piramide della popolazione per classi d`età

POPOLAZIONE RESIDENTE Piramide di età Il grafico sopra mostra

La popolazione trentina per età al 1° gennaio 2016

Turismo la nostra ricetta

Pattinaggio sul ghiaccio Venezia 2015

Doppio Senso: percorsi tattili al museo 25/06/2016

Tav 1.11 Popolazione straniera per sesso e nazionalità-2005

L`Ospitalità tra………….locazione e turismo

domanda di partecipazione