Metodi di visualizzazione grafica

Transcript

Metodi di visualizzazione grafica
Esplorazione grafica di dati
multivariati
N. Del Buono
Scatterplot
• Scatterplot permette di individuare
graficamente le possibili associazioni tra due
variabili
– Variabile descrittiva (explanatory variable)
– Variabile suscettibile (response variable)
• Associazione positivaÆ trend in salita
• Associazione negativa Æ trend in discesa
• Nessun trend Æ mancanza di associazione
Scatterplot
• Un insieme di dati multivariati con più di due
variabili gli scatter plot possono essere
ottenuti da ciascuna coppia di variabili
• Si ottiene cosi la matrice degli scatterplot
Æmatrice simmetrica pxp di scatterplot bivariati
Æle p righe e p colonne corrispondono a ciascuna
variabile
Lo scatterplot è simmetrico rispetto la diagonale, quindi
nella cella ij la variabile j è disegnata rispetto la
variabile i. La stessa variabile compare nella cella ji
in cui gli assi x ed y sono scambiati
Esempio di utilizzo del toolbox
Scatterplot: IRIS data
L’esempio riguarda la classificazione di tre tipi di
fiori iris: Setosa, Versicolor, Virginica.
Iris Setosa
Iris Versicolor
Iris Virginica
Esempio di utilizzo del toolbox
Scatterplot: IRIS data
• Il dataset è costituito da 150 esempi di iris catalogati
in base ad una analisi di 4 attributi (variabili di input):
– Lunghezza e larghezza dei sepali (elementi costitutivi del
calice del fiore)
– Lunghezza e larghezza dei petali (elemento costitutivo della
corolla del fiore).
• Ogni campione del data set è un vettore di 5
dimensioni (4 variabili continue, 1 categorica):
• Esempio di pattern (campione):
attributi dei fiori (input)
5.4 3.9 1.7 0.4
classe (output)
Iris-virginica
Scatterplot: IRIS data
•
Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)
Scatterplot matrix: IRIS data
Box-and-Whisker Plots (boxplot)
• Un metodo per rappresentare un insieme di dati
multivariati è quello di utilizzare un box-and-whisker
plot.
• Box-and-whisker plots sono utili per interpretare la
possibile distribuzione dei dati.
• I grafici Box-and-whisker utilizzano :
– Mediana : separa i dati in due parti uguali
– Quartili: separano i dati in 4 parti uguali
• primo quartile Æ la mediana della parte inferiore dei dati
• Secondo quartile Æ equivalente alla mediana
• Terzo quartile Æ la mediana della parte superiore dei dati
Costruire un box-and-whisker plot
• Variabile: punteggi studenti
– dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100
• Ordinare i dati in ordine crescente
• Determinare il primo quartile, la mediana, il terzo
quartile, il più grande ed il più piccolo valore:
–
–
–
–
–
median = 80
first quartile = 70
third quartile = 90
smallest value = 65
largest value = 100
Costruire un box-and-whisker plot
65, 65, 70, 75,80, 80, 85, 90, 95 ,100
Primo quartile
Terzo quartile
Mediana
(secondo quartile)
65
70
75
80
85
90
95
100
Casi Speciali
• Outlier:
Box-and-whisker plot: IRIS data
Co-plot
• Un grafici di tipo “conditioning” (coplot) è un
metodo di visualizzazione grafica che permette di
evidenziare come una response variable dipende
da una explanatory variable date altre variabili
descrittive.
• Coplot sono formati da un insieme di scatter plot
di una variabile suscettibile rispetto una singola
variabile descrittiva
– Ciascun scatterplot corrisponde ad un particolare range
di valori di una seconda variabile descrittiva
Co-plot
• I grafici sono organizzati in diversi modi
• Frequentemente si visualizzano utilizzando:
– Given panels: intervalli di variabilità della
variabile descrittiva condizionata
– Dependence panels: scatterplot bivariati della
variabile suscettibile rispetto le restanti variabili
descrittive
Co-plot e diagrammi di Trellis
• I co-plot sono degli esempi di visualizzazioni
grafiche più generali note come diagrammi di
Trellis.
• Diagrammi (o grafici) di Trellis permettono di
esaminare visualmente l’esistenza di strutture nei
dati mediante l’utilizzo di grafici 1D,2D o 3D.
• I diagrammi di Trellis permettono di visualizzare
le relazioni all’interno di larghi dataset
distinguendo diversi gruppi.
Diagrammi di Trellis
• Multipanel conditioning
– Visualizzazione di come le relazioni tra due
variabili cambiano in funzione di una o più
variabili condizionate
– Rappresentazione di diversi tipi di grafici per
un range di valori di variabili scelte.
Diagramma di Trellis: Iris Data
• Esempio di diagramma di Trellis
– Grafico 3D
• lunghezza dei sepali (asse x),
• larghezza dei sepali (asse y)
• larghezza dei petali (asse z)
– Condizionato alla:
• Lunghezza dei petali
• Specie di fiore
Diagramma di Trellis: Iris Data
setosa
Petal L.: [1.0 4.4]
setosa
Petal L.: [4.4 7.1]
versicolor
versicolor
Petal L.: [1.0 4.4]
Petal L.: [4.4 7.1]