Metodi di visualizzazione grafica
Transcript
Metodi di visualizzazione grafica
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot • Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili – Variabile descrittiva (explanatory variable) – Variabile suscettibile (response variable) • Associazione positivaÆ trend in salita • Associazione negativa Æ trend in discesa • Nessun trend Æ mancanza di associazione Scatterplot • Un insieme di dati multivariati con più di due variabili gli scatter plot possono essere ottenuti da ciascuna coppia di variabili • Si ottiene cosi la matrice degli scatterplot Æmatrice simmetrica pxp di scatterplot bivariati Æle p righe e p colonne corrispondono a ciascuna variabile Lo scatterplot è simmetrico rispetto la diagonale, quindi nella cella ij la variabile j è disegnata rispetto la variabile i. La stessa variabile compare nella cella ji in cui gli assi x ed y sono scambiati Esempio di utilizzo del toolbox Scatterplot: IRIS data L’esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica Esempio di utilizzo del toolbox Scatterplot: IRIS data • Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): – Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) – Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). • Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): • Esempio di pattern (campione): attributi dei fiori (input) 5.4 3.9 1.7 0.4 classe (output) Iris-virginica Scatterplot: IRIS data • Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali) Scatterplot matrix: IRIS data Box-and-Whisker Plots (boxplot) • Un metodo per rappresentare un insieme di dati multivariati è quello di utilizzare un box-and-whisker plot. • Box-and-whisker plots sono utili per interpretare la possibile distribuzione dei dati. • I grafici Box-and-whisker utilizzano : – Mediana : separa i dati in due parti uguali – Quartili: separano i dati in 4 parti uguali • primo quartile Æ la mediana della parte inferiore dei dati • Secondo quartile Æ equivalente alla mediana • Terzo quartile Æ la mediana della parte superiore dei dati Costruire un box-and-whisker plot • Variabile: punteggi studenti – dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100 • Ordinare i dati in ordine crescente • Determinare il primo quartile, la mediana, il terzo quartile, il più grande ed il più piccolo valore: – – – – – median = 80 first quartile = 70 third quartile = 90 smallest value = 65 largest value = 100 Costruire un box-and-whisker plot 65, 65, 70, 75,80, 80, 85, 90, 95 ,100 Primo quartile Terzo quartile Mediana (secondo quartile) 65 70 75 80 85 90 95 100 Casi Speciali • Outlier: Box-and-whisker plot: IRIS data Co-plot • Un grafici di tipo “conditioning” (coplot) è un metodo di visualizzazione grafica che permette di evidenziare come una response variable dipende da una explanatory variable date altre variabili descrittive. • Coplot sono formati da un insieme di scatter plot di una variabile suscettibile rispetto una singola variabile descrittiva – Ciascun scatterplot corrisponde ad un particolare range di valori di una seconda variabile descrittiva Co-plot • I grafici sono organizzati in diversi modi • Frequentemente si visualizzano utilizzando: – Given panels: intervalli di variabilità della variabile descrittiva condizionata – Dependence panels: scatterplot bivariati della variabile suscettibile rispetto le restanti variabili descrittive Co-plot e diagrammi di Trellis • I co-plot sono degli esempi di visualizzazioni grafiche più generali note come diagrammi di Trellis. • Diagrammi (o grafici) di Trellis permettono di esaminare visualmente l’esistenza di strutture nei dati mediante l’utilizzo di grafici 1D,2D o 3D. • I diagrammi di Trellis permettono di visualizzare le relazioni all’interno di larghi dataset distinguendo diversi gruppi. Diagrammi di Trellis • Multipanel conditioning – Visualizzazione di come le relazioni tra due variabili cambiano in funzione di una o più variabili condizionate – Rappresentazione di diversi tipi di grafici per un range di valori di variabili scelte. Diagramma di Trellis: Iris Data • Esempio di diagramma di Trellis – Grafico 3D • lunghezza dei sepali (asse x), • larghezza dei sepali (asse y) • larghezza dei petali (asse z) – Condizionato alla: • Lunghezza dei petali • Specie di fiore Diagramma di Trellis: Iris Data setosa Petal L.: [1.0 4.4] setosa Petal L.: [4.4 7.1] versicolor versicolor Petal L.: [1.0 4.4] Petal L.: [4.4 7.1]