Analisi dei dati spaziali Informazioni sul corso Argomenti trattati nel
Transcript
Analisi dei dati spaziali Informazioni sul corso Argomenti trattati nel
Informazioni sul corso Ricevimento: su appuntamento via mail Analisi dei dati spaziali Testi: Cressie (1993), appunti, papers distribuiti dal docente (sulla pagina personale). Laboratorio: software R Francesca Bruno Prova d’esame: tesina scritta ed esposta oralmente su argomenti teorici o relativa ad una analisi spaziale/spazio-temporale di un fenomeno scelto. Dipartimento di Scienze Statistiche “P.Fortunati” [email protected] 1 2 Argomenti trattati nel corso •Statistica spaziale con approccio geostatistico, lattice data e processi di punto. •Stima e previsione di processi spaziali. •Funzioni variogramma, Kriging e cokriging. •Ipotesi di stazionarietà e isotropia. •Previsione e interpolazione spaziale. •Lattice Data •Processi di punto •Estensione al caso spazio-temporale (argomento trattato parzialmente attraverso letture monografiche). •Principali differenze con i processi puramente spaziali e ipotesi di separabilità (argomento trattato parzialmente attraverso letture monografiche). 3 Si comincia…. Introduzione e rappresentazioni grafiche 4 Alcune note storiche/bibliografiche Dati spaziali • Serie di osservazioni in cui la distribuzione delle unità osservate nello spazio (o in una superficie) ha rilevanza ai fini dello studio –Ad esempio: come si distribuisce l’inquinamento da ozono in un’area di una regione italiana • Le osservazioni provengono da postazioni (o siti) conosciuti in una parte dello spazio che si vuole studiare; • Maggiore interesse per lo spazio geografico (caratterizzato dunque generalmente da due coordinate: latitudine e longitudine); Come vedremo gli approcci alla statistica spaziale si distinguono a seconda che le osservazioni o i siti siano rappresentati come variabili casuali. • La statistica spaziale è una disciplina sviluppata prevalentemente negli ultimi decenni; – I primi e principali contributi in letteratura sono stati forniti da • Cressie (1991): Statistics for Spatial Data – Motivazioni legate alla difficoltà della materia e allo sviluppo dei calcolatori; • L’idea sulla quale si basa la statistica spaziale è che: “I dati raccolti in una regione nello spazio che sono vicini tendono ad essere più simili di quelli che sono lontani tra di loro” (Legge di Tobler) Tobler) 5 Alcune note storiche/bibliografiche La maggior parte della metodologia spaziale proposta in letteratura si è sviluppata prendendo spunto dalla teoria delle serie storiche: – Tuttavia: la consequenzialità temporale non trova un vero e proprio corrispondente nella analisi di dati spaziali (Una discussione su questo la si trova in Kyriakidis e Journel) Letteratura più recente: •Millard et al. (2001): Environmental Statistics with SPLUS •Kitanidis (1997) “Introduction to geostatistics” •Schabenberger, Gotway “Statistical Methods for Spatial Data Analysis” •… 7 6 Definizioni 1) Variabile “regionalizzata” (Matheron,1971) – ogni variabile distribuita nello spazio è detta “regionalizzata”; – si può vedere una variabile regionalizzata come una funzione f(s) che assume un valore ad ogni sito s nello spazio considerato (generalmente non si considerano spazi di dimensione >4). –Essa è costituita da due aspetti tra loro complementari: un aspetto casuale (che tiene conto di irregolarità locali presentate dal fenomeno) e un aspetto globale (che riflette le caratteristiche globali dello stesso fenomeno) 8 Definizioni Tipi di variabile risposta 2) Processo casuale: -I tipi di variabili regionalizzate che saranno trattate possono avere sia una struttura casuale sia spaziale; -Sia z(s) un valore osservato di una variabile di interesse nel sito s. Esso può essere riguardato come una particolare realizzazione di una variabile casuale Z(s) nel punto s. -L’insieme di variabili casuali {Z(s), s Є D} dove D è la regione di interesse è detto processo casuale. • Univariate o multivariate; • Quantitative o qualitative; • A valori reali o no. Tipi di localizzazioni (delle osservazioni sulla variabile risposta) • Punti, regioni, segmenti, curve; • Irregolare o su griglia regolare; • Spazio euclideo oppure no. 9 Dati spaziali 10 Dati spaziali Si consideri un processo spaziale definito come:{Z ( s ) : s ∈ D} dove: Z(s) rappresenta il valore della variabile nel sito s D è l’insieme di tutti i siti nell’area di studio • Dati geostatistici (Geostatistical data): studio dei fenomeni che si manifestano su un dominio continuo: ciascun sito in D è osservabile. – D è un sottoinsieme fissato del piano (con area positiva) – Z(s) è una variabile casuale in ogni sito s ∈ D E’ possibile effettuare stime e previsioni all’interno di D. • Modelli su griglia (Lattice data): studio di fenomeni che si manifestano su un dominio discreto. Le osservazioni sono disposte su una griglia. ………segue…… 11 • Modelli su griglia (Lattice data): osservazioni associate ad un’area o una regione – D={s1,s2,…,sn} è un reticolo del piano regolare o irregolare – Z(si) è una variabile casuale in ogni locazione si i=1,…,n Costruzione di modelli • Processi di punto (Spatial Point Patterns): studio dei fenomeni spaziali che si manifestano su un dominio discreto D in cui sono i siti stessi ad essere eventi casuali. – D={s1,s2,…,sn} è una raccolta casuale di punti nel piano – Z(s) non specificata oppure è una variabile casuale in ogni sito s Si lavora combinando due processi stocastici l’uno relativo al fenomeno osservato, l’altro che modellizza i punti osservati 12 Dati Spaziali Alcuni insiemi di dati usati negli esempi • I primi due approcci non sono assolutamente incompatibili, anzi… spesso vengono applicati in “sequenza”. • Prima una trattazione di tipo geostatistico per colmare eventuali lacune (dati mancanti, interpolazione e discretizzazione) e poi un approccio di tipo più strettamente modellistico. Qui di seguito elenco alcuni data set che useremo nel corso e che sono facilmente reperibili o già disponibili in R: • Altezze piezometriche in una regione del Texas detta Wolfcamp Aquifer (dataset wolfcamp di R) • Biomassa di un batterio (bluegrama) rilevate in un’area di 200x200 m vicino Elgin in Arizona (file bluegrama.dat) • Numero di morti per Sindrome da morte infantile improvvisa SIDS nelle contee delle North-Carolina (dataset nc.sids di R) • Valori di pixel in un’immagine satellitare (data set getisord di R) • Posizione e diametri di alberi in una regione della Georgia (USA) di 200x200 metri (dataset redwood e longleaf di R) 13 14 Dati geostatistici - Geostatistical Data •Il termine “geostatistics” fu introdotto da Matheron (1962, 1963) in mineralogia; •La geostatistica si riferisce a dati di un processo casuale {Z ( s) : s ∈ D} in cui D è fisso, ed s varia nel continuo in D. 1) Dati geostatistici *Geostatistica: studio dei fenomeni che si manifestano su un dominio continuo in cui ciascun sito D è potenzialmente osservabile; Stime e previsioni all’interno di D La variabile di interesse esiste in ogni punto della regione ma si osserva solo la risposta in un insieme finito di localizzazioni. La parte di letteratura relativa a dati di tipo geostatistici è la più consistente. 15 16 Dati Geostatistici Rappresentazioni grafiche descrittive di dati (geostatistica) e analisi spaziali Per conoscere un fenomeno spaziale nella sua interezza può essere utile un’analisi preliminare descrittiva che non consideri il solo aspetto spaziale… Inoltre, come vedremo durante il corso l’analisi esplorativa serve anche per valutare la stazionarietà del processo che si sta analizzando. La variabile d’interesse esiste in ogni punto della regione ma si osserva solo la risposta in un insieme finito di localizzazioni.Ogni punto è un sito in Texas e ad ogni punto è associato un valore di altezza piezometrica (studio fatto per trovare dove costruire un deposito di rifiuti radioattivi) 17 18 Dati geostatistici - Geostatistical Data Dati geostatistici - Geostatistical Data Coal Ash % Row Summaries 17 15 13 Y 11.2 9.9 10.2 10.1 10.8 10.7 9 11 9.9 11.3 11.2 3 4 5 6 1 3 5 7 10.0 1 2 9.5 10.3 12.6 8.3 10.9 9.6 9.0 8.6 9.8 10.0 8.8 9.3 8.9 9.5 8.9 9.3 10.0 10.2 11.6 8.7 13.1 9.2 9.6 9.6 8.1 7 8 8.8 10.7 9.3 9.0 10.1 9.0 10.2 10.6 9.2 11.0 8.1 9.3 11.2 9.2 9.5 11.2 11.4 9.6 9.8 8.6 8.9 8.9 8.2 9.0 8.6 7.7 9.3 9.1 11.4 9.9 8.0 10.1 8.1 8.2 8.5 9.4 10.0 8.2 7.8 9 10 9.0 9.1 7.8 7.9 7.3 8.9 9.2 8.6 11.9 7.6 7.8 7.6 9.6 8.6 7.8 7.8 7.0 8.6 11.3 9.2 10.9 9.6 9.2 8.2 7.9 8.8 11 12 8.9 9.6 9.0 8.2 9.7 7.0 9.1 13 10.0 8.6 8.8 10.0 8.8 14 9.9 8.0 7.6 15 9.1 Rappresentazione bivariata (due coordinate di riferimento (x,y) e per ogni locazione in cui c’è osservazione c’è il valore con cui la variabile si presenta 16 Coal Ash % Column Summaries 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 16 15 14 13 12 11 10 x 10.6 10.7 10.0 10.3 10.3 11.1 8.9 10.4 10.1 10.4 9.9 11.6 11.0 13.1 10.8 10.9 8.9 10.6 10.1 9.0 9.3 19 10.0 9.9 11.6 9.5 12.5 11.0 9.4 9.9 10.8 8.2 10.4 10.4 9.8 10.9 9.8 10.7 11.2 9.7 10.3 9.0 9.4 9.6 10.1 9.4 10.2 11.8 11.0 11.1 10.8 11.1 10.9 9.6 9.3 10.6 10.4 9.1 12.8 9.9 9.8 10.2 9.9 9.8 10.8 11.5 11.2 10.6 9.8 10.3 11.0 17.6 10.8 9.5 9.5 8.8 10.4 11.6 10.4 11.2 9.4 8.2 9.8 10.6 10.2 9.8 9.4 8.4 10.7 9.2 9.8 10.5 10.1 y 21 23 Coal Ash Percentages 9 8 7 6 5 4 3 2 1 7 8 9 10 Coal Ash % 11 12 13 7 8 9 10 11 12 13 Coal Ash % Box-plot che rappresentano media/mediana quartili ed evidenziano alcuni aspetti legati alla presenza di outliers e di regolarità/irregolarità nelle due direzioni. X Statistiche descrittive: Min. 1st Qu. Median Mean 7 8.96 9.785 9.779 3rd Qu. Max. 10.57 17.61 19 Per scindere il processo spaziale in riga e colonna. Con questa rappresentazione si può individuare il modello: Dato= costante + effetto riga + effetto colonna + errore Per stimare le componenti occorre effettuare, ad esempio, 20 l’analisi della varianza. x x o o 10 11 Coal Ash % 12 o = Median Coal Ash % x = Mean Coal Ash % x x o x o x x o x o o x o o Inoltre, fornisce più informazioni sulla direzione delle relazioni spaziali 7 o x x x x o x o o x o o x o 9 x 6 Coal Ash % 8 9 10 11 8 o 5 10 Columns Con questo grafico tridimensionale si può riuscire ad individuare un trend spaziale. 3-D Coal Ash % Surface Interpolation 18 5 Rows 10 15 20 oo x x ox ox o xxo ox xo ooxx o x o oxx o x xo xxoo ox xo o x xo x o Questo grafico rappresenta medie e mediane per riga e colonna e permette di identificare, attraverso il loro scostamento, la presenza di outliers, spesso problematici da trattare in fase di costruzione del modello. 8 Means and Medians Across Rows and Columns Dati geostatistici - Geostatistical Data % sh al A Co 6 2 10 1 14 1 Dati geostatistici - Geostatistical Data 15 21 20 15 y 6 10 5 8 x 10 12 14 16 Infatti oltre alle due coordinate geografiche è rappresentato il valore della variabile oggetto di studio. 4 2 La funzione che produce questo grafico esegue delle interpolazioni tra i siti osservati che è bene considerare. 22 Dati geostatistici - Geostatistical Data Contour Plot of Coal Ash %'s Colourscale or Symbol Map Il primo grafico rappresenta le curve di livello, mentre nel secondo i livelli sono rappresentati da colori diversi 20 8 8 10 8 8 15 15 20 10 10 12 10 10 10 10 8 y y 12 10 10 12 5 10 10 12 12 14 16 10 10 10 8 10 12 16 0 5 10 10 10 5 10 x 15 5 10 15 x Con queste rappresentazioni è possibile individuare eventuali concentrazioni spaziali della variabile oggetto di studio Anche in questo caso il software produce una interpolazione che è bene tenere in considerazione! 23 2) Dati su reticolo (Lattice data) *Dati su griglia: studio di fenomeni che si manifestano su un dominio discreto: le osservazioni sono disposte su una griglia (regolare o irregolare) Costruzione di modelli 24 Dati su reticolo - Lattice data { } • Si fa riferimento ad un processo spaziale Z ( s ) : s ∈ D , i dati su reticolo si riferiscono al caso in cui D sia un insieme numerabile di siti spaziali • I dati possono essere osservati esclusivamente nei siti contenuti in D, e tutte le inferenze tracciate sono applicate solo a tali siti. Rappresentazioni grafiche di dati su griglia regolare • Esempio: Phytophthora Data I dati si riferiscono alla presenza/assenza di una patologia Phytophthora capsici in piante di pepe in un certo numero di campi. In particolare, si esamina una griglia regolare 20x20 di piante. D in questo caso sarà pari a 400 siti spaziali. 25 26 Dati su reticolo Dati su reticolo - Lattice data • Esempio: Phytophthora Data I dati sono rappresentati in una griglia regolare di piante 20x20. D in questo caso sarà pari a 400 siti spaziali. 27 Studio la distribuzione territoriale delle morti infantili improvvise in North Carolina (i valori sono conteggi), organizzazione dei dati che segue la geografia della zona (irregolare). Per questo tipo di dati la modellizzazione deve tener conto di quest’ultimo aspetto (Modelli su griglia SAR e CAR). Programma R 28 Dati su reticolo - Lattice data getisord.dat La variabile di interesse esiste ed è osservata solo in un insieme finito di localizzazioni. 3) Processi di punto - Spatial Point Patterns *Processi di punto: Studio di fenomeni spaziali che si manifestano su un dominio discreto D in cui sono i siti stessi ad essere eventi casuali. Si lavora combinando due processi stocastici uno riferito al fenomeno osservato e uno che modellizza i punti osservati. La modellazione deve tener conto di questo ultimo aspetto. 29 30 Processi di punto - Spatial Point Patterns Si fa riferimento ad un processo spaziale {Z ( s ) : s ∈ D} D è indicizzato in modo casuale per i punti del processo. In questo caso i dati non consistono in realizzazioni di qualche variabile casuale in un dato sito. Rappresentazioni grafiche dei processi di punto I dati sono le posizioni dei siti e la raccolta di tutti i siti è l’evento di interesse. In questo modo, una misura come il conteggio del numero di casi in un sottoinsieme di D dovrebbe essere la variabile chiave 31 32 Processi di punto - Spatial Point Patterns Dati puntuali - Spatial Point Patterns • Esempio: Longleaf Pine Data I dati riguardano coordinate di tutti gli alberi di pino in una I dati sono le localizzazioni (supposte casuali). Nessuna variabile risposta è osservata. foresta in Georgia (Thomas County, di 200x200 metri ). Lo scopo di questo studio era esaminare se le posizioni spaziali degli alberi apparivano completamente casuali o raggruppati in un qualche modo. Qualche volta su localizzazioni aleatorie si osserva una variabile risposta, in questo caso il diametro degli alberi. Si parla di processi di punto 33 34