Analisi dei dati spaziali Informazioni sul corso Argomenti trattati nel

Transcript

Analisi dei dati spaziali Informazioni sul corso Argomenti trattati nel
Informazioni sul corso
Ricevimento: su appuntamento via mail
Analisi dei dati spaziali
Testi: Cressie (1993), appunti, papers
distribuiti dal docente (sulla pagina personale).
Laboratorio: software R
Francesca Bruno
Prova d’esame: tesina scritta ed esposta
oralmente su argomenti teorici o relativa ad
una analisi spaziale/spazio-temporale di un
fenomeno scelto.
Dipartimento di Scienze Statistiche “P.Fortunati”
[email protected]
1
2
Argomenti trattati nel corso
•Statistica spaziale con approccio geostatistico, lattice
data e processi di punto.
•Stima e previsione di processi spaziali.
•Funzioni variogramma, Kriging e cokriging.
•Ipotesi di stazionarietà e isotropia.
•Previsione e interpolazione spaziale.
•Lattice Data
•Processi di punto
•Estensione al caso spazio-temporale (argomento trattato
parzialmente attraverso letture monografiche).
•Principali differenze con i processi puramente spaziali e
ipotesi di separabilità (argomento trattato parzialmente
attraverso letture monografiche).
3
Si comincia….
Introduzione e rappresentazioni
grafiche
4
Alcune note storiche/bibliografiche
Dati spaziali
• Serie di osservazioni in cui la distribuzione delle unità
osservate nello spazio (o in una superficie) ha rilevanza ai fini
dello studio
–Ad esempio: come si distribuisce l’inquinamento da ozono in
un’area di una regione italiana
• Le osservazioni provengono da postazioni (o siti) conosciuti in
una parte dello spazio che si vuole studiare;
• Maggiore interesse per lo spazio geografico (caratterizzato
dunque generalmente da due coordinate: latitudine e
longitudine);
Come vedremo gli approcci alla statistica spaziale si distinguono
a seconda che le osservazioni o i siti siano rappresentati come
variabili casuali.
• La statistica spaziale è una disciplina sviluppata
prevalentemente negli ultimi decenni;
– I primi e principali contributi in letteratura sono
stati forniti da
• Cressie (1991): Statistics for Spatial Data
– Motivazioni legate alla difficoltà della materia e allo
sviluppo dei calcolatori;
• L’idea sulla quale si basa la statistica spaziale è che:
“I dati raccolti in una regione nello spazio che sono
vicini tendono ad essere più simili di quelli che sono
lontani tra di loro” (Legge di Tobler)
Tobler)
5
Alcune note storiche/bibliografiche
La maggior parte della metodologia spaziale
proposta in letteratura si è sviluppata prendendo
spunto dalla teoria delle serie storiche:
– Tuttavia: la consequenzialità temporale non
trova un vero e proprio corrispondente nella
analisi di dati spaziali (Una discussione su
questo la si trova in Kyriakidis e Journel)
Letteratura più recente:
•Millard et al. (2001): Environmental Statistics
with SPLUS
•Kitanidis (1997) “Introduction to geostatistics”
•Schabenberger, Gotway “Statistical Methods for
Spatial Data Analysis”
•…
7
6
Definizioni
1) Variabile “regionalizzata” (Matheron,1971)
– ogni variabile distribuita nello spazio è detta
“regionalizzata”;
– si può vedere una variabile regionalizzata come
una funzione f(s) che assume un valore ad ogni
sito s nello spazio considerato (generalmente non
si considerano spazi di dimensione >4).
–Essa è costituita da due aspetti tra loro
complementari: un aspetto casuale (che tiene
conto di irregolarità locali presentate dal
fenomeno) e un aspetto globale (che riflette le
caratteristiche globali dello stesso fenomeno)
8
Definizioni
Tipi di variabile risposta
2) Processo casuale:
-I tipi di variabili regionalizzate che saranno
trattate possono avere sia una struttura casuale
sia spaziale;
-Sia z(s) un valore osservato di una variabile di
interesse nel sito s. Esso può essere riguardato
come una particolare realizzazione di una variabile
casuale Z(s) nel punto s.
-L’insieme di variabili casuali {Z(s), s Є D} dove D è
la regione di interesse è detto processo casuale.
• Univariate o multivariate;
• Quantitative o qualitative;
• A valori reali o no.
Tipi di localizzazioni
(delle osservazioni sulla variabile risposta)
• Punti, regioni, segmenti, curve;
• Irregolare o su griglia regolare;
• Spazio euclideo oppure no.
9
Dati spaziali
10
Dati spaziali
Si consideri un processo spaziale definito come:{Z ( s ) : s ∈ D}
dove: Z(s) rappresenta il valore della variabile nel sito s
D è l’insieme di tutti i siti nell’area di studio
• Dati geostatistici (Geostatistical data): studio dei
fenomeni che si manifestano su un dominio continuo:
ciascun sito in D è osservabile.
– D è un sottoinsieme fissato del piano (con area
positiva)
– Z(s) è una variabile casuale in ogni sito s ∈ D
E’ possibile effettuare stime e previsioni all’interno di D.
• Modelli su griglia (Lattice data): studio di fenomeni che
si manifestano su un dominio discreto. Le osservazioni sono
disposte su una griglia. ………segue……
11
• Modelli su griglia (Lattice data): osservazioni associate
ad un’area o una regione
– D={s1,s2,…,sn} è un reticolo del piano regolare o
irregolare
– Z(si) è una variabile casuale in ogni locazione si i=1,…,n
Costruzione di modelli
• Processi di punto (Spatial Point Patterns): studio dei
fenomeni spaziali che si manifestano su un dominio
discreto D in cui sono i siti stessi ad essere eventi casuali.
– D={s1,s2,…,sn} è una raccolta casuale di punti nel piano
– Z(s) non specificata oppure è una variabile casuale in
ogni sito s
Si lavora combinando due processi stocastici l’uno
relativo al fenomeno osservato, l’altro che modellizza i
punti osservati
12
Dati Spaziali
Alcuni insiemi di dati usati negli esempi
• I primi due approcci non sono
assolutamente incompatibili, anzi… spesso
vengono applicati in “sequenza”.
• Prima
una
trattazione
di
tipo
geostatistico per colmare eventuali
lacune (dati mancanti, interpolazione e
discretizzazione) e poi un approccio di
tipo più strettamente modellistico.
Qui di seguito elenco alcuni data set che useremo nel corso e
che sono facilmente reperibili o già disponibili in R:
• Altezze piezometriche in una regione del Texas detta
Wolfcamp Aquifer (dataset wolfcamp di R)
• Biomassa di un batterio (bluegrama) rilevate in un’area di
200x200 m vicino Elgin in Arizona (file bluegrama.dat)
• Numero di morti per Sindrome da morte infantile
improvvisa SIDS nelle contee delle North-Carolina
(dataset nc.sids di R)
• Valori di pixel in un’immagine satellitare (data set getisord
di R)
• Posizione e diametri di alberi in una regione della Georgia
(USA) di 200x200 metri (dataset redwood e longleaf di R)
13
14
Dati geostatistici - Geostatistical Data
•Il termine “geostatistics” fu introdotto da Matheron
(1962, 1963) in mineralogia;
•La geostatistica si riferisce a dati di un processo casuale
{Z ( s) : s ∈ D} in cui D è fisso, ed s varia nel continuo in D.
1) Dati geostatistici
*Geostatistica: studio dei fenomeni che
si manifestano su un dominio continuo in
cui ciascun sito D è potenzialmente
osservabile;
Stime e previsioni all’interno di D
La variabile di interesse esiste in ogni punto della regione
ma si osserva solo la risposta in un insieme finito di
localizzazioni.
La parte di letteratura relativa a dati di tipo geostatistici è
la più consistente.
15
16
Dati Geostatistici
Rappresentazioni grafiche
descrittive
di
dati
(geostatistica)
e
analisi
spaziali
Per conoscere un fenomeno spaziale nella sua
interezza può essere utile un’analisi preliminare
descrittiva che non consideri il solo aspetto spaziale…
Inoltre, come vedremo durante il corso l’analisi
esplorativa serve anche per valutare la stazionarietà
del processo che si sta analizzando.
La variabile d’interesse esiste in ogni punto della regione ma si osserva solo la risposta in
un insieme finito di localizzazioni.Ogni punto è un sito in Texas e ad ogni punto è associato un
valore di altezza piezometrica (studio fatto per trovare dove costruire un deposito di rifiuti
radioattivi)
17
18
Dati geostatistici - Geostatistical Data
Dati geostatistici - Geostatistical Data
Coal Ash % Row Summaries
17
15
13
Y
11.2
9.9
10.2
10.1
10.8
10.7
9
11
9.9
11.3
11.2
3
4
5
6
1
3
5
7
10.0
1
2
9.5
10.3
12.6
8.3
10.9
9.6
9.0
8.6
9.8
10.0
8.8
9.3
8.9
9.5
8.9
9.3
10.0
10.2
11.6
8.7
13.1
9.2
9.6
9.6
8.1
7
8
8.8
10.7
9.3
9.0
10.1
9.0
10.2
10.6
9.2
11.0
8.1
9.3
11.2
9.2
9.5
11.2
11.4
9.6
9.8
8.6
8.9
8.9
8.2
9.0
8.6
7.7
9.3
9.1
11.4
9.9
8.0
10.1
8.1
8.2
8.5
9.4
10.0
8.2
7.8
9
10
9.0
9.1
7.8
7.9
7.3
8.9
9.2
8.6
11.9
7.6
7.8
7.6
9.6
8.6
7.8
7.8
7.0
8.6
11.3
9.2
10.9
9.6
9.2
8.2
7.9
8.8
11
12
8.9
9.6
9.0
8.2
9.7
7.0
9.1
13
10.0
8.6
8.8
10.0
8.8
14
9.9
8.0
7.6
15
9.1
Rappresentazione
bivariata (due
coordinate di
riferimento (x,y) e
per ogni locazione in
cui c’è osservazione
c’è il valore con cui la
variabile si presenta
16
Coal Ash % Column Summaries
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
16
15
14
13
12
11
10
x
10.6
10.7
10.0
10.3
10.3
11.1
8.9
10.4
10.1
10.4
9.9
11.6
11.0
13.1
10.8
10.9
8.9
10.6
10.1
9.0
9.3
19
10.0
9.9
11.6
9.5
12.5
11.0
9.4
9.9
10.8
8.2
10.4
10.4
9.8
10.9
9.8
10.7
11.2
9.7
10.3
9.0
9.4
9.6
10.1
9.4
10.2
11.8
11.0
11.1
10.8
11.1
10.9
9.6
9.3
10.6
10.4
9.1
12.8
9.9
9.8
10.2
9.9
9.8
10.8
11.5
11.2
10.6
9.8
10.3
11.0
17.6
10.8
9.5
9.5
8.8
10.4
11.6
10.4
11.2
9.4
8.2
9.8
10.6
10.2
9.8
9.4
8.4
10.7
9.2
9.8
10.5
10.1
y
21
23
Coal Ash Percentages
9
8
7
6
5
4
3
2
1
7
8
9
10
Coal Ash %
11
12
13
7
8
9
10
11
12
13
Coal Ash %
Box-plot che rappresentano media/mediana quartili ed
evidenziano alcuni aspetti legati alla presenza di
outliers e di regolarità/irregolarità nelle due direzioni.
X
Statistiche descrittive:
Min. 1st Qu. Median Mean
7
8.96
9.785
9.779
3rd Qu. Max.
10.57
17.61
19
Per scindere il processo spaziale in riga e colonna. Con questa
rappresentazione si può individuare il modello:
Dato= costante + effetto riga + effetto colonna + errore
Per stimare le componenti occorre effettuare, ad esempio,
20
l’analisi della varianza.
x
x o
o
10
11
Coal Ash %
12
o = Median Coal Ash %
x = Mean Coal Ash %
x
x
o
x o
x x o
x o
o
x
o
o
Inoltre, fornisce più
informazioni
sulla
direzione delle relazioni
spaziali
7
o
x
x x x o
x
o
o x o o
x
o
9
x
6
Coal Ash %
8 9 10 11
8
o
5
10
Columns
Con questo grafico
tridimensionale si può
riuscire ad individuare un
trend spaziale.
3-D Coal Ash % Surface Interpolation
18
5
Rows
10 15 20
oo x x
ox ox
o xxo ox
xo
ooxx
o x o oxx
o x xo
xxoo
ox xo
o
x
xo
x o
Questo
grafico
rappresenta medie e
mediane per riga e
colonna e permette di
identificare, attraverso
il loro scostamento, la
presenza di outliers,
spesso problematici da
trattare in fase di
costruzione del modello.
8
Means and Medians Across Rows and Columns
Dati geostatistici - Geostatistical Data
%
sh
al A
Co
6
2
10 1 14 1
Dati geostatistici - Geostatistical Data
15
21
20
15
y
6
10
5
8
x
10
12
14
16
Infatti oltre alle due
coordinate geografiche è
rappresentato il valore
della variabile oggetto di
studio.
4
2
La funzione che produce
questo grafico esegue
delle interpolazioni tra i
siti osservati che è bene
considerare.
22
Dati geostatistici - Geostatistical Data
Contour Plot of Coal Ash %'s Colourscale or Symbol Map
Il primo grafico
rappresenta le curve di
livello, mentre nel secondo i
livelli sono rappresentati da
colori diversi
20
8
8
10
8
8
15
15
20
10
10
12
10
10 10
10
8
y
y
12
10
10
12
5
10
10
12
12
14
16
10
10
10
8
10
12 16
0
5
10
10
10
5
10
x
15
5
10
15
x
Con queste rappresentazioni è
possibile
individuare
eventuali
concentrazioni spaziali della variabile
oggetto di studio
Anche in questo caso il
software produce una
interpolazione che è bene
tenere in considerazione!
23
2) Dati su reticolo (Lattice data)
*Dati su griglia: studio di fenomeni
che si manifestano su un dominio
discreto: le osservazioni sono
disposte su una griglia (regolare o
irregolare)
Costruzione di modelli
24
Dati su reticolo - Lattice data
{
}
• Si fa riferimento ad un processo spaziale Z ( s ) : s ∈ D , i
dati su reticolo si riferiscono al caso in cui D sia un insieme
numerabile di siti spaziali
• I dati possono essere osservati esclusivamente nei siti
contenuti in D, e tutte le inferenze tracciate sono applicate
solo a tali siti.
Rappresentazioni grafiche di dati su griglia regolare
• Esempio: Phytophthora Data
I dati si riferiscono alla presenza/assenza di una patologia
Phytophthora capsici in piante di pepe in un certo numero
di campi.
In particolare, si esamina una griglia regolare 20x20 di
piante. D in questo caso sarà pari a 400 siti spaziali.
25
26
Dati su reticolo
Dati su reticolo - Lattice data
• Esempio: Phytophthora Data
I dati sono rappresentati in una griglia regolare di piante
20x20. D in questo caso sarà pari a 400 siti spaziali.
27
Studio la distribuzione
territoriale delle morti
infantili improvvise in
North Carolina (i valori
sono conteggi),
organizzazione dei dati
che segue la geografia
della zona (irregolare).
Per questo tipo di dati
la modellizzazione deve
tener conto di
quest’ultimo aspetto
(Modelli su griglia SAR
e CAR).
Programma R
28
Dati su reticolo - Lattice data
getisord.dat
La variabile di interesse
esiste ed è osservata
solo in un insieme finito
di localizzazioni.
3) Processi di punto - Spatial Point Patterns
*Processi di punto: Studio di fenomeni spaziali
che si manifestano su un dominio discreto D in cui
sono i siti stessi ad essere eventi casuali.
Si lavora combinando due processi stocastici uno
riferito al fenomeno osservato e uno che
modellizza i punti osservati.
La modellazione deve
tener conto di questo
ultimo aspetto.
29
30
Processi di punto - Spatial Point Patterns
Si fa riferimento ad un processo spaziale {Z ( s ) : s ∈ D}
D è
indicizzato in modo casuale per i punti del
processo. In questo caso i dati non consistono in
realizzazioni di qualche variabile casuale in un dato sito.
Rappresentazioni grafiche dei processi di punto
I dati sono le posizioni dei siti e la raccolta di tutti
i siti è l’evento di interesse. In questo modo, una
misura come il conteggio del numero di casi in un
sottoinsieme di D dovrebbe essere la variabile chiave
31
32
Processi di punto - Spatial Point Patterns
Dati puntuali - Spatial Point Patterns
• Esempio: Longleaf Pine Data
I dati riguardano coordinate di tutti gli alberi di pino in una
I dati sono le
localizzazioni
(supposte casuali).
Nessuna variabile
risposta è osservata.
foresta in Georgia (Thomas County, di 200x200 metri ). Lo
scopo di questo studio era esaminare se le posizioni spaziali
degli alberi apparivano completamente casuali o raggruppati in
un qualche modo.
Qualche volta su
localizzazioni aleatorie
si osserva una variabile
risposta, in questo caso
il diametro degli alberi.
Si parla di processi di
punto
33
34