Presentazione

Transcript

Presentazione
Tecniche di analisi statistica
spaziale su dati georeferenziati
Massimo Mucciardi
Edoardo Otranto
Dipartimento di Scienze Economiche,
Aziendali, Ambientali e Metodologie
Quantitative
Sezione di Scienze Statistiche e Matematiche
Università degli Studi di Messina
Scienze Cognitive della Formazione e degli Studi
Culturali
Università degli Studi di Messina
Centro Statistico di Ateneo
Università degli Studi di Messina
Giornata Italiana della Statistica
Indicatori per la gestione del territorio
Dai censimenti alla policy
Messina, 24 ottobre 2014
Outlook
Tecniche di analisi statistica spaziale
(Indicatori spaziali: globali e locali)
La georeferenziazione dei dati
Applicazione su dati ISTAT - Sicilia
(censimento popolazione – censimento industria)
AUTOCORRELAZIONE SPAZIALE (1)
¾Nelle analisi statistiche territoriali risulta fondamentale lo studio
di problemi che implicano il concetto di “spazio”. (Infatti non è possibile
pensare che le manifestazioni di un fenomeno economico, sociale, ambientale et.. siano indipendenti
dalla configurazione territoriale di una determinata zona oggetto di studio)
¾ L’esistenza di una relazione tra quello che accade presso una
unità territoriale e ciò che accade altrove nello spazio, è sintomo di
quella caratteristica che abitualmente si definisce come
“dipendenza spaziale”.
¾L’elemento più importante è costituito dalla parola “correlazione”. In
generale, la correlazione misura la relazione prevalente fra una coppia di
variabili. I coefficienti utilizzati normalmente in statistica forniscono
informazioni sulla sua natura e il suo grado.
¾Nel termine autocorrelazione spaziale, è inoltre contenuto il suffisso
“auto” (si considera la stessa variabile)
¾ Dipendenza unidirezionale (tempo) Dipendenza multidirezionale
(territorio)
AUTOCORRELAZIONE SPAZIALE (2)
zona
C
zona
zona
zona
D
A
B
zona
E
¾In generale esiste autocorrelazione spaziale positiva se l’intensità del
fenomeno in una zona è simile all’intensità del fenomeno in zone contigue,
mentre esiste autocorrelazione negativa nel caso in cui due zone contigue
presentano intensità diverse.
¾I dati spaziali non sono indipendenti: accade infatti che osservazioni che
si riferiscono ad aree più vicine mostrino meno variabilità di dati relativi ad
aree che risultano più lontane tra loro.
Le matrici di contiguità (1)
¾La procedura in grado di ordinare territorialmente più unità prende il nome di
sistema di interconnesione o sistema di contiguità
¾La contiguità spaziale è spesso un fattore che non è possibile tenere sotto controllo
in maniera adeguata; ciò accade sia per le difficoltà connesse alla definizione (forma e
dimensione) delle unità territoriali di rilevazione, sia perché i fenomeni sociodemografici sono rilevati su unità amministrative le quali hanno le più diverse forme
ed estensioni.
¾Possono inoltre sussistere, soprattutto nel campo socio-demografico, altri elementi
di contatto tra le unità territoriali che giocano anch’essi il ruolo di fattori di
interazione e che possono interagire con la contiguità spaziale. Ad esempio questi
fattori possono essere identificati dalla lunghezza del confine tra due unità
territoriali, da collegamenti stradali, ferroviari ed aerei esistenti tra le unità
Le matrici di contiguità (2)
¾La matrice presenta elementi (wij) che assumono valore “1”, nel caso in cui due
generiche unità “i” e “j” siano confinanti, “0” nel caso in cui le due generiche unità
non siano confinanti (con wii=0 e wij=wji).
¾In questo caso si dice che vi è contiguità di primo ordine oppure che le due unità
sono connesse a ritardo “1”.
¾Schemi di contiguità:
1) contiguità a bordo comune ;
2) contiguità a vertice comune ;
3) contiguità mista (vertice e bordo comune).
Rooks Case
Bishops Case
Queen Case
Le matrici di contiguità (2)
Esempio di matrice spaziale (normalizzata)
Adj
Torino
Vercelli
Novara
Cuneo
Asti
Alessandri Biella
Verb-Cus- Aosta
Torino
0.17
0.17
0.17
0.17
0.17
0.17
Vercelli
0.14
0.14
0.14
0.14
0.14
0.14
Novara
0.20
0.20
Cuneo
0.25
0.25
Asti
0.25
0.25
0.25
Alessandri
0.14
0.14
0.14
Biella
0.33
0.33
0.33
Verb-Cus-Ossola
0.33
0.33
Aosta
0.33
0.33
0.33
Varese
0.25
0.25
Como
Sondrio
Milano
0.10
Bergamo
Brescia
Pavia
0.14
0.14
0.14
Cremona
Mantova
¾ Altri sistemi di contiguità (riferimento distanza, combinazione di distanza e lunghezza, funzioni Kernel etc..)
Indici di Autocorrelazione Spaziale
n
Im =
∑ ∑(x
n
n
n
i =1 j =1
∑ ∑ wij
i =1 j =1
n
i
(
)
− M x ) x j − M x wij
n
Confronto tra la
variazione delle
unità interconnesse
con la variazione
di tutte le unità
Misura della
variabilità tra le zone
(matrice di
dissimilarità)
Sistema
di interconnessione
∑ ( xi − M x )
2
i =1
Indice di Moran
Im >0Æ autocorrelazione positiva
Im =0Æ autocorrelazione nulla
Im<0Æautocorrelazione negativa
∑ ∑(x
n
Ig =
n −1
n
n
2∑ ∑ wij
i =1 j =1
n
i
i =1 j =1
n
∑(x
i =1
i
)
2
− x j wij
− Mx )
2
Indice di Geary
Ig >1Æ autocorrelazione negativa
Ig =1Æ autocorrelazione nulla
Ig<1Æautocorrelazione positiva
I’g=1-Ig
Significatività indici di Autocorrelazione Spaziale
()
EN I =
VarN
z=
−1
n −1
⎡
1
I =⎢ 2 2
n2 S1 − nS2 + 3S02
⎢ S n −1
⎣ 0
()
(
( )
(I )
I − EN I
VarN
)
(
⎤
⎥− E I
N
⎥
⎦
) { ( )}
2
L’autocorrelazione spaziale locale (LISA)
¾ Il concetto di autocorrelazione spaziale locale trova invece il suo
fondamento nell’idea di “outlier spaziale” (punto di instabilità del
processo spaziale sottostante) e di “cluster spaziale”. Si tratta di una
tecnica che descrive e visualizza la distribuzione spaziale del fenomeno
indagato.
¾ L’analisi della correlazione locale si estrinseca nell’individuazione di
quelle zone/unità amministrative caratterizzate da valori estremi della
variabile; valori estremi che vengono individuati attraverso il raffronto
tra il valore che la variabile assume nella i-esima unità ed i valori che il
processo assume nelle zone/unità amministrative contigue.
¾ Es. da un punto di vista economico, relazione con l’idea di distretto
come cluster di concentrazione produttiva che “rompe” in qualche modo
la regolarità dello spazio circostante.
Indice di autocorrelazione locale
I i = zi
n
∑w
ij z j
j =1
j≠i
Ii>0 Ii<0 Ii=0
Valori positivi di Ii indicano fenomeni di clusterizzazione
mentre valori negativi indicano presenza di outliers
spaziale
Indice di autocorrelazione locale
(inferenza)
E(Ii) = -wi/(n - l)
Var(Ii) = wi(2)( n- b2)/(n - 1) +2wi(kh)(2b2 - n)/(n – l)(n - 2) – w2i/(n - 1)2
with b2= m4/m22 wi(2)=∑j≠iwij2 2wi(kh)= ∑k≠i ∑h≠i wik wih
I i − E (I i )
z (I i ) =
var (I i )
The Moran scatterplot
Mapping Clusters/Outliers
Georeferenziazione dei dati ISTAT
¾
La georeferenziazione di un evento consiste nell’associare ad esso una coppia di
numeri che rappresentano le sue coordinate piane o geografiche (X ed Y o Lat. e
Long.) tali da individuarlo univocamente sul territorio reale o su una mappa
“georiferita” gestita mediante un GIS (Geographic Information System –ArcGis,
GeoMedia, Grass, Qgis, ecc…) o comunque un software capace di rappresentare
oggetti dotati di coordinate assolute
¾
La georeferenziazione è essenzialmente un legare al territorio i diversi accadimenti o
eventi.
¾
Dati utilizzati: merge tra cartografia Istat – Sicilia (shape) e dati (dbf) provenienti
dal Censimento della Popolazione (2011) e Censimento dell’Industria e dei Servizi
(2011)
http://dati-censimentopopolazione.istat.it/
http://dati-censimentoindustriaeservizi.istat.it/.
¾
Livello di aggregazione spaziale: “comune”
Georeferenziazione dei dati ISTAT
Variabili analizzate
¾ indice di vecchiaia
¾ indice di dipendenza strutturale.
¾ indice di ricambio della popolazione attiva
¾ indice di struttura della popolazione attiva
¾ n° stranieri/popolazione residente
¾ n° addetti impresa/popolazione residente
¾ n° addetti istituzione pubblica/popolazione residente
¾ n° addetti istituzione no profit/popolazione residente
¾ n° addetti attività dei servizi di alloggio e di ristorazione
/popolazione residente
¾ n° addetti attività costruzioni/popolazione residente
¾ n° addetti attività manifatturiere/popolazione residente
-
Tutti gli indicatori sono moltiplicati per 1000 abitanti
Matrice utilizzata = contiguità classica (standardizzata)
Indice di vecchiaia
Analisi spaziale globale
Rapporto percentuale tra il numero degli ultrassessantacinquenni ed il numero dei giovani fino ai 14 anni.
Indice di vecchiaia
Analisi spaziale locale
C om une
N O V A R A D I S IC IL IA
B A S IC O '
R AC C U JA
BLUFI
U C R IA
T R IP I
FLO RESTA
L IM IN A
F O N D A C H E L L I-F A N T IN A
B O M P IE T R O
RESUTTANO
S A N S A L V A T O R E D I F IT A L IA
SCLAFANI BAG NI
S C IL L A T O
S A N P IE R O P A T T I
M O N T A L B A N O E L IC O N A
M ALVAG NA
SUTERA
A L IM E N A
IS N E L L O
P O L IZ Z I G E N E R O S A
G IU L IA N A
F R A N C A V IL L A D I S IC IL IA
CALTAVUTURO
R O C C A F IO R IT A
P E T R A L IA S O T T A N A
P E T R A L IA S O P R A N A
M O N T E M A G G IO R E B E L S IT O
S A N T 'A N G E L O D I B R O L O
C A S A L V E C C H IO S IC U L O
M A Z Z A R R A ' S A N T 'A N D R E A
FRAZZANO'
VALLED O LM O
R O D I' M IL IC I
ALC AR A LI FU SI
A L E S S A N D R IA D E L L A R O C C A
A N T IL L O
M O N G IU F F I M E L IA
GRATTERI
G ANGI
S A N B IA G IO P L A T A N I
M IR T O
SAN M AUR O CASTELVERDE
C H IU S A S C L A F A N I
A L IA
B O M P E N S IE R E
G E R A C I S IC U L O
C ALTA BELLO T T A
I_ V E C C H IA I L _ M o ra n T ip _ a s s
4 2 1 9 .3 0
5 .7 5
HH
3 4 0 0 .0 0
5 .6 2
HH
3 4 7 3 .6 8
4 .9 5
HH
3 3 5 6 .5 2
4 .0 0
HH
3 2 2 5 .4 9
3 .8 0
HH
3 0 9 3 .0 2
3 .5 2
HH
3 6 0 4 .1 7
3 .4 7
HH
3 0 7 5 .2 7
3 .2 7
HH
2 8 5 7 .1 4
3 .2 1
HH
3 1 3 6 .6 5
2 .4 7
HH
2 4 9 8 .0 1
2 .4 3
HH
3 5 5 5 .5 6
2 .3 8
HH
3 7 9 4 .8 7
2 .3 7
HH
2 8 1 6 .6 7
2 .3 4
HH
2 4 3 8 .8 1
2 .3 0
HH
2 6 7 2 .5 4
2 .2 3
HH
3 0 3 8 .9 6
2 .2 1
HH
3 4 6 2 .1 2
2 .1 1
HH
2 6 8 5 .3 4
2 .1 0
HH
2 8 1 5 .4 8
2 .0 6
HH
2 4 8 3 .7 1
1 .7 6
HH
2 9 2 9 .6 5
1 .6 2
HH
2 1 9 1 .8 7
1 .6 2
HH
2 0 9 0 .3 7
1 .6 1
HH
2 1 7 3 .9 1
1 .5 2
HH
2 5 4 4 .5 9
1 .4 3
HH
2 1 4 1 .5 9
1 .3 7
HH
2 3 4 7 .3 2
1 .3 5
HH
2 7 0 4 .4 8
1 .3 4
HH
3 6 1 6 .4 4
1 .3 3
HH
2 2 4 7 .0 6
1 .3 2
HH
2 9 3 5 .0 6
1 .2 8
HH
2 1 8 4 .8 7
1 .2 7
HH
2 1 5 2 .6 1
1 .1 5
HH
3 2 0 0 .0 0
1 .1 2
HH
2 3 1 8 .6 8
1 .0 9
HH
2 1 0 6 .0 6
1 .0 8
HH
3 0 7 0 .1 8
1 .0 7
HH
2 8 0 7 .3 4
1 .0 7
HH
2 2 7 3 .7 8
1 .0 3
HH
2 3 1 1 .3 9
1 .0 2
HH
2 3 5 0 .4 3
0 .9 9
HH
2 7 8 4 .6 9
0 .9 7
HH
2 3 4 0 .6 6
0 .9 4
HH
2 2 0 2 .1 1
0 .9 4
HH
2 4 6 8 .7 5
0 .9 3
HH
2 2 5 0 .0 0
0 .7 5
HH
2 6 0 0 .0 0
0 .7 2
HH
Comune
CAMPOROTONDO ETNEO
SAN PIETRO CLARENZA
MISTERBIANCO
VILLABATE
FICARAZZI
MOTTA SANT'ANASTASIA
ACI SANT'ANTONIO
CAPACI
CARINI
TORRETTA
BELPASSO
ACI CATENA
CINISI
ISOLA DELLE FEMMINE
MASCALUCIA
GIARDINELLO
TRECASTAGNI
PEDARA
VIAGRANDE
BELMONTE MEZZAGNO
VALVERDE
BAGHERIA
MONTELEPRE
BORGETTO
MISILMERI
ACI BONACCORSI
NICOLOSI
SANTA MARIA DI LICODIA
PATERNO'
BIANCAVILLA
ACATE
PALERMO
SAN GIOVANNI LA PUNTA
RAMACCA
TREMESTIERI ETNEO
ZAFFERANA ETNEA
PARTINICO
MONREALE
I_VECCHIAI
396.72
571.64
726.50
617.78
649.93
789.13
665.39
874.87
715.84
810.60
729.65
615.79
896.99
787.53
769.28
869.27
832.04
848.75
893.38
698.31
843.82
980.05
1027.40
923.73
882.46
1030.95
1066.24
945.21
893.91
899.91
830.34
1193.09
1045.58
800.52
992.95
1017.48
1081.78
836.50
L_Moran
3.00
2.31
2.01
1.93
1.84
1.82
1.74
1.72
1.71
1.62
1.60
1.57
1.51
1.50
1.49
1.44
1.44
1.40
1.39
1.36
1.36
1.34
1.32
1.32
1.28
1.22
1.18
1.15
1.14
1.14
1.03
1.00
0.96
0.95
0.84
0.76
0.74
0.57
Tip_ass
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
LL
Indice di dipendenza strutturale
Analisi spaziale globale
Popolazione non attiva (0-14 anni e 65 anni ed oltre) su quella attiva (15-64 anni)
Indice di dipendenza strutturale
Analisi spaziale locale
Indice di ricambio della popolazione attiva
Analisi spaziale globale
Rapporto percentuale tra la fascia di popolazione che sta per andare in pensione (55-64 anni) e quella che sta per entrare nel mondo del lavoro (15-24 anni)
Indice di ricambio della popolazione attiva
Analisi spaziale locale
Indice di struttura della popolazione attiva
Analisi spaziale globale
Rapporto percentuale tra la parte di popolazione in età lavorativa più anziana (40-64 anni) e quella più giovane (15-39 anni)
Indice di struttura della popolazione attiva
Analisi spaziale locale
N° di stranieri /Pop.
Analisi spaziale globale
N° di stranieri /Pop.
Analisi spaziale locale
N° di addetti Impresa /Pop.
Analisi spaziale globale
N° di addetti Impresa /Pop.
Analisi spaziale locale
N° di addetti Ist. Pubblica /Pop.
Analisi spaziale globale
N° di addetti Ist. Pubblica /Pop.
Analisi spaziale locale
N° di addetti Ist. No profit /Pop.
Analisi spaziale globale
N° di addetti Ist. No profit /Pop.
Analisi spaziale locale
N° di addetti Attività dei servizi di alloggio e di ristorazione /Pop.
Analisi spaziale globale
N° di addetti Attività dei servizi di alloggio e di ristorazione /Pop.
Analisi spaziale locale
N° di addetti Costruzioni /Pop.
Analisi spaziale globale
N° di addetti Costruzioni /Pop.
Analisi spaziale locale
N° di addetti attività manifatturiere /Pop.
Analisi spaziale globale
N° di addetti attività manifatturiere /Pop.
Analisi spaziale locale
Principali riferimenti scientifici
•
L. Anselin, "Local indicators of spatial association-LISA", Geographical Analysis, No. 27, 1995, pp. 93–115.
•
L. Anselin, "The Moran scatterplot as an ESDA tool to assess local instability in spatial association", Fisher
M, Scholten HJ, Unwin D (eds) Spatial analytical perspectives on GIS, Taylor&Francis, London, 1996.
•
F. Chen, C.Tien Lu, A.P.Boedihardjo, "GLS-SOD: a generalized local statistical approach for spatial outlier
detection", in Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining , ACM, New York, USA, 2010
•
J. Cliff, K. Ord, "Spatial Autocorrelation", Pion Limited, London, 1973.
•
E. Fix, J.L. Hodges, "Discriminatory analysis. Nonparametric discrimination: Consistency properties",
Technical Report 4, Project Number 21-49-004, USAF School of Aviation Medicine, Randolph Field, Texas,
1951.
•
A. S. Fotheringham, C. Brunsdon, M. Charlton, "Geographically Weighted Regression", J Wiley & Son,
2002.
•
M. Mucciardi, "Use of a flexible weight matrix in a local spatial statistic", Classification and Multivariate
Analysis for Complex Data Structures, Series: Studies in Classification, Data Analysis, and Knowledge
Organization, 1st Edition, Springer, 2011, Vol. IX, pp. 427-434.
•
M. Mucciardi P. Bertuccelli (2007) S-Joint: a new software for the analysis of spatial data, in: Atti della
Riunione Scientifica Intermedia della Società Italiana di Statistica, Venezia.
•
E. Otranto M. Mucciardi P. Bertuccelli (2014), Spatial Effects in Dynamic Conditional Correlations, Working
Paper CRENoS;
•
J. K. Ord, A. Getis, "Local spatial autocorrelation statistics: distributional issues and an application",
Geographical Analysis, No. 27,1995, pp. 286–305.
•
T. Plümper, E. Neumayer, “Model Specification in the Analysis of Spatial Dependence” European Journal of
Political Research, Vol. 49, Issue 3, 2010, pp 418–442.
•
A. Unwin, D. Unwin, "Exploratory Spatial Data Analysis With Local Statistics", The Statistician, Vol. 47, No.
3, 1998, pp. 415-421.