Strumenti esplorativi nell`analisi dei dati

Transcript

Strumenti esplorativi nell`analisi dei dati
Gerardo Massimi
Ambiti e sistemi territoriali
Un approccio esplorativo alle tematiche geospaziali
Strumenti esplorativi nell’analisi dei dati
Versione preliminare al dicembre 2001
Spezzone di una carta dei posti letto per abitante
negli esercizi turistici italiani al 1991.
WP Web 2001 - Serie RE 6
Laboratorio di Geografia - Dipartimento di Studi Filosofici, Storici e Sociali
Facoltà di Lingue e Letterature Straniere
Ud’A di Chieti – sede di Pescara
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
2
STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI
Il grafico a rami e foglie o stem-and-leaf
I sommari a cinque numeri o letter-value displays
Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli
istogrammi e nelle carte a coroplete
I diagrammi a scatola o box plots
Medie ordinate o medie troncate
La media TRI
Impiego della mediana per la ricerca dei valori anomali
Analisi esplorativa dei dati spaziali – baricentro e mediana
Calcolo della mediana con dati raggruppati
La mediana spaziale bivariata
Un caso di studio
L’approccio esplorativo alla regressione
Procedure alternative per la regressione
I rischi della regressione
La standardizzazione esplorativa dei dati
Lo scaling
Osservazioni sulla trasformazione dei dati
I grafici del tipo Q-Q plots
Conclusioni interlocutorie
Applicazione al valore aggiunto nelle province per il 1991
4
4
7
8
11
13
15
15
16
18
20
22
24
27
28
29
32
34
37
40
41
Figura 1 Stesura preliminare di un diagramma a rami e foglie.
5
Figura 2 Versione intermedia e finale di un diagramma a rami e foglie.
6
Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e
7
foglie.
Figura 4 Schema di sommario a 5 numeri o letter-value display.
8
Figura 5Esempio di sommario a 5 numeri.
8
Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9
Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola. 11
Figura 8 Famiglia di diagrammi a scatola semplificati.
12
Figura 9 Medie ordinate per la stazione pluviometrica di Campli.
13
Figura 10 Sequenza di medie ordinate o troncate.
14
Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di
provincia della regione Lombardia in assenza di ponderazione.
17
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
3
Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia
17
Figura 13 Ogive delle frequenze e mediane.
18
Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della
regione Lombardia”.
21
Figura 15 Popolazione residente nei comuni della provincia di Teramo al
23
censimento 1991 per aree anulari equivalenti.
Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e
valore aggiunto nei comparti indicati in legenda (anno di riferimento 1991),
23
rilevati nelle province italiane, Frosinone inclusa.
Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei
25
dipendenti regionali e caso dei dipendenti provinciali.
Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei
25
dipendenti comunali.
Figura 19 Esempio di regressione esplorativa con il metodo dei 3 gruppi.
26
Figura 20 I rischi della regressione.
28
Figura 21 Distribuzione delle distanze dei capoluoghi comunali dal capoluogo
provinciale in provincia di Gorizia .
30
Figura 22 Confronto grafico tra nove distribuzioni statistiche. Indicatori originali.
30
Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori
31
standardizzati.
Figura 24 Esempio di scaling.
33
Figura 25 Esempio di applicazione dello scaling.
33
Figura 26 Famiglia di trasformazioni tramite potenze.
35
Figura 27 Popolazione residente nelle province italiane al censimento 1981:
36
diagrammi della radice quadrata e della radice cubica.
Figura 28 Popolazione residente nelle province italiane al censimento 1981:
36
diagramma della trasformazione logaritmica.
Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane,
38
Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle
province italiane al censimento 1991.
39
Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati
territoriali puntiformi.
19
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
4
STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI
Il grafico a rami e foglie o stem-and-leaf
Il primo compito del ricercatore, nell'approccio tradizionale, di fronte a una serie
di dati statistici consiste in una preliminare ispezione delle informazioni numeriche al fine
di raggrupparle secondo prefissate regole, ritenute idonee a far emergere soggiacenti
regolarità. In particolare, è antica e radicata consuetudine quella di disegnare istogrammi
delle frequenze, ma le modalità di esecuzione non sono affatto pacifiche e comportano, in
ogni caso, il sacrificio di un gran numero di informazioni, nel senso che situazioni distinte
confluiscono in contenitori, le singole colonne dell'istogramma, nei quali tutte le
differenze sono eliminate.
Considerazioni similari valgono per la costruzione di cartogrammi a coroplete nel
senso che essi comportano, in via preliminare, la definizione del numero delle classi o
colori (se si utilizzano tonalità di grigio o tratteggi, il problema è sempre lo stesso) da
utilizzare; se esse sono stabilite in accordo ai criteri di numerosità dei rettangoli negli
istogrammi, si possono seguire le raccomandazioni di Norcliffe (1977) che propone k =
√ n, dove k è il numero delle classi e n il numero dei dati da rappresentare. Ma queste
raccomandazioni non sono assecondabili in moltissimi casi; infatti, per n maggiore di 100
le rappresentazioni grafiche tendono a svolgere il ruolo di elementi decorativi, e in ogni
caso possono obliterare aspetti di grande rilievo se le classi sono equispaziate 1.
Tornando al problema degli istogrammi, si rileva come l'EDA aggiri con eleganza
e successo gli ostacoli con la proposta di un mix grafico numerico, chiamato stem-andleaf, traducibile in italiano come grafico a rami e foglie.
La realizzazione del grafico (figg. xxx) – l’esempio è costruito con il valore dei
seminativi nelle regioni agrarie abruzzesi (riferimento 1991; i dati sono riportati in tab. 1)
– comporta i seguenti passi:
A - si stabilisce l'unità di misura, ad esempio i milioni di lire, e si inizia il diagramma
con tale indicazione;
B - si individuano i valori minimo (2.120) e massimo (19.600) e si impone un ordinamento ascendente (crescente) o discendente (decrescente) dei dati. Se l'ordine è
crescente si scrivono in colonna le cifre dei milioni da 2 a 19; esse costituiscono i rami;
C - si ricercano le foglie: esse sono date dalle cifre delle centinaia di migliaia di lire.
Ad esempio le foglie del ramo 2 si individuano isolando tutti valori compresi tra 2.0 e 2.9
milioni di lire;
D - si completa il diagramma con tutte le foglie e si eliminano, eventualmente (lo
scrivente è d’opinione contraria) i rami secchi ( quelli, cioè, non rappresentati nella serie
dei dati originali);
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
5
E - si conteggiano le foglie ramo per ramo (o in altre parole si individuano le
frequenze assolute) e le si cumulano, al fine di verificare che il numero delle foglie
corrisponda al numero totale dei dati, e retrocumulano.
A questo punto la sintesi grafico-numerica dell'EDA mostra tutti i suoi vantaggi
rispetto all'approccio tradizionale in quanto unifica efficacemente più strumenti tipici del
secondo: il diagramma della dispersione, l'istogramma, la tabella delle frequenze relative
cumulate e retrocumulate.
Il confronto tra i valori cumulati e retrocumulati permette l’introduzione di un
importante e nuovo indicatore, la profondità, da intendersi come la distanza di un dato
ramo dall’estremo più vicino della distribuzione.
Il prodotto finale non include le colonne dei valori cumulati e retrocumulati, non
necessari per la comprensione dei caratteri fondamentali delle distribuzioni, desumibili
dalle profondità, ma si avvale di una linea verticale ben marcata da disegnare tra la
colonna dei rami e la colonna delle foglie; il tutto, per l’esempio in esame, si presenta
come in figura …
U = 1 milione di lire
Rami
Foglie
2 7741774974
3 997770
45
50
6 534
7 01
80
9 52
10 _
11 336
12 _
13 _
14 _
15 98
16 _
17 _
18 61
19 6
Numero delle foglie Cumulate
10
10
6
16
1
17
1
18
3
21
2
23
1
24
2
26
26
3
29
29
29
29
2
31
31
31
2
33
1
34
Figura 1 Stesura preliminare di un diagramma a rami e foglie.
Retrocumulate
34
24
18
17
16
13
11
10
8
8
5
5
5
5
3
3
3
1
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
6
Da notare il non ordinamento delle foglie.
U = 1 milione di lire
Numero
delle foglie idem
idem
Rami Foglie
o frequenze cumulate retrocumulate Profondità
2 1444777779
10
10
34
10
3 77799
6
16
24
16
4 5
1
17
18
17
5 0
1
18
17
17
6 345
3
21
16
16
7 01
2
23
13
13
8 0
1
24
11
11
9 25
2
26
10
10
10
0
26
8
8
11 336
3
29
8
8
12
0
29
5
5
13
0
29
5
5
14
0
29
5
5
15 39
2
31
5
5
16
0
31
3
3
17
0
31
3
3
18 16
2
33
3
3
19 6
1
34
1
1
U = 1 milione di lire
Rami
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Foglie
1444777779
77799
5
0
345
01
0
25
336
39
16
6
Figura 2 Versione intermedia e finale di un diagramma a rami e foglie.
Versione intermedia, a sinistra: da notare l’ordinamento delle foglie e la colonna intitolata profondità. La
profondità è data dal valore più piccolo tra le frequenze cumulate e retrocumulate; sul piano concettuale
corrisponde alla distanza, come numero di casi , dall'estremo (il minimo o il massimo più vicino);la
profondità massima compete al ramo o ai rami con il valore mediano della distribuzione: al riguardo si noti
che, essendo pari il numero dei casi (34, per la precisione), la distribuzione in esame ha 2 valori mediani, il
17° e il !8°, o la loro media aritmetica.
Versione finale, a destra: nella versione finale, in forma semplificata al massimo di un diagramma a rami e
foglie, traspare con grande immediatezza la configurazione asimmetrica della distribuzione statistica
soggiacente e la poca significatività, in casi del genere, della media aritmetica come indicatore sintetico;
infatti, essa vale 7.3 milioni di lire e risulta superiore a ben 22 regioni agrarie su 34.
Osservazione generale: è strettissima la somiglianza del diagrammi a rami e foglie con il grafico a barre
avente suddivisione uniforme delle classi. La somiglianza è accentuata laddove le foglie sono iscritte su un
fondo in colore.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
7
40
35
Frequenze
30
Figura 3 Visualizzazione degli elementi
caratteristici di un diagramma a rami e foglie.
25
20
15
Il grafico è stato costruito con gli elementi del
diagramma a rami e foglie riportato nella figura
precedente.
10
5
0
0
5
10
15
20
Rami
Frequenze
Frequenze cum.
Frequenze retrocum.
Profondità
I sommari a cinque numeri o letter-value displays
I diagrammi in esame possono essere integrati da indicazioni, consistenti
nell’apposizione di simboli letterali, circa i rami che accolgono la mediana e i quartili, o
anche da segmentazioni che discriminano i casi anomali (sul come riconoscerli, v. più
avanti nel testo).
Sommari delle distribuzioni molto più semplici, ma parimenti utili per la loro
essenzialità e immediatezza di lettura, sono nell’ambito dell’EDA i cosiddetti sommari a
5 numeri, conosciuti anche come letter-value displays. Essi si presentano in conformità
allo schema grafico illustrato in figura 4 ed esemplificato in figura 6 per i dati già
utilizzati per illustrare i diagrammi a rami e foglie.
Noti, ma poco diffusi, sono i sommari a 7 numeri, che si realizzano introducendo
gli ottili; per le modalità di riconoscimento dei casi anomali si rinvia a quanto si scrive a
proposito dei diagrammi a scatola.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
8
n (numero dei casi)
Nome della distribuzione
Mediana
M (profondità della mediana Quartile inferiore
Quartile superiore
F (Profondità del quartile)
Estremo inferiore
Estremo superiore
Soglia di anomalia
inferiore
Soglia di anomalia
superiore
Eventuali casi anomali
Figura 4 Schema di sommario a 5 numeri o letter-value display.
La lettera F indica il quartile, in inglese fourth.
n = 34
Regioni agrarie abruzzesi
M = 17.5
F = 8.5
Valore dei
seminativi per l'anno
1991
56.7
3722.5
2120
9425
19600
17979
18199;18653; 19600.
Figura 5Esempio di sommario a 5 numeri.
Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli
istogrammi e nelle carte a coroplete
Tornando ai diagrammi a rami e foglie, sembra opportuno rilevare come anche
per essi possa manifestarsi il problema della numerosità delle linee diagrammatiche (i
rami). A tal proposito, senza entrare in discussioni tecniche, si richiamano le
formulazioni più seguite:
k = 10 log n; k = 2√ n; k = 1 + log2 n
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
9
dove k è il numero delle linee ed n il numero dei casi: per n inferiore a 100 si preferisce la
seconda formulazione; la prima, per n maggiore di 100; la terza, per n molto grande.
In linea generale, la numerosità dei rami nei diagrammi a rami e foglie, delle classi negli
istogrammi, e dei colori nelle carte a coroplete, deve rispondere a criteri di leggibilità delle rappresentazioni e
di salvaguardia, per quanto possibile, del contenuto informativo nelle distribuzioni dei dati da raggruppare,
specie quando il raggruppamento è la fase preliminare di un prodotto cartografico.
È ovvio che il numero k delle classi, se n è il numero dei valori distinti in una data distribuzione,
deve risultare compreso tra 1 e n, ma soltanto l’esperienza e il buon senso possono guidare in una scelta per la
quale mancano regole generali.
La letteratura geografica e statistica sembra comunque concordare verso valori di k compresi tra 4 e
12-16, a seconda - nel caso delle coroplete - dell’impiego di graduazioni delle intensità di 1 o 2 colori.
Non mancano, tuttavia, proposte precise che possono aiutare nella scelta del numero delle classi:
1) Norcliffe (1977)
k = n0.5
2) Huntsberger (1961)
k = 1 + 3.3logn
3) Brooks e Carruthers (1953) k < 5logn
4) Cowden (1948)
6 ≤k ≥ 16
100
80
A: Norcliffe; B: Huntsberger; C. Brooks e
Carruthers.
k
60
Figura 6 Confronto grafico tra alcune
proposte circa la numerosità delle classi.
40
20
A parere dello Evans (1977),
il disegno delle classi, allorquando
10
100
1000
10000
esse sono alla base delle carte a
n
coroplete, dovrebbe fondarsi su una
suddivisione uniforme quando, così
A
B
C
facendo, esse risultassero, grosso
modo,
ugualmente
numerose
(distribuzioni rettangolari). Negli altri casi valgono questi suggerimenti:
a) se la suddivisione uniforme implica un forte addensamento delle frequenze
nella classe centrale (distribuzioni leptocurtiche), le classi dovrebbero essere ridisegnate
con l’assunzione dello scarto quadratico medio come unità di misura;
b) se le classi equispaziate originano un disegno a J o a J rovesciata, le stesse si
ridisegnano scandendo gli intervalli con progressioni geometriche, con ragioni tanto più
elevate quanto più marcata è l’asimmetria nella distribuzioni dei dati;
c) se le classi equispaziate originano rappresentazioni a U o a M il ricorso a classi
ridisegnate in maniera da risultare egualmente numerose, tramite il ricorso alle medie di
posizione (mediana, quartili e percentili) può essere la soluzione più idonea.
0
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
10
In conclusione i criteri più diffusi nella redazione di carte a coroplete si
riassumono in questi termini schematici:
1. Esogeni: significativi in relazione ai valori di soglia che non sono derivati dai dati
cartografati, come un rapporto tra sessi pari a 1.
2. Arbitrari: numeri privi di particolare significato, sovente con intervalli diseguali tra le
classi, come 5, 10, 20, 30, 80,120...
3. Sistemi ideogratici diversi, influenzati dalle particolarità insite nei dati da cartografare,
del tipo:
a) multimodali, grazie all'impiego di intervalli naturali nella distribuzione di
frequenza dei dati;
b) multigraduati, con intervalli corrispondenti ai punti nei quali la curva delle
frequenze cumulate presenta variazioni di inclinazione;
c) basati sulla contiguità, al fine di rendere massima l'estensione e minimo il
numero delle regioni di una data classe;
d) basati sulla correlazione, al fine di rendere massima la somiglianza rispetto a una
data carta;
e) su classi percentuali, che contengono un numero uguale di aree o superfici
grosso modo uguali delle aree;
f) su limiti tra le classi ancorati alla media, quando la media della distribuzione di
frequenza e utilizzata come una soglia per una prima suddivisione in due classi, poi
queste ultime sono suddivise ottenendosi così quattro classi, e via di seguito.
4. Vari schemi periodici, con classi i cui limiti presentano tra di loro una relazione
matematica definita, come:
a) percentuali rispetto alla normale, con limiti tra classi posti in relazione a classi di
uguale frequenza in una prefissata curva normale;
b) unita della deviazione standard, centrate sulla media, che e una classe centrale,
se il numero delle classi e dispari, e un limite di classe, se le stesse sono pari;
c) intervalli uguali;
d) intervalli uguali in una scala dei reciproci;
e) intervalli uguali in una serie trigonometrica;
f) progressioni geometriche nell'ampiezza delle classi;
g) progressioni aritmetiche;
h) progressioni curvilineari, quando il grafico del logaritmo del limite di classe in
funzione del logaritmo del numero della classe si configura come una retta.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
11
I diagrammi a scatola o box plots
Un carattere distintivo dell’EDA è la diffidenza nei riguardi della media
aritmetica quando essa è impiegata per sintetizzare le distribuzioni di dati, in ragione
della poca resistenza di tale media nei riguardi dei valori estremi, anomali o errati. Per
contro, mediana e quartili sono utilizzati ampiamente nell’analisi esplorativa dei dati, nel
cui ambito si utilizzano per una rappresentazione grafica efficace e molto semplice: i
diagrammi a scatola (box-and-whiskers plots o semplicemente box plots)3.
Il tutto si riduce a riportare in scala, su una linea, questi valori: il minimo, il
primo quartile, la mediana, il terzo quartile, il massimo: sulla linea si disegna inoltre un
rettangolo avente per base l’intervallo tra i due quartili e altezza a piacere - il buon senso
consiglia 4-5 mm - , rettangolo che poi si suddivide in due parti, che si estendono a destra
e a sinistra della mediana (v. figura 7).
Intervallo interquartilico
Primo quartile
Mediana
Minimo
Terzo quartile
Massimo
Campo di variazione dei dati
Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola.
La differenza tra il terzo quartile e il primo quartile prende il nome di campo di
variazione interquartilico; essa è utilizzata nell’analisi esplorativa, della quale parleremo
in seguito, per il riconoscimento dei valori anomali da un punto di vista statistico (ma non
geografico):
quartile superiore - quartile inferiore = dF
I valori anomali sono quelli maggiori di terzo quartile +1.5 dF e inferiori a primo
quartile -1.5 dF.
Il grado di anomalia può essere discriminato introducendo soglie più severe
corrispondenti a terzo quartile +3dF e primo quartile -3dF. (numerosi esempi di
distribuzioni con valori anomali sono reperibili in uno studio dello scrivente sul valore
aggiunto attribuito alle province italiane nel 1991).
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
12
I programmi di statistica consentono di disegnare con immediatezza i diagrammi
a scatola di distribuzioni contenenti centinaia di elementi, ma tali programmi sono costosi
e di non facile utilizzo per i non esperti che, però, si possono avvalere di software più
semplici e molto diffusi.
Un esempio del genere è il programma Microsoft Excel, che offre diverse
alternative, con il quale sono stati realizzati i grafici semplificati riportati nel testo.
Esercizi
extralberghieri
posti letto
Alberghi: posti
letto
Alberghi: numero
Bar, caffè,
gelaterie e birrerie
Ristoranti, osterie
e tavole calde
Commercio
ambulante
Di cui: non
alimentari
T otale
0
Minim o
5
Quartile I
10
Mediana
15
Quartile III
20
Max
Figura 8 Famiglia di diagrammi a scatola semplificati.
Il grafico illustra, tramite diagrammi a scatola semplificati, i valori di posizione caratteristici delle
distribuzioni statistiche “autorizzazioni per il commercio ecc” nelle province italiane, espresse in termini di
densità (rapporto con la superficie) e intensità (rapporto con la popolazione) relative nei riguardi dell’Italia (il
valore medio nazionale è sempre uguale a 1). Per tutti i raggruppamenti statistici: in basso, l’intensità relativa;
in alto, la densità relativa. I dati analitici sono riportati nella tab. xxxx.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
13
Medie ordinate o medie troncate
Anche l’Eda si avvale delle medie aritmetiche, ma con una selezione preliminare
dei dati sui quali effettuare le elaborazioni. In particolare si segnalano le medie ordinate
(anche medie troncate), o trimmed means, molto utili per valutare o per eliminare
l'incidenza dei valori estremi, verso l’alto e verso il basso. Per il loro calcolo, dopo aver
ordinato i dati in senso crescente o decrescente, si procede come per una normale media
aritmetica, ma omettendo una pari percentuale iniziale e terminale dei dati.
È consuetudine (Rent,
, p. 203) eliminare il primo e l'ultimo 10% (decili
estremi), oppure il primo e l'ultimo 25% (così facendo si ottiene la cosiddetta media
interquartile).
Se si indica con p la % dei dati da eliminare, risulta:
(100 - 2p)% = media aritmetica, per p = 0 %
(100 - 2p)% = mediana, per p=50 %
(100 - 2p)% = semimediana o media interquartile, per p=25 %
Si noti che, in linea di principio, il valore di p deve essere scelto a secondo del
grado di resistenza che si intende attribuire alla media (massima quando p = 50), ma
anche in ragione della natura e dell'andamento dei dati. Pertanto, non bisognerebbe mai
limitarsi ad un solo valore di p e, al contrario, avvalersi di una successione di termini
piuttosto numerosa, rivelatrice di una più o meno rapida convergenza, dalla media
aritmetica classica alla mediana: i risultati così conseguiti sono visualizzabili con un
grafico elementare di correlazione tra medie e p%.
Cam pli - Medie ordinate delle precipitazioni
Figura 9 Medie ordinate
per la stazione
pluviometrica di Campli.
mm di pioggia
1020
1010
1000
990
980
0
5
10
15
20
25
p%
30
35
40
45
50
Il commento è immediato,
nel senso che l'incidenza
dei valori estremi si deve
ritenere modesta, seppure
con un maggiore grado di
anomalia dei valori più
elevati,
in
ragione
dell'andamento discendente
del grafico.
Esempio: nella stazione pluviometrica di Campli il Servizio Idrografico Italiano
ha registrato tra il 1924 e il 1950 gli afflussi annui in mm indicati nella prima parte della
tabella che seguenel testo. Ordinando i dati in senso crescente si ottiene una nuova tabella
dalla quale si ottengono immediatamente (ricorrendo ad un comune foglio elettronico di
calcol, quale Excel 97) le medie p% per
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
14
p = 0; 1015
p = 7; 1016
p = 17; 1017
p = 28; 1006
p = 38 999
p = 50 991
media aritmetica
mediana
I risultati così conseguiti sono visualizzabili con un grafico elementare di
correlazione tra medie e p%, al fine di verificare il tipo di percorso che si compie per
passare dalla media aritmetica alla mediana.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
644
668
777
865
870
887
892
903
915
920
924
953
978
982
993
996
997
1002
1021
1072
1084
1129
1155
1183
1262
1324
1332
1350
1357
n = 29; p = 0
p=0
n = 25 media 1015
p = 7%
media = 1017
n = 19
p = 17 %
media = 999
n = 13
p = 28 %
media = 987
n=7
p = 38 %
media = 986
mediana =993
Figura 10 Sequenza di medie ordinate o troncate.
L’esempio è stato costruito con i dati della stazione pluviometrica Campli in provincia di Teramo per il
periodo 1921-1950.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
15
La media TRI
Altra particolare media aritmetica è la TRI, utilizzata nelle procedure che si
richiamano all’EDA per riassumere le caratteristiche dell’intervallo interquartilico,
allorquando tale intervallo risulta asimmetrico o si ritiene possa essere tale:
media TRI = ((primo quartile + mediana) + (mediana + terzo quartile))/4
Da precisare che l’asimmetria è tanto più marcata quanto maggiore è la differenza
tra la mediana e la media TRI.
Esempio: superficie territoriale delle province italiane al censimento 1991:
Minimo
212.0
Primo quartile
Mediana
Terzo quartile
Massimo
Media aritmetica
Media TRI
2079.0
2759.0
3645.0
7520.0
3171.6
2810.5
Impiego della mediana per la ricerca dei valori anomali
La procedura, riportata in Sprent (p. 196-197), si basa sulla seguente condizione
di anomalia
xo - med(xi)  / med[xi - med(xi) ]> 5
il valore 5 sarebbe giustificato dal fatto che in una distribuzione approssimativamente
normale tale rapporto dovrebbe risultare inferiore per tutti i dati, tranne quelli anomali.
Il denominatore med[xi - med(xi) ] prende il nome di deviazione assoluta dalla
mediana o MAD.
Dati
originali
Dati ordinati Deviazioni
dalla
mediana
8.9
6.2
7.2
5.4
3.7
2.8
2.8
3.7
5.4
6.2
6.9
7.2
-4.1
-3.2
-1.5
-0.7
0
0.3
Deviazioni Id. ordinate Rapporti
Iid. in
assolute
d'anomalia valoee
dalla
assoluto
mediana
4.1
0
1
3.2
0.3
-0.35
1.5
0.7
0.15
0.7
1.5
-0.75
0
2
-1.6
0.3
3.2
-2.05
1
0
0
1
2
2
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
16
17.2
13.7
6.9
8.9
13.7
17.2
Mediana = 6.9
2
6.8
10.3
2
6.8
10.3
4.1
5.15
6.8
3.4
10.3
0
Mediana (MAD) = 2.0
5
3
0
Rapporto superiore alla soglia d'anomalia
Valore anomalo
L’interesse verso questo rapporto d’anomalia sembra, allo scrivente, alquanto
modesto.
Analisi esplorativa dei dati spaziali – baricentro e mediana
L’interesse dell’EDA nei riguardi delle medie di posizione si riflette nello studio
delle tendenze centrali e della dispersione nelle distribuzioni di punti. Il luogo centrale
per eccellenza è, secondo una radicata e lunga consuetudine, identificato nel baricentro o
nel luogo puntiforme più vicino ad esso, ma può essere ricercato anche con il criterio
della mediana spaziale4, più in linea con le normali esigenze geografiche in quanto
quest’ultima gode della proprietà del minimo rispetto alla somma delle distanze lineari5
(il baricentro, invece, rappresenta il minimo della somma delle distanze al quadrato; la
mediana è alla base dell’impostazione della localizzazione secondo Isard, il baricentro di
Weber, che però aveva intuito alcune proprietà della mediana, senza trarne tutte le
conclusioni).
La procedura per ricercare la mediana è illustrata (figure 11 e 13) assumendo
come caso esemplificativo i capoluoghi provinciali della regione Lombardia, in relazione
al carico di bovini al 1991 nelle corrispondenti province, e distinguendo i due casi
fondamentali: la mediana semplice e quella ponderata.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
17
140
120
SO N D R IO
100
VA R ESE
80
km
COM O
B ER G A M O
m edia
m ediana
60
40
B R ESC IA
M ILA N O
20
M A N TO VA
C R EM O N A
P A VIA
0
0
20
40
60
80
100
120
140
160
180
km
Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di
provincia della regione Lombardia in assenza di ponderazione.
20
Ovini
10
bar.ST
semplice
km
0
SAT
SAU
-10
Bovini
-20
Suini
-30
0
10
20
30
40
km
Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
18
Coordinata x
Coordinata y
100.00
100.00
75.00
75.00
50.00
50.00
25.00
25.00
0.00
0.00
0
20
40
%
60
80
Cum
100
120
140
160
180
0
Retrocum
20
40
%
60
Cum
80
100
120
140
Retrocum
Figura 13 Ogive delle frequenze e mediane.
Sinistra: andamento nel senso della longitudine delle percentuali e delle percentuali cumulate dei capi bovini
nelle province lombarde. Destra: andamento nel senso della latitudine delle percentuali e delle percentuali
cumulate dei capi bovini nelle province lombarde.
Osservazione: Devono essere sempre ben presenti due fondamentali proprietà
della mediana:
a) la mediana spaziale dipende dall’orientamento degli assi: se essi ruotano, il punto
mediano può spostarsi e disegnare un’area centrale (il baricentro è, invece, sempre un
punto, indipendente dagli orientamenti degli assi);
b) se un elemento ha un peso pari o superiore al 50%, il valore mediano compete, in ogni
caso, a tale elemento. Nel caso della regione Lazio la popolazione residente nella città di
Roma (2.693.383 ab.), alla data del censimento 1991, è pari al 53,5% del totale
(5.031.230 ab.); pertanto, senza necessità di elaborazioni dei dati si può assegnare a Roma
la posizione mediana.
Calcolo della mediana con dati raggruppati
Per il calcolo della mediana con dati raggruppati, come le classi quinquennali
d’età, si procede prima ad individuare la classe contenente la mediana (quella che
accoglie il 50% della popolazione cumulata), e poi ad applicare la seguente relazione:
lm +((Pt/2) - SPa)/(Pm-Pm-i)]. i
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
19
dove: lm = limite inferiore in anni della classe contenente la mediana; SPa = popolazione
cumulata fino alla classe contenente la mediana; Pm = popolazione effettiva della classe
contenente la mediana; Pt = popolazione totale; i = intervallo di ciascuna classe. In
maniera analoga si procede per il calcolo dell’età del primo e del terzo quartile.
Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati territoriali puntiformi.
Capoluoghi comunali della provincia di Teramo ordinati per distanze (in km) crescenti a partire dal
capoluogo; le frequenze cumulate e retrocumulate si riferiscono alla popolazione residente (in % del totale
provincia) alla data del censimento 1921.
Nome
distanza Cum Retrocum Nome
distanza Cum Retrocum
Teramo
0.0 12.5
100.0 Pietracamela
18.2 56.5
44.2
Torricella Sicura
4.1 14.1
87.5 Torano Nuovo
18.6 57.4
43.5
Campli
8.0 18.6
85.9 Sant'Egidio alla Vibrata
18.7 59.2
42.6
Basciano
8.1 19.5
81.4 Nereto
19.1 60.8
40.8
Canzano
8.1 20.5
80.5 Castelli
19.3 62.4
39.2
Castellalto
9.3 22.0
79.5 Arsita
19.7 63.3
37.6
Penna Sant'Andrea
9.7 22.6
78.0 Ancarano
19.9 64.1
36.7
20.3 66.4
35.9
Montorio al Vomano
9.7 26.0
77.4 Valle Castellana
Cermignano
11.3 27.6
74.0 Corropoli
20.3 68.6
33.6
Bellante
11.6 29.8
72.4 Crognaleto
20.7 71.1
31.4
Tossicia
12.7 31.0
70.2 Montefino
20.9 72.0
28.9
Cortino
13.3 32.2
69.0 Giulianova
21.6 76.0
28.0
Castel Castagna
13.3 32.9
67.8 Tortoreto
21.6 78.3
24.0
Colledara
13.3 34.1
67.1 Castiglione Messer Raimondo
21.8 80.0
21.7
Civitella del Tronto
13.6 38.7
65.9 Controguerra
22.7 81.6
20.0
Notaresco
15.2 41.0
61.3 Castilenti
23.9 82.5
18.4
Rocca Santa Maria
15.3 41.7
59.0 Alba Adriatica
24.2 82.8
17.5
Sant'Omero
15.4 43.9
58.3 Roseto degli Abruzzi
24.9 87.2
17.2
Cellino Attanasio
15.9 45.8
56.1 Atri
25.3 92.7
12.8
Fano Adriano
16.7 46.6
54.2 Colonnella
25.5 94.8
7.3
28.4 95.9
5.2
Mosciano Sant'Angelo
16.8 50.2
53.4 Martinsicuro
Morro d'Oro
17.0 51.5
49.8 Pineto
31.1 97.7
4.1
Isola del Gran Sasso d'Italia
17.5 54.1
48.5 Silvi
36.5 100.0
2.3
Bisenti
17.7 55.8
45.9
Alla base di questa procedura vi sono due ipotesi: la distribuzione statistica è
continua; è giustificata, ai fini pratici, l’interpolazione lineare per la ricerca del valore
mediano.
La procedura in questione appare inapplicabile con dati territoriali discreti, come
quelli che si riferiscono a luoghi puntiformi. In tali evenienze l’unica strada percorribile
appare il ricorso alle frequenze cumulate, o a quelle retrocumulate.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
20
In merito, si consideri (vedi prospetto) quale caso concreto la distribuzione dei
capoluoghi comunali della provincia di Teramo, ordinati per distanze crescenti a partire
dal capoluogo di provincia e qualificati dalla popolazione residente nei corrispondenti
comuni alla data del censimento 1921, popolazione espressa in termini percentuali del
totale provinciale.
Si conviene di considerare quale
a) espressivo del primo quartile delle distanze, ponderate con la popolazione, il
capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 25% e
quelle retrocumulate risultano pari o superiori al 75% (Montorio al Vomano, alla distanza
di 9.7 km);
b) espressivo della mediana, il capoluogo comunale in cui le frequenze cumulate
risultano pari o superiore al 50% e quelle retrocumulate risultano pari o superiori al 50%
(Mosciano Sant’Angelo, alla distanza di 16.8 km);
c) espressivo del terzo quartile, il capoluogo comunale in cui le frequenze cumulate
risultano pari o superiore al 75% e quelle retrocumulate risultano pari o superiori al 25%
(Giulianova, a 21.6 km).
La mediana spaziale bivariata
La mediana spaziale calcolata sulle singole coordinate non assicura, come visto
in precedenza, la proprietà del minimo al ruotare degli assi; pertanto, laddove lo si ritenga
utile, è necessario rifarsi alla mediana spaziale bivariata.
La mediana in questione si calcola con procedura iterativa, manca infatti la
possibilità di una soluzione analitica generale, sotto il vincolo di rendere minima la
somma delle distanze complessive dei luoghi puntiformi in esame e il punto immagine
della mediana.
L’iterazione porta a soluzioni rapidamente convergenti, ma dobbiamo rilevare la
laboriosità dei calcoli necessari anche per poche ripetizioni delle elaborazioni (la
procedura è illustrata più avanti nel testo di questo paragrafo).
Come esempio introduttivo si propone la situazione di coordinate e pesi di 8
luoghi A, B...H definiti nel prospetto che segue nel testo:
luoghi
A
B
C
D
E
F
coordinate
X
4
6
3
7
2
6
pesi
Y
6
6
3
2
9
2
P
9
4
10
4
20
8
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
21
G
H
2
5
totale pesi
7
3
coordinate del baricentro
20
6
81
X1 = 3.407; Y1 = 5.802
Effettuate le iterazioni, emerge il seguente quadro riassuntivo:
Iterazioni
I
II
III
IV
x
3.407
3.358
3.285
3.21
y Sommatoria delle distanze Differenze
5.802
228.254
6.045
226.449
-1.805
6.145
225.906
-0.543
6.205
225.506
-0.400
dal quale si desumono differenze progressivamente contenute tra successive sommatorie
delle distanze, e la possibilità di attribuire con sufficiente precisione la qualità di punto
mediano a quello individuato con la quarta iterazione.
6.5
229
228
y
IV
III
227
II
6
226
I
225
224
5.5
3
3.5
x
I
II
III
IV
Som m atoria delle distanze
Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della
regione Lombardia”.
A sinistra, spostamenti della mediana spaziale bivariata per successive iterazioni; a destra, progressiva
contrazione della distanza complessiva.
Infatti, se le coordinate dei luoghi hanno il chilometro come unità di misura,
ulteriori iterazioni potrebbero comportare variazioni globali di qualche centinaia di metri,
del tutto irrilevanti in un’analisi territoriale.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
22
Circa la dispersione nell’intorno dell’area mediana, o di un qualsiasi punto
assunto come centrale, la logica interna all’EDA suggerisce di apprezzarla tramite
rappresentazioni grafiche o cartografiche delle frequenze cumulate, computate dal centro
verso la periferia per anelli successivi.
La procedura è abbastanza semplice e comporta, come primo passaggio, la
ricerca del baricentro che funge da prima e provvisoria soluzione; successivamente si
calcolano le distanze dei luoghi dal baricentro e le quantità:
Σ (pi/di)xi e Σ (pi/di)yi
dalle quali si derivano le coordinate della seconda provvisoria soluzione:
x’ = Σ( (pi/di)xi)/Σ (pi/di) e y’ = Σ ((pi/di)yi)/ Σ (pi/di)
della quale si verifica la correttezza con il calcolare nuovamente la somma delle distanze
complessive dai luoghi sotto indagine, nel senso che dovrà risultare inferiore alla somma
trovata in precedenza. La procedura si arresta allorquando le differenze tra le sommatorie
delle distanze diventano irrilevanti ai fini concreti della ricerca.
Da precisare che, allorquando ai luoghi sono attribuiti pesi diversi da caso a caso,
le coordinate del baricentro e le sommatorie delle distanze devono essere, ovviamente,
ponderate, previa verifica della non attribuzione ad un singolo luogo di un peso pari o
superiore al 50% del totale dei pesi. Infatti, in un caso del genere la qualità di mediana
compete, per definizione, a tale luogo.
Un caso di studio
L’utilizzo meccanico ed acritico degli strumenti quantitativi, specie se associato a
procedure automatiche di calcolo, può facilmente condurre non solo a interpretazioni
erronee, ma anche a rappresentazioni del tutto fuorvianti. Non sfugge a questo rischio
l’analisi esplorativa in generale e, in particolare, la mediana bivariata e le medie di
posizione delle distanze, specie quando sono impiegate nello studio della distribuzione
spaziale di un solo attributo.
Un caso concreto, la distribuzione delle ampiezze demografiche comunali in
provincia di Teramo al censimento 1991, è di aiuto nell’esplicitare i rischi.
Effettuate tutte le elaborazioni, se si assume come centro della provincia di
Teramo la mediana spaziale bivariata, ponderata con la popolazione residente, le
circonferenze concentriche, aventi raggio pari al primo quartile, alla mediana, al terzo
quartile e al valore massimo delle distanze ponderate con la popolazione residente,
disegnano quattro fasce in ciascuna delle quali, a prima vista, risiede un quarto della
popolazione residente nella provincia. In realtà, poiché la distribuzione spaziale dei
capoluoghi comunali è discreta, le quantità non sono del tutto uguali.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
23
Figura 15 Popolazione
residente nei comuni della
provincia di Teramo al
censimento 1991 per aree
anulari equivalenti.
40
30
20
Commento nel testo.
10
0
5
-10
-20
-30
-40
-40
-30
-20
-10
0
10
20
30
40
1000
750
500
250
0
0
100
200
300
400
500
600
700
pop.zione
sup.
Agricoltura foreste e pesca
industria
Servizi destinabili alla vendita
Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e valore aggiunto nei
comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone
inclusa.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
24
Le ogive delle frequenze cumulate per distanze crescenti forniscono preziose informazioni circa la
concentrazione o la rarefazione di insiemi di attributi geografici negli intorni spaziali dei luoghi assunti come
origine delle misure. Nel caso della provincia di Frosinone il grafico ne sottolinea il ruolo subordinato nel
contesto italiano.
L’approccio esplorativo alla regressione
Il metodo più diffuso, ma non sempre soddisfacente e comunque molto laborioso,
per adattare una funzione matematica ad un insieme di coppie di dati empirici, x e y, si
avvale della procedura dei minimi quadrati. Essa, inoltre, deve essere applicata due volte
- regressione di y rispetto ad x, regressione di x rispetto ad y - in quanto si tratta di rendere
minima la sommatoria
∑( y
i
− yi ')
2
oppure
∑( x − x ')
i
2
i
dove xi e yi sono i dati empirici e xi’ e yi’ sono quelli teorici.
Se la regressione è di tipo lineare, il problema implica il calcolo dei parametri
delle rette
y ' = ax' +b
x ' = my ' +n
Il coefficiente angolare a si ottiene con la relazione
−
−
−





a = ∑  x i − x  y i − y  / ∑  x i − x 
−
2
−
dove x e y indicano le medie aritmetiche dei valori x e y; la costante b, a sua volta, è
espressa da
−
−
b = y− a x
Il computo dei parametri, se i dati sono numerosi, è agevole soltanto se si dispone
di una calcolatrice espressamente progettata per i calcoli statistici, o di un foglio
elettronico.Ma quel che maggiormente conta è che le funzioni di regressione, calcolate
con il vincolo dei minimi quadrati, rispecchiano in maniera accentuata i casi estremi.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
25
Notevole interesse presenta l’approccio esplorativo alla regressione, essendo
orientato a discriminare, molto opportunamente da un punto di vista geografico, le
situazioni anomale da quelle rilevabili nella maggioranza dei casi.
30
y = 0.3787x + 3.1057
R2 = 0.1262
% addetti nelle province
% addetti nelle regioni
30
20
10
y = 0.4437x + 2.7801
R2 = 0.2333
20
10
0
0
0
10
20
% Popolazione
30
0
10
20
30
% Popolazione
Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei dipendenti regionali e
caso dei dipendenti provinciali.
Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel.
% Addetti nei comuni
30
y = 0.9226x + 0.387
R2 = 0.9434
20
10
Figura 18 Esempio di regressione con il metodo dei
minimi quadrati - caso dei dipendenti comunali.
Il calcolo della retta di regressione è stato effettuato con
procedura automatica tramite Microsoft Excel.
In sostituzione del metodo dei minimi
quadrati, fondato sulla media aritmetica e
sullo scarto quadratico medio, nell’ambito
0
dell’EDA sono disponibili diverse procedure
0
10
20
30
tra le quali piuttosto diffuso risulta il
% Popolazione
cosiddetto metodo dei tre gruppi, illustrato
tramite un esempio: la costruzione della retta
di regressione del valore aggiunto globale lordo, rilevato nelle province italiane (anno di
riferimento: 1991), in funzione del valore aggiunto pertinente al comparto industria. I dati
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
26
originali sono stati preliminarmente riespressi in parti per 1000 del totale Italia (figura
19).
La procedura esplorativa in esame - dopo l’attribuzione al comparto industria del
ruolo di variabile x, indipendente, e al valore aggiunto globale lordo quello di variabile y,
dipendente - comporta l’ordinamento dei dati in senso crescente della variabile x per
ottenere una nuova tabella ( tab. xxx) da suddividere in 3 gruppi egualmente numerosi
che prendono, rispettivamente, il nome di gruppo di sinistra o left (acronimo: L), centrale
o middle (M) e di destra o right (R).
Se il numero n dei dati non è multiplo di 3 si formano i gruppi, di numerosità k,
per convenzione, come dal prospetto:
valore aggiunto lordo complessivo in parti per mille del
totale Italia
formazione dei gruppi
caso I
caso II
n=3k
n= 3k +1
sinistra o left
k
k
centrale o middle k
k+1
destra o right
k
k+1
caso III
n= 3k +2
k+1
k
k+1
Figura 19 Esempio di
regressione esplorativa con il
metodo dei 3 gruppi.
120
100
I dati dell’esempio sono riferiti al
1991.
80
60
dati
empirici
40
regr.
esplor
20
0
0
50
100
150
Valore aggiunto dell'industria in
parti per mille del totale Italia
caso si ottiene questo prospetto:
Poiché il numero
delle province italiane è 95
(si discorre della situazione
amministrativa anteriore al
1991), si ricade nel caso III.
I tre gruppi sono
riassunti dalle rispettive
mediane che si indicano con i
simboli
delle
variabili,
specificati da un pedice che
richiama i gruppi (L, M, R).
Effettuate le operazioni del
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
27
mediana L
mediana M
mediana R
x
2.811
6.362
16.126
y
3.826
6.921
14.945
L’equazione della retta di regressione di y in funzione di x:
y = a +bx
si quantifica calcolando, per primo, il coefficiente angolare b con la relazione:
b = (yR-yL)/(xR-xL)
corrispondente a quello della retta che passa per i punti mediani L e R; effettuati i calcoli
richiesti si ottiene b = 0.835057845.
A sua volta il parametro a si determina ponendo
a = (1/3)*[(yL-bxL)+(yM-bxM)+(YR-bxR)]
da cui segue a = 1.522169367, sicché la richiesta equazione di regressione è:
y = 1.522169367 +0.835057845x
A proposito di a si può rilevare come questo parametro sia stato individuato in
maniera tale da far passare la retta di regressione in un punto medio tra i 3 punti mediani
riassuntivi dei gruppi.
La bontà della regressione deve essere sempre saggiata con l’esame dei residui e
l’apprezzamento visuale delle distribuzioni tramite un congruo numero di grafici; inoltre,
è bene confrontare i risultati con quelli conseguenti all’applicazione di metodi alternativi.
Procedure alternative per la regressione
I metodi alternativi più noti sono:
a) Metodo di Wald. Si tratta di un metodo, di tipo non esplorativo, ritenuto utile
allorquando si ritiene che i dati empirici possano contenere errori.
I dati, dopo essere stati ordinati rispetto alla x, sono suddivisi in 2 gruppi
ugualmente numerosi e si calcolano i parametri con le relazioni:
b = [(ym+1 + ....+yn) - (y1+.....ym)]/[(xm+1 +....+ xn) - ( x1 + ......+ xn)]
a =y’-bx’
dove y’ e x’ indicano le medie aritmetiche dei valori empirici y e x.
b) Metodo di Nair e Shrivastava. Si utilizzano direttamente solo i dati del primo e
del terzo gruppo con i quali si individuano 2 punti riassuntivi L e U (da low ‘basso’ e
upper ‘superiore’) tramite le medie aritmetiche:
x’L = (x1 + ... + xnL)/nL ; y’L = (y1 + ...ynL)/nL
x’U = (xn-nU + ...xn)/nU; y’U = (yn-nU + ...yn)/nU
La retta di regressione è, molto semplicemente, quella che passa per i punti riassuntivi:
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
28
b = (y’U-y’L)/(x’U-x’L)
a = y’L -bx’L
c) Metodo di Bartlett. La suddivisione in 3 gruppi ugualmente numerosi è
richiesto anche per questo metodo che si avvale di tre punti riassuntivi: le medie
aritmetiche del primo (L) e dell’ultimo gruppo (U), e le medie aritmetiche delle due
distribuzioni:
L (x’L;y’L)
U (x’U; y’U)
baricentro (x’; y’)
la retta di regressione è definita come quella passante per il baricentro e parallela alla retta
congiungente i punti L e U; pertanto:
b = (y’U-y’L)/(x’U-x’L)
a = y’ -bx’
I rischi della regressione
Le linee di tendenza costruite con la regressione, qualunque sia la procedura,
sono molto utili in geografia allorquando sono utilizzate per analisi retrospettive, ma nel
contempo possono condurre a valutazioni previsionali sempre dubbie e sovente assurde
allorquando sono impiegate in indagini prospettiche.
Un semplice esempio (figura 20) chiarisce gli aspetti in discussione:
immaginiamo di trovarci nel comune di Milano all’indomani del censimento della
popolazione effettuato nel 1951 e di voler effettuare una previsione per il quarantennio
successivo sulla base dei risultati dei censimenti effettuati tra il 1921 e il 1951.
2500000
Figura 20 I rischi della regressione.
Popolazione
2000000
Commento nel trsto.
1500000
1000000
500000
0
1921
1931 1941
1951 1961
1971 1981
Anno di censimento
Pop effettiva
Pop teorica
1991
L’equazione
di
regressione lineare, calcolata
con il programma Excel (o con
altro similare) secondo il
principio dei minimi quadrati
(y = 1.8898x+101.4) si adegua
molto bene ai dati empirici,
come documentano i modesti
residui (dato teorico-dato
empirico) e l’alto valore di R
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
29
quadro (0.9655), pertanto riassume efficacemente il trend del periodo 1921-1951.
Al contrario, la proiezione della tendenza storica verso il futuro conduce ad errori
via via più appariscenti, tanto che al 1991 il residuo sfiora il 40 % del dato reale. In
merito è illuminante questo quadro analitico1:
Censimento Popolazione
1921
818148
1931
960660
1936
1115768
1951
1274154
1961
1582421
1971
1732000
1981
1604773
1991
1369231
Popolazione teorica
829602
984216
1061522
1293443
1448057
1602670
1757284
1911897
Residuo
11454
23556
-54246
19289
-134364
-129330
152511
542666
In %
1.40
2.45
-4.86
1.51
-8.49
-7.47
9.50
39.63
La standardizzazione esplorativa dei dati
Un cenno anche sulla standardizzazione dei dati, una procedura che consente di
trasformare in puri numeri i valori di una tabella statistica e, conseguenza di rilievo, di
confrontare tabelle diverse, riferite ad un certo insieme territoriale, anche se i valori
originali sono espressi in differenti unità di misura.La standardizzazione si avvale di due
distinti approcci: quello tradizionale e quello esplorativo (figura 21.Nel primo caso i
valori standardizzati, zi, si ottengono tramite la relazione:
zi = (xi - media aritmetica)/sqm
Nel secondo caso i valori standardizzati, z’i , discendono da una formula
similare, in ragione della sostituzione della media aritmetica con la mediana e dello scarto
quadratico medio con la differenza interquartilica:
z’i = (xi - mediana)/(quartile superiore - quartile inferiore)
Indipendentemente dal criterio seguito nella standardizzazione l’utilità della
trasformazione dei dati risulta evidente se si ricorda che tutte le tabelle standardizzate
con il metodo tradizionale sono accomunate dall’avere la media aritmetica pari a zero e
1
L’esempio dovrebbe mettere in guardia verso le false profezie, propalate con corredi ingannevoli
di grafici, estrapolazioni statistiche e scenari fittizi, dei circoli ambientalisti più agguerriti e
amplificate dai mass-media circa l’esaurirsi a breve di risorse minerarie e alimentari . I tanti studi
del Club di Roma, pubblicati nella seconda metà del Novecento offrono una casistica tanto
numerosa quanto sconcertante. In realtà, per evitare gli sprechi dovrebbe bastare il buon senso.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
30
lo scarto quadratico medio pari a 1, le tabelle standardizzate con l’approccio esplorativo
hanno invece pari a zero la mediana.
Inoltre, numerose tabelle possono essere facilmente confrontate con la
visualizzazione dei valori su linee graduate, sovrapposte o affiancate.
Dati standardizzati
4
3
2
1
0
-1
-2
-3
0
10
20
30
40
Dati originali (km)
tradizionale
esplorativa
Figura 22 Confronto grafico tra nove
distribuzioni statistiche. Indicatori
originali.
60000
50000
Il grafico è stato costruito con gli
elementi, riportati nel prospetto che
segue, che si riferiscono ai 47 comuni
della provincia di Teramo.
40000
30000
20000
10000
0
min
Figura 21 Distribuzione delle distanze dei
capoluoghi comunali dal capoluogo
provinciale in provincia di Gorizia .
quartile I
mediana
quartile III
max
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
31
Attributo
Superficie in ha
Popolazione al censimento 1921
Popolazione al censimento 1931
Popolazione al censimento 1936
Popolazione al censimento 1951
Popolazione al censimento 1961
Popolazione al censimento 1971
Popolazione al censimento 1981
Popolazione al censimento 1991
Minimo
704
738
1402
1385
1389
716
519
402
350
Quartile I Mediana
2032
3088
2125
3558
2332
3868
2443.5
4121
2739
4255
2377.5
3934
1748.5
3100
1733.5
2964
1692.5
2936
Quartile III
5151.5
5046.5
5341.5
5598.5
6364.5
6038
6088
6593
7198
Massimo
15200
27275
31790
33796
38643
41899
47804
51092
51756
Figura 23 Confronto grafico tra nove
distribuzioni statistiche. Indicatori
standardizzati.
12
10
Il grafico è stato costruito con gli
elementi, riportati nel prospetto che
segue, che si riferiscono ai 47 comuni
della provincia di Teramo.
8
6
4
2
0
-2
min
quartile I
mediana
Attributo
Superficie in ha
Popolazione al censimento 1921
quartile III
Minimo
-0.764
-0.965
max
Quartile I Mediana
-0.339
0.000
-0.491
0.000
Quartile III
0.661
0.509
Massimo
3.883
8.118
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
32
Popolazione al censimento 1931
Popolazione al censimento 1936
Popolazione al censimento 1951
Popolazione al censimento 1961
Popolazione al censimento 1971
Popolazione al censimento 1981
Popolazione al censimento 1991
-0.819
-0.867
-0.791
-0.879
-0.595
-0.527
-0.470
-0.510
-0.532
-0.418
-0.425
-0.311
-0.253
-0.226
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.490
0.468
0.582
0.575
0.689
0.747
0.774
9.278
9.406
9.485
10.372
10.302
9.904
8.867
Lo scaling
La trasformazione dei dati è, nell’approccio esplorativo, un’abitudine da
acquisire, e da coniugare con la sistematica rappresentazione grafica, al fine di saggiare,
in via preliminare, l’esistenza di possibili regolarità statistiche, da interpretare per
analogia ed omologia con isomorfismi scientifici o con specifici modelli esplicativi.
Si inizia con lo scaling (dall’inglese to scale), un’importante trasformazione dei
dati consistente nel sostituire le unità di misura originali con nuove unità, rappresentate
per punti percentuali, e nel trasformare i campi di variazione dei dati in campi aventi per
minimo il valore 0 e per massimo il valore 100.
La procedura di trasformazione dei dati originali xi nei dati trasformati x’i si
avvale di questa relazione:
x’i = 100(xi - xmin)/(xmax - xmin)
dalla cui applicazione al caso della popolazione residente nelle province italiane
(censimento 1981) discende il grafico illustrativo riportato in figura 24.
100.00
90.00
80.00
70.00
x'
60.00
50.00
40.00
30.00
20.00
10.00
0.00
0
1000000
2000000
3000000
x
4000000
5000000
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
33
Figura 24 Esempio di scaling.
Popolazione residente nelle province italiane al censimento 1981.
Lo scaling va utilizzato con buon senso: il suo impiego deve facilitare i confronti
tra dati territoriali e non comportare la pura e semplice sostituzione delle unità di misura.
Pertanto, la regola di trasformazione si riscrive sostituendo xmin con xpeggiore e xmax con
xmigliore , e si assume la convenzione di intendere peggiore e migliore in conformità alle
specificità del particolare attributo geografico in esame. In altre parole, se si esaminano
dati concernenti la disoccupazione, il dato minimo è quello che riflette una migliore
situazione sociale; per contro il dato massimo implica la situazione peggiore.
Ancora il buon senso suggerisce di avvalersi dello scaling per confrontare gruppi
di almeno 3-4 attibuti, altrimenti il cambiamento di unità di misura rischia di tradursi in
un esercizio di operazioni aritmetiche, prive di signifivatività geografica.
È possibile avvalersi dei dati trasformati, semplicemente cumulandoli, attributo
per attributo, al fine di addivenire a punteggi complessivi, utilizzabili come indicatori
sintetici delle singole tessere territoriali, ma sempre con grande prudenza.
Un caso applicativo concreto (figura 25) è costituito dagli attributi persone in
cerca di occupazione, prodotto interno lordo per abitante e apparecchi istallati per il
servizio telefonico attribuiti dall’ISTAT alle regioni amministrative italiane per il 1991 o
al 31 dicembre 1991 (apparecchi telefonici). Al riguardo, il grafico illustrativo evidenzia
un buon accordo tra le distribuzioni dei singoli attributi analitici, specie per quel che
riguarda la condizione della Calabria - sempre qualificata dalla condizione peggiore -, e
di tali distribuzioni con l’indicatore sintetico, ottenuto dalla somma dei valori scalati x’,
y’ e z’.
100
indicatori analitici
75
Figura 25 Esempio di
applicazione dello scaling.
50
25
0
0
25
50
75
indicatore sintetico
x'
y'
z'
100
Il grafico è stato disegnato a partire
dai dati raccolti in prospetto.
Intitolazione delle colonne:
x: persone in cerca di occupazione
in % forze di lavoro; y: prodotto
interno lordo per abitante (Italia
pari a 100); z: apparecchi istallati
per il servizio telefonico per 100
abitanti; x’, y’ e z’ valori scalati; w:
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
34
indicatore sintetico; w’: indicatore sintetico scalato.
I dati sono riferiti all’anno 1991 per gli attributi x ed y, al dicembre 1991 per l’attributo z.
Regioni
Piemonte
Valle d'Aosta
Lombardia
Trentino Alto Adige
Veneto
Friuli Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
ITALIA
x
7
4
4
3
5
6
9
5
8
10
7
11
11
15
22
16
21
23
23
19
11
y
120
127
131
120
115
117
111
123
107
93
105
111
86
72
69
73
59
58
65
73
100
z x' y' z' w (= x'+y'+z') w'
66 81 85 64
230 79
82 98 95 100
293 100
69 95 100 71
267 91
67 100 86 68
253 87
58 93 79 47
219 75
64 87 82 61
230 79
76 71 74 86
231 79
70 91 90 73
254 87
65 75 67 63
206 70
55 66 48 41
155 53
55 82 65 40
187 64
66 59 74 64
197 67
52 62 39 33
134 46
42 40 20 11
71 24
39 8 15 4
27 9
40 35 21 7
63 22
39 13 2 4
19 7
37 0 0 0
0 0
44 1 10 15
26 9
47 22 20 22
64 22
57 61 58 45
164 56
Osservazioni sulla trasformazione dei dati
Trasformazioni radicali dei dati si ottengono con procedure più complesse, come
la standardizzazione classica o quella esplorativa, tramite le quali le unità di misura
originali sono sostituite con puri numeri, o con manipolazioni algebriche, da effettuare
con grande prudenza in quanto esse consistono nell’impiego di funzioni che devono
essere esplicitate e giustificate; in generale si pone: x’i = f(xi).
La funzione più impiegata, anzi raccomandata nell’ambito dell’EDA, è la radice
quadrata, ma anche quella logaritmica è utilizzata frequentemente dai geografi, in
particolare nello studio delle relazioni del tipo rango-dimensione e della crescita relativa
(discusse in altra parte di questo studio); tuttavia, in linea di principio non vi sono, a
priori, regole specifiche da seguire nella scelta delle funzioni di trasformazione, salvo le
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
35
trasformazioni mirate al conseguimento di particolari proprietà statistiche nelle nuove
distribuzioni, come la simmetria.
Le trasformazioni più diffuse sono raggruppabili nei seguenti tipi fondamentali
(figura 26):
x’ = xp
per p > 0
x’= - xp
per p < 0
x’= logx
per p = 0
x’= (xp - 1)/p
per p diverso da 0
x’= lgx
per p = 0 (lgx indica il logaritmo con base e)
Trasformazioni dei dati tramite funzioni del tipo
p p
xx^
dati trasformati
3.00
p=2
2.00
p=1
p = 0.5
p = -0.5
p = -1
1.00
p = -2
3.00
2.50
2.00
1.50
1.00
0.50
0.00
0.00
dati originali
Figura 26 Famiglia di trasformazioni tramite potenze.
Quale caso applicativo riprendiamo in esame la popolazione residente nelle
province italiane al censimento 1981 per trasformare i dati originali tramite le relazioni:
x’ = x0.5 ; x’’ = x1/3 e x’’= logx
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
36
e verifichiamo tramite i corrispondenti grafici le caratteristiche delle nuove distribuzioni.
Il grafico di x’ o diagramma delle radici, raccomandato dalla letteratura
geografico-statistica, mostra una buona relazione empirica dei dati trasformati con una
funzione di potenza (figura 27), mentre il grafico logaritmico (figura 28) presenta un
apprezzabile andamento lineare nei dati: in entrambi i casi le funzioni interpolanti e lo
stimatore R2 indicano una apprezzabile regolarità statistica nei dati, il che non implica
alcuna valutazione territoriale in quanto i dati non sono spazializzati.
Radice quadrata dei dati originali
Radice cubica dei dati originali
3000
200
180
y = 172.55x -0.2393
R2 = 0.9294
160
y = 2450.5x-0.3625
R2 = 0.9294
2000
Popolazione
Popolazione
2500
1500
1000
140
120
100
80
60
40
500
20
0
0
0
50
100
Rango
0
50
100
Rango
Figura 27 Popolazione residente nelle province italiane al censimento 1981: diagrammi della radice
quadrata e della radice cubica.
Logaritm o base 10 dei dati originali
Figura 28 Popolazione residente nelle province
italiane al censimento 1981: diagramma della
trasformazione logaritmica.
Popolazione
7
6
5
In questa figura, come nella precedente, la
popolazione è visualizzata in funzione del rango
secondo un ordine decrescente della popolazione
residente.
y = 6.8559x -0.0544
R2 = 0.9115
4
0
50
Rango
100
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
37
A proposito del grafico logaritmico (la denominazione corretta è grafico
semilogaritmico in quanto uno degli assi è a suddivisione uniforme) si noti che
procedendo in senso inverso la funzione lineare di tendenza si può scrivere:
y = k/xq
del tipo:
y = a/xb
già noto quale espressione formale della regolarità statistica rango-dimensione2.
I grafici del tipo Q-Q plots
Un gruppo particolare di raffigurazioni è costituito da metacarte, progettate e
realizzate dallo scrivente (sono novità per l’impostazione, non per la tecnica che si
richiama ai grafici del tipo Q-Q plots della letteratura statistica, sarebbe a dire grafici che
pongono a confronto i quantili di due fenomeni interconnessi), del tutto coerenti con lo
spirito dell'EDA.
Si tratta di computare in via preliminare le frequenze ponderate (con i singoli
attributi del valore aggiunto della popolazione e della superficie) della longitudine e della
latitudine, rilevate con coordinate piane per ciascun capoluogo di provincia, ai quali si
attribuisce inoltre il peso nell'intera provincia per l'attributo da cartografare.
Successivamente si rilevano per la longitudine e per la latitudine i valori ponderati
corrispondenti al primo quartile, alla mediana e al terzo quartile, tutti ovviamente compresi tra gli estremi del valore minimo e del valore massimo sempre costanti per la
longitudine o per la latitudine, indipendentemente dalla ponderazione:
longitudine*
min km 0 (Aosta) max km 974 (Lecce)
latitudine*
min km 0 (Ragusa) max km 1064 (Bolzano)
* La longitudine e la latitudine sono quelle conseguenti alla traslazione degli assi dei
valori originali in modo tale da far coincidere in ambo i casi i minimi con il valore zero.
Rappresentando su un grafico cartesiano i valori suddetti si ottiene una metacarta
caratterizzata da sedici comparti, come illustrato in figura per il caso dei valori ponderati
con la superficie: è evidente che al mutare degli attributi si modifica la configurazione
2
L’analogia non è completa perché nel caso della regola rango dimensione la trasformazione logaritmica è
duplice (rango e popolazione).
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
38
all'interno della rappresentazione ed è possibile analizzare ciascuno dei sedici comparti
come un caso particolare (figura 29).
Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane,
Per esplicitare ulteriormente il metodo di rappresentazione si propone come
esperimento mentale il rettangolo delimitato dai valori minimi e dai primi quartili: se la
ponderazione con l'attributo industria comporta una dilatazione di tale rettangolo rispetto
a quello conseguente alla ponderazione con l'attributo superficie, significa che le province
sud-occidentali hanno un valore aggiunto nel comparto dell'industria men che
proporzionale rispetto a quello richiesto dall'estensione areale di tali province.
Poiché il raffronto visivo tra coppie di carte può non risultare facile e la
sovrapposizione di carte non sembra praticabile, le raffigurazioni sono state ulteriormente
semplificate con la costruzione di semplici linee diagrammatiche con valore metacartografico: le linee sono rappresentate da spezzate che collegano per un dato attributo i
punti di incontro di longitudine e di latitudine per il primo quartile, per la mediana e il
terzo quartile. Tali linee diagrammatiche sono inseribili a gruppi di due o più all'interno
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
39
di un rettangolo standard (figura 30) e rendono immediato e semplice l'apprezzamento
visivo degli spostamenti.
1000
900
800
700
sup.
600
pop
500
400
300
200
200
400
600
800
1000
Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle
province italiane al censimento 1991.
Nulla vieta, per particolari esigenze, di procedere a misure areali o lineari degli
spostamenti al passare da un attributo a un altro. Al riguardo si propone come caso
d'esempio il confronto tra valori di posizione, ponderati con la superficie e la
popolazione: la linea diagrammatica della popolazione è tutta al di sopra di quella della
superficie quale conseguenza di un significativo addensamento del carico demografico
nelle province settentrionale rispetto a quelle meridionali.
Inoltre, si può rilevare come anche nel Mezzogiorno vi sia un maggior
addensamento relativo delle popolazioni nella sua posizione più a nord. Infatti, i dati
analitici c’informano che il primo quartile della latitudine cade in corrispondenza della
provincia di Salerno per la superficie, e di Napoli per la popolazione.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
40
Conclusioni interlocutorie
In conclusione, le linee fondamentali dell’EDA, delineate finora, dovrebbero
essere bastevoli delle potenzialità applicative, specie sul versante della didattica
universitaria, pur nell’eccessiva sintesi di aspetti molto rilevanti, come le anomalie e i
residui. Sul versante della ricerca molto resta da fare. In particolare, lo scrivente ritiene
che l’analisi esplorativa, opportunamente affinata e arricchita di strumenti progettati per
l’impiego in geografia, possa qualificarsi come uno degli approcci più idonei per esaltare
la geo-graficità e orientare con forte carica innovativa l’interpretazione dei dati
territoriali.
Un filone che appare molto promettente riguarda una più soddisfacente
descrizione delle linee di tendenza (rispetto alle metodologie tradizionali) finalizzate a far
emergere le specificità regionali, subregionali e locali, in genere non congruenti. Alla
base della procedura, in via di sperimentazione, si colloca l’uso sistematico della mediana
spaziale mobile per terne di punti vicini, o di tessere areali contigue.
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
41
Applicazione al valore aggiunto nelle province per il 1991
Valore aggiunto relativo per abitante
Intitolazione delle colonne:
A: Agricoltura foreste e pesca; B: Industria; C: Servizi destinabili alla vendita; D: Totale parziale;
E: Servizi non destinabili alla vendita; F: Valore aggiunto al costo dei fattori al lordo dei servizi bancari
imputati; G: Servizi bancari imputati; H: Valore aggiunto al costo dei fattori al netto dei servizi bancari
imputati.
Indicatori classici
Media tra province
SQM
SQM/media
Min
Max
Asimmetria
Curtosi
Max-min
(Max-min)/media
A
1250
694
0.56
122
3212
0.64
0.22
3090
2.47
B
973
446
0.46
291
1945
0.34
-0.91
1654
1.70
C
950
254
0.27
493
1739
0.21
-0.26
1245
1.31
D
971
266
0.27
472
1489
-0.23
-1.19
1017
1.05
E
997
207
0.21
608
1848
1.08
2.61
1240
1.24
F
975
226
0.23
532
1412
-0.24
-1.19
880
0.90
G
888
357
0.40
334
2074
0.55
-0.03
1740
1.96
H
980
222
0.23
536
1426
-0.25
-1.18
890
0.91
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
42
Valore aggiunto pro capite nelle province al 1995
Indicatori esplorativi
min
quartile I
mediana
quartile III
max
dF
Q1 - 1.5dF
Q3 + 1.5dF
Q1 - 3dF
Q3 + 3dF
A
122
838
1159
1581
3212
743
-277
2695
-1391
3809
B
291
550
967
1298
1945
747
-571
2419
-1692
3539
C
493
714
963
1128
1739
414
94
1749
-527
2370
B
C
D
D
472
717
1051
1168
1489
451
40
1845
-637
2522
E
608
857
979
1104
1848
247
487
1474
116
1844
F
G
532
334
752
568
1052
874
1158 1168
1412 2074
406
600
143
-331
1767 2068
-466 -1231
2375 2967
5000
4000
3000
2000
1000
0
-1000
-2000
A
min
quartile III
Q3 + 1.5dF
E
quartile I
max
Q1 - 3dF
F
G
mediana
Q1 - 1.5dF
Q3 + 3dF
H
H
536
759
1051
1159
1426
400
160
1759
-440
2358
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
43
Percentili
Indicatori
0.000
0.125
0.250
0.375
0.500
0.625
0.750
0.875
1.000
A
122
441
838
1025
1159
1351
1581
2091
3212
B
291
434
550
773
967
1114
1298
1595
1945
C
493
634
714
875
963
1063
1128
1221
1739
D
472
618
717
901
1051
1108
1168
1275
1489
E
608
787
857
922
979
1031
1104
1197
1848
F
532
680
752
889
1052
1092
1158
1228
1412
G
334
471
568
747
874
956
1168
1310
2074
Valore aggiunto
10000
1000
100
A
B
C
D
E
Comparti
F
G
H
H
536
692
759
896
1051
1096
1159
1226
1426
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
44
Valori scalati
Indicatori esplorativi
min
quartile I
mediana
quartile III
max
A
0
23
34
47
100
B
0
16
41
61
100
C
0
18
38
51
100
D
0
24
57
68
100
E
0
20
30
40
100
F
0
25
59
71
100
G
0
13
31
48
100
H
0
25
58
70
100
Valore aggiunto
100
80
60
40
20
0
A
B
C
D
E
F
G
H
Comparti
min
quartile I
mediana
quartile III
max
Percentili dei valori scalati
Indicatori
0.000
0.125
0.250
0.375
0.500
0.625
0.750
0.875
1.000
A
0
10
23
29
34
40
47
64
100
B
0
9
16
29
41
50
61
79
100
C
0
11
18
31
38
46
51
58
100
D
0
14
24
42
57
63
68
79
100
E
0
14
20
25
30
34
40
47
100
F
0
17
25
41
59
64
71
79
100
G
0
8
13
24
31
36
48
56
100
H
0
18
25
40
58
63
70
78
100
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
45
Valori standardizzati con criterio esplorativo
A
-1.40
-0.43
0.00
0.57
2.76
-0.56
-1.93
2.07
-3.43
3.57
min
quartile I
mediana
quartile III
max
dF
Q1 - 1.5dF
Q3 + 1.5dF
Q1 - 3dF
Q3 + 3dF
B
-0.90
-0.56
0.00
0.44
1.31
-0.29
-2.06
1.94
-3.56
3.44
C
-1.14
-0.60
0.00
0.40
1.87
-1.33
-2.10
1.90
-3.60
3.40
D
-1.28
-0.74
0.00
0.26
0.97
-1.33
-2.24
1.76
-3.74
3.26
E
-1.50
-0.50
0.00
0.50
3.52
-2.97
-2.00
2.00
-3.50
3.50
F
-1.28
-0.74
0.00
0.26
0.89
-1.59
-2.24
1.76
-3.74
3.26
G
-0.90
-0.51
0.00
0.49
2.00
-0.46
-2.01
1.99
-3.51
3.49
G
H
4
3
2
1
0
-1
-2
-3
-4
-5
A
min
Q1 - 1.5dF
B
C
quartile I
Q3 + 1.5dF
D
mediana
Q1 - 3dF
E
F
quartile III
Q3 + 3dF
max
H
-1.29
-0.73
0.00
0.27
0.94
-1.63
-2.23
1.77
-3.73
3.27
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
46
Percentili
0.000
0.125
0.250
0.375
5.000
0.625
0.750
0.875
1.000
A
-1.40
-0.97
-0.43
-0.18
0.00
0.26
0.57
1.25
2.76
B
-0.90
-0.71
-0.56
-0.26
0.00
0.20
0.44
0.84
1.31
C
-1.14
-0.80
-0.60
-0.21
0.00
0.24
0.40
0.62
1.87
D
-1.28
-0.96
-0.74
-0.33
0.00
0.13
0.26
0.50
0.97
E
-1.50
-0.78
-0.50
-0.23
0.00
0.21
0.50
0.88
3.52
F
-1.28
-0.91
-0.74
-0.40
0.00
0.10
0.26
0.44
0.89
G
-0.90
-0.67
-0.51
-0.21
0.00
0.14
0.49
0.73
2.00
H
-1.29
-0.90
-0.73
-0.39
0.00
0.11
0.27
0.44
0.94
Riepilogo delle distanze in cui si collocano i quartilidi ordinando i dati per distanze crescenti nel
senso della longitudine e della latitudine. I quartilidi nelle distribuzioni con due variabili
corrispondono ai quartili nelle distribuzioni con una sola variabile.
A:Superficie; B: Popolazione; C: Industria in senso stretto; D: Costruzioni e lavori del Genio civile;E.
Commercio, riparazioni e attività di recupero; F: Alberghi e pubblici esercizi; G: Trasporti e
comunicazioni;H: Credito e assicurazioni; I: Altri servizi destinabili alla vendita.
Longitudine
Quartilidi
Q0
Q1
Q2
Q3
Q4
A
km
0
225
393
636
974
B
km
0
218
397
633
974
C
km
0
150
292
440
974
D
km
0
192
361
603
974
E
km
0
150
349
544
974
F
km
0
192
337
467
974
G
km
0
184
397
556
974
H
km
0
150
335
467
974
I
km
0
150
337
510
974
A
km
0
417
687
905
1064
B
km
0
437
742
942
1064
C
km
0
726
905
949
1064
D
km
0
465
810
949
1064
E
km
0
504
810
947
1064
F
km
0
552
833
949
1064
G
km
0
504
769
946
1064
H
km
0
552
833
949
1064
I
km
0
552
833
949
1064
Max
min
225
397
636
150
292
440
Max
min
726
905
949
417
687
905
Latitudine
Quartilidi
Q0
Q1
Q2
Q3
Q4
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
47
Parti per 1000/km
Longitudine
Intervalli
Q1-Q0
Q2-Q1
Q3-Q2
Q4-Q3
Latitudine
Intervalli
Q1-Q0
Q2-Q1
Q3-Q2
Q4-Q3
A
B
C
D
E
F
G
H
I
Max
min
1.14
1.46
1.01
0.74
1.20
1.39
1.11
0.66
2.27
1.16
1.71
0.45
1.31
1.48
1.09
0.63
1.74
1.24
1.28
0.57
1.33
1.81
1.87
0.47
1.37
1.28
1.43
0.60
1.98
1.13
2.05
0.44
1.79
1.25
1.45
0.53
2.27
1.81
2.05
0.74
1.14
1.13
1.01
0.44
A
B
C
D
E
F
G
H
I
Max
min
0.63
0.94
1.13
1.50
0.61
0.77
1.27
2.00
0.34
1.68
5.51
1.82
0.57
0.70
2.18
1.69
0.50
0.84
1.81
2.09
0.51
0.81
2.48
1.76
0.50
0.94
1.54
1.93
0.60
0.64
2.95
1.28
0.62
0.59
2.92
1.34
0.63
1.68
5.51
2.09
0.34
0.59
1.13
1.28
Prospetti analitici per raggruppamento statisrico
km
0
Superficie
Popolazione
Longitudine
Longitudine
Capoluogo
Parti cum
Aosta
Parti /km
km
11
0
Capoluogo
Parti cum
Aosta
Parti /km
2
225
Nuoro
257
1.1447466
218
Cagliari
262
1.2010379
393
Arezzo
504
1.4628459
397
Venezia
511
1.3949965
636
Caserta
750
1.0128429
633
Napoli
773
1.1101161
974
Lecce
1000
0.7405093
974
Lecce
1000
0.6646603
Latitudine
km
Capoluogo
Latitudine
Parti cum
Parti /km
km
Capoluogo
Parti /km
Ragusa
5
417
Salerno
263
0.6310444
687
Perugia
516
0.9354186
1.1287061
942
Padova
758
1.2687155
1.5020445 1064
Bolzano
1000
1.9950247
905
Torino
762
1064
Bolzano
1000
0
Parti cum
0
Ragusa
5
437
Napoli
268
0.6125828
742
Ancona
504
0.7744681
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
48
Industria in senso stretto
Costruzioni e lavori del Genio civile
Ordinamento longitudine
km
Capoluogo
Parti cum
Ordinamento longitudine
Parti /km
km
2
Capoluogo
0
Aosta
Parti cum
Parti /km
0
Aosta
150
Milano
341
2.2690727
192
Sondrio
251
1.305803
292
Trento
506
1.1634617
361
Padova
500
1.4762074
440
Perugia
759
1.7079717
603
Palermo
764
1.0928682
974
Lecce
1000
0.4512729
974
Lecce
1000
0.6348514
km
Capoluogo
Parti /km
km
Capoluogo
Ordinamento Latitudine
5
Ordinamento Latitudine
Parti cum
0
Ragusa
Parti cum
Parti /km
0
Ragusa
1
726
Arezzo
250
0.3440191
465
Bari
263
5
0.5651271
905
Torino
549
1.6763673
810
Forlì
503
0.6966107
949
Milano
791
5.5144055
949
Milano
806
2.1837157
1064
Bolzano
1000
1.8228861
1064
Bolzano
1000
1.6898275
Commercio, riparazioni e attività di recupero
Alberghi e pubblici esercizi
Ordinamento longitudine
Ordinamento longitudine
km
Capoluogo
Parti cum
Parti /km
km Capoluogo
0
Parti cum
Parti /km
0
Aosta
2
Aosta
10
150
Milano
261
1.7356698
349
Ferrara
506
1.2350718
192
Sondrio
256
1.3285123
337
Firenze
519
1.8142781
544
Frosinone
755
1.2757876
467
Roma
760
1.8660704
974
Lecce
1000
0.5696502
974
Lecce
1000
0.4726854
km
Capoluogo
Ordinamento Latitudine
Parti cum
Ordinamento Latitudine
Parti /km
km Capoluogo
Ragusa
4
504
Foggia
252
0.4994614
552
Roma
282
0.5114386
810
Forlì
509
0.8385731
833
Genova
510
0.8106321
1.8057217
949
Milano
798
2.4834202
2.089185 1064
Bolzano
1000
1.7583263
947
Novara
755
Bolzano
1000
Ragusa
Parti /km
0
1064
0
Parti cum
3
G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6
49
Trasporti e comunicazioni
Credito e assicurazioni
Ordinamento longitudine
km
0
Capoluogo
Parti cum
Aosta
Ordinamento longitudine
Parti /km
3
km Capoluogo
0
Parti cum
Aosta
1
Parti /km
184
Bergamo
251
1.3657033
150
Milano
297
1.9819515
397
Venezia
523
1.2750246
335
Bologna
506
1.1333592
556
Teramo
751
1.433191
467
Roma
778
2.0498936
974
Lecce
1000
0.595544
974
Lecce
1000
0.4381795
km
Capoluogo
Parti /km
km Capoluogo
Ordinamento Latitudine
Parti cum
Ordinamento Latitudine
Parti cum
Parti /km
0
Ragusa
2
0
Ragusa
3
504
Foggia
251
0.4984948
552
Roma
331
0.5994162
769
Lucca
501
0.9417042
833
Genova
510
0.6378397
1.5360628
949
Milano
853
2.9519317
1.930549 1064
Bolzano
1000
1.282983
946
Venezia
773
1064
Bolzano
1000
Altri servizi destinabili alla vendita
Ordinamento longitudine
km Capoluogo Parti cum Parti /km
0
Aosta
3
150 Milano
269 1.7874472
337 Firenze
502 1.2466155
510 Latina
974
Lecce
753 1.4508205
1000 0.5332718
Ordinamento Latitudine
km Capoluogo Parti cum Parti /km
0 Ragusa
552
Roma
833 Ravenna
3
341 0.6171523
506 0.5880653
949 Milano
846 2.9230434
1064 Bolzano
1000 1.3436503