Misura: Elaborazione dei dati geochimici e cenni di statistica

Transcript

Misura: Elaborazione dei dati geochimici e cenni di statistica
Elaborazione dei dati geochimici e cenni di statistica
lxmi.mi.infn.it/~camera/Silsis/Laboratorio-1/2-statistica.ppt
Misura:
“Espressione quantitativa del rapporto fra una grandezza ed
un’altra ad essa omogenea scelta come unità”
A priori non si conosce il valore di ciò che si misura, al più si avrà
una idea sull’ordine di grandezza.
E’ quindi necessario fornire un errore, cioè una stima della
possibile differenza tra il valore della misura e quello reale
(che non conosciamo).
La misura quindi:



E’ una espressione quantitativa
Necessita di una grandezza di riferimento (ppm, mg/l, mg/kg)
Necessita di una stima dell’errore
Il risultato di una misura NON consiste SOLO nel valore fornito
dallo strumento, ma anche di un errore e di una unità di misura
(la mancanza di uno di questi termini rende gli altri inutili).
Una misura DEVE dare una informazione COMPLETA.
Esempio:
Concentrazione dell’elemento i = 0.23 ± 0.01 ppm
L’errore determina quanto affidabile è la misura, la sua
accuratezza e la sua precisione.
Accuratezza:
• Stima di quanto il risultato di una misura è vicino al valore
reale della quantità misurata
Precisione:
• Stima della ripetibilità della misura (misure diverse della
stessa quantità devono convergere allo stesso risultato)
Bassa Accuratezza
Bassa Precisione
Bassa Accuratezza
Alta Precisione
(errore piccolo, valor
medio lontano dal valore
vero, errore sistematico)
Alta Accuratezza
Alta Precisione
Alta Accuratezza
Bassa Precisione
(errore grande)
ATTENZIONE
Da un punto di vista sperimentale, scrivere:
12
12.0
12.00
12.000
è molto diverso !
Non scrivere una cifra o un decimale nel riportare
una data misura o numero indica l’impossibilità di
conoscere il valore di quella cifra
Se scrivo 12.0 indica che
12.0
Valori non noti
ma non per questo nulli
ATTENZIONE
Non ha senso scrivere
X = 12.345689 ± 0.1
X = 12.3 ± 0.137845
Attenzione ai decimali
ogni cifra scritta in una misura ha un
preciso significato
Cenni di statistica ed
elaborazione di dati geochimici
Obiettivi della lezione:
•Statistica descrittiva: le variabili
•Frequenze: tabelle e grafici
•Indici di posizione, di dispersione e di
forma
•Media e varianza di dati raggruppati
•Correlazione tra variabili
•Retta di regressione
Una trattazione statistica dei dati può essere utile per
a) analizzare l’attendibilità analitica
b) per comprendere dei processi
Statistica
Descrittiva
Ho un insieme
di dati e li
voglio
descrivere,
sintetizzare e
commentare
Deduttiva
Ho un insieme
di dati e li
utilizzo per fare
deduzioni sui
processi che sto
studiando
Analisi dei Dati
Supponiamo di dover misurare una osservabile
(concentrazione di un elemento ì nel suolo della provincia)
Facciamo quindi N misure della osservabile in questione
Come procede l’analisi dei dati ?
1.
Distribuzione in frequenza
2.
Parametri della distribuzione: Stime dell’osservabile
•
•
•
3.
Mediana
Moda
Valor medio
Parametri della distribuzione: Stime dell’errore e
dispersione
•
•
•
Deviazione Media
Varianza
Deviazione Standard
Distribuzione in Frequenza
Se si vuole misurare una osservabile, quindi, è necessario
effettuare una o più misure. Ciascuna di queste misure ha, il
più delle volte, un risultato differente.
E quindi possibile costruire il grafico della distribuzione:
Misuriamo ad esempio la concentrazione
chimica di un di elemento i in un suolo XXX
Eseguo 21 misure.
Ottengo 21 numeri differenti.
Costruisco un grafico che ha come ascissa
il valore della misura, sulla ordinata il
numero di volte in cui ho ottenuto tale
misura. (Distribuzione in frequenza, f(x))
Stabilisco un passo: in questo caso 0.1 g
• Se troppo piccolo  1 conteggio per
canale/classe
• Se troppo grande  tutte le misure in
un canale/classe
Il totale deve essere uguale al
numero di misure
8
6
Frequenza
5
4
3
2
1
2.
5
2.
3
2.
1
1.
9
1.
7
1.
5
1.
3
1.
1
0.
9
0.
7
0.
5
0
Peso [g]
Concentrazione
(ppm)
• I punti sono distribuiti attorno ad un certo valore m
16
2.5
14
2
Frequenza
10
8
6
4
1.5
1
0.5
2
0.5
1
1.5
Peso [g] (ppm)
Concentrazione
Passo troppo largo
2
1.
4
1.
57
5
1.
75
1.
92
5
0
0.
7
0.
87
5
1.
05
1.
22
5
0
0
0
0.
17
5
0.
35
0.
52
5
Frequenza
12
Concentrazione (ppm)
Valore [g]
Passo troppo stretto
Frequenze
Si considerino N dati da analizzare. I dati vengono suddivisi in
un opportuno numero di classi; per ogni classe si ha:
Frequenza assoluta:
numero di oggetti del tipo i-esimo
0  i  N

i
N
i
i
fi 
N
0  fi  1
Frequenza relativa:
i
i fi  i N 1
Frequenza percentuale: è la freq. relativa moltiplicata per 100
fi 100
Frequenza cumulativa assoluta:
è la somma della freq.
assoluta + la freq. cumulativa assoluta del dato precedente.
i
N i  N i 1   i    k
k 0
0  Ni  N
Distribuzioni di frequenza
cumulativa
Il grafico della distribuzione cumulativa di frequenza
assoluta è il seguente:
Concentrazione
ppm
400
350
frequenza
300
250
200
150
100
50
1.
8
1.
95
1.
2
1.
35
1.
5
1.
65
0.
6
0.
75
0.
9
1.
05
0
0.
15
0.
3
0.
45
0
Peso [g] (ppm)
Concentrazione
Normalizzando rispetto al numero totale di misure si ottiene
la probabilità
0.12
0.08
0.06
0.04
0.02
0.
15
0.
3
0.
45
0.
6
0.
75
0.
9
1.
05
1.
2
1.
35
1.
5
1.
65
1.
8
1.
95
0
0
Probabilità
0.1
Peso [g] (ppm)
Concentrazione
Curve di distribuzione
N
O
R
M
A
L
N
O
R
M
A
L
50
26
45
24
22
20
35
18
30
16
14
25
Noofobs
Noofobs
40
20
12
10
15
8
10
6
4
5
2
0
3
2
1
0
1
2
3
E
xpect
ed
N
or
m
al
0
3,
0 2,
5 2,
0 1,
5 1,
0 0,
5 0,
0 0,
5 1,
0 1,
5 2,
0 2,
5
U
pper
B
oundar
es(
i
x<
=
boundar
y)
E
xpect
ed
N
or
m
al
U
pper
B
oundar
es(
i
x<
=
boundar
y)
Principali indici statistici
N
O
R
M
A
L
13
12
11
10
9
I grafici finora analizzati ci danno informazioni qualitative; possiamo
quantificarle ricorrendo ai seguenti indici.
Siano x1 , x2 ,..., xn n osservazioni numeriche
8
Noofobs
7
6
5
4
3
2
1
0
2,
8 2,
4 2,
0 1,
6 1,
2 0,
8 0,
4 0,
0 0,
4 0,
8 1,
2 1,
6 2,
0
2,
6 2,
2 1,
8 1,
4 1,
0 0,
6 0,
2 0,
2 0,
6 1,
0 1,
4 1,
8 2,
2
U
pper
B
oundar
es(
i
x<
=
boundar
y)
di posizione
E
xpect
ed
N
or
m
al
MODA
MEDIANA
MEDIA
SCARTO QUADRATICO MEDIO
INDICI
di dispersione
VARIANZA
RANGE
di forma
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
Parametri della distribuzione:
Stime dell’osservabile
Infinite Misure (N >> 1)
Media  m
Data una serie di N misure, ciascuna con risultato xi
allora la media m è definita come:
1
m  x  lim 
N  N

Mediana  m1/2
  f ( xi )  xi 

x

lim
 i  N   f ( x )  
i
 

 f ( x) x dx
 f ( x) dx
Data una serie di N misure, ciascune con risultato xi
allora la mediana m 1/2 è definita come quel valore
di x tale che il 50% delle misure diano un risultato
superiore ed il 50% inferiore
f ( xi  x 12 )  f ( xi  x 12 )  50%
mmax= Moda
Data una serie di N misure, ciascuna con risultato
xi allora mmax è definito come il valore per cui la
probabilità della “Popolazione” sia massima
Median, Quartiles, Inter-Quartile Range
and Box Plots.
Measures of
Spread
The range is not a good measure of
spread because one extreme, (very high
or very low value) can have a big affect.
The measure of spread that goes with
the median is called the inter-quartile
range and is generally a better measure
of spread because it is not affected by
extreme values.
A reminder
about the
median
The Median
The median is the middle value of a set of data
once the data has been ordered.
Example 1. The repetition of 11 analyses of the
element nickel (in ppm) in a soil are given below. Find
the median value.
85, 125, 130, 65, 100, 70, 75, 50, 140, 95, 70
50, 65, 70, 70, 75, 85, 95, 100, 125, 130, 140
Single middle value
Median = 85 ppm
Ordered data
The Median
The median is the middle value of a set of data once
the data has been ordered.
Example 2.
The repeated analyses of a second soil revealed the
following contents of nickel (ppm)
85, 125, 130, 65, 100, 70, 75, 50, 140, 135, 95, 70
50, 65, 70, 70, 75, 85, 95, 100, 125, 130, 135, 140
Two middle values so
take the mean.
Median = 90 ppm
Ordered data
Finding the median, quartiles and interquartile range, of the following analyses of
Th in sediments
6,
3,
9,
8,
4,
10,
8,
4,
15,
8,
10
Order the data
Q2
Q1
3, 4,
4,
6,
Lower
Quartile
= 4
8,
8,
Median
= 8
Q3
8,
9,
10,
Upper
Quartile
= 10
Inter-Quartile Range = 10 - 4 = 6
10, 15,
Drawing a Box Plot.
Example 1: Draw a Box plot for the data below
Q2
Q1
4,
4,
5,
6,
8,
8,
Lower
Quartile
= 5½
4
5
Q3
8,
Median
= 8
6
7
8
9
9,
9,
9,
Upper
Quartile
= 9
10 11
12
10,
12
Drawing a Box Plot.
Example 2: Draw a Box plot for the data below
Q2
Q1
3,
4,
4,
6,
8,
Lower
Quartile
= 4
3
4
5
6
Q3
8,
8,
Median
= 8
7
8
9
9,
10,
10,
15,
Upper
Quartile
= 10
10 11
12 13
14 15
outlier
Quartile superiore
Mediana
Quartile inferiore
In alcuni testi suggeriscono che la lunghezza dei
«baffi» dei whiskers plot deve comprendere i
valori estremi della popolazione.
Altri testi suggeriscono invece che i baffi devono
avere lunghezza pari a:
(Quartile sup- Quart inf) * 1,5
Evidenziando come «outliers» i valori che escono
da tale range.
Distribuzione del cromo e del nichel nei terreni della provincia di Ferrara
N
O
R
M
A
L
N
O
R
M
A
L
50
26
45
24
22
20
35
18
30
16
14
25
Noofobs
Noofobs
40
20
12
10
15
8
10
6
4
5
2
E
xpect
ed
N
or
m
al
0
3
2
1
0
1
2
3
0
3,
0 2,
5 2,
0 1,
5 1,
0 0,
5 0,
0 0,
5 1,
0 1,
5 2,
0 2,
5
U
pper
B
oundar
es(
i
x<
=
boundar
y)
U
pper
B
oundar
es(
i
x<
=
boundar
y)
N
O
R
M
A
L
13
12
Indici di posizione:
11
10
9
8
Noofobs
7
6
MODA
E' definita come il valore che ha la frequenza più alta.
MEDIA
E' quel valore che corrisponde alla somma di tutti i
valori diviso il numero dei valori stessi.
5
4
3
2
1
0
2,
8 2,
4 2,
0 1,
6 1,
2 0,
8 0,
4 0,
0 0,
4 0,
8 1,
2 1,
6 2,
0
2,
6 2,
2 1,
8 1,
4 1,
0 0,
6 0,
2 0,
2 0,
6 1,
0 1,
4 1,
8 2,
2
U
pper
B
oundar
es(
i
x<
=
boundar
y)
n
X
MEDIANA
E
xpect
ed
N
or
m
al
X
i 1
n
i
dove:
Xi = esito i-ma misura
n = numero dei dati
(taglia del campione)
E' quel valore al di sotto del quale cadono la metà dei
valori campionari.
Gli indici di posizione indicano attorno a quale valore il
campione dei dati e’ posizionato
mi interessa la
dispersione dei dati intorno a tali valori
N.B. NELLA DISTRIBUZIONE NORMALE
MEDIA= MODA = MEDIANA
E
xpect
ed
N
or
m
al
Parametri della distribuzione:
Stime della dispersione dei dati
Deviazione d
d   di   xi  m
Nota: E’ poco utile
1
 xi  m
N  N
a  lim
Deviazione media ( a )
Nota: La Deviazione media è una misura della dispersione delle misure
attorno alla media
Varianza ( s2 )
1
2


x

m
 i
N  N
s 2  lim
Deviazione standard ( s )
s  s2
Nota: La deviazione standard HA le stesse unità di misura della media
La Deviazione standard descrive la dispersione delle misure
attorno alla media e quindi quantifica l’effetto delle
fluttuazioni statistiche nelle condizioni sperimentali di misura
INDICE DI ASIMMETRIA (Skewness)
>0 coda a destra
<0 coda a sinistra
=0 simmetrica
CURTOSI
Misura quanto la distribuzione è appuntita
>3 poco appuntita
=3 caso della distribuzione normale
<3 molto appuntita
di di forma
di dispersione
di posizione
•media:
Indici: Schema riassuntivo
x
x
i
i
N
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
 x  x 

2
•varianza
•deviazione standard
•range
s2
s
i
i
N 1
>0 coda a ds
R  xmax  xmin
•skewness (coeff. di asimmetria)
 x x
i  is 


N
<0 coda a sin
3
=0 simmetrica
 x x
•curtosi: misura quanto la distribuzione è appuntita i  i 
 s 
>3 poco appuntita
<3 molto appuntita
N
4
La Distribuzione Gaussiana
•Le distribuzioni normali sono contraddistinte da
curve simmetriche a forma di campana e
unimodali (moda media e mediana coincidono).
25
•Hanno tutte la stessa forma ma sono
caratterizzate (e completamente
individualizzate) dai due valori: media e varianza
19
15
19
12
5
10
12
3
3
1
1
0
Frequency
20
23
0
2
4
6
peso alla nascita
8
10
Caratteristiche di una
distribuzione Normale
• La curva Normale è Unimodale e simmetrica
rispetto alla sua media (μ)
• Frequenza relativamente più elevata dei valori
centrali e frequenze progressivamente minori
verso gli estremi.
• La media, la mediana e la moda della
distribuzione coincidono
• La Deviazione Standard, rappresentata da s,
indica la quantità di dispersione delle
osservazioni intorno alla media
• I parametri μ e σ definiscono in modo completo
la curva
Distribuzione e probalità
Media Pesata
Può capitare che una grandezza sia stata misurata più volte da persone o
con tecniche differenti
Ciascuna di queste misure a sua volta è il risultato di molte misure e quindi
è nella forma
x  x1  s 1
x  x2  s 2
x  x3  s 3
Il calcolo del semplice valor medio potrebbe non essere conveniente se le
incertezze non sono uguali o molto simili. E’ in generale più corretto usare
la media pesata definita come
w x

w
i
xbest
i
wi 
i
i
1
s i2
i


s best    wi 

i
1 / 2

31
Spesso le analisi geochimiche che effettuiamo
sono multi-elementari. Nasce quindi l’esigenza
di osservare relazioni fra le variabili.
Correlazione tra variabili
Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi di tipo
comparativo:
a. Osservo una variabile su piu’ gruppi di individui
b. Osservo piu’ variabili su un gruppo di individui
c. Entrambe le situazioni a. e b.
Esiste correlazione tra le variabili?
Scatterplot, diagramma a dispersione
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
Evaporazione del solvente
14
12
10
8
Evaporazione del
solvente
6
4
2
0
0
50
100
Indici di variazione bidimensionali
Date n osservazioni congiunte di 2 variabili
( x1, y1 ),( x2 , y2 ),...,( xn , yn )
Covarianza campionaria
•Se cx,y>0
x e y sono direttamente correlate
•Se cx,y<0
x e y sono inversamente correlate
•Se cx,y=0 le variabili non sono correlate
Indici di variazione bidimensionali
Indice di correlazione
r
cx , y
s xs y
Date n osservazioni congiunte di 2 variabili
| r | 1, cioè 1  r  1
y
r = 0.6
r=1
y
x
x
y
y
r = -0.8
r = -1
x
r=0
y
r=0
x
y
x
v
x
EXCEL: Retta di regressione
Esercizio: Stabilire se c’e’ dipendenza lineare tra
l’umidita’ del magazzino e l’evaporazione di un certo
componente chimico.
Step1: Scatterplot
Evaporazione del solvente
14
12
10
8
6
4
2
0
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
28,1
11,9
Evaporazione del
solvente
0
50
100
Step2: Coefficiente di correlazione
Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2)
ottengo r = - 0.84695
Regressione lineare: retta di regressione
Si vuole cercare la relazione lineare tra due variabili x e y.
Date n osservazioni congiunte di 2 variabili
cerco due coefficienti a e b tali che y=ax+b passi il più
possibile vicino a questi punti.


Cerco a e b tali che f a , b   yi  axi  b
n
i 1
2
sia minima
(Metodo dei minimi quadrati)
36
EXCEL: Retta di regressione
Step3: Retta di regressione
Usando excel, avendo gia’ lo scatterplot seleziono:
Grafico-Aggiungi linea di tendenza
y = -0,0801x + 13,639
14
12
10
8
Serie1
Lineare (Serie1)
6
4
y = -0,0801x + 13,639
2
0
0
50
100
37
Di Giuseppe et al. (2014; Pubblicato su Chemie der Erde)
Composizione dei terreni dell’areale Ferrarese.
Esempio di correlazione elementare
38
Posso fare n scatterplots per verificare le
correlazioni fra tutti gli elementi analizzati
39
Il calcolo di tutti i coefficienti di correlazione delle variabili di
una data set va a costituire una matrice di correlazione
Ps
Li
Na
Mg
Al
K
Ca
V
Cr
Mn
Fe
Co
Ni
Cu
Zn
As
Sr
Pb
Li
1.00
0.08
0.90
0.98
0.73
0.30
0.95
0.81
0.40
0.94
0.96
0.96
0.23
0.81
0.57
0.50
0.78
Na
Mg
Al
K
Ca
V
Cr
Mn
Fe
Co
Ni
Cu
Zn
As
Sr
Pb
1.00
0.17
0.10
0.16
0.19
0.07
0.31
-0.18
0.19
0.05
0.13
-0.31
0.29
0.18
0.50
0.28
1.00
0.87
0.73
0.35
0.79
0.73
0.24
0.79
0.83
0.87
0.09
0.75
0.36
0.47
0.64
1.00
0.73
0.24
0.97
0.83
0.38
0.91
0.92
0.91
0.26
0.82
0.54
0.46
0.80
1.00
0.24
0.66
0.69
0.00
0.65
0.58
0.64
-0.02
0.70
0.25
0.42
0.56
1.00
0.14
0.25
0.12
0.28
0.30
0.25
0.30
0.37
0.54
0.70
0.18
1.00
0.79
0.41
0.91
0.90
0.89
0.28
0.78
0.54
0.42
0.78
1.00
0.30
0.76
0.76
0.75
0.04
0.73
0.45
0.49
0.67
1.00
0.48
0.58
0.51
0.56
0.40
0.58
0.12
0.35
1.00
0.95
0.96
0.28
0.81
0.75
0.61
0.83
1.00
0.98
0.34
0.80
0.67
0.48
0.78
1.00
0.26
0.80
0.64
0.48
0.80
1.00
0.42
0.57
0.13
0.34
1.00
0.57
0.59
0.79
1.00
0.67
0.61
1.00
0.44
1.00
Questa matrice è relativa ai dati ottenuti attraverso analisi ICP-MS di soluzioni acquose
che hanno interagito con terreni dell’areale ferrarese (5 mg di suolo in 25 ml di acqua)
Esistono programmi statistici che consentono l’analisi
multidimensionale con il confronto simultaneo di n variabili (es
distinti elementi chimici analizzati in molteplici campioni).
Simili elaborazioni consentono di:
-
Identificare i distinti elementi che correlano fra loro
Raggruppare i campioni che hanno similitudini
Per esempio, nella figura si vedono raggruppamenti (clusters) di
campioni individuati dall’analisi simultanea di tre parametri
Intra-cluster
distances are
minimized
Inter-cluster
distances are
maximized
Finding groups of objects such that the objects in a group will
be similar (or related) to one another and different from (or
unrelated to) the objects in other groups
Immaginiamo che i punti sottostanti siano
esprimano la concentrazione di vari elementi di
distinti campioni. Una cluster analysis ci
permetterà di identificare campioni aventi
similitudini
Partitional Clustering
Original Points
A Partitional Clustering
42
Notion of a Cluster can be Ambiguous
How many clusters?
Six Clusters
Two Clusters
Four Clusters
Hierarchical Clustering
p1
p3
p4
p2
Traditional Hierarchical Clustering
Traditional Dendrogram
p1 p2
p3 p4
45
46
47