Misura: Elaborazione dei dati geochimici e cenni di statistica
Transcript
Misura: Elaborazione dei dati geochimici e cenni di statistica
Elaborazione dei dati geochimici e cenni di statistica lxmi.mi.infn.it/~camera/Silsis/Laboratorio-1/2-statistica.ppt Misura: “Espressione quantitativa del rapporto fra una grandezza ed un’altra ad essa omogenea scelta come unità” A priori non si conosce il valore di ciò che si misura, al più si avrà una idea sull’ordine di grandezza. E’ quindi necessario fornire un errore, cioè una stima della possibile differenza tra il valore della misura e quello reale (che non conosciamo). La misura quindi: E’ una espressione quantitativa Necessita di una grandezza di riferimento (ppm, mg/l, mg/kg) Necessita di una stima dell’errore Il risultato di una misura NON consiste SOLO nel valore fornito dallo strumento, ma anche di un errore e di una unità di misura (la mancanza di uno di questi termini rende gli altri inutili). Una misura DEVE dare una informazione COMPLETA. Esempio: Concentrazione dell’elemento i = 0.23 ± 0.01 ppm L’errore determina quanto affidabile è la misura, la sua accuratezza e la sua precisione. Accuratezza: • Stima di quanto il risultato di una misura è vicino al valore reale della quantità misurata Precisione: • Stima della ripetibilità della misura (misure diverse della stessa quantità devono convergere allo stesso risultato) Bassa Accuratezza Bassa Precisione Bassa Accuratezza Alta Precisione (errore piccolo, valor medio lontano dal valore vero, errore sistematico) Alta Accuratezza Alta Precisione Alta Accuratezza Bassa Precisione (errore grande) ATTENZIONE Da un punto di vista sperimentale, scrivere: 12 12.0 12.00 12.000 è molto diverso ! Non scrivere una cifra o un decimale nel riportare una data misura o numero indica l’impossibilità di conoscere il valore di quella cifra Se scrivo 12.0 indica che 12.0 Valori non noti ma non per questo nulli ATTENZIONE Non ha senso scrivere X = 12.345689 ± 0.1 X = 12.3 ± 0.137845 Attenzione ai decimali ogni cifra scritta in una misura ha un preciso significato Cenni di statistica ed elaborazione di dati geochimici Obiettivi della lezione: •Statistica descrittiva: le variabili •Frequenze: tabelle e grafici •Indici di posizione, di dispersione e di forma •Media e varianza di dati raggruppati •Correlazione tra variabili •Retta di regressione Una trattazione statistica dei dati può essere utile per a) analizzare l’attendibilità analitica b) per comprendere dei processi Statistica Descrittiva Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Deduttiva Ho un insieme di dati e li utilizzo per fare deduzioni sui processi che sto studiando Analisi dei Dati Supponiamo di dover misurare una osservabile (concentrazione di un elemento ì nel suolo della provincia) Facciamo quindi N misure della osservabile in questione Come procede l’analisi dei dati ? 1. Distribuzione in frequenza 2. Parametri della distribuzione: Stime dell’osservabile • • • 3. Mediana Moda Valor medio Parametri della distribuzione: Stime dell’errore e dispersione • • • Deviazione Media Varianza Deviazione Standard Distribuzione in Frequenza Se si vuole misurare una osservabile, quindi, è necessario effettuare una o più misure. Ciascuna di queste misure ha, il più delle volte, un risultato differente. E quindi possibile costruire il grafico della distribuzione: Misuriamo ad esempio la concentrazione chimica di un di elemento i in un suolo XXX Eseguo 21 misure. Ottengo 21 numeri differenti. Costruisco un grafico che ha come ascissa il valore della misura, sulla ordinata il numero di volte in cui ho ottenuto tale misura. (Distribuzione in frequenza, f(x)) Stabilisco un passo: in questo caso 0.1 g • Se troppo piccolo 1 conteggio per canale/classe • Se troppo grande tutte le misure in un canale/classe Il totale deve essere uguale al numero di misure 8 6 Frequenza 5 4 3 2 1 2. 5 2. 3 2. 1 1. 9 1. 7 1. 5 1. 3 1. 1 0. 9 0. 7 0. 5 0 Peso [g] Concentrazione (ppm) • I punti sono distribuiti attorno ad un certo valore m 16 2.5 14 2 Frequenza 10 8 6 4 1.5 1 0.5 2 0.5 1 1.5 Peso [g] (ppm) Concentrazione Passo troppo largo 2 1. 4 1. 57 5 1. 75 1. 92 5 0 0. 7 0. 87 5 1. 05 1. 22 5 0 0 0 0. 17 5 0. 35 0. 52 5 Frequenza 12 Concentrazione (ppm) Valore [g] Passo troppo stretto Frequenze Si considerino N dati da analizzare. I dati vengono suddivisi in un opportuno numero di classi; per ogni classe si ha: Frequenza assoluta: numero di oggetti del tipo i-esimo 0 i N i N i i fi N 0 fi 1 Frequenza relativa: i i fi i N 1 Frequenza percentuale: è la freq. relativa moltiplicata per 100 fi 100 Frequenza cumulativa assoluta: è la somma della freq. assoluta + la freq. cumulativa assoluta del dato precedente. i N i N i 1 i k k 0 0 Ni N Distribuzioni di frequenza cumulativa Il grafico della distribuzione cumulativa di frequenza assoluta è il seguente: Concentrazione ppm 400 350 frequenza 300 250 200 150 100 50 1. 8 1. 95 1. 2 1. 35 1. 5 1. 65 0. 6 0. 75 0. 9 1. 05 0 0. 15 0. 3 0. 45 0 Peso [g] (ppm) Concentrazione Normalizzando rispetto al numero totale di misure si ottiene la probabilità 0.12 0.08 0.06 0.04 0.02 0. 15 0. 3 0. 45 0. 6 0. 75 0. 9 1. 05 1. 2 1. 35 1. 5 1. 65 1. 8 1. 95 0 0 Probabilità 0.1 Peso [g] (ppm) Concentrazione Curve di distribuzione N O R M A L N O R M A L 50 26 45 24 22 20 35 18 30 16 14 25 Noofobs Noofobs 40 20 12 10 15 8 10 6 4 5 2 0 3 2 1 0 1 2 3 E xpect ed N or m al 0 3, 0 2, 5 2, 0 1, 5 1, 0 0, 5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 U pper B oundar es( i x< = boundar y) E xpect ed N or m al U pper B oundar es( i x< = boundar y) Principali indici statistici N O R M A L 13 12 11 10 9 I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano x1 , x2 ,..., xn n osservazioni numeriche 8 Noofobs 7 6 5 4 3 2 1 0 2, 8 2, 4 2, 0 1, 6 1, 2 0, 8 0, 4 0, 0 0, 4 0, 8 1, 2 1, 6 2, 0 2, 6 2, 2 1, 8 1, 4 1, 0 0, 6 0, 2 0, 2 0, 6 1, 0 1, 4 1, 8 2, 2 U pper B oundar es( i x< = boundar y) di posizione E xpect ed N or m al MODA MEDIANA MEDIA SCARTO QUADRATICO MEDIO INDICI di dispersione VARIANZA RANGE di forma ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) Parametri della distribuzione: Stime dell’osservabile Infinite Misure (N >> 1) Media m Data una serie di N misure, ciascuna con risultato xi allora la media m è definita come: 1 m x lim N N Mediana m1/2 f ( xi ) xi x lim i N f ( x ) i f ( x) x dx f ( x) dx Data una serie di N misure, ciascune con risultato xi allora la mediana m 1/2 è definita come quel valore di x tale che il 50% delle misure diano un risultato superiore ed il 50% inferiore f ( xi x 12 ) f ( xi x 12 ) 50% mmax= Moda Data una serie di N misure, ciascuna con risultato xi allora mmax è definito come il valore per cui la probabilità della “Popolazione” sia massima Median, Quartiles, Inter-Quartile Range and Box Plots. Measures of Spread The range is not a good measure of spread because one extreme, (very high or very low value) can have a big affect. The measure of spread that goes with the median is called the inter-quartile range and is generally a better measure of spread because it is not affected by extreme values. A reminder about the median The Median The median is the middle value of a set of data once the data has been ordered. Example 1. The repetition of 11 analyses of the element nickel (in ppm) in a soil are given below. Find the median value. 85, 125, 130, 65, 100, 70, 75, 50, 140, 95, 70 50, 65, 70, 70, 75, 85, 95, 100, 125, 130, 140 Single middle value Median = 85 ppm Ordered data The Median The median is the middle value of a set of data once the data has been ordered. Example 2. The repeated analyses of a second soil revealed the following contents of nickel (ppm) 85, 125, 130, 65, 100, 70, 75, 50, 140, 135, 95, 70 50, 65, 70, 70, 75, 85, 95, 100, 125, 130, 135, 140 Two middle values so take the mean. Median = 90 ppm Ordered data Finding the median, quartiles and interquartile range, of the following analyses of Th in sediments 6, 3, 9, 8, 4, 10, 8, 4, 15, 8, 10 Order the data Q2 Q1 3, 4, 4, 6, Lower Quartile = 4 8, 8, Median = 8 Q3 8, 9, 10, Upper Quartile = 10 Inter-Quartile Range = 10 - 4 = 6 10, 15, Drawing a Box Plot. Example 1: Draw a Box plot for the data below Q2 Q1 4, 4, 5, 6, 8, 8, Lower Quartile = 5½ 4 5 Q3 8, Median = 8 6 7 8 9 9, 9, 9, Upper Quartile = 9 10 11 12 10, 12 Drawing a Box Plot. Example 2: Draw a Box plot for the data below Q2 Q1 3, 4, 4, 6, 8, Lower Quartile = 4 3 4 5 6 Q3 8, 8, Median = 8 7 8 9 9, 10, 10, 15, Upper Quartile = 10 10 11 12 13 14 15 outlier Quartile superiore Mediana Quartile inferiore In alcuni testi suggeriscono che la lunghezza dei «baffi» dei whiskers plot deve comprendere i valori estremi della popolazione. Altri testi suggeriscono invece che i baffi devono avere lunghezza pari a: (Quartile sup- Quart inf) * 1,5 Evidenziando come «outliers» i valori che escono da tale range. Distribuzione del cromo e del nichel nei terreni della provincia di Ferrara N O R M A L N O R M A L 50 26 45 24 22 20 35 18 30 16 14 25 Noofobs Noofobs 40 20 12 10 15 8 10 6 4 5 2 E xpect ed N or m al 0 3 2 1 0 1 2 3 0 3, 0 2, 5 2, 0 1, 5 1, 0 0, 5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 U pper B oundar es( i x< = boundar y) U pper B oundar es( i x< = boundar y) N O R M A L 13 12 Indici di posizione: 11 10 9 8 Noofobs 7 6 MODA E' definita come il valore che ha la frequenza più alta. MEDIA E' quel valore che corrisponde alla somma di tutti i valori diviso il numero dei valori stessi. 5 4 3 2 1 0 2, 8 2, 4 2, 0 1, 6 1, 2 0, 8 0, 4 0, 0 0, 4 0, 8 1, 2 1, 6 2, 0 2, 6 2, 2 1, 8 1, 4 1, 0 0, 6 0, 2 0, 2 0, 6 1, 0 1, 4 1, 8 2, 2 U pper B oundar es( i x< = boundar y) n X MEDIANA E xpect ed N or m al X i 1 n i dove: Xi = esito i-ma misura n = numero dei dati (taglia del campione) E' quel valore al di sotto del quale cadono la metà dei valori campionari. Gli indici di posizione indicano attorno a quale valore il campione dei dati e’ posizionato mi interessa la dispersione dei dati intorno a tali valori N.B. NELLA DISTRIBUZIONE NORMALE MEDIA= MODA = MEDIANA E xpect ed N or m al Parametri della distribuzione: Stime della dispersione dei dati Deviazione d d di xi m Nota: E’ poco utile 1 xi m N N a lim Deviazione media ( a ) Nota: La Deviazione media è una misura della dispersione delle misure attorno alla media Varianza ( s2 ) 1 2 x m i N N s 2 lim Deviazione standard ( s ) s s2 Nota: La deviazione standard HA le stesse unità di misura della media La Deviazione standard descrive la dispersione delle misure attorno alla media e quindi quantifica l’effetto delle fluttuazioni statistiche nelle condizioni sperimentali di misura INDICE DI ASIMMETRIA (Skewness) >0 coda a destra <0 coda a sinistra =0 simmetrica CURTOSI Misura quanto la distribuzione è appuntita >3 poco appuntita =3 caso della distribuzione normale <3 molto appuntita di di forma di dispersione di posizione •media: Indici: Schema riassuntivo x x i i N •moda: punto di max della distribuzione •mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) x x 2 •varianza •deviazione standard •range s2 s i i N 1 >0 coda a ds R xmax xmin •skewness (coeff. di asimmetria) x x i is N <0 coda a sin 3 =0 simmetrica x x •curtosi: misura quanto la distribuzione è appuntita i i s >3 poco appuntita <3 molto appuntita N 4 La Distribuzione Gaussiana •Le distribuzioni normali sono contraddistinte da curve simmetriche a forma di campana e unimodali (moda media e mediana coincidono). 25 •Hanno tutte la stessa forma ma sono caratterizzate (e completamente individualizzate) dai due valori: media e varianza 19 15 19 12 5 10 12 3 3 1 1 0 Frequency 20 23 0 2 4 6 peso alla nascita 8 10 Caratteristiche di una distribuzione Normale • La curva Normale è Unimodale e simmetrica rispetto alla sua media (μ) • Frequenza relativamente più elevata dei valori centrali e frequenze progressivamente minori verso gli estremi. • La media, la mediana e la moda della distribuzione coincidono • La Deviazione Standard, rappresentata da s, indica la quantità di dispersione delle osservazioni intorno alla media • I parametri μ e σ definiscono in modo completo la curva Distribuzione e probalità Media Pesata Può capitare che una grandezza sia stata misurata più volte da persone o con tecniche differenti Ciascuna di queste misure a sua volta è il risultato di molte misure e quindi è nella forma x x1 s 1 x x2 s 2 x x3 s 3 Il calcolo del semplice valor medio potrebbe non essere conveniente se le incertezze non sono uguali o molto simili. E’ in generale più corretto usare la media pesata definita come w x w i xbest i wi i i 1 s i2 i s best wi i 1 / 2 31 Spesso le analisi geochimiche che effettuiamo sono multi-elementari. Nasce quindi l’esigenza di osservare relazioni fra le variabili. Correlazione tra variabili Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi di tipo comparativo: a. Osservo una variabile su piu’ gruppi di individui b. Osservo piu’ variabili su un gruppo di individui c. Entrambe le situazioni a. e b. Esiste correlazione tra le variabili? Scatterplot, diagramma a dispersione Umidita' Evaporazione del solvente 35,3 11 29,7 11,1 30,8 12,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8,2 28,9 12,2 Evaporazione del solvente 14 12 10 8 Evaporazione del solvente 6 4 2 0 0 50 100 Indici di variazione bidimensionali Date n osservazioni congiunte di 2 variabili ( x1, y1 ),( x2 , y2 ),...,( xn , yn ) Covarianza campionaria •Se cx,y>0 x e y sono direttamente correlate •Se cx,y<0 x e y sono inversamente correlate •Se cx,y=0 le variabili non sono correlate Indici di variazione bidimensionali Indice di correlazione r cx , y s xs y Date n osservazioni congiunte di 2 variabili | r | 1, cioè 1 r 1 y r = 0.6 r=1 y x x y y r = -0.8 r = -1 x r=0 y r=0 x y x v x EXCEL: Retta di regressione Esercizio: Stabilire se c’e’ dipendenza lineare tra l’umidita’ del magazzino e l’evaporazione di un certo componente chimico. Step1: Scatterplot Evaporazione del solvente 14 12 10 8 6 4 2 0 Umidita' Evaporazione del solvente 35,3 11 29,7 11,1 30,8 12,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8,2 28,9 12,2 28,1 11,9 Evaporazione del solvente 0 50 100 Step2: Coefficiente di correlazione Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2) ottengo r = - 0.84695 Regressione lineare: retta di regressione Si vuole cercare la relazione lineare tra due variabili x e y. Date n osservazioni congiunte di 2 variabili cerco due coefficienti a e b tali che y=ax+b passi il più possibile vicino a questi punti. Cerco a e b tali che f a , b yi axi b n i 1 2 sia minima (Metodo dei minimi quadrati) 36 EXCEL: Retta di regressione Step3: Retta di regressione Usando excel, avendo gia’ lo scatterplot seleziono: Grafico-Aggiungi linea di tendenza y = -0,0801x + 13,639 14 12 10 8 Serie1 Lineare (Serie1) 6 4 y = -0,0801x + 13,639 2 0 0 50 100 37 Di Giuseppe et al. (2014; Pubblicato su Chemie der Erde) Composizione dei terreni dell’areale Ferrarese. Esempio di correlazione elementare 38 Posso fare n scatterplots per verificare le correlazioni fra tutti gli elementi analizzati 39 Il calcolo di tutti i coefficienti di correlazione delle variabili di una data set va a costituire una matrice di correlazione Ps Li Na Mg Al K Ca V Cr Mn Fe Co Ni Cu Zn As Sr Pb Li 1.00 0.08 0.90 0.98 0.73 0.30 0.95 0.81 0.40 0.94 0.96 0.96 0.23 0.81 0.57 0.50 0.78 Na Mg Al K Ca V Cr Mn Fe Co Ni Cu Zn As Sr Pb 1.00 0.17 0.10 0.16 0.19 0.07 0.31 -0.18 0.19 0.05 0.13 -0.31 0.29 0.18 0.50 0.28 1.00 0.87 0.73 0.35 0.79 0.73 0.24 0.79 0.83 0.87 0.09 0.75 0.36 0.47 0.64 1.00 0.73 0.24 0.97 0.83 0.38 0.91 0.92 0.91 0.26 0.82 0.54 0.46 0.80 1.00 0.24 0.66 0.69 0.00 0.65 0.58 0.64 -0.02 0.70 0.25 0.42 0.56 1.00 0.14 0.25 0.12 0.28 0.30 0.25 0.30 0.37 0.54 0.70 0.18 1.00 0.79 0.41 0.91 0.90 0.89 0.28 0.78 0.54 0.42 0.78 1.00 0.30 0.76 0.76 0.75 0.04 0.73 0.45 0.49 0.67 1.00 0.48 0.58 0.51 0.56 0.40 0.58 0.12 0.35 1.00 0.95 0.96 0.28 0.81 0.75 0.61 0.83 1.00 0.98 0.34 0.80 0.67 0.48 0.78 1.00 0.26 0.80 0.64 0.48 0.80 1.00 0.42 0.57 0.13 0.34 1.00 0.57 0.59 0.79 1.00 0.67 0.61 1.00 0.44 1.00 Questa matrice è relativa ai dati ottenuti attraverso analisi ICP-MS di soluzioni acquose che hanno interagito con terreni dell’areale ferrarese (5 mg di suolo in 25 ml di acqua) Esistono programmi statistici che consentono l’analisi multidimensionale con il confronto simultaneo di n variabili (es distinti elementi chimici analizzati in molteplici campioni). Simili elaborazioni consentono di: - Identificare i distinti elementi che correlano fra loro Raggruppare i campioni che hanno similitudini Per esempio, nella figura si vedono raggruppamenti (clusters) di campioni individuati dall’analisi simultanea di tre parametri Intra-cluster distances are minimized Inter-cluster distances are maximized Finding groups of objects such that the objects in a group will be similar (or related) to one another and different from (or unrelated to) the objects in other groups Immaginiamo che i punti sottostanti siano esprimano la concentrazione di vari elementi di distinti campioni. Una cluster analysis ci permetterà di identificare campioni aventi similitudini Partitional Clustering Original Points A Partitional Clustering 42 Notion of a Cluster can be Ambiguous How many clusters? Six Clusters Two Clusters Four Clusters Hierarchical Clustering p1 p3 p4 p2 Traditional Hierarchical Clustering Traditional Dendrogram p1 p2 p3 p4 45 46 47