tutor : Giancarla Alberti - Università degli studi di Pavia
Transcript
tutor : Giancarla Alberti - Università degli studi di Pavia
Corso di Insegnamento Tecnico-Pratico per personale ATA – a.s. 2005/06 tutor : Giancarla Alberti Dipartimento di Chimica Generale – Università di Pavia Via Taramelli, 12 – 27100 Pavia (Italy) tel. + 39 0382 987347 e-mail: [email protected] 1 I passaggi comuni nelle analisi chimiche Formulare la domanda Tradurre le domande generiche in domande specifiche che possano trovare risposta mediante misure chimiche. Scegliere le procedure analitiche Cercare in letteratura (o se necessario idearne nuove) procedure appropriate per le misurazioni richieste. Campionare Il campionamento è il processo mediante il quale si sceglie il materiale rappresentativo da analizzare. Preparare il campione La preparazione del campione è il processo mediante il quale un campione rappresentativo viene trasformato nella forma più opportuna per l’analisi. (es. dissoluzione di solidi, acidificazione di liquidi, attacchi di filtri per analisi di particolato atmosferico). Analizzare il campione In questa fase si misura la concentrazione dell’analita in più aliquote del campione. Lo scopo di effettuare repliche delle misurazioni è quello di stabilire la variabilità (incertezza) dell’analisi e di mettersi al riparo da eventuali errori grossolani che possono scaturire dall’analisi di una singola aliquota. Riportare e interpretare i dati Si produce un resoconto scritto, completo e chiaro dei dati ottenuti, riportando la metodologia seguita e i risultati con la relativa incertezza e unità di misura. Trarre conclusioni Una volta redatto il resoconto l’analista potrebbe (ma non necessariamente) venire ulteriormente coinvolto nell’utilizzo delle informazioni fornite dalle sue analisi. (es. in un industria potrebbe essere deciso di cambiare le forniture di materie prime, mentre a livello governativo si potrebbe decidere di imporre nuovi limiti normativi). Tanto più un rapporto sarà redatto chiaramente, tanto meno facilmente esso verrà interpretato in maniera equivoca da coloro che ne faranno uso. Quando si formula una conclusione è molto importante riuscire a stabilirne il grado di certezza. Nelle analisi chimiche si valuta la certezza di un evento in modo quantitativo, usando per esempio i TEST STATISTICI. • Di quanto si è sicuri che il valore ottenuto sperimentalmente sia vicino al valore vero? • Di quanto si è sicuri che il valore ottenuto sia uguale, oppure diverso, rispetto a quello ottenuto per il medesimo campione in tempi diversi e da un altro operatore? La seconda domanda è importante per il settore della regolamentazione nazionale ed internazionale. Capita spesso, infatti, di dover coordinare le informazioni provenienti da diversi laboratori e da diversi analisti. I risultati analitici ottenuti devono essere affidabili altrimenti si corre il rischio di formulare giudizi inconsistenti. Quello che è fondamentale è la concordanza dei dati analitici tra i vari laboratori e, per raggiungere questo scopo, si cerca di validare le diverse metodologie analitiche. VALIDARE significa accertare che le metodologie sviluppate per determinare uno specifico analita, in un particolare campione, diano risultati comparabili per la maggior parte degli analisti. 2 Test statistici per la verifica di un’ipotesi È bene aver presente che non è possibile valutare la qualità statistica di una misurazione senza eseguire una serie di test. Escludendo a priori il caso in cui si esegue una sola misura, se si hanno più repliche è decisamente improbabile che due risultati siano esattamente identici. Quale dato riportare come risultato finale di una serie di misure ? Tipi di errori L’errore assoluto è la differenza fra il valore sperimentale R e quello vero τ: E = R-τ Ha un segno definito, positivo o negativo, e non deve essere inteso come sbaglio. È infatti legato alle fluttuazioni dei dati ottenuti mediante misurazioni sperimentali. Si può tentare di minimizzarlo ma non sarà mai =0. E=G+∆+δ G errore grossolano ∆ errore sistematico totale, detto anche bias, legato all’accuratezza δ errore casuale (governato dalle leggi della probabilità), legato alla precisione 3 Errori grossolani (gross error) Es. perdita di campione contaminazione abnorme Æ ripetere ed analizzare una nuova aliquota. In genere sono anche definiti dati sospetti, aberranti, outliers. Errori sistematici (systematic error) In linea di principio si possono eliminare, hanno un segno sempre + o sempre -, e se si ripete l’esperimento nello stesso modo, gli errori sono riproducibili. Possono essere costanti o proporzionali. Strumentali. Ad esempio il volume della vetreria può essere diverso da quello indicato (burette, pipette, matracci). Strumenti elettronici possono essere soggetti ad errori sistematici dovuti a cattivi contatti elettrici, tensioni che diminuiscono con il tempo (batterie), a variazioni di temperatura. Monocromatore che riporta una data λ diversa da quella effettivamente operante, standard per la taratura dell’elettrodo a vetro che non è più al valore di pH riportato, la bilancia fuori bolla, ecc. Personali. Tutte le volte che si devono dare giudizi personali c’è il rischio di commettere questi errori, possono essere dovuti tanto ad ignoranza quanto a distrazione. Esempi sono: la bolla d’aria nella buretta, stima della posizione dell’indice tra due tacche di divisione, colore del viraggio, estrapolazione incorretta del punto di viraggio. Di metodo. Sono i più difficili da individuare. Esempi sono l’eccesso di reagente che si deve aggiungere per vedere i viraggi, la mancata compensazione della T nelle letture di pH, la formazione di composti meno solubili del previsto, una cinetica troppo lenta, la pesata di crogiuoli non a T ambiente. In generale comprendono comportamenti non ideali di reattivi o di reazioni. Modi per individuare ed eliminare errori sistematici 1. Analizzare campioni di composizione nota (materiali standard di riferimento, campioni certificati). 2. Analizzare campioni di “bianco”, che non contengono l’analita in esame. Se si osserva un valore diverso da zero, il metodo in esame fornisce una risposta superiore a quella attesa. 3. Utilizzare un metodo analitico differente per analizzare lo stesso campione: se i risultati non corrispondono, almeno uno dei due metodi è affetto da errore. 4. Effettuare esercizi interlaboratorio: lo stesso campione omogeneizzato e suddiviso in porzioni viene analizzato da laboratori differenti, da persone diverse con diversi metodi. 4 Errori Casuali Causano una dispersione simmetrica dei dati intorno al valore medio e non hanno un segno definito (vengono riportati col segno ±). Sono causati da fluttuazioni indefinite dei parametri sperimentali oltre che dall’incertezza dei valori desunti dagli strumenti di misura. Non può essere individuato un singolo fattore: sono tanti e piccoli. Tale errore è per sua natura ineliminabile, anche se può essere ridotto lavorando con cura. Trattamento statistico dell’errore casuale Chiamasi “trattamento dati” l’insieme di quei procedimenti per cui da uno o più gruppi di dati numerosi si estraggono pochi valori (o descrittori) che caratterizzano immediatamente ciascun gruppo di dati e permettono di fare un confronto fra essi. Descrivono la situazione esistente, non aggiungono informazione, quella è già contenuta nel set di dati in sé. Campione di dati, un numero finito di osservazioni sperimentali (attenzione: in laboratorio è l’insieme delle repliche effettuate su uno stesso “campione analitico”) Un campione è una frazione di un numero infinito di osservazioni che potrebbero essere fatte se si avesse a disposizione un tempo infinito. Popolazione o universo di dati è un numero infinito di dati. Le leggi statistiche sono state derivate trattando popolazioni di dati. Quando si applicano a pochi dati, non necessariamente significativi dell’intera popolazione cui appartengono, bisogna necessariamente modificare ed adattare quelle leggi. …Cosa non dobbiamo dimenticare ??? Caratterizzazione di un gruppo di dati Indici di Posizione media (aritmetica) del campione e della popolazione x = ∑ xi ( x Æ µ per n Æ ∞) n mediana Valore centrale di un set di dati, per un numero di dati dispari; valor medio dei due dati centrali, per un numero pari di dati. moda Valore più probabile, quello che è stato osservato con maggior frequenza Indici di Dispersione Ampiezza dell’intervallo (differenza fra massimo e minimo) del set di dati. deviazione standard del campione e della popolazione s= 2 ∑ ( xi − x ) (n − 1) varianza σ= ∑ (xi − µ) 2 n s Æ σ per n Æ ∞ v = s 2 deviazione standard relativa deviazione standard di una media deviazione standard raggruppata sm = s cum = s n RSD% = σm = σ n s 100 x sm Æ σ m per n Æ ∞ ∑ ( x i − x 1 ) 2 + ∑ ( x i − x 2 ) 2 +...... = n1 + n 2 + ... − nt ∑ ( n i − 1) s i2 ∑ ( n i − 1) 5 Deviazione Standard dei dati calcolati Spesso ci si trova nelle condizioni di stimare la deviazione standard di un risultato calcolato a partire da uno o più dati sperimentali, ognuno dei quali ha una sua deviazione standard nota. PROPAGAZIONE DELL’INCERTEZZA NEI CALCOLI ARITMETICI Addizione Y=a+b+c Moltiplicazione o Divisione Y=ab/c Esponenziale Y = ax sy Log Y = log10 a Antilog Y = antilog10 a s s y = 0.434 a a sy = 2.303s a y s y = sa2 + sb2 + sc2 sy y 2 2 s s s = a + b + c a b c y =x 2 sa a Precisione e accuratezza Quando i dati sperimentali sono vicini tra loro, si dice che le misure hanno un’elevata PRECISIONE, che è definita quantitativamente attraverso la deviazione standard assoluta (più è bassa la deviazione standard e maggiore sarà la precisione). È comunque altrettanto importante sapere se la media dei risultati sperimentali ottenuti è vicina alla quantità di analita effettivamente presente nel campione in esame. La precisione NON è in grado di quantificare la vicinanza tra il valore medio dell’analisi ed il valore vero. L’ACCURATEZZA esprime la vicinanza del risultato al valore vero o accettato come tale. 6 Livelli di fiducia (confidenza) La media di un piccolo campione statistico di misure fornisce x . È poco probabile che x coincida con µ (µ è nota se N→∞) È però possibile stabilire un intervallo di valori entro il quale µ ha un’elevata probabilità di collocarsi. L’ampiezza dell’intervallo è piccola, se le misure sono tante e se la precisione è buona. L’intervallo scelto è detto intervallo di fiducia e gli estremi sono i limiti di fiducia. Se s è una buona approssimazione di σ. Si può stabilire un intervallo intorno a una misura entro cui ho una certa probabilità di trovare µ. Per la media di n misure µ = x ± z σ n Se s NON è una buona approssimazione di σ. Quando praticamente calcolo la deviazione standard in un set di pochi dati, calcolo s e non è dato sapere se sia una buona approssimazione di σ, è probabile sia s >>σ. È intuitivo quindi che, essendo l’incertezza maggiore, i limiti di fiducia siano più ampi. Per tenere in considerazione la variabilità di s, si utilizza t, definito analogamente a z, ma il cui valore dipenderà dal livello di fiducia e dai gradi di libertà. La distribuzione t tenderà a z al tendere di n Æ ∞. µ=x ± Per la media di n misure t s n Esempio Nella determinazione dell’alcolemia in un dato campione di siero si eseguono 3 repliche e si ottengono i valori: 0.084%, 0.089%, 0.079%. Calcolare i limiti di fiducia al 95% assumendo che: 1. non si abbia alcuna conoscenza della precisione 2. si sappia che s σ = 0.005% x =0.084% s=0.005% ν =2 1. non si conosce σ : t 95% =4.30 t s µ =x ± = 0.084 ± 0.012 % n z95% =1.96 ho 95 probabilità su 100 che il valore vero cada nell’intervallo 0.096% e 0.072%, che corrisponde a un intervallo di 0.024%. 2. si conosce σ : µ =x ± z σ = 0.084 ± 0.006 % n ho 95 probabilità su 100 che il valore vero cada nell’intervallo 0.090% e 0.078%, che corrisponde a un intervallo di 0.012%. 7 ESEMPIO Sono state effettuate 11 pesate di una sostanza per stimare il suo vero peso. Il numero di pesate è piccolo, ma è noto che i pesi di questa sostanza seguono una distribuzione normale. I risultati ottenuti sono: 3.57, 3.575, 3.599, 3.581, 3.551, 3.533, 3.529, 3.588, 3.57, 3.586, 3.573 Calcolare: media e deviazione standard (campionaria) e l’intervallo in cui si può trovare la media (al 95%). media = x = 3.57 dev std = s = 0.02 µ=x ± n = 11 t(95%,10 gdl) = 2.228 µ = 3.57 ± t s n 2.228 ⋅ 0.02 11 = 3.57 ± 0.01 Grado di libertà (gdl) In un insieme di osservazioni, i gradi di libertà rappresentano il numero di possibilità, che hanno i dati che compongono un campione, di variare liberamente. Ad esempio si considerino n numeri, ciascuno dei quali può assumere un valore qualsiasi (positivo e negativo) ed un vincolo, ad esempio la somma deve essere 100, si possono assegnare valori qualsiasi ai primi n-1 numeri, ma l'ultimo sarà vincolato dal fatto che la somma deve essere 100, quindi in questo caso, i gradi di libertà saranno n-1. Test statistici I risultati sperimentali raramente coincidono esattamente con quelli predetti da un modello teorico. Di conseguenza è necessario stabilire se una differenza numerica è una semplice manifestazione degli errori casuali, inevitabili in qualunque determinazione, o se è dovuta ad un errore sistematico relativo al processo di misurazione. Per rendere più oggettive queste valutazioni si può ricorrere ad alcuni test statistici. I test di questo tipo si rifanno ad un’ipotesi nulla in cui si assume che le quantità numeriche che si stanno confrontando siano, di fatto, uguali. IPOTESI NULLA: postula che due quantità osservate abbiano lo stesso valore, in altre parole che la differenza osservata non è significativa e quindi è spiegabile sulla base dei soli errori casuali. 8 Guida alla selezione dei test statistici Problema La precisione di un set A di dati è uguale a quella di un set B? Test statistico Come eseguire il test Test F Calcolare FA,B = sA2/sB2 Le dev. std. vanno inserite in modo che F ≥ 1. Confrontare Fcalc con Ftab per il livello di fiducia prescelto: se Fcalc > Ftab le precisioni sono diverse. Guida alla selezione dei test statistici Problema Test statistico Come eseguire il test I due set di dati hanno precisioni non significativamente diverse. Calcolare dev. std. raggruppata: 2 2 (n − 1)s A + (n B − 1)s B 2 s cum = A (n A + n B − 2) e t calc = (x A − x B ) s cum (1 n A + 1 n B ) 0.5 t ha ν =(n1+n2-2) gradi di libertà. La media di un set A di dati è uguale a quella di un set B? Test t Se t è > del valore critico per 1-α e ν, allora le due medie sono diverse. I due set di dati hanno precisioni significativamente diverse. (x A − x B ) t calc = 2 (s n A + s B2 n B ) 0.5 A in cui t ha ν gradi di libertà dati da ν = (T A + T B ) TA 2 /(n A + 1) + T A 2 2 −2 /(n A + 1) con T=s2/n e con ν che deve essere arrotondato al più vicino intero. 9 Guida alla selezione dei test statistici Problema Test statistico Come eseguire il test Ipotesi nulla: La media di un set A di dati è uguale al valore vero? Test t Calcolare x =µ t calc = (x − µ ) n s e confrontarlo con ttab. Se tcalc > ttab, per quel tipo di test per il livello di fiducia scelto e i gradi di libertà in oggetto, allora è probabile che sia presente un errore sistematico e l’ipotesi nulla è respinta. 10 Tabella dei valori critici di t test probabilità a una coda 0.1 0.05 0.025 ν 0.2 0.1 0.05 0.005 0.0025 0.0005 0.00025 0.00005 0.001 0.0005 2 1.89 2.92 3 1.64 2.35 0.0001 31.6 44.7 100.14 12.92 16.33 4 1.53 2.13 2.78 4.6 5 1.48 2.02 2.57 4.03 28.01 6 1.44 1.94 2.45 3.71 4.32 7 1.41 1.89 2.36 3.5 4.03 5.41 6.08 8 1.4 1.86 2.31 3.36 3.83 5.04 5.62 7.12 9 1.38 1.83 2.26 3.25 3.69 4.78 5.29 6.59 10 1.37 1.81 2.23 3.17 3.58 4.59 5.05 6.21 11 1.36 1.8 2.2 3.11 3.5 4.44 4.86 12 1.36 1.78 2.18 3.05 3.43 4.32 4.72 5.7 13 1.35 1.77 2.16 3.01 3.37 4.22 4.6 5.51 14 1.35 1.76 2.14 2.98 3.33 4.14 4.5 5.36 15 1.34 1.75 2.13 2.95 3.29 4.07 4.42 5.24 16 1.34 1.75 2.12 2.92 3.25 4.01 4.35 5.13 17 1.33 1.74 2.11 2.9 3.22 3.97 4.29 18 1.33 1.73 2.1 2.88 3.2 3.92 4.23 19 1.33 1.73 2.09 2.86 3.17 3.88 4.19 4.9 20 1.33 1.72 2.09 2.85 3.15 3.85 4.15 4.84 21 1.32 1.72 2.08 2.83 3.14 3.82 4.11 4.78 22 1.32 1.72 2.07 2.82 3.12 3.79 4.08 4.74 23 1.32 1.71 2.07 2.81 3.1 3.77 4.05 4.69 24 1.32 1.71 2.06 2.8 3.09 3.75 4.02 25 1.32 1.71 2.06 2.79 3.08 3.73 4 4.62 26 1.31 1.71 2.06 2.78 3.07 3.71 3.97 4.59 27 1.31 1.7 2.05 2.77 3.06 3.69 3.95 4.56 2.76 3.05 probabilità a 2 code 28 1.31 1.7 0.01 0.005 4.3 9.92 14.09 3.18 5.84 7.45 5.6 8.61 10.31 15.53 4.77 6.87 7.98 11.18 5.96 6.79 9.08 2.05 1.7 2.05 3.67 3.66 3.93 3.92 7.89 5.92 5.04 4.97 4.65 4.53 29 1.31 2.76 3.04 30 1.31 1.7 2.04 2.75 3.03 3.65 3.9 4.48 35 1.31 1.69 2.03 2.72 3 3.59 3.84 4.39 4.51 40 1.3 1.68 2.02 2.7 2.97 3.55 3.79 4.32 4.27 45 1.3 1.68 2.01 2.69 2.95 3.52 3.75 50 1.3 1.68 2.01 2.68 2.94 3.5 3.72 55 1.3 1.67 2 2.67 2.92 3.48 3.7 4.2 60 1.3 1.67 2 2.66 2.91 3.46 3.68 4.17 65 1.29 1.67 2 2.65 2.91 3.45 3.66 4.15 70 1.29 1.67 1.99 2.65 2.9 3.43 3.65 4.13 75 1.29 1.67 1.99 2.64 2.89 3.42 3.64 4.11 80 1.29 1.66 1.99 2.64 2.89 3.42 3.63 4.1 85 1.29 1.66 1.99 2.63 2.88 3.41 3.62 4.08 90 1.29 1.66 1.99 2.63 2.88 3.4 3.61 4.07 3.6 4.23 95 1.29 1.66 1.99 2.63 2.87 3.4 100 1.29 1.66 1.98 2.63 2.87 3.39 3.6 4.05 200 1.29 1.65 1.97 2.6 2.84 3.34 3.54 3.97 4.06 500 1.28 1.65 1.96 2.59 2.82 3.31 3.5 3.92 1000 1.28 1.65 1.96 2.58 2.81 3.3 3.49 3.91 1.28 1.64 1.96 2.58 2.81 3.29 3.48 3.89 ∞ ESERCIZIO - Campioni di una lega metallica standard di Ni sono inviati a due laboratori A e B. Per il laboratorio A, la media su 6 determinazioni risulta essere (4.35 ± 0.07) %Ni; mentre per il laboratorio B, la media ottenuta su 8 determinazioni è (4.47 ± 0.05) %Ni. Sulla base di questi dati, è possibile stabilire, al livello di fiducia del 95%, che c’è una differenza tra i risultati dei due laboratori? Sapendo che il contenuto vero di Ni nella lega standard è 4.44%, valutare se, allo stesso livello di fiducia del 95% è possibile ritenere i valori medi ottenuti dai due laboratori statisticamente diversi dal valore vero. 1) Stabilire se le precisioni dei due metodi sono uguali o diverse (Test F a due code) Fcalc = sA2/ sB2 = 0.072/0.052 = 1.96 Ftab(5, 7; 95%) = 5.29 Fcalc < Ftab(5, 7; 95%) le due precisioni non sono significativamente diverse. s cum 2 = 2) Calcolare la dev. std. raggruppata: 3) Calcolo di t: t calc = (x A − x B ) s cum (1 n A + 1 n B ) 0.5 (n A − 1)s A 2 + (n B − 1)s B 2 (n A + n B − 2) = 0.0035 = 3.75 4) Confronto tcalc con ttab(12, 95%) =2.18 gdl = n1 + n2 – 2 = 6+ 8 -2 = 12 tcalc > ttab(12, 95%): le due medie sono diverse. 5) Calcolare per ciascun laboratorio Laboratorio A: (4.35 ± 0.07) %Ni t calc = (x − µ ) n s tcalc = 3.15 Valore vero µ = 4.44 %Ni ttab (5, 95%) = 2.78 tcalc > ttab(5, 95%): il lab A fornisce un risultato diverso dal valore vero. Laboratorio B: (4.47 ± 0.05) %Ni tcalc = 1.69 ttab (7, 95%) = 2.45 tcalc < ttab(7, 95%): il lab B fornisce un risultato uguale al valore vero. 11 Dati sospetti (Outliers) In chimica analitica è piuttosto raro ottenere un elevato numero di dati replicati e spesso piccoli set di dati mostrano raggruppamenti casuali che conseguentemente appaiono come outliers (dati sospetti o aberranti). I test sugli outliers, devono tuttavia essere applicati con attenzione, eliminando i dati “sospetti” solo se esistono delle giustificazioni scientifiche che possono avvalorare la nostra scelta (cattivo funzionamento degli strumenti, scorrette modalità d’analisi dell’operatore). Molti degli outliers tests si basano sulla misura della distanza del dato sospetto dalla media, per valutare se l’outliers è determinato da errori casuali. Test Q di Dixon Outlier Outlier Test di Q di Dixon Si dispongono i dati in ordine crescente e si confronta il dato sospetto xs con quello a lui più vicino xv rapportandolo al range (xmax- xmin) x s − xv Q = (x max − x min ) Se il valore di Q è > di quello critico tabulato per il grado di fiducia desiderato, il dato sospetto può essere eliminato. Su tre dati il test di Q è sempre sconsigliato!! 12 ESERCIZIO L’analisi di un campione di calcite ha prodotto percentuali di CaO pari a: 55.95 56.00 56.04 56.02 56.23. L’ultimo dato sembra anomalo: dovrebbe essere scartato al livello di fiducia del 95% ? TEST Q Qcalc = (56.23-56.04)/(56.23-55.95) = 0.67 Dato più vicino al dato “critico” Qtab(5, 0.95) = 0.71 Qcalc < Qtab(5, 0.95) il dato non deve essere scartato !! 56.5 media = x = 56.05 56.3 dev std = s = 0.11 56.1 55.9 55.7 55.5 0 1 2 3 4 5 6 13