tutor : Giancarla Alberti - Università degli studi di Pavia

Transcript

tutor : Giancarla Alberti - Università degli studi di Pavia
Corso di Insegnamento Tecnico-Pratico per personale ATA – a.s. 2005/06
tutor : Giancarla Alberti
Dipartimento di Chimica Generale – Università di Pavia
Via Taramelli, 12 – 27100 Pavia (Italy)
tel. + 39 0382 987347
e-mail: [email protected]
1
I passaggi comuni nelle analisi chimiche
Formulare la domanda
Tradurre le domande generiche in domande specifiche che
possano trovare risposta mediante misure chimiche.
Scegliere le procedure analitiche Cercare in letteratura (o se necessario idearne nuove) procedure
appropriate per le misurazioni richieste.
Campionare
Il campionamento è il processo mediante il quale si sceglie il
materiale rappresentativo da analizzare.
Preparare il campione
La preparazione del campione è il processo mediante il quale un
campione rappresentativo viene trasformato nella forma più
opportuna per l’analisi. (es. dissoluzione di solidi, acidificazione di
liquidi, attacchi di filtri per analisi di particolato atmosferico).
Analizzare il campione
In questa fase si misura la concentrazione dell’analita in più
aliquote del campione. Lo scopo di effettuare repliche delle
misurazioni è quello di stabilire la variabilità (incertezza)
dell’analisi e di mettersi al riparo da eventuali errori grossolani che
possono scaturire dall’analisi di una singola aliquota.
Riportare e interpretare i dati
Si produce un resoconto scritto, completo e chiaro dei dati
ottenuti, riportando la metodologia seguita e i risultati con la
relativa incertezza e unità di misura.
Trarre conclusioni
Una volta redatto il resoconto l’analista potrebbe (ma non
necessariamente) venire ulteriormente coinvolto nell’utilizzo delle
informazioni fornite dalle sue analisi. (es. in un industria potrebbe
essere deciso di cambiare le forniture di materie prime, mentre a
livello governativo si potrebbe decidere di imporre nuovi limiti
normativi). Tanto più un rapporto sarà redatto chiaramente, tanto
meno facilmente esso verrà interpretato in maniera equivoca da
coloro che ne faranno uso.
Quando si formula una conclusione è molto importante riuscire a stabilirne il
grado di certezza.
Nelle analisi chimiche si valuta la certezza di un evento in modo quantitativo,
usando per esempio i TEST STATISTICI.
• Di quanto si è sicuri che il valore ottenuto sperimentalmente sia vicino
al valore vero?
• Di quanto si è sicuri che il valore ottenuto sia uguale, oppure diverso,
rispetto a quello ottenuto per il medesimo campione in tempi diversi e
da un altro operatore?
La seconda domanda è importante per il settore della regolamentazione
nazionale ed internazionale. Capita spesso, infatti, di dover coordinare le
informazioni provenienti da diversi laboratori e da diversi analisti. I risultati
analitici ottenuti devono essere affidabili altrimenti si corre il rischio di
formulare giudizi inconsistenti. Quello che è fondamentale è la
concordanza dei dati analitici tra i vari laboratori e, per raggiungere
questo scopo, si cerca di validare le diverse metodologie analitiche.
VALIDARE significa accertare che le metodologie sviluppate per determinare
uno specifico analita, in un particolare campione, diano risultati comparabili
per la maggior parte degli analisti.
2
Test statistici per la verifica di un’ipotesi
È bene aver presente che non è possibile valutare la qualità statistica
di una misurazione senza eseguire una serie di test.
Escludendo a priori il caso in cui si esegue una sola misura, se si
hanno più repliche è decisamente improbabile che due risultati
siano esattamente identici.
Quale dato riportare come risultato finale di
una serie di misure ?
Tipi di errori
L’errore assoluto è la differenza fra il valore sperimentale R e quello vero τ:
E = R-τ
Ha un segno definito, positivo o negativo, e non deve essere inteso come
sbaglio. È infatti legato alle fluttuazioni dei dati ottenuti mediante
misurazioni sperimentali.
Si può tentare di minimizzarlo ma non sarà mai =0.
E=G+∆+δ
G errore grossolano
∆ errore sistematico totale, detto anche bias, legato all’accuratezza
δ errore casuale (governato dalle leggi della probabilità), legato alla precisione
3
Errori grossolani (gross error) Es. perdita di campione contaminazione abnorme
Æ ripetere ed analizzare una nuova aliquota. In genere sono anche definiti dati
sospetti, aberranti, outliers.
Errori sistematici
(systematic error) In linea di principio si possono eliminare,
hanno un segno sempre + o sempre -, e se si ripete l’esperimento nello stesso modo,
gli errori sono riproducibili. Possono essere costanti o proporzionali.
Strumentali. Ad esempio il volume della vetreria può essere diverso da quello indicato (burette,
pipette, matracci). Strumenti elettronici possono essere soggetti ad errori sistematici dovuti a cattivi
contatti elettrici, tensioni che diminuiscono con il tempo (batterie), a variazioni di temperatura.
Monocromatore che riporta una data λ diversa da quella effettivamente operante, standard per la
taratura dell’elettrodo a vetro che non è più al valore di pH riportato, la bilancia fuori bolla, ecc.
Personali. Tutte le volte che si devono dare giudizi personali c’è il rischio di commettere questi
errori, possono essere dovuti tanto ad ignoranza quanto a distrazione. Esempi sono: la bolla d’aria
nella buretta, stima della posizione dell’indice tra due tacche di divisione, colore del viraggio,
estrapolazione incorretta del punto di viraggio.
Di metodo. Sono i più difficili da individuare. Esempi sono l’eccesso di reagente che si deve
aggiungere per vedere i viraggi, la mancata compensazione della T nelle letture di pH, la formazione
di composti meno solubili del previsto, una cinetica troppo lenta, la pesata di crogiuoli non a T
ambiente. In generale comprendono comportamenti non ideali di reattivi o di reazioni.
Modi per individuare ed eliminare errori sistematici
1. Analizzare campioni di composizione nota (materiali standard di
riferimento, campioni certificati).
2. Analizzare campioni di “bianco”, che non contengono l’analita in esame.
Se si osserva un valore diverso da zero, il metodo in esame fornisce una
risposta superiore a quella attesa.
3. Utilizzare un metodo analitico differente per analizzare lo stesso
campione: se i risultati non corrispondono, almeno uno dei due metodi è
affetto da errore.
4. Effettuare esercizi interlaboratorio: lo stesso campione omogeneizzato e
suddiviso in porzioni viene analizzato da laboratori differenti, da persone
diverse con diversi metodi.
4
Errori Casuali
Causano una dispersione simmetrica dei dati intorno al
valore medio e non hanno un segno definito (vengono riportati col segno ±). Sono
causati da fluttuazioni indefinite dei parametri sperimentali oltre che dall’incertezza
dei valori desunti dagli strumenti di misura. Non può essere individuato un singolo
fattore: sono tanti e piccoli. Tale errore è per sua natura ineliminabile, anche se può
essere ridotto lavorando con cura.
Trattamento statistico dell’errore casuale
Chiamasi “trattamento dati” l’insieme di quei procedimenti per cui da uno o più
gruppi di dati numerosi si estraggono pochi valori (o descrittori) che caratterizzano
immediatamente ciascun gruppo di dati e permettono di fare un confronto fra essi.
Descrivono la situazione esistente, non aggiungono informazione, quella è già
contenuta nel set di dati in sé.
™Campione di dati, un numero finito di osservazioni sperimentali (attenzione: in
laboratorio è l’insieme delle repliche effettuate su uno stesso “campione analitico”)
Un campione è una frazione di un numero infinito di osservazioni che potrebbero
essere fatte se si avesse a disposizione un tempo infinito.
™Popolazione o universo di dati è un numero infinito di dati.
Le leggi statistiche sono state derivate trattando popolazioni di dati. Quando si
applicano a pochi dati, non necessariamente significativi dell’intera popolazione cui
appartengono, bisogna necessariamente modificare ed adattare quelle leggi.
…Cosa non dobbiamo dimenticare ???
Caratterizzazione di un gruppo di dati
Indici di Posizione
media (aritmetica) del campione e della popolazione
x =
∑ xi
( x Æ µ per n Æ ∞)
n
mediana Valore centrale di un set di dati, per un numero di dati dispari; valor medio dei
due dati centrali, per un numero pari di dati.
moda Valore più probabile, quello che è stato osservato con maggior frequenza
Indici di Dispersione
Ampiezza dell’intervallo (differenza fra massimo e minimo) del set di dati.
deviazione standard del campione e della popolazione
s=
2
∑ ( xi − x )
(n − 1)
varianza
σ=
∑ (xi − µ) 2
n
s Æ σ per n Æ ∞
v = s 2 deviazione standard relativa
deviazione standard di una media
deviazione standard raggruppata
sm =
s cum =
s
n
RSD% =
σm =
σ
n
s
100
x
sm Æ σ m per n Æ ∞
∑ ( x i − x 1 ) 2 + ∑ ( x i − x 2 ) 2 +...... =
n1 + n 2 + ... − nt
∑ ( n i − 1) s i2
∑ ( n i − 1)
5
Deviazione Standard dei dati calcolati
Spesso ci si trova nelle condizioni di stimare la deviazione standard di un risultato
calcolato a partire da uno o più dati sperimentali, ognuno dei quali ha una sua
deviazione standard nota.
PROPAGAZIONE DELL’INCERTEZZA NEI CALCOLI ARITMETICI
Addizione
Y=a+b+c
Moltiplicazione o
Divisione
Y=ab/c
Esponenziale
Y = ax
sy
Log
Y = log10 a
Antilog
Y = antilog10 a
s
s y = 0.434 a
a
sy
= 2.303s a
y
s y = sa2 + sb2 + sc2
sy
y
2
2
s 
s 
s 
=  a  + b  + c 
 a 
 b 
 c 
y
=x
2
sa
a
Precisione e accuratezza
Quando i dati sperimentali sono vicini tra loro, si dice che le misure hanno
un’elevata PRECISIONE, che è definita quantitativamente attraverso la
deviazione standard assoluta (più è bassa la deviazione standard e maggiore
sarà la precisione).
È comunque altrettanto importante sapere se la media dei risultati sperimentali
ottenuti è vicina alla quantità di analita effettivamente presente nel campione in
esame. La precisione NON è in grado di quantificare la vicinanza tra il valore
medio dell’analisi ed il valore vero.
L’ACCURATEZZA esprime la vicinanza del risultato al valore vero o accettato
come tale.
6
Livelli di fiducia (confidenza)
La media di un piccolo campione statistico di misure fornisce x .
È poco probabile che x coincida con µ (µ è nota se N→∞)
È però possibile stabilire un intervallo di valori entro il quale µ ha un’elevata probabilità di
collocarsi. L’ampiezza dell’intervallo è piccola, se le misure sono tante e se la precisione è
buona. L’intervallo scelto è detto intervallo di fiducia e gli estremi sono i limiti di fiducia.
Se s è una buona approssimazione di σ.
Si può stabilire un intervallo intorno a una misura entro cui ho una certa probabilità di
trovare µ.
Per la media di n misure µ = x ± z
σ
n
Se s NON è una buona approssimazione di σ.
Quando praticamente calcolo la deviazione standard in un set di pochi dati, calcolo s e non è
dato sapere se sia una buona approssimazione di σ, è probabile sia s >>σ. È intuitivo quindi
che, essendo l’incertezza maggiore, i limiti di fiducia siano più ampi.
Per tenere in considerazione la variabilità di s, si utilizza t, definito analogamente a z, ma il cui
valore dipenderà dal livello di fiducia e dai gradi di libertà.
La distribuzione t tenderà a z al tendere di n Æ ∞.
µ=x ±
Per la media di n misure
t s
n
Esempio Nella determinazione dell’alcolemia in un dato campione di siero si eseguono
3 repliche e si ottengono i valori: 0.084%, 0.089%, 0.079%.
Calcolare i limiti di fiducia al 95% assumendo che:
1. non si abbia alcuna conoscenza della precisione
2. si sappia che s σ = 0.005%
x =0.084%
s=0.005% ν =2
1. non si conosce σ :
t
95%
=4.30
t s
µ =x ±
= 0.084 ± 0.012 %
n
z95% =1.96
ho 95 probabilità su 100 che il valore vero cada nell’intervallo 0.096% e 0.072%, che
corrisponde a un intervallo di 0.024%.
2. si conosce σ :
µ =x ±
z σ
= 0.084 ± 0.006 %
n
ho 95 probabilità su 100 che il valore vero cada nell’intervallo 0.090% e 0.078%, che
corrisponde a un intervallo di 0.012%.
7
ESEMPIO
Sono state effettuate 11 pesate di una sostanza per stimare il suo vero peso. Il
numero di pesate è piccolo, ma è noto che i pesi di questa sostanza seguono una
distribuzione normale. I risultati ottenuti sono:
3.57, 3.575, 3.599, 3.581, 3.551, 3.533, 3.529, 3.588, 3.57, 3.586, 3.573
Calcolare: media e deviazione standard (campionaria) e l’intervallo in cui si può
trovare la media (al 95%).
media = x = 3.57
dev std = s = 0.02
µ=x ±
n = 11
t(95%,10 gdl) = 2.228
µ = 3.57 ±
t s
n
2.228 ⋅ 0.02
11
= 3.57 ± 0.01
Grado di libertà (gdl)
In un insieme di osservazioni, i gradi di libertà rappresentano il numero di possibilità, che hanno i dati che
compongono un campione, di variare liberamente.
Ad esempio si considerino n numeri, ciascuno dei quali può assumere un valore qualsiasi (positivo e
negativo) ed un vincolo, ad esempio la somma deve essere 100, si possono assegnare valori qualsiasi ai
primi n-1 numeri, ma l'ultimo sarà vincolato dal fatto che la somma deve essere 100, quindi in questo caso,
i gradi di libertà saranno n-1.
Test statistici
I risultati sperimentali raramente coincidono esattamente con quelli predetti da un
modello teorico. Di conseguenza è necessario stabilire se una differenza numerica
è una semplice manifestazione degli errori casuali, inevitabili in qualunque
determinazione, o se è dovuta ad un errore sistematico relativo al processo di
misurazione. Per rendere più oggettive queste valutazioni si può ricorrere
ad alcuni test statistici. I test di questo tipo si rifanno ad un’ipotesi nulla in cui
si assume che le quantità numeriche che si stanno confrontando siano, di fatto,
uguali.
IPOTESI NULLA: postula che due quantità osservate abbiano lo
stesso valore, in altre parole che la differenza osservata non è
significativa e quindi è spiegabile sulla base dei soli errori
casuali.
8
Guida alla selezione dei test statistici
Problema
La precisione di un
set A di dati è
uguale a quella di
un set B?
Test statistico
Come eseguire il test
Test F
Calcolare FA,B = sA2/sB2
Le dev. std. vanno inserite in modo che F ≥ 1.
Confrontare Fcalc con Ftab per il livello di fiducia
prescelto: se Fcalc > Ftab le precisioni sono
diverse.
Guida alla selezione dei test statistici
Problema
Test statistico
Come eseguire il test
I due set di dati hanno precisioni non
significativamente diverse.
Calcolare dev. std. raggruppata:
2
2
(n − 1)s A + (n B − 1)s B
2
s cum = A
(n A + n B − 2)
e
t calc =
(x A − x B )
s cum (1 n A + 1 n B ) 0.5
t ha ν =(n1+n2-2) gradi di libertà.
La media di un set
A di dati è uguale a
quella di un set B?
Test t
Se t è > del valore critico per 1-α e ν, allora le
due medie sono diverse.
I due set di dati hanno precisioni
significativamente diverse.
(x A − x B )
t calc = 2
(s n A + s B2 n B ) 0.5
A
in cui t ha ν gradi di libertà dati da
ν =
(T A + T B )
TA
2
/(n A + 1) + T A
2
2
−2
/(n A + 1)
con T=s2/n e con ν che deve essere arrotondato al più
vicino intero.
9
Guida alla selezione dei test statistici
Problema
Test statistico
Come eseguire il test
Ipotesi nulla:
La media di un set
A di dati è uguale al
valore vero?
Test t
Calcolare
x =µ
t calc =
(x − µ ) n
s
e confrontarlo con ttab.
Se tcalc > ttab, per quel tipo di test per il livello di
fiducia scelto e i gradi di libertà in oggetto,
allora è probabile che sia presente un errore
sistematico e l’ipotesi nulla è respinta.
10
Tabella dei valori critici di t test
probabilità a una coda
0.1
0.05
0.025
ν
0.2
0.1
0.05
0.005
0.0025
0.0005
0.00025
0.00005
0.001
0.0005
2
1.89
2.92
3
1.64
2.35
0.0001
31.6
44.7
100.14
12.92
16.33
4
1.53
2.13
2.78
4.6
5
1.48
2.02
2.57
4.03
28.01
6
1.44
1.94
2.45
3.71
4.32
7
1.41
1.89
2.36
3.5
4.03
5.41
6.08
8
1.4
1.86
2.31
3.36
3.83
5.04
5.62
7.12
9
1.38
1.83
2.26
3.25
3.69
4.78
5.29
6.59
10
1.37
1.81
2.23
3.17
3.58
4.59
5.05
6.21
11
1.36
1.8
2.2
3.11
3.5
4.44
4.86
12
1.36
1.78
2.18
3.05
3.43
4.32
4.72
5.7
13
1.35
1.77
2.16
3.01
3.37
4.22
4.6
5.51
14
1.35
1.76
2.14
2.98
3.33
4.14
4.5
5.36
15
1.34
1.75
2.13
2.95
3.29
4.07
4.42
5.24
16
1.34
1.75
2.12
2.92
3.25
4.01
4.35
5.13
17
1.33
1.74
2.11
2.9
3.22
3.97
4.29
18
1.33
1.73
2.1
2.88
3.2
3.92
4.23
19
1.33
1.73
2.09
2.86
3.17
3.88
4.19
4.9
20
1.33
1.72
2.09
2.85
3.15
3.85
4.15
4.84
21
1.32
1.72
2.08
2.83
3.14
3.82
4.11
4.78
22
1.32
1.72
2.07
2.82
3.12
3.79
4.08
4.74
23
1.32
1.71
2.07
2.81
3.1
3.77
4.05
4.69
24
1.32
1.71
2.06
2.8
3.09
3.75
4.02
25
1.32
1.71
2.06
2.79
3.08
3.73
4
4.62
26
1.31
1.71
2.06
2.78
3.07
3.71
3.97
4.59
27
1.31
1.7
2.05
2.77
3.06
3.69
3.95
4.56
2.76
3.05
probabilità a 2 code
28
1.31
1.7
0.01
0.005
4.3
9.92
14.09
3.18
5.84
7.45
5.6
8.61
10.31
15.53
4.77
6.87
7.98
11.18
5.96
6.79
9.08
2.05
1.7
2.05
3.67
3.66
3.93
3.92
7.89
5.92
5.04
4.97
4.65
4.53
29
1.31
2.76
3.04
30
1.31
1.7
2.04
2.75
3.03
3.65
3.9
4.48
35
1.31
1.69
2.03
2.72
3
3.59
3.84
4.39
4.51
40
1.3
1.68
2.02
2.7
2.97
3.55
3.79
4.32
4.27
45
1.3
1.68
2.01
2.69
2.95
3.52
3.75
50
1.3
1.68
2.01
2.68
2.94
3.5
3.72
55
1.3
1.67
2
2.67
2.92
3.48
3.7
4.2
60
1.3
1.67
2
2.66
2.91
3.46
3.68
4.17
65
1.29
1.67
2
2.65
2.91
3.45
3.66
4.15
70
1.29
1.67
1.99
2.65
2.9
3.43
3.65
4.13
75
1.29
1.67
1.99
2.64
2.89
3.42
3.64
4.11
80
1.29
1.66
1.99
2.64
2.89
3.42
3.63
4.1
85
1.29
1.66
1.99
2.63
2.88
3.41
3.62
4.08
90
1.29
1.66
1.99
2.63
2.88
3.4
3.61
4.07
3.6
4.23
95
1.29
1.66
1.99
2.63
2.87
3.4
100
1.29
1.66
1.98
2.63
2.87
3.39
3.6
4.05
200
1.29
1.65
1.97
2.6
2.84
3.34
3.54
3.97
4.06
500
1.28
1.65
1.96
2.59
2.82
3.31
3.5
3.92
1000
1.28
1.65
1.96
2.58
2.81
3.3
3.49
3.91
1.28
1.64
1.96
2.58
2.81
3.29
3.48
3.89
∞
ESERCIZIO - Campioni di una lega metallica standard di Ni sono inviati a due laboratori A
e B. Per il laboratorio A, la media su 6 determinazioni risulta essere (4.35 ± 0.07) %Ni;
mentre per il laboratorio B, la media ottenuta su 8 determinazioni è (4.47 ± 0.05) %Ni.
Sulla base di questi dati, è possibile stabilire, al livello di fiducia del 95%, che c’è una
differenza tra i risultati dei due laboratori? Sapendo che il contenuto vero di Ni nella lega
standard è 4.44%, valutare se, allo stesso livello di fiducia del 95% è possibile ritenere i
valori medi ottenuti dai due laboratori statisticamente diversi dal valore vero.
1) Stabilire se le precisioni dei due metodi sono uguali o diverse (Test F a due code)
Fcalc = sA2/ sB2 = 0.072/0.052 = 1.96 Ftab(5, 7; 95%) = 5.29
Fcalc < Ftab(5, 7; 95%) le due precisioni non sono significativamente diverse.
s cum 2 =
2) Calcolare la dev. std. raggruppata:
3) Calcolo di t: t calc
=
(x A − x B )
s cum (1 n A + 1 n B ) 0.5
(n A − 1)s A 2 + (n B − 1)s B 2
(n A + n B − 2)
= 0.0035
= 3.75
4) Confronto tcalc con ttab(12, 95%) =2.18
gdl = n1 + n2 – 2 = 6+ 8 -2 = 12
tcalc > ttab(12, 95%): le due medie sono diverse.
5) Calcolare per ciascun laboratorio
Laboratorio A: (4.35 ± 0.07) %Ni
t calc =
(x − µ ) n
s
tcalc = 3.15
Valore vero µ = 4.44 %Ni
ttab (5, 95%) = 2.78
tcalc > ttab(5, 95%): il lab A fornisce un risultato diverso dal valore vero.
Laboratorio B: (4.47 ± 0.05) %Ni
tcalc = 1.69
ttab (7, 95%) = 2.45
tcalc < ttab(7, 95%): il lab B fornisce un risultato uguale al valore vero.
11
Dati sospetti (Outliers)
In chimica analitica è piuttosto raro ottenere un elevato numero di dati
replicati e spesso piccoli set di dati mostrano raggruppamenti casuali che
conseguentemente appaiono come outliers (dati sospetti o aberranti).
I test sugli outliers, devono tuttavia essere applicati con attenzione,
eliminando i dati “sospetti” solo se esistono delle giustificazioni scientifiche
che possono avvalorare la nostra scelta (cattivo funzionamento degli
strumenti, scorrette modalità d’analisi dell’operatore).
Molti degli outliers tests si basano sulla misura della distanza del dato
sospetto dalla media, per valutare se l’outliers è determinato da errori
casuali.
Test Q di Dixon
Outlier
Outlier
Test di Q di Dixon
Si dispongono i dati in ordine crescente e si confronta il dato sospetto xs
con quello a lui più vicino xv rapportandolo al range (xmax- xmin)
x s − xv
Q =
(x max − x min )
Se il valore di Q è > di quello critico tabulato per il grado di fiducia
desiderato, il dato sospetto può essere eliminato.
Su tre dati il test di Q è sempre sconsigliato!!
12
ESERCIZIO L’analisi di un campione di calcite ha prodotto percentuali di CaO pari a:
55.95 56.00 56.04 56.02 56.23.
L’ultimo dato sembra anomalo: dovrebbe essere scartato al livello di fiducia del 95% ?
TEST Q
Qcalc = (56.23-56.04)/(56.23-55.95) = 0.67
Dato più vicino al
dato “critico”
Qtab(5, 0.95) = 0.71
Qcalc < Qtab(5, 0.95) il dato non deve essere scartato !!
56.5
media = x = 56.05
56.3
dev std = s = 0.11
56.1
55.9
55.7
55.5
0
1
2
3
4
5
6
13