Gli scarti .... “tipi”… facili

Transcript

Gli scarti .... “tipi”… facili
Gli scarti .... “tipi”… facili
f (x) =
1
e
" 2#
$( x$x )2
2"
2
!
dove si narra
dell’utilizzo di excel per il calcolo
della ripetibilità e dell’incertezza
delle misure variabili
con la concentrazione
Michele Rapillo
Michele Rapillo
Gli scarti... “tipi”... facili
© 2008
Proprietà letteraria riservata.
SINAL
Sistema Nazionale per l’Accreditamento di Laboratori
Piazza Mincio 2, 00198 Roma
Tel. 06 8440991
Fax 06 8841199
www.sinal.it
Questa pubblicazione può essere liberamente riprodotta, citando la fonte.
Ne è vietata la riproduzione a fini commerciali.
Edizione luglio 2008.
Pag. 2 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
a Teresa
per aver dimostrato che la certezza esiste.
Pag. 3 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Ringrazio
Nicola Bottazzini
per i preziosi suggerimenti, per l’utilissimo
materiale messo a disposizione e per la
revisione generale del presente documento;
Fabrizio Francia e il gruppo Francia Latticini
per aver consentito la pubblicazione di importanti
e riservati dati aziendali;
Luis Vizcarra,
spalla impagabile,
“per essersi prestato al gioco”;
Emma Angelini Bianco
per il contributo da lettore che è passato
dall’incertezza alla certezza;
Paolo Bianco
per l’attenta revisione del testo
ed il supporto alla pubblicazione.
Michele Rapillo
Pag. 4 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Presentazione
Nel lungo e talvolta tortuoso itinerario della valutazione dell’incertezza di misura non a tutti è
dato di procedere speditamente. Certamente ci riesce Michele Rapillo che può avvalersi di una
lunga e diversificata esperienza operativa per fare da “Guida” a tutti coloro che in Laboratorio,
alle prese con un determinato test analitico, debbono necessariamente produrre un risultato
completo.
Come in un’escursione lungo un aspro sentiero di montagna, in due si procede meglio e Rapillo
ha appunto scelto di procedere assieme ad un compagno di escursione, simpatico ma, come
spesso capita nella vita, alquanto arrugginito per quanto riguarda i ricordi universitari relativi ad
errori, scarti, gaussiane eccetera, che vengono opportunamente sintetizzati..
L’ing. Rapillo, forte anche della sua attuale posizione di autorevole membro del Comitato di
Accreditamento del SINAL che assai spesso si trova alle prese con Laboratori di Prova che della
determinazione dell’incertezza di misura farebbero volentieri a meno, con pazienza e perizia
incoraggia e spinge sulla buona strada non solo il suo interlocutore, ma anche tutti coloro che
vorranno intraprendere la lettura di questa “Guida” che si rivela preziosissima bussola per entrare
in confidenza con una componente essenziale della misura di laboratorio.
Pertanto a tutti coloro che operano in Laboratori di Prova ed in particolare a quelli che sono
impegnati nelle operazioni relative all’accreditamento, consigliamo fortemente la lettura di
queste pagine: una lettura che sarà di grande giovamento per il loro lavoro e che per di più li farà
spesso sorridere.
Antonio Paoletti
Presidente SINAL
Pag. 5 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Introduzione
Che cosa ci può essere di facile nel concetto di scarto tipo, varianza, chi-quadro? La domanda
sorgerà spontanea nella mente di alcuni fra coloro che, nei loro laboratori, si sono trovati qualche
volta a contatto con problematiche di validazione di metodi di prova e quindi con la
determinazione di ripetibilità ed incertezza delle misure. Per quelli che hanno frequentato corsi
specifici sull’incertezza di misura, lo scarto tipo non risulterà così misterioso ed a maggior
ragione non lo sarà per gli appassionati lettori delle numerose pubblicazioni sull’argomento:
dalla GUM (o UNI ENV 13005) con le sue appendici (centinaia di pagine) in emissione, alla
guida EURACHEM (anzi adesso 3 guide), alla guida EUROLAB, e alla documentazione varia
che si può trovare in rete.
D’altronde chi solo saltuariamente ha occasione d’incontrare questa problematica ne fa spesso la
conoscenza in modo disorganico e confuso, tra approccio top-down e bottom-up, olistico ed
Horwitz, tra scarto tipo giustappunto e scarto tipo della media, oscuri contributi ottenuti con
valutazioni di tipo A e B, e finisce per considerarla piena, non già di risvolti interessanti, ma
piuttosto di noia e fastidio, come accade per gli argomenti ostici che si è costretti ad imparare più
o meno a memoria perché non sembrano avere un’essenza da cogliere. Tra l’altro le guide
sparano questi riferimenti al lettore come se questi avesse appena terminato con profitto un corso
avanzato di statistica, gettandolo nel panico alla ricerca di vecchi testi di scuola, tabelle di dati,
solo citate e mai riportate nei documenti (come se il lettore fosse seduto su una pila di testi di
statistica).
Inoltre, anche se Bertolt Brecht afferma che: “Di tutte le cose sicure la più certa è il dubbio”,
un’approfondita riflessione sul concetto di incertezza può generare inquietudine.
Questo testo molto ricorda per la sua tipicità i dialoghi di Platone, che si contrapponevano agli
scritti retorici circolanti all’epoca ad Atene, ed ha il grande pregio di presentare in forma
colloquiale ma rigorosa il calcolo dell’incertezza e della ripetibilità delle misure.
Analogamente a Sisifo, discepolo di Socrate, Luis viene guidato, dopo un esaustivo elenco di
documenti relativi all’incertezza di misura, attraverso le definizioni di scarto tipo, varianza,
distribuzione di probabilità, normal probability plot, ecc., che costituiscono le basi teoriche del
calcolo. Entrano a questo punto in scena i dati sperimentali sui quali viene effettuato il calcolo
con l’indicazione delle relative funzioni del software utilizzato (niente tabelle!).
Rispetto ai testi a disposizione degli operatori del settore, questo documento fornisce una guida
rapida che suggerisce però diversi livelli di approfondimento privilegiando comunque
l’approccio relativo a “come si fanno le cose” rispetto all’approccio “cosa bisogna fare”.
Poiché, come recita un proverbio cinese “ L'uomo che ha troppe parole, spesso non ha alcuna
certezza”, termino questa breve presentazione esprimendo la convinzione che questo documento
contribuirà a sfatare alcuni miti: che l’incertezza di misura sia impossibile da comprendere, che
si traduca in una inquietante serie di equazioni da imparare a memoria, che le persone che si
occupano di queste tematiche siano umanamente aride e fredde e prive del senso
dell’umorismo.
Mi auguro pertanto che questa promessa di sradicamento di convinzioni diffuse risulti stimolante
per tutte le persone che per ragioni di lavoro o per mera curiosità vengano a trovarsi a contatto
con le problematiche di ripetibilità ed incertezza delle misure.
Paolo Bianco
Direttore SINAL
Pag. 6 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
INDICE
IL FATTO .........................................................................................................................................8
IL LAVORO ....................................................................................................................................10
LUIS E I DUBBI SULLA DISTRIBUZIONE DEI DATI SPERIMENTALI ....................................................18
LUIS E LA DISTRIBUZIONE NORMALE ............................................................................................20
LUIS E I DATI ANOMALI .................................................................................................................23
LUIS E LO SCARTO TIPO .................................................................................................................24
LUIS E LA VERIFICA DELLA MEDIA ................................................................................................25
LUIS E LA VERIFICA DELLO SCARTO TIPO......................................................................................26
LUIS E IL CALCOLO DELLO SCARTO TIPO VARIABILE CON LA CONCENTRAZIONE .........................27
L’INCERTEZZA DI LUIS .................................................................................................................36
LUIS E L’APPROCCIO METROLOGICO .....................................................................................................................................38
LUIS E HORWITZ ....................................................................................................................................................................41
LUIS E IL CRITERIO OLISTICO .................................................................................................................................................42
L’INCERTEZZA DI LUIS VARIABILE CON LA CONCENTRAZIONE ...........................................................................................42
LA DECISIONE FINALE DI LUIS ......................................................................................................51
Pag. 7 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Il Fatto
Il mio amico Luis, un microbiologo sudamericano che dirige il laboratorio di una importante
azienda lattiero casearia1, dovendo affrontare il calcolo della ripetibilità e dell’incertezza di
misura mi ha chiesto di indicargli qualche riferimento bibliografico che lo aiutasse ad affrontare
tali temi in modo rigoroso, ma al tempo stesso pratico. Gli ho consigliato di consultare il sito del
SINAL2 che considero il punto di riferimento nazionale più completo sulla tematica.
Luis ha seguito il mio consiglio e si è ritrovato davanti un elenco molto ampio; dopo una rapida
analisi ha focalizzato l’attenzione su quei documenti che già nel titolo avevano il termine
chimica o microbiologia e contemporaneamente anche incertezza o ripetibilità, e quelli che,
indipendentemente dalla disciplina (chimica, meccanica, ecc.) trattassero il tema dell’incertezza,
ottenendo il sottoinsieme riportato di seguito ed evidenziato in giallo.
Sigla
DT-0002
DT-0004
Titolo
Rev.
Guida per la valutazione e la espressione dell'incertezza nelle misurazioni
1
Linee guida per la taratura di strumenti nel settore della compatibilità
0
elettromagnetica e dei campi elettromagnetici ambientali
DT-0002/1
Esempi applicativi di valutazione dell'incertezza nelle misurazioni elettriche
1
DT-0002/2
Esempi applicativi di valutazione dell'incertezza nelle misurazioni
0
meccaniche
DT-0002/3
Avvertenze per la valutazione dell'incertezza nel campo dell'analisi chimica
0
DT-0002/4
Esempi applicativi di valutazione dell'incertezza nelle misurazioni chimiche
0
DT-0002/5
Esempio applicativo per misurazioni su materiali strutturali
1
3
DT-0002/6
Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica
0
nel tempo
EA-4/02
Expression of the uncertainty of measurement in calibration
00
EA-4/09
Accreditation for sensory testing laboratories
01
EA-4/10
Accreditation for Laboratories Performing Microbiological Testing
02
EA-4/15
Accreditation for Bodies Performing non-Destructive Testing
00
EA-4/16
EA guidelines on the expression of uncertainty in quantitative testing
00
EA-4/18
Guidance on the Application of EN 45001 and ISO/IEC Guide 25 to
1 Ed
Electromagnetic Compatability (EMC) Testing (Già EAL-G27)
QUAM:2000.1 EURACHEM-CITAC Guide CG4 - Quantifying Uncertainty in Analytical
2 Ed
Measurement (*)
SIT Doc-519 Introduzione ai criteri di valutazione della incertezza di misura nelle tarature
5
Presentazione SINAL e requisiti della UNI CEI EN ISO/IEC 17025 (P. Bianco)
• ISO/IEC 17025: requisiti tecnici - Incertezza di misura: approccio GUM
• ISO/IEC 17025: requisiti tecnici - Incertezza di misura: altri approcci
• ISO/IEC 17025: requisiti tecnici - Incertezza di misura: decisioni
Incertezza di misura e prove valutative (S. Pepa e M. Scognamiglio)
Sito dedicato alla guida EURACHEM-CITAC.
www.measurementuncertainty.org
E' disponibile la guida in linea, con numerosi
esempi di chimica analitica.
1
2
3
Francia Latticini S.p.A.
Sistema Nazionale di Accreditamento dei Laboratori di Prova – www.sinal.it.
Documento emesso durante la revisione del presente lavoro
Pag. 8 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
MATERIALE DEI CORSI DI AGGIORNAMENTO 2006
•
Incertezza di misura in chimica e qualità dei dati. P. Anichini
Materiale dei corsi sull'incertezza di misura nelle prove chimiche tenuti con la collaborazione
di UNICHIM:
•
Introduzione al corso. C. Divo
•
Esempio microbiologico. N. Bottazzini
•
Verifiche della qualità dei risultati. C. Divo
Interventi al Convegno L'ACCREDITAMENTO DEI LABORATORI PER LA SICUREZZA
ALIMENTARE, 25-26 ottobre 2005, organizzato da ISS ORL, SINAL, SIT
· Criteri generali per la valutazione dell'incertezza di misura. F. Pennecchi, M. Mosca
· Incertezza di misura: dalla GUM alla linea guida EURACHEM-CITAC. A. Menditto , M. Plassa
· Esempi pratici per la valutazione dell'incertezza di misura in ambito chimico. P. Anichini, G.
Bonacchi
· Esempi pratici per la valutazione dell'incertezza di misura in ambito microbiologico. A. Maiello,
A. Viti
· Valutazione dell'incertezza di misura: esperienza di un laboratorio accreditato per gli OGM. S.
De Martin
A questo punto Luis, che tra l’altro esegue direttamente, e supervisiona, circa 1000 determinazioni
giornaliere, ha iniziato una prima ricognizione su tutti questi documenti, e dopo circa una settimana,
completamente demoralizzato, e in forte crisi di identità, mi ha chiamato e mi ha detto testualmente:
“i pochi concetti che credevo di avere chiari sull’incertezza e sulla statistica si sono trasformati in
una informe massa di dubbi e di perplessità, che posso fare?”
Gli ho consigliato di seguire un corso sul tema dell’incertezza allo scopo di rinfrescare i concetti
base di statistica e di acquisire un approccio sistematico per poter poi meglio utilizzare anche i
documenti proposti dal SINAL.
Un mese ed un corso dopo Luis mi ha richiamato, confessandomi che il corso era stato molto utile,
gli aveva fornito molte informazioni, gli aveva sciolto molti dubbi, ma principalmente gli aveva dato
una certezza, la certezza che l’incertezza era una cosa da iniziati, tanto che alla fine del corso uno
dei partecipanti, un chimico, aveva detto:
ma alla fine, come si calcolano la ripetibilità e l’incertezza? io questo solo volevo sapere e ancora
non lo so!
Era chiaro, anche questa volta, come nella maggior parte dei corsi era stato insegnato al più, “cosa
bisogna fare” piuttosto che “come si fanno le cose”.
Ormai ero incastrato, dovevo dare una mano a Luis.
Il mio dubbio fu se partire dai concetti base di statistica descrittiva e di inferenza statistica, oppure
dalle necessità pratiche di Luis; la mia certezza era la consapevolezza di dovergli fornire sia le
informazioni teoriche indispensabili a “capire il perché” che gli elementi pratici per “sapere come”,
miscelandoli e definendone le priorità in relazione alle necessità.
Decisi di partire dalle necessità pratiche del mio amico.
Pag. 9 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Il lavoro
M4Qual è il tuo problema?
L5 Devo validare un metodo interno. In realtà non si tratta di un metodo ideato dal laboratorio: con
tutto quello che ho da fare ci mancherebbe che mi mettessi a sviluppare dei metodi di prova!
Il metodo, che prevede l’utilizzo di un’apparecchiatura complessa, il FOSSOMATIC MINOR, è
stato elaborato da una multinazionale del settore, la FOSS Analytical A/S e non riporta dati di
validazione. Il parametro da determinare è il numero di cellule somatiche/ml nel latte vaccino. I
limiti operativi del metodo prevedono la determinazione delle cellule somatiche nel campo di
misura 100.000 – 2.000.000 cellule/ml.
Ai fini della validazione devo determinare, tra l’altro, la ripetibilità e l’incertezza.
M Mi puoi spiegare meglio come è fatta e come funziona questa apparecchiatura?
L Il Fossomatic Minor, evidenzia il DNA cellulare con un colorante (Propidium iodide), lo
fotografa e quindi elabora l’immagine elettronicamente restituendo il valore di cellule somatiche
attraverso il collegamento ad un PC.
M Quali sono le specifiche tecniche del Fossomatic Minor? In particolare cosa riporta la FOSS in
relazione ai parametri che devi determinare?
L La FOSS nelle sue specifiche tecniche riporta la ripetibilità espressa in termini di coefficiente di
variazione CV a tre livelli e una valutazione dell’accuratezza come rapporto con un metodo di
conta diretta al microscopio, come puoi ben vedere.
Repeatability**:
CV < 7 % at 100.000 cells/ml (** coefficient of variance)
CV < 5 % at 300.000 cells/ml
CV < 4 % at 500.000 cells/ml
Accuracy:
< 10 % relative mean diff. from Direct Microscopic Somatic Cell Count
(DMSCC)
< 1.5%
Carry-over:
M Bene, ecco il nostro primo problemino: esprimere il CV secondo parametri che conosciamo
meglio e che possiamo determinare: la formula del CV è la seguente
CV =
s
"100
x
dove s è lo scarto tipo di ripetibilità e x la media dei risultati di un numero elevato di prove
(>30) eseguite con il metodo in esame.
4
5
M = Michele
L = Luis
!
Pag. 10 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
L Mi ricordi cosa è lo scarto tipo?
M Lo scarto tipo è la radice quadrata positiva della varianza, - ho risposto in modo per me chiaro,
preciso e inequivocabile -.
L Cosa è la varianza?
M La varianza è una misura della dispersione dei risultati, ed è data dalla somma dei quadrati delle
differenze rispetto alla loro media divisa per il numero dei risultati meno uno, che in termini
matematici (quando si riferisce ad un campione di dati) si esprime come riportato di seguito.
1 n
varianza(x1, x2 ,...........x n ) =
# (xi " x)2
n "1 1
Mentre se ci riferiamo all’intera popolazione di dati, il termine n-1 viene sostituito da n.
L Quelle che
! mi hai dato sono definizioni, io voglio sapere che cosa è in pratica lo scarto tipo,
inoltre nei miei ricordi, non ritrovo lo scarto tipo, che se ho ben capito è probabilmente un altro
modo di chiamare la deviazione standard. Tale termine non si trova neanche nelle funzioni
statistiche di excel, allora me lo spieghi?
M Per quanto riguarda la seconda parte della tua domanda ti dico subito che sono sinonimi, anche
se, volendo, si possono trovare giustificazioni semantiche e interpretazioni interessanti del
diverso nome dato a due parametri identici. In ogni caso nel nostro lavoro, è bene chiarirlo
subito, parleremo sempre di scarto tipo.
E veniamo alla prima parte della domanda, e cioè cosa è, o meglio cosa rappresenta in pratica, lo
“scarto tipo”.
In primo luogo ti devo ricordare che molti fenomeni naturali da quelli biologici a quelli fisici si
distribuiscono generalmente secondo una curva detta “curva di Gauss”, e da tale curva
partiremo.
L Ferma la musica! Anche al corso che ho frequentato hanno iniziato da qui, ma poi sai come è
finita.
M Abbi fede e ascolta quello che ti dico!
Intanto, prima di parlare di Gauss devo darti un’altra definizione, quella di ripetibilità. La
norma UNI-CEI-ENV 130056 del 2000, dà la seguente definizione:
Ripetibilità
(dei risultati di
misurazione)
6
Grado di concordanza tra i risultati di successive misurazioni dello stesso
misurando effettuate nelle stesse condizioni di misura.
Nota 1 queste condizioni sono denominate condizioni di
ripetibilità
Nota 2 Le condizioni di ripetibilità comprendono:
• lo stesso procedimento di misurazione,
• lo stesso osservatore,
UNI-CEI-ENV 13005 Guida all’espressione dell’incertezza di misura
Pag. 11 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
lo stesso strumento di misura utilizzato nelle stesse
condizioni
• lo stesso luogo
• ripetizione entro un breve periodo di tempo
Nota 3 La ripetibilità può essere espressa quantitativamente in
termini delle caratteristiche di dispersione dei risultati
•
Il Manuale Unichim 179/17 distingue invece tra ripetibilità stretta e ripetibilità intermedia e
riporta:
Condizioni di Condizioni nelle quali i risultati mutuamente indipendenti vengono ottenuti
ripetibilità
con lo stesso metodo su uno stesso materiale, nello stesso laboratorio, dallo
stretta:
stesso operatore, utilizzando la stessa strumentazione, in un intervallo di
tempo breve (senza ritaratura).
Nota - Queste condizioni rappresentano la costanza di tutti i fattori
riguardanti la realizzazione delle prove. La variazione di una o più di
tali condizioni, tenendo però fisso il laboratorio, il materiale da
esaminare e il metodo, porta a considerare una ripetibilità
intermedia8. Se intervengono diversi laboratori con lo stesso metodo
nell’esame dello stesso campione si determinano le condizioni per
valutare la riproducibilità.
Tornando alla distribuzione normale, lo stesso manuale 179/1 dell’UNICHIM, riporta che nella
maggior parte dei casi i risultati di analisi chimico fisiche condotte in condizioni di ripetibilità
stretta si distribuiscono secondo la classica curva a campana o di Gauss.
Nel nostro caso, la variabile in gioco, il conteggio delle cellule somatiche, è una tipica variabile
discreta che per sua natura non si distribuisce secondo la curva di Gauss, ma secondo quella di
Poisson. Tuttavia ai conteggi elevati, come quelli relativi alle cellule somatiche, la distribuzione
di Gauss ed i suoi parametri rappresentano un’ottima approssimazione di quella di Poisson.
L Mi ricordi le caratteristiche e le proprietà delle gaussiana?
M Si supponga di eseguire, in condizioni di ripetibilità stretta, un gran numero di misurazioni di un
certo misurando, e di riportare in un grafico (istogramma) le frequenze relative9 dei valori
ottenuti (xi) con le prime 20, 40, ...1000 misure. All'aumentare del numero di misure, i valori
tendono ad accentrarsi attorno alla loro media e l'istogramma assume una forma a campana
sempre più regolare, che può essere approssimata con una funzione reale nota come funzione di
Gauss o funzione normale.
7
Manuale Unichim 179/1 Linee guida per la validazione di metodi analitici nei laboratori chimici - valutazione della precisione (ripetibilità
stretta) di un metodo analitico eseguito in un unico laboratorio da un solo operatore su di un unico strumento in un breve intervallo di tempo.
8
La definizione e i diversi casi sono riportati nella ISO 5725-3
9
Le frequenze relative sono date dal rapporto tra le frequenze assolute ed il numero delle osservazioni.
Pag. 12 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
La funzione di Gauss
Distribuzione di Gauss
dove:
f(x) è la densità di probabilità o frequenza con cui
il valore x può essere riscontrato
σ
è lo scarto tipo della totalità delle misure;
µ
è la media della totalità delle misure;
e
base dei logaritmi naturali ( e = 2.71828...).
π
= 3.14159...
µ
La variabilità aumenta
all’aumentare di σ
µ = µ1 = µ2
Al variare dello scarto tipo la curva modifica la
sua forma
σ = σ1 = σ2
Al variare della media aritmetica (a parità di scarto tipo)
la curva trasla sull’asse delle x
tale area la prob
Le caratteristiche della
distribuzione normale
1. è simmetrica rispetto al valore medio
2. il valore di x = µ oltre che alla media aritmetica
coincide con la moda e la mediana
3. è asintotica all'asse delle x da entrambi i lati
4. è crescente per x<µ e decrescente per x>µ
5. possiede due punti di flesso per x = µ±σ
6. l’area sotto la curva è = 1 (rappresentando tale
area la probabilità che si ottenga un qualsiasi
valore di x)
L OK, mi hai ricordato una serie di cose che ho studiato durante il mio corso di studi, ma avendole
abbandonate da tempo, quasi non ricordavo più. In effetti avevo proprio bisogno di questi
richiami. Però ….. ora che ci penso, il fatto che l’area sotto la curva di Gauss sia uguale ad 1 mi
serve a poco, in quanto le mie necessità sono in genere altre; ad esempio, se io voglio conoscere
la probabilità che un dato valore sia compreso in un intervallo definito, delimitato ad esempio da
due valori x1 e x2, come devo fare?
Pag. 13 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
M Ovviamente tale probabilità è data dall’area della curva compresa tra x1 ed x2 e quindi basta
semplicemente calcolare tale area, calcolando l’integrale della funzione di Gauss tra questi due
valori.
Il vero problema è che questa funzione non è facilmente integrabile.
L E i computer a che servono?
M In effetti puoi usare le funzioni di excel, e ti dirò dopo come, ma intanto è utile che tu acquisisca
le ultime informazioni sulla curva di Gauss ed in particolare su come si opera per il calcolo del
suo integrale.
INTERVALLI DI PROBABILITÀ
riferimento 10
Per ovviare alle difficoltà di calcolo
dell’integrale della funzione di Gauss, si può
trasformare una generica funzione gaussiana
f(x) con media µ e varianza σ2, in una
funzione gaussiana standard con media 0 e
varianza 1. Ponendo:
1
1 # 2 (z)2
x"µ
e
si ottiene f (z) =
Z=
#
riferimento
11
!
2"
il simbolo Z viene generalmente in molti
laboratori sostituito da kp
Per la funzione standardizzata sono state
! tabelle in funzione di Z.
predisposte delle
Le tabelle se pur ancora largamente usate
stanno sempre più cedendo il campo ai PC
10
11
Sito SINAL Paolo Bianco ISO/IEC 17025: requisiti tecnici
www.biostatistica.unich.it/.../
Pag. 14 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
L Fermo! Finora abbiamo parlato di popolazioni, quindi di un numero infinito di dati, ma io ho a
che fare invece sempre con un numero limitato di dati, come la mettiamo? Come ci può aiutare
Gauss?
M Questo stesso problema se lo è posto circa un secolo fa un tuo collega (nel senso che, come te in
passato, anche lui lavorava in una fabbrica di birra) di nome W.S. Gosset, più noto sotto lo
pseudonimo di “Student”.
Proviamo a definire meglio il rapporto che lega i piccoli campioni e le popolazioni:
supponiamo di conoscere il valore medio µ di una popolazione, se operiamo con un certo numero
m di piccoli campioni (costituito ognuno da n elementi o unità statistiche), rappresentativi della
popolazione, ci possiamo aspettare che la media di ogni campione abbia una certa distribuzione
centrata intorno a µ e ci possiamo anche aspettare che la dispersione di tale distribuzione intorno
alla media della popolazione dipenda dalla dimensione del campione (più grande il campione,
migliore la stima di µ). In termini matematici si può dimostrare che lo scarto tipo delle medie che
chiameremo s è uguale a
s=
"
n
con n uguale al numero di elementi del campione. Questo riflette il fatto che la media tende ad
essere meno variabile, ed in effetti se ci riferiamo alle medie invece che alle osservazioni singole
l’espressione
Z=
x!" µ
#
diventa
Z=
x "µ
.
#/ n
Le formule precedenti presuppongono che σ sia nota, cosa che per quanto riguarda i metodi di
prova, non sempre è vera, come giustamente hai puntualizzato. Per ovviare a tale problema,
!
Student propose di sostituire alla Z
t=
x "µ
s/ n
!
della relazione precedente,
Z=
x "µ
, il parametro
#/ n
dove x e s rappresentano rispettivamente la media e lo scarto tipo del campione in
esame, che sostituiti nella funzione di Gauss, restituiscono
! le stesse informazioni, ma su un
campione limitato della popolazione.
La distribuzione di Student è ancora simmetrica rispetto a µ ed è funzione dei gradi di libertà.
!
E si può affermare che la distribuzione di
Student ha fianchi più larghi, code più alte e
varianza maggiore: in altri termini, facendo un
paragone con le “curve femminili” è, come si
dice a Roma, un po’ più tracagnotta della
distribuzione normale.
ν=1
2
4
∞
All’aumentare dei gradi di libertà
la distribuzione di Student approssima
la gaussiana.
L Fermati, non ti lascio proseguire se non mi dici cosa sono i gradi di libertà.
Pag. 15 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
M In generale si può dire che i gradi di libertà sono dati dal numero delle variabili meno il numero
di vincoli.
L Mi sembra di parlare con un secondino, gradi di libertà, vincoli; tra poco mi parlerai di sbarre e
sole a scacchi, fammi un esempio.
M Ti faccio un esempio tratto dal Perry’s12: quattro numeri in una tabella che deve avere la somma
delle righe e delle colonne uguali a zero ha solo 1 grado di libertà (4 numeri e tre vincoli, in
quanto il quarto è ridondante). Nelle situazioni più semplici (quasi sempre nel nostro caso) i gradi
di libertà, generalmente indicati con ν, sono dati dal numero delle osservazioni meno uno.
L Perfetto! Ora sì.
M
Tornando al discorso relativo ai
piccoli campioni, invece di calcolare
la media di ogni gruppo, possiamo
calcolare lo scarto tipo di ognuno di
essi: ci dobbiamo aspettare che tali
stime di σ abbiano una qualche
distribuzione caratteristica.
In particolare viene definita una
distribuzione di (s2/σ 2)*ν con ν =
gradi di libertà = n-1. Tale
distribuzione è chiamata distribuzione
chi-quadro (χ2) la cui forma dipende
dalla numerosità del campione. Nel
grafico sono mostrate le varie
distribuzioni al variare di v.
ν =1
2
3
4
L E a che serve?
M Serve a verificare la bontà dell’accordo tra dati sperimentali e dati teorici
Il χ2 può servire per valutare se la varianza σ2 di una popolazione, dalla quale sia stato estratto un
campione con varianza s2, sia uguale o diversa da un valore predeterminato σ02 di una
popolazione.
L Ma quante distribuzioni ci sono?
M Calmati, ancora una e abbiamo finito!
Sempre proseguendo con lo stesso tema dei campioni con distribuzione normale, come
rappresentativi di una popolazione, dobbiamo fare un’ultima considerazione. Invece di
considerare la distribuzione delle singole varianze s2 dei campioni, possiamo considerare un
altro tipo di distribuzione, che ancora coinvolge la stima della varianza della popolazione σ 2.
Riferendoci ai nostri m campioni, possiamo calcolare di ognuno la s2i e quindi calcolare il
rapporto tra quelli consecutivi (s21/ s22, s23/ s24, s25/ s26… ecc.
12
Perry’s Chemical Engineers’ Handbook McGraw Hill 1997
Pag. 16 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Ancora ci dobbiamo aspettare che questi rapporti abbiano una certa distribuzione di frequenza.
Anche questa distribuzione dipende dalle dimensioni del campione. È da notare che i campioni
possono non essere della stessa numerosità, in questo caso la forma della distribuzione dipende
dalla numerosità dei campioni n1, n2, ... Tale distribuzione è definita come distribuzione di Fischer
F(ν1, ν2).
(n1, n2) = (20, 2)
(20, 4)
(20, 8)
(20, 16)
Distribuzione F
Più precisamente, se due variabili sono indipendenti e distribuite come χ2, allora il rapporto fra le
due variabili, ciascuna divisa per il proprio numero di gradi di libertà, è distribuito secondo una
distribuzione simile a quella in figura. Questa distribuzione è utile per determinare se due serie di
dati, provenienti da una distribuzione normale, hanno la stessa dispersione (stessa varianza).
Ovviamente anche per questa distribuzione esistono sia delle tabelle che delle funzioni di excel.
M In sintesi, se non l’hai ancora capito, testone, queste distribuzioni servono a determinare quale
differenza ci si può aspettare tra varie quantità dovuta ad effetti casuali, o in altri termini per
determinare se gruppi di dati differiscono da altri gruppi o da valori/valore ipotizzati. Ad esempio,
se fissata una certa probabilità, la varianza del campione in esame può essere assunta come una
stima dello varianza della popolazione (o se vuoi leggi scarti tipo invece di varianze).
Ti riporto il riepilogo delle distribuzioni di cui abbiamo parlato
Distribuzione Simbolo
z
Parametri
Singole osservazioni di una
popolazione*
Z=
x "µ
#
z
Medie
Z=
x "µ
#/ n
Student
t
Medie con σ incognita*
t=
x "µ
s/ n
Chi -quadro
χ2
Fisher
F
Gauss
!
Variabile
!
Varianze*
χ2 = ν∗s2 /σ 2
Rapporto delle varianze di due F(ν1, ν2) = s21 /s22
campioni indipendenti*
* provenienti da una distribuzione normale
Riferimento12
!
M Ti ricordo che alla base di tutti questi discorsi ci sono due ipotesi: la prima è che stiamo operando
in condizioni di ripetibilità stretta (in altri termini le variazioni sono dovute unicamente al caso),
la seconda è che la distribuzione dei dati è normale.
Pag. 17 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
L Ferma la musica! Adesso si va a
prendere il caffé, anzi, mentre
andiamo ti voglio mostrare cosa ho
trovato su una bancarella a
Flohmarkt l’ultima volta che sono
andato a Berlino.
M Ebbene? Cosa ha di strano questa
banconota da meritare tanto
interesse? A me sembra una
normalissima
banconota
non
dissimile da tutte le altre, di
qualunque paese del mondo.
L E qui casca l’asino, perché se guardi
l’altra faccia (forse) puoi capire il
perché del mio interessamento!
M Grazie per il complimento e fammi guardare meglio la banconota.
…. Ah! Ora capisco è una banconota dedicata a Gauss.
Unica formula matematica
riportata su una
banconota:
i 10 marchi tedeschi emessi
nel 1991.
Luis e i dubbi sulla distribuzione dei dati sperimentali
L Ora che abbiamo preso il caffé e ci siamo ristorati, mi viene in mente una cosa che non mi hai
ancora detto. Come faccio a sapere se i dati di un campione sono distribuiti secondo una
gaussiana?
M Mi aspettavo questa domanda e la risposta è semplice: il metodo migliore per piccoli e medi
campioni è ritenuto il test di Shapiro-Wilk, che potrai trovare ben descritto nel Manuale 179/1
dell’Unichim7 . Io ti parlerò invece del “normal probability plot”, un metodo grafico e “per puro
sadismo” del test di Kolmogorov-Smirnov, applicabili praticamente a tutte le situazioni.
La logica del probability plot è molto semplice: si tratta di porre in un sistema di assi cartesiani i
quantili sperimentali normalizzati in relazione ai quantili teorici di una distribuzione gaussiana e
disegnare la curva di correlazione. Se i dati di partenza sono distribuiti normalmente, la curva
Pag. 18 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
interpolatrice si avvicinerà ad una retta. Se i dati non si posizionano approssimativamente su una
retta dobbiamo dedurre che la distribuzione non è normale.
Esempio: campioni da una distribuzione normale
normal probability plot
13
Per quanto riguarda il test di Kolmogorov-Smirnov si verifica se la differenza massima tra le
frequenze cumulate attese e sperimentali è inferiore ad un valore critico, per poter concludere
che la distribuzione è normale.
L Chiaro e semplice, ottimo, mi piace, anche se spero che mi dirai cosa sono i quantili e le
frequenze cumulate!
Ma se i dati, normali o no, presentano dei dati anomali, come me ne accorgo, come mi devo
comportare?
M Intanto chiariamo che un dato anomalo, o outlier, è un dato che giace fuori dal modello di
distribuzione, un punto che non è ben interpolato dal modello stimato, ed è indice di qualche sorta
di problema quale un risultato estremo, un errore di misura, un errore di trascrizione, ecc..
Il Normal Probability plot ci può ancora aiutare nell’individuare i dati anomali, in quanto se la
distribuzione non è ben interpolata con una retta, ma si notano alcuni punti non allineati, molto
probabilmente quei punti rappresentano dei dati anomali; sempre da tale diagramma è possibile
capire se vi sono dati anomali anche se tutti i dati sono ben allineati: è questo il caso di dati molto
lontani dalla maggior parte di dati accentrati in prossimità della media.
Per quanto riguarda il cosa fare dei dati anomali, in genere si tende ad eliminarli o a correggerli in
relazione alle cause che li hanno determinati, ma non sono rari i casi in cui si accettano tal quali:
in ogni caso ogni scelta deve essere ben argomentata e giustificata.
Vi sono sistemi specifici per l’individuazione dei dati anomali: uno si basa sull’uso di particolari
quantili, i ”quartili”, con tale metodo sono individuati come outliers i dati minori del primo
quartile meno 1,5 volte il range interquartile o i dati maggiori del terzo quartile più 1,5 volte il
range interquartile. Comunque il test più semplice ed al tempo stesso tra i più efficaci per
l’individuazione dei dati anomali (o outlier) è il test di Huber.
Come al solito su molti testi puoi trovare altri criteri sia della verifica di normalità (es. test di
Shapiro Wilk) che della presenza di dati anomali (es. test di Dixon, test di Grubbs etc.)7
M Per tua comodità e per facilitarti il lavoro ti mostrerò dopo come verificare la normalità dei dati e
come individuare i dati anomali con i criteri che ti ho appena descritto, utilizzando diversi
semplici comandi di Excel.
13
Guido Masarotto - Facoltà di scienze statistiche Università di Padova lezioni di inferenza statistica a.a. 2005-2006
Pag. 19 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Luis e la distribuzione normale
L Ti ringrazio in anticipo per quanto mi metterai a disposizione, ma ora basta con le chiacchiere,
anche se molto interessanti, e fammi capire con qualche esempio pratico.
M Ti propongo di utilizzare per gli esempi dei dati reali, così contemporaneamente potremo
raggiungere il primo dei nostri obiettivi, che è il calcolo dello scarto tipo che ti interessa.
L OK, Partiamo dai dati.
M In primo luogo i dati da analizzare devono essere ottenuti in condizione di ripetibilità stretta.
Quindi facciamo così: prendiamo un latte da analizzare ed invece di una sola determinazione
chiediamo a Valentina di effettuare dieci repliche una dopo l’altra, senza modificare nessuna delle
condizioni operative.
V14E ti pareva, loro fanno gli scienziati e Valentina produce i dati, o meglio Valentina li ha già
prodotti.
Mentre voi elaboravate le vostre teorie io ho effettuato 10 analisi in condizione di ripetibilità
stretta su un latte con circa 150.000 cellule/ml: eccoli, tutti per voi, espressi in migliaia di
cellule/ml:
143 131 120 135 149 128 133 131 135 136
L Sei un tesoro, adesso questi dati me li lavoro io. Innanzi tutto voglio verificare se sono distribuiti
normalmente, usando il normal probability plot.
A proposito, ma se non mi dici cosa sono i quantili non sono in grado di disegnarlo, e quindi datti
una mossa!
M Ti riporto la definizione più semplice che ho letto:
“L'idea alla base di un quantile-p (dove p è compreso tra 0 e 1) è di cercare un numero che sia
più grande del 100 x p% dei dati osservati e più piccolo del restante 100 x (1 - p)%. Ad esempio,
un quantile 0,1 deve essere un valore che lascia a sinistra il 10% delle osservazioni ed a destra
il restante 90%.
I quantili con p uguale a 0,25 - 0,50 e 0,75 vengono chiamati rispettivamente il primo, il secondo
e il terzo quartile. Dividono la popolazione in quattro parti uguali. Si osservi che il 2° quartile
coincide con la mediana. I quantili con p = 0,01;… ; 0,99 si chiamano percentili.”15
Capirai meglio i quantili mentre costruiamo il normal probability plot:
Dato un insieme di n valori sperimentali,
1. si ordinano i dati in senso crescente
2. si numerano i dati ordinati da 1 a n
3. si calcola lo scarto tipo e la media dei valori sperimentali,
4. si calcola per ogni valore sperimentale xi il corrispondente valore standardizzato della
distribuzione normale Zi
x "µ
Zi = i
#
14
15
V = Valentina
Masarotto Facoltà di scienze statistiche Università di Padova lezioni statistica descrittiva a.a 2001-2002
!
Pag. 20 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
5.
si calcola il rango di ogni dato ordinato in senso crescente (rango: brutta traduzione
italiana dell'inglese rank, che significa posizione in graduatoria/classifica/ordine
crescente)
6. si calcolano le frequenze cumulate relative per ogni rango da 1 a n (la Frequenza
Cumulata Relativa è uguale a (Rango(i) - 0,5)/n )
7. si calcolano i valori della Z teorica relativa (quantili) ad ognuna delle frequenze cumulate
relative,
8. si riportano in un diagramma cartesiano i valori delle Zi (quantili) teoriche sull’asse delle x
9. si riportano i corrispondenti valori delle Zi sperimentali sull’asse delle y
10. si costruisce la retta che interpola i dati
11. si valuta la bontà della correlazione lineare.
Ovviamente tutto ciò può essere fatto con excel in particolare per ricavare i quantili e per
costruire la retta interpolatrice in quanto excel restituisce oltre all’equazione della retta anche il
coefficiente di correlazione r2 che è l’indice della bontà della correlazione (più r2 si avvicina a 1,
migliore è la correlazione lineare).
L Scusa: perché hai usato per il calcolo della frequenza cumulata (Rango(i) - 0,5)/n invece di
Rango(i) /n?
M Perché se avessimo usato Rango(i) /n, la frequenza cumulata massima sarebbe stata uguale ad 1 e
quindi la relativa Z sarebbe stata uguale a ∞ (riferimento)13.
L Perfetto guarda cosa è venuto fuori dalle tue elucubrazioni, considera che ho seguito passo-passo
ogni tua parola.
B
1
dati
ordinati
120
C
quantili
sperimentali
z (kp)
D
rango
E
frequenze
cumulate
relative
F
quantili
teorici
-1,78
1
0,05
-1,64
2
128
-0,77
2
0,15
-1,04
3
131
-0,39
3
0,25
-0,67
4
131
-0,39
3
0,25
-0,67
5
133
-0,14
5
0,45
-0,13
6
135
0,11
6
0,55
0,13
7
135
0,11
6
0,55
0,13
8
136
0,24
8
0,75
0,67
9
143
1,13
9
0,85
1,04
0,95
1,64
149
10
Media
134,1
Scarto tipo
7,91
1,88
10
quantili sperimentali
A
y = 0,9768x + 0,0536
quantili teorici
2
R = 0,948
FORMULE EXCEL UTILIZZATE
Z=
Freq. Cum. Rel =
Quant. Teor =
Rango =
Scarto tipo =
((Bi-media(Bi))/(dev.st(Bi))
[Di-0,5]/(totale dati)
INV.NORM.ST(Ei)
Rango ( )
dev.st( )
In prima istanza i dati mi sembrano abbastanza ben interpolati da una retta, per cui deduco, per
ora, che la distribuzione è normale. Tu che pensi?
M Ho verificato l’ipotesi di normalità dei dati con un software ad hoc, il software dell’UNICHIM 16
che utilizza il test di Shapiro-Wilk, ebbene, il test conferma la distribuzione normale. Ti ricordo
comunque che il test di Shapiro Wilk può essere utilizzato per un campione fino a 40 dati.
16
Software applicativo per l’elaborazione dei risultati analitici Milano 2006
Pag. 21 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
La stessa cosa ci dovremmo aspettare dal test di Kolmogorov Smirnov (che può essere utilizzato
per campioni che hanno anche più di 40 dati).
Per quanto riguarda tale test si opera come di seguito: si calcolano le frequenze cumulate
sperimentali dei dati da analizzare (ipotizzando una distribuzione normale), si determinano quindi
le frequenze cumulate relative teoriche per la distribuzione in questione e quindi se ne fa la
differenza (punto per punto); se il valore della differenza massima è inferiore ad un valore critico
tabulato, si conclude che la distribuzione è normale.
Eccoti i risultati serviti caldi caldi.
A
1
120
D
E
frequenza
frequenza
cumulata
cumulata
IzI
rango
sperimentale
teorica
(FCR)
(FCT)
1
0,1
1,78
0,037
2
128
0,77
0,220
2
0,2
0,020
3
131
0,39
0,348
3
0,3
0,048
4
131
0,39
0,348
3
0,3
0,048
5
133
0,14
0,445
5
0,5
0,055
6
135
0,11
0,545
6
0,6
0,055
7
135
0,11
0,545
6
0,6
0,055
8
136
0,24
0,595
8
0,8
0,205
9
143
1,13
0,870
9
0,9
0,030
10
149
1,88
0,970
FORMULE EXCEL UTILIZZATE
10
1
0,030
indice
B
dati
ordinati
Z=
FCR=
FCT=
Δ=
Scarto tipo =
C
F
IΔI
0,063
[(Bi-media(Bi))/dev.st(Bi)
Distrib.Norm(Bi;media;dev.st;VERO)
rango/(n. dati)
ass(FCT-FCR)
Dev.st.
Media
134,10
Varianza
62,54
Scarto tipo
7,91
Differenza Critica 95%
0,409
Massima differenza Max Δ
0,205
Essendo la differenza massima = 0,2 < della differenza
critica dc = 0,409 (ricavata dalla tabella) si deduce che la
distribuzione è normale
frequenza teorica
frequenza sperimentale
1,2
1
0,8
0,6
0,4
0,2
0
0
2
4
6
8
10
12
L Ho la sensazione che tu manipoli i dati a tuo piacimento secondo le tue necessità: mi dai l’idea
degli analisti politici, che riescono sempre ad ottenere le proiezioni di voto utili ai loro
“mandanti”. Perché questa volta nel calcolo delle frequenze cumulate teoriche non hai sottratto il
valore 0,5 come hai fatto in precedenza?
M Mi lusinghi, paragonandomi con gli esperti statistici dei nostri litigiosi esponenti politici, ma non
ho fatto alcuna manipolazione. Non ho sottratto lo 0,5 in quanto in questo caso non era
necessario.
L Da dove hai tirato fuori il valore critico?
M non è stato semplice, ma a seguito di una lunga ricerca su Internet, mi sono imbattuto in un sito
che riportava la tabella seguente.
Pag. 22 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Tabella valori critici di Kolmogorov Smirnov p=95%
n
dc
n
dc
n
dc
n
dc
n
dc
1
2
3
4
0,975
0,842
0,708
0,624
21
22
23
24
0,287
0,281
0,275
0,269
41
42
43
44
0,208
0,205
0,203
0,201
61
62
63
64
0,171
0,170
0,168
0,167
81
82
83
84
0,149
0,148
0,147
0,146
5
6
7
8
0,563
0,519
0,483
0,454
25
26
27
28
0,264
0,259
0,254
0,250
45
46
47
48
0,198
0,196
0,194
0,192
65
66
67
68
0,166
0,164
0,163
0,162
85
86
87
88
0,145
0,144
0,144
0,143
9
10
11
12
13
0,430
0,409
0,391
0,375
0,361
29
30
31
32
33
0,246
0,242
0,238
0,234
0,231
49
50
51
52
53
0,190
0,188
0,187
0,185
0,183
69
70
71
72
73
0,161
0,160
0,159
0,158
0,156
89
90
91
92
93
0,142
0,141
0,140
0,140
0,139
14
15
16
17
18
0,349
0,338
0,327
0,318
0,309
34
35
36
37
38
0,227
0,224
0,221
0,218
0,215
54
55
56
57
58
0,181
0,180
0,178
0,177
0,175
74
75
76
77
78
0,155
0,154
0,153
0,152
0,151
94
95
96
97
98
0,138
0,137
0,137
0,136
0,135
19 0,301 39 0,213 59 0,174 79 0,151
99
0,135
20 0,294 40 0,210 60 0,172 80 0,150
100 0,134
Fonte
17
0,450
0,400
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
0
10
Serie1
20
30
40
Potenza (Serie1)
50
60
70
80
90
y = 1,2649x-0,487
R2 = 1
100 110
Per i dati da 10 a 100 ho anche calcolato
per te la relazione che lega il numero di
dati al valore critico; l'equazione è
dn= 1,2649*n(-0,487)
che per n > 100 diventa:
dn =1,358*n(-0,5)
Luis e i dati anomali
L Va bene, mi hai convinto. Adesso dobbiamo vedere se ci sono dei dati anomali.
Da una prima occhiata al normal probability plot credo che potrebbero essere anomali il primo e
l’ultimo dato in quanto piuttosto lontani dagli altri dati, ma dimmi come è possibile in modo più
rigoroso individuare gli outliers?
M Per individuare eventuali dati anomali possiamo utilizzare il test di Huber, che passo subito a
descriverti:
Si ordinano i dati
dati ordinati
120, 128, 131, 131, 133, 135,135, 136, 143, 149
Si calcola la mediana dei dati
mediana
= 134
Si calcola la differenza tra ogni dato e la mediana (Di)
Di
= 14, 6, 3, 3, 1, 1, 1, 2, 9, 15
Si calcola la mediana delle differenze (Dm)
Dm
= 3
Si calcola il prodotto Dm x 4,5
Dm x 4,5
= 3x4,5 = 13,5
I valori per cui Di > Dm x 4,5 sono anomali
Valori anomali 120, 149
Il procedimento può essere velocizzato ed automatizzato utilizzando semplici formule excel,
come riportato di seguito.
I dati ordinati sono ottenuti selezionando la colonna dei dati e quindi cliccando su “DATI” e
successivamente scegliendo l’opzione “ORDINA”, le mediane sono calcolate con la formula
MEDIANA(….) i residui sono calcolati con la formula = Ass (B(i)-D(i)), i dati anomali sono
evidenziati con la formula = SE(Ci-Di>0;Ci;"")
17
http://everything2.net/index.pl?node_id=1540620
Pag. 23 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
1
2
3
4
5
6
7
8
9
10
11
12
13
A
dati
143
131
120
135
149
128
133
131
135
136
B
dati ordinati
120
128
131
131
133
135
135
136
143
149
134
mediana
Di
C
residui
14
6
3
3
1
1
1
2
9
15
3
Dm
D
E
Test Dm x 4,5 dati anomali
13,5
120
13,5
13,5
13,5
13,5
13,5
13,5
13,5
13,5
13,5
149
Inoltre ho fatto una verifica con il software16 che ho utilizzato prima e ho avuto la conferma di
questi dati anomali.
L Adesso, mi è tutto chiaro e devo riconoscere che finora hai mantenuto la parola, in quanto non hai
mai fatto ricorso alle tabelle ma solo alle funzioni di excel, e quando sei stato costretto ad
utilizzare la tabella di Kolmogorov-Smirnov, sei riuscito a trasformarla in una funzione.
Luis e lo scarto tipo
Se ho ben capito quindi, a questo punto possiamo calcolare lo scarto tipo di ripetibilità con i dati
di partenza!
M E no, i dati di partenza non vanno bene, in quanto, avendo individuato alcuni dati anomali,
dobbiamo decidere se tenerli o se eliminarli. Io, considerato che i dati sono molto vicini al limite
di accettabilità li terrei, anzi, ti propongo di calcolare lo scarto tipo, sia con tutti i dati senza
quindi eliminare gli outliers, e quindi di calcolare lo scarto tipo eliminandoli.
Il calcolo dello scarto tipo utilizzando tutti i dati è banale, basta utilizzare la formula di excel
=dev.st(143;131;120;135;149;128;133;131;135;136) che dà come risultato sr=7,91
L Allora nell’altro caso basta utilizzare la stessa formula, dopo aver eliminato gli outliers!
M In genere si, ma è sempre opportuno verificare, se in assenza di tali dati la distribuzione è ancora
normale. Nel nostro caso lo è, come si può facilmente arguire dalla tabella precedente, dove,
essendo outliers i due dati estremi, i valori di Di e Dm non cambiano.
Eliminando i due dati, si ottiene una sr=4,50. Considerato che se i dati eliminati fossero stati
appena diversi es. 121 al posto di 120 e 147 al posto di 149, gli stessi dati non sarebbero risultati
anomali. Alla luce di tali considerazioni, io accetterei i dati anomali nel calcolo dello scarto tipo,
anche in virtù del fatto che i dati considerati sono delle misure affette da una incertezza ancorché
incognita.
Una conferma della accettabilità dei dati anomali è data dal fatto che la funzione della
distribuzione cumulata assume per il dato 120 il valore di 0,037 e per il dato 149 il valore 0,97; in
altri termini i due dati sono rispettivamente in zone della curva di Gauss > dell’ 1% e < 99%,
ambiti nei quali gli outliers possono essere accettati.
Pag. 24 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Luis e la verifica della media
L A questo punto mi chiedo: ma la media calcolata attraverso il nostro campione di 10 prove
ripetute in condizione di ripetibilità stretta, è una stima credibile della media di una popolazione
con le stesse caratteristiche?
M La risposta la dobbiamo cercare o dandoci un riferimento opportuno, che al momento non può che
essere la specifica tecnica della FOSS, oppure ricorrendo a qualche considerazione statistica.
M Avendo appurato che i dati in nostro possesso hanno distribuzione normale, assumendo come σ lo
scarto tipo ricavato per interpolazione dai dati della specifica tecnica della FOSS, chiamiamo la
nostra media calcolata x , il problema che ci poniamo è con quanta precisione x può stimare µ, o
in altri termini quale è il range dei valori che include, con una specificata probabilità, il valore
vero µ. Dalla relazione + Z = x " µ si ottiene con facili trasformazioni
!
µ = x + Zσ
ovvero
µ= x±Z
"
,
n
−
µ = x + Z !x
ponendo
"x =
"
n
Quindi, scegliendo un determinato livello di probabilità o di confidenza che determina il valore di
Z, si ottiene :
!
!
#
#
x"Z
<µ< x+Z
n
n
Nel nostro caso avendo ottenuto da 10 misure il valore medio x = 134,1 e lo scarto tipo di
ripetibilità s = 7,91 , utilizzando per σ il valore 8,57 (valore ricavato per interpolazione dai dati
della FOSS), quale è l’intervallo nel quale ci dobbiamo aspettare di trovare la media vera µ della
popolazione con una!probabilità del 95%? In altri termini, essendo la distribuzione simmetrica
rispetto a µ, qual è l’intervallo di confidenza tale per cui il solo il 2,5% dei valori è minore del
limite inferiore di tale intervallo e il 2,5% dei valori è maggiore del limite massimo di tale
intervallo? La soluzione del problema è banale, in quanto dalla formula di excel =
INV.NORM.ST(0,975) si ottiene 1,96 (analogamente INV.NORM.ST(0,025), dà come risultato 1,96) che sostituiti nella precedente dà
134,1 "
1,96 ! 8,57
10
< µ < 134,1 +
1,96 ! 8,57
10
128,8 < µ < 139,4
In realtà è anche possibile calcolare direttamente l’intervallo di confidenza; in questo caso la
sintassi è: =CONFIDENZA(alfa;dev_standard;dimens), con alfa = nel nostro caso = 0,05 si
ottiene il valore di 5,31, che aggiunto e sottratto a 134,1, restituisce gli stessi risultati calcolati
precedentemente (128,8 e 139,4).
Pag. 25 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
L Il tuo esempio non mi convince del tutto, in quanto nel suo sviluppo non hai mai menzionato il
birraio (Student), pur operando su un campione di solo dieci dati e non su una popolazione
infinita.
M Non l’ho chiamato in causa in quanto non serviva, dato che abbiamo assunto come scarto tipo il
valore 8,57 derivandolo dai dati della FOSS, e assumendolo come proveniente da una
popolazione infinita, cosa che ci ha consentito di utilizzare la funzione di Gauss e le formule ad
essa relative.
Se supponiamo, invece sempre nello stesso esempio, di non conoscere σ in quanto non
utilizziamo i dati della FOSS, allora dobbiamo far ricorso allo scarto tipo di ripetibilità s calcolato
dal laboratorio dai risultati delle 10 ripetizioni e alla distribuzione di Student. In questo caso il
limite di confidenza sarà espresso da
x"t
s
s
<µ< x+t
n
n
La soluzione del problema è praticamente uguale alla precedente, con l’unica differenza di dover
calcolare la t e di utilizzare la formula di excel =INV.T(0,05; 9) = 2,26 (la formula si riferisce ad
una distribuzione di Student a due code) che sostituito nella precedente dà:
2,26 ! 7,91
2,26 ! 7,91
!
134,1 "
< µ < 134,1 +
10
10
128,4 < µ < 139,8
Da cui, come vedi, risulta un intervallo leggermente maggiore.
In excel 2003 non è disponibile la formula per il calcolo diretto dell’intervallo di confidenza.
Luis e la verifica dello scarto tipo
L Scusa, ma se invece voglio sapere se lo scarto tipo da me calcolato è una stima credibile dello
scarto tipo vero (nel caso questo sia riportato ad esempio in un metodo di prova), cosa faccio?
M È questo il caso in cui ricorriamo alla distribuzione del χ 2.
Supponiamo nel nostro caso di accettare come vero σ il valore di 8,57 della Foss.
Dalla relazione χ2(p,ν) = ν∗s2/σ2 = (n-1)* s2/σ2, si ricava l’intervallo in cui deve essere compreso
lo scarto tipo s
&
2
% / 2;$ = n !1
(n ! 1) # s 2
"
" & (21!% / 2 );$ =n!1
2
'
ovvero
% $2 / 2;# = n !1 s 2 % (21!$ / 2 );# = n !1
" 2 "
n !1
n !1
&
In questa relazione sono noti tutti i termini tranne χ 2, che possiamo calcolare da tabelle ad hoc, o
utilizzando le formule di excel. Noi utilizziamo, ovviamente, excel.
Scegliendo un livello di probabilità p = 95% e ricorrendo alla solita convenzione di indicare p =
1-α, p1 =α/2 e
p2 =1-α/2, si calcolano i due valori di χ 2, per p1 e p2 con le formule
INV.CHI(0,025;9) e INV.CHI(0,975;9), che danno rispettivamente per il χ 2 i valori 2,70 e 19,02.
Con semplici trasformazioni si ottiene che deve risultare s/σ > [χ 2(α/2; 9)/ν] 1/2 e s/σ < [χ 2(1-α/2;
1/2
9)/ν] .
E sostituendo i valori numerici si ha che:
Pag. 26 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
2
s2
(n ( 1)' 2 = 9 ' &$ 7,91 #! = 7,67
)
% 8,57 "
2
Pertanto, essendo tale valore < 19,02 ( $12!# / 2;" =n!1 ) e > 2,70 ( $ # / 2;" =n!1 ), il valore dello scarto tipo
calcolato è compatibile con quello della FOSS.
L Vedo che hai mantenuto la tua parola, adesso però andiamo a prendere un bel caffé.
Luis e il calcolo dello scarto tipo variabile con la concentrazione
M Buono quel caffé!
Prima di andare avanti, facciamo il punto della situazione. Ti faccio notare che finora abbiamo
determinato lo scarto tipo di ripetibilità solo per un tenore di cellule uguale a 134.000 cellule/ml e
che la Foss dà tre valori diversi a 100.000, a 300.000 e a 500.000 cellule/ml. In altri termini lo
scarto tipo di ripetibilità è funzione della concentrazione di cellule.
L Va bene, ma questo significa che dovremmo calcolare lo scarto tipo a tutti i livelli e quindi
almeno da 100.000 cell/ml a 1.500.000 cell/ml.
M È esattamente quello che dobbiamo fare per poter determinare una relazione che leghi lo scarto
tipo del laboratorio alla concentrazione di cellule somatiche.
Chiediamo a Valentina di effettuare 10 determinazioni su campioni di latte che coprano il campo
da 100.000 a 1.500.000 cellule/ml.
L Glielo chiedo subito. Ma noi ci rivediamo tra una settimana, perché devo anche lavorare, tu
intanto leggiti questo sonetto e medita sulla statistica:
Pag. 27 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
LA STATISTICA
Sai ched'è la statistica? È na' cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.
Ma pè me la statistica curiosa
è dove c'entra la percentuale,
pè via che, lì, la media è sempre eguale
puro co' la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno:
e, se nun entra nelle spese tue,
t'entra ne la statistica lo stesso
perch'è c'è un antro che ne magna due
Trilussa
Pag. 28 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
M Ciao Luis, Valentina è riuscita a fare le analisi come avevamo concordato?
L Sì ecco i dati già in ordine crescente
Valori
serie
1
180
186
187
187
188
190
194
197
197
200
2
297
300
306
309
312
318
320
323
323
324
3
720
733
740
745
750
759
764
765
775
780
4
127
128
131
132
133
135
135
136
140
145
5
650
655
655
659
665
670
683
684
688
700
6
435
445
449
449
456
460
460
462
464
480
7
493
530
551
552
552
554
555
561
567
571
8
198
200
201
214
216
216
217
221
221
221
9
530
541
545
548
556
559
561
562
568
572
10
1022
1025
1031
1034
1047
1051
1055
1056
1067
1070
11
1413
1421
1423
1424
1428
1432
1441
1454
1479
1487
M Molto bene.
Ognuna di queste 11 serie dovrebbe essere sottoposta allo stesso procedimento che abbiamo usato
prima e cioè:
verificare che siano normali,
individuare i valori anomali
• decidere cosa fare dei valori anomali
• calcolare la media di ogni serie
• calcolare lo scarto tipo di ogni serie
•
•
e quindi calcolare la relazione che lega gli scarti tipo ai vari livelli.
Supponiamo per un istante di avere fatto tutto questo e chiamiamo sr il generico scarto tipo e x r
le medie corrispondenti.
Possono verificarsi due casi:
a) sr non varia sensibilmente al variare di x r
b) sr varia al variare di x r
Nel caso a) è sufficiente calcolare la media quadratica pesata s r degli scarti tipo nel seguente
modo
(n1 ! 1) sr21 + (n2 ! 1) sr22 + (n3 ! 1) sr23 + .......(nn ! 1) srn2
sr =
(n1 ! 1) + (n2 ! 1) + ........(nn ! 1)
Nel caso b) si ricerca la relazione funzionale che lega sr a x r
Il criterio che determina la validità del caso a) o del caso b) si basa sul seguente test di Fisher
s r2(max)
s r2(min)
$ F p =1#" ;! max,! min
Pag. 29 di 52
Michele Rapillo
dove
Gli scarti... “tipi”... facili
s r2(max) e s r2(min) sono rispettivamente la varianza massima e minima ed Fp;νmax,νmin è la
variabile di Fisher, il cui valore è riportato in tabelle (ma vedremo anche in excel) in funzione di
α e di νmax = νmin = ni-1 essendo n il numero delle prove valide eseguite ad ogni livello. Il test
può ancora essere utilizzato se il numero ni non è lo stesso per tutte le prove ma varia rispetto al
valore medio di poco es. + 1.
Un altro test utilizzabile (meno restrittivo, ma più complesso) è il test di Bartlett7
A questo punto, se siamo nel primo caso, il problema non si pone, se siamo nel secondo caso,
excel ci consente di calcolare la relazione che lega lo scarto tipo alla media.
L Bene, quindi applicando la tua teoria adesso io determino, utilizzando il normal probability plot,
se i dati di Valentina sono tutti distribuiti normalmente e se vi sono dati anomali, mentre tu fai
quattro chiacchiere con Fabrizio che prima ti ha cercato.
M Ciao Luis, come siamo messi?
L Ho riportato tutti i dati sul normal probability plot, ho tracciato con excel le 11 rette di
correlazione ed ho determinato, sempre con excel il coefficiente di correlazione r2 di ogni retta. I
risultati sono stati i seguenti:
serie
1
2
3
4
5
6
7
8
9
10 11
2
r
0,94 0,89 0,96 0,95 0,93 0,96 0,73 0,77 0,95 0,95 0,89
Ho quindi deciso di ritenere non accettabili i dati con un coefficiente di correlazione minore di
0,89 e quindi ho scartato le serie 7 e 8.
Per quanto riguarda infine i dati anomali, da una prima occhiata al probability plot, l’unica serie
che mi dato l’impressione di avere dati anomali è stata la 11, ed a questa ho applicato il test di
Huber, che ha evidenziato come dati anomali il 1479 e il 1487; prima di eliminarli però ho
calcolato la media e lo scarto tipo di ogni serie, e poiché l’eliminazione di entrambi i dati mi
avrebbe evidenziato anche il 1454 come dato anomalo, e mi avrebbe restituito uno scarto tipo di
8,86, cosa ovviamente improbabile se paragonata alle altre s, ho deciso di eliminare solo 1487,
cosa che mi ha portato alla seguente situazione.
1
180
186
187
187
188
190
194
197
197
200
media 190,6
sr
6,22
Valori
serie
2
297
300
306
309
312
318
320
323
323
324
313,2
9,92
3
720
733
740
745
750
759
764
765
775
780
753,1
18,99
4
5
6
127
650
435
128
655
445
131
655
449
132
659
449
133
665
456
135
670
460
135
683
460
136
684
462
140
688
464
145
700
480
134,2 670,9 456
5,39 16,926 12,33
9
530
541
545
548
556
559
561
562
568
572
554,2
13,01
10
1022
1025
1031
1034
1047
1051
1055
1056
1067
1070
1045,8
17,023
11
1413
1421
1423
1424
1428
1432
1441
1454
1479
1440,2
20,42
Pag. 30 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
A questo punto dobbiamo applicare il test di Fisher, per poter affermare con sicurezza quello che
a prima vista sembra evidente, cioè se lo scarto tipo varia sensibilmente al variare della media.
Come si fa?
2
M Dobbiamo ricorrere alla relazione
Nel nostro caso essendo s
2
r (max)
s r (max)
s
2
r (min)
2
$ Fp=1#" ;! max,! min
= (20,42) = 417 e s
2
r (min)
2
2
= (5,39) = 29,1 si ha che
s r (max)
2
s r (min)
= 14,35
per il calcolo di F ricorriamo ancora una volta ad excel operando come segue:
2
•
fissata una probabilità del 5%, poiché il numero di dati relativi a s r (max) è 9 e il numero di dati
2
relativi a s r (min) è 10, si ha che ν(max) = 8 e ν(min) = 9.
•
Dalla funzione excel INV.F(0,05;8;9) si ottiene F = 3,23.
2
Essendo
s r (max)
= 14,35 > 3,23 si deduce che le varianze, come ci aspettavamo, sono
2
s r (min)
significativamente diverse al variare della media del campione da cui derivano.
Questa situazione ci impone di ricercare la funzione che meglio interpola le s in funzione delle
medie, ricorrendo ancora una volta ad excel.
Dal comando “inserisci grafico” si sceglie la “dispersione xy” e si inseriscono come x i valori
delle medie e come y i valori degli scarti tipo, quindi si clicca sul comando “inserisci linea di
tendenza”.
Excel consente di disegnare diverse linee di tendenza restituendone anche l’equazione e il
coefficiente di correlazione r2, noi abbiamo considerato le seguenti:
Tipo di regressione
Equazione
Regressione lineare che passa per lo 0
s = 0,0187x
Regressione lineare con intercetta
s = 0,016x + 6,1768
Regressione esponenziale
s = 6,6689e0,001x
Regressione di potenza
s = 0,2934x0,6023
Regressione logaritmica
s = 6,7758Ln(x) - 28,569
r2
0,3873
0,8134
0,7314
0,9435
0,9376
La relazione da scegliere è ovviamente quella che presenta il valore di r2 più prossimo ad 1 e
quindi la regressione di potenza.
L Va bene, tu sai quanto ti stimo, ma a questo punto sarei molto più tranquillo se potessimo
effettuare una verifica indipendente dei nostri calcoli.
M Conoscendoti, ho portato con me uno strumento molto interessante, che può aiutarci allo scopo, il
prezioso software dell’UNICHIM16
L E che aspettiamo ad usarlo?
M Guarda, che finora l’ho già usato diverse volte. Lo usiamo anche adesso.
Pag. 31 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Il procedimento è semplice:
•
inseriamo i dati, premiamo il tasto calcoli e premiamo il tasto “test di normalità” ed ecco il
risultato dove sono evidenziati in rosso i dati anomali
La settima e l’ottava serie non hanno una distribuzione normale, per cui le dobbiamo eliminare e
rifare il calcolo.
Dal nuovo calcolo non emergono serie non normali, ma è evidenziato un dato anomalo che
eliminiamo e, rifacendo il calcolo otteniamo:
Pag. 32 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
M A questo punto dobbiamo decidere cosa fare dell’ulteriore dato anomalo. Se lo eliminiamo
otteniamo uno scarto tipo pari a 12,9, che è molto più basso di quello per una media di 1000
cellule.
Inoltre se eliminiamo anche questo dato anomalo ci troveremo in una condizione estremamente
favorevole, nel senso che, eliminandolo, ci dobbiamo aspettare un CV% molto basso che quindi
potrebbe non rispecchiare la variabilità vera delle risposte analitiche. D’altro canto tu mi insegni
che la conta delle cellule somatiche può dipendere anche dalle altre caratteristiche del latte
(grasso, proteine, indice crioscopico, ecc.). Fatte queste considerazioni ti propongo di non
eliminare il valore 1479.
A questo punto continuiamo con il nostro calcolo, sfruttando le ulteriori caratteristiche del
software UNICHIM16 ed effettuando quindi un confronto tra le varianze, che risultano non
omogenee tra di loro.
In particolare, leggi cosa riporta il manuale che accompagna il software:
La disomogeneità delle varianze che si evidenzia è una conseguenza diretta della situazione per
cui la variabilità delle misure aumenta col crescere della concentrazione, il cui livello è espresso
dalla media: si deve allora studiare una possibile relazione funzionale fra scarto tipo e media
delle diverse serie (colonne) di dati, che consenta di calcolare lo scarto tipo, e quindi la
ripetibilità, anche per concentrazioni diverse da quelle dei campioni sottoposti alle misure
replicate.
Viene allora effettuata un'ulteriore elaborazione, che sul foglio DATI2 mostra oltre ai dati
ordinati e alle statistiche base già rilevate in precedenza – i risultati del calcolo delle regressioni
fra scarto tipo e media secondo tre diversi modelli:
- regressione lineare che passa per lo 0 ( y = bx )
- regressione lineare con intercetta ( y = a + b x )
- regressione doppio-logaritmica ( logy = c + d logx )
La riga inferiore di ciascuna sezione contiene gli scarti tipo calcolati in base all'equazione di
regressione in funzione dei valori delle relative medie (riga 14). Secondo il criterio suggerito, è
da preferire quel modello (equazione) per cui la somma dei quadrati delle differenze fra lo
Pag. 33 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
scarto tipo calcolato e misurato (riga 15) risulta minimo. Questa SQ (somma dei quadrati)
minima viene evidenziata sul foglio.
I risultati di tale elaborazione sono i seguenti:
M La relazione è quindi:
y = 0,6023x - 0,5325
dove, avendo posto y = log(s) e x = log(x), si ha che lo scarto tipo di ripetibilità è espresso dalla
relazione
S = 10(c+d*log(x))
Che con i dati ottenuti
c = -0,5323
diventa
-
d = 0,6023 - x = tenore di cellule
s = 10 (0,6023logx -0,5325)
ricordando alcune elementari proprietà dei logaritmi e delle potenze, con semplici manipolazioni
si ottiene
s = 0,2934x0,6023
che è esattamente uguale a quella da noi calcolata per altra via utilizzando la correlazione di
potenza in excel.
Ad un’analisi più attenta, si rileva che le altre equazioni presentano una certa differenza, ma la
cosa è praticamente irrilevante in quanto, la retta di correlazione passante per l’origine ha un r2 =
0,39 e quindi indica una mancanza di correlazione, mentre quella con intercetta ha un r2 = 0,81,
indice di una correlazione quasi accettabile, differisce da quella dell’UNICHIM in quanto dà
risultati in alcuni casi migliori in altri peggiori, come si può vedere dalla tabella seguente.
Pag. 34 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
media
190,60
313,20
753,10
134,20
670,90
456,00
554,20 1045,80 1435,00
scarto tipo vero
6,22
9,92
18,99
5,39
16,92
12,33
13,01
17,03
20,42
Scarto tipo calcolato UNICHIM:
6,79
8,57
14,94
5,98
13,75
10,64
12,06
19,18
24,82
9,81
14,91
7,73
13,96
11,47
12,61
18,31
Scarto tipo calcolato con excel
8,39
differenza % UNICHIM
9,17%
-13,62% -21,32% 10,84% -18,75% -13,73% -7,32% 12,63%
21,52%
differenza % EXCEL
23,48%
14,49%
-8,03%
-0,18%
29,42%
1,53%
7,80%
4,54%
-4,54%
22,82
Ti basta questa verifica?
L Si, molto bene, poi mi dici come posso fare per acquisire il software dell’UNICHIM16.
M Questo te lo dico subito: basta che tu telefoni all’UNICHIM allo 02/76004450 o ti colleghi al sito
http://www.unichim.it.
Ma continuando con i nostri calcoli; a questo punto, per completare la prima parte del nostro
lavoro dobbiamo calcolare il limite di ripetibilità e il CV% che al 95% di probabilità è espresso
come:
r = t1"0,95;n"1 ! S r 2
Dove t al 95% con n-1 = ν = 8 gradi di libertà (n = numero di dati della serie con minor numero di
dati) può essere calcolato da excel con la formula =INV.T(0,05;9) e quindi sostituendo il valore
trovato nella precedente si ha
r = 2,306 ! S r 2
Dove Sr si ricava dalla formula precedentemente determinata
Sr = 0,2934x0,6023
A questo punto possiamo determinare il CV.
Con semplici passaggi si ha che
CV= s/x = 0,2934 *x(-1)x0,6023 = 0,2934*x(-0,3977)
E con questo la prima parte del nostro lavoro si può considerare completata in quanto abbiamo
calcolato tutti i parametri che ci interessavano.
L E no! Come sai bene uno dei criteri per il controllo della qualità di un risultato di prova è
l’effettuazione di una prova in doppio, e con quello che abbiamo detto, la situazione è
abbastanza complicata, come possiamo fare?
M Per le prove in doppio, nel nostro caso e con un livello di confidenza del 95%, vale la relazione18
18
N. Bottazzini e L. Cavalli Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica nel tempo Seminario SINAL, settembre 2007
Pag. 35 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
x1 # x2 " t0,95;8 ! S r 2
oppure l’equivalente
x1 " x2 ! r0,95;8
x1 # x 2 " r0,95;8 " 0,9567 ! x 0, 6023
Per semplificare i calcoli possiamo riportare in un diagramma le funzioni precedentemente trovate
per sr, r, e CV% in funzione di x.
90
80
70
60
r= 0,9568x0,6023
50
40
sr= 0,2934x0,6023
30
20
-0,3977
10
CV% = 29,34x
0
0
200
scarto tipo sr
400
600
800
limite di ripetibilità r
1000
1200
1400
1600
CV%
Con questo sistema, la prova è accettabile se il valore assoluto della differenza dei risultati delle
due prove è al di sotto della curva della r.
L’incertezza di Luis
L Adesso passiamo ad affrontare l’incertezza di misura!
M Intanto ti informo che oltre ai documenti di riferimento consigliati dal SINAL2 di cui tu ben
conosci, forse, almeno i titoli, utilizzeremo per il nostro scopo anche i seguenti:
UNI CEI ENV 13005 - 2000
Manuale UNICHIM 179/1
ARPA
Agenzia
Prevenzione
e
dell’Emilia-Romagna
Fogli di calcolo
UNICHIM
Regionale
Ambiente
Guida all’espressione dell’incertezza di misura
Linee guida per la valutazione dei metodi
analitici nei laboratori chimici
Linee guida per la validazione dei metodi
analitici e per il calcolo dell’incertezza di
misura
Software per il calcolo, il trattamento statistico
e la valutazione dei dati ottenuti nelle prove di
laboratorio (ed. 2006)
L Alla faccia, ed io mi dovrei studiare tutta questa roba? E il laboratorio chi lo porta avanti? E le
analisi sui prodotti chi le fa? E a Fabrizio cosa gli racconto quando mi chiede se i prodotti sono
stati deliberati?
M Non fare la lagna, anche perché li abbiamo già utilizzati! Cerchiamo di capire, prima di
lamentarci, e veniamo ai fatti.
Pag. 36 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Intanto partiamo dalle definizioni di incertezza e dei principali termini collegati, riportati nella UNI
CEI ENV 13005.
Incertezza di
misura
Parametro, associato al risultato di una misurazione, che caratterizza la
dispersione dei valori ragionevolmente attribuibili al misurando.
Nota 1 il parametro può essere, per esempio, uno scarto tipo (o un suo
multiplo dato), o la semiampiezza di un intervallo avente un livello di
fiducia stabilito.
Nota 2 L’incertezza di misura, in genere, comprende più componenti.
Talune di queste possono essere valutate dalla distribuzione
statistica dei risultati di serie di misurazioni e possono dunque essere
caratterizzate mediante scarti tipo sperimentali. Le altre componenti,
anch’esse caratterizzabili mediante scarti tipo, sono valutate da
distribuzioni di probabilità ipotizzate sulla base dell’esperienza o di
informazioni d’altro tipo.
Nota 3 S’intende che il risultato della misurazione è la migliore
stima del valore del misurando, e che tutte le componenti
dell’incertezza, comprese quelle derivanti da effetti sistematici, quali
quelle associate a correzioni e campioni di riferimento, contribuiscono
alla dispersione.
Incertezza tipo
Incertezza del risultato di una misurazione espressa come scarto tipo.
Incertezza tipo
composta
Incertezza tipo del risultato di una misurazione allorquando il risultato è
ottenuto mediante i valori di un certo numero di altre grandezze; essa è
uguale alla radice quadrata positiva di una somma di termini, che sono le
varianze e le covarianze di quelle grandezze, pesate secondo la
variazione del risultato della misurazione al variare di esse.
Incertezza
estesa
Grandezza che definisce, intorno al risultato di una misurazione, un
intervallo che ci si aspetta comprendere una frazione rilevante della
distribuzione dei valori ragionevolmente attribuibili al misurando.
Nota 1 La frazione può essere interpretata come la probabilità
di copertura o livello di fiducia dell’intervallo.
Nota 2 Per poter associare uno specifico livello di fiducia
all’intervallo definito dall’incertezza estesa è necessario fare
ipotesi, esplicite o implicite, sulla distribuzione di probabilità
caratterizzata dal risultato della misurazione e dalla sua
incertezza tipo composta. Il livello di fiducia che può essere
attribuito a questo intervallo può essere conosciuto solo nei limiti
entro i quali quelle ipotesi siano giustificate.
L “Maestro, il senso lor m’è duro”, come dice il Poeta.
Leggendo queste definizioni, ho la certezza che sia aumentata la mia incertezza sul significato
dell’incertezza di misura, perché non provi ad essere più chiaro?
M Lascia in pace Virgilio, Dante, il terzo canto dell’Inferno e i giochi di parole; e cerca di essere
più serio!
Pag. 37 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Provo a darti qualche ulteriore chiarimento ricavato dalla UNI CEI ENV 13005. L’incertezza di
misura può essere intesa come la stima dell'intervallo dei valori entro cui cade il valore del
misurando, dove per misurando si intende una particolare grandezza sottoposta a misurazione.
Questa definizione deriva dal fatto che ogni misura è caratterizzata da una certa variabilità. Tra i
possibili fattori che possono determinare la variabilità e quindi l’incertezza di una misura, sono
individuati lo Scarto Aleatorio che nelle misurazioni ripetute varia in modo non prevedibile e lo
Scarto Sistematico che, nelle misure ripetute, resta costante o varia in modo prevedibile.
L’insieme combinato di queste due componenti dà luogo all’incertezza tipo composta. Per capire
il rapporto che intercorre tra incertezza composta ed incertezza estesa, basta che tu ti rifaccia a
quanto abbiamo detto a proposito della distribuzione di Gauss: ricorderai che in una
distribuzione normale il 68% dei dati si trova nell’intervallo centrato sul valore medio µ e avente
come semi intervallo lo scarto tipo s della distribuzione stessa, e il 95% dei dati nell’intervallo
centrato sul valore medio µ e avente come semi intervallo circa due volte lo scarto tipo.
Il primo intervallo rappresenta l’incertezza composta, mentre il secondo l’incertezza estesa, per
cui si ha che, con una probabilità del 95%:
Incertezza estesa = 2* incertezza composta
L OK, ma ora fammi vedere i fatti pratici, i numeri, le formule, in altri termini i criteri di calcolo
dell’incertezza.
M Prima di parlare del calcolo dell’incertezza è bene puntualizzare che l’incertezza di misura
associata al risultato deve essere espressa con le stesse unità del risultato ed essere indicata come
semi intervallo di fiducia del risultato della misurazione, ossia come incertezza estesa.
L’incertezza può essere calcolata con diversi approcci o criteri (metrologico, olistico e Horwitz).
Luis e l’approccio metrologico
L’approccio metrologico è considerato il più rigoroso. Relativamente a questo criterio, la guida
SINAL DT 000219 dice (riporto testualmente in corsivo):
“in generale, il misurando Y dipende da un certo numero di grandezze d’ingresso X1, X2, ..., Xi,
..., Xn, secondo una funzione del tipo:
Y= f (X1, X2, ..., Xi, ..., Xn) (1)
usualmente chiamata modello della misurazione.
Tipiche grandezze di ingresso sono quelle che derivano dal processo di misurazione, quelle
riportate nei certificati di taratura dei campioni e degli strumenti impiegati, nonché le grandezze
di influenza, che sono sostanzialmente, ma non esclusivamente, le variabili ambientali come la
temperatura, la pressione, l’umidità, ecc.
La stima y del misurando Y viene ottenuta dalla (1) sostituendo ai valori delle grandezze Xi le
corrispondenti stime di ingresso xi:
y = f (x1, x2, ..., xi, ..., xn) (2)
Come i valori delle grandezze d’ingresso Xi, anche le dispersioni sono stimate attraverso
opportune valutazioni, in base alle informazioni disponibili.
19
SINAL DT-0002 Guida per la valutazione e la espressione dell'incertezza nelle misurazioni
Pag. 38 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Le incertezze di ingresso possono essere determinate attraverso due categorie di valutazione,
contraddistinte con le lettere A e B.
Si sottolinea che tutte le incertezze hanno la stessa natura per cui la distinzione in base alle
categorie di valutazione (A e B) riguarda unicamente il modo con il quale le incertezze vengono
stimate.” .
In primo luogo devi considerare che ai nostri fini l’incertezza, sia di categoria A che di categoria
B deve essere espressa in termini di scarto tipo. I criteri suggeriti dalla stessa guida SINAL19 per
il calcolo delle componenti A e B dell’incertezza in termini di scarto tipo, sono i seguenti:
Incertezze di categoria A
Le incertezze di categoria A sono quelle che possono essere valutate direttamente dal
laboratorio attraverso la ripetizione di un processo di misurazione, in condizioni controllate. Si
tratta, ai fini pratici, di applicare i concetti di cui abbiamo parlato in precedenza a proposito del
calcolo dello scarto tipo.
Il valore dello scarto tipo così calcolato costituisce il parametro statistico che viene
tradizionalmente indicato come scarto tipo della serie di misurazioni.
L’incertezza associata ad una serie di misure si determina con la formula seguente:
( )
u xi =
si
ni
Incertezze di categoria B
Le valutazioni di incertezza effettuate in modo diverso da quello basato su serie di osservazioni
! B.
ripetute, si definiscono di categoria
Per la loro determinazione possiamo ancora utilizzare la norma UNI CEI ENV 13005:20006 e la
guida SINAL19
La situazione di minima informazione è rappresentata da un intervallo, individuato da due valori
ximax e ximin, al di fuori del quale si esclude possa trovarsi il valore della grandezza, mentre
all’interno tutti i valori hanno la stessa probabilità. In questo caso si assume una distribuzione
uniforme di probabilità, detta anche rettangolare, di ampiezza pari ad ximax - ximin, che porta al
seguenti risultato:
Esempio purezza di un sale
Se il valore centrale è più probabile di quello agli estremi si assume una distribuzione di
probabilità detta triangolare di ampiezza pari ad ximax - ximin
Pag. 39 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Esempio vetreria di classe A
L La cosa comincia ad interessarmi, continua.
M Una volta determinate le singole componenti delle incertezze, dobbiamo calcolare l’incertezza
composta, che, come riportato dalla UNI CEI ENV 13005 è data dalla seguente formula
n
2
& 'y #
!! • u 2 ( x i )
u ( y ) = ( $$
i =1 % 'xi "
Dove y è la funzione che esprime la stima del misurando dipendente da una serie di parametri x1,
x2, ….., xn. (vedi equazione 2 SINAL DT 0002 riportata in precedenza)
L Radici quadrate, derivate parziali, sommatorie, stima del misurando …….. ci risiamo con le
complicazioni.
M Calmati, che la situazione è molto più semplice di quanto sembra!
Si dà il caso che per i nostri scopi l’equazione da te definita complicata si semplifica
notevolmente per i casi da noi generalmente trattati. È ancora il SINAL19 che ci facilita il
compito con una utilissima tabella di riepilogo che ti riporto.
Pag. 40 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
- Formule per la valutazione dell’incertezza tipo composta (SINAL DT0002 Tabella 3)
Nota: h e n sono costanti note con incertezza largamente inferiore a quella degli altri componenti.
E qua ci fermiamo. Svilupperemo l’esempio pratico solo se sarà necessario, nel corso del nostro
lavoro. Se vuoi, comunque informazioni più dettagliate e complete sul criterio metrologico le
puoi trovare nelle guide SINAL20 e nel documento del suo direttore21 relativo alla norma UNI
CEI EN ISO_IEC 1702522 oltre che nella norma UNI CEI ENV 130056.
Luis e Horwitz
L’approccio di Horwitz, si basa sull’elaborazione statistica di una grossa mole di dati ricavati da
confronti interlaboratori. Tale criterio è utile, in fase di primo approccio, nella valutazione
dell’incertezza.
Il criterio di Horwitz si riassume in una formula
20
21
22
DT 0002, DT 0002/3, DT 0002/4
Paolo Bianco ISO/IEC 17025: requisiti tecnici - Incertezza di misura: approccio GUM
Requisiti generali per la competenza dei laboratori di prova e di taratura
Pag. 41 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
σR = 0,02*c0,8495
Che può assumere anche la forma
RSDR = 2 [1"0,5!log c ]
Dove:
σR
RSDR
C
scarto tipo di riproducibilità
scarto tipo relativo di riproducibilità
concentrazione dell’analita espresso in unità (m/m)
Tale approccio, applicabile fondamentalmente all’analisi degli alimenti ed alle acque, certamente
non è applicabile al nostro caso, non fosse altro che per il fatto che le nostre misure sono
espresse in cellule/ml e non come massa/massa.
Luis e il criterio olistico
Per quanto riguarda l’approccio olistico o “top down”, il metodo si basa sull’utilizzo dei risultati
di una stessa prova, eseguita in laboratori diversi ed è in genere quello più usato nel campo
chimico e microbiologico.
Alcuni esempio pratici di tale approccio li puoi trovare chiaramente sviluppati nei documenti di
validazione del software dell’UNICHIM16 che prendono in considerazione i seguenti casi:
•
•
•
•
Uso di una norma che reca i valori di scarto tipo di ripetibilità, σr e di
riproducibilità, σR
Uso di un metodo interno simile ad una norma che reca i valori di σr e di σR
Uso dei parametri di precisione ricavati da prove interlaboratorio
Uso di materiali di riferimento certificati (CRM) che riportano in modo completo i
parametri di precisione.
Anche di tale metodo svilupperemo l’esempio pratico, solo se sarà necessario, nel corso del
nostro lavoro.
In altri termini ti dico, per tranquillizzarti, che non svilupperemo tutti i metodi di calcolo
dell’incertezza, ma focalizzeremo l’attenzione solo su quello che risulterà il più adatto oltre che
più pratico per il nostro scopo, tralasciando tutti gli altri.
L Grazie per le informazioni, ma soprattutto grazie ……. per lo sconto.
L’incertezza di Luis variabile con la concentrazione
M E torniamo al nostro caso specifico.
Nella determinazione delle cellule somatiche nel latte vaccino, con il metodo in oggetto, l’entità
delle componenti dell’incertezza varia con la concentrazione dell’analita (ricordati dello scarto
tipo!).
In questi casi, come riportato dalla Guida EURACHEM23, è importante prendere in
considerazione le variazioni dell’incertezza tipo composta con la concentrazione dell’analita.
23
Rapporti ISTISAN 03/30 - Quantificazione dell’incertezza nelle misure analitiche Seconda edizione (2000) della Guida EURACHEM / CITAC
CG 4
Pag. 42 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Gli approcci possibili, riporta la guida, includono:
•
•
•
restringere il campo di applicazione della procedura specificata o la stima dell’incertezza ad
un piccolo intervallo di concentrazioni di analita;
fornire una stima dell’incertezza in termini di Scarto Tipo Relativo (STR);
stabilire esplicitamente la relazione tra l’incertezza e la concentrazione e quindi, in base ad
essa, determinare di nuovo l’incertezza di un dato risultato.
Noi optiamo per la terza soluzione, in quanto quella che più compiutamente interpreta le
necessità del Laboratorio e dei suoi clienti.
L E ti pareva, altrimenti sarebbe stato troppo facile.
M La Guida EURACHEM23 al paragrafo E.4.2 riporta:
Per tener conto sia della proporzionalità dell’incertezza sia della possibilità di un valore
essenzialmente costante con il livello, si usa la seguente espressione generale:
u ( x) = s02 + ( x ! s1 ) 2
dove
u(x)
s0
s1
è l’incertezza tipo composta del risultato x (cioè l’incertezza espressa come uno
scarto tipo)
rappresenta un contributo costante all’incertezza globale
è una costante di proporzionalità.
L’equazione si basa sul metodo normale della combinazione dei due contributi all’incertezza
globale, assumendo che un contributo (s0) sia costante ed uno (xs1) proporzionale al risultato.
La Figura E.4.1 illustra la forma di questa funzione.
E.4.4.3. Dipendenza intermedia
Pag. 43 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
In casi intermedi, ed in particolare quando la situazione corrisponde alla zona B nella Figura
E.4.1, possono essere adottati due approcci.
a) Applicare una dipendenza variabile
L’approccio più generale è determinare, registrare e usare sia s0 sia s1. Le stime dell’incertezza,
quando necessario, possono essere effettuate sulla base del risultato riportato. Questo è
l’approccio raccomandato qualora fattibile.
NOTA: Si veda la nota del paragrafo E.4.2. (NOTA: L’approccio precedente si dimostra pratico
solo quando è possibile calcolare un numero grande di valori. ….)
b) Applicare un’approssimazione fissa
Per analisi generiche e nei casi in cui
• la dipendenza non è molto forte (ossia, vi è scarsa evidenza di proporzionalità) oppure
• l’intervallo dei risultati previsti non è molto grande
qualora in entrambi i casi le incertezze non differiscano di più del 15% circa da una stima
dell’incertezza media, spesso sarà ragionevole calcolare e stabilire un valore fisso
dell’incertezza per un uso generale, basandosi su un valore medio dei risultati attesi. Quindi o
• si usa un valore medio o tipico di x per calcolare un’unica stima dell’incertezza e la si usa in
alternativa a stime calcolate singolarmente o
• si è ottenuto un unico valore dello scarto tipo, in base a studi su materiali che ricoprono
l’intero intervallo dei livelli di analita ammessi (entro il campo di applicazione per la stima
dell’incertezza) e c’è scarsa evidenza che giustifichi un’ipotesi di proporzionalità. Questo
caso dovrebbe essere generalmente trattato come un caso di dipendenza nulla e lo scarto tipo
in oggetto riportato come s0.
E.4.5. Determinare s0 ed s1
E.4.5.1. Nei casi particolari nei quali un termine è dominante, sarà normalmente sufficiente
usare l’incertezza espressa come scarto tipo o scarto tipo relativo rispettivamente come valore di
s0 o di s1. Quando la dipendenza è meno ovvia, potrebbe tuttavia essere necessario determinare s0
ed s1 indirettamente da una serie di stime dell’incertezza a differenti livelli di analita.
E.4.5.2. Dato un calcolo d’incertezza composta da varie componenti, alcune delle quali
dipendono dal livello di analita mentre altre no, sarà generalmente possibile indagare sulla
dipendenza dell’incertezza globale dal livello di analita mediante una simulazione con il
procedimento seguente:
1. calcolare (o ottenere sperimentalmente) le incertezze u(xi) per almeno dieci livelli xi di
analita, che coprono l’intero intervallo ammesso
2. riportare in grafico u(xi)2 in funzione di xi2
3. mediante regressione lineare, ottenere stime di m e di c per la curva u(x)2 = mx2 + c
4. calcolare s0 e s1 da s0 = √c, s1 = √m
5. registrare s0 e s1
Da quanto riportato sopra è chiaro che la prima cosa da fare è il calcolo dell’incertezza almeno a
dieci livelli, cosa che potremmo fare col metodo olistico o con il sistema cosiddetto metrologico,
ma che comunque ci richiede un lungo lavoro, a meno di non essere in possesso dei dati
Pag. 44 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
necessari, quali ad esempio risultati di circuiti interlaboratorio, serie di dati con materiali
certificati, et similia, cosa di cui dubito molto.
L E ti pareva che lui avesse qualche fiducia in quello che facciamo!
Aspetta a sputare sentenze con il tuo latinorum, e ascolta quello che ho da dire!
M Ho capito, se ricordo bene tu hai partecipato a qualche circuito interlaboratorio per la prova
relativa alla ricerca delle cellule somatiche, o ricordo male?
L Ricordi male perché intanto è Valentina che vi partecipa, e non solo qualche volta, ma
costantemente con cinque campioni a livelli diversi 4 volte l’anno, per cui penso che potremmo
disporre di molti dati.
M Non dire quattro se non ce l’hai nel sacco e raccogli i dati di cui disponi.
L Ecco i dati, ma come possiamo da questi dati calcolare la relativa incertezza?
M Nell’applicazione di questo criterio, qualcuno dice che i laboratori devono utilizzare lo stesso
metodo di prova, altri considerano ancora accettabile il criterio anche se il laboratorio utilizza un
metodo di prova diverso purché:
•
•
•
i laboratori partecipanti siano in numero elevato (>40)
siano laboratori stimati per competenza tecnica;
i risultati del circuito e i risultati del laboratorio siano tra loro paragonabili, e che siano
compatibili gli scarti tipo di ripetibilità.
Prima di utilizzare questo criterio verifichiamo se i risultati del nostro laboratorio sono coerenti
con i risultati dei laboratori partecipanti al ring test, attraverso la relativa correlazione.
Dalla correlazione, come puoi ben vedere, si evince un’ottima concordanza tra i dati, che
assieme al fatto che i laboratori partecipanti sono stati in genere > 50 e tutti di chiara
competenza, conferma l’applicabilità del metodo di calcolo dell’incertezza.
re tta di corre laz ione laboratorio/laboratori y = 0,9231x + 15,113
2
R = 0,9938
valori del
laboratorio
1500
1000
500
0
0
500
1000
1500
valori di riferim ento
Pag. 45 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Il documento UNICHM24, ai fini del calcolo dell’incertezza mediante l’uso di parametri di
precisione derivanti da circuiti interlaboratorio riporta quanto segue:
2
2
La formula da utilizzare è U = k ! L + s r / m con ! L2 = ! R2 " ! r2 .
Le condizioni che permettono questo impiego sono le seguenti:
a) il laboratorio ha partecipato alle prove con risultati non anomali;
b) il laboratorio può dimostrare di aver ottenuto da n (intorno a 10) ripetizioni, eseguite con il
metodo considerato nella prova interlaboratorio, risultati accettabili il cui scarto tipo è
compatibile con quello di ripetibilità ricavato dalla prova interlaboratorio.
Seguendo tale indirizzo, in primo luogo dobbiamo valutare per ogni risultato del circuito la
compatibilità dello scarto tipo s ottenuto dal laboratorio con lo scarto tipo di ripetibilità del
circuito e quindi calcolare l’incertezza.
Per valutare se lo scarto tipo ottenuto dal laboratorio sia compatibile con quello del circuito
ricorriamo alla distribuzione del χ 2.
Considerando i dati del primo circuito abbiamo per σ R il valore di 9,59, per σ r il valore di 5,644,
mentre il valore dello scarto tipo s del laboratorio deve essere calcolato con la formula che
abbiamo determinato precedentemente e che riporto
Sr = 0,2934x0,6023
sostituendo in tale formula x con 158 (tenore di cellule del circuito), si ha che Sr = 6,19.
Per la verifica di compatibilità tra gli scarti tipo, utilizziamo la formula ormai nota
% $2 / 2;# = n !1 s 2 % (21!$ / 2 );# = n !1
" 2 "
n !1
n !1
&
ricorrendo ad excel, con un livello di probabilità p = 95% e sapendo che per ogni livello sono
state fatte dal laboratorio 10 prove per il calcolo della ripetibilità, si calcolano i due valori di χ 2
con le formule INV.CHI(0,025;9) e INV.CHI(0,975;9) che danno rispettivamente per il χ 2 i valori
2,70 e 19,02.
s2
Sostituendo i valori calcolati nelle formule precedenti si ricava che 0,30 ! 2 = 1,2 ! 2,11
"
Successivamente, per il calcolo dell’incertezza applichiamo la formula
U = k ! L2 + s r2 / m con ! L2 = ! R2 " ! r2
e sostituendo i valori del circuito otteniamo il risultato cercato dell’incertezza composta che per
una prova in doppio risulta 17,8 e per una prova singola 19,8.
L È molto chiaro quello che dici, ma il lavoro diventa piuttosto lungo e noioso.
M Hai perfettamente ragione, ma noi possiamo automatizzare il tutto con un semplicissimo foglio
excel, dove possiamo riportare tutti i nostri dati e inserire le formule già utilizzate. Ecco il
foglio:
24
Software applicativo per l’elaborazione dei risultati analitici Convalida con il calcolo manuale (UNICHIM)
Pag. 46 di 52
lug-07
mag-07
mar-07
nov06
set-06
lug-06
mag-06
mar-06
Michele Rapillo
media
circuito
158
686
1102
592
275
116
773
340
633
1138
748
256
35
259
758
311
109
330
215,3
119,1
462,5
264,9
706,7
31,1
142,1
354,6
130
658
461
215
505
Gli scarti... “tipi”... facili
σr
σR
5,644
15,938
24,596
11,986
10,093
5,62
15,97
9,81
15,16
22,43
17,78
9,34
3,29
10,54
14,5
8,97
4,864
11,411
6,802
6,891
10,487
7,921
15,431
3,378
6,323
8,723
5,64
12,88
8,95
6,98
12,34
9,59
34,285
58,537
27,906
15,192
11,46
39,13
19,45
36,27
62,57
35,62
16,32
6,48
16,26
36,2
15,64
9,081
18,657
13,207
15,453
27,301
13,386
35,009
4,784
11,944
20,273
10,44
33,93
20,09
13,88
31,17
sr lab
6,19
14,99
19,94
13,72
8,64
5,14
16,11
9,82
14,28
20,33
15,79
8,28
2,50
8,34
15,92
9,31
4,95
9,65
7,46
5,22
11,82
8,45
15,26
2,33
5,81
10,07
5,50
14,62
11,80
7,45
12,46
s 2 compatibilità incertezza incertezza
1 prova
2 prove
! 2 scarto tipo
1,20
0,88
0,66
1,31
0,73
0,84
1,02
1,00
0,89
0,82
0,79
0,79
0,58
0,63
1,21
1,08
1,04
0,71
1,20
0,57
1,27
1,14
0,98
0,47
0,84
1,33
0,95
1,29
1,74
1,14
1,02
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
OK
19,84
67,71
113,48
57,38
28,54
22,46
78,37
38,91
71,82
123,70
69,34
31,47
12,23
29,85
73,58
31,67
18,25
35,27
27,11
29,57
55,68
27,41
69,87
8,22
23,36
41,78
20,73
69,25
43,02
28,25
62,44
17,81
64,30
109,92
54,01
25,79
21,26
74,99
36,35
68,92
120,31
65,65
29,21
11,71
27,43
70,05
28,81
16,86
32,52
24,98
28,63
53,11
24,67
66,45
7,53
21,87
39,28
19,22
66,10
39,65
26,21
59,90
χ
2
(0,975;9)
2,70
χ
2
(0,975;9)/9
0,30
2
χ (0,025;9)
19,02
χ
2
(0,025;9)/9
2,11
L Come al solito vorrei avere una conferma di questo lavoro, per essere più sicuro.
M Grazie per l’ormai nota fiducia nelle cose che ti dico; comunque ti ricordo che abbiamo sempre a
disposizione il solito ottimo software dell’UNICHIM16, che tra le altre cose consente di calcolare
l’incertezza in vari modi tra cui utilizzando i risultati di circuiti interlaboratori.
E veniamo a noi, come puoi vedere dalla maschera seguente, per poter applicare il foglio di
calcolo dell’UNICHIM è necessario conoscere 4 parametri fondamentali.
Pag. 47 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Una volta inseriti i dati, si clicca
sul tasto
E
compare
la
richiesta
“numerosità
della
media”.
Imputando il numero di dati per i
quali
si
vuole
calcolare
l’incertezza solitamente 1 o, per
le prove in doppio 2, si ottiene
l’incertezza richiesta. Al termine
di queste semplici operazioni la
maschera si presenta così:
L Bene questo software, mi piace sempre di
più, nonostante sia servito anche a
confermare i tuoi calcoli.
M OK sono d’accordo sulla bontà del software
di cui non hai sperimentato che una piccola
parte.
Pag. 48 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
lug-07
mag-07
mar-07
nov06
set-06
lug-06
mag-06
mar-06
incertezza estesa calcolata con
il software UNICHIM
Media
Media
laboratorio riferimento
sr
SR
sr lab
158
164
5,644
9,59
6,19
750
686
15,938 34,285 14,99
1256
1102
24,596 58,537 19,94
649
592
11,986 27,906 13,72
274
275
10,093 15,192 8,64
113
116
5,62
11,46 5,14
810
773
15,97 39,13 16,11
329
340
9,81
19,45 9,82
660
633
15,16 36,27 14,28
1211
1138
22,43 62,57 20,33
777
748
17,78 35,62 15,79
237
256
9,34
16,32 8,28
35
35
3,29
6,48
2,50
275,5
259
10,54 16,26 8,34
754,5
758
14,5
36,2 15,92
315
311
8,97
15,64 9,31
103
109
4,864 9,081 4,95
364
330
11,411 18,657 9,65
223
215,3
6,802 13,207 7,46
152
119,1
6,891 15,453 5,22
463
462,5
10,487 27,301 11,82
262
264,9
7,921 13,386 8,45
737
706,7
15,431 35,009 15,26
36
31,1
3,378 4,784 2,33
135
142,1
6,323 11,944 5,81
370
354,6
8,723 20,273 10,07
152
130
5,64
10,44 5,50
667
658
12,88 33,93 14,62
470
461
8,95
20,09 11,80
223
215
6,98
13,88 7,45
483
505
12,34 31,17 12,46
Prove
singole
19,843
67,709
113,478
57,383
28,540
22,464
78,372
38,911
71,823
123,698
69,340
31,473
12,231
29,853
73,582
31,672
18,255
35,266
27,114
29,568
55,681
27,412
69,868
8,218
23,358
41,779
20,734
69,254
43,021
28,247
62,438
prove
in doppio
17,807
64,305
109,917
54,005
25,790
21,256
74,989
36,348
68,925
120,309
65,646
29,215
11,711
27,426
70,054
28,807
16,859
32,521
24,978
28,631
53,113
24,670
66,451
7,531
21,867
39,275
19,218
66,097
39,654
26,207
59,899
L A questo punto, se permetti, continuo io.
Considerato quanto riportato al punto E.4.5.2. precedente della Guida Eurachem23, avendo
determinato l’incertezza a vari livelli, bisogna:
riportare in grafico u(xi)2 in funzione di xi2
mediante regressione lineare, ottenere stime di m e di c per la curva u(x)2 = mx2 + c
calcolare s0 e s1 da s0 = √c, s1 = √m
Andiamo per ordine e costruiamo una matrice nelle cui prime tre colonne riportiamo i dati noti
quali la media di riferimento, l’incertezza per la singola prova, l’incertezza per le prove in
doppio e nelle colonne 4, 5 e 6 i quadrati di questi parametri. Facciamo un’interpolazione
lineare mediante excel dei quadrati delle incertezze composte delle prove singole in funzione del
quadrato delle medie relative e determiniamo l’equazione della retta. Se il coefficiente di
Pag. 49 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
correlazione r2 è prossimo ad 1, utilizzeremo l’equazione della retta per il calcolo dello scarto
tipo, altrimenti, dovremo percorrere una delle altre strade consigliate dalla Guida Eurachem23.
Successivamente faremo lo stesso percorso per le prove in doppio.
Tenendo presente che abbiamo calcolato l’incertezza estesa, mentre noi abbiamo bisogno
dell’incertezza composta, dovremo dividere i valori ottenuti precedentemente per 2.
media 2
incertezza estesa
prove in doppio
18
64
110
54
26
21
75
36
69
120
66
29
12
27
70
29
17
33
25
29
53
25
66
8
22
39
19
66
40
26
60
24964
470596
1214404
350464
75625
13456
597529
115600
400689
1295044
559504
65536
1225
67081
574564
96721
11881
108900
46354
14185
213906
70172
499425
967
20192
125741
16900
432964
212521
46225
255025
quadrato incertezza
composta prove in doppio
20
68
113
57
29
22
78
39
72
124
69
31
12
30
74
32
18
35
27
30
56
27
70
8
23
42
21
69
43
28
62
quadrato incertezza
composta prova singola
164
750
1256
649
274
113
810
329
660
1211
777
237
35
275,5
754,5
315
103
364
223
152
463
262
737
36
135
370
152
667
470
223
483
incertezza estesa
prova singola
Media Laboratorio
Ed ecco i risultati:
98
1146
3219
823
204
126
1536
379
1290
3825
1202
248
37
223
1354
251
83
311
184
219
775
188
1220
17
136
436
107
1199
463
199
975
79
1034
3020
729
166
113
1406
330
1188
3619
1077
213
34
188
1227
207
71
264
156
205
705
152
1104
14
120
386
92
1092
393
172
897
y = 0,0027x + 39,507
R2 = 0,9774
PROVE SINGOLE
5000
4000
3000
2000
1000
0
0
200000
400000
600000
800000 1000000 1200000 1400000
I coefficienti della curva u(x)2 = mx2 + c
sono: m= 0,0027e c = 39,507
da cui s0 = 6,28 e s1 = 0,052
E la formula per il calcolo dell’incertezza composta
u ( x) = s 02 + ( s1 ! x) 2 diventa:
u ( x) = 39,507 + 0,0027 ! x 2
PROVE IN DOPPIO
y = 0,0025x + 15,896
R2 = 0,9728
4000
3500
3000
2500
2000
1500
1000
500
0
0
200000
400000
600000
800000 1000000 1200000 1400000
I coefficienti della curva u(x)2 = mx2 + c
sono: m= 0,0025 e c = 15,896
da cui s0 = 3,99 e s1 = 0,05
E la formula per il calcolo dell’incertezza composta
u ( x) = s 02 + ( s1 ! x) 2 diventa:
u ( x) = 15,896 + 0,0025 ! x 2
Pag. 50 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Dai risultati precedenti possiamo quindi concludere che l’incertezza estesa con un grado di
copertura del 95% è data
per le prove singole da
U ( x) = 2 ! 39,507 + 0,0027 ! x 2
e per le prove in doppio da
U ( x) = 2 ! 15,896 + 0,0025 ! x 2
M Ottimo risultato, vedo che sei diventato un asso con excel!
La decisione finale di Luis
L Ti devo dire un’ultima cosa: avendo letto da qualche parte che l’unica cosa certa di una misura
è la sua incertezza, ho maturato una certezza: parteciperò al prossimo corso sull’incertezza
tenuta da un ente riconosciuto per competenza e professionalità!
Pag. 51 di 52
Michele Rapillo
Gli scarti... “tipi”... facili
Michele Rapillo
ingegnere chimico, ricercatore tecnologo ENEA, opera da oltre 20
anni nell’ambito della qualità e dell’accreditamento dei laboratori di
prova.
Già membro di comitati di certificazione di prestigiosi organismi di
certificazione italiani (IIP, ICIM, CERSA, AGROQUALITÀ) e del
comitato di accreditamento di FIDEA, attualmente è membro dei
comitati di accreditamento di SINCERT (dal 1999) e di SINAL (dal
2001).
Il calcolo dell’incertezza è guardato da molti con sospetto, un sospetto che questo volumetto
intende fugare proponendo un approccio al problema che coniuga un linguaggio chiaro ed
accessibile a tutti con il rigore della trattazione. Lo svolgimento dell’argomento che utilizza
formule di fogli di calcolo o software dedicati consente al lettore di comprendere le nozioni
fondamentali ed anche l’applicazione pratica.
Pag. 52 di 52