to get the file

Transcript

to get the file
Cenni di statistica
La ricerca scientifica può essere inquadrata come un processo di apprendimento guidato.
Lo scopo dei metodi statistici è quello di rendere tale processo il più efficiente possibile.
Un’ipotesi iniziale porta attraverso un processo di “deduzione” a certe necessarie conseguenze
che possono essere confrontate con dati. Quando le conseguenze e i dati non sono in accordo,
la discrepanza può portare tramite un processo di “induzione” a modificare l’ipotesi. Un
secondo ciclo è cosı̀ iniziato nell’intero processo iterativo. La conclusione di questo processo
porterà a celebrare un successo o ad ammettere un fallimento. Da notare che non c’è
un’unica sequenza di passaggi per arrivare allo stesso risultato di data convergenza. Si può
per esempio partire da setup di misura diversi. È da evidenziare inoltre che sebbene lo stato
ipotizzato, congetturato della natura (la fase di modello) può essere falso o almeno inesatto,
i dati sono generati dallo stato vero della natura. Questa è la ragione per la quale il processo
di aggiornare continuamente le ipotesi e confrontare gli stati della natura dedotti con quelli
reali può portare a convergenza sulla verità. Quali sono le caratteristiche necessarie per
effettuare questo “gioco”?
a) Conoscenza dell’oggetto - materia
b) Conoscenza della strategia
La conoscenza della strategia è la conoscenza dei metodi statistici nella ricerca scientifica.
Senza una conoscenza dell’appropriata strategia è possibile “giocare” ma forse non molto
bene. Senza la conoscenza dell’oggetto - materia, invece, non si può “giocare”. Estremizzando possiamo dire che è possibile per uno scienziato effettuare una ricerca senza che
questi abbia conoscenze di statistica, mentre è impossibile per chi, esperto conoscitore di
statistica, voglia fare ricerca senza alcuna conoscenza scientifica dell’oggetto - materia di
investigazione. L’uso della statistica ha però lo scopo anzi detto di fornire al ricercatore
uno strumento efficiente per l’iterazione del processo deduttivo - induttivo. Resta chiara
l’importanza del punto a) e di una scelta saggia del banco prova (setup) sperimentale di
partenza per l’inizio della ricerca.
Introduciamo come punto di partenza e come strumento matematico principale per la
definizione di una distribuzione una funzione F (x) crescente (non decrescente) da 0 (x →
−∞) a 1 (x → +∞) e chiamiamo tale funzione una “funzione di distribuzione”. Come prima
interpretazione si assuma la distribuzione di una massa su una linea reale con l’ipotesi che
1
la massa totale sia 1. Una distribuzione che ha soltanto masse concentrate descrivibile come
X
ph = 1
(1)
h
è detta discreta. Nell’equazione ph è una massa concentrata nel punto xh . F è discontinua
in xh e ph è il suo salto. Una distribuzione senza masse concentrate è detta continua. Il caso
familiare di una distribuzione assolutamente continua implica l’ammissione di una funzione
densità f (x) = F ′ (x).
F (x) =
Z
+∞
f (x)dx
−∞
(2)
La distribuzione di una grandezza aleatoria continua per molti casi fisici tende ad obbedire
ad una legge di occorrenza degli eventi di tipo a gaussiana.
f (x) =
1
√
σx 2π
exp −
1 x − µx
2
σx
2
(3)
dove il valore µx è la media della popolazione o speranza matematica e σx è lo scarto tipo
o deviazione standard della popolazione rispetto a µx . In formule si ha:
Z
µx = ǫ(x) =
σx2 = ǫ(x − µx )2 =
+∞
xf (x)dx
−∞
Z
+∞
−∞
(x − µx )2 f (x)dx
La deviazione standard o scarto tipo è la radice positiva della varianza.
(4)
(5)
Secondo la
GUM (Guide to the expression of uncertainty in measurement - Guida all’espressione
dell’incertezza di misura) si definisce popolazione la totalità di elementi presi in considerazione. Nel caso di una variabile aleatoria discreta si ha:
µx = ǫ(x) =
n
1X
xk
n k=1
(6)
Se definiamo fi la frequenza di osservazione come:
fi = lim
n→∞
si ha
2
ni
n
(7)
µx = ǫ(x) =
X
xi fi
(8)
i
Facciamo ora l’ipotesi, come spesso accade nella pratica, di avere un insieme limitato di N
misure sottoinsieme della popolazione. Si definisce valor medio aritmetico delle N misure il
valore:
µ̂x = x =
N
1 X
xk
N k=1
(9)
Il valore medio o valore empirico è uno stimatore non polarizzato del valore medio dell’intera
popolazione. In statistica la differenza tra il valore atteso di uno stimatore e il valore
vero del parametro che viene stimato è chiamata “bias” In generale un parametro a è una
funzione della distribuzione della variabile aleatoria X che assume valori in uno spazio di
parametri A. Usualmente la distribuzione di X avrà k parametri reali di interesse cosı̀ che
a = (a1 , a2 , . . . , ak ) e A è un sottoinsieme di Rk . In molti casi uno o più parametri sono
incogniti e devono essere stimati dal vettore di uscita X. Secondo la GUM un parametro è
una grandezza utilizzata per descrivere la distribuzione di probabilità di una variabile casuale.
Supponiamo di avere una parametro reale a incognito che assume valori in A ⊆ R. Un valore
reale statistico W che è usato per stimare a è chiamato, abbastanza appropriatamente, uno
stimatore di a. Cosı̀ uno stimatore è una variabile casuale e quindi ha una distribuzione, una
media, una varianza e cosı̀ via. Quando lanciamo realmente l’esperimento e osserviamo i
dati, il valore osservato w (un singolo numero) è la stima del parametro a. L’errore (casuale)
è la differenza tra lo stimatore e il parametro W − a, il “bias” è il valore atteso dell’errore:
bias(W ) = ǫ[(W − a)] = ǫ[W ] − a. Il valore atteso di una costante è la costante stessa cosı̀
a può essere portato fuori dalla parentesi quadra nell’espressione precedente. Lo stimatore
è non polarizzato se ǫ[W ] = a per a ∈ A.
Ricordiamo alcune proprietà matematiche del valore atteso e della varianza. Innanzitutto
si dice che la famiglia delle distribuzioni normali è chiusa rispetto alla trasformazioni lineari, cioè una trasformazione lineare di una variabile aleatoria normale è ancora distribuita
normalmente.
y = ax + b
con a 6= 0
3
(10)
ǫ[(y)] = ǫ[(ax + b)] = b + aǫ[(x)] = b + aµx
(11)
var[(y)] = ǫ[(y − ǫ(y))2 )] = ǫ[(ax + b − b − aµx )2 ] =
= a2 ǫ[(x − µx )2 ] = a2 var[(y)] = a2 σx2
(12)
Supponiamo x1 , x2 , . . . , xn siano variabili indipendenti e identicamente distribuite casualmente con speranza µx e varianza σx2 . La media e la varianza aritmetica si ottengono
attraverso:
x=
(x1 + x2 + · · · + xn )
n
(13)
n
1X
(xi − x)2
s =
n k=1
2
(14)
Valutiamo ora se gli stimatori cosı̀ definiti sono polarizzati.
n
n
n
1X
1X
1X
xi =
ǫ [xi ] =
µx = µx
ǫ [x] = ǫ
n i=1
n i=1
n i=1
#
"
(15)
che ci mostra come lo stimatore valore medio aritmetico non è uno stimatore polarizzato.
h
ǫ s2
h
ǫ s
2
i
i
n
1X
1X
=ǫ
(xi − x)2 = ǫ
n[(xi − µx ) − (x − µx )]2
n i=1
n i=1
"
#
"
#
(16)
n
n
1X
1X
=ǫ
(xi − x)2 = ǫ
[(xi − µx ) − (x − µx )]2 =
n i=1
n i=1
"
#
"
#
n
n
1X
1X
2
(xi − µx ) − 2(x − µx )
(xi − µx ) + (x − µx )2 =
=ǫ
n i=1
n i=1
"
#
n
n
i
h
h
i
1X
1X
(xi − µx )2 − (x − µx )2 =
ǫ (xi − µx )2 − ǫ (x − µx )2 =
=ǫ
n i=1
n i=1
"
=
#
n
1X
σ2
n−1 2
σ2
σx
σx2 − x = σx2 − x =
n i=1
n
n
n
(17)
da cui si evince che lo stimatore della varianza aritmetica cosı̀ scelto è polarizzato. Il risultato
è dovuto al fatto che lo scarto non è calcolato rispetto alla media dell’intera popolazione
ma rispetto alla media aritmetica per la quale è. In questo modo x è polarizzato verso gli
4
elementi del sottoinsieme della popolazione. Si potrebbe pensare di valutare la media degli
scarti quadratici rispetto alla media delle n − 1 misure ottenuta escludendo proprio l’i-esimo
termine rispetto a cui si va a calcolare lo scarto. Escludendo tale misura però ridefiniamo
uno stimatore polarizzato, anzi stiamo creando uno stimatore “ANTI-BIAS” valutando la
media di ciascun termine (xi − x\i) tendendo a sovrastimare la varianza. Occorre qualcosa
di intermedio al fine di indivuduare uno stimatore della varianza non polarizzato.
Supponiamo di avere una popolazione S e un sottoinsieme s
2

n
n
n
1X
1X
1X
xi −
(xi − x)2 =
xj 
var(s|S) =
n i=1
n i=1
n j=1
2

n
n
n
X
1X
1X
1
xi −
var*(s|S) =
(xi − x\i)2 =
xj 
n i=1
n i=1
n − 1 i=1j6=i
(18)
2

n
n
1 X
n−1
1X

xi −
xj 
var(s|S) =
n i=1
n
n j=1j6=i

2
n
n
X
1X
n−1
1

var*(s|S) =
xi −
xj 
n i=1 n − 1
n − 1 i=1j6=i
(19)
da cui si deduce abbastanza facilmente che n2 var = (n − 1)2 var* e ancora che var* =
√
n2 /(n − 1)2 var ⇒ var × var* = n/(n − 1)var e infine
s2 =
n
1 X
(xi − x)2
n − 1 i=1
(20)
A riprova e ad esercizio calcoliamo il valore atteso dello stimatore sopra indicato
h
ǫ s
2
i
n
n
1 X
1 X
2
(xi − x) = ǫ
[(xi − µx ) − (x − µx )]2 =
=ǫ
n − 1 i=1
n − 1 i=1
"
#
"
#
n
n
n
1 X
1 X
(xi − µx )2 − 2(x − µx )
(xi − µx ) +
(x − µx )2 =
=ǫ
n − 1 i=1
n − 1 i=1
n−1
"
#
n
n
h
i
i
h
1 X
n
n
1 X
(x − µx )2 =
ǫ (x − µx )2 =
=ǫ
(xi − µx )2 −
ǫ (xi − µx )2 −
n − 1 i=1
n−1
n − 1 i=1
n−1
"
=
#
n
n σx2
σx2 −
= σx2
n−1
n−1 n
(21)
Nelle dimostrazioni precedenti si è fatto uso dell’espressione della varianza della media come
varianza della popolazione divisa per n. La dimostrazione è riportata qui di seguito:
5
n
σ2
1
1X
xi = 2 nσx2 = x
var(x) = var
n i=1
n
n
!
(22)
Da qui segue che la deviazione standard di una serie di misure consistenti di n elementi
q
indipendenti decresce proporzionalmente con 1/ (n).
σx
sx
σx = √ ≈ √
n
n
(23)
Come misure descrittive di una popolazione sono stati visti il valor medio, la varianza e
la deviazione standard. In modo analogo sono stati definiti le misure descrittive di un
campione, media aritmetica, varianza aritmetica, deviazione standard aritmetica usando
in questo caso una notazione con lettere Romane. Le deviazioni di n osservazioni dalla
media aritmetica devono sommare a zero. Questa condizione
(y − y) = 0 costituisce
P
una condizione lineare sulle deviazioni. Ciò implica che qualunque siano n − 1 deviazioni
determinano completamente la restante altra.
Se la media della popolazione è nota, la varianza del campione è calcolata come:
2
ṡ =
P
(y − η)2
n
con il divisore uguale a n. La somma dei quadrati
(24)
P
(y − η)2 e la quantità associata ṡ2
sono dette avere n gradi di libertà, in quanto tutte le n quantità y − η sono libere di
variare. In particolare la conoscenza di n − 1 deviazioni non determina la n-esima. Le n
deviazioni y −y, la somma dei loro quadrati e la varianza del campione sono detti avere n−1
gradi di libertà. La determinazione della probabilità a riguardo di una quantità distribuita
normalmente y è spesso espressa attraverso l’uso della distribuzione di probabilità normale
standard. Richiamando l’espressione della funzione di distribuzione di Gauss N(µy , σy ):
f (y) =
1
√
σy 2π
− 21
e
y−µy
σy
2
(25)
La distribuzione di probabilità normale standard si ottiene ponendo z = (y − µy )/σy da cui
si arriva a un’espressione del tipo:
1 2
1
f (y) = √ e− 2 z
2π
La dimostrazione segue da:
6
(26)
1 x−µ 2
1
f (x) = √ e− 2 ( σ )
σ 2π
(27)
La probabilità che x cada tra a e b è:
Z
b
a
1 x−µ 2
1
f (x) = √ e− 2 ( σ ) dx
σ 2π
(28)
che con la trasformazione ottenuta introducendo la variabile z porta a:
Z
zb
za
1 2
1
√ e− 2 z dz
2π
(29)
che rappresenta una distribuzione f (z) di tipo N(0, 1).
Come esempio si supponga che il livello giornaliero di impurità in una cisterna sia noto
essere distribuito approssimativamente in modo normale con un valore medio di 4,0 e una
deviazione standard di 0,3. Quale è la probabilità che il livello di impurità di un giorno
scelto casualmente ecceda 4,4? In questo caso y0 = 4, 4, µy = 4, 0 e σ = 0, 3 cosı̀ che
z0 =
y 0 − µy
4, 4 − 4, 0
=
= 1, 33
σ
0, 3
(30)
La probabilità che P r(z > 1, 33) = 0, 0918 si calcola semplicemente attraverso l’uso di
tabelle.
Estratto di tabella: area della coda di una distribuzione normale standard, z > z∗ o z < −z∗
z
0.00
0.01
0.02
0.03
0.04
0.5
0.06
0.07
0.08
0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
···
···
···
···
···
···
···
···
···
···
···
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
Vi sono altri tipi di tabelle come la tabella che riporta l’area delle due code p/2
ciascuna e del complemento 1 − p. Le tabelle sono consultabili su testi di statistica e
facilmente accessibili in rete.
7
Estratto di tabella: alcuni valori dalla tabella zp/2
zp/2
1−p
%
1
0.6827
68.27
1.96 0.9500
95.00
2
0.9545
95.45
2.58 0.9900
99.00
3
0.973
99.73
4
0.9999
99.99
In generale la deviazione standard è usualmente incognita e deve essere sostituita
dalla varianza aritmetica.
Supponiamo in riferimento all’esempio precedente che la
deviazione standard del campione sia s = 0, 3 calcolata da 7 valori. Occorre rispondere
nuovamente alla domanda: se il livello di impurità è µy = 4, 0 e s = 0, 3 è una stima di σy
quale è la probabilità di occorrenza di un livello di impurità y0 = 4, 4? Poiché la deviazione
standard non è nota non è possibile riferirsi alla tabella di una distribuzione normale, ma
occorre riferirsi a una distribuzione di tipo Student t per cui
t0 =
4, 4 − 4, 0
y 0 − µy
=
= 1, 33
s
0, 3
(31)
e, anche in questo caso, il risultato può essere calcolato sulla base delle tabelle della
distribuzione Student t. Dalle tabelle risulta P r(t > 1, 33) = 0, 12. Tale risultato deriva da
un’interpolazione grafica.
Estratto di tabella: area della coda di una distribuzione t con ν gradi di libertà t > t∗ o t < −t∗
8
ν
0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
1 0.325 1.000 3.078 6.314 12.706 31.821 63.657 127.32 318.31 636.2
2 0.289 0.816 1.886 2.920 4.303 6.965 9.925 14.089 22.326 31.598
3 0.277 0.765 1.638 2.353 3.182 4.541 5.841
7.453 10.213 12.924
4 0.271 0.741 1.533 2.132 2.776 3.747 4.604
5.598
7.173
8.610
5 0.267 0.727 1.476 2.015 2.571 3.365 4.032
4.773
5.893
6.869
6 0.265 0.718 1.440 1.943 2.447 3.143 3.707
4.317
5.208
5.959
···
···
···
3.690
4.297
4.781
···
···
···
··· ···
···
···
···
···
···
···
9 0.261 0.703 1.383 1.833 2.262 2.821 3.250
··· ···
···
···
···
···
···
···
Le ipotesi necessarie per la validità della distribuzione t con ν gradi di libertà sono:
1) y ha una distribuzione normale intorno a µy con varianza σy2
2) s ha una distribuzione indipendente da y
3) la quantità s2 che ha ν gradi di libertà è calcolata da osservazioni distribuite normalmente e indipendentemente aventi varianza σy2 .
Nel caso si chieda di calcolare l’intervallo di confidenza del valore atteso µx in una serie
di misure supposta nota la distribuzione di probabilità N(µx , σx ) e la deviazione standard
la trasformazione per la variabile z sarà:
z=
√ x − µx
x − µx
√ = N
σx
σx / N
(32)
trasformando il valore medio empirico in una forma normale. Qualora la deviazione standard
non sia nota, il calcolo dell’intervallo di confidenza per una distribuzione N(µx , σx ) avviene
analogamente attraverso l’uso della variabile t con la trasformazione:
√ x − µx
x − µx
√ = N
(33)
s∗x
s∗x / N
Assumiamo un generatore di tensione costante esposto a effetti di disturbo casuali. Calcolare
tN −1 =
l’intervallo di confidenza dell’errore casuale ai livelli di confidenza 90% e 99%. Sono state
fatte allo scopo 10 misure:
V – 151.51 148.73 150.81 148.04 153.59 147.34 149.42 150.81 151.51 150.81
9
L media aritmetica risulta x = 150.26 e la varianza empirica s∗2 = 3.51 e lo scarto tipo
empirico s∗ = 1.87. Basandosi sulla dstribuzione Student t con N − 1 gradi di libertà si ha:
per 90% → p = 0.1, N − 1 = 9
x ± tN −1,p/2 √sN = 150.26 ± 1.833 1.87
= 150.26 ± 1.08
10
∗
Esempio della recluta
Quando la distribuzione di probabilità di un’osservazione è affetta dal livello di un’altra le
osservazioni sono dette statisticamente dipendenti. Per contrasto, l’ipotesi che i dati possano
essere simulati campionando casualmente da una qualche popolazione implica indipendenza
statistica. Vediamo di dirlo più chiaramente e semplicemente!
Supponiamo di conoscere la distribuzione p(y) della popolazione di altezze y di reclute
dell’esercito della Patagonia. Supponiamo di selezionare casualmente una recluta (il che
significa che ogni recluta della popolazione ha la stessa probabilità di essere scelta). Senza
vedere la recluta selezionata, che cosa sappiamo dire circa la sua altezza? Possiamo dire che
la probabilità che la recluta scelta casualmente sia più piccola di y0 m è p0 o che la probabilità
che sia più alta di y0 m ma più bassa di y1 m è p1 . Una quantità come l’altezza della recluta
scelta casualmente, che non è nota esattamente ma per cui conosciamo la distribuzione di
probabilità, è detta variabile casuale. In teoria della probabilità una variabile casuale è
una quantità i cui valori sono casuali e a cui una distribuzione di probabilità è assegnata.
Consideriamo ora la distribuzione delle altezze p(y1 ) e dei pesi p(y2 ) delle reclute dell’esercito
della Patagonia. Sia l’altezza sia il peso della recluta scelta casualmente hanno distribuzione
di probabilità e sono cosı̀ variabili casuali. La distribuzione di probabilità dei pesi di tutte
le reclute alte 1,80 m p(y2 |y1 = 1, 80) sarà però diversa da p(y2 |y1 = 1, 60). In questo
caso si dice che le variabili casuali y1 e y2 sono statisticamente dipendenti. Supponiamo di
considerare invece il quoziente intellettivo delle reclute con distribuzione y3 . È ragionevole
pensare anche che possa accadere:
p(y3 |y1 = 1, 80) = p(y3 |y1 = 1, 60)
(34)
Se qualunque sia l’altezza della recluta vale p(y3 |y1) = p(y3 ) si dirà che y1 e y3 sono statisticamente indipendenti.
Accade allora che la probabilità di scegliere una recluta alta 1,70 m e con peso 70 kg
possa essere espressa come:
10
P r(y1 = 1, 70, y2 = 70) = P r(y2 = 70)P r(y1 = 1, 70|y2 = 70)
(35)
P r(y1 = 1, 70, y2 = 70) = P r(y1 = 1, 70)P r(y2 = 70|y1 = 1, 70)
(36)
oppure
o, ancora, in generale se p(y1 , y2 ) è la distribuzione condizionata vale
p(y1 , y2) = p(y1 )p(y2|y1 ) = p(y2 )p(y1 |y2 )
(37)
e nel caso in cui le due variabili siano indipendenti statisticamente
p(y1 , y2 ) = p(y1 )p(y2)
(38)
Per n variabili y1 , y2 , ..., yn statisticamente indipendenti varrà p(y1 , y2, . . . , yn ) =
p(y1 )p(y2 ) · · · p(yn ).
Una misura della “dipendenza lineare” tra l’altezza y1 e il peso y2 è la covarianza tra y1
e y2 . Riassumendo:
σy21 = ǫ[(y1 − µ1 )2 ]
(39)
σy22 = ǫ[(y2 − µ2 )2 ]
(40)
mentre la covarianza è il valore medio nella popolazione del prodotto (y1 − µ1 )(y2 − µ2 ) ossia
σy1 y2 = ǫ[(y1 − µ1 )(y2 − µ2 )]
(41)
Se le due variabili sono indipendenti la covarianza è nulla. Infatti sviluppando il prodotto
si ha
ǫ[y1 y2 − y1 µ2 − µ1 y2 + µ1 µ2 ] = ǫ[y1 y2 ] − µ2 ǫ[y1 ] − µ1 ǫ[y2 ] + µ1 µ2 = ǫ[y1 y2 ] − ǫ[y1 ]ǫ[y2 ] (42)
Tornando al caso della recluta, in pratica, reclute che deviano positivamente (negativamente)
dall’altezza media tenderanno a deviare positivamente (negativamente) dal peso meido. Valori positivi di y1 − µ1 tenderanno a essere accompagnati da valori positivi di y2 − µ2 e la
11
covarianza tra altezza e peso sarà positiva. La covarianza è funzione della scala di misura
scelta (per esempio metri, piedi, pollici). Una covarianza adimensionale è chiamata coefficiente di correlazione ρ(y1 , y2).
ρ(y1 , y2 ) = ǫ[
(y1 − µ1 ) (y2 − µ2 )
cov(y1 , y2 )
]=
σ1
σ2
σ1 σ2
(43)
Il coefficiente di correlazione di un campione tra y1 e y2 è definito come
r(y1 , y2) =
P
(y1 − y 1 )(y2 − y 2 )
(n − 1)s1 s2
(44)
Il termine a dividere n − 1 deriva dall’uso dello stimatore non polarizzato della varianza
empirica.
Esempio: calcolare il coefficiente di correlazione per i seguenti dati:
Coefficiente di correlazione altezza - peso
Altezze in pollici 65 68 67 70 75
Pesi in libbre
150 130 170 180 220
La risposta è 0,83
Legge di propagazione dell’errore
Supponiamo di avere un sistema per cui y = f (x) e di voler conoscere la distribuzione
della probabilità dell’uscita y quando f (·) è una qualche funzione nota ed è nota la funzione di distribuzione della variabile aleatoria x. Se f (·) è non lineare, la distribuzione di
probabilità di y diventa immediatamente complicata, in particolare quando si ha più di una
variabile di ingresso. Sebbene un metodo generale di soluzione esista, la sua complessità
appare evidente anche per casi semplici. Un’approssimazione di py (y) è perciò desiderabile.
L’approssimazione consiste nella propagazione di soltanto i primi due momenti statistici, il
valore medio e il momento secondo, la varianza. Questi momenti da soli non descrivono
in generale la distribuzione di y, ma se y è assunta essere distribuita normalmente essi lo
fanno. Supponiamo che x sia distribuita normalmente con valore medio µx e deviazione
standard σx . Come si propaga l’intervallo di probabilità, per esempio [µx − σx , µx + σx ], attraverso il sistema f (·)? Innanzitutto risulta che se tale intervallo fosse mappato sull’asse y
dalla funzione originale si otterrebe qualcosa di distorto e la risultante distribuzione sarebbe
12
asimmetrica e non più gaussiana. Ricordando lo sviluppo in forma di Taylor della funzione
attorno al valor medio si ha:
y ≈ f (µx ) +
∂f
(x − µx )
∂x x=µx
(45)
In questo modo si ottiene una relazione lineare e per le proprietà dette circa le trasformazioni
lineari si ha che py (y) è distribuita normalmente con valor medio µy = f (µx ) e scarto tipo
σy = (∂f /∂x)σx essendo la derivata parziale valutata in x = µx . I due parametri µy e σy sono
un’approssimazione di qualcosa di vero incognito. Quanto è buona tale approssimazione, può
essere la domanda a cui cercare di rispondere.
Supponiamo ora di avere un sistema a più ingressi per cui y = f (x1 , x2 , · · · , xn ). Sviluppando in serie di Taylor si ottiene:
y ≈ f (µ1 , µ2 , · · · , µn ) +
n
X
∂f
(µ1 , µ2, · · · , µn )(xi − µi)
i=1 ∂xi
(46)
Tale equazione è della forma:
X
y ≈ a0 +
ai (xi − µi )
(47)
con a0 = f (µ1 , µ2 , · · · , µn ) e ai = ∂f /∂xi (µ1 , µ2 , · · · , µn ). La relazione è lineare per cui la
distribuzione di y è gaussiana e dobbiamo determinare µy e σy .
µy = ǫ[y] = ǫ[a0 +
X
i
ai (xi −µi )] = ǫ[a0 ]+
X
[ǫ[ai xi ]−ai ǫ[µi ]] = a0 +
X
[ai µi −ai µi ] = a0 (48)
i
i
da cui segue che µy = f (µ1 , µ2 , · · · , µn ). In merito alla varianza si ha:
σy2
2
= ǫ[y − µy ] = ǫ[(
X
i
X
2
ai (xi − µi )) ] = ǫ[
a2i (xi
i
2
− µi ) + 2
n−1
X
n
X
i=1 j=i+1
ai aj (xi − µi )(xj − µj )]
(49)
sviluppando ancora i passaggi si ottiene:
σy2
=
X
i
a2i ǫ[(xi
2
− µi ) ] + 2
n−1
X
n
X
i=1 j=i+1
da cui ancora
13
ai aj ǫ[(xi − µi )(xj − µj )]
(50)
σy2
=
X
i
∂f
∂xi
!2
σi2 + 2
n−1
X
n
X
∂f ∂f
σij
i=1 j=i+1 ∂xi ∂xj
(51)
Abbiamo già visto che le funzioni sono indipendenti σij = 0 per cui per funzioni di ingresso
indipendenti risulta σy2 =
P
∂f 2
i ∂xi σi .
Esempio: si consideri una resistenza R sottoposta a una tensione continua E e attraversata dalla corrente I. Come noto dalla teoria sono necessarie le due misure di tensione
e corrente per la determinazione di R. Si supponga di fare cinque gruppi indipendenti di
osservazioni simultanee delle 2 variabili di ingresso V, I.
Misure di V e I per la caratterizzazione di una resistenza R
no. prova V (V) I (A)
1
10.002 2.533
2
10.012 2.561
3
9.995 2.532
4
10.007 2.541
5
10.009 2.520
Innanzitutto occorre calcolare il valore di media e varianza empirica e si ottiene:
Calcolo degli stimatori dal campione
stimatori
V (V) I (A)
valor medio 10.005 2.574
scarto tipo
0.0067 0.0152
scarto media 0.0030 0.0068
L’incertezza tipo composta va calcolata tramite la regola generale di composizione delle
incertezze:
uc (y) =
v
u
n
uX
u
t
i=1
∂f
∂wi
!2
u2wi + 2
n−1
X
n
X
∂f ∂f
uwi ,wj
i=1 j=i+1 ∂wi ∂wj
(52)
dove nel caso specifico n = 2 essendo due le grandezze misurate. In riferimento all’esempio è
14
possibile calcolare i coefficienti di correlazione dai dati di misura (a causa della simultaneità
della serie di acquisizioni la correlazione tra le variabili non può essere trascurata). La
covarianza è calcolata sulla base dell’espressione:
uV,I =
e
n
X
1
(Vk − V )(Ik − I)
n(n − 1) k=1
(53)
uV,I
uV ui
(54)
rV,I =
Sviluppando i calcoli si ottiene rV,I = 0.4198 e u(R) = 0.0101. Il valore di R è calcolato
come R = V /I = 3.9430 Ω.
15