errori.tex typeset - Studenti di Fisica

Transcript

errori.tex typeset - Studenti di Fisica
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Richiami sulla teoria degli errori
Negli ultimi anni ho potuto sperimentare che una percentuale non indifferente di
studenti dimostra ancora delle lacune di comprensione relative agli errori di misura e alla
loro trattazione. Per questo sono solito iniziare le lezioni del modulo con un breve riepilogo
sull’argomento degli errori, di cui questa aspira ad essere la versione scritta.
Il primo argomento è una rivista (che non ha la pretesa di essere esaustiva) dei vari tipi
di errore sperimentale: vorrei che fosse chiaro che lo scopo non è imparare mnemonicamente
una lista (non si tratta degli affluenti di destra e di sinistra del Po!) ma ragionare sui diversi
meccanismi fisici che ne stanno alla base e trarne conclusioni finalizzate alla pratica.
Nella trattazione che segue facciamo astrazione da un fenomeno che è sempre associato
all’operazione di misura, ossia dal fatto che la misura perturba la grandezza da misurare.
Questo inconveniente si presenta come tecnicamente minimizzabile nella fisica classica,
mentre diventa un elemento intrinseco e ineliminabile nella fisica microscopica (principio
di indeterminazione). Nel caso delle nostre misure elettriche, tuttavia, se ne tiene conto
nella maggior parte delle situazioni semplicemente considerando gli equivalenti circuitali
degli apparecchi di misura, e quindi, ad esempio, tenendo conto che un amperometro reale
avrà, rispetto a uno ideale, una resistenza in serie, mentre un voltmetro ne avrà una in
parallelo.
La prima suddivisione che viene generalmente fatta riguardo agli errori è fra errori a
priori e errori a posteriori. Anche noi seguiremo questo schema.
1. Errori a priori
Si chiamano errori a priori tutti quegli errori che derivano dai limiti di precisione e di
sensibilità degli strumenti di misura e che, avendo a disposizione l’informazione completa
sugli apparecchi, si possono valutare già prima di eseguire la misura stessa (anche se in
certi casi, ad esempio per gli errori di sensibilità, può essere conveniente una procedura
di valutazione durante la misura). I tipi fondamentali di errori a priori sono gli errori di
taratura, lettura e sensibilità. I confini fra le categorie, soprattutto fra le ultime due, non
sempre sono nettissimi, ma d’altra parte il nostro scopo è cercar di capire, non classificare.
1.1 Errori di taratura
In questa categoria rientrano gli errori derivanti dal fatto che lo strumento di misura,
per limiti intrinseci di precisione, fornisce una risposta che non corrisponde esattamente
alla grandezza misurata. Se ad esempio g è, in unità opportune, il valore che verrebbe
ipoteticamente misurato da uno strumento perfetto, uno strumento reale darà come risultato m = f (g). In alcuni casi il comportamento dello strumento reale si può considerare in
buona approssimazione ancora lineare rispetto alla grandezza da misurare, per cui avremo
Made with Macintosh
1
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
m = (1 + α)g + β, dove la costante α, positiva o negativa, dà l’errore di scala e β quello
che si chiama normalmente errore di offset.
L’errore di taratura di uno strumento è dato di norma dal costruttore del medesimo:
nel caso si tratti di un errore di scala, potrà essere un errore percentuale sulla misura (come
avviene nel caso dell’oscilloscopio). Nel caso invece l’errore derivi da una non linearità,
viene fornito generalmente come errore il massimo scarto dello strumento lungo la scala,
quindi un errore assoluto. A volte questo errore è dato come percentuale del fondo scala
dello strumento, ma questo non deve trarre in inganno: si tratta di un errore che va
applicato ad ogni misura effettuata sulla scala e quindi in sostanza un errore assoluto. Ad
esempio per i voltmetri analogici l’errore di taratura è espresso attraverso la “classe” dello
strumento (classe 1 = errore pari all’1% del fondo scala; se il f.s. è 15 V l’errore sarà 0.15 V
per qualsiasi misura sulla scala), mentre per il divisore l’errore di taratura è dato in p.p.m.
del f.s. (e, come noto, dipende dalla decade non nulla più significativa): se ad esempio è
10 p.p.m. significa che ogni misura del rapporto di partizione, che ovviamente ha f.s. pari
a 1, avrà un errore assoluto di 10−5 .
m
f.s.
m
a)
b)
f.s.
M
g
g
Fig. 1.1 Esempi di andamenti m(g) (errori esagerati per una migliore visualizzazione). In a) l’errore è
prevalentementeØ di scala
Ø e m = (1 + α)g per cui in genere il costruttore darà un errore percentuale sulla
∆m
α Ø
Ø
misura m = 1+α ' |α| ≤ x (ossia il costruttore fornisce la percentuale massima di cui, in più o in
meno, la misura può scartare dal valore vero; se si conoscesse il valore effettivo di α potremmo correggere
le misure e l’errore non sussisterebbe più). In b) la non linearità della scala contribuisce sostanzialmente
all’errore. In questo caso è norma considerare il massimo scarto fra misura e grandezza (M in figura 1.1)
|M |
e dare questo come errore assoluto o, più spesso, fornire la grandezza adimensionale l =
come errore
f.s.
relativo del f.s., con la convenzione che a qualsiasi misura sulla scala si applica uno stesso errore assoluto
∆m = l · f.s. = |M |.
Un caso interessante di errore di taratura è quello degli oscilloscopi che usiamo in
Made with Macintosh
2
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
laboratorio, per cui il fornitore dichiara un errore di taratura del 3% sia per l’asse verticale
(tensioni) che orizzontale (tempi). Questo significa che la causa principale di errore non è
data dalla non linearità, ma da un errore di scala, e avremo
m = (1 + α)g + β
con
|α| ≤ 0.03.
(1.1)
Il termine β nelle misure fatte con l’oscilloscopio è legato al fatto che non esiste un punto
di 0 fissato né sull’asse orizzontale né sul verticale, dato che la posizione del fascio può
essere spostata con le apposite manopole di position. D’altra parte le misure si prendono
sempre per differenza fra due punti sulle scale, per cui non gioca alcun ruolo:
m2 − m1 = (1 + α)(g2 − g1 )
(1.2)
Se poi si considera il rapporto fra due misure prese per differenza abbiamo:
m4 − m3
(1 + α)(g4 − g3 )
g4 − g3
=
=
m2 − m1
(1 + α)(g2 − g1 )
g2 − g1
(1.3)
Quindi nel rapporto di due misure è corretto non considerare l’errore di taratura. Questo vale naturalmente solo se le misure sono prese con la stessa scala, dato che per ogni
posizione delle manopole che regolano le portate vengono inseriti nel circuito componenti
fisicamente diversi, per cui non c’è nessun motivo per cui il valore di α resti lo stesso.
Inoltre le misure sull’asse y dovrebbero essere prese con lo stesso canale d’ingresso dell’oscilloscopio, mentre invece sono normalmente usati entrambi i canali. In pratica si può
(e, almeno una volta durante il corso, si dovrebbe) verificare che se mandiamo uno stesso
segnale ai due canali messi sulla stessa scala, una volta sovrapposte le tracce agendo sulle
manopole position, queste restano coincidenti, entro quanto l’occhio riesce ad apprezzare,
anche se si varia l’ampiezza del segnale. Per questo si considera accettabile eliminare gli
errori di taratura per rapporti di misure prese con la stessa scala su canali diversi.
1.2 Errori di lettura
Questi errori derivano dai limiti di precisione con cui è possibile leggere la misura
sulla scala di uno strumento analogico o dall’approssimazione del numero presentato da
uno strumento digitale.
Nel caso di strumenti analogici, l’errore di lettura dipende anche dall’acutezza visiva
dello sperimentatore, ma in genere lo si considera pari a metà della divisione più piccola
della scala nel punto di misura. Tuttavia, va considerato a parte il caso in cui non si
sta leggendo la scala di uno strumento di misura (ad es. un voltmetro analogico) ma
Made with Macintosh
3
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
impostando un valore preciso di una grandezza su una scala, come ad esempio quando
si imposta l’angolazione della sonda di Hall per mezzo del goniometro a essa associato.
In questo caso non si tratta di giudicare la posizione di una lancetta fra due tacche di
una scala, ma l’allineamento di una tacca mobile con una fissa. In questa operazione la
sensibilità dell’occhio è molto maggiore: pensando al nonio, artificio che sfrutta questa
proprietà, arriviamo al risultato che, se lo spessore delle tacche è sufficientemente più
piccolo della distanza fra esse, l’errore nel valutare l’allineamento si può realisticamente
stimare a 1/10 di divisione.
In uno strumento digitale che converte in numero (in unità opportune) una grandezza
analogica esiste un errore intrinseco di troncamento, pari a 1/2 dell’ultima cifra del
display. Se ad esempio la lettura, nelle unità del caso, fosse 1.234, per un apparecchio
perfetto significherebbe che la misura è compresa fra 1.2335 e 1.2345, sempre nelle stesse
unità. In pratica, quasi sempre i convertitori analogico–digitali (ADC) contenuti negli
strumenti commettono errori di conversione più grandi, pari ad alcune unità della cifra
meno significativa che viene presentata, e l’errore di troncamento si può pensare compreso
nell’errore di conversione dato dal costruttore.
Sempre in relazione all’errore di troncamento, va segnalato che a volte gli studenti
lo applicano, come errore di lettura, anche ai valori impostati su campioni a decadi o
sul divisore di tensione. In questo caso considerare l’errore di troncamento è del tutto
sbagliato: infatti se per esempio ho impostato su un campione di resistenza il valore 123 Ω
non esiste nessun motivo per attribuire un errore di ±0.5 Ω. In questo caso non stiamo
convertendo in numero approssimato una grandezza continua, ma abbiamo costruito noi
un valore a partire da campioni discreti e tale valore è affetto solo dall’errore di taratura
dei campioni stessi; se ogni decade ha un limite di precisione dello 0.02%, l’errore sul valore
impostato sarà ±0.025 Ω. Il fatto che il nostro campione non permetta variazioni più fini
di 1 Ω potrà eventualmente renderlo poco adatto in operazioni come l’azzeramento di un
ponte, ma non incide direttamente sulla precisione dei valori impostati. Alcuni studenti
hanno notato che nelle dispense del prof. Poggi,1 a pag. 116, si parla di errori di lettura nella
misura potenziometrica, ma si tratta di un equivoco: quel punto si riferisce non al divisore,
ma a un potenziometro della ditta Leeds & Northrup che veniva usato precedentemente,
la cui regolazione fine era effettuata tramite una manopola a corsa continua. Pertanto, gli
errori di lettura lı̀ indicati non si applicano alla misura col divisore.
1.3 Errori di sensibilità
L’errore di sensibilità corrisponde alla minima variazione della grandezza misurata che
lo strumento è in grado di percepire. In alcuni casi, per esempio quando si sta usando il
fondo scala più piccolo con cui si può misurare la quantità data, l’errore di sensibilità viene
a coincidere con l’errore di lettura.
In laboratorio capitano però un certo numero di situazioni in cui l’errore di sensibilità
1
Stiamo parlando di Esperimenti di elettricità e magnetismo del prof. Giacomo Poggi. Da ora in poi ci
riferiremo a questo testo semplicemente come Dispense.
Made with Macintosh
4
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
gioca un ruolo diverso: questo avviene quando stiamo aggiustando il valore di un certo
numero di campioni C1 , Cn in modo che si verifichi una determinata condizione rivelata
da uno strumento X. Esempi sono l’azzeramento dei ponti in alternata e le misure potenziometriche; in pratica lo strumento X è quasi sempre un rivelatore di zero. In questo
caso il limite di sensibilità dello strumento X farà sı̀ che la condizione cercata, teoricamente “puntiforme”, si mantenga per un intervallo finito di valori dei campioni C1 , Cn . Gli
intervalli entro cui la condizione rilevata da X è verificata vengono presi come errori di
sensibilità sui valori dei campioni: in pratica, il limite di sensibilità deriva dallo strumento
X ma ci serve poter attribuire l’incertezza che ne risulta ai valori dei campioni che stiamo
variando.
circuito di misura
C1
1
2
3
4
5
.
6
C2
1
2
3
4
5
.
6
C3
1
2
3
4
5
.
6
X
Fig. 1.2 Nel circuito si variano i valori dei campioni a decadi C1 , C2 e C3 in modo da ottenere una
determinata lettura (0) sullo strumento X.
Conoscendo il circuito (per le quantità da misurare, almeno l’ordine di grandezza) e
le caratteristiche degli strumenti è possibile in generale dare una stima a priori dell’errore
di sensibilità ma molto spesso si preferisce ricavare sperimentalmente detti errori durante
la misura. Questo si fa variando uno alla volta i campioni C1 , Cn rispetto alla posizione in
cui lo strumento X verifica al meglio la condizione, fino ad osservare una variazione nella
lettura di X. In ciò va considerato un punto molto importante: quasi sempre nel circuito di
misura sono presenti altri elementi che giocano anch’essi un ruolo sulla situazione finale in
cui si verifica la condizione cercata, ma per ottenere la condizione è necessario poter variare
finemente solo un certo numero di campioni indipendenti (che potremmo considerare, con
analogia alla meccanica, i “gradi di libertà” del nostro circuito). L’errore di sensibilità
dovrà essere valutato solo sul numero di campioni che sono, in questo senso, strettamente
necessari per il raggiungimento della condizione.
Il discorso si spiega meglio con esempi concreti: nei ponti in corrente alternata
l’azzeramento (o comunque il minimo) del null detector si ottiene variando finemente due
dei campioni con cui sono costituiti i rami noti. Quindi l’errore di sensibilità andrà valutato solo su due elementi. Se, ad esempio, abbiamo montato un ponte di De Sauty serie
o parallelo, secondo uno degli schemi a pag. 225 delle Dispense, e l’abbiamo azzerato variando finemente i campioni R e C, sarà su questi soltanto che dovremo valutare l’errore
di sensibilità, mentre sarebbe grossolanamente sbagliato valutarlo anche su R1 e R2 . Sarebbe formalmente corretto, anche se non pratico e quindi sconsigliabile, valutare l’errore
Made with Macintosh
5
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
variando R e una delle resistenze R1 , R2 , o anche C insieme a R1 o R2 , ma non variando
R1 e R2 , in quanto la sola variazione di questi campioni non permette l’azzeramento del
ponte.
Una situazione analoga si verifica nelle misure con il divisore di tensione: qui l’azzeramento del rivelatore di zero dipende da un unico parametro e quindi l’errore di sensibilità
sarà valutato su un solo campione. È interessante notare come nella taratura del divisore si mantenga il medesimo fisso su un rapporto pre-impostato r0 , mentre si ottiene
l’azzeramento variando la tensione del generatore che lo alimenta e/o la resistenza di un
reostato posto in serie; purtuttavia la valutazione finale di sensibilità viene fatta variando
il rapporto di divisione r0 , una volta ottenuto l’azzeramento. La procedura è perfettamente corretta, dato che il sistema ha “un grado di libertà”, ed è l’unica che ci permette di
ottenere un errore di sensibilità utilizzabile nell’elaborazione successiva.
Nella valutazione dell’errore di sensibilità di ciascun campione possono capitare due
situazioni–limite:
a) Per far uscire lo strumento X dalla condizione cercata occorre variare il valore del
campione, di solito in entrambe le direzioni, di una quantità superiore alla variazione più piccola possibile (che, per campioni a decadi, corrisponde ovviamente a un
passo della decade meno significativa). Avremo quindi un intervallo (ca , cb ) in cui
lo strumento X si mantiene fisso. In questo caso è inutile ricorrere a considerazioni
più complicate, ma basta considerare il punto medio dell’intervallo, (cb + ca )/2 come
valore migliore del campione e la semilarghezza (cb − ca )/2 come errore di sensibilità
ad esso associato.
b) Può capitare invece che il campione in questione non consenta variazioni abbastanza
fini, per cui nessuna impostazione riesce a portare lo strumento X esattamente nella
condizione voluta. In questo caso, se possiamo considerare l’andamento della lettura
di X come funzione lineare del valore del campione C nell’intorno dell’azzeramento
(cosa che avviene nelle misure con il divisore), possiamo valutare un valore c corrispondente alla verifica della condizione per interpolazione. Consideriamo (riferendoci
per concretezza al divisore), che con un valore ca del campione lo strumento X dia la
lettura xa e che incrementando del minimo passo possibile ∆cmin si ottenga la lettura xb , mentre la condizione voluta è l’azzeramento. Se stiamo lavorando “a cavallo”
dell’azzeramento, xa e xb avranno segni opposti, ad esempio xa < 0 e xb > 0. La
relazione lineare fra la lettura x e il valore c del campione è:
x − xa
c − ca
=
xb − xa
∆cmin
(1.4)
Il valore c corrispondente a x = 0 sarà allora:
c = ca −
Made with Macintosh
xa
∆cmin
xb − xa
6
(1.5)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
(si tenga presente che xb e xa hanno sempre segno opposto, per cui risulta, come
aspettato, ca < c < ca +∆cmin ). Per la valutazione dell’errore di sensibilità, dobbiamo
trovare la variazione ≤c del campione che corrisponde alla minima variazione ∆xmin
percepibile sulla scala dello strumento. Per la linearità:
≤c
∆cmin
=
∆xmin
|xb − xa |
(1.6)
da cui si ricava l’errore di sensibilità per il campione:
≤c =
∆xmin
∆cmin
|xb − xa |
(1.7)
Questo il procedimento generale; in pratica nella misura con il divisore, se si sfruttano tutte le decadi come è conveniente fare, in queste condizioni l’errore di taratura,
dovuto al limite di linearità del dispositivo, è senz’altro più grande di ∆cmin , per cui
l’interpolazione diventa superflua e l’errore di sensibilità trascurabile rispetto a quello
di taratura.
Come già rilevato sopra, questo tipo di procedura è applicabile solo quando esista
una relazione lineare, almeno per piccoli spostamenti, fra il valore della misura x e
quello dei parametri. Ciò non avviene ad esempio nel caso dei ponti in corrente alternata, in cui il rivelatore di zero risponde al modulo della tensione alternata applicata
e quindi ha un andamento tutt’altro che lineare nell’intorno del minimo. In questo
caso non si potrebbe far altro che scegliere il valore del campione che corrisponde alla
minima lettura sullo strumento e stimare l’errore di sensibilità pari a ∆cmin /2.
2. Errori a posteriori
Il concetto di errore a posteriori2 nasce dalla constatazione sperimentale che in determinati casi, ripetendo una stessa misura in quelle che si ritengono essere sempre le
medesime condizioni, si ottiene ogni volta un risultato diverso. Nel campo della fisica
classica, e quindi nelle misure del laboratorio, il fenomeno viene interpretato come causato
da un certo numero di fluttuazioni nelle condizioni, che alterano in modo imprevedibile il
risultato delle misure; nella fisica microscopica esistono poi fenomeni, come il decadimento
nucleare, il cui decorso è intrinsecamente probabilistico.3 Comunque, prima di addentrarci
nell’argomento, vale la pena di premettere due cose:
2
3
Lo scopo di quanto segue è di perfezionare le informazioni sull’errore statistico che sono state date nei corsi
precedenti di laboratorio, approfondendo alcuni punti fondamentali, senza avere minimamente la pretesa
di costituire una trattazione esaustiva dell’argomento, per la quale si rimanda ai corsi ancora successivi.
Se nel corso di laboratorio eseguissimo anche misure di rumore, potremmo già imbatterci in effetti probabilistici, di natura quantistica.
Made with Macintosh
7
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
a) una condizione necessaria per poter operare un trattamento degli errori a posteriori
è che gli scarti fra misura e misura siano ben maggiori del limite di sensibilità degli
strumenti. Eventuali errori di taratura che intervengano nella misura, purché le fluttuazioni siano sufficientemente piccole (rispetto al valore della misura e/o al fondoscala dello strumento), si possono pensare uguali in ogni misura, per cui l’errore a
posteriori si aggiunge a quello di taratura.
b) Uno sperimentatore che si trovi nella situazione per cui le misure successive in condizioni macroscopicamente identiche hanno una dispersione molto maggiore del limite
di sensibilità dello strumento dovrà prima di tutto assicurarsi che l’effetto non derivi
da una disfunzione del medesimo o da uno o più “parametri ambientali” che stanno
variando fra una misura e l’altra. Un esempio tipico può essere quello di misure prese
mentre la temperatura sta cambiando. Non esiste una procedura applicabile in ogni
caso che possa far discriminare fra le due situazioni: un elemento a favore di parametri
non controllati è sicuramente un eventuale trend temporale deciso delle misure, ossia
il fatto che le misure successive tendano a salire o a scendere. Questa problematica
sussiste soprattutto quando, come capita nell’attività di ricerca, si lavori con strumenti e/o in situazioni nuove mai sperimentate prima: nelle misure del nostro laboratorio
sappiamo invece se dobbiamo aspettarci fluttuazioni statistiche e di che tipo.
Prima di poter trattare gli errori a posteriori dal punto di vista dello sperimentatore,
è necessario richiamare alcuni concetti fondamentali di statistica. Ci limiteremo a quanto
indispensabile per gli scopi che ci profiggiamo.
2.1 Definizioni
Prima di tutto alcune definizioni: chiameremo esperimento casuale una procedura
che dà un risultato in generale diverso a ogni iterazione e comunque non prevedibile, e
variabile casuale il risultato di un tale esperimento. Una variabile casuale si distingue da
una normale variabile (il cui valore può essere noto, incognito, ricavabile da un’equazione,
ecc.) in quanto il suo valore risulta da un esperimento casuale e non può essere altrimenti
conosciuto. Per contraddistinguere questo tipo di variabili useremo nelle formule una
grafia particolare, ad esempio x, mentre le normali variabili algebriche saranno espresse in
corsivo: x. A seconda dello specifico esperimento casuale i valori prodotti apparterranno
a un diverso insieme S, xi ∈ S. S potrà essere ad esempio l’insieme dei numeri reali, o un
intervallo finito, o un insieme discreto di valori (per il lancio di un dado S = {1, 2, 3, 4, 5, 6}).
Se applichiamo una funzione H a una variabile casuale x avremo una funzione di variabile
casuale H(x) (ad esempio H(x) = x2 ).
Consideriamo un sottoinsieme E ⊂ S e diciamo che nell’esperimento casuale si verifica
l’evento ≤ corrispondente a E se x ∈ E (ad es., se S è l’insieme dei reali, E può essere un
intervallo (a, b), per il lancio di un dado potrebbe essere E = {1, 3, 5}). Definiamo la
probabilità dell’evento ≤ nel modo seguente: ripetiamo l’esperimento n volte e contiamo il
Made with Macintosh
8
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
numero di volte n≤ in cui l’evento si verifica. Definiamo4
n≤
n→∞ n
P (≤) = lim
(2.1)
.
2.2 Alcune proprietà di probabilità
Sia S è l’insieme dei possibili risultati di un esperimento casuale. Avremo
2.2.1 P (S) = 1.
2.2.2 Se A, B sono due sottoinsiemi di S, definiamo P (AB) la probabilità che si verifichino
contemporaneamente A e B, ossia che il risultato x dell’esperimento casuale risulti
x ∈ A e contemporaneamente x ∈ B. Definiamo A e B mutuamente disgiunti
se P (AB) = 0. Come esempio banale, per il lancio di un dado, gli eventi per cui i
risultati sono diversi sono tutti disgiunti fra loro.
2.2.3 Se A e B sono mutuamente disgiunti, P (A + B), ossia la probabilità che il risultato
dell’esperimento casuale appartenga ad A o a B risulta P (A + B) = P (A) + P (B). Ad
esempio, la probabilità che lanciando un dado si ottenga 1 o 2 vale 1/6 + 1/6 = 1/3.
2.2.4 Definizione di probabilità condizionale. Si definisce P (A|B), ossia probabilità di A
sotto la condizione B, mediante l’espressione P (A|B) = P (AB)/P (B). La probabilità
condizionale P (A|B) rappresenta la probabilità che si verifichi A negli eventi per cui
si conosce già che è verificato B. Come esempio semplice consideriamo la probabilità
che il lancio di un dado produca un risultato minore di 4 sotto la condizione che
(ossia fra gli eventi in cui) il risultato è pari. In questo caso P (AB) = 1/6 dato che
l’unica possibilità è data dal risultato 2. P (B), ossia la probabilità di un risultato pari,
vale P (B) = 1/2. Conseguentemente dalla formula data P (A|B) = 1/3. Allo stesso
risultato si giunge considerando che gli eventi pari sono {2, 4, 6}, fra loro equiprobabili,
e che l’evento che ci interessa è 2.
2.2.5 Definizione di indipendenza. Si definiscono gli eventi A e B mutuamente indipendenti se e solo se P (A|B) = P (A), ossia se la probabilità di trovare A sotto la
condizione B è uguale a quella di trovare A in generale. Come utile corollario, se A
e B sono mutuamente indipendenti P (AB) = P (A) · P (B). Quest’ultima espressione
è la forma in cui è maggiormente noto il concetto di indipendenza, ed è largamente
usata nei problemi di calcolo combinatorio.5 A chiarificazione del concetto, prendiamo
4
5
Questa è la definizione empirica di probabilità sulla base della frequenza. Esistono approcci più assiomatici
alla probabilità che non si basano su questa definizione, ma essa è perfettamente adeguata per i nostri
scopi.
A prima vista può apparire che la nostra definizione di indipendenza mutua sia in qualche modo “asimMade with Macintosh
9
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
l’esempio dato in 2.2.4: in questo caso palesemente A (risultato < 4) e B (risultato
pari) risultano non indipendenti fra loro, come risulta anche intuitivamente vero; corrispondentemente P (A) = 1/2 e P (A|B) = 1/3. Consideriamo invece un esperimento
casuale in cui si lanciano due dadi, uno bianco e uno nero (ossia, fra loro riconoscibili).
Consideriamo come evento A quello per cui il dado bianco dà risultato 2 e come evento
B quello in cui il dado nero dà risultato pari. Possiamo indicare gli eventi corrispondenti con le possibili coppie (xb , xn ) dove xb e xn sono rispettivamente i risultati del
dado bianco e di quello nero; le coppie diverse sono 36, tutte equiprobabili e si tratta
evidentemente di eventi disgiunti. Le coppie in cui xb = 2 e xn è pari sono (2, 2), (2, 4)
e (2, 6). Risulta quindi P (AB) = 3 · (1/36) = 1/12. Inoltre le coppie per cui xn è
pari sono in tutto 18, per cui P (B) = 1/2. Abbiamo allora P (A|B) = 1/6 = P (A), a
conferma del fatto intuitivo che i risultati dei due dadi sono fra loro indipendenti.
2.3 Funzione di distribuzione e densità di probabilità
Se consideriamo un esperimento casuale che produca risultati in un insieme S di numeri
reali, non possiamo in generale attribuire una probabilità a un singolo valore prodotto:
ad esempio, se l’esperimento produce risultati nell’intervallo [0, 1) non ha senso parlare
di probabilità che il risultato sia 0.5. Questo perché, dato che trattiamo di un insieme
continuo, la (2.1) dà risultato nullo se l’evento considerato corrisponde all’ottenimento di
un qualsiasi valore singolo. Ha invece senso considerare la probabilità che la nostra variabile
casuale x risulti minore di un valore prefissato x, P (x < x). Per un dato esperimento
casuale, questa probabilità definisce una funzione di F (x) che viene chiamata funzione
di distribuzione:
F (x) = P (x < x)
(2.2)
Si noti che la funzione di distribuzione non è una funzione di variabile casuale ma della
variabile reale “normale” x. Questo perché non rappresenta il risultato di singoli esperimenti casuali, ma la probabilità che un risultato stia in un certo intervallo. La funzione di
distribuzione di un qualsiasi esperimento casuale ha le seguenti proprietà:
• è monotona non decrescente
• se l’insieme S dei valori possibili dell’esperimento casuale è contenuto in un intervallo
finito, S ∈ [a, b] F (x) = 0 per x ≤ a e F (x) = 1 per x ≥ b. Se l’insieme S non è
limitato inferiormente e/o superiormente avremo, rispettivamente, limx→−∞ F (x) = 0
e limx→+∞ F (x) = 1.
Possiamo quindi considerare in generale la funzione di distribuzione sempre definita
su tutto l’lasse reale, anche quando l’insieme S dei possibili risultati è limitato.
metrica” rispetto ad A e B. Tuttavia è immediato vedere che, se è verificata la condizione P (A|B) = P (A),
automaticamente P (B|A) = P (AB)/P (A) = P (A) · P (B)/P (A) = P (B), ossia è verificata anche la condizione “duale” di quella che abbiamo usato come definizione.
Made with Macintosh
10
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
A partire dalla funzione di distribuzione possiamo costruire un’ulteriore funzione se
consideriamo la probabilità (infinitesima) che la nostra variabile casuale x cada in un
intervallo infinitesimo [x, x + dx)
P (x ≤ x < x + dx) = F (x + dx) − F (x) =
dF (x)
dx = f (x) dx
dx
(2.3)
La funzione f (x) che cosı̀ si ottiene è detta densità di probabilità. Le sue proprietà
sono:
Z +∞
f (x) ≥ 0 ∀x
f (x) dx = 1
P (x ≤ x < x + dx) = f (x) dx
(2.4)
−∞
L’integrale della seconda espressione è indicato fra −∞ e +∞: nel caso la variabile x sia
confinata in un campo più ristretto, si può lasciare l’integrale in questa forma considerando
f (x) = 0 al di fuori del campo, come risulta dalla (2.3). Anche la variabile x in f (x) è
una normale variabile, e non una variabile casuale. La funzione rappresenta, punto per
punto, il rapporto fra la probabilità che un evento cada in un intervallo infinitesimo in
corrispondenza del punto e la larghezza dell’intervallo, da cui il nome.
Possiamo arrivare alla densità di probabilità anche in un altro modo: Consideriamo
un esperimento casuale che produca risultati in un intervallo S = [a, b). Ripetiamo n volte
l’esperimento e costruiamo un istogramma della distribuzione dei risultati (x1 , x2 . . . xn ), dividendo S in intervalli di ugual larghezza e assegnando a ciascun rettangolo dell’istogramma
un’altezza tale che la sua area risulti uguale a ni /n, dove ni è il numero di eventi caduti
nell’intervallo stesso. Se aumentiamo via via n e corrispondentemente restringiamo la larghezza degli intervalli l’istogramma tenderà ad assomigliare ad una funzione. Se facciamo
tendere idealmente n → ∞ e simultaneamente a zero la larghezza degli intervalli, il nostro
istogramma finisce per definire una funzione vera e propria.
Conoscere la funzione di distribuzione o la densità di probabilità significa avere la
conoscenza completa sull’esperimento casuale. Quando un esperimento casuale ha come
densità di probabilità una certa f (x), si suole dire che segue la distribuzione (o la sua
statistica 6 ) è f (x).
2.4 La gaussiana
Fra le infinite funzioni che soddisfano i criteri per rappresentare la densità di probabilità di un esperimento casuale, la funzione gaussiana ha un ruolo particolarmente
6
Il termine statistica viene usato con significati diversi: oltre che essere il nome della materia di cui stiamo
illustrando i rudimenti, si usa appunto per indicare il tipo di distribuzione (ad es.: “questo fenomeno segue
una statistica gaussiana”) oppure anche per valutare la quantità di dati raccolta in un esperimento: quando
si dice ad esempio “abbiamo raccolto poca statistica” significa che la quantità di dati non è sufficiente per
ricavare il risultato cercato con la precisione voluta.
Made with Macintosh
11
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
0.5
0.4
-4
10
0.4
0.3
0.3
0.2
0.2
0.1
0.1
-2
4
2
0.4
0.3
50
0.5
-4
-2
2
4
5 . 10 3
500
0.2
0.1
-4
-2
0.4
0.3
-4
-2
4
2
0.4
5 . 10 4
0.3
0.2
0.2
0.1
0.1
2
4
-4
-2
5 . 10 5
2
4
Fig. 2.1
Costruzione empirica della densità di probabilità per una distribuzione gaussiana, ottenuta
estraendo numeri casuali per mezzo di un algoritmo di calcolatore. Il numero indicato per ciascun grafico è
il numero di ripetizioni dell’esperimento. In rosso gli istogrammi e in nero la densità di probabilità teorica.
Made with Macintosh
12
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
0.4
0.3
σ
0.2
0.1
2σ
3σ
-4
Fig. 2.2
-2
2
4
Densità di probabilità gaussiana con parametri x̂ = 0 e σ = 1.
importante:7
(x−x̂)2
1
f (x) = √
e− 2σ2
2πσ
(2.5)
Da un punto di vista matematico possiamo rilevare che
a) La curva rappresentata ha una forma a campana, con il massimo in x = x̂ ed è
simmetrica rispetto a questo valore.
b) Il parametro σ dà una misura della larghezza della curva. Per x = x̂ ± σ la curva ha
un flesso e il suo valore è circa 3/5 del valore massimo.
c) La probabilità che in un esperimento casuale con densità di probabilità gaussiana sia
x̂−σ < x < x̂+σ è di circa il 68%. Se si allarga l’intervallo a |x− x̂| < 2σ e |x− x̂| < 3σ
la probabilità che il risultato cada all’interno sale rispettivamente al 95% e 99.7%.
La curva gaussiana è cosı̀ importante da un punto di vista statistico per il seguente
motivo: se su una misura a agisce una perturbazione ±∆a che ha il 50% di probabilità
di sommarsi e il 50% di probabilità di sottrarsi, avremo due valori equiprobabili. Se
7
Per il calcolo del fattore di normalizzazione della funzione gaussiana che appare nella formula, vedi appendice al punto 1.
Made with Macintosh
13
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
facciamo agire successivamente p perturbazioni di questo tipo, diminuendone allo stesso
tempo in proporzione l’entità, ossia riducendo la loro ampiezza a ±∆a/p, i risultati possibili
diventeranno p + 1 e le relative probabilità, al crescere di p, tenderanno a quelle di una
distribuzione gaussiana centrata in a.
Fig. 2.3
Quinconce di Galton.
Un dispositivo che illustra questo fenomeno è il cosiddetto Quinconce di Galton (fig.
2.3), un piano inclinato lungo cui si fanno cadere delle sferette, che incontrano sul loro
cammino diverse file, fra loro sfalsate, di paletti cilindrici e sono raccolte infine in una serie
di canali di ugual larghezza, tali da visualizzare praticamente un istogramma dei punti
finali di caduta.
Per tale motivo in molte situazioni sperimentali (fra cui quelle nel nostro laboratorio
a cui applicheremo l’analisi degli errori a posteriori), in cui possiamo pensare a un meccanismo perturbativo che opera cosı̀, le misure risulteranno distribuite in modo gaussiano.
Infine il teorema del limite centrale, di cui parleremo nel seguito, conferisce un ruolo ancora
più importante alla distribuzione gaussiana.
2.5 Valore d’aspettazione e momenti di una distribuzione
Data una variabile casuale x con densità di probabilità f (x) e una funzione H(x), si
definisce valore d’aspettazione (expectation value) di H(x)
E {H(x)} =
Z
+∞
H(x)f (x) dx
(2.6)
−∞
Si noti che nell’integrale è contenuta H(x), funzione di variabile reale, per cui l’integrale
Made with Macintosh
14
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
si può calcolare con i metodi consueti e dà come risultato un valore numerico (se x e H(x),
come in genere nel nostro caso, sono grandezze fisiche, il valore avrà opportune dimensioni
e unità di misura).
Un caso particolare molto importante si ha quando H(x) = x e si calcola il valore
d’aspettazione della variabile causale stessa
x̂ = E {x} =
Z
+∞
xf (x) dx
(2.7)
−∞
Il valore x̂ è detto anche valor medio (mean value) o semplicemente media (mean) della
distribuzione. Esso dà informazione su come la distribuzione è collocata sull’asse delle x.
Per distribuzioni simmetriche intorno a un massimo, come la gaussiana, corrisponde alla
posizione del massimo.
Si definisce poi, nelle stesse condizioni, varianza (variance) di H(x)
n
o
2
2
var {H(x)} = σH(
=
E
(H(x)
−
E
{H(x)})
x)
(2.8)
La varianza è quindi il valore di aspettazione del quadrato della differenza fra la funzione
di variabile casuale H(x) e il suo valore di aspettazione. La varianza è sempre positiva. La
radice quadrata della varianza si indica in genere con il simbolo σ e si chiama deviazione
standard (standard deviation). Si dimostra facilmente8 che la varianza si può scrivere
anche come
n
o
2
2
2
σH(
=
E
[H(x)]
− [E {H(x)}]
(2.9)
x)
ossia come differenza fra il valore d’aspettazione del quadrato della funzione e il quadrato
del valore d’aspettazione della funzione stessa.
Anche in questo caso assume importanza particolare la deviazione standard della
variabile casuale stessa
n
o Z
2
σx = E (x − x̂) =
2
+∞
−∞
(x − x̂)2 f (x) dx
(2.10)
La deviazione standard dà una misura della larghezza della distribuzione intorno alla
media. Nel caso di una distribuzione gaussiana media e standard deviation corrispondono
8
Vedi appendice al punto 2.
Made with Macintosh
15
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
proprio ai parametri della funzione come li abbiamo introdotti sopra, e la loro conoscenza
implica la conoscenza completa della distribuzione.
2.6 Generalizzazione a più variabili
Un esperimento casuale non produce necessariamente una sola variabile, ma ne può
generare un numero qualsiasi ad ogni iterazione (come esempio banale, si pensi di tirare
contemporaneamente un certo numero di dadi di colore diverso). Iniziamo a trattare il caso
di due variabili: la densità di probabilità sarà in generale una f (x, y) con le caratteristiche
f (x, y) ≥ 0 ∀(x, y)
Z
+∞
−∞
Z
+∞
f (x, y) dxdy = 1
−∞
(2.11)
f (x, y) dxdy = P (x < x < x + dx, y < y < y + dy)
In più, avremo anche le densità di probabilità marginali fx (x) e fy (y) di ciascuna
variabile, ossia le distribuzioni che si ottengono considerando una sola delle variabili alla
volta e ignorando l’altra. È piuttosto evidente che vale
fx (x) =
Z
+∞
f (x, y) dy
fy (y) =
−∞
Z
+∞
f (x, y) dx
(2.12)
−∞
Per come sono costruite, le funzioni date sono effettivamente non negative e normalizzate
a 1, come necessario per delle densità di probabilità.
Vogliamo adesso calcolare la densità di probabilità di una variabile negli eventi in cui
l’altra soddisfa una condizione, ossia appartiene a un sottoinsieme del suo campo di valori.
In particolare, proviamo a calcolare in funzione di x la probabilità Pc che sia x ≤ x < x+dx
negli eventi in cui y0 ≤ y < y0 + dy, con y0 fissato.
Utilizzando il concetto di probabilità condizionale visto al § 2.2.4, possiamo dire che
la probabilità cercata per ogni valore di x è il rapporto fra la probabilità che un evento
cada nel rettangolo infinitesimo con vertice (x, y0 ) e lati dx, dy e la probabilità che un
evento cada nell’intera striscia orizzontale di ampiezza dy a quota y0 .
f (x, y0 ) dxdy
f (x, y0 )
i
Pc = hR +∞
=
dx
fy (y0 )
f
(x,
y
)
dx
dy
0
−∞
(2.13)
Da questa espressione possiamo ricavare in generale la densità di probabilità con cui è
Made with Macintosh
16
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
y
dx
y0
x
Fig. 2.4
dy
x
Zone per il calcolo della probabilità che sia x ≤ x < x + dx noto y0 ≤ y < y0 + dy.
distribuita x quando y è noto,9 che indicheremo con f (x|y), e, per simmetria, f (y|x).
f (x|y) =
f (x, y)
fy (y)
f (y|x) =
f (x, y)
fx (x)
(2.14)
Ciascuna delle espressioni trovate dipende in generale anche dal valore della variabile
presa come nota.10 Questo fatto si esprime dicendo che in generale le variabili x e y non
sono indipendenti fra loro. Tuttavia, se avviene che f (x, y) = fx (x)fy (y) avremo
f (x|y) = fx (x) e f (y|x) = fy (y). In questo caso quindi la distribuzione di x noto y non
dipende da y e viceversa.
In accordo con quanto già visto al § 2.2.5, stabiliamo quindi come condizione necessaria
e sufficiente per l’indipendenza delle variabili il fatto che la densità di probabilità sia costituita da un prodotto di due funzioni, ciascuna di una sola variabile (che corrisponderanno
necessariamente alle densità di probabilità marginali).
x, y indipendenti ⇔ f (x, y) = fx (x)fy (y)
(2.15)
Quanto visto si estende facilmente al caso di un esperimento che produce n variabili:
9
10
Ossia la distribuzione della x negli eventi in cui y ≤ y < y + dy.
Per un esempio concreto, vedere l’appendice al punto 3.
Made with Macintosh
17
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
la densità di probabilità sarà f (x1 , x2 , . . . xn ), le probabilità marginali saranno date da:
fxi (xi ) =
Z
+∞
−∞
Z
+∞
...
−∞
Z
+∞
f (x1 , x2 , . . . xn ) dx1 dx2 . . . dxi−1 dxi+1 . . . dxn
(2.16)
−∞
e la condizione di indipendenza delle variabili sarà:
f (x1 , x2 , . . . xn ) = fx1 (x1 )fx2 (x2 ) . . . fxn (xn )
(2.17)
Per le distribuzioni in più variabili si calcolano i valori medi x̂i e le deviazioni standard σxi
con le stesse formule già date per il caso di una variabile, salvo che la definizione di valore
di aspettazione diventa
E {H(x1 , x2 , . . . xn )} =
Z +∞ Z +∞
Z +∞
=
...
H(x1 , x2 , . . . xn )f (x1 , x2 , . . . xn ) dx1 dx2 . . . dxn
−∞
−∞
(2.18)
−∞
Nel caso delle distribuzioni con più variabili possiamo calcolare le standard deviation
di ogni variabile
©
™
σx2i = E (xi − x̂i )2
(2.19)
ma anche un’altra specie di momenti di ordine 2, che contengono il prodotto delle differenze
dalla media di due variabili diverse
cov(xi , xj ) = E {(xi − x̂i )(xj − x̂j )}
i 6= j
(2.20)
Ciascuno di questi elementi viene detto covarianza fra la variabile i-ma e la variabile
j-ma e risulta nullo, come si può facilmente dedurre dalla (2.18), nel caso che le variabili siano fra loro indipendenti. A differenza della varianza, positiva per definizione, la
covarianza può assumere valori sia positivi che negativi. Quando la covarianza fra due
variabili è positiva, significa che negli eventi in cui una delle due è superiore alla media,
l’altra avrà maggior probabilità di essere pure superiore alla media, e analogamente se
una delle due è inferiore, anche l’altra tenderà ad esserlo. Una covarianza negativa, al
contrario, indica la tendenza per cui quando una delle due variabili è superiore alla media,
l’altra tende ad essere inferiore. L’insieme delle deviazioni standard e dei coefficienti di
Made with Macintosh
18
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
covarianza costituisce una matrice simmetrica (si vede immediatamente dalla definizione
che cov(xi , xj ) = cov(xj , xi )) detta matrice di covarianza. La conoscenza della matrice
di covarianza permette una propagazione degli errori anche nel caso di variabili fra loro
non indipendenti11 In questo testo siamo comunque principalmente interessati al caso di
variabili indipendenti e quindi non approfondiremo oltre l’argomento.
Infine, un caso particolare ma importante per quello che tratteremo di seguito: se ripetiamo n volte un esperimento casuale che produce una variabile x, possiamo raggruppare le
n ripetizioni e considerarle come un singolo esperimento che produce x1 , x2 , . . . xn . Quando abbiamo introdotto il concetto di esperimento casuale abbiamo posto (tacitamente)
la condizione che la probabilità di un risultato non dipendesse dai risultati precedentemente ottenuti, il che corrisponde, nell’esperimento cumulativo che stiamo analizzando,
all’indipendenza delle variabili. Avremo quindi per l’esperimento una densità di probabilità g(x1 , x2 , . . . xn ) (usiamo la lettera g per evitare confusioni di simboli):
g(x1 , x2 , . . . xn ) = f (x1 )f (x2 ) . . . f (xn )
(2.21)
dove f (x) è la densità di probabilità dell’esperimento singolo.
2.7 Il punto di vista dello sperimentatore
Fino a qui abbiamo parlato delle distribuzioni di probabilità da un punto di vista
astratto–matematico, mentre il nostro scopo è la loro applicazione alla valutazione dei
risultati delle misure. Il punto fondamentale consiste nel fatto che lo sperimentatore
non avrà mai la conoscenza esatta della densità di probabilità delle variabili con
cui opera, perché questa implicherebbe l’esecuzione di un numero infinito di misure. Lo
sperimentatore potrà invece effettuare solo un numero finito n di misure, ricavando quello
che si chiama un campione di ampiezza n
Cn = {x1 , x2 , . . . xn }
(2.22)
In molti casi dalla fisica del sistema e dell’apparato di misura si può evincere ragionevolmente la forma della distribuzione (nelle misure del nostro laboratorio sarà sempre
gaussiana), ma restano da determinarne i parametri. Lo sperimentatore potrà soltanto
darne una stima approssimata a partire dal campione a sua disposizione. In particolare
ci interesseremo della stima della media e della deviazione standard della distribuzione che
in molti casi, fra cui sicuramente quello gaussiano, si possono utilizzare rispettivamente
per valutare il miglior valore della misura e l’errore a posteriori ad esso associato.
Per stimare dal campione un parametro della distribuzione dovremo applicare all’insieme delle n variabili del campione (che, essendo risultati di esperimenti casuali già
11
Vedi in appendice A.7.
Made with Macintosh
19
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
effettuati, possiamo benissimo chiamare “dati”) una opportuna funzione, che chiameremo
stimatore del parametro. Il risultato che cosı̀ otterremo, essendo il valore di una funzione di variabile casuale, sarà a sua volta una variabile casuale con una sua distribuzione,
un suo valore di aspettazione e una sua deviazione standard.12 Perché una funzione del
campione s(x1 , x2 , . . . xn ) si possa considerare uno stimatore valido di un parametro λ della
distribuzione di x dovrà possedere alcune caratteristiche:
a) Assenza di polarizzazione. Uno stimatore s del parametro λ si dice non polarizzato (unbiased ) se il suo valore di aspettazione coincide con λ per qualsiasi valore di
n
E {s(x1 , x2 , . . . xn )} = λ ∀n
(2.23)
Se questa proprietà vale solo al limite n → ∞ diremo che lo stimatore è asintoticamente
non polarizzato.
b) Consistenza. Chiediamo a un buon stimatore che al crescere di n, ampiezza del
campione, individui il parametro cercato con sempre maggiore precisione, ossia che la
sua distribuzione diventi via via più stretta intorno al valore λ, e quindi la deviazione
standard dello stimatore tenda a 0
lim σs = 0
n→∞
(2.24)
Oltre a queste proprietà fondamentali, i testi di statistica ne elencano altre che caratterizzano gli stimatori. Fra queste, quella di essere a varianza minima, ossia di essere
lo stimatore che approssima con maggior precisione il parametro cercato.
Esistono metodi specifici, come ad esempio quello di massima plausibilità (maximum
likelyhood ), che indicano come costruire uno stimatore di un determinato parametro. Per
quello che ci serve, ci limiteremo ad alcune considerazioni generali:
a) Lo stimatore deve essere una funzione che opera su campioni di ampiezza n qualsiasi.13
b) Non essendoci motivi per privilegiare un dato rispetto ad un altro, lo stimatore dovrà
avere una forma invariante per scambio degli elementi del campione.
c) Si può ipotizzare la forma di uno stimatore partendo dalla definizione del parametro
che deve stimare.
12
13
Questo fatto diventa ovvio se pensiamo che acquisendo successivi campioni e applicando lo stimatore i
risultati saranno via via diversi.
In qualche caso, come vedremo, potrà esserci un limite minimo al valore di n.
Made with Macintosh
20
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
2.8 Stima della media di una distribuzione
Dal momento che la media x̂ di una distribuzione corrisponde al valore medio di x,
pesato mediante f (x), possiamo pensare di stimarla utilizzando la media aritmetica dei
valori xi del campione.14 Utilizzeremo quindi come stimatore di x̂
n
1X
x=
xi
n i=1
(2.25)
Vogliamo verificare se il nostro stimatore è polarizzato o meno. Per fare ciò ricordiamo che, essendo gli elementi del campione indipendenti, la densità di probabilità risulta
g(x1 , x2 , . . . xn ) = f (x1 )f (x2 ) . . . f (xn ). Utilizzando poi le proprietà del valore di aspettazione mostrate in appendice al punto 2, avremo
E {x} = E
(
n
1X
xi
n i=1
)
n
1X
1
=
E {xi } = nx̂ = x̂
n i=1
n
(2.26)
La media aritmetica è quindi uno stimatore non polarizzato del valore medio x̂ della popolazione. Si può anche verificare che per la standard deviation della media aritmetica σx
vale la relazione15
σx
σx = √
n
(2.27)
La standard deviation della media aritmetica è proporzionale a quella della distribuzione
della singola misura e decresce come la radice quadrata dell’ampiezza del conteggio. Quindi
si tratta di uno stimatore consistente.
2.9 Stima della varianza di una distribuzione
Cerchiamo anche uno stimatore per la varianza di x, σx2 . Dato che è definita come il
valore d’aspettazione (ossia la media pesata secondo f (x)) del quadrato della differenza
fra x e la media della distribuzione x̂, possiamo ipotizzare uno stimatore che sia la media
aritmetica dei quadrati delle differenze fra gli elementi del campione e la media . . . quale
media? Non potendo utilizzare direttamente x̂, che, come abbiamo visto, non è ricavabile
da un campione finito, utilizzeremo il nostro stimatore di x̂, ossia x. Lo stimatore ipotizzato
14
15
In inglese si usa il termine mean per indicare x̂ e average per indicare la media aritmetica che ne è lo
stimatore, evitando la confusione di termini.
Per i calcoli delle espressioni presentate in questa sezione, vedere in appendice al punto 4.
Made with Macintosh
21
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
della varianza sarà quindi
2
S0 =
1X
2
(xi − x)
n i
(2.28)
2
Si può calcolare il valore d’aspettazione di S 0 e si trova
n o n−1
2
E S0 =
σx2
n
(2.29)
2
Quindi S 0 è solo asintoticamente non polarizzato. Possiamo però risolvere il problema
usando come stimatore della varianza
S2 =
n
1 X
2
2
S0 =
(xi − x)
n−1
n−1 i
(2.30)
Con un rapido calcolo si dimostra che S 2 può essere scritto anche come
S2 =

X
1
n−1
i
"
#2 

X
1
2
xi −
xi

n i
(2.31)
Questa forma è comoda per essere utilizzata negli algoritmi di programmazione, dato che
permette di eseguire una sola iterazione sui dati, calcolando la somma degli stessi e dei loro
quadrati, e quindi di ricavare contemporaneamente le stime della media e della varianza.16
Il fatto che lo stimatore non polarizzato, S 2 , abbia al denominatore n − 1 deriva, come
è noto, dal fatto che abbiamo calcolato gli scarti non dal valor medio della distribuzione,
ma dalla sua stima, fatta usando gli stessi dati del campione. Da un campione di ampiezza
n potremo in generale stimare non più di n parametri indipendenti della distribuzione e al
momento di stimare σx2 abbiamo già stimato x, “consumando” cosı̀ uno dei gradi di libertà
del sistema.17 Il fatto è evidente se consideriamo un campione di ampiezza 1: in questo
2
caso, essendo x1 = x, risulterà S 0 = 0, il che è assurdo, mentre S 2 diventa una forma
indeterminata del tipo 00 , coerentemente col fatto che da un campione di ampiezza 1 non
si può ricavare alcuna informazione sulla larghezza della distribuzione.
16
17
Questo procedimento è l’unico ragionevole se si utilizza un calcolatore programmabile che non abbia
sufficienti registri di memoria per contenere tutti i singoli dati e si voglia evitare, ovviamente, di doverli
inserire manualmente due volte.
Il concetto di gradi di libertà in statistica sarà affrontato più in generale in corsi successivi.
Made with Macintosh
22
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Si può calcolare18 il valore della varianza dello stimatore S 2 e si ottiene
σS2 2
µ
∂
n−3 4
µ4 −
σ
n−1 x
1
=
n
dove
µ4 =
Z
+∞
−∞
(x − x̂)4 f (x) dx
(2.32)
Quindi lo stimatore S 2 della varianza della distribuzione è uno stimatore consistente. Nel
caso particolare di una distribuzione gaussiana, in cui µ4 = 3σ 4 , risulta
σS2 gaus
=
2
2σx4
n−1
(2.33)
Abbiamo determinato quindi che le funzioni x e S 2 sono stimatori non polarizzati
e consistenti rispettivamente di x̂ e σx2 qualunque sia la distribuzione f (x) della
variabile casuale.
2.10 Il teorema del limite centrale
5
3
4
3
2.5
2
2
1
1.5
1
0.5
0.2
0.4
0.6
0.8
1
Fig. 2.5
Distribuzione della media aritmetica di n campioni estratti da una distribuzione uniforme
nell’intervallo [0, 1]. Sono mostrati per 1 ≤ n ≤ 5 la distribuzione della media aritmetica (in colore a tratto
intero) e la gaussiana avente x̂ e σx corrispondenti (a tratteggio).
Abbiamo appena visto che la media aritmetica di un campione di ampiezza n di risultati indipendenti estratti da una stessa distribuzione f (x) ha a sua volta una distribuzione
18
Vedi sempre Appendice, al punto 4.
Made with Macintosh
23
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
√
con lo stesso valor medio e una standard deviation pari a 1/ n di quella associata a f (x).
Il teorema del limite centrale, che è dimostrato nei testi di statistica, ci permette
di avere un’informazione importante anche sulla forma della distribuzione della media aritmetica. Secondo il suo enunciato la distribuzione della media aritmetica di un
campione di ampiezza n (con le condizioni dette sopra) al crescere di n tende alla
forma gaussiana qualsiasi sia la forma della distribuzione originale f (x). In molti casi
anche con n non troppo grande (n ≥ 5) si raggiunge una buona approssimazione della
gaussiana, come mostrato in figura 2.5.19
2.11 Valutazione pratica della misura e dell’errore a posteriori
Come risultato di quanto enunciato fino a qui, da una serie di misure è possibile
ricavare una stima della media e della deviazione standard della loro distribuzione tramite
x e S 2 . Resta da vedere se e quando questi parametri siano direttamente utilizzabili per
la valutazione degli errori a posteriori.
Per quanto riguarda la scelta del valore da adottare come misura di una grandezza
fisica quando si abbiano n dati diversi presi nelle stesse condizioni e si sia in una situazione
tale da poter applicare i metodi statistici, l’uso della media aritmetica è universalmente
diffuso e accettato, e se anche potrebbero esservi rari casi in cui questo non sarebbe il
procedimento più corretto, sicuramente ciò non capita nelle misure che condurremo in
laboratorio.
Per quanto riguarda la valutazione dell’errore, la situazione è lievemente più delicata.
Prima di tutto occorre rendersi conto che l’entità di errore da associare a una misura dipende anche dall’uso pratico che vorremo fare della misura stessa. Se ad esempio siamo
produttori di un qualche oggetto di cui dobbiamo garantire in assoluto la rispondenza a
criteri dati, potrà essere ragionevole adottare metodi che tengono conto del caso peggiore,
per quanto poco probabile. Viceversa, nella produzione scientifica attuale in genere
non si richiede che l’errore attribuito sia tale da garantire assolutamente che
qualsiasi altra misura futura cada all’interno di esso. L’errore, in particolare quando si tratta di errore a posteriori, è concepito piuttosto come ordine di grandezza della
indeterminazione della misura: quello che invece è fondamentale è che, nel presentare i
propri risultati di laboratorio, siano oggi una relazione per un esame o domani una pubblicazione su una rivista internazionale, si descriva in modo completamente esauriente
il trattamento dei dati e quindi come gli errori sono stati valutati.
Quando si sa che la distribuzione delle misure è di tipo almeno approssimativamente
gaussiano, o comunque sufficientemente simmetrica intorno al valore medio, lo stimatore
S 2 della standard deviation può essere utilizzato come errore da attribuire alla misura,
indipendentemente dall’ampiezza del campione (purché ovviamente n > 1!). Questo è
19
Riguardo alla distribuzione della media aritmetica di un campione proveniente da una distribuzione uniforme, vedi appendice al punto 5.
Made with Macintosh
24
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
quanto accade nelle misure in laboratorio
≤x = S =
s
1 X
(xi − x)2
n−1 i
(2.34)
Lo scarto massimo dalla media aritmetica, invece, non è uno stimatore adeguato
dell’errore a posteriori; lo si può utilizzare sostanzialmente in due situazioni:
a) Non si si conosce la forma della distribuzione e non si hanno sufficienti misure per
farsene un’idea tracciandone l’istogramma.
b) Esiste il sospetto che la dispersione dei valori sia dovuta a un parametro non controllato nella misura.
In entrambi questi casi la prassi d’elezione consisterebbe nel ripetere la misura più
volte, ma se ciò non è possibile lo scarto massimo fornisce una valutazione che “copre”
comunque tutte le misure effettuate, anche se resta una “soluzione di ripiego”. Altrimenti
è da evitare, dando la preferenza allo stimatore della deviazione standard. Che lo scarto
massimo non sia in generale un mezzo corretto per valutare l’errore è evidente dalla constatazione che, se lo si utilizza, quante più sono le misure effettuate, tanto maggiore sarà,
statisticamente, l’incertezza risultante, mentre la maggior informazione deve ragionevolmente portare a una miglior determinazione della misura e del suo errore.20
20
In appendice al punto 6 sono studiate le proprietà dello scarto massimo.
Made with Macintosh
25
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
3. Attribuzione dell’errore
3.1 Propagazione
È noto che la propagazione degli errori statistici deve essere effettuata quadraticamente,21 mentre nel caso di errori a priori è stato consigliato l’uso della propagazione lineare.
Questa procedura porta alla valutazione di un errore massimo, corrispondente alla situazione più sfortunata in cui tutti gli scostamenti delle grandezze misurate sono di segno
tale che i loro effetti sulla grandezza calcolata si sommano. Nello spirito che abbiamo discusso sopra, per cui si preferisce valutare un errore realisticamente probabile a un errore
massimo, può essere preferibile usare una propagazione quadratica anche per gli errori a
priori, soprattutto quando la quantità calcolata dipenda da molte grandezze diverse.
3.2 Errore assoluto e relativo, derivata logaritmica
Negli ultimi anni si è rivelata chiaramente una particolare “affezione” degli studenti
verso l’errore relativo rispetto a quello assoluto, e verso il metodo detto della derivata logaritmica per calcolarne la propagazione. In questo atteggiamento non è niente di scorretto
in generale, ma occorre precisare che:
a) Non esiste una preferenza particolare per l’errore relativo rispetto all’errore assoluto.
L’errore relativo, quando ha senso (vedi sotto), dà un’indicazione intuitivamente più
immediata della precisione della misura, ma contiene esattamente la stessa informazione dell’errore assoluto. Inoltre alcune formule per il calcolo dell’errore relativo, ad
esempio quella per cui l’errore relativo di un prodotto o di un rapporto è la somma
degli errori relativi dei componenti, sono valide solo in caso di propagazione lineare,
anche se (vedi sotto) si possono sfruttare per determinare le derivate parziali di una
propagazione quadratica.
b) Quando si misura una grandezza il cui valore si trova in un intorno di 0, l’errore relativo
perde qualsiasi significato. In certi casi, come ad esempio quando si voglia verificare
una teoria dando un limite sperimentale al valore di una grandezza che questa prevede
nulla,22 la misura addirittura non consiste più nel dare un valore, ma un intervallo
entro cui si ritiene sia compreso il risultato.
Inoltre, dal punto di vista pratico del calcolo:
c) Non sempre il metodo della derivata logaritmica è conveniente, dal punto di vista della
complicazione dei calcoli, rispetto al metodo delle derivate parziali.
d) Il metodo delle derivate parziali e della derivata logaritmica comunque alla fin fine
producono entrambi i coefficienti da utilizzare, in valore assoluto per una propagazione
lineare o al quadrato per una propagazione quadratica, associati agli errori delle varie
21
22
Vedi appendice al punto 7.
Come avviene, ad esempio, nel caso della massa del neutrino.
Made with Macintosh
26
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
grandezze indipendenti da cui dipende quella su cui vogliamo propagare l’errore. In
particolare i coefficienti che compaiono in una propagazione effettuata col metodo della
derivata logaritmica corrispondono in valore assoluto alle derivate parziali rispetto alle
varie variabili, divise per il valore della funzione
∆M
= a1 ∆θ1 + a2 ∆θ2 + . . . + an ∆θn
M
(3.1)
I coefficienti |M ai | sono appunto i valori assoluti delle derivate parziali di M rispetto
alle variabili θi e come tali potranno essere usati in qualsiasi propagazione.
M = M (θ1 , θ2 , . . . θn )
θi indipendenti
e) Nel caso si usi la derivata logaritmica per calcolare un errore relativo, spesso le espressioni si semplificano se si manipolano i coefficienti in modo da far comparire gli errori
relativi delle variabili di partenza
∆M
∆θ1
∆θ2
∆θn
= a01
+ a02
+ . . . + a0n
M
|θ1 |
|θ2 |
|θn |
(3.2)
f) Dato che il metodo della derivata logaritmica è solo un artificio di calcolo, in alcuni
casi può essere vantaggioso manipolare opportunamente le espressioni su cui si deve
eseguire il calcolo.
√ Supponiamo ad esempio di voler calcolare l’errore relativo sulla
quantità Q0 = 1 + ω 2 R2 C 2 . Anziché effettuare il calcolo direttamente su Q0 , si può
operare su Q20 − 1 = ω 2 R2 C 2
d(Q20 − 1)
2Q0 dQ0
=
=2
2
Q0 − 1
Q20 − 1
µ
dω dC
dR
+
+
ω
C
R
∂
da cui si ricava immediatamente
Ø
ص
∂
µ
∂
∆Q0 ØØ Q20 − 1 ØØ ∆ω ∆C
∆R
ω 2 R2 C 2
∆ω ∆C
∆R
=Ø
+
+
=
+
+
Q0
Q20 Ø
ω
C
R
1 + ω 2 R2 C 2
ω
C
R
Si ricorda infine di tener presente che quando si ricavano contemporaneamente due (o
più) parametri, come ad esempio i coefficienti di una retta, attraverso un procedimento di
ricerca del miglior accordo con i dati, sia per mezzo di algoritmi come i minimi quadrati,
sia con metodi grafici, i parametri in questione non risultano indipendenti e quindi non è
corretto utilizzare le “normali” formule di propagazione.23
23
Per un accenno alla propagazione dell’errore quando le variabili non sono indipendenti, si veda in appendice
al punto 7.
Made with Macintosh
27
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Appendice
Raccogliamo di seguito alcuni calcoli che non sono essenziali per la comprensione del
testo, ma potrebbero essere utili allo studente come esempi dei procedimenti che si possono
utilizzare per affrontare determinati problemi.
A.1
Proprietà della funzione gaussiana
A.1.1 Normalizzazione
Dal momento che la gaussiana deve rappresentare una densità di probabilità, il suo
integrale esteso all’intero asse reale deve risultare uguale a 1. È noto che non è possibile
2
determinare una primitiva della funzione e−x come combinazione finita di funzioni trascendenti elementari (funzioni trigonometriche, logaritmi, esponenziali, ecc.). Purtuttavia,
esiste un artificio con cui si calcola facilmente l’integrale da −∞ a +∞.
Per determinare il fattore di normalizzazione, calcoliamo l’integrale della funzione non
normalizzata
Z +∞
(x−x̂)2
−
A=
e 2σ2 dx
(A.1.1)
−∞
Operando una semplice sostituzione di variabile otteniamo
√ Z
A = 2σ
x − x̂
√
=y
2σ
+∞
2
e−y dy
(A.1.2)
−∞
Indichiamo con I l’integrale in y che compare nella seconda espressione e proviamo a
calcolare, anziché direttamente I, il suo quadrato, che si può scrivere nella forma
2
I =
Z
+∞
−∞
−y 2
e
dy
Z
+∞
−z 2
e
dz =
−∞
Z
+∞
−∞
Z
+∞
e−(y
2
+z 2 )
dydz
(A.1.3)
−∞
Si può quindi interpretare come un integrale di superficie esteso a tutto il piano cartesiano
yz. Introduciamo coordinate polari r, ϕ: l’elemento di superficie sul piano è espresso in
cordinate polari come r dr dϕ e l’integrale diventa
2
I =
Z
+∞
r=0
Made with Macintosh
Z
2π
2
e−r r dr dϕ
ϕ=0
28
(A.1.4)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
L’integrale in ϕ risulta banalmente pari a 2π, mentre l’integrale in r si risolve
√ in modo
1 −r2
−r2
2
elementare (e r dr = d(− 2 e )), con risultato 1/2. Quindi I = π, I = π e A =
√
2πσ.
A.1.2 Media e momenti intorno alla media
La media della distribuzione gaussiana è data semplicemente dal parametro che abbiamo indicato già con x̂. Si vede facilmente integrando la funzione dopo aver fatto la
sostituzione di variabile x0 = x − x̂. Calcoliamo anche i momenti intorno alla media
definiti da
Z +∞
µi =
(x − x̂)i f (x) dx
(A.1.5)
−∞
I momenti di ordine dispari, data la simmetria della funzione intorno a x̂, saranno tutti
nulli. Per i momenti di ordine pari avremo
µ2n
Z
1
=√
2πσ
−∞
x−x̂
√
2σ
Operando la sostituzione di variabile
µ2n
σ 2n 2n
= √
π
+∞
Z
(x − x̂)2n e−
(x−x̂)2
2σ 2
dx
(A.1.6)
= y si ottiene
+∞
2
y 2n e−y dy =
−∞
σ 2n 2n
√
J2n
π
(A.1.7)
Possiamo
trovare una formula
iterativa per J2n utilizzando l’integrazione per parti
R
R
2
u(x)v 0 (x) dx = uv − u0 v dx con u = y 2n−1 e v 0 = y e−y Si ottiene
J2n =
2n − 1
J2n−2
2
Dato che abbiamo già calcolato sopra J0 = I =
J0 =
√
π
J2 =
√ 1
π
2
J4 =
(A.1.8)
√
π risulta
√ 3
π
4
J2n =
√ (2n − 1)!!
π
2n
(A.1.9)
per cui
µ2n = (2n − 1)!! σ 2n
Made with Macintosh
29
(A.1.10)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Quindi il momento di ordine 2 vale proprio σ 2 , il che giustifica aver chiamato il parametro
di larghezza della gaussiana già col simbolo della deviazione standard.
A.2
Qualche formula per il calcolo dei valori d’aspettazione
Dalla definizione di E e dalla linearità dell’operatore–integrale risulta che
E {c} = c
E {c1 H1 (x) + c2 H2 (x)} = c1 E {H1 (x)} + c2 E {H2 (x)}
(A.2.1)
se c, c1 e c2 sono costanti. Sulla base di questo possiamo elaborare la formula della varianza
n
o
n
o
2
2
2
E (H(x) − E {H(x)}) = E [H(x)] + [E {H(x)}] − 2 E {H(x)} H(x) =
n
o
2
2
= E [H(x)] − [E {H(x)}]
A.3
(A.2.2)
Variabili dipendenti e indipendenti
Presentiamo due esempi di distribuzioni in due variabili, in un caso dipendenti, nell’altro indipendenti fra loro.
Consideriamo la densità di probabilità data dalla funzione
2
2
2
1
f (x, y) = √ e− 7 (4x −3xy+y )
7π
(A.3.1)
Si possono calcolare le densità di probabilità marginali
x2
1
fx (x) = √ e− 2
2π
y2
1
fy (y) = √ e− 8
2 2π
(A.3.2)
e quindi le densità di probabilità per x noto y e viceversa
r
f (x|y) = 2
Made with Macintosh
2 − 1 (8x−3y)2
e 56
7π
f (y|x) =
30
r
2 − 1 (3x−2y)2
e 14
7π
(A.3.3)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
a)
b)
0.4
0.3
0.6
0.2
2
0.1
0.2
0
-4
x
4
0.4
0
-2
-2
0
2
x
0
-2
-2
0
-4
y
4
2
0
-4
2
y
-4
Fig. A.3.1
Densità di probabilità per due variabili non indipendenti (primo esempio nel testo). In a) è
mostrata in 3D la densità di probabilità f (x, y), mentre ai lati sono riportate le densità marginali. In b)
è riportata in 3D f (x|y). Si nota come la distribuzione di x noto y sia ancora gaussiana, ma si sposti a
seconda del valore di y.
Come si vede, ciascuna delle distribuzioni dipende anche dall’altra variabile. In particolare, la correlazione è tale che le due variabili sono con maggior probabilità contemporaneamente maggiori o minori della propria media, come si poteva intuire qualitativamente
anche dal grafico di f (x, y).24
Consideriamo invece una diversa densità di probabilità
f (x, y) =
1 − 1 (4x2 +y2 )
e 8
4π
(A.3.4)
Si nota che è fattorizzabile nel prodotto di una funzione della sola x e una della sola
y. È possibile anche far sı̀, separando opportunamente in due fattori il coefficiente di
normalizzazione di f (x, y), che entrambe siano normalizzate ad 1. In questo modo abbiamo
ottenuto le due densità di probabilità marginali (ovviamente coincidenti con quelle che si
sarebbero calcolate in base alla definizione)
x2
1
fx (x) = √ e− 2
2π
24
y2
1
fy (y) = √ e− 8
2 2π
(A.3.5)
A questo fatto corrisponde un coefficiente di covarianza positivo, mentre la covarianza è negativa quando
le variabili tendono ad essere contemporaneamente una maggiore e una minore della media.
Made with Macintosh
31
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
In questo caso le densità di probabilità di una variabile nota l’altra coincidono con le
distribuzioni marginali e ciascuna non dipende dal valore della variabile considerata nota.
Le due variabili sono indipendenti.
0.4
0.4
0.3
0.3
0.2
2
0.1
0
-4
-2
0
2
0
-4
0
x
-2
4
-2
0
-4
2
4
-4
y
-2
2
0.1
y
x
0
0.2
Fig. A.3.2
Densità di probabilità per due variabili indipendenti (secondo esempio nel testo). In a) è
mostrata in 3D la densità di probabilità f (x, y), mentre ai lati sono riportate le densità marginali. In b) è
riportata in 3D f (x|y). Si nota come la distribuzione di x noto y questa volta non dipenda dal valore di y.
A.4
Stimatori e loro proprietà
Vogliamo prima di tutto calcolare la deviazione standard della media aritmetica. Avremo25
√
!2 
 1X

n
o
2
σx2 = E (x − E {x}) = E
xi − x̂
(A.4.1)
 n

i
Manipolando algebricamente l’espressione in parentesi tonde26 e ricordando le proprietà
del valore di aspettazione avremo
"
 X
25
26
1
σx2 = 2 E

n
i
#2 

1 X
(xi − x̂)
= 2
E {(xi − x̂)(xj − x̂)}
 n
i,j
Da qui in poi, per semplicità di scrittura indicheremo
Vedi eq. (A.4.5).
Made with Macintosh
Pn
i=1
semplicemente come
32
P
i
.
(A.4.2)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Nella doppia sommatoria i termini in cui i 6= j hanno valore d’aspettazione nullo, data la
forma fattorizzata della densità di probabilità; restano quindi solo gli n termini con i = j
™
1 X ©
1
σx2
2
2
σx = 2
E (xi − x̂) = 2 nσx =
n i
n
n
2
(A.4.3)
2
Per il valore di aspettazione di S 0 abbiamo
S
02
"
#
X
1X
1
2
2
=
(xi − x) =
[(xi − x̂) − (x − x̂)] =
n i
n i
"
#
X
1 X
2
2
=
(xi − x̂) + n (x − x̂) − 2
(xi − x̂)(x − x̂)
n i
i
(A.4.4)
A questo punto si può considerare che
x − x̂ =
1X
(xi − x̂)
n i
(A.4.5)
e si ha
S0
2

1 X
2
= 
(xi − x̂) +
n
i

1 X
2
= 
(xi − x̂) −
n
i

"
#2
X
X
1
2
(xi − x̂) −
(xi − x̂)(xj − x̂) =
n i
n i,j

X
1
(xi − x̂)(xj − x̂)
n i,j
(A.4.6)
Nel calcolare
adesso il valore d’aspettazione, ancora la considerazione fatta sopra per la
P
somma i,j e si possono calcolare i valori di aspettazione
n o 1£
§ n−1 2
2
E S0 =
nσx2 − σx2 =
σx
n
n
(A.4.7)
Il calcolo di σS2 2 , la varianza dello stimatore della varianza, risulta più laborioso. Partiamo
col calcolare σS2 02 : nell’espressione di S 02 dedotta in (A.4.6) per semplificare la scrittura
Made with Macintosh
33
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
introduciamo nuove variabili zi = xi − x̂, ottenendo
S0
2


X
X
1
1
= 
z2i −
zi zj 
n
n
i
i,j
(A.4.8)
Nella seconda sommatoria separiamo gli elementi in cui i = j dagli altri e otteniamo
2
S0 =

n−1X
1
n
n
i

X
1
z2i −
zi zj 
n
(A.4.9)
i6=j
Scriviamo adesso σS2 02 come
σS2 02
Ωh i æ h n oi
2
2 2
2
= E S0
− E S0
(A.4.10)
Il secondo termine è noto dal calcolo precendente, mentre per il primo vale

 

Ωh i æ


X
X
X
X
2
1
n−1
1
n−1
1
2
E S0
= 2E 
z2i −
zi zj  · 
z2i0 −
zi0 zj 0  =


n
n
n
n
n 0 0
i
i0
i6=j
i 6=j




µ
∂
2

1  n−1 X 2 2
1 X
2(n − 1) X 2
= 2E
zi zi0 + 2
zi zj zi0 zj 0 −
z
z
z
0
i
j
i


n
n
n i6=j
n2


i,i0
i0 ,i6=j
i0 6=j 0
(A.4.11)
Il terzo termine del valore di aspettazione è stato costruito raggruppando i due termini
“misti” del prodotto, che sono identici a meno di un cambio di nome di indici. A questo
punto occorre considerare che nel calcolare il valore dinaspettazioneodegli elementi delle
sommatorie si annullano diversi termini: in generale E zk11 zk22 . . . znn con ki ≥ 0 è nullo
se risulta almeno per uno dei fattori ki = 1 , in quanto, per laRfattorizzazione della densità
+∞
di probabilità, l’integrazione si suddivide in fattori fra cui −∞ (xi − x̂i )f (xi ) dxi = 0.
Mentre il primo termine nell’espressione ovviamente non contiene termini di questo tipo,
il terzo, qualunque siano i0 , i, j ne contiene almeno uno e quindi il valore di aspettazione
di ogni elemento è nullo. I termini della seconda sommatoria hanno valore d’aspettazione
non nullo solo quando si fattorizzano nella formula z2k z2k0 dove, per le condizioni sugli indici,
necessariamente k 6= k0 . Questa situazione si verifica con due possibilità: la prima è che
siano contemporaneamente i = i0 e j = j 0 , la seconda che siano i = j 0 e i0 = j. Le
Made with Macintosh
34
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
sommatorie ottenute con le due condizioni sono identiche a meno di un cambio di nome di
indici e quindi si può introdurre una sola sommatoria moltiplicata per 2. Abbiamo


Ωh i æ
µ
∂2 X


X
2
1
n−1
2
2
E S0
= 2E
z2i z2i0 + 2
z2i z2j


n
n
n
0
i,i
(A.4.12)
i6=j
Infine, separiamo nella prima sommatoria i termini con i = i0 dagli altri




Ωh i æ
µ
∂2 X


X
X
2
1
n−1 
2
02
4
2 2
2 2
E S
= 2E
zi +
zi zi0 + 2
zi zj


n
n
n
0
i
i6=i
(A.4.13)
i6=j
Avremo che
© ™
E z4i = µ4
©
™
E z2i z2j = σx4
dove
se
µ4 =
i 6= j
Z
+∞
−∞
(x − x̂)4 f (x) dx
(A.4.14)
Inoltre la sommatoria su i 6= j contiene n(n − 1) elementi. Otteniamo finalmente
"µ
#
Ωh i æ
∂2
2
°
¢
1
n
−
1
2
2
E S0
= 2
nµ4 + n(n − 1)σx4 + 2 n(n − 1)σx4
n
n
n
(A.4.15)
Per ottenere σS2 02 occorre sottrarre
h n oi2 µ n − 1 ∂2
2
E S0
=
σx4
n
(A.4.16)
Svolgendo i calcoli algebrici si ottiene
σS2 02
(n − 1)2
=
n3
µ
∂
n−3 4
µ4 −
σ
n−1 x
(A.4.17)
A questo punto passiamo a σS2 2 ricordando che dalle proprietà del valore di aspettazione
risulta
2
2 2
σcH(
x) = c σH(x)
Made with Macintosh
35
(A.4.18)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
se c è una costante. Avremo
σS2 2
A.5
=
µ
n
n−1
∂2
σS2 02
1
=
n
µ
∂
n−3 4
µ4 −
σ
n−1 x
(A.4.19)
Distribuzione della media aritmetica di un campione
estratto da una distribuzione uniforme
Prima di effettuare il calcolo dimostriamo due formule che ci saranno indispensabili e
che sono comunque di utilità generale nello studio delle distribuzioni statistiche.
A.5.1 Distribuzione della somma di due variabili casuali indipendenti
Siano x e y due variabili casuali indipendenti, distribuite con densità di probabilità f (x)
e g(y), rispettivamente. Vogliamo determinare la densità di probabilità h(z) della variabile
casuale z = x + y. Per far ciò determiniamo preventivamente la funzione di distribuzione
H(z). Possiamo considerare x e y come elementi di una distribuzione bidimensionale con
densità di probabilità f (x)g(y). Allora H(z) = P (x + y < z) risulterà dall’integrale della
densità bidimensionale nella zona del piano cartesiano al di sotto della retta x + y = z.
y
z
y=
x+
dx
x
Fig. A.5.1
Zona per il calcolo della probabilità P (x + y < z).
Possiamo calcolare l’integrale suddividendo la zona in strisce verticali di larghezza dx
infinitesima che andranno, in y, da −∞ a z − x. Calcoleremo prima l’integrale su ciascuna
striscia e poi integreremo sulle varie strisce:
H(z) =
Z
+∞
−∞
Made with Macintosh
f (x)
∑Z
z−x
∏
g(y) dy dx
−∞
36
(A.5.1)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Determiniamo la densità di probabilità di z come derivata della funzione di distribuzione27
dH(z)
h(z) =
=
dz
Z
+∞
−∞
f (x)g(z − x) dx
(A.5.2)
Data la simmetria fra x e y, h(z) si può calcolare anche con la formula equivalente
h(z) =
Z
+∞
−∞
f (z − y)g(y) dy
(A.5.3)
Per la sua forma h(z) è detta anche prodotto di convoluzione delle distribuzioni.
Da questo risultato deriva un corollario interessante per quanto riguarda la gaussiana:
supponiamo di avere due distribuzioni gaussiane con valori medi x̂1 e x̂2 e deviazioni
standard σ1 , σ2 . La somma delle due variabili avrà, secondo la (A.5.2) una densità di
probabilità data da
1
h(z) =
2πσ1 σ2
Z
+∞
−∞
µ
∂
(x − x̂1 )2
(z − x − x̂2 )2
exp −
−
dx
2σ12
2σ22
(A.5.4)
ponendo, per ristabilire la simmetria dell’espressione, z − x̂2 = u2 e raggruppando l’argomento dell’esponenziale secondo le potenze di x avremo
Ω ∑µ
∂
µ
∂
Z +∞
1
1
1
x̂1
u2
2
h(z) =
exp −
+ 2 x + − 2 − 2 x+
2πσ1 σ2 −∞
2σ12
2σ2
σ1
σ2
µ 2
∂∏æ
2
x̂1
u
+
+ 22
dx
2
2σ1
2σ2
(A.5.5)
£ ° 2
¢§
exp
−
ax
+
bx
+
c
dx con a > 0 può essere risolto trami−∞
h 2
i
¢
pπ
√ °
b
b
te la sostituzione di variabile w = a x + 2a con risultato a exp 4a − c . Applicando
questo risultato alla (A.5.5) e svolgendo i calcoli algebrici si giunge alla soluzione
Un integrale della forma
27
R +∞
∑
∏
1
(z − x̂1 − x̂2 )2
h(z) = √ p 2
exp −
2(σ12 + σ22 )
2π σ1 + σ22
Si sfrutta la proprietà per cui
Made with Macintosh
d
dz
Rz
a
f (x) dx = f (z).
37
(A.5.6)
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Quindi la somma di due variabili gaussiane è ancora distribuita in modo gaussiano, con valor medio pari alla somma dei valori medi e deviazione standard
p pari
alla radice della somma dei quadrati delle deviazioni. La relazione σz = σ12 + σ22
è un caso particolare della propagazione quadratica degli errori statistici, vista alla sezione
3.1.
A.5.2 Distribuzione di una funzione di variabile casuale
Siano le variabili casuali x e y legate da una funzione monotona, e quindi invertibile
y = H(x), x = H −1 (y). Vogliamo determinare la densità di probabilità g(y) della y in
funzione di quella f (x) della x e di H. In questo caso a ciascun intorno infinitesimo dy di
y corrisponde uno e un solo intorno infinitesimo su x, posto in H −1 (y). La probabilità di
cadere nell’intorno dy deve essere uguale a quella di cadere nell’intorno corrispondente in
x; se H(x) è monotona crescente (e, di conseguenza, lo è anche H −1 (y)) questa condizione
si può scrivere nella forma
°
¢
°
¢
P (y ≤ y < y + dy) = P H −1 (y) ≤ x < H −1 (y + dy) = f H −1 (y)
µ
dH −1 (y)
dy
∂
dy
(A.5.7)
Se invece H(x) è monotona decrescente, va tenuto conto che all’estremo sinistro dell’intervallo in x corrisponde l’estremo destro di quello in y e viceversa, per cui si deve
scrivere
µ
∂
° −1
¢
° −1 ¢
dH −1 (y)
−1
P (y ≤ y < y + dy) = P H (y + dy) ≤ x < H (y) = f H (y) −
dy
dy
(A.5.8)
Da quanto sopra risulta che in generale, se H è monotona, vale
Ø
Ø
° −1 ¢ Ø dH −1 (y) Ø
Ø
g(y) = f H (y) ØØ
Ø
dy
(A.5.9)
Nel caso H non sia monotona la situazione si complica, perché ad un intervallo infinitesimo
in y possono corrispondere più intervalli in x: il campo di H(x) va spezzato in tratti
monotoni e si devono sommare i contributi di ciascuno.
Il caso più semplice di “cambio di variabile” si ha quando y = αx con α costante. In
questo caso
1 ≥y¥
g(y) =
f
(A.5.10)
|α|
α
Made with Macintosh
38
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
A.5.3 Distribuzione della media aritmetica
La nostra variabile di partenza ha una densità di probabilità uniforme in [0, 1]

x<0
0
f1 (x) = 1 0 ≤ x ≤ 1

0
x>1
(A.5.11)
Cominciamo col valutare le densità di probabilità della somma di 1, 2, . . . n variabili indipendenti di questo tipo, che chiameremo g1 (x), g2 (x), . . . gn (x). Ovviamente g1 (x) = f1 (x).
Usando la (A.5.2) possiamo scrivere l’espressione di gn (x) in funzione di gn−1 (x)
gn (x) =
Z
+∞
−∞
g1 (z)gn−1 (x − z) dz =
Z
Z
1
gn−1 (x − z) dz =
0
x
gn−1 (w) dw
(A.5.12)
x−1
Nel primo passaggio abbiamo sfruttato l’espressione di g1 (x) e nel secondo si è operato
un cambio di variabile. Utilizzando la (A.5.12) è possibile calcolare in successione g2 (x),
g3 (x). . .
g1(w)
x-1
g1(w)
x-1
x
1
1
0
x-1
1
g2(w)
w
0
g2(w)
x
x-1
1
0
2
w0
w
1
g2(w)
x
1
1
x
x-1
x
1
1
2
w
0
1
2
w
Fig. A.5.2
Calcolo dell’espressione (A.5.12) nel passaggio da 1 a 2 e da 2 a 3 addendi nella somma di
variabili distribuite uniformemente.
Ad esempio per il calcolo di g2 (x)
R xvediamo che se x < 0 o x > 2 il risultato è
nullo, mentre se 0 < x < 1 g2 (x) = 0 dw = x (vedi figura A.5.2). Per 1 < x < 2
R1
g2 (x) = x−1 dw = 2 − x. Passando da g2 (x) a g3 (x) il risultato è nullo per x < 0 o x > 3;
Rx
R1
Rx
per 0 < x < 1 g3 (x) = 0 w dw = x2 /2, per 1 < x < 2 g3 (x) = x−1 w dw+ 1 (2−w) dw =
R2
−x2 + 3x − 3/2, per 2 < x < 3 g3 (x) = x−1 (2 − w) dw = x2 − 3x + 9/2. Procedendo nel
Made with Macintosh
39
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
calcolo28 si vede che in generale gi (x) è diversa da 0 nell’intervallo (0, i) ed è costituita da
i polinomi di grado i − 1 in x, che si raccordano nei punti 1, 2, . . . i − 1.
Le gi (x) sono le densità di probabilità delle somme. Per passare alle densità fi (x)
delle medie si applica la (A.5.10)
fi (x) = i gi (i x)
(A.5.13)
Le fi (x) per 2 ≤ i ≤ 5 risultano (riportando solo le zone in cui sono non nulle)
f2 (x) =
(
4x
4(1 − x)
0<x<
1
2
1
2
<x<1
f3 (x) =







27 2
2 x
2
− 92 (6x − 6x + 1)
27
2 (x
− 1)2

128 3
0 < x < 14

3 x



 4(−32x3 + 32x2 − 8x + 2 ) 1 < x < 1
3
4
2
f4 (x) = 8
1
3
3
2
 (48x − 96x + 60x − 11)

3
2 <x< 4



3
3
− 128
3 (x − 1)
4 <x<1

3125 4

24 x



4
3
2


− 25

24 (500x − 500x + 150x − 20x + 1)

25
4
3
2
f5 (x) =
24 (750x − 1500x + 1050x − 300x + 31)



4
3
2

− 25

24 (500x − 1500x + 1650x − 780x + 131)



3125
4
24 (x − 1)
A.6
0<x<
0<x<
1
5
2
5
3
5
4
5
<x<
<x<
<x<
1
3
2
3
<x<
1
3
2
3
<x<1
1
5
2
5
3
5
4
5
<x<1
(A.5.14)
Lo scarto massimo dalla media aritmetica
Per studiare più da vicino il comportamento dello scarto massimo della media aritmetica di una distribuzione, Max {|xi − x|}, consideriamo il caso specifico di una distribuzione
gaussiana, visto che si tratta di quella con cui avremo in pratica a che fare. In particolare
possiamo, senza perdere in generalità, considerare una gaussiana con media nulla e σ = 1:
il valore della media non altera la distribuzione degli scarti, mentre cambiare la σ significa
cambiare la scala dell’asse x, e quindi proporzionalmente le ampiezze degli scarti.
Non abbiamo trovato in letteratura, né siamo stati capaci di ricavare un’espressione
della distribuzione dello scarto massimo dalla media aritmetica di un campione di am28
L’operazione può essere notevolmente semplificata con l’aiuto di un’applicazione per il calcolo simbolico,
come Mathematica o Maple.
Made with Macintosh
40
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
piezza n distribuito gaussianamente. È abbastanza facile invece determinare la densità
di probabilità del massimo scarto dalla media della distribuzione Max {|xi − x̂|} per una
gaussiana con x̂ = 0 e σ = 1. La densità di probabilità cercata è definita fra 0 e +∞. La
probabilità che lo scarto massimo dalla media sia compreso fra x e x + dx è data da
n−1
P (x ≤ Max {|xi − x̂|} < x + dx) = g(x)dx con g(x) = 2n [2F (x) − 1]
f (x) (A.6.1)
dove f (x) è la densità di probabilità gaussiana e F (x) la sua funzione di distribuzione. Per
provare il risultato determiniamo la probabilità che di n dati del campione i primi n − 1
siano −x < xi < x x = 1, . . . n − 1 e l’ultimo abbia scarto dalla media, che è 0, compreso
fra x e x + dx. La probabilità che un singolo elemento del campione sia compreso fra −x
e x è pari a F (x) − F (−x) oppure, data la simmetria della distribuzione intorno a 0, a
2(F (x)−F (0)) = 2(F (x)− 12 ). La probabilità che n−1 elementi indipendenti del campione
n−1
soddisfino a questa condizione è [2F (x) − 1]
. La probabilità che l’ultimo elemento
del campione abbia scarto compreso fra x (ovviamente positivo) e x + dx corrisponde
a 2f (x) dx perché il campione potrà trovarsi sia in un intorno infinitesimo di x che di
−x e f (x) è simmetrica. Infine, in questo modo abbiamo considerato uno solo degli n
modi equiprobabili in cui può avvenire l’evento; infatti l’elemento con lo scarto massimo
può essere uno qualsiasi degli n elementi del campione. Per ottenere la probabilità totale
occorre quindi moltiplicare per n. Possiamo verificare direttamente che la nostra densità
di probabilità è correttamente normalizzata a 1:
Z
+∞
0
=n
n−1
2n [2F (x) − 1]
Z
1
y
n−1
f (x) dx = 2n
Z
1
1
2
n−1
[2F (x) − 1]
dF (x) =
(A.6.2)
dy = 1
0
Questa densità di probabilità non corrisponde esattamente a quella che cerchiamo:
Max {|xi − x|} ma, dato che x è uno stimatore non polarizzato e consistente di x̂, al crescere
di n i valori della media aritmetica tendono ad essere distribuiti sempre più strettamente
intorno a x̂ e quindi le due densità di probabilità sono asintoticamente identiche. Per
piccoli valori di n la distribuzione di Max {|xi − x|} sarà spostata su valori minori di quella
di Max {|xi − x̂|}, perché nel primo caso il valore che scarta più dalla media aritmetica
tende comunque a spostare la medesima verso di sé, e quindi a diminuire lo scarto.
Per valutare la densità di probabilità associata a Max {|xi − x|} possiamo comunque
usare il cosiddetto metodo Monte Carlo. Il nome deriva dalla città nota per il suo casinò e
consiste nel simulare un esperimento casuale per mezzo di un algoritmo di calcolatore che
produce una sequenza di numeri casuali29 distribuiti con una densità di probabilità data.
29
O meglio, pseudo-casuali: infatti i valori che si ottengono sono distribuiti con la densità di probabilità
Made with Macintosh
41
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
I risultati della simulazione sono riportati nella figura A.6.2, a pagina seguente. Si vede
che mentre la deviazione standard della media, al crescere di n, mantiene il suo valore di
aspettazione e riduce la larghezza della distribuzione intorno ad esso, lo scarto massimo
ha un valore di aspettazione che cresce lentamente con n e la sua distribuzione rimane più
larga di quella della deviazione standard.
5
4.5
a) E{Max{|xi-x|}}
0.225
b) var{Max{|xi-x|}}
0.2
4
0.175
0.15
3.5
0.125
3
0.1
2.5
0.075
100
1000
10000
100000.
1. * 10 6
n
100
1000
10000
100000.
1. * 10 6
n
Fig. A.6.1
Andamento asintotico del valore d’aspettazione di Max {|xi − x̂|}, in a), e della rispettiva
varianza, in b), in funzione dell’ampiezza n del campione.
Nel caso di Max {|xi − x̂|}, che ha un’espressione analitica, è possibile studiare il valore
d’aspettazione e la deviazione standard anche per valori più alti di n, che renderebbero
problematico il metodo Monte Carlo. Si osserva che il valore d’aspettazione seguita a crescere molto lentamente, mentre altrettanto lentamente diminuisce la deviazione standard.
voluta e i diversi valori non mostrano effetti di correlazione, ma non si possono definire del tutto casuali,
dato che conoscendo i valori estratti precedentemente e l’algoritmo di generazione è possibile predire
deterministicamente il valore successivo e i seguenti.
Made with Macintosh
42
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
1.6
1.75
5
1.4
1.2
10
1.5
1.25
1
1
0.8
0.75
0.6
0.4
0.5
0.2
0.25
1
2
3
4
1
2
3
4
6
3
20
2.5
2
4
1.5
3
1
2
0.5
1
1
2
3
1
4
2
3
4
Expectation values of Max{Abs[xi-x]}
calculated with M.-C. and from asympt.
distribution.
8
100
6
50
5
2.25
2
4
1.75
1.5
2
1.25
1
2
3
4
10
20
30
40
0.75
Fig. A.6.2
Distribuzione della deviazione standard e degli scarti massimi dalla media aritmetica x e
dalla media della distribuzione x̂ per campioni di ampiezze diverse da una gaussiana con x̂ = 0 e σx = 1.
Gli istogrammi sono costruiti col metodo Monte Carlo, il blu per σx e il verde per Max {|xi − x|}. Le curve
rispettive sono la distribuzione di σx e quella di Max {|xi − x̂|}. Nell’ultimo grafico sono riportati i valori
di aspettazione di Max {|xi − x|} (rosso) e Max {|xi − x̂|} (nero) in funzione dell’ampiezza del campione.
Made with Macintosh
43
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
A.7
6 ottobre 2008
Propagazione quadatica dell’errore statistico
È facile dimostrare che nel caso di errori a posteriori la propagazione dovrà essere
di tipo quadratico. Consideriamo una grandezza fisica M che è calcolata a partire da r
misure dirette indipendenti x1 , . . . xr M = M (x1 , . . . xr )30 Calcoliamo σM come
©
™
2
2
σM
= E M 2 − [E {M }]
(A.7.1)
Supponiamo che le xi abbiano distribuzioni fi (xi ) sufficientemente strette intorno ai valori
medi x̂i , cosı̀ che nel calcolo degli integrali dei valori d’aspettazione siano trascurabili i
contributi al di fuori di una piccola zona intorno ai valori medi. In questo caso potremo
sviluppare la funzione M fino al secondo ordine negli xi − x̂i :
∂
r µ
X
∂M
M (x1 , . . . xr ) ' M (x̂1 , . . . x̂r ) +
(xi − x̂i )+
∂x
i
x̂
i=1
µ
∂
r
2
1 X
∂ M
+
(xi − x̂i )(xj − x̂j )
2 i,j=1 ∂xi ∂xj x̂
(A.7.2)
dove le derivate parziali sono calcolate in (x̂1 , . . . x̂r ). Corrispondentemente avremo per
M 2 , sempre al secondo ordine
∂
r µ
X
∂M
M (x1 , . . . xr ) ' M (x̂1 , . . . x̂r ) + 2M (x̂1 , . . . x̂r )
(xi − x̂i ) +
∂xi x̂
i=1
µ
∂ µ
∂
r
X
∂M
∂M
+
(xi − x̂i )(xj − x̂j )+
∂xi x̂ ∂xj x̂
i,j=1
µ 2
∂
r
X
∂ M
+ M (x̂1 , . . . x̂r )
(xi − x̂i )(xj − x̂j )
∂x
∂x
i
j
x̂
i,j=1
2
30
2
(A.7.3)
Quindi M è una funzione delle variabili casuali xi , che qui però, a differenza di quanto avviene per le
ripetizioni di una stessa misura, provengono da distribuzioni indipendenti fi (xi ) in generale diverse.
Made with Macintosh
44
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
Per l’indipendenza degli xi risulta
∂
∂2M
σx2i
2
∂xi x̂
µ
∂2
r
X
© 2™
∂M
2
E M = M (x̂1 , . . . x̂r ) +
σx2i
∂xi x̂
i=1
r
1X
E {M } = M (x̂1 , . . . x̂r ) +
2 i=1
µ
(A.7.4)
Calcoliamo [E {M }]2 fino ai termini del secondo ordine in σxi , che corrispondono ai termini
del secondo ordine in xi − x̂i
2
2
[E {M }] = M (x̂1 , . . . x̂r ) + M (x̂1 , . . . x̂r )
∂
r µ 2
X
∂ M
i=1
∂x2i
σx2i
(A.7.5)
x̂
Dalla differenza delle espressioni risulta immediatamente
2
σM
∂2
r µ
X
∂M
=
σx2i
∂xi x̂
i=1
(A.7.6)
2
Dovendo stimare σM
a partire da un numero finito di misure, sostituiremo gli stimatori xi
a x̂i e Sx2i a σx2i e avremo
2
SM
∂2
r µ
X
∂M
=
Sx2i
∂x
i x
i=1
(A.7.7)
È possibile comunque trovare lo stesso risultato in un modo più generale ed elegante,
facendo uso del concetto di matrice di correlazione definita dalle (2.19) e (2.20). Prima di
tutto riscriviamo le due equazioni utilizzando il formalismo vettoriale. Introduciamo due
vettori colonna a n elementi
 
x

 1

x2
x=

...

xn
 
x̂

 1

x̂2
x̂ =

...

x̂n
(A.7.8)
contenenti rispettivamente le variabili casuali e i rispettivi valori medi. Con questa notazione si può scrivere l’intera matrice di correlazione, comprendente le varianze nei termini
Made with Macintosh
45
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
diagonali e le covarianze negli altri, in forma compatta
©
™
Cx = E (xx − x̂)(xx − x̂)t
(A.7.9)
dove l’operatore t indica la trasposizione, in questo caso in vettore riga.31 Consideriamo
ora una nuova variabile casuale y di dimensione m che si ottiene applicando a x la trasformazione lineare ottenuta moltiplicando per una matrice M {m × n} e aggiungendo un
vettore a{m × 1}
y = Mxx + a
(A.7.10)
ŷ = E {yy} = E {Mxx + a} = M x̂ + a
(A.7.11)
Avremo per ŷ
dove si sono sfruttate le proprietà di linearità enunciate in (A.2.1). A questo punto possiamo calcolare la matrice di correlazione per la nuova variabile
n
o
©
™
t
Cy = E (yy − ŷ)(yy − ŷ)t = E M (xx − x̂) [M (xx − x̂)] =
©
™
= E M (xx − x̂)(xx − x̂)t M t = M Cx M t
(A.7.12)
dove si è sfruttata la nota proprietà per la trasposta di un prodotto di matrici: (AB)t =
B t At . La (A.7.12) è una relazione molto utile in statistica, in quanto permette di calcolare
la matrice di correlazione di una variabile vettoriale che ha dipendenza lineare da un’altra
di matrice nota.
Possiamo applicare questo risultato per trovare una forma generale della propagazione
degli errori statistici, valida anche quando le variabili di partenza non sono fra loro indipendenti. Consideriamo il caso in cui y = H(xx) e sviluppiamo la relazione al primo ordine
intorno a x = x̂
y ' H(x̂) + M (xx − x̂) = Mxx + a
Ø
∂Hi (x) ØØ
Mij =
∂xj Øx=x̂
dove
(A.7.13)
Una volta effettuata la trasformazione, si ottiene la matrice di correlazione delle nuove
31
Infatti se moltiplichiamo un vettore colonna a{n × 1} per un vettore riga b{n × 1} otteniamo una matrice
C{n × n} i cui elementi sono dati da Cij = ai bj .
Made with Macintosh
46
C 2006 Andrea Perego, Univ. di
Firenze - Dip. di Fisica
6 ottobre 2008
variabili dalla (A.7.12). Esplicitamente
Cyij =
n X
n
X
k=1 l=1
Mik Cxkl Mljt
Ø
Ø
n X
n
X
∂Hi (x) ØØ
∂Hj (x) ØØ
=
Cxkl
∂xk Øx=x̂
∂xl Øx=x̂
(A.7.14)
k=1 l=1
Consideriamo il caso particolare in cui y è scalare, ossia assimilabile a un vettore unidimensionale
Ø
Ø
n X
n
X
∂H(x) ØØ
∂H(x) ØØ
σy =
Cxkl =
∂xk Øx=x̂ ∂xl Øx=x̂
k=1 l=1
Ø
Ø
∂2
n µ
n−1
n
X
X X
Ø
Ø
∂H(x)
∂H(x)
∂H(x)
Ø
Ø cov(xk , xl )
=
σx2k + 2
Ø
Ø
∂xk
∂x
∂x
k
l
x̂
x̂
x̂
k=1
k=1 l=k+1
2
(A.7.15)
dove il secondo termine dell’ultima espressione, quello con la doppia sommatoria, tiene
conto del fatto che la matrice di covarianza è simmetrica. Qualora, come accade nei casi
pratici, la conoscenza della statistica derivi da un campione finito, si sostituiranno nella
(A.7.15) i valori stimati delle medie e della matrice di covarianza delle variabili di partenza.
Si noti che il primo termine della (A.7.15) coincide con la soluzione già trovata in (A.7.7).
Made with Macintosh
47