procedure di best fit - Dipartimento di Fisica

Transcript

procedure di best fit - Dipartimento di Fisica
Best fit a una funzione
Problema:
1. Verificare la validità di una data legge (ovvero scegliere la legge giusta);
2. Determinare i valori dei parametri della legge (e la loro incertezza)
6
5
4
ω [ra
ad/s]
EEsempio: i
Nell’esperimento “Volano” voglio verificare la validità della legge ω(t) = αtott e determinare il valore di α
e determinare il valore di αtot
3
2
1
0
0
5
10
15
20
25
In generale:
Time [s]
‐ ho un set di misure yi corrispondenti a valori (misurati) xi
‐suppongo di conoscere una relazione funzionale y = f(x)
‐ voglio verificare la validità della legge e determinare i parametri della funzione f(x)
30
Nota: leggi di potenza
Caso più semplice: retta che passa per l’origine: f(x) = ax
Caso appena più complicato: retta con termine noto: f(x) = ax + b
Attenzione: talvolta è possibile “ricondursi” a forme lineari anche nel caso di funzioni nonlineari
Esempio: f(x) = A xm
[e g legge oraria del moto in caduta libera con v0 = 0: [e.g. legge oraria del moto in caduta libera con v
= 0: Δs(t) = (a/2)t
s(t) = (a/2)t2
dipendenza del periodo di oscillazione di una molla con la massa m: T(m) = 2π(m/k)1/2]
1000
1000
m
m
f(x) = A x
A = 2.2, m = 2
800
f(x) = A x
A = 2.2, m = 2
800
600
y
y
600
400
400
200
200
0
0
0
5
10
x
15
20
Rappresento i dati in modo Rappresento
i dati in modo
tale che la dipendenza sia lineare
0
100
200
m
x
300
400
Nota: carta logaritmica (bilogaritmica)
Log
Log
f(x) = A xm
Log(f(x)) = Log(A) + mLog(x)
Log(f(x)) = Log(A) + mLog(x)
Rappresentazione con andamento lineare dove ‐termine noto è Log(A)
g( )
‐ pendenza è m
4
2
100
m
f(x) = A x
A = 2.2, m = 2
8
6
4
Carta (bi)logaritmica
y
2
10
8
6
4
2
1
8
6
5 6 7 8 9
2
3
1
4
5 6 7 8 9
2
10
x
Usando la carta (bi)logaritmica rappresento Log(yi) in funzione di Log(xi)
Nota: andamenti esponenziali
Esempio: f(x) = A exp(x/B)
[e.g. velocità nel moto in attrito viscoso v(t) = v0 exp(‐t/τ)]
1.6
1.6
f(x) = A exp(-x/τ)
A = 2.2, τ = 1.8
1.4
1.2
1.2
1.0
1.0
0.8
y
y
f(x) = A exp(-x/τ)
A = 2.2, τ = 1.8
1.4
0.8
0.6
0.6
0.4
0.4
0.2
02
0.2
0.0
0.0
0
5
10
x
15
20
Rappresento i dati in modo tale che la dipendenza sia lineare
0.0
0.2
0.4
exp(-x/τ)
0.6
Nota: carta semilogaritmica
Log
f(x) = A exp(x/B)
Log(f(x)) = Log(A) + (1/B) x
Log(f(x)) = Log(A) + (1/B)
1
Rappresentazione con andamento lineare dove ‐termine noto è Log(A)
‐ pendenza è 1/B
f(x) = A exp(-x/τ)
A = 2.2,
2 2 τ = 1.8
18
0.1
y
Carta semilogaritmica
0.01
0.001
0.0001
0
5
10
x
15
20
Usando la carta semilogaritmica rappresento Log(yi) in funzione xi
Minimi quadrati
Definisco residuo : Δ i = yi − f ( xi )
Costruisco : S = ∑i Δ i =∑i ( yi − f ( xi ))
2
2
Cerco parametri di f(x) tali da minimizzare S
Nota: il metodo tratta tutte le yi “allo stesso modo” Æ
Vale solo se gli errori sulle misure sono tutti paragonabili fra loro
g
p g
f
Æ
(Vale solo se l’eventuale errore su xi non si propaga “troppo” su yi)
Minimizzare Æ imporre derivata nulla rispetto ai parametri della funzione
p
p
p
In generale:
⎧ ∂S
⎪ ∂a = 0
⎪
⎪ ∂S
⎨ =0
⎪ ∂b
⎪....
⎪
⎩
a, b, … parametri della funzione
, , p
Non per tutte le funzioni f(x) è fattibile in modo analitico (servono computer e algoritmi numerici)
analitico (servono computer e algoritmi numerici)
Minimi quadrati per una retta passante per l’origine
f ( x) = ax
S = ∑i ( yi − axi )
Se ho incertezza Δyi:
2
Propagazione degli errori (in quadratura) :
dS
Condizione di minimo :
=0
da
⎛
(Δa )2 = ∑ ⎜⎜ ∂a ⎟⎟ (Δyi )2 =
i
i
i
2
i
i
yi − f ( xi )
i
⎝ ∂yi ⎠
0.10
0.05
0.00
6
5
ω [rad/s]
∑xy
∑x
Residuals
→ 0 = ∑i − 2( x i ( yi − axi ) ) → 0 = ∑i xi yi − ∑i axi2
⇒a=
⎞
2
4
3
2
Rette interpolanti di minima e massima pendenza
f(x) = ax
a = (0.216±0.011) rad/s
1
2
0
0
5
10
15
Time [s]
20
25
30
∑x
i
2
Δyi
2
i
⎛
⎞
⎜ ∑ xi2 ⎟
⎝ i
⎠
2
Minimi quadrati per una funzione costante
Supponiamo di eseguire tante misure della stessa grandezza k (costante):
f(x) = k (k è l’unico parametro di questa funzione!)
S = ∑i ( yi − k )
2
dS
= −2∑i ( yi − k ) = 0
dk
→ ∑i yi = ∑i k = Nk con N numero delle misure
⇒k =∑
i
yi
=y
N
La media aritmetica è il miglior fit della funzione costante
⎛ ∑i ( y i − y ) ⎞
2
⎜
⎟
2
σ
⎛
⎞
⎛ Δyi ⎞ ⎜
y
N
⎟ = ⎜ ⎟ = (σ )2
= ∑i ⎜
⎟ =
y
⎟ ⎝⎜ N ⎠⎟
N
⎝ N ⎠ ⎜
⎜
⎟
⎝
⎠
L’incertezza è l’”errore sulla media” σy
2
(Δk )
2
2
⎛ dk ⎞
⎟⎟ (Δyi )2
= ∑i ⎜⎜
⎝ dyi ⎠
Minimi quadrati per una retta che non passa per l’origine
,
p
)
f ( x) = ax + b a, b sono due parametri)
S = ∑i ( yi − axi − b) 2
⎧ ∂S
⎪⎪ ∂a = 0 = −2∑i ( yi − axi − b )xi
Condizione di minimo : ⎨
⎪ ∂S = 0 = −2∑ ( y − ax − b )
i
i
i
⎪⎩ ∂b
⎧ Nb + a ∑i xi = ∑i yi
⎪
→⎨
2
b
x
+
a
x
= ∑i xi yi
∑
i
i i
⎪⎩ ∑
i
⎧
N ∑ xi yi − ∑ xi ∑ yi
⎪a =
2
2
N ∑ xi − (∑ xi )
⎪
⇒⎨
2
y
x
⎪
∑ i ∑ i − ∑ xi ∑ xi yi
b
=
2
⎪
2
(
)
N
x
−
x
∑ i ∑ i
⎩
Formule complicate, ma ancora di tipo analitico!
Propagazione degli errori (in quadratura)
2
⎧
N
σ
2
y
⎪(Δa ) =
2
2
N ∑ xi − (∑ xi )
⎪
⎨
2
2
σ
x
⎪
2
y ∑ i
(
)
Δ
b
=
2
⎪
2
(
)
−
N
x
x
∑ i ∑ i
⎩
con : σ y =
2
2
(
)
Δ
y
∑i i
N
Best fit per una retta che non passa per l’origine
-3
Residu
uals
11
10
ω [rad/s]
Esempio: Nell’esperimento
Nell
esperimento “Volano”
Volano voglio verificare la validità della legge ω(t) = ω0 + αAt
e determinare il valore αA
e determinare il valore α
30x10
20
10
0
-10
9
8
f(x) = ax + b
2
a = (-0.057±0.005) rad/s
b = ((9.72±0.11)) rad/s
7
6
0
10
20
Time [s]
30
40
Best fit che tiene conto dell’incertezza sperimentale
Definisco residuo " pesato" per gli errori : Δ i =
yi − f ( xi )
con σ i deviazione
d i i
standard
d d (errore)
(
) delle
d ll misure
i
Costruisco : S = ∑i Δ i =∑i
2
( yi − f ( xi )) 2
σ i2
e minimizzo in funzione dei parametri
σi
⎧ ∂∂SS
⎪ ∂a = 0
⎪
⎪ ∂S
⎨ =0
⎪ ∂b
⎪....
⎪
⎩
Nel caso in cui si abbia incertezza anche per le grandezze “indipendenti”
xi è formalmente possibile costruire una deviazione standard σi che tiene
conto anche di queste incertezze
Attenzione: l’incertezza su x non deve in nessun caso produrre2 effetti troppo marcati
⎛ ⎛ ∂f ⎞
⎞
su y, cioè, per la propagazione degli errori::
⎜ ⎜ ⎟ Δxi ⎟ < (Δyi )2
⎜ ⎝ ∂x ⎠ x
⎟
i
⎝
⎠
Se si assumono yi distribuite in modo normale (cioè secondo distribuzione Gaussiana), i residui Δi sono variabili Gaussiane con media nulla e varianza unitaria!
La funzione S segue allora la distribuzione del chi‐quadro
Vantaggi del metodo del minimo chi‐quadro
IlIl metodo del minimo χ
metodo del minimo χ2 consente di tenere in conto incertezze differenti per le varie misure
consente di tenere in conto incertezze differenti per le varie misure
Inoltre permette di usare il test del chi‐quadro per valutare la “verosimiglianza” del fit
2
⎛ yi − f ( xi ) ⎞
⎜
⎟
S = ∑⎜
La funzione è un chi‐quadro ad n gradi di libertà
⎟
σi
i =1 ⎝
⎠
Pertanto S è distribuita secondo la distribuzione del chi‐quadro ad n gradi di libertà, cioè:
n
p ( n, S ) = C n S
n− 2
n
S
−
2
2
e
1
con Cn = n / 2
2 Γ ( n / 2)
con :
E (S ) = n
media
σ S 2 = 2n
2
varia
i nza
Esistono delle tabelle che dicono qual è il valore γ di S tale che la probabilità sia p (per un dato valore di n): p(n, S≤ γ) = p
Le tabelle dunque dicono con quale probabilità il chi‐quadro, cioè la somma dei residui pesata per le incertezze, è al di sotto di un certo valore di confidenza
Test del chi‐quadro
99.5%
99%
97.5%
95%
90%
75%
50%
25%
10%
5%
2.5%
1%
0.5%
Esempio:
Suppongo n = 10 Se χ2 = 18.3 allora, ripetendo il best fit (con altri parametri o con altra legge), nel 95% dei casi troverei χ2 < 18.3
Æ La La “confidenza”
confidenza del mio χ
del mio χ2
è 100‐95=5%
Esempio:
Suppongo n = 20 Se χ2 = 12.4 allora, ripetendo il best fit (con altri parametri o con altra legge), nel 10% dei casi troverei χ2 < 12.4
Æ La La “confidenza”
confidenza del mio χ
del mio χ2
è 100‐10=90%
Conoscere il valore del chi‐quadro permette di conoscere la probabilità che, rifacendo il best fit (altri valori dei parametri, altra legge) questo venga “meglio” di quello che si è fatto, cioè con un valore del chi‐quadro minore di quello originariamente determinato Æ
q
g
si attribuisce un “valore di confidenza” al best fit
Il best fit con minimo chi‐quadro è noto anche come “maximum likelihood”
Alcune formule per chi‐quadro
retta
tt
costante
Spesso si usano algoritmi numerici implementati in programmi di calcolo
Esempi di chi‐quadro I
0 10
0.10
Residu
uals [rad/s]
Nell’esperimento “volano” i dati del moto sotto effetto della forza peso possono essere fittati con:
1. f(x) = ax (retta passante per origine, velocità iniziale nulla)
2. f(x)=ax+b (retta con termine noto di velocità iniziale non nulla)
0.05
0.00
-0.05
-0.10
0
5
10
15
20
25
30
La funzione 2 “fitta meglio”
6
Infatti (i gradi di libertà sono calcolati come numero dei punti sperimentali meno parametri di fit):
1. χ2 = 9.5, n = 12
2. χ2 = 0.3, n = 11
5
ω [rad/ss]
4
3
experimental data
f(x) = ax
a=(0.220±0.003) rad/s
2
2
2
χ =9.5
=9 5
f(x) = ax+b
2
a=(0.208±0.005) rad/s , b =(0.17±0.05) rad/s
2
1
χ =0.03
0
0
5
10
15
Time [s]
20
25
30
Esempi di chi‐quadro I: test di verosimiglianza
99 5%
99.5%
99%
97 5%
97.5%
95%
90%
75%
50%
25%
10%
5%
2 5%
2.5%
1%
0 5%
0.5%
Esaminiamo la tabella:
Per n=12 il valore χ2 = 9.5, calcolato per il best fit 1, cade tra la colonna del 50% e quella del 1 cade tra la colonna del 50% e quella del
25%. Quindi, ripetendo il best fit con altri parametri o altra legge, nel 25‐50% dei casi otterrei un c2 minore, cioè un best fit migliore. Il livello di confidenza è dunque compreso tra 100‐50% e 100‐25%, cioè è compreso tra 50‐
75% (niente male, ma niente di che…)
Per n=11 il valore χ2 = 0.3, calcolato per il best fit 2, è minore di tutti i valori riportati. ,
p
Quindi, ripetendo il best fit con altri parametri o altra legge, in meno dello 0.5% dei casi otterrei un c2 minore, cioè un best fit migliore. Il livello di confidenza è dunque migliore del 99 5%!! Il best fit 2 è nettamente migliore del 99.5%!! Il best fit
2 è nettamente migliore del
best fit 1
Attenzione: valori di χ2 molto bassi sono sospetti! A parte “manipolazioni” dei dati, essi possono venire da una sovrastima dell’incertezza delle misure (l’incertezza σι2 compare a dividere!)
Esempi di chi‐quadro II
Simulazione di dati che seguono una legge di potenza: y a+bxm
potenza: y = a+bx
Experimental data
2
Straight line, χ = 88
10
2. Fittando con polinomio di 2.
Fittando con polinomio di
grado 2 (3 parametri, cioè n = 25) ho χ2 = 23
3. Fittando con legge di potenza d
l
d
(3 parametri, cioè n = 25 anche in questo caso) ho ho χ2 = 18
2
P
Power-law
l
((m=1.8),
1 8) χ = 18
8
y [arb.u
un.]
1. Fittando con una retta con 1.
Fittando con una retta con
termine costante, ho χ2 = 88 (il numero di gradi di libertà n è pari a numero misure – numero parametri della legge di fit, cioè 28‐2=26)
2
2nd order polynomial, χ = 23
6
28 data points
4
2
40
60
80
100
120
x [arb.un.]
140
160
180
Esempi di chi‐quadro II: test di verosimiglianza
99 5%
99.5%
99%
97 5%
97.5%
95%
90%
75%
50%
25%
10%
5%
2 5%
2.5%
1%
0 5%
0.5%
Esaminiamo la tabella:
1. Per n=26 il valore χ2 = 88 calcolato per il best fit 1 (retta) è maggiore del massimo numero riportato nella linea, per cui la confidenza del best fit è peggiore di 100‐99.5% = 0.5% (il best fit
è pessimo!)
2. Per n=25 il valore χ2 = 23, calcolato per il best fit 2 (polinomio), cade tra la colonna del 25% e quella del 50%, per cui la confidenza del best fit è 50‐75%
3. Per n=25 il valore χ2 = 18, calcolato per il best fit 3 (legge di potenza), cade tra la colonna del 10% e quella del 25%, per cui la confidenza del best fit è 75‐
90%: la legge di potenza è quella che descrive meglio (con maggior livello di confidenza) i risultati sperimentali!
Il confronto tra valori di χ2 calcolati per varie scelte della funzione di best fit permette di determinare la legge che descrive meglio (con maggior livello di confidenza) i dati sperimentali
Esempi di chi‐quadro III
La legge a doppio esponenziale descrive meglio il comportamento (infatti ha una
comportamento (infatti ha una spiegazione fisica dovuta alla compresenza di due canali di decadimento)
50
experimental data
2
single exponential with τ=(110±6) ns,χ = 543
2
double exponential with τ1=(40±3) ns,τ2=(204±18) ns,χ = 433
40
Photon coun
nts
Decadimento della Decadimento
della
fotoluminescenza di un cromoforo in matrice polimerica (PMMA)
polimerica (PMMA) 30
20
500 data points
10
0
0
100
200
300
400
500
Time [ns]
100
experimental data
2
single exponential with τ=(110±6) ns,χ = 543
6
5
2
d bl exponential
double
ti l with
ith τ1=(40±3)
(40 3) ns,τ2=(204±18)
(204 18) ns,χ = 433
4
3
Photon
n counts
Nota: con un alto numero di punti sperimentali, il numero di gradi di libertà n diventa troppo
gradi di libertà n diventa troppo alto per essere trovato nelle tabelle e il valore del χ2 risulta anche molto elevato.
Spesso si definisce e si usa il
Spesso si definisce e si usa il chi‐quadro ridotto χ2R = χ2/n
con n = nDATI‐nPARAMETRI: il best fit
è “ragionevole” se χ2R≤ 1, come nel caso del best fit al come nel caso del best fit
al
doppio esponenziale
2
10
6
5
4
3
2
1
0
100
200
300
Time [ns]
400
500