Famiglia esponenziale - Dipartimento di Matematica

Transcript

Famiglia esponenziale - Dipartimento di Matematica
Capitolo 5
Famiglia esponenziale
Veniamo ora a studiare una famiglia di modelli statistici molto importanti.
5.1
Famiglia esponenziale
Un modello {X, X , Pθ : θ ∈ Θ} è detto famiglia esponenziale se esiste
una funzione misurabile t : X → Rk , una misura σ–finita µ su (X, X ) e una
funzione misurabile η̃ : Θ → Rk tale che
Z
exp{(η̃(θ), t(x)) − ψ̃(θ)}µ(dx)
(B ∈ X )
(5.1)
Pθ (B) :=
B
dove (v, w) indica il prodotto scalare in Rk e, per ipotesi,
Z
exp{(η̃(θ), t(x))}µ(dx) < +∞
ψ̃(θ) := log
X
per ogni θ in Θ.
Esempio 36. Consideriamo il modello di Poisson dell’Esempio 7. Tale
modello può essere visto come famiglia esponenziale. In questo caso µ è la
misura la cui densità rispetto alla misura di conteggio su Nn è data da
1
Qn
i=1 xi !
,
Pn
+ e
k risulta essere pari ad 1, t(x) =
i=1 xi , η̃(θ) = log(θ), Θ = R
ψ̃(θ) = nθ. Introduciamo ora una riparametrizzazione del precedente modello ponendo H = η̃(Θ) = R e riparametrizzando {Pθ : θ ∈ Θ} come {Qη :=
55
Peη : η ∈ R}. Si noti che il nuovo modello è una reale riparametrizzazione
in quanto la funzione log è biettiva da R+ in R.
R Il nuovo modello è caratterizzato dalla misura di probabilità Qη (B) := B exp{ηt(x) − ψ(η)}µ(dx),
ossia è ancora una famiglia esponenziale in cui, tuttavia, la funzione η̃ è
l’identità.
L’esempio precedente suggerisce che, talvolta, un modello esponenziale
{X, X , Pθ : θ ∈ Θ} può essere
R riparametrizzato come {X, X , Qη : η ∈ H},
dove H = η̃(Θ), e Qη (B) := B exp{(η, t(x)) − ψ(η)}µ(dx).
Data una funzione misurabile t : X → Rk e una misura σ–finita µ su
(X, X ) si può sempre definire una famiglia esponenziale definendo
Z
exp{(η, t(x))}µ(dx) < +∞}
H := {η ∈ Rk : ψ(η) := log
X
e per ogni η in H ponendo
Z
exp{(η, t(x)) − ψ(η)}µ(dx)
Qη (B) :=
(B ∈ X ).
(5.2)
B
Se la famiglia esponenziale si presenta nella forma (5.2) viene detta canonica. Da una qualunque famiglia esponenziale si ottiene sempre una famiglia
canonica, tuttavia non è detto che quest’ultima sia una riparametrizzazione
della famiglia originaria, ossia non è detto che η̃(Θ) = H sia biettiva. Non
solo, in generale, presa una famiglia esponenziale in forma canonica non è
detto che {X, X , Pη : η ∈ H} sia un modello identificabile.
Indicata con µt la misura immagine su Rk di µ tramite t, ossia µt (A) =
µ{t−1 (A)} per ogni A in B(Rk ), nel seguito supporremo che l’interno del
convessificato del supporto di µt sia non vuoto.
Ricordiamo che il supporto di una misura ν su i boreliani di uno spazio
topologico U con topologia U è definito come l’insieme di tutti i punti u di
U tali per cui ogni intorno di u ha misura positiva. In formule
supp(ν) := {u ∈ U : per ogni N ∈ U tale che u ∈ N allora ν(N ) > 0}
Prima di proseguire osserviamo che chiaramente
Z
Z
exp{(η, y))}µt (dy).
exp{(η, t(x))}µ(dx) =
exp(ψ(η)) =
Rk
X
Lemma 5.1. ψ è una funzione convessa da H in R e H è un sottoinsieme
convesso di Rk .
56
Dim. Per ogni ǫ in (0, 1) la disuguaglianza di Hölder fornisce
Z
ǫ Z
1−ǫ
Z
1
1
v(y) 1−ǫ µt (dy)
u(y)v(y)µt (dy) ≤
u(y) ǫ µt (dy)
da cui prendendo i logaritmi
Z
Z
Z
1
1
log u(y)v(y)µt (dy) ≤ ǫ log
u(y) ǫ µt (dy) +(1−ǫ) log
v(y) 1−ǫ µt (dy) .
Scegliendo ora u(y) = exp{ǫ(η1 , y)} e v(y) = exp{(1 − ǫ)(η2 , y)} si ha che
ψ(ǫη1 + (1 − ǫ)η2 ) ≤ ǫψ(η1 ) + (1 − ǫ)ψ(η2 ).
Da cui segue immediatamente la tesi.
Come già detto, il modello {X, X , Pη : η ∈ H} è detto famiglia esponenziale in forma canonica e quando H ha interno non vuoto tale famiglia
si dice regolare. Si noti che, ovviamente, una famiglia esponenziale è un
modello dominato (per costruzione) da µ e da ogni elemento della famiglia.
Come conseguenza immediata del teorema di fattorizzazione si ha che
t è una statistica sufficiente per il modello. Prima di dimostrare che tale
statistica è anche completa enunciamo la seguente notevole
Proposizione 5.2. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale
regolare in forma canonica, allora per ogni (i1 , . . . , ik ) in Nk ed ogni η
appartenente all’interno di H si ha
Eη [t1 (ξ)i1 . . . tk (ξ)ik ] = e−ψ(η)
Poichè
ψ(η)
e
=
Z
∂ i1 +···+ik
∂η1i1 . . . ∂ηkik
eψ(η)
exp{(η, t(x))}µ(dx)
X
la dimostrazione della precedente proposizione consiste nel giustificare lo
scambio fra le derivate e l’integrale. Per la dimostrazione completa si veda
XXXXXX.
Ad esempio, se H ⊂ R,
Eη (t(ξ)) = ψ̇(η)
Eη (t2 (ξ)) = ψ̇(η)2 + ψ̈(η)
V arη (t(ξ)) = ψ̈(η).
57
In generale se Y = (Y1 , . . . , Yn ) è un vettore aleatorio, porremo
E[Y ] := (E[Y1 ], . . . , E[Yn ])
e
V ar(Y ) = [Cov(Yi , Yj )]ij
Dalla precedente proposizione segue che
Proposizione 5.3. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale
regolare in forma canonica, ed η0 appartenga all’interno di H, allora
Eη0 [t(ξ)] = ∇ψ(η0 )
e
V arη0 [t(ξ)] = Hess[ψ(η0 )]
2
∂ψ
∂ψ
ψ
dove ∇ψ(η0 ) = ( ∂η
(η0 ), . . . , ∂η
(η0 )) e Hess[ψ(η0 )] = [ ∂η∂i ∂η
(η0 )]ij .
1
1
j
5.2
Completezza per famiglie esponenziali in fomra canonica
Dimostriamo ora che t è anche una statistica completa.
Proposizione 5.4. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale
regolare in forma canonica, allora t è una statistica completa.
Dim. Fissato un valore η0 nell’interno di H si ha
Z
exp{(η−η0 , t(x))−ψ(η)+ψ(η0 )} exp{(η0 , t(x))−ψ(η0 )}µ(dx)
Pη (A) =
A∈X
A
dove z = (η − η0 ) varia, per opportuna scelta di η in H, in un intorno
I0 dell’origine di Rk . Sia φ una funzione che soddisfa le condizioni della
definizione di statistica completa. In particolare E(|φ(t(ξ))|) < +∞ per
ogni η in H e
Z
φ(t(x)) exp{(η, t(x)) − ψ(η)}µ(dx)
0 =
ZX
φ+ (t(x)) exp{(η − η0 , t(x)) − ψ(η) + ψ(η0 )}Pη0 (dx)
=
XZ
φ− (t(x)) exp{(η − η0 , t(x)) − ψ(η) + ψ(η0 )}Pη0 (dx).
−
X
58
Per tale φ, si ha quindi, ricordando che z = η − η0 ,
Z
Z
φ− (t(x)) exp{(z, t(x))}Pη0 (dx)
φ+ (t(x)) exp{(z, t(x))}Pη0 (dx) =
z ∈ I0 .
X
X
Ponendo z = 0 si ottiene
Z
Z
φ− (t(x))Pη0 (dx).
φ+ (t(x))Pη0 (dx) =
Z :=
X
X
Se Z = 0 si ha che φ+ (t(x)) = φ− (t(x)) Pη0 –quasi certamente. Poiché Pη0
domina il modello,
φ+ (t) = φ− (t)
q.c.-Pη
∀η
e quindi
Pη,t {0 = φ = φ+ − φ− } = 1
∀η
e la dimostrazione è conclusa. Se invece Z > 0 si ha che
Z
Z
φ+ (t(x))Pη0 (dx)
φ− (t(x))Pη0 (dx)
R
exp{(z, t(x))} R
exp{(z,
t(x))}
=
.
+
−
X
X
X φ (t(s))Pη0 (ds)
X φ (t(s))Pη0 (ds)
L’ultima uguaglianza può essere vista come uguaglianza su I0 di due funzioni
generatrici dei momenti di due leggi, Q+ e Q− , che, per il corrispondente
teorema di unicità, devono coincidere. Le due leggi in questione sono
Z
φ+ (t(x))Pη0 (dx)
IA (t(x)) R
Q+ (A) =
,
+
X
X φ (t(s))Pη0 (ds)
Q− (A) =
Z
X
IA (t(x)) R
φ− (t(x))Pη0 (dx)
.
−
X φ (t(s))Pη0 (ds)
Pertanto
Z
Z
+
I{t(x) ∈ A}φ (t(x))Pη0 (dx) = I{t(x) ∈ A}φ− (t(x))Pη0 (dx)
∀A∈X
e, quindi, φ+ (t) = φ− (t) q.c.-Pη0 . Nuovamente, poiché Pη0 domina il modello,
Pη,t {0 = φ = φ+ − φ− } = 1
∀ η.
Ossia, t è completa.
59
Esempio 37. (Modello Gaussiano).
Un caso particolare di modello esponenziale è rappresentato dal modello
Gaussiano di parametro θ = (θ1 , θ2 ) ∈ (−∞, +∞) × [0, +∞). Si veda l’E−1
si ottiene una densità (rispetto alla
sempio 8. Ponendo η1 = θθ21 e η2 = 2θ
2
n
misura di Lebesgue su R ) riparametrizzata come
exp{η1
n
X
i=1
xi + η2
n
X
x2i − ψ(η1 , η2 )}
i=1
dove η = (η1 , η2 ) ∈ (−∞, +∞) × (−∞, 0] e (x1 , . . . , xn ) ∈ Rn è il vettore
di osservazioni.
LaPstatistica sufficiente e completa è quindi data da t =
Pn
(t1 , t2 ) = ( i=1 ξi , ni=1 ξi2 ).
Modificando i parametri e ponendo θ1 = θ̃ > 0 e θ2 = θ̃ 2 il modello
non è più esponenziale e t non è più statistica completa, pur essendo ancora
sufficiente. La sufficienza si ricava dal teorema di fattorizzazione applicato
alla densità
)
!n
(
θ̃0
θ̃ − θ̃0
[(θ̃ + θ̃0 )t2 − 2(θ̃ θ̃0 )t1 ]
fθ̃ (x1 , . . . , xn ) =
exp
2(θ̃ θ̃0 )2
θ̃
calcolata rispetto ad una dominante privilegiata.
evidente considerando la funzione
La non completezza è
φ(t) = 2t21 − (n + 1)t2
che ha speranza matematica nulla ma è diversa da 0 su un insieme di
probabilità Pθ,t positiva.
Esempio 38. (Regressione gaussiana).
Si consideri il modello di regressione lineare definito nell’Esempio 27 e per
semplicità di notazione si ponga zi,1 = zi . In altri termini
ξi = αzi + β + ǫi .
Si noti che, posto θ = (α, β, σ 2 ), la densità (rispetto alla misura di Lebesgue)
di (ξ1 , . . . , ξn ) può essere riscritta come
(
)
n
1 X
1
2
exp − 2
(xi − αzi − β)
fθ (x) =
2σ
(2πσ 2 )n/2
i=1
)
(
n
X
1
n
(αzi + β)2
= exp − log(2πσ 2 ) − 2
2
2σ
i=1
(
)
n
n
n
1 X 2
β X
α X
exp − 2
xi + 2
xi + 2
zi xi
2σ
σ
σ
i=1
60
i=1
i=1
e quindi è una famiglia esponenziale con k = 3,
η̃(θ) = (−
e
1 β α
, , )
2σ 2 σ 2 σ 2
n
n
n
X
X
X
2
zi xi ).
xi ,
xi ,
t(x) = (
Per tanto
i=1
i=1
i=1
n
n
n
X
X
X
zi ξi )
ξi ,
ξi2 ,
(
i=1
i=1
i=1
risulta essere una statistica sufficiente e completa. Per ottenere la forma
canonica è sufficiente riparametrizzare Θ come
(η1 , η2 , η3 ) = (−
5.3
1 β α
, , ).
2σ 2 σ 2 σ 2
Rango e parametrizzazione
Una famiglia esponeziale regolare in forma canonica si dice di rango k se
t(x) = (t1 (x), . . . , tk (x)) e, per qualche η in H, si ha
k
k
X
X
aj tj (x) = ak+1 } < 1
aj tj (ξ) = ak+1 } = Pη {x :
Pη {
j=1
j=1
per ogni a1 , . . . , ak+1 reali tali che aj 6= 0 per almeno un j = 1, . . . , k + 1.
Enunciamo senza dimostrare il seguente risultato.
Proposizione 5.5. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica con t(x) = (t1 (x), . . . , tk (x)) e H aperto. Allora
sono equivalenti
1. la famiglia è di rango k;
2. η è un parametro, ossia {Pη : η ∈ H} è identificabile;
3. V arη (t(ξ)) è definita positiva;
4. ψ è strettamente convessa.
5. ∇ψ è ben definita in H ed è un’applicazione iniettiva su H
Per la dimostrazione si veda Bickel-Doksum Thm. 1.6.4.
61
5.4
Stimatori di massima verosimiglianza
Proposizione 5.6. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto. Sia x0 il valore osservato
dei dati e si ponga t0 = t(x0 ). Se
Pη0 {(t(ξ) − t0 , c) > 0}
∀ c 6= 0
(5.3)
(per qualche η0 , e quindi per tutti gli η) allora esiste un’unico stimatore di
massima verosimiglianza η̂(x0 ). Inoltre tale stimatore è soluzione di
∇ψ(η) = t0 .
(5.4)
Vicecersa, se t0 non soddisfa (5.3) allora allora lo stimatore di massima
verosimiglianza (per t0 ) non esiste e l’equazione (5.4) non ha soluzione.
Dim. Prima di tutto riscriviamo il modello come segue
Pη (dx) = Pη0 (dx) exp{(t(x) − t0 , η) − ψ̄(η)}
con
ψ̄(η) = log
Di conseguenza
Z
exp((t(x) − t0 , η)Pη0 (dx) .
log(vx0 (η)) = log(fη∗ (x0 )) = (t(x0 ) − t0 , η) − ψ̄(η) = −ψ̄(η).
Dalla Proposizione 5.5 sappiamo che ψ̄ è strettamente convessa e continua
in H. Per concludere l’esistenza di un’unico massimo resta da dimostrare
che data una qualunque successione (ηn )n che non contenga punti di accumulazione in H allora log(vx0 (ηn )) → +∞.
Dimostriamo l’ultima affermazione distinguendo due casi. Scriviamo
ηn = λn un
con λn = kηn k e un = ηn /kηn k. Ci sono solo due possibilià o (a) supn λn <
+∞ oppure (b) supn λn = +∞.
Valga (a). Consideriamo una generica sottosuccessione di n, diciamo n′ .
Dato che stiamo supponendo che ηn non contenga punti di accumulazione
in H possiamo estrarre una sotto-sottosuccessione nk tale che λnk → λ e,
contemporaneamente, unk → u 6∈ H. Per tale sottosuccessione
lim Eη [eλnk (t(ξ)−t0 ,unk ) ] = Eη [eλ(t(ξ)−t0 ,u) ] = eλ(t0 ,u) Eη [eλ(t(ξ),u) ] = +∞
k
62
poiché u 6∈ H. Questo dimostra che limn exp{ψ̄(ηn )} = +∞ e dunque
limn −ψ̄(ηn ) = −∞.
Valga (b). Consideriamo una generica sottosuccessione di n, diciamo n′ .
Questa volta possiamo estrarre una sotto-sottosuccessione tale che λnk →
+∞ e, contemporaneamente, unk → u. Ora notiamo
Z
lim sup exp{ψ̄(ηnk )} = lim sup Pη0 (dx)e(t(x)−t0 ,ηnk )
k
k
≥ lim sup eδλnk Pη0 {(τ (ξ) − t0 , unk ) > δ}
k
= lim sup Pη0 {(τ (ξ) − t0 , u) > δ}eδλnk = +∞
k
poiché per ipotesi, per qualche δ > 0, Pη0 {(τ (ξ) − t0 , u) > δ} > 0. Anche in
questo caso, data l’arbitrarietà della sotto-successione iniziale, concludiamo
facilmente che limn −ψ̄(ηn ) = −∞. La dimostrazione della prima parte si
conclude facilmente perché, stabilito esistenza ed unicità del massimo di
una funzione differenziabile definita su un’aperto, tale punto di massimo
deve essere necessariamente un punto stazionario.
Per la seconda parte, supponiamo che (5.3) sia falsa. Allora, per opportuni c 6= 0 ed η0 , Pη0 {(t(ξ)−t0 , c) ≤ 0} = 1. Di conseguenza Eη [(t(ξ)−t0 , c)] ≤
0 per ogni η. Se η̂ esistesse allora, essendo tale η̂ necessariamente un punto in
H (aperto) deve essere un punto stazionario e quindi deve essere soluzione
di (5.4), ossia Eη t(ξ) − t0 = 0, che implica Eη (t(ξ) − t0 , c) = 0 e quindi
Pη {x : (t(x) − t0 , c) = 0} = 1 che contraddice l’ipotesi che la famiglia sia
di rango k. La non solubilità di (5.4) è ovvia dal momento che un punto
stazionario è necessariamente un punto di minimo essendo la funzione ψ
convessa.
Proposizione 5.7. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto. Sia x0 il valore dei dati
osservato e si ponga t0 = t(x0 ). Lo stimatore di massima verosimiglianza per x0 esiste se e solo se t0 appartiene all’interno del convessificato del
supporto della distribuzione di t(ξ).
Dim. Sia C il convessificato del supporto della legge di t(ξ). E’ sufficiente
osservare che per definizione di interno di un convesso, t0 appartine all’interno di C se e solo se per ogni d 6= 0 in Rk , gli insiemi {y : (y − t0 , d) > 0} ∩ C
e {y : (y − t0 , d) < 0} ∩ C sono non vuoti. La tesi segue quindi dalla
Proposizione 5.6 e dalla definizione di supporto di una misura.
63
Proposizione 5.8. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto tale che Pη sia assolutamente continua rispetto alla misura di lebesgue. Allora lo stimatore di
massima verosimiglianza esiste con probabilità uno.
Dim. La tesi segue immediatamente dal fatto che la frontiera di un
insieme convesso ha misura di lebesgue nulla.
5.5
Famiglie esponenziali per campioni i.i.d.
Un’altra buona proprietà delle famiglie esponenziali è che un prodotto di
famiglia esponenziali è ancora una famiglia esponenziale. In altri termini
se consideriamo un modello statistico in cui le osservazioni (ξ1 , ξ2 , . . . , ξn )
sono variabili aleatorie indipendenti ed identicamente distribuite a valori
in (X, X ) con comune legge appartenente ad una famiglia esponenziale descritta da (µ, t, η̃, Θ), allora il modello statistico associato al campione ndimensionale è ancora una famiglia esponenziale. In particolare la misura
Pθ per il modello n-dimensionale sarà
Pθ (A) =
Z
exp
A
n
n X
i
o
t(x), η̃(θ) − nψ̃(θ) µ(dx1 ) . . . µ(dxn )
(A ∈ X n ).
Si noti che Θ rimane invariato
cosı̀ come η̃, mentre la nuova statistica suffiP
ciente e completa sarà ni=1 t(x), la nuova funzione ψ̃ sarà nψ̃(θ) e la nuova
misura di riferimento sarà il prodotto delle µ, ossia dµ⊗n . Posto
n
Tn (x) =
1X
t(xi )
n
i=1
la forma canonica è utile scriverla come
dQη
(x) = exp{(nTn , η) − nψ(η)}
dµ⊗n
con
ψ(η) = log
nZ
X
o
exp{(t(x1 ), η)dµ(x1 ) .
In questo modo l’equazione per gli stimatori di massima verosimiglianza
(5.4) diventa
nTn (x0 ) = n∇ψ(η)
64
ossia
n
1X
t(x0,i ) = ∇ψ(η) = Eη [t(ξ1 )].
n
i=1
5.6
Esercizi
Esercizio 10. Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune esponenziale di parametri (a, λ), ossia con comune densità di probabilità
fa,λ (xi ) = λI(a,+∞) (xi )e−λ(xi −a)
(a > 0, λ > 0).
Si denoti, inoltre, con Pa,λ la misura di probabilità di (ξ1 , . . . , ξn )
1. Scrivere la densità di (ξ1 , . . . , ξn ).
2. Il modello {Rn , B(Rn ), Pa,λ : λ ∈ R+ } è una famiglia esponenziale? Il
modello {Rn , B(Rn ), Pa,λ : a ∈ R+ , λ ∈ R+ } è una famiglia esponenziale?
Pn
3. Noto a mostrare che
i=1 xi è una statistica sufficiente e completa
per λ.
4. Noto λ mostrare che νn è una statistica sufficiente e completa per a.
Esercizio 11. Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge
comune di pareto di parametri (a, λ), ossia con comune densità di probabilità
fλ,a (x) = λaλ
1
I
(x)
xλ+1 (a,+∞)
(a > 0, λ > 0).
Si denoti, inoltre, con Pa,λ la misura di probabilià di (ξ1 , . . . , ξn )
1. Scrivere la densità di (ξ1 , . . . , ξn ).
2. Il modello {Rn , B(Rn ), Pa,λ : λ ∈ R+ } è una famiglia esponenziale? Il
modello {Rn , B(Rn ), Pa,λ : a ∈ R+ , λ ∈ R+ } è una famiglia esponenziale?
P
3. Noto a mostrare che ni=1 log(xi ) è una statistica sufficiente e completa per λ.
4. Noto λ mostrare che νn è una statistica sufficiente e completa per a.
65
Capitolo 6
Stimatori a Varianza
Uniformemente Minima.
La sufficienza, unitamente alla completezza, si rivela una proprietà fondamentale per la ricerca di stimatori ottimali di funzioni dei parametri incogniti. Preliminari all’illustrazione di questo punto sono alcuni concetti legati
alla nozione di stimatore puntuale di un parametro.
Nel seguito si supponga fissata una funzione
τ : Θ → R.
Se lo spazio dei parametri è R l’esempio più classico di τ è l’ identità.
In questo capitolo considereremo statistiche che siano stimatori di τ (θ),
per tanto statistiche a valori reali:
t : (X, X ) → (R, B(R)).
Per valutare la bontà di uno stimatore puntuale si considerano simultaneamente due aspetti: la capacità di avvicinarsi al valore vero della quantità
da stimare e la variabilità intorno a tale valore. Più precisamente, è possibile valutare l’errore (o scarto) quadratico medio (EQM) di un generico
stimatore t calcolando
(6.1)
EQM (t, θ) := Eθ (t(ξ) − τ (θ))2
=
[Eθ (t(ξ) − τ (θ))]2 + V ar(t(ξ))
(6.2)
Tra tutti i possibili stimatori per τ (θ) si vorrebbe quindi cercare quello
che minimizza sia lo scarto medio dal valore vero di τ che la varianza. In
66
generale, data l’ampiezza della classe degli stimatori ammissibili, non si
trova uno stimatore ottimale unico sulla base di questo criterio. Pertanto è
opportuno restringere la ricerca all’interno della classe degli stimatori non
distorti per τ (θ).
Uno stimatore t si dice non distorto per τ (θ) se vale
Eθ (t(ξ)) = τ (θ)
∀ θ ∈ Θ.
Dalla (6.1) è chiaro che, considerando soltanto stimatori non distorti, il
confronto va fatto sulla base della varianza. Per far ciò è naturale restringersi
alla classe degli stimatori con varianza finita.
Nel seguito denotiamo con Uτ l’insieme degli stimatori non distorti a
varianza finita di τ , ossia
Uτ : = {t : (X, X ) → (R, B(R)) : V arθ (t(ξ)) < +∞,
Eθ (t(ξ)) = τ (θ) ∀θ ∈ Θ}.
Come già detto si può pensare che più uno stimatore abbia varianza
piccola più sia buono. Tuttavia, dal momento che vi è la dipendenza dal
parametro θ, incognito, non è ovvio cosa intendere per varianza piccola.
Potrebbe accadere che uno stimatore per certi valori di θ abbia variaza
bassa mentre per altri valori di θ lo stesso stimatore abbia varianza molto
alta. Generalmente si è portati a considerare migliore uno stimatore che
minimizzi uniformemnte la varianza nell’ ambito degli stimatori non distorti
con varianza finita.
Uno stimatore t∗ appartenente a Uτ è detto stimatore non distorto a
varianza uniformemente minima (in inglese UMVUE) se
V arθ (t∗ (ξ)) ≤ V arθ (t(ξ))
∀ t ∈ Uτ , ∀ θ ∈ Θ.
Se non vengono fatte ipotesi sul campione e sulla funzione da stimare
non è detto che tali stimatori esistano. Vedremo ora sotto quali condizioni
è possibile costruire uno stimatore a varianza uniformemente minima. Sufficienza e completezza forniscono risultati utili per la ricerca di stimatori
ottimali. Un primo importante risultato in tale direzione è il seguente
Lemma 6.1. (Kolmogorov, Blackwell, Rao).
Siano M = {(X, X , Pθ ) : θ ∈ Θ} un modello statistico, t1 una statistica
sufficiente per M e t2 uno stimatore non distorto per τ (θ). Allora:
67
(i) Esiste una versione t3 (ξ) di Eθ (t2 (ξ)|t1 (ξ)) indipendente da θ e tale
che Eθ t3 (ξ) = τ (θ).
(ii) V arθ t3 (ξ) ≤ V arθ t2 (ξ)
∀ θ ∈ Θ.
Dimostrazione Dalla sufficienza di t1 segue (si veda il Teorema A.2) che
esiste una versione (che indichiamo con t3 (ξ)) di Eθ (t2 (ξ)|t1 (ξ)) indipendente
da θ. Si ha che
Eθ (t3 (ξ)) = Eθ [Eθ (t2 (ξ)|t1 (ξ))] = Eθ (t2 (ξ)) = τ (θ).
(6.3)
La disuguaglianza di Jensen per le speranze condizionali implica che
t3 (ξ)2 = (Eθ [t2 (ξ)|t1 (ξ)])2 ≤ Eθ [t22 (ξ)|t1 (ξ)]
(6.4)
e quindi
Eθ (t23 (ξ)) ≤ Eθ (t22 (ξ)).
Questo teorema non ci assicura che t3 sia a varianza uniformemente minima, ma ci fornisce una tecnica per migliorare uno stimatore non distorto
sfruttando la conoscenza di una statistica. Per ottenere uno stimatore a varianza uniformemente minima dobbiamo rinforzare le ipotesi sulla statistica
rispetto alla quale si condiziona. Un risultato fondamentale è il seguente
classico
Teorema 6.2. (Lehmann, Scheffè).
Siano soddisfatte le condizioni del precedente Lemma e si assuma inoltre che
t1 sia completa. Allora t3 è stimatore UMVUE per τ (θ).
Dimostrazione
Sia u′ (ξ) uno stimatore non distorto di τ (θ) tale che
V arθ (u′ (ξ)) < V arθ (t3 (ξ))
per un certo θ ∈ Θ. Grazie al lemma precedente si ha che esiste una versione
t′ (ξ) di Eθ (u′ (ξ)|t1 (ξ)) tale che
V arθ (t′ (ξ)) < V arθ (t3 (ξ))
D’altro canto si ha che t3 (ξ) = φ ◦ t1 (ξ) e t′ (ξ) = φ′ ◦ t1 (ξ) per opportune
φ e φ′ . Poiché t1 è completa e t′ e t3 sono stimatori non distorti di τ (θ), ne
segue che t3 = t′ Pθ -q.c..
68
Il signficato dei due risultati appena esposti è che lo stimatore UMVUE,
se esiste, va cercato tra gli stimatori non distorti che siano funzioni di statistiche sufficienti e complete. Si noti che la statistica t1 dei precedenti teoremi non necessariamente è una statistica a valori reali. Come illustrato
dal seguente esempio è spesso utile condizionare a statistiche che assumono
valori in Rk .
Esempio 39 (Modello Gaussiano). Si consideri modello gaussiano dell’esempio 8. In altri termini
X = Rn ,
X = B(Rn ),
Θ = R × (0, +∞)
θ = (µ, σ 2 )
e
fθ (x) =
n
Y
1
1
2
exp
−
(x
−
µ)
k
2σ 2
(σ 2 2π)1/2
k=1
x = (x1 , . . . , xn ) ∈ Rn .
Si vuole stimare τ (θ) = Eθ ξ1 = θ. ComePgià visto
Pquando si è trattata la
famiglia esponenziale, si ha che t1 (ξ) = ( ni=1 ξi , ni=1 ξi2 ) è una statistica
sufficiente e completa per tale modello, almeno scritto in forma canonica.
E’ immediato dedurre che lo è anche per il medesimo modello scritto come
sopra, perché in questo caso la forma canonica è una reale riparametrizzazione del
P modello sopra scritto. Si osservi ora che la media campionaria
m̄n = n1 ni=1 ξi è uno stimatore non distorto per τ (θ) = mu ed inoltre è
funzione di t1 . Applicando il Teorema 6.2 si ha quindi che m̄n è stimatore
UMVUE per µ. In maniera analoga si consideri
sn (ξ) :=
n
n
1 X
1 X 2
ξ − nm̄2n ).
(ξ − m̄n )2 =
(
n−1
n−1
i=1
i=1
Semplici conti porgono Eθ (sn (ξ)) = σ 2 , quindi sn è uno stimatore non distorto di τ (θ) = σ 2 , inoltre poichè è funzione di t1 esso è è uno stimatore
UMVUE per σ 2 .
Esempio 40 (Regressione lineare Gaussiana). Si consideri modello di regressione lineare gaussiana dell’Esempio 38. In altri termini
X = Rn ,
X = B(Rn ),
Θ = R × R × (0, +∞)
θ = (α, β, σ 2 )
e
)
(
n
1
1 X
(xi − αzi − β)2
fθ (x) = 2
exp − 2
2σ
(σ 2π)n/2
i=1
69
x = (x1 , . . . , xn ) ∈ Rn .
Ragionando come nell’esempio precedente si dimostra che
n
n
n
X
X
X
ξi zi )
ξi ,
ξi2 ,
t1 (ξ) = (
i=1
i=1
i=1
è una statistica per il modello in forma canonica ma anche per il modello
scritto come sopra. Consideriamo ora gli stimatori ai minimi quadrati di α
eβ
n
n
1 1 X
1X α̂n (ξ) = 2
ξi zi − m1,n
ξi
n
σ1,n n
i=1
β̂(ξ) =
1
n
dove
n
X
ξi −
i=1
i=1
n
m1,n 1 X
2
σ1,n
n
i=1
n
m1,n
1X
=
zi ,
n
n
ξi zi − m1,n
1X ξi
n
i=1
n
2
σ1,n
i=1
1X 2
=
zi − m21,n
n
i=1
si veda Esempio 13. Semplici conti mostrano che Eθ [α̂(ξ)] = α e Eθ [β̂(ξ)] =
β. Poichè α̂ e β̂ risultano funzioni di t1 essi sono stimatori UMVUE.
Esempio 41 (da rivedere). Dato
modello
dell’esempio
R x lo stesso
precedente,
1
1
2 du, fissato
exp
−
si vuole ora stimare τ (θ) = −∞ (σ2 2π)
(u
−
θ)
1/2
2σ2
x ∈ R. Si noti che uno stimatore non distorto per tale funzione è t(ξ) =
I(−∞,x] (ξ1 ). Sia u(ξ) una versione di Eθ (t(ξ)|s(ξ)) = Pθ {ξ1 ≤ x|s(ξ)}; dal
Lemma 6.1 segue allora che u migliora la stima fornita da t nel senso della
varianza. Inoltre, essendo u(ξ) funzione di s(ξ) sufficiente e completa, si ha
anche che u(ξ) è UMVUE.
Per ottenere un’espressione esplicita di tale stimatore:
s
s
= Pθ ξ1 − ≤ y
Pθ ξ1 − ≤ y|s
n
n
Z y
1 2
1
exp − 2 v dv
=
1/2
2σ̃
−∞ (σ2π)
y∈R
con σ̃ 2 = σ 2 n−1
n . In particolare, per y = x − s/n,
Z x−s/n
1 2
s
1
exp
−
v
≤
x
−
s/n|s
dv
=
P
ξ
−
1
θ
2σ̃ 2
n
(σ̃2π)1/2
−∞
= Pθ (ξ1 ≤ x|s) .
Da cui si ha che lo stimatore cercato è
Z x
1
1 s 2
u=
exp − 2 y −
dy
1/2
2σ̃
n
−∞ (σ̃2π)
70
6.1
Esercizi
Esercizio 12. [Vedi Esercizio 10] Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune esponenziale di parametri (a, λ), ossia con
comune densità di probabilità
fα,θ (xi ) = λI(a,+∞) (xi )e−λ(xi −a) .
1. Noto a determinare uno stimatore UMVUE di λ.
[Usare l’Esercizio 10 e il fatto che se Z è una variabile aleatoria con
legge Gamma(n, θ) allora E(1/Z) = θ/(n − 1)]
P
[soluzione: (n − 1)/ ni=1 (xi − a)]
2. Noto λ determinare uno stimatore UMVUE di a.
[soluzione: νn − 1/nλ]
Esercizio 13. [Vedi Esercizio 11] Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune di pareto di parametri (a, λ), ossia con comune
densità di probabilità
fλ,a (x) = λaλ
1
I
(x)
xλ+1 (a,+∞)
(a > 0, λ > 0).
1. Noto a determinare uno stimatore UMVUE di λ. [Usare l’Esercizio
11 e il fatto che se Z è una variabile aleatoria con legge Gamma(n, θ)
allora E(1/Z) = θ/(n − 1)]
2. Noto λ determinare uno stimatore UMVUE di a.
Esercizio 14. Siano ξ1 , . . . , ξn variabili indipendenti aleatorie con comune
legge di Poisson di parametro θ. Determinare uno stimatore non distorto a
varianza uniformemente minima per
τ (θ) := Pθ {ξ1 = 0} = e−θ .
P
[Suggerimento: si ricordi che ni=1 ξ1 è una statistica sufficiente e completa per tale modello. Trovare una statistica semplice che sia stimatore non
distorto di τ (θ). Applicare il Teorema di Lehmann-Scheffe.]
71