Famiglia esponenziale - Dipartimento di Matematica
Transcript
Famiglia esponenziale - Dipartimento di Matematica
Capitolo 5 Famiglia esponenziale Veniamo ora a studiare una famiglia di modelli statistici molto importanti. 5.1 Famiglia esponenziale Un modello {X, X , Pθ : θ ∈ Θ} è detto famiglia esponenziale se esiste una funzione misurabile t : X → Rk , una misura σ–finita µ su (X, X ) e una funzione misurabile η̃ : Θ → Rk tale che Z exp{(η̃(θ), t(x)) − ψ̃(θ)}µ(dx) (B ∈ X ) (5.1) Pθ (B) := B dove (v, w) indica il prodotto scalare in Rk e, per ipotesi, Z exp{(η̃(θ), t(x))}µ(dx) < +∞ ψ̃(θ) := log X per ogni θ in Θ. Esempio 36. Consideriamo il modello di Poisson dell’Esempio 7. Tale modello può essere visto come famiglia esponenziale. In questo caso µ è la misura la cui densità rispetto alla misura di conteggio su Nn è data da 1 Qn i=1 xi ! , Pn + e k risulta essere pari ad 1, t(x) = i=1 xi , η̃(θ) = log(θ), Θ = R ψ̃(θ) = nθ. Introduciamo ora una riparametrizzazione del precedente modello ponendo H = η̃(Θ) = R e riparametrizzando {Pθ : θ ∈ Θ} come {Qη := 55 Peη : η ∈ R}. Si noti che il nuovo modello è una reale riparametrizzazione in quanto la funzione log è biettiva da R+ in R. R Il nuovo modello è caratterizzato dalla misura di probabilità Qη (B) := B exp{ηt(x) − ψ(η)}µ(dx), ossia è ancora una famiglia esponenziale in cui, tuttavia, la funzione η̃ è l’identità. L’esempio precedente suggerisce che, talvolta, un modello esponenziale {X, X , Pθ : θ ∈ Θ} può essere R riparametrizzato come {X, X , Qη : η ∈ H}, dove H = η̃(Θ), e Qη (B) := B exp{(η, t(x)) − ψ(η)}µ(dx). Data una funzione misurabile t : X → Rk e una misura σ–finita µ su (X, X ) si può sempre definire una famiglia esponenziale definendo Z exp{(η, t(x))}µ(dx) < +∞} H := {η ∈ Rk : ψ(η) := log X e per ogni η in H ponendo Z exp{(η, t(x)) − ψ(η)}µ(dx) Qη (B) := (B ∈ X ). (5.2) B Se la famiglia esponenziale si presenta nella forma (5.2) viene detta canonica. Da una qualunque famiglia esponenziale si ottiene sempre una famiglia canonica, tuttavia non è detto che quest’ultima sia una riparametrizzazione della famiglia originaria, ossia non è detto che η̃(Θ) = H sia biettiva. Non solo, in generale, presa una famiglia esponenziale in forma canonica non è detto che {X, X , Pη : η ∈ H} sia un modello identificabile. Indicata con µt la misura immagine su Rk di µ tramite t, ossia µt (A) = µ{t−1 (A)} per ogni A in B(Rk ), nel seguito supporremo che l’interno del convessificato del supporto di µt sia non vuoto. Ricordiamo che il supporto di una misura ν su i boreliani di uno spazio topologico U con topologia U è definito come l’insieme di tutti i punti u di U tali per cui ogni intorno di u ha misura positiva. In formule supp(ν) := {u ∈ U : per ogni N ∈ U tale che u ∈ N allora ν(N ) > 0} Prima di proseguire osserviamo che chiaramente Z Z exp{(η, y))}µt (dy). exp{(η, t(x))}µ(dx) = exp(ψ(η)) = Rk X Lemma 5.1. ψ è una funzione convessa da H in R e H è un sottoinsieme convesso di Rk . 56 Dim. Per ogni ǫ in (0, 1) la disuguaglianza di Hölder fornisce Z ǫ Z 1−ǫ Z 1 1 v(y) 1−ǫ µt (dy) u(y)v(y)µt (dy) ≤ u(y) ǫ µt (dy) da cui prendendo i logaritmi Z Z Z 1 1 log u(y)v(y)µt (dy) ≤ ǫ log u(y) ǫ µt (dy) +(1−ǫ) log v(y) 1−ǫ µt (dy) . Scegliendo ora u(y) = exp{ǫ(η1 , y)} e v(y) = exp{(1 − ǫ)(η2 , y)} si ha che ψ(ǫη1 + (1 − ǫ)η2 ) ≤ ǫψ(η1 ) + (1 − ǫ)ψ(η2 ). Da cui segue immediatamente la tesi. Come già detto, il modello {X, X , Pη : η ∈ H} è detto famiglia esponenziale in forma canonica e quando H ha interno non vuoto tale famiglia si dice regolare. Si noti che, ovviamente, una famiglia esponenziale è un modello dominato (per costruzione) da µ e da ogni elemento della famiglia. Come conseguenza immediata del teorema di fattorizzazione si ha che t è una statistica sufficiente per il modello. Prima di dimostrare che tale statistica è anche completa enunciamo la seguente notevole Proposizione 5.2. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica, allora per ogni (i1 , . . . , ik ) in Nk ed ogni η appartenente all’interno di H si ha Eη [t1 (ξ)i1 . . . tk (ξ)ik ] = e−ψ(η) Poichè ψ(η) e = Z ∂ i1 +···+ik ∂η1i1 . . . ∂ηkik eψ(η) exp{(η, t(x))}µ(dx) X la dimostrazione della precedente proposizione consiste nel giustificare lo scambio fra le derivate e l’integrale. Per la dimostrazione completa si veda XXXXXX. Ad esempio, se H ⊂ R, Eη (t(ξ)) = ψ̇(η) Eη (t2 (ξ)) = ψ̇(η)2 + ψ̈(η) V arη (t(ξ)) = ψ̈(η). 57 In generale se Y = (Y1 , . . . , Yn ) è un vettore aleatorio, porremo E[Y ] := (E[Y1 ], . . . , E[Yn ]) e V ar(Y ) = [Cov(Yi , Yj )]ij Dalla precedente proposizione segue che Proposizione 5.3. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica, ed η0 appartenga all’interno di H, allora Eη0 [t(ξ)] = ∇ψ(η0 ) e V arη0 [t(ξ)] = Hess[ψ(η0 )] 2 ∂ψ ∂ψ ψ dove ∇ψ(η0 ) = ( ∂η (η0 ), . . . , ∂η (η0 )) e Hess[ψ(η0 )] = [ ∂η∂i ∂η (η0 )]ij . 1 1 j 5.2 Completezza per famiglie esponenziali in fomra canonica Dimostriamo ora che t è anche una statistica completa. Proposizione 5.4. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica, allora t è una statistica completa. Dim. Fissato un valore η0 nell’interno di H si ha Z exp{(η−η0 , t(x))−ψ(η)+ψ(η0 )} exp{(η0 , t(x))−ψ(η0 )}µ(dx) Pη (A) = A∈X A dove z = (η − η0 ) varia, per opportuna scelta di η in H, in un intorno I0 dell’origine di Rk . Sia φ una funzione che soddisfa le condizioni della definizione di statistica completa. In particolare E(|φ(t(ξ))|) < +∞ per ogni η in H e Z φ(t(x)) exp{(η, t(x)) − ψ(η)}µ(dx) 0 = ZX φ+ (t(x)) exp{(η − η0 , t(x)) − ψ(η) + ψ(η0 )}Pη0 (dx) = XZ φ− (t(x)) exp{(η − η0 , t(x)) − ψ(η) + ψ(η0 )}Pη0 (dx). − X 58 Per tale φ, si ha quindi, ricordando che z = η − η0 , Z Z φ− (t(x)) exp{(z, t(x))}Pη0 (dx) φ+ (t(x)) exp{(z, t(x))}Pη0 (dx) = z ∈ I0 . X X Ponendo z = 0 si ottiene Z Z φ− (t(x))Pη0 (dx). φ+ (t(x))Pη0 (dx) = Z := X X Se Z = 0 si ha che φ+ (t(x)) = φ− (t(x)) Pη0 –quasi certamente. Poiché Pη0 domina il modello, φ+ (t) = φ− (t) q.c.-Pη ∀η e quindi Pη,t {0 = φ = φ+ − φ− } = 1 ∀η e la dimostrazione è conclusa. Se invece Z > 0 si ha che Z Z φ+ (t(x))Pη0 (dx) φ− (t(x))Pη0 (dx) R exp{(z, t(x))} R exp{(z, t(x))} = . + − X X X φ (t(s))Pη0 (ds) X φ (t(s))Pη0 (ds) L’ultima uguaglianza può essere vista come uguaglianza su I0 di due funzioni generatrici dei momenti di due leggi, Q+ e Q− , che, per il corrispondente teorema di unicità, devono coincidere. Le due leggi in questione sono Z φ+ (t(x))Pη0 (dx) IA (t(x)) R Q+ (A) = , + X X φ (t(s))Pη0 (ds) Q− (A) = Z X IA (t(x)) R φ− (t(x))Pη0 (dx) . − X φ (t(s))Pη0 (ds) Pertanto Z Z + I{t(x) ∈ A}φ (t(x))Pη0 (dx) = I{t(x) ∈ A}φ− (t(x))Pη0 (dx) ∀A∈X e, quindi, φ+ (t) = φ− (t) q.c.-Pη0 . Nuovamente, poiché Pη0 domina il modello, Pη,t {0 = φ = φ+ − φ− } = 1 ∀ η. Ossia, t è completa. 59 Esempio 37. (Modello Gaussiano). Un caso particolare di modello esponenziale è rappresentato dal modello Gaussiano di parametro θ = (θ1 , θ2 ) ∈ (−∞, +∞) × [0, +∞). Si veda l’E−1 si ottiene una densità (rispetto alla sempio 8. Ponendo η1 = θθ21 e η2 = 2θ 2 n misura di Lebesgue su R ) riparametrizzata come exp{η1 n X i=1 xi + η2 n X x2i − ψ(η1 , η2 )} i=1 dove η = (η1 , η2 ) ∈ (−∞, +∞) × (−∞, 0] e (x1 , . . . , xn ) ∈ Rn è il vettore di osservazioni. LaPstatistica sufficiente e completa è quindi data da t = Pn (t1 , t2 ) = ( i=1 ξi , ni=1 ξi2 ). Modificando i parametri e ponendo θ1 = θ̃ > 0 e θ2 = θ̃ 2 il modello non è più esponenziale e t non è più statistica completa, pur essendo ancora sufficiente. La sufficienza si ricava dal teorema di fattorizzazione applicato alla densità ) !n ( θ̃0 θ̃ − θ̃0 [(θ̃ + θ̃0 )t2 − 2(θ̃ θ̃0 )t1 ] fθ̃ (x1 , . . . , xn ) = exp 2(θ̃ θ̃0 )2 θ̃ calcolata rispetto ad una dominante privilegiata. evidente considerando la funzione La non completezza è φ(t) = 2t21 − (n + 1)t2 che ha speranza matematica nulla ma è diversa da 0 su un insieme di probabilità Pθ,t positiva. Esempio 38. (Regressione gaussiana). Si consideri il modello di regressione lineare definito nell’Esempio 27 e per semplicità di notazione si ponga zi,1 = zi . In altri termini ξi = αzi + β + ǫi . Si noti che, posto θ = (α, β, σ 2 ), la densità (rispetto alla misura di Lebesgue) di (ξ1 , . . . , ξn ) può essere riscritta come ( ) n 1 X 1 2 exp − 2 (xi − αzi − β) fθ (x) = 2σ (2πσ 2 )n/2 i=1 ) ( n X 1 n (αzi + β)2 = exp − log(2πσ 2 ) − 2 2 2σ i=1 ( ) n n n 1 X 2 β X α X exp − 2 xi + 2 xi + 2 zi xi 2σ σ σ i=1 60 i=1 i=1 e quindi è una famiglia esponenziale con k = 3, η̃(θ) = (− e 1 β α , , ) 2σ 2 σ 2 σ 2 n n n X X X 2 zi xi ). xi , xi , t(x) = ( Per tanto i=1 i=1 i=1 n n n X X X zi ξi ) ξi , ξi2 , ( i=1 i=1 i=1 risulta essere una statistica sufficiente e completa. Per ottenere la forma canonica è sufficiente riparametrizzare Θ come (η1 , η2 , η3 ) = (− 5.3 1 β α , , ). 2σ 2 σ 2 σ 2 Rango e parametrizzazione Una famiglia esponeziale regolare in forma canonica si dice di rango k se t(x) = (t1 (x), . . . , tk (x)) e, per qualche η in H, si ha k k X X aj tj (x) = ak+1 } < 1 aj tj (ξ) = ak+1 } = Pη {x : Pη { j=1 j=1 per ogni a1 , . . . , ak+1 reali tali che aj 6= 0 per almeno un j = 1, . . . , k + 1. Enunciamo senza dimostrare il seguente risultato. Proposizione 5.5. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica con t(x) = (t1 (x), . . . , tk (x)) e H aperto. Allora sono equivalenti 1. la famiglia è di rango k; 2. η è un parametro, ossia {Pη : η ∈ H} è identificabile; 3. V arη (t(ξ)) è definita positiva; 4. ψ è strettamente convessa. 5. ∇ψ è ben definita in H ed è un’applicazione iniettiva su H Per la dimostrazione si veda Bickel-Doksum Thm. 1.6.4. 61 5.4 Stimatori di massima verosimiglianza Proposizione 5.6. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto. Sia x0 il valore osservato dei dati e si ponga t0 = t(x0 ). Se Pη0 {(t(ξ) − t0 , c) > 0} ∀ c 6= 0 (5.3) (per qualche η0 , e quindi per tutti gli η) allora esiste un’unico stimatore di massima verosimiglianza η̂(x0 ). Inoltre tale stimatore è soluzione di ∇ψ(η) = t0 . (5.4) Vicecersa, se t0 non soddisfa (5.3) allora allora lo stimatore di massima verosimiglianza (per t0 ) non esiste e l’equazione (5.4) non ha soluzione. Dim. Prima di tutto riscriviamo il modello come segue Pη (dx) = Pη0 (dx) exp{(t(x) − t0 , η) − ψ̄(η)} con ψ̄(η) = log Di conseguenza Z exp((t(x) − t0 , η)Pη0 (dx) . log(vx0 (η)) = log(fη∗ (x0 )) = (t(x0 ) − t0 , η) − ψ̄(η) = −ψ̄(η). Dalla Proposizione 5.5 sappiamo che ψ̄ è strettamente convessa e continua in H. Per concludere l’esistenza di un’unico massimo resta da dimostrare che data una qualunque successione (ηn )n che non contenga punti di accumulazione in H allora log(vx0 (ηn )) → +∞. Dimostriamo l’ultima affermazione distinguendo due casi. Scriviamo ηn = λn un con λn = kηn k e un = ηn /kηn k. Ci sono solo due possibilià o (a) supn λn < +∞ oppure (b) supn λn = +∞. Valga (a). Consideriamo una generica sottosuccessione di n, diciamo n′ . Dato che stiamo supponendo che ηn non contenga punti di accumulazione in H possiamo estrarre una sotto-sottosuccessione nk tale che λnk → λ e, contemporaneamente, unk → u 6∈ H. Per tale sottosuccessione lim Eη [eλnk (t(ξ)−t0 ,unk ) ] = Eη [eλ(t(ξ)−t0 ,u) ] = eλ(t0 ,u) Eη [eλ(t(ξ),u) ] = +∞ k 62 poiché u 6∈ H. Questo dimostra che limn exp{ψ̄(ηn )} = +∞ e dunque limn −ψ̄(ηn ) = −∞. Valga (b). Consideriamo una generica sottosuccessione di n, diciamo n′ . Questa volta possiamo estrarre una sotto-sottosuccessione tale che λnk → +∞ e, contemporaneamente, unk → u. Ora notiamo Z lim sup exp{ψ̄(ηnk )} = lim sup Pη0 (dx)e(t(x)−t0 ,ηnk ) k k ≥ lim sup eδλnk Pη0 {(τ (ξ) − t0 , unk ) > δ} k = lim sup Pη0 {(τ (ξ) − t0 , u) > δ}eδλnk = +∞ k poiché per ipotesi, per qualche δ > 0, Pη0 {(τ (ξ) − t0 , u) > δ} > 0. Anche in questo caso, data l’arbitrarietà della sotto-successione iniziale, concludiamo facilmente che limn −ψ̄(ηn ) = −∞. La dimostrazione della prima parte si conclude facilmente perché, stabilito esistenza ed unicità del massimo di una funzione differenziabile definita su un’aperto, tale punto di massimo deve essere necessariamente un punto stazionario. Per la seconda parte, supponiamo che (5.3) sia falsa. Allora, per opportuni c 6= 0 ed η0 , Pη0 {(t(ξ)−t0 , c) ≤ 0} = 1. Di conseguenza Eη [(t(ξ)−t0 , c)] ≤ 0 per ogni η. Se η̂ esistesse allora, essendo tale η̂ necessariamente un punto in H (aperto) deve essere un punto stazionario e quindi deve essere soluzione di (5.4), ossia Eη t(ξ) − t0 = 0, che implica Eη (t(ξ) − t0 , c) = 0 e quindi Pη {x : (t(x) − t0 , c) = 0} = 1 che contraddice l’ipotesi che la famiglia sia di rango k. La non solubilità di (5.4) è ovvia dal momento che un punto stazionario è necessariamente un punto di minimo essendo la funzione ψ convessa. Proposizione 5.7. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto. Sia x0 il valore dei dati osservato e si ponga t0 = t(x0 ). Lo stimatore di massima verosimiglianza per x0 esiste se e solo se t0 appartiene all’interno del convessificato del supporto della distribuzione di t(ξ). Dim. Sia C il convessificato del supporto della legge di t(ξ). E’ sufficiente osservare che per definizione di interno di un convesso, t0 appartine all’interno di C se e solo se per ogni d 6= 0 in Rk , gli insiemi {y : (y − t0 , d) > 0} ∩ C e {y : (y − t0 , d) < 0} ∩ C sono non vuoti. La tesi segue quindi dalla Proposizione 5.6 e dalla definizione di supporto di una misura. 63 Proposizione 5.8. Sia {X, X , Pη : η ∈ H} una famiglia esponenziale regolare in forma canonica di rango k con H aperto tale che Pη sia assolutamente continua rispetto alla misura di lebesgue. Allora lo stimatore di massima verosimiglianza esiste con probabilità uno. Dim. La tesi segue immediatamente dal fatto che la frontiera di un insieme convesso ha misura di lebesgue nulla. 5.5 Famiglie esponenziali per campioni i.i.d. Un’altra buona proprietà delle famiglie esponenziali è che un prodotto di famiglia esponenziali è ancora una famiglia esponenziale. In altri termini se consideriamo un modello statistico in cui le osservazioni (ξ1 , ξ2 , . . . , ξn ) sono variabili aleatorie indipendenti ed identicamente distribuite a valori in (X, X ) con comune legge appartenente ad una famiglia esponenziale descritta da (µ, t, η̃, Θ), allora il modello statistico associato al campione ndimensionale è ancora una famiglia esponenziale. In particolare la misura Pθ per il modello n-dimensionale sarà Pθ (A) = Z exp A n n X i o t(x), η̃(θ) − nψ̃(θ) µ(dx1 ) . . . µ(dxn ) (A ∈ X n ). Si noti che Θ rimane invariato cosı̀ come η̃, mentre la nuova statistica suffiP ciente e completa sarà ni=1 t(x), la nuova funzione ψ̃ sarà nψ̃(θ) e la nuova misura di riferimento sarà il prodotto delle µ, ossia dµ⊗n . Posto n Tn (x) = 1X t(xi ) n i=1 la forma canonica è utile scriverla come dQη (x) = exp{(nTn , η) − nψ(η)} dµ⊗n con ψ(η) = log nZ X o exp{(t(x1 ), η)dµ(x1 ) . In questo modo l’equazione per gli stimatori di massima verosimiglianza (5.4) diventa nTn (x0 ) = n∇ψ(η) 64 ossia n 1X t(x0,i ) = ∇ψ(η) = Eη [t(ξ1 )]. n i=1 5.6 Esercizi Esercizio 10. Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune esponenziale di parametri (a, λ), ossia con comune densità di probabilità fa,λ (xi ) = λI(a,+∞) (xi )e−λ(xi −a) (a > 0, λ > 0). Si denoti, inoltre, con Pa,λ la misura di probabilità di (ξ1 , . . . , ξn ) 1. Scrivere la densità di (ξ1 , . . . , ξn ). 2. Il modello {Rn , B(Rn ), Pa,λ : λ ∈ R+ } è una famiglia esponenziale? Il modello {Rn , B(Rn ), Pa,λ : a ∈ R+ , λ ∈ R+ } è una famiglia esponenziale? Pn 3. Noto a mostrare che i=1 xi è una statistica sufficiente e completa per λ. 4. Noto λ mostrare che νn è una statistica sufficiente e completa per a. Esercizio 11. Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune di pareto di parametri (a, λ), ossia con comune densità di probabilità fλ,a (x) = λaλ 1 I (x) xλ+1 (a,+∞) (a > 0, λ > 0). Si denoti, inoltre, con Pa,λ la misura di probabilià di (ξ1 , . . . , ξn ) 1. Scrivere la densità di (ξ1 , . . . , ξn ). 2. Il modello {Rn , B(Rn ), Pa,λ : λ ∈ R+ } è una famiglia esponenziale? Il modello {Rn , B(Rn ), Pa,λ : a ∈ R+ , λ ∈ R+ } è una famiglia esponenziale? P 3. Noto a mostrare che ni=1 log(xi ) è una statistica sufficiente e completa per λ. 4. Noto λ mostrare che νn è una statistica sufficiente e completa per a. 65 Capitolo 6 Stimatori a Varianza Uniformemente Minima. La sufficienza, unitamente alla completezza, si rivela una proprietà fondamentale per la ricerca di stimatori ottimali di funzioni dei parametri incogniti. Preliminari all’illustrazione di questo punto sono alcuni concetti legati alla nozione di stimatore puntuale di un parametro. Nel seguito si supponga fissata una funzione τ : Θ → R. Se lo spazio dei parametri è R l’esempio più classico di τ è l’ identità. In questo capitolo considereremo statistiche che siano stimatori di τ (θ), per tanto statistiche a valori reali: t : (X, X ) → (R, B(R)). Per valutare la bontà di uno stimatore puntuale si considerano simultaneamente due aspetti: la capacità di avvicinarsi al valore vero della quantità da stimare e la variabilità intorno a tale valore. Più precisamente, è possibile valutare l’errore (o scarto) quadratico medio (EQM) di un generico stimatore t calcolando (6.1) EQM (t, θ) := Eθ (t(ξ) − τ (θ))2 = [Eθ (t(ξ) − τ (θ))]2 + V ar(t(ξ)) (6.2) Tra tutti i possibili stimatori per τ (θ) si vorrebbe quindi cercare quello che minimizza sia lo scarto medio dal valore vero di τ che la varianza. In 66 generale, data l’ampiezza della classe degli stimatori ammissibili, non si trova uno stimatore ottimale unico sulla base di questo criterio. Pertanto è opportuno restringere la ricerca all’interno della classe degli stimatori non distorti per τ (θ). Uno stimatore t si dice non distorto per τ (θ) se vale Eθ (t(ξ)) = τ (θ) ∀ θ ∈ Θ. Dalla (6.1) è chiaro che, considerando soltanto stimatori non distorti, il confronto va fatto sulla base della varianza. Per far ciò è naturale restringersi alla classe degli stimatori con varianza finita. Nel seguito denotiamo con Uτ l’insieme degli stimatori non distorti a varianza finita di τ , ossia Uτ : = {t : (X, X ) → (R, B(R)) : V arθ (t(ξ)) < +∞, Eθ (t(ξ)) = τ (θ) ∀θ ∈ Θ}. Come già detto si può pensare che più uno stimatore abbia varianza piccola più sia buono. Tuttavia, dal momento che vi è la dipendenza dal parametro θ, incognito, non è ovvio cosa intendere per varianza piccola. Potrebbe accadere che uno stimatore per certi valori di θ abbia variaza bassa mentre per altri valori di θ lo stesso stimatore abbia varianza molto alta. Generalmente si è portati a considerare migliore uno stimatore che minimizzi uniformemnte la varianza nell’ ambito degli stimatori non distorti con varianza finita. Uno stimatore t∗ appartenente a Uτ è detto stimatore non distorto a varianza uniformemente minima (in inglese UMVUE) se V arθ (t∗ (ξ)) ≤ V arθ (t(ξ)) ∀ t ∈ Uτ , ∀ θ ∈ Θ. Se non vengono fatte ipotesi sul campione e sulla funzione da stimare non è detto che tali stimatori esistano. Vedremo ora sotto quali condizioni è possibile costruire uno stimatore a varianza uniformemente minima. Sufficienza e completezza forniscono risultati utili per la ricerca di stimatori ottimali. Un primo importante risultato in tale direzione è il seguente Lemma 6.1. (Kolmogorov, Blackwell, Rao). Siano M = {(X, X , Pθ ) : θ ∈ Θ} un modello statistico, t1 una statistica sufficiente per M e t2 uno stimatore non distorto per τ (θ). Allora: 67 (i) Esiste una versione t3 (ξ) di Eθ (t2 (ξ)|t1 (ξ)) indipendente da θ e tale che Eθ t3 (ξ) = τ (θ). (ii) V arθ t3 (ξ) ≤ V arθ t2 (ξ) ∀ θ ∈ Θ. Dimostrazione Dalla sufficienza di t1 segue (si veda il Teorema A.2) che esiste una versione (che indichiamo con t3 (ξ)) di Eθ (t2 (ξ)|t1 (ξ)) indipendente da θ. Si ha che Eθ (t3 (ξ)) = Eθ [Eθ (t2 (ξ)|t1 (ξ))] = Eθ (t2 (ξ)) = τ (θ). (6.3) La disuguaglianza di Jensen per le speranze condizionali implica che t3 (ξ)2 = (Eθ [t2 (ξ)|t1 (ξ)])2 ≤ Eθ [t22 (ξ)|t1 (ξ)] (6.4) e quindi Eθ (t23 (ξ)) ≤ Eθ (t22 (ξ)). Questo teorema non ci assicura che t3 sia a varianza uniformemente minima, ma ci fornisce una tecnica per migliorare uno stimatore non distorto sfruttando la conoscenza di una statistica. Per ottenere uno stimatore a varianza uniformemente minima dobbiamo rinforzare le ipotesi sulla statistica rispetto alla quale si condiziona. Un risultato fondamentale è il seguente classico Teorema 6.2. (Lehmann, Scheffè). Siano soddisfatte le condizioni del precedente Lemma e si assuma inoltre che t1 sia completa. Allora t3 è stimatore UMVUE per τ (θ). Dimostrazione Sia u′ (ξ) uno stimatore non distorto di τ (θ) tale che V arθ (u′ (ξ)) < V arθ (t3 (ξ)) per un certo θ ∈ Θ. Grazie al lemma precedente si ha che esiste una versione t′ (ξ) di Eθ (u′ (ξ)|t1 (ξ)) tale che V arθ (t′ (ξ)) < V arθ (t3 (ξ)) D’altro canto si ha che t3 (ξ) = φ ◦ t1 (ξ) e t′ (ξ) = φ′ ◦ t1 (ξ) per opportune φ e φ′ . Poiché t1 è completa e t′ e t3 sono stimatori non distorti di τ (θ), ne segue che t3 = t′ Pθ -q.c.. 68 Il signficato dei due risultati appena esposti è che lo stimatore UMVUE, se esiste, va cercato tra gli stimatori non distorti che siano funzioni di statistiche sufficienti e complete. Si noti che la statistica t1 dei precedenti teoremi non necessariamente è una statistica a valori reali. Come illustrato dal seguente esempio è spesso utile condizionare a statistiche che assumono valori in Rk . Esempio 39 (Modello Gaussiano). Si consideri modello gaussiano dell’esempio 8. In altri termini X = Rn , X = B(Rn ), Θ = R × (0, +∞) θ = (µ, σ 2 ) e fθ (x) = n Y 1 1 2 exp − (x − µ) k 2σ 2 (σ 2 2π)1/2 k=1 x = (x1 , . . . , xn ) ∈ Rn . Si vuole stimare τ (θ) = Eθ ξ1 = θ. ComePgià visto Pquando si è trattata la famiglia esponenziale, si ha che t1 (ξ) = ( ni=1 ξi , ni=1 ξi2 ) è una statistica sufficiente e completa per tale modello, almeno scritto in forma canonica. E’ immediato dedurre che lo è anche per il medesimo modello scritto come sopra, perché in questo caso la forma canonica è una reale riparametrizzazione del P modello sopra scritto. Si osservi ora che la media campionaria m̄n = n1 ni=1 ξi è uno stimatore non distorto per τ (θ) = mu ed inoltre è funzione di t1 . Applicando il Teorema 6.2 si ha quindi che m̄n è stimatore UMVUE per µ. In maniera analoga si consideri sn (ξ) := n n 1 X 1 X 2 ξ − nm̄2n ). (ξ − m̄n )2 = ( n−1 n−1 i=1 i=1 Semplici conti porgono Eθ (sn (ξ)) = σ 2 , quindi sn è uno stimatore non distorto di τ (θ) = σ 2 , inoltre poichè è funzione di t1 esso è è uno stimatore UMVUE per σ 2 . Esempio 40 (Regressione lineare Gaussiana). Si consideri modello di regressione lineare gaussiana dell’Esempio 38. In altri termini X = Rn , X = B(Rn ), Θ = R × R × (0, +∞) θ = (α, β, σ 2 ) e ) ( n 1 1 X (xi − αzi − β)2 fθ (x) = 2 exp − 2 2σ (σ 2π)n/2 i=1 69 x = (x1 , . . . , xn ) ∈ Rn . Ragionando come nell’esempio precedente si dimostra che n n n X X X ξi zi ) ξi , ξi2 , t1 (ξ) = ( i=1 i=1 i=1 è una statistica per il modello in forma canonica ma anche per il modello scritto come sopra. Consideriamo ora gli stimatori ai minimi quadrati di α eβ n n 1 1 X 1X α̂n (ξ) = 2 ξi zi − m1,n ξi n σ1,n n i=1 β̂(ξ) = 1 n dove n X ξi − i=1 i=1 n m1,n 1 X 2 σ1,n n i=1 n m1,n 1X = zi , n n ξi zi − m1,n 1X ξi n i=1 n 2 σ1,n i=1 1X 2 = zi − m21,n n i=1 si veda Esempio 13. Semplici conti mostrano che Eθ [α̂(ξ)] = α e Eθ [β̂(ξ)] = β. Poichè α̂ e β̂ risultano funzioni di t1 essi sono stimatori UMVUE. Esempio 41 (da rivedere). Dato modello dell’esempio R x lo stesso precedente, 1 1 2 du, fissato exp − si vuole ora stimare τ (θ) = −∞ (σ2 2π) (u − θ) 1/2 2σ2 x ∈ R. Si noti che uno stimatore non distorto per tale funzione è t(ξ) = I(−∞,x] (ξ1 ). Sia u(ξ) una versione di Eθ (t(ξ)|s(ξ)) = Pθ {ξ1 ≤ x|s(ξ)}; dal Lemma 6.1 segue allora che u migliora la stima fornita da t nel senso della varianza. Inoltre, essendo u(ξ) funzione di s(ξ) sufficiente e completa, si ha anche che u(ξ) è UMVUE. Per ottenere un’espressione esplicita di tale stimatore: s s = Pθ ξ1 − ≤ y Pθ ξ1 − ≤ y|s n n Z y 1 2 1 exp − 2 v dv = 1/2 2σ̃ −∞ (σ2π) y∈R con σ̃ 2 = σ 2 n−1 n . In particolare, per y = x − s/n, Z x−s/n 1 2 s 1 exp − v ≤ x − s/n|s dv = P ξ − 1 θ 2σ̃ 2 n (σ̃2π)1/2 −∞ = Pθ (ξ1 ≤ x|s) . Da cui si ha che lo stimatore cercato è Z x 1 1 s 2 u= exp − 2 y − dy 1/2 2σ̃ n −∞ (σ̃2π) 70 6.1 Esercizi Esercizio 12. [Vedi Esercizio 10] Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune esponenziale di parametri (a, λ), ossia con comune densità di probabilità fα,θ (xi ) = λI(a,+∞) (xi )e−λ(xi −a) . 1. Noto a determinare uno stimatore UMVUE di λ. [Usare l’Esercizio 10 e il fatto che se Z è una variabile aleatoria con legge Gamma(n, θ) allora E(1/Z) = θ/(n − 1)] P [soluzione: (n − 1)/ ni=1 (xi − a)] 2. Noto λ determinare uno stimatore UMVUE di a. [soluzione: νn − 1/nλ] Esercizio 13. [Vedi Esercizio 11] Siano ξ1 , . . . , ξn variabili aleatorie indipendenti con legge comune di pareto di parametri (a, λ), ossia con comune densità di probabilità fλ,a (x) = λaλ 1 I (x) xλ+1 (a,+∞) (a > 0, λ > 0). 1. Noto a determinare uno stimatore UMVUE di λ. [Usare l’Esercizio 11 e il fatto che se Z è una variabile aleatoria con legge Gamma(n, θ) allora E(1/Z) = θ/(n − 1)] 2. Noto λ determinare uno stimatore UMVUE di a. Esercizio 14. Siano ξ1 , . . . , ξn variabili indipendenti aleatorie con comune legge di Poisson di parametro θ. Determinare uno stimatore non distorto a varianza uniformemente minima per τ (θ) := Pθ {ξ1 = 0} = e−θ . P [Suggerimento: si ricordi che ni=1 ξ1 è una statistica sufficiente e completa per tale modello. Trovare una statistica semplice che sia stimatore non distorto di τ (θ). Applicare il Teorema di Lehmann-Scheffe.] 71