Metodi Statistici non parametrici

Transcript

Metodi Statistici non parametrici
Metodi Statistici non parametrici
Laurea Magistrale in Scienze Statistiche
Marcello Chiodi
[email protected] http://dssm.unipa.it/chiodi
Dipartimento di Scienze Statistiche e Matematiche “Silvio Vianelli”
Università di Palermo
Palermo, gennaio 2012
Indice
lezione 2
Tipi di funzioni kernel
funzioni kernel più note
Caratteristiche analitiche della funzione kernel
Kernel ad ampiezza variabile
Giustificazioni tecniche degli stimatori kernel
Proprietà statistiche degli stimatori kernel
Scelta di h e K
Misure delle proprietà di uno stimatore non parametrico
Risultati asintotici di base
Tipi di kernel
esempi in R
K (x) determina la forma delle curve mentre l’ampiezza di banda h
ne determina l’ampiezza. Lo stimatore kernel dipende quindi da
due elementi:
1. il nucleo K; (la cui scelta influenza pochissimo i risultati
come si vedrà dopo)
2. l’ampiezza di banda h; (che invece influenza moltissimo i
risultati: operando su h si passa da una densità con n
mode ad una piatta )
queste proprietà verranno dimostrate analiticamente ed
esemplificate con procedure in R
h è indicato in diversi modi:
ampiezza di banda, finestra, parametro di lisciamento, parametro
di scala della funzione kernel, etc.
funzioni kernel più note e più usate
I
Epanechnikov
K=
3
√
4 5
0
1 − 15 t 2
√
√ !
− 5≤t≤ 5
:
altrimenti
eff (K ) = 1.
I
I
I
Triangolare (K = 1 − |t| per |t| < 1, 0 altrimenti ):
eff (K ) ≈ 0.9859.
2
Gaussiano K = √12π e −(1/2)t : eff (K ) ≈ 0.9512.
Rettangolare K = 12 per |t| < 1, 0 altrimenti :
eff (K ) ≈ 0.9295.
Tutti i valori di efficienza non sono molto diversi da 1, anche per il
kernel rettangolare. Quindi la scelta del kernel da utilizzare non si
può fare sulla base del MISE,
funzioni kernel più note
————————del MISE si parlerà dopo, basterà per ora dire che è
una misura globale del comportamento di uno stimatore
di una densità
MISE=Mean Integrated Square Error
————————valgono ovviamente anche altre considerazioni meno statistiche,
quali il grado di differenziabilità richiesto e lo sforzo
computazionale necessario.
Stima di densità con kernel differenti
Figure: 4 diversi kernel n = 20
Significato dello stimatore kernel di una densità
Nello stimatore di f (x) basato sul rapporto incrementale, il contributo di ogni punto xi vale
0 oppure 1 secondo che la distanza da x sia
maggiore o minore di h
Nello stimatore di f (x) di tipo kernel, il contributo di ogni punto xi varia con continuità seci
ondo una funzione x−x
h
Stima di densità con kernel differenti
Densità con 4 kernel differenti e con due diversi valori di h
Figure: 4 diversi kernel
Figure: 4 diversi kernel
Caratteristiche analitiche della funzione kernel
La funzione kernel deve soddisfare le seguenti condizioni:
R
I
K (x) dx = 1
RR
I
x K (x) dx = 0
RR 2
I
R x K (x) dx = k2 6= 0
I
(di solito si impiegano funzioni standardizzate, nel qual caso si
ha k2 = 1)
I
K (x) ≥ 0
∀x;
pertanto
lo stimatore kernel fˆh (x) è una densità di probabilità , tale
R
che R fˆh (x)dx = 1 (anche simmetrica ma non è l’unica scelta
possibile... ).
Kernel ad ampiezza variabile (solo un cenno per ora)
Sia hj,np il raggio del cerchio centrato in Xj che contiene altri np
punti; una definizione di kernel variabile può essere ottenuta da:
n
1X 1
fˆhj (x) =
K
n
hj,np
j=1
x − Xj
hj,np
I
In questo caso, i punti osservati in regioni con dati sparsi
avranno kernel più piatti (o lisciati).
I
Ovviamente il risultato dipende da np .
I
Ancora lo stimatore kernel sarà una densità di probabilità.
I
Maggiore dettaglio rispetto al kernel con h fisso, anche se si
usa un h più basso.
Giustificazioni tecniche degli stimatori kernel
I
come approssimazione ad un limite di un rapporto
incrementale
I
come media dei contributi di densità emanate da ogni punto
I
come problema di approssimazione o lisciamento di un
istogramma
I
come convoluzione di densità
—————altro???
—————Si dimostra che l’istogramma fˆh (x) è uno stimatore consistente di
f (x), ovvero
h → 0, nh → ∞ ⇒ MSE (fh (x)) → 0.
Proprietà statistiche degli stimatori kernel
1. come misurare la bontà di uno stimatore? si tenta, ove
possibile, di sfruttare le classiche definizioni impiegate in
campo parametrico
2. ISE e MISE
3. simulazioni
4. comportamento asintotico
5. scelta di h ?
I
I
I
effetto di h
effetto di K (·)
cross validation o altre tecniche
Scelta di K (·)
La scelta di K è basata su considerazioni riguardanti:
1. l’efficienza dello stimatore fˆh (x);
ma si vedrà che la scelta di K (·) non è cruciale
2. il grado di regolarità che si vuole abbia fˆh (x) (es. se si sceglie
l’uniforme sarà discontinua!);
3. lo sforzo computazionale richiesto
(sempre meno rilevante col passare del tempo)
4. Comodità analitica
certi risultati analitici e asintotici si ottengono più
comodamente se K (·) è normale, e questo è ancora più vero
nel caso multivariato
La scelta di h
1. se h → 0, fˆh (x) diventa una somma di quantità
(nh)−1 K [(x − Xi )/h] che sono elevate in corrispondenza di Xi
e piccole altrove. Quindi la densità stimata con fˆh (x) sarà
irregolare e frastagliata con un picco in corrispondenza di ogni
osservazione;
2. se h → ∞, fˆh (x) diventa una somma di quantità
(nh)−1 K [(x − Xi )/h] piccole e schiacciate e quindi la curva
stimata sarà liscia con tendenza ad appiattire i picchi spuri..
ma anche dettagli importanti!!!
——————–
+limiti
——————–
In sintesi: valori piccoli di h danno un peso locale alto alle singole
osservazioni (forte irregolarità) mentre valori alti di h danno un
peso basso alle singole osservazioni (aspetto regolare di fˆh (x) ).
Misure delle proprietà di uno stimatore non parametrico
Siano X1 , · · · , Xn iid v.a. con densità incognita f (·).
I Distorsione: B[fˆh (x)] = Ef [fˆh (x) − f (x)]
I
Varianza: V [fˆh (x)] = Ef [fˆh (x) − E [fˆh (x)]]2
Come vedremo, c’è una contraddizione inevitabile tra l’obiettivo di
ridurre sia la distorsione che la varianza in funzione di h.
come in qualsiasi problema di stima!
⇓
La scelta di h sarà un compromesso tra distorsione e varianza!!
Proprietà degli stimatori 1
I
Inizialmente consideriamo delle proprietà locali, come se, per
un valore fissato x0 , f (x0 ) fosse un parametro da stimare
I
Il fatto che effettivamente il nostro problema sia
riparametrizzabile in funzione di f (x0 ) è irrilevante
I
Il concetto fondamentale è che noi stiamo essenzialmente
riadattando a problematiche non parametriche metodi di
valutazione degli stimatori e relative proprietà concepite in
effetti per problemi parametrici
I
In questo senso è come se il nostro approccio alla stima
non parametrica fosse in realtà di tipo parametrico
Proprietà degli stimatori 2
I
Questa non deve sembrare semplicemente una frase ad effetto
o un paradosso ma semplicemente una sottolineatura del fatto
che, sebbene sia importante definire delle proprietà di
ˆ il valore
consistenza ed efficienza per gli stimatori di f (x),
fondamentale di questi stimatori risiede nella loro capacità di
fornire delle informazioni su f (x) in una fase esplorativa
dell’analisi dei dati.
I
Un altro aspetto fondamentale è l’appeal grafico che può
avere la rappresentazione di una densità stimata mediante
kernel, con un ampiezza di finestra sufficientemente ampia da
lasciare la curva regolare, ma abbastanza ridotta da
evidenziare possibili multimodalità
Mean Square Error
L’errore quadratico medio nella stima di f (x) in un punto fissato
x0 , riflette il trade-off tra le due componenti: (utilizzo x0
invece dell’usuale x, per evidenziare che ci stiamo
preocucpando per ora di proprietà locali dello
stimatore, ossia della proprietà in un particolare
punto x0 e solo in quello)
h
i
MSE [fˆh (x0 )] = E (fˆh (x) − f (x))2 = Varianza[fˆh (x)]+(Bias[fˆh (x)])2
Mean Square Error
ovviamente (si ricordino le usuali definizioni delle proprietà degli
stimatori per un problema ordinario di stima parametrica di θ, in
cui θ è rimpiazzato da f (x0 )):
n
h
io2 Varianza[fˆh (x0 )] = E fˆh (x0 ) − E fˆh (x0 )
h
i
BIAS[fˆh (x0 )] = E fˆh (x0 ) − f (x0 )
La minimizzazione del MSE rispetto ad h rappresenta un
compromesso tra il problema
I
dell’oversmoothing (che si ha scegliendo elevati valori di h per
ridurre la varianza) e
I
dell’undersmoothing (che si verifica scegliendo un valore
piccolo di h per ridurre la distorsione).
Mean Integrated Square Error (MISE)
I
Il MSE misura l’accuratezza dello stimatore della densità fˆh (x)
di f in un particolare punto x0 . misura locale richiamo ad
altre situazioni
I
Un misura globale di bontà di adattamento, il MISE, si può
banalmente ottenere integrando il valore di ISE su tutto il
range di x:
Z ∞
ˆ
MISE (fh ) =
MSE (fˆh (x))dx
−∞
I
Fatte certe ipotesi su f () e K (·) si tenterà di scegliere per la
costruzione di uno stimatore di tipo kernel il valore di h che
rende minimo il MISE.
Mean Integrated Square Error (MISE)
I
I
Non è detto che tale misura sia ottimale, (e non è nemmeno
detto che l’integrale esista o che sia finito) anzi ha senz’altro
il difetto di non tener conto del valore di f (x) nella
valutazione dello scarto: un errore di 0.01 nella stima di f (x)
dovrebbe avere un valore diverso in funzione del fatto che
f (x) sia uguale a 0.3 o 0.02! ma nel MISE cosiı̀ definito avrà
la stessa importanza
Il MISE come misura del comportamento globale di fˆh (x)
certamente non è ottimale ma è calcolabile, o comunque
approssimabile in molte situazioni standard, per cui quanto
meno per comodità analitica lo prendiamo come misura
globale del comportamento dello stimatore di una densità
MISE: operatori M ed I
Occorre sottolineare ed enfatizzare la differenza fra gli
operatori M ed I impiegati nella definizione del MISE
I M (Mean) valore atteso dell’errore quadratico (rispetto alla
distribuzione di X , e dato f ())
I I (Integrated) integrazione rispetto ad x dominio della v.a. X
Le due operazioni non vanno confuse. E’ importantissimo tenere a
mente e capire la differenza profonda fra questi due operatori:
I l’operatore M nell’MSE è relativo alla distribuzione
campionaria di fˆh (x0 ); x0 è fisso, il valore atteso è calcolato
sulla base della distribuzione di probabilità della v.a.
campionaria X1 , X2 , ..., Xn
I l’operatore I invece è semplicemente un’integrazione rispetto
ad una variabile reale (viene integrato MSE (x) rispetto a x);
volendo potremmo approssimare questa operazione con una
somma relativa ad un insieme di valori della x che coprano
abbastanza bene il suo range di variazione.
esempi in R sulla differenza fra gli operatori M ed I
impiegati nella definizione del MISE
attraverso simulazioni
Calcolo del MISE mediante simulazioni
Campioni di ampiezza 25
Calcolo del MISE mediante simulazioni
Campioni di ampiezza 100
Figure: simulazioni da un miscuglio di normali
Calcolo del MISE mediante simulazioni
Campioni di ampiezza 400
Calcolo del MISE mediante simulazioni
Campioni di ampiezza 1600
Figure: simulazioni da un miscuglio di normali
Risultati asintotici di base
Per ricavare dei risultati asintotici che abbiano un minimo di
generalità, occorre ipotizzare una qualche dipendenza di h da n e
quindi in questa sezione impiegherò il simbolo h(n). I risultati
fondamentali sono:
1
Bias Asintotico(fˆh(n) (x)) = h(n)2 f 00 (x)
2
Z
f
(x)
Varianza asint.(fˆh(n) (x)) =
K (t)2 dt
nh(n) <
Combinando le due espressioni abbiamo l’espressione dell’ errore
quadratico medio asintotico (AMSE = AV + AB 2 )
risultati asintotici
slides anticipate qui, si ripetono dopo!!!
Si deducono subito alcune importanti considerazioni:
I
h(n) ha un effetto diretto sulla distorsione ma inverso sulla
varianza
I
la distorsione è funzione di h(n): se vogliamo che sia
asintoticamente nulla, occorre immaginare una strategia di
determinazione di h(n) che faccia tendere l’ampiezza della
finestra a zero al divergere di n (e questo sembra abbastanza
ragionevole)
I
la varianza è invece funzione inversa di h(n): appare chiaro
che se vogliamo che tale varianza sia asintoticamente nulla
1
occorre che nh(n)
tenda a zero.
I
e quindi nh(n) deve divergere.
risultati asintotici
I
combinando quindi le due esigenze precedenti occorre che
h(n) tenda sı̀ a zero con n → ∞, per annullare la distorsione,
ma lentamente, perchè per annullare anche la varianza
asintotica occorre che:
lim
n→∞
1
=0
nh(n)
e quindi n−1 deve essere un infinitesimo di ordine superiore
rispetto a h(n)
I
I
dipendenza (locale) da f (x) e da f 00 (x)
il comportamento asintotico di fˆ(x), in termini di ordine
di grandezza, è determinato da h(n) e non dalla scelta di
K (·)
risultati asintotici
Un valore di h(n) che risponde ai requisiti detti prima e che
minimizza l’errore quadratico medio asintotico è:
f (x) 1/5
h(n)opt = n−1/5 A(K ) 00
f (x)
Ovviamente dipende da x (e quindi occorrerà minimizzare una
forma integrata dell’errore quadratico medio)
Si nota che comunque l’ordine di grandezza è n−1/5 , e che in
questo modo le due componenti dell’ AMSE sono entrambe
dell’ordine di n−4/5 (anzi AV = 4AB 2 )
—————————–
dimostrazione fatta alla lavagna, derivando il MSE rispetto ad h
—————————–