Metodi Statistici non parametrici

Transcript

Metodi Statistici non parametrici
Laurea Magistrale in Scienze Statistiche
Marcello Chiodi
[email protected] http://dssm.unipa.it/chiodi
Dipartimento di Scienze Statistiche e Matematiche “Silvio Vianelli”
Università di Palermo
Palermo, gennaio 2012
Indice
lezione 2
Tipi di funzioni kernel
funzioni kernel più note
Caratteristiche analitiche della funzione kernel
Kernel ad ampiezza variabile
Giustificazioni tecniche degli stimatori kernel
Proprietà statistiche degli stimatori kernel
Scelta di h e K
Misure delle proprietà di uno stimatore non parametrico
Risultati asintotici di base
Tipi di kernel
esempi in R
K (x) determina la forma delle curve mentre l’ampiezza di banda h
ne determina l’ampiezza. Lo stimatore kernel dipende quindi da
due elementi:
1. il nucleo K; (la cui scelta influenza pochissimo i risultati
come si vedrà dopo)
2. l’ampiezza di banda h; (che invece influenza moltissimo i
risultati: operando su h si passa da una densità con n
mode ad una piatta )
queste proprietà verranno dimostrate analiticamente ed
esemplificate con procedure in R
h è indicato in diversi modi:
ampiezza di banda, finestra, parametro di lisciamento, parametro
di scala della funzione kernel, etc.
funzioni kernel più note e più usate
I
Epanechnikov
K=
3
√
4 5
0
1 − 15 t 2
√
√ !
− 5≤t≤ 5
:
altrimenti
eff (K ) = 1.
I
I
I
Triangolare (K = 1 − |t| per |t| < 1, 0 altrimenti ):
eff (K ) ≈ 0.9859.
2
Gaussiano K = √12π e −(1/2)t : eff (K ) ≈ 0.9512.
Rettangolare K = 12 per |t| < 1, 0 altrimenti :
eff (K ) ≈ 0.9295.
Tutti i valori di efficienza non sono molto diversi da 1, anche per il
kernel rettangolare. Quindi la scelta del kernel da utilizzare non si
può fare sulla base del MISE,
funzioni kernel più note
————————del MISE si parlerà dopo, basterà per ora dire che è
una misura globale del comportamento di uno stimatore
di una densità
MISE=Mean Integrated Square Error
————————valgono ovviamente anche altre considerazioni meno statistiche,
quali il grado di differenziabilità richiesto e lo sforzo
computazionale necessario.
Stima di densità con kernel differenti
Figure: 4 diversi kernel n = 20
Significato dello stimatore kernel di una densità
Nello stimatore di f (x) basato sul rapporto incrementale, il contributo di ogni punto xi vale
0 oppure 1 secondo che la distanza da x sia
maggiore o minore di h
Nello stimatore di f (x) di tipo kernel, il contributo di ogni punto xi varia con continuità seci
ondo una funzione x−x
h
Stima di densità con kernel differenti
Densità con 4 kernel differenti e con due diversi valori di h
Figure: 4 diversi kernel
Figure: 4 diversi kernel
Caratteristiche analitiche della funzione kernel
La funzione kernel deve soddisfare le seguenti condizioni:
R
I
K (x) dx = 1
RR
I
x K (x) dx = 0
RR 2
I
R x K (x) dx = k2 6= 0
I
(di solito si impiegano funzioni standardizzate, nel qual caso si
ha k2 = 1)
I
K (x) ≥ 0
∀x;
pertanto
lo stimatore kernel fˆh (x) è una densità di probabilità , tale
R
che R fˆh (x)dx = 1 (anche simmetrica ma non è l’unica scelta
possibile... ).
Kernel ad ampiezza variabile (solo un cenno per ora)
Sia hj,np il raggio del cerchio centrato in Xj che contiene altri np
punti; una definizione di kernel variabile può essere ottenuta da:
n
1X 1
fˆhj (x) =
K
n
hj,np
j=1
x − Xj
hj,np
I
In questo caso, i punti osservati in regioni con dati sparsi
avranno kernel più piatti (o lisciati).
I
Ovviamente il risultato dipende da np .
I
Ancora lo stimatore kernel sarà una densità di probabilità.
I
Maggiore dettaglio rispetto al kernel con h fisso, anche se si
usa un h più basso.
Giustificazioni tecniche degli stimatori kernel
I
come approssimazione ad un limite di un rapporto
incrementale
I
come media dei contributi di densità emanate da ogni punto
I
come problema di approssimazione o lisciamento di un
istogramma
I
come convoluzione di densità
—————altro???
—————Si dimostra che l’istogramma fˆh (x) è uno stimatore consistente di
f (x), ovvero
h → 0, nh → ∞ ⇒ MSE (fh (x)) → 0.
Proprietà statistiche degli stimatori kernel
1. come misurare la bontà di uno stimatore? si tenta, ove
possibile, di sfruttare le classiche definizioni impiegate in
campo parametrico
2. ISE e MISE
3. simulazioni
4. comportamento asintotico
5. scelta di h ?
I
I
I
effetto di h
effetto di K (·)
cross validation o altre tecniche
Scelta di K (·)
La scelta di K è basata su considerazioni riguardanti:
1. l’efficienza dello stimatore fˆh (x);
ma si vedrà che la scelta di K (·) non è cruciale
2. il grado di regolarità che si vuole abbia fˆh (x) (es. se si sceglie
l’uniforme sarà discontinua!);
3. lo sforzo computazionale richiesto
(sempre meno rilevante col passare del tempo)
4. Comodità analitica
certi risultati analitici e asintotici si ottengono più
comodamente se K (·) è normale, e questo è ancora più vero
nel caso multivariato
La scelta di h
1. se h → 0, fˆh (x) diventa una somma di quantità
(nh)−1 K [(x − Xi )/h] che sono elevate in corrispondenza di Xi
e piccole altrove. Quindi la densità stimata con fˆh (x) sarà
irregolare e frastagliata con un picco in corrispondenza di ogni
osservazione;
2. se h → ∞, fˆh (x) diventa una somma di quantità
(nh)−1 K [(x − Xi )/h] piccole e schiacciate e quindi la curva
stimata sarà liscia con tendenza ad appiattire i picchi spuri..
ma anche dettagli importanti!!!
——————–
+limiti
——————–
In sintesi: valori piccoli di h danno un peso locale alto alle singole
osservazioni (forte irregolarità) mentre valori alti di h danno un
peso basso alle singole osservazioni (aspetto regolare di fˆh (x) ).
Misure delle proprietà di uno stimatore non parametrico
Siano X1 , · · · , Xn iid v.a. con densità incognita f (·).
I Distorsione: B[fˆh (x)] = Ef [fˆh (x) − f (x)]
I
Varianza: V [fˆh (x)] = Ef [fˆh (x) − E [fˆh (x)]]2
Come vedremo, c’è una contraddizione inevitabile tra l’obiettivo di
ridurre sia la distorsione che la varianza in funzione di h.
come in qualsiasi problema di stima!
⇓
La scelta di h sarà un compromesso tra distorsione e varianza!!
Proprietà degli stimatori 1
I
Inizialmente consideriamo delle proprietà locali, come se, per
un valore fissato x0 , f (x0 ) fosse un parametro da stimare
I
Il fatto che effettivamente il nostro problema sia
riparametrizzabile in funzione di f (x0 ) è irrilevante
I
Il concetto fondamentale è che noi stiamo essenzialmente
riadattando a problematiche non parametriche metodi di
valutazione degli stimatori e relative proprietà concepite in
effetti per problemi parametrici
I
In questo senso è come se il nostro approccio alla stima
non parametrica fosse in realtà di tipo parametrico
Proprietà degli stimatori 2
I
Questa non deve sembrare semplicemente una frase ad effetto
o un paradosso ma semplicemente una sottolineatura del fatto
che, sebbene sia importante definire delle proprietà di
ˆ il valore
consistenza ed efficienza per gli stimatori di f (x),
fondamentale di questi stimatori risiede nella loro capacità di
fornire delle informazioni su f (x) in una fase esplorativa
dell’analisi dei dati.
I
Un altro aspetto fondamentale è l’appeal grafico che può
avere la rappresentazione di una densità stimata mediante
kernel, con un ampiezza di finestra sufficientemente ampia da
lasciare la curva regolare, ma abbastanza ridotta da
evidenziare possibili multimodalità
Mean Square Error
L’errore quadratico medio nella stima di f (x) in un punto fissato
x0 , riflette il trade-off tra le due componenti: (utilizzo x0
invece dell’usuale x, per evidenziare che ci stiamo
preocucpando per ora di proprietà locali dello
stimatore, ossia della proprietà in un particolare
punto x0 e solo in quello)
h
i
MSE [fˆh (x0 )] = E (fˆh (x) − f (x))2 = Varianza[fˆh (x)]+(Bias[fˆh (x)])2
Mean Square Error
ovviamente (si ricordino le usuali definizioni delle proprietà degli
stimatori per un problema ordinario di stima parametrica di θ, in
cui θ è rimpiazzato da f (x0 )):
n
h
io2 Varianza[fˆh (x0 )] = E fˆh (x0 ) − E fˆh (x0 )
h
i
BIAS[fˆh (x0 )] = E fˆh (x0 ) − f (x0 )
La minimizzazione del MSE rispetto ad h rappresenta un
compromesso tra il problema
I
dell’oversmoothing (che si ha scegliendo elevati valori di h per
ridurre la varianza) e
I
dell’undersmoothing (che si verifica scegliendo un valore
piccolo di h per ridurre la distorsione).
Mean Integrated Square Error (MISE)
I
Il MSE misura l’accuratezza dello stimatore della densità fˆh (x)
di f in un particolare punto x0 . misura locale richiamo ad
altre situazioni
I
Un misura globale di bontà di adattamento, il MISE, si può
banalmente ottenere integrando il valore di ISE su tutto il
range di x:
Z ∞
ˆ
MISE (fh ) =
MSE (fˆh (x))dx
−∞
I
Fatte certe ipotesi su f () e K (·) si tenterà di scegliere per la
costruzione di uno stimatore di tipo kernel il valore di h che
rende minimo il MISE.
Mean Integrated Square Error (MISE)
I
I
Non è detto che tale misura sia ottimale, (e non è nemmeno
detto che l’integrale esista o che sia finito) anzi ha senz’altro
il difetto di non tener conto del valore di f (x) nella
valutazione dello scarto: un errore di 0.01 nella stima di f (x)
dovrebbe avere un valore diverso in funzione del fatto che
f (x) sia uguale a 0.3 o 0.02! ma nel MISE cosiı̀ definito avrà
la stessa importanza
Il MISE come misura del comportamento globale di fˆh (x)
certamente non è ottimale ma è calcolabile, o comunque
approssimabile in molte situazioni standard, per cui quanto
meno per comodità analitica lo prendiamo come misura
globale del comportamento dello stimatore di una densità
MISE: operatori M ed I
Occorre sottolineare ed enfatizzare la differenza fra gli
operatori M ed I impiegati nella definizione del MISE
I M (Mean) valore atteso dell’errore quadratico (rispetto alla
distribuzione di X , e dato f ())
I I (Integrated) integrazione rispetto ad x dominio della v.a. X
Le due operazioni non vanno confuse. E’ importantissimo tenere a
mente e capire la differenza profonda fra questi due operatori:
I l’operatore M nell’MSE è relativo alla distribuzione
campionaria di fˆh (x0 ); x0 è fisso, il valore atteso è calcolato
sulla base della distribuzione di probabilità della v.a.
campionaria X1 , X2 , ..., Xn
I l’operatore I invece è semplicemente un’integrazione rispetto
ad una variabile reale (viene integrato MSE (x) rispetto a x);
volendo potremmo approssimare questa operazione con una
somma relativa ad un insieme di valori della x che coprano
abbastanza bene il suo range di variazione.
esempi in R sulla differenza fra gli operatori M ed I
impiegati nella definizione del MISE
attraverso simulazioni
Calcolo del MISE mediante simulazioni
Campioni di ampiezza 25
Figure: simulazioni da un miscuglio di normali
Figure: simulazioni da un miscuglio di normali
Risultati asintotici di base
Per ricavare dei risultati asintotici che abbiano un minimo di
generalità, occorre ipotizzare una qualche dipendenza di h da n e
quindi in questa sezione impiegherò il simbolo h(n). I risultati
fondamentali sono:
1
Bias Asintotico(fˆh(n) (x)) = h(n)2 f 00 (x)
2
Z
f
(x)
Varianza asint.(fˆh(n) (x)) =
K (t)2 dt
nh(n) <
Combinando le due espressioni abbiamo l’espressione dell’ errore
quadratico medio asintotico (AMSE = AV + AB 2 )
risultati asintotici
slides anticipate qui, si ripetono dopo!!!
Si deducono subito alcune importanti considerazioni:
I
h(n) ha un effetto diretto sulla distorsione ma inverso sulla
varianza
I
la distorsione è funzione di h(n): se vogliamo che sia
asintoticamente nulla, occorre immaginare una strategia di
determinazione di h(n) che faccia tendere l’ampiezza della
finestra a zero al divergere di n (e questo sembra abbastanza
ragionevole)
I
la varianza è invece funzione inversa di h(n): appare chiaro
che se vogliamo che tale varianza sia asintoticamente nulla
1
occorre che nh(n)
tenda a zero.
I
e quindi nh(n) deve divergere.
I
combinando quindi le due esigenze precedenti occorre che
h(n) tenda sı̀ a zero con n → ∞, per annullare la distorsione,
ma lentamente, perchè per annullare anche la varianza
asintotica occorre che:
lim
n→∞
1
=0
nh(n)
e quindi n−1 deve essere un infinitesimo di ordine superiore
rispetto a h(n)
I
I
dipendenza (locale) da f (x) e da f 00 (x)
il comportamento asintotico di fˆ(x), in termini di ordine
di grandezza, è determinato da h(n) e non dalla scelta di
K (·)
Un valore di h(n) che risponde ai requisiti detti prima e che
minimizza l’errore quadratico medio asintotico è:
f (x) 1/5
h(n)opt = n−1/5 A(K ) 00
f (x)
Ovviamente dipende da x (e quindi occorrerà minimizzare una
forma integrata dell’errore quadratico medio)
Si nota che comunque l’ordine di grandezza è n−1/5 , e che in
questo modo le due componenti dell’ AMSE sono entrambe
dell’ordine di n−4/5 (anzi AV = 4AB 2 )
—————————–
dimostrazione fatta alla lavagna, derivando il MSE rispetto ad h
—————————–

Metodi Statistici non parametrici

Transcript

Documenti analoghi

Il KERNEL - ITP Francesco BENIGNETTI

UBUNTU 10.04: COMPILARE KERNEL 3.3.7

Curriculum Vitae

WebCamUSB - Riccardo Cassinis

Configurare scheda audio utilizzando alsa

Il Kernel di Mac OS X: una breve panoramica

disparate

4.2 - Compilare i kernel alla maniera Debian Articolo di: Jonathan

Installazione RTAI

Sistemi operativi