Metodi Statistici non parametrici
Transcript
Metodi Statistici non parametrici
Metodi Statistici non parametrici Laurea Magistrale in Scienze Statistiche Marcello Chiodi [email protected] http://dssm.unipa.it/chiodi Dipartimento di Scienze Statistiche e Matematiche “Silvio Vianelli” Università di Palermo Palermo, gennaio 2012 Indice lezione 2 Tipi di funzioni kernel funzioni kernel più note Caratteristiche analitiche della funzione kernel Kernel ad ampiezza variabile Giustificazioni tecniche degli stimatori kernel Proprietà statistiche degli stimatori kernel Scelta di h e K Misure delle proprietà di uno stimatore non parametrico Risultati asintotici di base Tipi di kernel esempi in R K (x) determina la forma delle curve mentre l’ampiezza di banda h ne determina l’ampiezza. Lo stimatore kernel dipende quindi da due elementi: 1. il nucleo K; (la cui scelta influenza pochissimo i risultati come si vedrà dopo) 2. l’ampiezza di banda h; (che invece influenza moltissimo i risultati: operando su h si passa da una densità con n mode ad una piatta ) queste proprietà verranno dimostrate analiticamente ed esemplificate con procedure in R h è indicato in diversi modi: ampiezza di banda, finestra, parametro di lisciamento, parametro di scala della funzione kernel, etc. funzioni kernel più note e più usate I Epanechnikov K= 3 √ 4 5 0 1 − 15 t 2 √ √ ! − 5≤t≤ 5 : altrimenti eff (K ) = 1. I I I Triangolare (K = 1 − |t| per |t| < 1, 0 altrimenti ): eff (K ) ≈ 0.9859. 2 Gaussiano K = √12π e −(1/2)t : eff (K ) ≈ 0.9512. Rettangolare K = 12 per |t| < 1, 0 altrimenti : eff (K ) ≈ 0.9295. Tutti i valori di efficienza non sono molto diversi da 1, anche per il kernel rettangolare. Quindi la scelta del kernel da utilizzare non si può fare sulla base del MISE, funzioni kernel più note ————————del MISE si parlerà dopo, basterà per ora dire che è una misura globale del comportamento di uno stimatore di una densità MISE=Mean Integrated Square Error ————————valgono ovviamente anche altre considerazioni meno statistiche, quali il grado di differenziabilità richiesto e lo sforzo computazionale necessario. Stima di densità con kernel differenti Figure: 4 diversi kernel n = 20 Significato dello stimatore kernel di una densità Nello stimatore di f (x) basato sul rapporto incrementale, il contributo di ogni punto xi vale 0 oppure 1 secondo che la distanza da x sia maggiore o minore di h Nello stimatore di f (x) di tipo kernel, il contributo di ogni punto xi varia con continuità seci ondo una funzione x−x h Stima di densità con kernel differenti Densità con 4 kernel differenti e con due diversi valori di h Figure: 4 diversi kernel Figure: 4 diversi kernel Caratteristiche analitiche della funzione kernel La funzione kernel deve soddisfare le seguenti condizioni: R I K (x) dx = 1 RR I x K (x) dx = 0 RR 2 I R x K (x) dx = k2 6= 0 I (di solito si impiegano funzioni standardizzate, nel qual caso si ha k2 = 1) I K (x) ≥ 0 ∀x; pertanto lo stimatore kernel fˆh (x) è una densità di probabilità , tale R che R fˆh (x)dx = 1 (anche simmetrica ma non è l’unica scelta possibile... ). Kernel ad ampiezza variabile (solo un cenno per ora) Sia hj,np il raggio del cerchio centrato in Xj che contiene altri np punti; una definizione di kernel variabile può essere ottenuta da: n 1X 1 fˆhj (x) = K n hj,np j=1 x − Xj hj,np I In questo caso, i punti osservati in regioni con dati sparsi avranno kernel più piatti (o lisciati). I Ovviamente il risultato dipende da np . I Ancora lo stimatore kernel sarà una densità di probabilità. I Maggiore dettaglio rispetto al kernel con h fisso, anche se si usa un h più basso. Giustificazioni tecniche degli stimatori kernel I come approssimazione ad un limite di un rapporto incrementale I come media dei contributi di densità emanate da ogni punto I come problema di approssimazione o lisciamento di un istogramma I come convoluzione di densità —————altro??? —————Si dimostra che l’istogramma fˆh (x) è uno stimatore consistente di f (x), ovvero h → 0, nh → ∞ ⇒ MSE (fh (x)) → 0. Proprietà statistiche degli stimatori kernel 1. come misurare la bontà di uno stimatore? si tenta, ove possibile, di sfruttare le classiche definizioni impiegate in campo parametrico 2. ISE e MISE 3. simulazioni 4. comportamento asintotico 5. scelta di h ? I I I effetto di h effetto di K (·) cross validation o altre tecniche Scelta di K (·) La scelta di K è basata su considerazioni riguardanti: 1. l’efficienza dello stimatore fˆh (x); ma si vedrà che la scelta di K (·) non è cruciale 2. il grado di regolarità che si vuole abbia fˆh (x) (es. se si sceglie l’uniforme sarà discontinua!); 3. lo sforzo computazionale richiesto (sempre meno rilevante col passare del tempo) 4. Comodità analitica certi risultati analitici e asintotici si ottengono più comodamente se K (·) è normale, e questo è ancora più vero nel caso multivariato La scelta di h 1. se h → 0, fˆh (x) diventa una somma di quantità (nh)−1 K [(x − Xi )/h] che sono elevate in corrispondenza di Xi e piccole altrove. Quindi la densità stimata con fˆh (x) sarà irregolare e frastagliata con un picco in corrispondenza di ogni osservazione; 2. se h → ∞, fˆh (x) diventa una somma di quantità (nh)−1 K [(x − Xi )/h] piccole e schiacciate e quindi la curva stimata sarà liscia con tendenza ad appiattire i picchi spuri.. ma anche dettagli importanti!!! ——————– +limiti ——————– In sintesi: valori piccoli di h danno un peso locale alto alle singole osservazioni (forte irregolarità) mentre valori alti di h danno un peso basso alle singole osservazioni (aspetto regolare di fˆh (x) ). Misure delle proprietà di uno stimatore non parametrico Siano X1 , · · · , Xn iid v.a. con densità incognita f (·). I Distorsione: B[fˆh (x)] = Ef [fˆh (x) − f (x)] I Varianza: V [fˆh (x)] = Ef [fˆh (x) − E [fˆh (x)]]2 Come vedremo, c’è una contraddizione inevitabile tra l’obiettivo di ridurre sia la distorsione che la varianza in funzione di h. come in qualsiasi problema di stima! ⇓ La scelta di h sarà un compromesso tra distorsione e varianza!! Proprietà degli stimatori 1 I Inizialmente consideriamo delle proprietà locali, come se, per un valore fissato x0 , f (x0 ) fosse un parametro da stimare I Il fatto che effettivamente il nostro problema sia riparametrizzabile in funzione di f (x0 ) è irrilevante I Il concetto fondamentale è che noi stiamo essenzialmente riadattando a problematiche non parametriche metodi di valutazione degli stimatori e relative proprietà concepite in effetti per problemi parametrici I In questo senso è come se il nostro approccio alla stima non parametrica fosse in realtà di tipo parametrico Proprietà degli stimatori 2 I Questa non deve sembrare semplicemente una frase ad effetto o un paradosso ma semplicemente una sottolineatura del fatto che, sebbene sia importante definire delle proprietà di ˆ il valore consistenza ed efficienza per gli stimatori di f (x), fondamentale di questi stimatori risiede nella loro capacità di fornire delle informazioni su f (x) in una fase esplorativa dell’analisi dei dati. I Un altro aspetto fondamentale è l’appeal grafico che può avere la rappresentazione di una densità stimata mediante kernel, con un ampiezza di finestra sufficientemente ampia da lasciare la curva regolare, ma abbastanza ridotta da evidenziare possibili multimodalità Mean Square Error L’errore quadratico medio nella stima di f (x) in un punto fissato x0 , riflette il trade-off tra le due componenti: (utilizzo x0 invece dell’usuale x, per evidenziare che ci stiamo preocucpando per ora di proprietà locali dello stimatore, ossia della proprietà in un particolare punto x0 e solo in quello) h i MSE [fˆh (x0 )] = E (fˆh (x) − f (x))2 = Varianza[fˆh (x)]+(Bias[fˆh (x)])2 Mean Square Error ovviamente (si ricordino le usuali definizioni delle proprietà degli stimatori per un problema ordinario di stima parametrica di θ, in cui θ è rimpiazzato da f (x0 )): n h io2 Varianza[fˆh (x0 )] = E fˆh (x0 ) − E fˆh (x0 ) h i BIAS[fˆh (x0 )] = E fˆh (x0 ) − f (x0 ) La minimizzazione del MSE rispetto ad h rappresenta un compromesso tra il problema I dell’oversmoothing (che si ha scegliendo elevati valori di h per ridurre la varianza) e I dell’undersmoothing (che si verifica scegliendo un valore piccolo di h per ridurre la distorsione). Mean Integrated Square Error (MISE) I Il MSE misura l’accuratezza dello stimatore della densità fˆh (x) di f in un particolare punto x0 . misura locale richiamo ad altre situazioni I Un misura globale di bontà di adattamento, il MISE, si può banalmente ottenere integrando il valore di ISE su tutto il range di x: Z ∞ ˆ MISE (fh ) = MSE (fˆh (x))dx −∞ I Fatte certe ipotesi su f () e K (·) si tenterà di scegliere per la costruzione di uno stimatore di tipo kernel il valore di h che rende minimo il MISE. Mean Integrated Square Error (MISE) I I Non è detto che tale misura sia ottimale, (e non è nemmeno detto che l’integrale esista o che sia finito) anzi ha senz’altro il difetto di non tener conto del valore di f (x) nella valutazione dello scarto: un errore di 0.01 nella stima di f (x) dovrebbe avere un valore diverso in funzione del fatto che f (x) sia uguale a 0.3 o 0.02! ma nel MISE cosiı̀ definito avrà la stessa importanza Il MISE come misura del comportamento globale di fˆh (x) certamente non è ottimale ma è calcolabile, o comunque approssimabile in molte situazioni standard, per cui quanto meno per comodità analitica lo prendiamo come misura globale del comportamento dello stimatore di una densità MISE: operatori M ed I Occorre sottolineare ed enfatizzare la differenza fra gli operatori M ed I impiegati nella definizione del MISE I M (Mean) valore atteso dell’errore quadratico (rispetto alla distribuzione di X , e dato f ()) I I (Integrated) integrazione rispetto ad x dominio della v.a. X Le due operazioni non vanno confuse. E’ importantissimo tenere a mente e capire la differenza profonda fra questi due operatori: I l’operatore M nell’MSE è relativo alla distribuzione campionaria di fˆh (x0 ); x0 è fisso, il valore atteso è calcolato sulla base della distribuzione di probabilità della v.a. campionaria X1 , X2 , ..., Xn I l’operatore I invece è semplicemente un’integrazione rispetto ad una variabile reale (viene integrato MSE (x) rispetto a x); volendo potremmo approssimare questa operazione con una somma relativa ad un insieme di valori della x che coprano abbastanza bene il suo range di variazione. esempi in R sulla differenza fra gli operatori M ed I impiegati nella definizione del MISE attraverso simulazioni Calcolo del MISE mediante simulazioni Campioni di ampiezza 25 Calcolo del MISE mediante simulazioni Campioni di ampiezza 100 Figure: simulazioni da un miscuglio di normali Calcolo del MISE mediante simulazioni Campioni di ampiezza 400 Calcolo del MISE mediante simulazioni Campioni di ampiezza 1600 Figure: simulazioni da un miscuglio di normali Risultati asintotici di base Per ricavare dei risultati asintotici che abbiano un minimo di generalità, occorre ipotizzare una qualche dipendenza di h da n e quindi in questa sezione impiegherò il simbolo h(n). I risultati fondamentali sono: 1 Bias Asintotico(fˆh(n) (x)) = h(n)2 f 00 (x) 2 Z f (x) Varianza asint.(fˆh(n) (x)) = K (t)2 dt nh(n) < Combinando le due espressioni abbiamo l’espressione dell’ errore quadratico medio asintotico (AMSE = AV + AB 2 ) risultati asintotici slides anticipate qui, si ripetono dopo!!! Si deducono subito alcune importanti considerazioni: I h(n) ha un effetto diretto sulla distorsione ma inverso sulla varianza I la distorsione è funzione di h(n): se vogliamo che sia asintoticamente nulla, occorre immaginare una strategia di determinazione di h(n) che faccia tendere l’ampiezza della finestra a zero al divergere di n (e questo sembra abbastanza ragionevole) I la varianza è invece funzione inversa di h(n): appare chiaro che se vogliamo che tale varianza sia asintoticamente nulla 1 occorre che nh(n) tenda a zero. I e quindi nh(n) deve divergere. risultati asintotici I combinando quindi le due esigenze precedenti occorre che h(n) tenda sı̀ a zero con n → ∞, per annullare la distorsione, ma lentamente, perchè per annullare anche la varianza asintotica occorre che: lim n→∞ 1 =0 nh(n) e quindi n−1 deve essere un infinitesimo di ordine superiore rispetto a h(n) I I dipendenza (locale) da f (x) e da f 00 (x) il comportamento asintotico di fˆ(x), in termini di ordine di grandezza, è determinato da h(n) e non dalla scelta di K (·) risultati asintotici Un valore di h(n) che risponde ai requisiti detti prima e che minimizza l’errore quadratico medio asintotico è: f (x) 1/5 h(n)opt = n−1/5 A(K ) 00 f (x) Ovviamente dipende da x (e quindi occorrerà minimizzare una forma integrata dell’errore quadratico medio) Si nota che comunque l’ordine di grandezza è n−1/5 , e che in questo modo le due componenti dell’ AMSE sono entrambe dell’ordine di n−4/5 (anzi AV = 4AB 2 ) —————————– dimostrazione fatta alla lavagna, derivando il MSE rispetto ad h —————————–