scarica pdf - Dipartimenti

Transcript

Una procedura per determinare i valori critici esatti per
il test di Kolmogorov-Smirnov
Silvia Facchinetti
Dipartimento di Scienze Statistiche, Università Cattolica del Sacro Cuore,
Largo Gemelli 1, 20123 Milano
[email protected]
Sommario
Nell’ambito delle procedure non parametriche è di particolare rilievo il test proposto da Kolmogorov e Smirnov, che consente di verificare l’adattamento distributivo di un campione casuale proveniente da una variabile casuale continua. Il test si
basa sul confronto tra la funzione di ripartizione empirica del campione Sn (x) e quella teorica F0 (x) specificata nell’ipotesi nulla, mediante l’utilizzo della statistica Dn =
sup−∞<x<∞ |Sn (x) − F0 (x)| avente la caratteristica di essere indipendente da F0 (x).
Obiettivo di questa ricerca è fornire una procedura per determinare i valori critici esatti
del test per i consueti livelli di significatività, comparandoli con quelli disponibili in letteratura e con quelli asintotici. In particolare, si considera una modifica alla procedura
proposta da Feller (1948) che, considerando le relazioni formali tra gli eventi, consente
di definire un sistema di equazioni lineari i cui coefficienti sono probabilità marginali e
condizionate degli eventi e le cui soluzioni consentono di ottenere la funzione di ripartizione della statistica test.
Keywords: Goodness of fit tests, Percentiles of Kolmogorov-Smirnov’s statistic.
1
Introduzione
Il test di Kolmogorov-Smirnov rientra nell’ambito dei test di adattamento distributivo che
si propongono di verificare, relativamente ad una variabile aleatoria X unidimensionale e
assolutamente continua, se i dati provengono da un’assegnata legge di distribuzione F0 (x),
cioè si basa sulla verifica del sistema d’ipotesi:
H0 : F (x) = F0 (x) ∀x
(1.1)
H1 : F (x) 6= F0 (x) per qualche x
dove F (x) è la vera legge di distribuzione da cui sono stati estratti i dati.
Sia (x1 , x2 , . . . , xn ) un campione casuale di ampiezza n estratto da una generica variabile
casuale X continua avente legge di distribuzione:
F (x) = P r(X ≤ x).
Sia inoltre (x(1) , x(2) , . . . , x(n) ) il corrispondente campione ordinato.
La funzione di distribuzione empirica associata al campione ordinato è definita mediante la
relazione:

 0 se x < x(1)
k
se x(k) ≤ x < x(k+1) con k = 1, 2, . . . , n − 1.
Sn (x) =
(1.2)
 n
1 se x ≥ x(n)
Questa risulta essere una funzione monotona non decrescente a gradini di altezza costante pari
a 1/n in corrispondenza dei valori osservati x1 , x2 , . . . , xn (per ipotesi distinti).
La formulazione originale del test, dovuta a Kolmogorov, si basa su un risultato ottenuto
nel 1933 da Glivenko e Cantelli, i quali provano che, per la legge forte dei grandi numeri, la
probabilità che al divergere di n, Sn (x) converga uniformemente a F0 (x) è uno.
Nello stesso anno Kolmogorov introduce la statistica:
Dn =
sup
|Sn (x) − F0 (x)|
(1.3)
−∞<x<∞
tale che la regione critica di rifiuto dell’ipotesi nulla è:
dα
R = Dn : Dn > Dα,n = √
n
dove il centile della distribuzione viene definito mediante un valore dα che dipende solo da α.
Se X è una variabile casuale continua, la distribuzione di Dn è indipendente dalla legge di
distribuzione di F0 (x), quindi il test viene detto distribution-free.
Poichè il calcolo esatto della funzione di ripartizione di Dn diventa oneroso al crescere di n,
Kolmogorov (1933) e Smirnov (1939) forniscono la legge di distribuzione limite della variabile
casuale Dn :
∞
X
dα
2 2
√
=1−2
(−1)k−1 e−k dα = L(dα )
(1.4)
FDn (Dα,n ) = P r Dn ≤
n
k=1
la cui approssimazione, che prende in considerazione solo il primo termine della serie, è già
accettabile per n ≥ 35:
dα
2
FDn (Dα,n ) = P r Dn ≤ √
' 1 − 2e−dα .
(1.5)
n
2
I valori della funzione L(dα ) sono stati tabulati da Smirnov (1948).
Sono numerosi gli autori che si sono dedicati allo studio della distribuzione della statistica
Dn ; tra gli altri emergono: Feller (1948) che semplifica e unisce le dimostrazioni proposte da
Kolmogorov e Smirnov; Doob (1949) che fornisce una dimostrazione di tipo euristico e Miller
(1956) che introduce una modifica empirica alla formula (1.4). Inoltre, Massey (1951) e Birnbaum (1952) hanno ricavato, mediante due diverse procedure, le tavole dei valori critici esatti,
per n ≤ 35.
2
Una procedura per il calcolo dei valori critici esatti
per il test di Kolmogorov-Smirnov
Per quanto detto sopra, si supponga che X sia una variabile casuale di tipo Uniforme X ∼
U (0, 1) e si consideri il seguente grafico che riporta la funzione di ripartizione F0 (x) della
variabile casuale X e la legge empirica Sn (x):
1
F0(x)
0,9
0,8
d(x)
0,7
0,6
0,5
0,4
Sn(x)
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
x
Figura 2.1: Funzione di ripartizione teorica della variabile casuale X ∼ U (0, 1) e funzione di ripartizione empirica per un campione di dimensione n = 4
La figura mette in evidenza anche le differenze
k
−x
n
che rappresentano le distanze verticali tra le due funzioni. Di conseguenza Dn è semplicemente
la più ampia tra tali differenze assolute.
Fissato un valore 0 ≤ Dα,n = D ≤ 1, la funzione di ripartizione della variabile casuale Dn ,
FDn (D) = P r(Dn ≤ D), coincide con la probabilità dell’unione di tutti i possibili campioni
(x1 , x2 , . . . , xn ) la cui legge empirica, per 0 ≤ x ≤ 1, risulta compresa tra le due rette parallele
alla funzione di ripartizione teorica F0 (x) = x aventi equazione:
y = x + D retta superiore r1
y = x − D retta inferiore r2
d(x) = Sn (x) − F0 (x) =
dove D e −D sono le intercette delle due rette r1 e r2 che definiscono una banda intorno alla
funzione F0 (x). Se la statistica Dn cadrà all’interno della regione definita dalle due rette, si
accetterà l’ipotesi nulla, altrimenti si preferirà quella alternativa.
Supponendo di essere interessati al secondo caso, si vuole calcolare la probabilità:
1 − FDn (D) = P r {Dn > D} .
3
L’evento ”superamento della banda” si può verificare per ogni valore di x in corrispondenza
della retta superiore oppure in corrispondenza di quella inferiore. In particolare, se per qualche
valore x la differenza tra la funzione di ripartizione empirica e quella teorica supera la retta
r1 :
Sn (x) − F0 (x) > D
(2.1)
questa disuguaglianza sarà valida per tutti i valori di x appartenenti all’intervallo 1 Ik =
[x(k) , x1k ), essendo x1k il punto di intersezione della funzione di ripartizione empirica con
la retta r1 , per l’estremo superiore del quale essa diventerà un’uguaglianza, e si avrà:
Sn (x1k ) − F0 (x1k ) = D.
(2.2)
In altri termini, se esistono dei valori x che, in corrispondenza di un generico gradino k della
funzione di ripartizione empirica, definiscono un intervallo 1 Ik che risulta essere superiore a
D, cioè esterno alla banda, sicuramente il valore x1k di x che identifica l’estremo superiore di
tale intervallo determinerà il punto d’intersezione con la retta.
Poiché F0 (x) = x, allora anche F0 (x1k ) = x1k , quindi la (2.2) diventa
k
− x1k = D.
n
Di conseguenza la disuguaglianza (2.1) è valida se e solo se per almeno un valore di k si ha
x(k) < x1k =
k
−D
n
per k = 0, 1, . . . , n e con x(0) = 0.
Analogamente, se per qualche valore x
Sn (x) − F0 (x) < −D
(2.3)
cioè se la differenza risulta al di sotto della retta r2 , questa disuguaglianza sarà valida per tutti
i valori di x appartenenti all’intervallo 2 Ik = (x2k , x(k+1) ), essendo x2k il punto di intersezione
della funzione di ripartizione empirica con la retta r2 (per l’estremo inferiore del quale essa
diventerà un’uguaglianza); si avrà pertanto:
Sn (x2k ) − F0 (x2k ) = −D.
(2.4)
In altri termini, se esistono dei valori x che definiscono un intervallo 2 Ik che risulta essere
inferiore a −D, cioè esterno alla banda, sicuramente il valore x2k di x che identifica l’estremo
inferiore di tale intervallo determinerà il punto d’intersezione con la retta.
Poiché anche in questo caso F0 (x2k ) = x2k , la (2.4) diventa
k
− x2k = −D.
n
Di conseguenza la disuguaglianza (2.3) è valida se e solo se per almeno un valore di k si ha
x(k+1) > x2k =
k
+D
n
per k = 0, 1, . . . , n e con x(n+1) = 1.
Indicando l’evento:
A1k superamento della banda in corrispondenza della retta superiore r1
A2k superamento della banda in corrispondenza della retta inferiore r2
4
per k = 0, 1, . . . , n, si osserva che la statistica Dn eccederà D se e solo se si verifica almeno
uno dei seguenti 2n + 2 eventi:
A10 , A20 , A11 , A21 , A12 , A22, . . . , A1n , A2n .
(2.5)
Si osserva tuttavia che l’evento A10 è impossibile, in quanto trovandosi sull’asse delle ascisse
non è possibile il superamento della retta r1 ; analogamente l’evento A2n è impossibile, in
quanto per k = n la funzione di ripartizione empirica è pari a 1 e quindi non è possibile il
superamento della retta r2 .
Quanto detto porta all’equivalenza formale degli eventi
(" n
# " n
#)
[
[
{Dn > D} ⇐⇒
A1k ∪
A2k
(2.6)
k=0
k=0
Bisogna inoltre prestare attenzione al fatto che gli eventi possibili sono solo quelli che si
verificano all’interno del quadrato unitario, cioè 0 < xik < 1, per i = 1, 2 e k = 0, 1, . . . , n, le
cui espressioni sono:
x1k = k−nD
x1k + D = nk
n
=⇒
x2k − D = nk
x2k = k+nD
n
Di conseguenza, affinché le rette rimangano all’interno del quadrato unitario è necessario che
si verifichino alcune condizioni:
• per la retta superiore: x1k > 0 =⇒ k > nD, per cui il valore minimo che può assumere
k è:
m1 = [nD] + 1
dove [nD] = int(nD), quindi k = m1 , m1 + 1, . . . , n;
• per la retta inferiore: x2k < 1 =⇒ k < n − nD, per cui il valore massimo che può
assumere k è:
m2 = n − ([nD] + 1)
dove [nD] = int(nD), quindi k = 0, 1, . . . , m2 .
Riassumendo:
0 < x1k < 1 ⇔ k = m1 , m1 + 1, . . . , n
0 < x2k < 1 ⇔ k = 0, 1, . . . , m2
con m1 + m2 = n.
Come conseguenza di quanto detto si ha che anche gli eventi A1k e A2k risultano definiti sui
due insiemi distinti:
A1k per k = m1 , m1 + 1, . . . , n
(2.7)
A2k per k = 0, 1, . . . , m2 .
Si osserva ora l’equivalenza degli eventi
(" n
# " n
#)
(" n
# "m
#)
[
[
[
[2
{Dn > D} ⇐⇒
A1k ∪
A2k
⇐⇒
A1k ∪
A2k
k=0
k=0
k=m1
(2.8)
k=0
in quanto l’unione estesa a eventi impossibili non altera il risultato finale.
Se ora definiamo 2n + 2 eventi mutuamente esclusivi Ur ⊂ A1r e Vr ⊂ A2r , con r ≤ k tali che:
• Ur è l’evento che si verifica se A1r è il primo evento della sequenza (2.5) a verificarsi per
r = 0, 1, . . . , n;
5
• Vr è l’evento che si verifica se A2r è il primo evento della sequenza (2.5) a verificarsi per
r = 0, 1, . . . , n;
si ottiene che l’evento
"
n
[
#
"
Ur ∪
r=0
n
[
#
Vr
r=0
è equivalente a quelli definiti nella (2.8).
Inoltre, poiché gli eventi Ur e Vr sono mutuamente esclusivi, si ha:
P r {Dn > D} =
n
X
[P r {Ur } + P r {Vr }] .
(2.9)
r=0
Dalle definizioni degli eventi A1k , A2k , Ur e Vr si ottengono quindi le relazioni:
P
P r {A1k } = kr=0 [P r {Ur } P r {A1k |A1r } + P r {Vr } P r {A1k |A2r }]
P
P r {A2k } = kr=0 [P r {Ur } P r {A2k |A1r } + P r {Vr } P r {A2k |A2r }]
(2.10)
dove
• P r{Atk } per t = 1, 2 sono le probabilità marginali, cioè le probabilità che si verifichi
l’evento ”superamento della banda” in corrispondenza di una delle due rette r1 e r2 ;
• P r{Atk |Asr } per t = s = 1, 2 sono le probabilità condizionali, cioè le probabilità di
superare la banda al livello k dato che è già stata superata al livello r, sapendo che
r < k;
• P r{Ur } e P r{Vr } esprimono rispettivamente la probabilità che si verifichi per primo,
nella sequenza degli eventi A1r e A2r per r = 0, 1, . . . , n, l’evento A1r ”superamento della
retta superiore” oppure l’evento A2r ”superamento della retta inferiore”.
Si ottiene quindi, al variare di k, un sistema di 2n + 2 equazioni lineari in 2n + 2 incognite
che, note le probabilità marginali e quelle condizionali, consente di determinare le probabilità
P r {Ur } e P r {Vr }. Sostituendo i valori trovati nella relazione (2.9) si ottiene la funzione di
ripartizione della statistica Dn cercata.
3
Determinazione delle probabilità marginali e condizionali
Come anticipato nel paragrafo precedente, le probabilità marginali P r{Atk } per t = 1, 2
definiscono le probabilità che si verifichi l’evento ”superamento della banda”, cioè del verificarsi
degli eventi A1k e A2k .
Si tratta ora di ricavare le espressioni di queste probabilità, sapendo che per la (2.7):
= 0, per k = 0, 1, . . . , m1 − 1
C1k = P r {A1k }
> 0, per k = m1 , m1 + 1, . . . , n
e
C2k = P r {A2k }
> 0, per k = 0, 1, . . . , m2
= 0, per k = m2 + 1, m2 + 2, . . . , n.
6
In particolare, poiché C1k equivale alla probabilità che k valori xi per i = 1, . . . , n siano
inferiori o uguali a x1k , C1k viene correttamente descritta da una variabile casuale Binomiale
di parametri (n, p1k ), con
k
−D ,
p1k = x1k = F (x1k ) =
n
quindi:
C1k
n!
=
k!(n − k)!
k − nD
n
k n − k + nD
n
n−k
per k = m1 , m1 + 1, . . . , n.
Analogamente, poiché C2k equivale alla probabilità che k valori xi per i = 1, . . . , n siano
inferiori o uguali a x2k , C2k viene correttamente descritta da una variabile casuale Binomiale
di parametri (n, p2k ), con
k
+D ,
p2k = x2k = F (x2k ) =
n
quindi:
C2k
n!
=
k!(n − k)!
k + nD
n
k n − k − nD
n
n−k
per k = 0, 1, . . . , m2 .
Si osserva che le espressioni che definiscono C1k e C2k dipendono esclusivamente da k, n e D.
Al variare di k, risultano cosı̀ definiti due vettori C 1 e C 2 di dimensione (1×(n+1)) componenti
il vettore C (1×(2n+2)) delle probabilità marginali:
C1
C=
.
C2
Prima di ricavare le espressioni delle probabilità condizionali è necessario definire gli eventi
condizionati:

A1k |A1r , per k = m1 , . . . , n e r = m1 , . . . , n



A2k |A1r , perk = 0, . . . , m2 e r = m1 , . . . , n
(3.1)
A1k |A2r , perk = m1 , . . . , n e r = 0, . . . , m2



A2k |A2r , perk = 0, . . . , m2 e r = 0, . . . , m2 .
Affinché questi eventi condizionati Atk |Asr (t, s = 1, 2) siano considerati conseguenti (cioè
affinché l’evento Atk non possa verificarsi prima dell’evento Asr ), si devono verificare simultaneamente le relazioni:
xtk ≥ xsr , per t, s = 1, 2
k ≥ r.
Si considerino separatamente i quattro eventi al variare di t e s:
1. t = s = 1 ⇒ A1k |A1r .
Per r = m1 , . . . , n, e per un dato r l’indice k assume i valori k = r, r + 1, . . . , n.
Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi
m1 ≤ r ≤ k ≤ n.
2. t = 2, s = 1 ⇒ A2k |A1r .
Per r = m1 , . . . , n, e per un dato r l’indice k deve essere tale che
r ≤ k ≤ m2
x2k ≥ x1r ⇒ k ≥ r − 2nD
7
(3.2)
Da queste condizioni si ricava la relazione r ≤ k ≤ m2 , che delimita il dominio dei valori
dell’indice r all’estremo superiore di k.
Quindi i due indici devono soddisfare la relazione
m1 ≤ r ≤ k ≤ m2 .
(3.3)
3. t = 1, s = 2 ⇒ A1k |A2r .
Per r = 0, . . . , m2 , e per un dato r l’indice k deve essere tale che
r≤k≤n
x1k ≥ x2r ⇒ k ≥ r + 2nD.
Da queste condizioni si ricava la relazione
r + 2nD ≤ k ≤ n
(3.4)
che comporta una limitazione anche per r; infatti dalla seconda equazione del sistema si
ricava
r ≤ k − 2nD.
(3.5)
4. t = s = 2 ⇒ A2k |A2r .
Per r = 0, . . . , m2 , e per un dato r l’indice k assume i valori k = r, r + 1, . . . , m2 .
Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi
0 ≤ r ≤ k ≤ m2 .
(3.6)
Quello che interessa è calcolare le probabilità degli eventi conseguenti
Atk |Asr
con (t, s = 1, 2), cioè le probabilità di superare la banda al livello k dato che è già stata
superata al livello r.
In particolare, dove sono definite, queste probabilità si ottengono tramite la seguente espressione Binomiale:
k−r n−k
xtk − xsr
1 − xtk
(n − r)!
(3.7)
ts bkr = P r {Atk |Asr } =
(k − r)!(k − n)! 1 − xsr
1 − xsr
con t, s = 1, 2 e gli indici k, r soddisfacenti le relazioni (3.1) richieste dagli eventi conseguenti
Atk |Asr .
Al variare di t e s si ottengono quattro gruppi di probabilità condizionali che definiscono, al
variare di k e r, gli elementi delle seguenti quattro matrici:
1. t = s = 1 ⇒ B 11 = (11 bkr ).
Sostituendo nella (3.7) t = s = 1 si ha che P r {A1k |A1r } è:
11 bkr
(n − r)!
=
(k − r)!(n − k)!
per m1 ≤ r ≤ k ≤ n, avendo posto:
k−r
n1 − r
k−r n1 = n(1 + D)
n2 = n(1 − D).
8
n1 − k
n1 − r
n−k
Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r) di ordine (n + 1),
e in particolare, per k = r gli elementi sulla diagonale principale sono tutti unitari.
Valendo le restrizioni (3.2) si ottiene che il numero di probabilità da determinare contenute nella matrice è
(m2 )(m2 + 1)
(n − m1 )(n − m1 + 1)
=
2
2
Si ottiene quindi la matrice B 11 avente struttura:
Figura 3.1: Struttura della matrice B11
2. t = 2, s = 1 ⇒ B 21 = (21 bkr ).
Sostituendo nella (3.7) t = 2, s = 1 si ha che P r {A2k |A1r } è:
21 bkr
(n − r)!
=
(k − r)!(n − k)!
k − r + 2nD
n1 − r
k−r n2 − k
n1 − r
n−k
per m1 ≤ r ≤ k ≤ m2 = n − m1 .
Si ottiene quindi una matrice triangolare inferiore di ordine (n+1), e valendo le restrizioni
(3.3) si ottiene che il numero di probabilità da calcolare contenute nella matrice è
(n − 2m1 + 1)(n − 2m1 + 2)
(m2 − m1 + 1)(m2 − m1 + 2)
=
2
2
9
3. t = 1, s = 2 ⇒ B 12 = (12 bkr ).
Sostituendo nella (3.7) t = 1, s = 2 si ha che P r {A1k |A2r } è:
k−r n−k
(n − r)!
k − r − 2nD
n1 − k
12 bkr =
(k − r)!(n − k)!
n2 − r
n2 − r
per 0 ≤ r ≤ n − 2nD e r + 2nD ≤ k ≤ n.
Poiché per r + 2nD = k l’espressione che definisce 12 bkr è nulla, ci si può limitare a
calcolare le probabilità per i valori di k e r definiti nei campi:
r = 0, 1, . . . , n − l1
e
k = r + l1 , r + l1 + 1, . . . , n
Si ottiene quindi una matrice triangolare inferiore di ordine (n + 1), caratterizzata, per
le restrizioni (3.4) e (3.5), da un numero di termini non nulli pari a
(n − l1 + 1)(n − l1 + 2)
2
dove
l1 = int(2nD + 1)
4. t = s = 2 ⇒ B 22 = (22 bkr ).
Sostituendo nella (3.7) t = s = 2 si ha che P r {A2k |A2r } è:
k−r n−k
(n − r)!
k−r
n2 − k
22 bkr =
(k − r)!(n − k)! n2 − r
n2 − r
per 0 ≤ r ≤ k ≤ m2 . Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r)
di ordine (n + 1), e in particolare, per k = r gli elementi sulla diagonale principale sono
tutti unitari.
Valendo le restrizioni (3.6) si ottiene che il numero di probabilità da calcolare contenute
nella matrice è
(m2 )(m2 + 1)
2
10
Unendo le quattro matrici precedenti si ottiene che la matrice B delle probabilità condizionali
è la matrice quadrata a blocchi di ordine (2n + 2):
B 11 B 12
B=
B 21 B 22
avente la seguente struttura:
Figura 3.5: Struttura della matrice B
4
Funzione di ripartizione della statistica Dn
Dopo aver determinato il vettore delle probabilità marginali C e la matrice delle probabilità
condizionali B, le incognite del sistema (2.10) rimangono le probabilità dei 2n + 2 eventi
mutuamente esclusivi Ur e Vr , cioè
Wr = P r {Ur }
e
Yr = P r {Vr }
che al variare di r vengono a costituire gli elementi dei vettori:
W = {Wr }
11
e
Y = {Yr }
che costituiscono i due vettori componenti il vettore Z delle probabilità:
W
Z=
Y
di dimensione (1 × (2n + 2)).
Di conseguenza, il sistema (2.10) può essere riscritto in termini matriciali come:
B 11 B 12
W
C1
=
·
C2
B 21 B 22
Y
o in forma compatta come:
C = B · Z.
Poiché però la matrice B è singolare, in quanto det B = 0 non è possibile calcolare la sua
inversa B −1 e quindi il sistema risulta essere indeterminato.
Il problema viene risolto ricorrendo al calcolo della matrice pseudoinversa di Moore-Penrose
B + in sostituzione della matrice inversa (si veda ad es. Salce (1993)).
Si determinano cosı̀ le probabilità Wr e Yr tali che:
P r {Dn > D} =
n
X
[P r {Ur } + P r {Vr }]
(4.1)
r=0
dalle quali si ricavano i valori della funzione di ripartizione della statistica Dn di KolmogorovSmirnov:
FDn (D) = P r {Dn ≤ D} .
(4.2)
Al variare di n i valori della funzione di ripartizione della statistica test Dn si presentano come
in Figura 3.6.
1,0
0,9
0,8
Pr(Dn≤ D)
n=3
0,7
n=5
0,6
n=8
0,5
n=18
n=20
0,4
n=31
0,3
n=98
0,2
0,1
0,0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
D
Figura 3.6: Funzione di ripartizione della statistica Dn
12
0,7
0,8
0,9
1,0
Dal grafico si osserva che tali curve tendono a spostarsi verso sinistra e a diventare più ripide
all’aumentare della numerosità campionaria n, evidenziando cosı̀ un maggior livello di potenza
del test.
Fissato quindi un livello di significatività pari ad α, dalla (4.2) si determinano i valori critici
∗
.
esatti del test di Kolmogorov e Smirnov indicati con Dα,n
∗
per diverse numerosità campioIn particolare, la seguente tabella riporta i valori critici Dα,n
narie
n = 2; . . . ; 20
e
n = 25; 30; 35
e diversi valori di significatività
α = 0, 01; 0, 05; 0, 10; 0, 15; 0, 20.
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
0,01
0,92930
0,82900
0,73421
0,66855
0,61660
0,57580
0,54180
0,51330
0,48895
0,46770
0,44905
0,43246
0,41760
0,40420
0,39200
0,38085
0,37063
0,36116
0,35240
0,31656
0,28988
0,26898
Livello di
0,05
0,84189
0,70760
0,62394
0,56327
0,51926
0,48343
0,45427
0,43001
0,40925
0,39122
0,37543
0,36143
0,34890
0,33760
0,32733
0,31796
0,30936
0,30142
0,29407
0,26404
0,24170
0,22424
significatività (α)
0,10
0,15
0,77639 0,72614
0,63604 0,59582
0,56522 0,52476
0,50945 0,47439
0,46799 0,43526
0,43607 0,40497
0,40962 0,38062
0,38746 0,36006
0,36866 0,34250
0,35242 0,32734
0,33815 0,31408
0,32548 0,30233
0,31417 0,29181
0,30397 0,28233
0,29471 0,27372
0,28627 0,26587
0,27851 0,25867
0,27135 0,25202
0,26473 0,24587
0,23767 0,22074
0,21756 0,20207
0,20184 0,18748
0,20
0,68377
0,56481
0,49265
0,44697
0,41035
0,38145
0,35828
0,33907
0,32257
0,30826
0,29573
0,28466
0,27477
0,26585
0,25774
0,25035
0,24356
0,23731
0,23152
0,20786
0,19029
0,17655
Tabella 3.1: Valori critici della statistica di Kolmogorov-Smirnov
Nella precedente tabella si osserva che ad esempio al livello di significatività 0, 10, il valo∗
re critico Dα,n
per n = 15 è 0, 30397.
Questo significa che, se la legge di distribuzione è quella stabilita nell’ipotesi nulla, nel 10% dei
campioni casuali di ampiezza 15, il massimo scostamento in termini assoluti tra la funzione di
ripartizione empirica e quella teorica dovrà essere almeno 0, 30397.
13
Al fine di confrontare i valori ottenuti mediante la procedura proposta, con quelli disponibili in letteratura, vengono di seguito riportati i valori critici dα (n) tabulati da Massey (1951)
e successivamente integrati da Birnbaum (1952).
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
Livello di
0,01 0,05
0,929 0,842
0,829 0,708
0,734 0,624
0,669 0,563
0,618 0,521
0,577 0,486
0,543 0,457
0,514 0,432
0,486 0,409
0,468 0,391
0,450 0,375
0,433 0,361
0,418 0,349
0,404 0,338
0,391 0,328
0,380 0,318
0,370 0,309
0,361 0,301
0,352 0,294
0,320 0,264
0,290 0,242
0,270 0,230
significatività
0,10 0,15
0,776 0,726
0,642 0,597
0,564 0,525
0,510 0,474
0,470 0,436
0,438 0,405
0,411 0,381
0,388 0,360
0,368 0,342
0,352 0,326
0,338 0,313
0,325 0,302
0,314 0,292
0,304 0,283
0,295 0,274
0,286 0,266
0,278 0,259
0,272 0,252
0,264 0,246
0,240 0,220
0,220 0,200
0,210 0,190
(α)
0,20
0,684
0,565
0,494
0,446
0,410
0,381
0,358
0,339
0,322
0,307
0,295
0,284
0,274
0,266
0,258
0,250
0,244
0,237
0,231
0,210
0,190
0,180
Tabella 3.2: Valori critici della statistica di Kolmogorov-Smirnov tabulati da Massey (1951) e integrati da
Birnbaum (1952)
Dall’analisi delle tabelle precedenti si osserva che l’andamento dei valori determinati mediante la procedura illustrata e quelli calcolati da Massey è il medesimo al crescere di n e α.
Inoltre le due procedure sembrano essere pressoché equivalenti in termini di precisione dato
che le differenze tra i valori si osservano a partire dalla terza cifra decimale, cosa che potrebbe
dipendere anche da una diversa approssimazione in termini di numero di decimali considerati.
5
Conclusione
Per consentire un confronto sintetico tra i valori riportati nelle tabelle 3.1 e 3.2, di seguito sono
riportate, per diversi valori di significatività e diverse numerosità campionarie, le differenze
riscontrate nei valori critici, ottenute in termini assoluti come:
Dα,n − dα (n)
e in termini relativi percentuali, sulla base dei valori tabulati da Massey e Birnbaum, come:
Dα,n − dα (n)
dα (n)
14
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
0,01
0,000
0,03%
0,000
0,00%
0,000
0,03%
0,000
0,00%
-0,001 -0,23%
-0,001 -0,21%
-0,001 -0,22%
-0,001 -0,14%
0,003
0,61%
0,000
0,00%
-0,001 -0,21%
-0,001 -0,12%
0,000
0,00%
0,000
0,00%
0,001
0,26%
0,001
0,22%
0,001
0,17%
0,000
0,04%
0,000
0,11%
-0,003 -1,08%
0,000
0,00%
-0,001 -0,38%
Livello di significatività (α)
0,05
0,10
0,15
0,000 -0,01% 0,000
0,05%
0,000
0,02%
0,000 -0,06% -0,006 -0,93% -0,001 -0,20%
0,000 -0,01% 0,001
0,22%
0,000 -0,05%
0,000
0,05% -0,001 -0,11% 0,000
0,00%
-0,002 -0,33% -0,002 -0,43% -0,001 -0,17%
-0,003 -0,53% -0,002 -0,44% 0,000
0,00%
-0,003 -0,60% -0,001 -0,34% 0,000
0,00%
-0,002 -0,46% -0,001 -0,14% 0,000
0,00%
0,000
0,06%
0,001
0,18%
0,001
0,15%
0,000
0,00%
0,000
0,00%
0,001
0,41%
0,000
0,00%
0,000
0,00%
0,001
0,35%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00% -0,001 -0,24%
-0,001 -0,20% 0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,18%
0,000
0,00%
0,000
0,00% -0,001 -0,24% 0,000
0,00%
0,000
0,00%
0,001
0,28%
0,000
0,00%
0,000
0,02% -0,002 -0,97% 0,001
0,34%
0,000 -0,12% -0,002 -1,11% 0,002
1,03%
-0,006 -2,50% -0,008 -3,89% -0,003 -1,33%
0,20
0,000 -0,03%
0,000 -0,03%
-0,001 -0,27%
0,000 -0,01%
0,000
0,09%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,18%
0,001
0,41%
0,001
0,25%
0,001
0,23%
0,001
0,28%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,23%
-0,002 -1,02%
0,000
0,00%
-0,003 -1,92%
Tabella 3.3: Differenze assolute e relative percentuali tra i valori critici di Tabelle 3.1 e 3.2
Dall’analisi della Tabella 3.3 si osserva che, con riferimento alle differenze assolute, il valore minimo è −0, 00816 (in tabella si legge il valore −0, 008 approssimato alla terza cifra
decimale), mentre il valore massimo è 0, 00207 (in tabella si legge il valore 0, 002 approssimato
alla terza cifra decimale). Analogamente, con riferimento alle differenze relative percentuali, si
osserva che il valore minimo è −3, 88571% (in tabella si legge il valore −3, 89% approssimato
alla seconda cifra decimale), mentre il valore massimo è 1, 03500% (in tabella si legge il valore
1, 03% approssimato alla seconda cifra decimale).
Essendo quindi le differenze assolute inferiori a un centesimo, e quelle relative percentuali
inferiori a 4 punti percentuali, si conferma la non diversità operativa di impiego delle due
metodologie di calcolo dei valori critici del test.
I valori riportati nelle tabelle 3.1 e 3.2 sono calcolati sulla base di piccole numerosità campionarie (n ≤ 35).
Per n > 35, i valori critici della statistica test di Kolmogorov-Smirnov si ottengono, come indicato da Smirnov (1948), dividendo i valori dα (dipendenti esclusivamente da α) per la radice
quadrata della numerosità campionaria considerata, come indicato nella seguente tabella.
n
> 35
0,01
√
1, 63/ n
Livello di significatività (α)
0,05
0,10
0,15
√
√
√
1, 36/ n 1, 22/ n 1, 14/ n
0,20
√
1, 07/ n
Tabella 3.4: Valori critici asintotici dα (n > 35) della statistica di Kolmogorov-Smirnov forniti da Smirnov
(1948)
Per valutare la procedura proposta anche nel caso di grandi campioni, la seguente tabella
riporta i valori critici della statistica test di Kolmogorov-Smirnov per n = 50; 80; 100 moltiplicati per la radice quadrata della numerosità campionaria in modo da poterli confrontare con
15
i risultati di Tabella 3.4.
Livello di
0,01
0,05
1,59834 1,33014
1,60532 1,33806
1,60808 1,34028
√ ∗
Tabella 3.5: Valori critici asintotici nDα,n
(n > 35)
n
50
80
100
significatività (α)
0,10
0,15
0,20
1,19918 1,11391 1,04913
1,20453 1,11902 1,05408
1,20663 1,12105 1,05600
della statistica di Kolmogorov-Smirnov
Tramite la verifica empirica effettuata si osserva una diversità tra i valori riportati in Tabella
3.4 e in Tabella 3.5 a partire dalla seconda cifra decimale. Tuttavia si può pensare che queste
differenze siano in parte dovute al fatto che i valori riportati da Smirnov sono approssimati,
e non esatti, e in parte dovute alla diversa approssimazione considerata in termini di numero
di
decimali. Inoltre si osserva che all’aumentare della nimerosità campionaria i valori
√ cifre
∗
nDα,n
tendono ad avvicinarsi ai dα tabulati da Smirnov.
Dai confronti effettuati si può ritenere che quanto svolto costituisca una procedura alternativa
a quelle presenti in letteratura per il calcolo dei valori critici esatti del test di KolmogorovSmirnov caratterizzata da un buon grado di precisione numerica dei valori critici determinati.
Riferimenti bibliografici
[1] Birnbaum, Z.W., (1952) Numerical tabulation of the distribution of Kolmogorov statistic
for finite sample size, Journal of the American Statistical Association, 47, 425-441.
[2] Cantelli, F.P., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale
dell’Istituto Italiano degli Attuari, 4.
[3] Doob, J.L., (1949) Heuristic approach to the Kolmogorov-Smirnov theorems, The Annals
of Mathematical Statistics, 20, 393-403.
[4] Feller, W., (1948) On the Kolmogorov-Smirnov limit theorems for empirical distributions,
Annals of Mathematical Statistics, 19, 177-189.
[5] Glivenko, V.I., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale
dell’Istituto Italiano degli Attuari, 4, 92-99.
[6] Kolmogorov, A., (1933) Sulla determinazione empirica di una legge di distribuzione,
Giornale dell’Istituto Italiano degli Attuari, 4, 83-91.
[7] Massey, F.J., (1951) The Kolmogorov-Smirnov test for goodness of fit, Journal of the
American Statistical Association, 46, 68-78.
[8] Miller, L.H., (1956) Table of percentage points of Kolmogorov statistics, Journal of the
American Statistical Association, 51, 111-121.
[9] Salce, L., Lezioni sulle Matrici, 1993, Zanichelli-Decibel, Bologna.
[10] Smirnov, N., (1939) Sur les ecarts de la courbe de distribution empirique, Recueil
Mathématique, 6, 3-26.
[11] Smirnov, N., (1948) Table for estimating the goodness of fit of empirical distributions,
The Annals of Mathematical Statistics, 19, 279-281.
16

scarica pdf - Dipartimenti

Transcript

Documenti analoghi

1 PREVISIONI E PREVISIONI SUBORDINATE (1) Si lancino due

Frana Sengio del Termine Centrale Vasca di Carico

Indipendenza Indipendenza probabilistica o stocastica A

1 RACCOLTA DI ESERCIZI SUL TEOREMA DI BAYES DA

Sviluppi di Mc Laurin - Dipartimento di Matematica

Esercitazione # 3 Binomiale:

Introduzione ai processi di Markov

Il Dilemma di Monty Hall Il Problema (o

GIOCO DEL LOTTO E CREDENZE POPOLARI

Reale-Tognarelli - IGF8 - 27-29 maggio 1992

Lezione 23 — 07 Dicembre 23.1 Unscented Kalman filter

Alcuni punti spesso trascurati nei corsi di Algebra Lineare, necessari

1. Reti di reazioni chimiche ed equazioni differenziali

teorema de bayes

Dispense del corso di laboratorio di fisica Parte I: Statistica

1 Il Problema dell`irreversibilit`a

errori.tex typeset - Studenti di Fisica

Prevenzione e contrasto dell`evasione fiscale