scarica pdf - Dipartimenti

Commenti

Transcript

scarica pdf - Dipartimenti
Una procedura per determinare i valori critici esatti per
il test di Kolmogorov-Smirnov
Silvia Facchinetti
Dipartimento di Scienze Statistiche, Università Cattolica del Sacro Cuore,
Largo Gemelli 1, 20123 Milano
[email protected]
Sommario
Nell’ambito delle procedure non parametriche è di particolare rilievo il test proposto da Kolmogorov e Smirnov, che consente di verificare l’adattamento distributivo di un campione casuale proveniente da una variabile casuale continua. Il test si
basa sul confronto tra la funzione di ripartizione empirica del campione Sn (x) e quella teorica F0 (x) specificata nell’ipotesi nulla, mediante l’utilizzo della statistica Dn =
sup−∞<x<∞ |Sn (x) − F0 (x)| avente la caratteristica di essere indipendente da F0 (x).
Obiettivo di questa ricerca è fornire una procedura per determinare i valori critici esatti
del test per i consueti livelli di significatività, comparandoli con quelli disponibili in letteratura e con quelli asintotici. In particolare, si considera una modifica alla procedura
proposta da Feller (1948) che, considerando le relazioni formali tra gli eventi, consente
di definire un sistema di equazioni lineari i cui coefficienti sono probabilità marginali e
condizionate degli eventi e le cui soluzioni consentono di ottenere la funzione di ripartizione della statistica test.
Keywords: Goodness of fit tests, Percentiles of Kolmogorov-Smirnov’s statistic.
1
Introduzione
Il test di Kolmogorov-Smirnov rientra nell’ambito dei test di adattamento distributivo che
si propongono di verificare, relativamente ad una variabile aleatoria X unidimensionale e
assolutamente continua, se i dati provengono da un’assegnata legge di distribuzione F0 (x),
cioè si basa sulla verifica del sistema d’ipotesi:
H0 : F (x) = F0 (x) ∀x
(1.1)
H1 : F (x) 6= F0 (x) per qualche x
dove F (x) è la vera legge di distribuzione da cui sono stati estratti i dati.
Sia (x1 , x2 , . . . , xn ) un campione casuale di ampiezza n estratto da una generica variabile
casuale X continua avente legge di distribuzione:
F (x) = P r(X ≤ x).
Sia inoltre (x(1) , x(2) , . . . , x(n) ) il corrispondente campione ordinato.
La funzione di distribuzione empirica associata al campione ordinato è definita mediante la
relazione:

 0 se x < x(1)
k
se x(k) ≤ x < x(k+1) con k = 1, 2, . . . , n − 1.
Sn (x) =
(1.2)
 n
1 se x ≥ x(n)
Questa risulta essere una funzione monotona non decrescente a gradini di altezza costante pari
a 1/n in corrispondenza dei valori osservati x1 , x2 , . . . , xn (per ipotesi distinti).
La formulazione originale del test, dovuta a Kolmogorov, si basa su un risultato ottenuto
nel 1933 da Glivenko e Cantelli, i quali provano che, per la legge forte dei grandi numeri, la
probabilità che al divergere di n, Sn (x) converga uniformemente a F0 (x) è uno.
Nello stesso anno Kolmogorov introduce la statistica:
Dn =
sup
|Sn (x) − F0 (x)|
(1.3)
−∞<x<∞
tale che la regione critica di rifiuto dell’ipotesi nulla è:
dα
R = Dn : Dn > Dα,n = √
n
dove il centile della distribuzione viene definito mediante un valore dα che dipende solo da α.
Se X è una variabile casuale continua, la distribuzione di Dn è indipendente dalla legge di
distribuzione di F0 (x), quindi il test viene detto distribution-free.
Poichè il calcolo esatto della funzione di ripartizione di Dn diventa oneroso al crescere di n,
Kolmogorov (1933) e Smirnov (1939) forniscono la legge di distribuzione limite della variabile
casuale Dn :
∞
X
dα
2 2
√
=1−2
(−1)k−1 e−k dα = L(dα )
(1.4)
FDn (Dα,n ) = P r Dn ≤
n
k=1
la cui approssimazione, che prende in considerazione solo il primo termine della serie, è già
accettabile per n ≥ 35:
dα
2
FDn (Dα,n ) = P r Dn ≤ √
' 1 − 2e−dα .
(1.5)
n
2
I valori della funzione L(dα ) sono stati tabulati da Smirnov (1948).
Sono numerosi gli autori che si sono dedicati allo studio della distribuzione della statistica
Dn ; tra gli altri emergono: Feller (1948) che semplifica e unisce le dimostrazioni proposte da
Kolmogorov e Smirnov; Doob (1949) che fornisce una dimostrazione di tipo euristico e Miller
(1956) che introduce una modifica empirica alla formula (1.4). Inoltre, Massey (1951) e Birnbaum (1952) hanno ricavato, mediante due diverse procedure, le tavole dei valori critici esatti,
per n ≤ 35.
2
Una procedura per il calcolo dei valori critici esatti
per il test di Kolmogorov-Smirnov
Per quanto detto sopra, si supponga che X sia una variabile casuale di tipo Uniforme X ∼
U (0, 1) e si consideri il seguente grafico che riporta la funzione di ripartizione F0 (x) della
variabile casuale X e la legge empirica Sn (x):
1
F0(x)
0,9
0,8
d(x)
0,7
0,6
0,5
0,4
Sn(x)
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
x
Figura 2.1: Funzione di ripartizione teorica della variabile casuale X ∼ U (0, 1) e funzione di ripartizione empirica per un campione di dimensione n = 4
La figura mette in evidenza anche le differenze
k
−x
n
che rappresentano le distanze verticali tra le due funzioni. Di conseguenza Dn è semplicemente
la più ampia tra tali differenze assolute.
Fissato un valore 0 ≤ Dα,n = D ≤ 1, la funzione di ripartizione della variabile casuale Dn ,
FDn (D) = P r(Dn ≤ D), coincide con la probabilità dell’unione di tutti i possibili campioni
(x1 , x2 , . . . , xn ) la cui legge empirica, per 0 ≤ x ≤ 1, risulta compresa tra le due rette parallele
alla funzione di ripartizione teorica F0 (x) = x aventi equazione:
y = x + D retta superiore r1
y = x − D retta inferiore r2
d(x) = Sn (x) − F0 (x) =
dove D e −D sono le intercette delle due rette r1 e r2 che definiscono una banda intorno alla
funzione F0 (x). Se la statistica Dn cadrà all’interno della regione definita dalle due rette, si
accetterà l’ipotesi nulla, altrimenti si preferirà quella alternativa.
Supponendo di essere interessati al secondo caso, si vuole calcolare la probabilità:
1 − FDn (D) = P r {Dn > D} .
3
L’evento ”superamento della banda” si può verificare per ogni valore di x in corrispondenza
della retta superiore oppure in corrispondenza di quella inferiore. In particolare, se per qualche
valore x la differenza tra la funzione di ripartizione empirica e quella teorica supera la retta
r1 :
Sn (x) − F0 (x) > D
(2.1)
questa disuguaglianza sarà valida per tutti i valori di x appartenenti all’intervallo 1 Ik =
[x(k) , x1k ), essendo x1k il punto di intersezione della funzione di ripartizione empirica con
la retta r1 , per l’estremo superiore del quale essa diventerà un’uguaglianza, e si avrà:
Sn (x1k ) − F0 (x1k ) = D.
(2.2)
In altri termini, se esistono dei valori x che, in corrispondenza di un generico gradino k della
funzione di ripartizione empirica, definiscono un intervallo 1 Ik che risulta essere superiore a
D, cioè esterno alla banda, sicuramente il valore x1k di x che identifica l’estremo superiore di
tale intervallo determinerà il punto d’intersezione con la retta.
Poiché F0 (x) = x, allora anche F0 (x1k ) = x1k , quindi la (2.2) diventa
k
− x1k = D.
n
Di conseguenza la disuguaglianza (2.1) è valida se e solo se per almeno un valore di k si ha
x(k) < x1k =
k
−D
n
per k = 0, 1, . . . , n e con x(0) = 0.
Analogamente, se per qualche valore x
Sn (x) − F0 (x) < −D
(2.3)
cioè se la differenza risulta al di sotto della retta r2 , questa disuguaglianza sarà valida per tutti
i valori di x appartenenti all’intervallo 2 Ik = (x2k , x(k+1) ), essendo x2k il punto di intersezione
della funzione di ripartizione empirica con la retta r2 (per l’estremo inferiore del quale essa
diventerà un’uguaglianza); si avrà pertanto:
Sn (x2k ) − F0 (x2k ) = −D.
(2.4)
In altri termini, se esistono dei valori x che definiscono un intervallo 2 Ik che risulta essere
inferiore a −D, cioè esterno alla banda, sicuramente il valore x2k di x che identifica l’estremo
inferiore di tale intervallo determinerà il punto d’intersezione con la retta.
Poiché anche in questo caso F0 (x2k ) = x2k , la (2.4) diventa
k
− x2k = −D.
n
Di conseguenza la disuguaglianza (2.3) è valida se e solo se per almeno un valore di k si ha
x(k+1) > x2k =
k
+D
n
per k = 0, 1, . . . , n e con x(n+1) = 1.
Indicando l’evento:
A1k superamento della banda in corrispondenza della retta superiore r1
A2k superamento della banda in corrispondenza della retta inferiore r2
4
per k = 0, 1, . . . , n, si osserva che la statistica Dn eccederà D se e solo se si verifica almeno
uno dei seguenti 2n + 2 eventi:
A10 , A20 , A11 , A21 , A12 , A22, . . . , A1n , A2n .
(2.5)
Si osserva tuttavia che l’evento A10 è impossibile, in quanto trovandosi sull’asse delle ascisse
non è possibile il superamento della retta r1 ; analogamente l’evento A2n è impossibile, in
quanto per k = n la funzione di ripartizione empirica è pari a 1 e quindi non è possibile il
superamento della retta r2 .
Quanto detto porta all’equivalenza formale degli eventi
(" n
# " n
#)
[
[
{Dn > D} ⇐⇒
A1k ∪
A2k
(2.6)
k=0
k=0
Bisogna inoltre prestare attenzione al fatto che gli eventi possibili sono solo quelli che si
verificano all’interno del quadrato unitario, cioè 0 < xik < 1, per i = 1, 2 e k = 0, 1, . . . , n, le
cui espressioni sono:
x1k = k−nD
x1k + D = nk
n
=⇒
x2k − D = nk
x2k = k+nD
n
Di conseguenza, affinché le rette rimangano all’interno del quadrato unitario è necessario che
si verifichino alcune condizioni:
• per la retta superiore: x1k > 0 =⇒ k > nD, per cui il valore minimo che può assumere
k è:
m1 = [nD] + 1
dove [nD] = int(nD), quindi k = m1 , m1 + 1, . . . , n;
• per la retta inferiore: x2k < 1 =⇒ k < n − nD, per cui il valore massimo che può
assumere k è:
m2 = n − ([nD] + 1)
dove [nD] = int(nD), quindi k = 0, 1, . . . , m2 .
Riassumendo:
0 < x1k < 1 ⇔ k = m1 , m1 + 1, . . . , n
0 < x2k < 1 ⇔ k = 0, 1, . . . , m2
con m1 + m2 = n.
Come conseguenza di quanto detto si ha che anche gli eventi A1k e A2k risultano definiti sui
due insiemi distinti:
A1k per k = m1 , m1 + 1, . . . , n
(2.7)
A2k per k = 0, 1, . . . , m2 .
Si osserva ora l’equivalenza degli eventi
(" n
# " n
#)
(" n
# "m
#)
[
[
[
[2
{Dn > D} ⇐⇒
A1k ∪
A2k
⇐⇒
A1k ∪
A2k
k=0
k=0
k=m1
(2.8)
k=0
in quanto l’unione estesa a eventi impossibili non altera il risultato finale.
Se ora definiamo 2n + 2 eventi mutuamente esclusivi Ur ⊂ A1r e Vr ⊂ A2r , con r ≤ k tali che:
• Ur è l’evento che si verifica se A1r è il primo evento della sequenza (2.5) a verificarsi per
r = 0, 1, . . . , n;
5
• Vr è l’evento che si verifica se A2r è il primo evento della sequenza (2.5) a verificarsi per
r = 0, 1, . . . , n;
si ottiene che l’evento
"
n
[
#
"
Ur ∪
r=0
n
[
#
Vr
r=0
è equivalente a quelli definiti nella (2.8).
Inoltre, poiché gli eventi Ur e Vr sono mutuamente esclusivi, si ha:
P r {Dn > D} =
n
X
[P r {Ur } + P r {Vr }] .
(2.9)
r=0
Dalle definizioni degli eventi A1k , A2k , Ur e Vr si ottengono quindi le relazioni:
P
P r {A1k } = kr=0 [P r {Ur } P r {A1k |A1r } + P r {Vr } P r {A1k |A2r }]
P
P r {A2k } = kr=0 [P r {Ur } P r {A2k |A1r } + P r {Vr } P r {A2k |A2r }]
(2.10)
dove
• P r{Atk } per t = 1, 2 sono le probabilità marginali, cioè le probabilità che si verifichi
l’evento ”superamento della banda” in corrispondenza di una delle due rette r1 e r2 ;
• P r{Atk |Asr } per t = s = 1, 2 sono le probabilità condizionali, cioè le probabilità di
superare la banda al livello k dato che è già stata superata al livello r, sapendo che
r < k;
• P r{Ur } e P r{Vr } esprimono rispettivamente la probabilità che si verifichi per primo,
nella sequenza degli eventi A1r e A2r per r = 0, 1, . . . , n, l’evento A1r ”superamento della
retta superiore” oppure l’evento A2r ”superamento della retta inferiore”.
Si ottiene quindi, al variare di k, un sistema di 2n + 2 equazioni lineari in 2n + 2 incognite
che, note le probabilità marginali e quelle condizionali, consente di determinare le probabilità
P r {Ur } e P r {Vr }. Sostituendo i valori trovati nella relazione (2.9) si ottiene la funzione di
ripartizione della statistica Dn cercata.
3
Determinazione delle probabilità marginali e condizionali
Come anticipato nel paragrafo precedente, le probabilità marginali P r{Atk } per t = 1, 2
definiscono le probabilità che si verifichi l’evento ”superamento della banda”, cioè del verificarsi
degli eventi A1k e A2k .
Si tratta ora di ricavare le espressioni di queste probabilità, sapendo che per la (2.7):
= 0, per k = 0, 1, . . . , m1 − 1
C1k = P r {A1k }
> 0, per k = m1 , m1 + 1, . . . , n
e
C2k = P r {A2k }
> 0, per k = 0, 1, . . . , m2
= 0, per k = m2 + 1, m2 + 2, . . . , n.
6
In particolare, poiché C1k equivale alla probabilità che k valori xi per i = 1, . . . , n siano
inferiori o uguali a x1k , C1k viene correttamente descritta da una variabile casuale Binomiale
di parametri (n, p1k ), con
k
−D ,
p1k = x1k = F (x1k ) =
n
quindi:
C1k
n!
=
k!(n − k)!
k − nD
n
k n − k + nD
n
n−k
per k = m1 , m1 + 1, . . . , n.
Analogamente, poiché C2k equivale alla probabilità che k valori xi per i = 1, . . . , n siano
inferiori o uguali a x2k , C2k viene correttamente descritta da una variabile casuale Binomiale
di parametri (n, p2k ), con
k
+D ,
p2k = x2k = F (x2k ) =
n
quindi:
C2k
n!
=
k!(n − k)!
k + nD
n
k n − k − nD
n
n−k
per k = 0, 1, . . . , m2 .
Si osserva che le espressioni che definiscono C1k e C2k dipendono esclusivamente da k, n e D.
Al variare di k, risultano cosı̀ definiti due vettori C 1 e C 2 di dimensione (1×(n+1)) componenti
il vettore C (1×(2n+2)) delle probabilità marginali:
C1
C=
.
C2
Prima di ricavare le espressioni delle probabilità condizionali è necessario definire gli eventi
condizionati:

A1k |A1r , per k = m1 , . . . , n e r = m1 , . . . , n



A2k |A1r , perk = 0, . . . , m2 e r = m1 , . . . , n
(3.1)
A1k |A2r , perk = m1 , . . . , n e r = 0, . . . , m2



A2k |A2r , perk = 0, . . . , m2 e r = 0, . . . , m2 .
Affinché questi eventi condizionati Atk |Asr (t, s = 1, 2) siano considerati conseguenti (cioè
affinché l’evento Atk non possa verificarsi prima dell’evento Asr ), si devono verificare simultaneamente le relazioni:
xtk ≥ xsr , per t, s = 1, 2
k ≥ r.
Si considerino separatamente i quattro eventi al variare di t e s:
1. t = s = 1 ⇒ A1k |A1r .
Per r = m1 , . . . , n, e per un dato r l’indice k assume i valori k = r, r + 1, . . . , n.
Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi
m1 ≤ r ≤ k ≤ n.
2. t = 2, s = 1 ⇒ A2k |A1r .
Per r = m1 , . . . , n, e per un dato r l’indice k deve essere tale che
r ≤ k ≤ m2
x2k ≥ x1r ⇒ k ≥ r − 2nD
7
(3.2)
Da queste condizioni si ricava la relazione r ≤ k ≤ m2 , che delimita il dominio dei valori
dell’indice r all’estremo superiore di k.
Quindi i due indici devono soddisfare la relazione
m1 ≤ r ≤ k ≤ m2 .
(3.3)
3. t = 1, s = 2 ⇒ A1k |A2r .
Per r = 0, . . . , m2 , e per un dato r l’indice k deve essere tale che
r≤k≤n
x1k ≥ x2r ⇒ k ≥ r + 2nD.
Da queste condizioni si ricava la relazione
r + 2nD ≤ k ≤ n
(3.4)
che comporta una limitazione anche per r; infatti dalla seconda equazione del sistema si
ricava
r ≤ k − 2nD.
(3.5)
4. t = s = 2 ⇒ A2k |A2r .
Per r = 0, . . . , m2 , e per un dato r l’indice k assume i valori k = r, r + 1, . . . , m2 .
Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi
0 ≤ r ≤ k ≤ m2 .
(3.6)
Quello che interessa è calcolare le probabilità degli eventi conseguenti
Atk |Asr
con (t, s = 1, 2), cioè le probabilità di superare la banda al livello k dato che è già stata
superata al livello r.
In particolare, dove sono definite, queste probabilità si ottengono tramite la seguente espressione Binomiale:
k−r n−k
xtk − xsr
1 − xtk
(n − r)!
(3.7)
ts bkr = P r {Atk |Asr } =
(k − r)!(k − n)! 1 − xsr
1 − xsr
con t, s = 1, 2 e gli indici k, r soddisfacenti le relazioni (3.1) richieste dagli eventi conseguenti
Atk |Asr .
Al variare di t e s si ottengono quattro gruppi di probabilità condizionali che definiscono, al
variare di k e r, gli elementi delle seguenti quattro matrici:
1. t = s = 1 ⇒ B 11 = (11 bkr ).
Sostituendo nella (3.7) t = s = 1 si ha che P r {A1k |A1r } è:
11 bkr
(n − r)!
=
(k − r)!(n − k)!
per m1 ≤ r ≤ k ≤ n, avendo posto:
k−r
n1 − r
k−r n1 = n(1 + D)
n2 = n(1 − D).
8
n1 − k
n1 − r
n−k
Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r) di ordine (n + 1),
e in particolare, per k = r gli elementi sulla diagonale principale sono tutti unitari.
Valendo le restrizioni (3.2) si ottiene che il numero di probabilità da determinare contenute nella matrice è
(m2 )(m2 + 1)
(n − m1 )(n − m1 + 1)
=
2
2
Si ottiene quindi la matrice B 11 avente struttura:
Figura 3.1: Struttura della matrice B11
2. t = 2, s = 1 ⇒ B 21 = (21 bkr ).
Sostituendo nella (3.7) t = 2, s = 1 si ha che P r {A2k |A1r } è:
21 bkr
(n − r)!
=
(k − r)!(n − k)!
k − r + 2nD
n1 − r
k−r n2 − k
n1 − r
n−k
per m1 ≤ r ≤ k ≤ m2 = n − m1 .
Si ottiene quindi una matrice triangolare inferiore di ordine (n+1), e valendo le restrizioni
(3.3) si ottiene che il numero di probabilità da calcolare contenute nella matrice è
(n − 2m1 + 1)(n − 2m1 + 2)
(m2 − m1 + 1)(m2 − m1 + 2)
=
2
2
Si ottiene quindi la matrice B 21 avente struttura:
Figura 3.2: Struttura della matrice B21
9
3. t = 1, s = 2 ⇒ B 12 = (12 bkr ).
Sostituendo nella (3.7) t = 1, s = 2 si ha che P r {A1k |A2r } è:
k−r n−k
(n − r)!
k − r − 2nD
n1 − k
12 bkr =
(k − r)!(n − k)!
n2 − r
n2 − r
per 0 ≤ r ≤ n − 2nD e r + 2nD ≤ k ≤ n.
Poiché per r + 2nD = k l’espressione che definisce 12 bkr è nulla, ci si può limitare a
calcolare le probabilità per i valori di k e r definiti nei campi:
r = 0, 1, . . . , n − l1
e
k = r + l1 , r + l1 + 1, . . . , n
Si ottiene quindi una matrice triangolare inferiore di ordine (n + 1), caratterizzata, per
le restrizioni (3.4) e (3.5), da un numero di termini non nulli pari a
(n − l1 + 1)(n − l1 + 2)
2
dove
l1 = int(2nD + 1)
Si ottiene quindi la matrice B 12 avente struttura:
Figura 3.3: Struttura della matrice B12
4. t = s = 2 ⇒ B 22 = (22 bkr ).
Sostituendo nella (3.7) t = s = 2 si ha che P r {A2k |A2r } è:
k−r n−k
(n − r)!
k−r
n2 − k
22 bkr =
(k − r)!(n − k)! n2 − r
n2 − r
per 0 ≤ r ≤ k ≤ m2 . Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r)
di ordine (n + 1), e in particolare, per k = r gli elementi sulla diagonale principale sono
tutti unitari.
Valendo le restrizioni (3.6) si ottiene che il numero di probabilità da calcolare contenute
nella matrice è
(m2 )(m2 + 1)
2
Si ottiene quindi la matrice B 22 avente struttura:
10
Figura 3.4: Struttura della matrice B22
Unendo le quattro matrici precedenti si ottiene che la matrice B delle probabilità condizionali
è la matrice quadrata a blocchi di ordine (2n + 2):
B 11 B 12
B=
B 21 B 22
avente la seguente struttura:
Figura 3.5: Struttura della matrice B
4
Funzione di ripartizione della statistica Dn
Dopo aver determinato il vettore delle probabilità marginali C e la matrice delle probabilità
condizionali B, le incognite del sistema (2.10) rimangono le probabilità dei 2n + 2 eventi
mutuamente esclusivi Ur e Vr , cioè
Wr = P r {Ur }
e
Yr = P r {Vr }
che al variare di r vengono a costituire gli elementi dei vettori:
W = {Wr }
11
e
Y = {Yr }
che costituiscono i due vettori componenti il vettore Z delle probabilità:
W
Z=
Y
di dimensione (1 × (2n + 2)).
Di conseguenza, il sistema (2.10) può essere riscritto in termini matriciali come:
B 11 B 12
W
C1
=
·
C2
B 21 B 22
Y
o in forma compatta come:
C = B · Z.
Poiché però la matrice B è singolare, in quanto det B = 0 non è possibile calcolare la sua
inversa B −1 e quindi il sistema risulta essere indeterminato.
Il problema viene risolto ricorrendo al calcolo della matrice pseudoinversa di Moore-Penrose
B + in sostituzione della matrice inversa (si veda ad es. Salce (1993)).
Si determinano cosı̀ le probabilità Wr e Yr tali che:
P r {Dn > D} =
n
X
[P r {Ur } + P r {Vr }]
(4.1)
r=0
dalle quali si ricavano i valori della funzione di ripartizione della statistica Dn di KolmogorovSmirnov:
FDn (D) = P r {Dn ≤ D} .
(4.2)
Al variare di n i valori della funzione di ripartizione della statistica test Dn si presentano come
in Figura 3.6.
1,0
0,9
0,8
Pr(Dn≤ D)
n=3
0,7
n=5
0,6
n=8
0,5
n=18
n=20
0,4
n=31
0,3
n=98
0,2
0,1
0,0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
D
Figura 3.6: Funzione di ripartizione della statistica Dn
12
0,7
0,8
0,9
1,0
Dal grafico si osserva che tali curve tendono a spostarsi verso sinistra e a diventare più ripide
all’aumentare della numerosità campionaria n, evidenziando cosı̀ un maggior livello di potenza
del test.
Fissato quindi un livello di significatività pari ad α, dalla (4.2) si determinano i valori critici
∗
.
esatti del test di Kolmogorov e Smirnov indicati con Dα,n
∗
per diverse numerosità campioIn particolare, la seguente tabella riporta i valori critici Dα,n
narie
n = 2; . . . ; 20
e
n = 25; 30; 35
e diversi valori di significatività
α = 0, 01; 0, 05; 0, 10; 0, 15; 0, 20.
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
0,01
0,92930
0,82900
0,73421
0,66855
0,61660
0,57580
0,54180
0,51330
0,48895
0,46770
0,44905
0,43246
0,41760
0,40420
0,39200
0,38085
0,37063
0,36116
0,35240
0,31656
0,28988
0,26898
Livello di
0,05
0,84189
0,70760
0,62394
0,56327
0,51926
0,48343
0,45427
0,43001
0,40925
0,39122
0,37543
0,36143
0,34890
0,33760
0,32733
0,31796
0,30936
0,30142
0,29407
0,26404
0,24170
0,22424
significatività (α)
0,10
0,15
0,77639 0,72614
0,63604 0,59582
0,56522 0,52476
0,50945 0,47439
0,46799 0,43526
0,43607 0,40497
0,40962 0,38062
0,38746 0,36006
0,36866 0,34250
0,35242 0,32734
0,33815 0,31408
0,32548 0,30233
0,31417 0,29181
0,30397 0,28233
0,29471 0,27372
0,28627 0,26587
0,27851 0,25867
0,27135 0,25202
0,26473 0,24587
0,23767 0,22074
0,21756 0,20207
0,20184 0,18748
0,20
0,68377
0,56481
0,49265
0,44697
0,41035
0,38145
0,35828
0,33907
0,32257
0,30826
0,29573
0,28466
0,27477
0,26585
0,25774
0,25035
0,24356
0,23731
0,23152
0,20786
0,19029
0,17655
Tabella 3.1: Valori critici della statistica di Kolmogorov-Smirnov
Nella precedente tabella si osserva che ad esempio al livello di significatività 0, 10, il valo∗
re critico Dα,n
per n = 15 è 0, 30397.
Questo significa che, se la legge di distribuzione è quella stabilita nell’ipotesi nulla, nel 10% dei
campioni casuali di ampiezza 15, il massimo scostamento in termini assoluti tra la funzione di
ripartizione empirica e quella teorica dovrà essere almeno 0, 30397.
13
Al fine di confrontare i valori ottenuti mediante la procedura proposta, con quelli disponibili in letteratura, vengono di seguito riportati i valori critici dα (n) tabulati da Massey (1951)
e successivamente integrati da Birnbaum (1952).
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
Livello di
0,01 0,05
0,929 0,842
0,829 0,708
0,734 0,624
0,669 0,563
0,618 0,521
0,577 0,486
0,543 0,457
0,514 0,432
0,486 0,409
0,468 0,391
0,450 0,375
0,433 0,361
0,418 0,349
0,404 0,338
0,391 0,328
0,380 0,318
0,370 0,309
0,361 0,301
0,352 0,294
0,320 0,264
0,290 0,242
0,270 0,230
significatività
0,10 0,15
0,776 0,726
0,642 0,597
0,564 0,525
0,510 0,474
0,470 0,436
0,438 0,405
0,411 0,381
0,388 0,360
0,368 0,342
0,352 0,326
0,338 0,313
0,325 0,302
0,314 0,292
0,304 0,283
0,295 0,274
0,286 0,266
0,278 0,259
0,272 0,252
0,264 0,246
0,240 0,220
0,220 0,200
0,210 0,190
(α)
0,20
0,684
0,565
0,494
0,446
0,410
0,381
0,358
0,339
0,322
0,307
0,295
0,284
0,274
0,266
0,258
0,250
0,244
0,237
0,231
0,210
0,190
0,180
Tabella 3.2: Valori critici della statistica di Kolmogorov-Smirnov tabulati da Massey (1951) e integrati da
Birnbaum (1952)
Dall’analisi delle tabelle precedenti si osserva che l’andamento dei valori determinati mediante la procedura illustrata e quelli calcolati da Massey è il medesimo al crescere di n e α.
Inoltre le due procedure sembrano essere pressoché equivalenti in termini di precisione dato
che le differenze tra i valori si osservano a partire dalla terza cifra decimale, cosa che potrebbe
dipendere anche da una diversa approssimazione in termini di numero di decimali considerati.
5
Conclusione
Per consentire un confronto sintetico tra i valori riportati nelle tabelle 3.1 e 3.2, di seguito sono
riportate, per diversi valori di significatività e diverse numerosità campionarie, le differenze
riscontrate nei valori critici, ottenute in termini assoluti come:
Dα,n − dα (n)
e in termini relativi percentuali, sulla base dei valori tabulati da Massey e Birnbaum, come:
Dα,n − dα (n)
dα (n)
14
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
0,01
0,000
0,03%
0,000
0,00%
0,000
0,03%
0,000
0,00%
-0,001 -0,23%
-0,001 -0,21%
-0,001 -0,22%
-0,001 -0,14%
0,003
0,61%
0,000
0,00%
-0,001 -0,21%
-0,001 -0,12%
0,000
0,00%
0,000
0,00%
0,001
0,26%
0,001
0,22%
0,001
0,17%
0,000
0,04%
0,000
0,11%
-0,003 -1,08%
0,000
0,00%
-0,001 -0,38%
Livello di significatività (α)
0,05
0,10
0,15
0,000 -0,01% 0,000
0,05%
0,000
0,02%
0,000 -0,06% -0,006 -0,93% -0,001 -0,20%
0,000 -0,01% 0,001
0,22%
0,000 -0,05%
0,000
0,05% -0,001 -0,11% 0,000
0,00%
-0,002 -0,33% -0,002 -0,43% -0,001 -0,17%
-0,003 -0,53% -0,002 -0,44% 0,000
0,00%
-0,003 -0,60% -0,001 -0,34% 0,000
0,00%
-0,002 -0,46% -0,001 -0,14% 0,000
0,00%
0,000
0,06%
0,001
0,18%
0,001
0,15%
0,000
0,00%
0,000
0,00%
0,001
0,41%
0,000
0,00%
0,000
0,00%
0,001
0,35%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00% -0,001 -0,24%
-0,001 -0,20% 0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,18%
0,000
0,00%
0,000
0,00% -0,001 -0,24% 0,000
0,00%
0,000
0,00%
0,001
0,28%
0,000
0,00%
0,000
0,02% -0,002 -0,97% 0,001
0,34%
0,000 -0,12% -0,002 -1,11% 0,002
1,03%
-0,006 -2,50% -0,008 -3,89% -0,003 -1,33%
0,20
0,000 -0,03%
0,000 -0,03%
-0,001 -0,27%
0,000 -0,01%
0,000
0,09%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,18%
0,001
0,41%
0,001
0,25%
0,001
0,23%
0,001
0,28%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,000
0,00%
0,001
0,23%
-0,002 -1,02%
0,000
0,00%
-0,003 -1,92%
Tabella 3.3: Differenze assolute e relative percentuali tra i valori critici di Tabelle 3.1 e 3.2
Dall’analisi della Tabella 3.3 si osserva che, con riferimento alle differenze assolute, il valore minimo è −0, 00816 (in tabella si legge il valore −0, 008 approssimato alla terza cifra
decimale), mentre il valore massimo è 0, 00207 (in tabella si legge il valore 0, 002 approssimato
alla terza cifra decimale). Analogamente, con riferimento alle differenze relative percentuali, si
osserva che il valore minimo è −3, 88571% (in tabella si legge il valore −3, 89% approssimato
alla seconda cifra decimale), mentre il valore massimo è 1, 03500% (in tabella si legge il valore
1, 03% approssimato alla seconda cifra decimale).
Essendo quindi le differenze assolute inferiori a un centesimo, e quelle relative percentuali
inferiori a 4 punti percentuali, si conferma la non diversità operativa di impiego delle due
metodologie di calcolo dei valori critici del test.
I valori riportati nelle tabelle 3.1 e 3.2 sono calcolati sulla base di piccole numerosità campionarie (n ≤ 35).
Per n > 35, i valori critici della statistica test di Kolmogorov-Smirnov si ottengono, come indicato da Smirnov (1948), dividendo i valori dα (dipendenti esclusivamente da α) per la radice
quadrata della numerosità campionaria considerata, come indicato nella seguente tabella.
n
> 35
0,01
√
1, 63/ n
Livello di significatività (α)
0,05
0,10
0,15
√
√
√
1, 36/ n 1, 22/ n 1, 14/ n
0,20
√
1, 07/ n
Tabella 3.4: Valori critici asintotici dα (n > 35) della statistica di Kolmogorov-Smirnov forniti da Smirnov
(1948)
Per valutare la procedura proposta anche nel caso di grandi campioni, la seguente tabella
riporta i valori critici della statistica test di Kolmogorov-Smirnov per n = 50; 80; 100 moltiplicati per la radice quadrata della numerosità campionaria in modo da poterli confrontare con
15
i risultati di Tabella 3.4.
Livello di
0,01
0,05
1,59834 1,33014
1,60532 1,33806
1,60808 1,34028
√ ∗
Tabella 3.5: Valori critici asintotici nDα,n
(n > 35)
n
50
80
100
significatività (α)
0,10
0,15
0,20
1,19918 1,11391 1,04913
1,20453 1,11902 1,05408
1,20663 1,12105 1,05600
della statistica di Kolmogorov-Smirnov
Tramite la verifica empirica effettuata si osserva una diversità tra i valori riportati in Tabella
3.4 e in Tabella 3.5 a partire dalla seconda cifra decimale. Tuttavia si può pensare che queste
differenze siano in parte dovute al fatto che i valori riportati da Smirnov sono approssimati,
e non esatti, e in parte dovute alla diversa approssimazione considerata in termini di numero
di
decimali. Inoltre si osserva che all’aumentare della nimerosità campionaria i valori
√ cifre
∗
nDα,n
tendono ad avvicinarsi ai dα tabulati da Smirnov.
Dai confronti effettuati si può ritenere che quanto svolto costituisca una procedura alternativa
a quelle presenti in letteratura per il calcolo dei valori critici esatti del test di KolmogorovSmirnov caratterizzata da un buon grado di precisione numerica dei valori critici determinati.
Riferimenti bibliografici
[1] Birnbaum, Z.W., (1952) Numerical tabulation of the distribution of Kolmogorov statistic
for finite sample size, Journal of the American Statistical Association, 47, 425-441.
[2] Cantelli, F.P., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale
dell’Istituto Italiano degli Attuari, 4.
[3] Doob, J.L., (1949) Heuristic approach to the Kolmogorov-Smirnov theorems, The Annals
of Mathematical Statistics, 20, 393-403.
[4] Feller, W., (1948) On the Kolmogorov-Smirnov limit theorems for empirical distributions,
Annals of Mathematical Statistics, 19, 177-189.
[5] Glivenko, V.I., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale
dell’Istituto Italiano degli Attuari, 4, 92-99.
[6] Kolmogorov, A., (1933) Sulla determinazione empirica di una legge di distribuzione,
Giornale dell’Istituto Italiano degli Attuari, 4, 83-91.
[7] Massey, F.J., (1951) The Kolmogorov-Smirnov test for goodness of fit, Journal of the
American Statistical Association, 46, 68-78.
[8] Miller, L.H., (1956) Table of percentage points of Kolmogorov statistics, Journal of the
American Statistical Association, 51, 111-121.
[9] Salce, L., Lezioni sulle Matrici, 1993, Zanichelli-Decibel, Bologna.
[10] Smirnov, N., (1939) Sur les ecarts de la courbe de distribution empirique, Recueil
Mathématique, 6, 3-26.
[11] Smirnov, N., (1948) Table for estimating the goodness of fit of empirical distributions,
The Annals of Mathematical Statistics, 19, 279-281.
16