Temi d`esame di STATISTICA dell`AA 2003/2004 per allievi ING INF

Transcript

Temi d`esame di STATISTICA dell`AA 2003/2004 per allievi ING INF
Temi d’esame di STATISTICA dell’AA 2003/2004
per allievi ING INF [2L]. Proff. A. Barchielli, I. Epifani
1
STATISTICA per ING INF [2L]
Proff. A. Barchielli, I. Epifani
29.06.04
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Nello svolgere gli esercizi fornire passaggi e spiegazioni: non bastano i risultati finali.
Esercizio 1.1 Un informatico smemorato ha scritto un codice per la generazione di numeri casuali dalla densità
continua
(
θ(θ + 1)xθ−1 (1 − x) x ∈ (0, 1)
f (x, θ) =
,
θ>0
0
altrove
ma non ricorda se il valore di θ sia 1 o 10. Pigro come pochi, genera un solo numero casuale x1 e vi chiede di
aiutarlo a decidere fra l’ipotesi nulla H0 : θ = 1 e l’ipotesi alternativa H1 : θ = 10.
1. Costruite un test uniformemente più potente di livello α per il precedente problema di ipotesi, sulla base di
una sola osservazione x1 . Fornite esplicitamente la regione critica del test.
2. Se α = 2.5% e x1 = 0.88 cosa deciderà l’informatico sulla base del test costruito al punto 1.?
3. Sia α = 2.5%. Calcolate la probabilità di errore di secondo tipo (β) del test costruito al punto 1.
Soluzione
1. Dal Lemma di Neyman Pearson:
1 · 2 · x1−1
(1 − x1 )
L1 (x1 )
1
≤ δ = x1 ∈ (0, 1) :
≤δ
G = x1 ∈ (0, 1) :
L10 (x1 )
10 · 11 · x10−1
(1 − x1 )
1
(
)
1/9
√
1
1
9
= x1 ∈ (0, 1) : x1 ≥
= {x1 ∈ (0, 1) : x1 ≥ 1 − α}
= x1 ∈ (0, 1) : x1 ≥
55δ
55δ
poiché δ è tale che
P1 (G) = P1
X1 ≥
1
55δ
1/9 !
Z
1
Z
1
1
)1/9
( 55δ
2(1 − x) dx =
f (x, 1) dx =
=
1
)1/9
( 55δ
1−
1 1/9 2
=α
55δ
√
In definitiva: rifiuto H0 a livello α ∈ (0, 1) sepx1 ≥ 1 − α.
2. Con α = 2.5%, rifiuto H0 se x1 ≥ 1 − √
2.5/100 ' 0.8419: poiché x
1 = 0.88 > 0.8419 rifiuto H0 .
R 1− α
R 1−√α
√
√
c
9
3. β√= P10 (G ) = √
P10 (X1 < 1 −√ α) = 0
110x (1 − x) dx = 0
110(x9 − x10 ) dx = 11(1 − α)10 −
10(1 − α)11 = (1 − α)10 (1 + 10 α) ' 0.4617
1
Esercizio 1.2 Sia X1 , . . . , Xn un campione casuale estratto della funzione di densità discreta
( −θ2 2x
e
θ
x = 0, 1, . . .
x!
θ∈R
p(x, θ) =
0
altrove
1. Determinate uno stimatore della caratteristica κ(θ) = θ2 usando il metodo dei momenti.
Sia κ
b lo stimatore individuato al punto 1.
2. Verificate se κ
b è stimatore non distorto per κ(θ). Giustificate rigorosamente la risposta.
3. Calcolate la funzione di verosimiglianza del campione: Lθ (x1 , . . . , xn ) e
∂ log Lθ (x1 ,...,xn )
.
∂θ
4. Verificate se la varianza di κ
b raggiunge il confine di Cramer-Rao.
Soluzione
1. p(x, θ) è una densità di Poisson di parametro θ2 . κ(θ) = θ2 è la media di questa densità e quindi κ
b = X̄.
2. κ
b è stimatore non distorto per θ2 in quanto: Eθ (b
κ) = Eθ (X̄) = Eθ (X1 ) = θ2 = κ(θ) ∀θ ∈ R.
n
2
2
n
Y
e−θ θ2xj
e−nθ θ2 j=1 xj
Qn
=
Lθ (x1 , . . . , xn ) =
xj !
j=1 xj !
j=1
P
3.
2
∂ log(e−nθ θ2
∂ log Lθ (x1 , . . . , xn )
=
∂θ
∂θ
Pn
j=1
xj
)
Pn
= −2nθ + 2
j=1
θ
xj
=
2n
(x̄ − θ2 )
θ
(x1 ,...,xn )
4. Osserviamo che κ
b è stimatore non distorto per κ(θ). Inoltre, deduciamo dal punto 3. che ∂ log Lθ ∂θ
=
2n
2n
2n
2
(x̄
−
θ
)
=
(b
κ
−
κ(θ))
per
ogni
realizzazione
campionaria
(x
,
.
.
.
,
x
).
Pertanto,
scelta
a(θ,
n)
=
1
n
θ
θ
θ ,
abbiamo:
∂ log Lθ (X1 , . . . , Xn )
= a(θ, n)(b
κ − κ(θ)) = 1
Pθ
∂θ
Ma l’ultima è condizione necessaria e sufficiente affinché Var(b
κ) =
del modello.
Oppure:
[κ0 (θ)]2
nI(θ)
dove I(θ) = Informazione di Fisher
θ2
Varθ (X1 )
=
Varθ (b
κ) = Varθ (X̄) =
n
n
2
2n
4n2
nI(θ) = Eθ
(X̄ − θ2 ) = 2 Varθ (X̄) = 4n
θ
θ
[κ(θ)0 ]2 = [2θ]2 = 4θ2
Confine di Cramer Rao =
θ2
[κ(θ)0 ]2
=
= Varθ (κ̂)
nI(θ)
n
2
Esercizio 1.3 Si pensa che il numero X degli arrivi giornalieri in una piccola località di montagna dal 16
giugno al 15 settembre possa essere modellata come una variabile aleatoria discreta con densità:
(
0.3 · 0.7k k = 0, 1, 2, . . .
pX (k =
0
altrove
1. Verificate questa ipotesi sulla base del numero di arrivi (giornalieri e indipendenti) registrati dal 16 giugno
al 15 settembre 2003 (92 giorni) e sintetizzati nella seguente tabella:
# di arrivi giornalieri k =
# di giorni con k arrivi =
0
24
1
15
2
19
3
12
4
10
5
2
6 o più
10
Soluzione Sia θ0k := P (“k arrivi in un giorno”) = 0.3 · 0.7k , k = 0, 1, . . .. Allora:
k=
# di giorni con k arrivi=
θ0k =
92 ∗ θ0k =
0
24
0.3
27.6
1
15
0.21
19.32
2
19
0.147
13.524
3
12
0.1029
9.4668
4
10
0.07203
6.62676
5
2
0.050421
4.638732
6 o più
10
0.117649
10.82371
Accorpiamo le modalità 4 e 5 in una unica classe in quanto 92 ∗ θ05 < 5 e l’approssimazione asintotica χ2
con le 7 classi date nel testo non funziona. Chiamiamo Ak le nuove classi e sia Nk = # di giorni caratterizzati
da un numero di arrivi ∈ Ak . Per le nuove classi abbiamo:
Ak
Nk
θ0k
92 ∗ θ0k
=
=
=
=
{0}
24
0.3
27.6
{1}
15
0.21
19.32
{2}
19
0.147
13.524
Q92 =
{4, 5}
10+2 =12
0.07203 + 0.050421
6.62676 +4.638732
=11.26549
6
X
(Nk − 92 · θ0k )2
k=1
Approssimativamente Q92 ∼
{3}
12
0.1029
9.4668
92 · θ0k
=
6
X
k=1
{6, 7, . . .}
10
0.117649
10.82371
Nk2
− 92 = 4.4412
92 · θ0k
χ25
e il p-value è pari a P (Q92 > 4.4412) = 1 − Fχ25 (4.4412) ' 1 − 0.5122 = 0.4878:
(
0.3 · 0.7k k = 0, 1, 2, . . .
c’è una forte evidenza ad accettare l’ipotesi pX (x) =
0
altrove
Esercizio 1.4 Una compagnia di assicurazioni deve eseguire uno studio per stimare gli indennizzi pagati a
seguito di incidenti automobilistici senza lesioni alle persone. Da studi precedenti è emerso che si può assumere
che tali importi abbiano densità gaussiana con media µ incognita e deviazione standard nota e pari a 900 euro.
Su un nuovo campione casuale di 100 incidenti del suddetto tipo è stato osservato un indennizzo medio pari a
5562 euro.
1. Determinate un intervallo di confidenza di livello 94% per il parametro µ.
2. Verificate l’ipotesi H0 : µ = 5500 contro H1 : µ 6= 5500 al livello α = 6%.
3. In realtà la compagnia assicurativa ritiene che l’intervallo di confidenza costruito al punto 1. non sia sufficientemente preciso. Decide quindi di condurre uno studio più vasto, cioè su un campione più numeroso.
Determinate il numero minimo di casi da esaminare affinchè la lunghezza dell’intervallo di confidenza per
µ non superi i 300 euro.
Soluzione
1. x̄ ∓ z(1+γ)/2 √σn = 5562 ∓ z0.97 √900
' 5562 ∓ 1.88 √900
= (5392.72, 5731.27).
100
100
2. 5500 ∈ (5392.72, 5731.27). Quindi a livello 6% accetto H0
√
2
√ z0.97 ≤ 300 se e solo se
n ≥ 2 900
3. L = 2 √σn z 1+γ = 2 900
300 z0.97 ' 11.285 se e solo se n ≥ 11.285 ' 127.3512.
n
2
∗
Segue che il numero minimo di casi da esaminare è n = 128.
3
Esercizio 1.5 (Sezione Epifani) Si consideri la sequenza di numeri:
0.1421, 0.0519, 0.1049, 0.8168, 0.1921, 0.1019, 0.1549, 0.8668, 0.0521, −0.0380, 0.0149, 0.7268
Impostare un opportuno test per decidere, a livello di significatività α = 10%, se tale sequenza provenga da un
campione casuale.
Soluzione Contiamo il numero di concordanze e discordanze nel campione dato:
i
0.1421
0.0519
0.1049
0.8168
0.1921
0.1019
0.1549
0.8668
0.0521
− 0.0380
0.0149
0.7268
C −D =
+5−6
+8−2
+5−4
+1−7
+2−5
+3−3
+2−3
+0−4
+1−2
+2−0
+1−0
30 − 36 = −6 = T
Impostiamo quindi un test di aleatorietà di Kendall a livello α = 10% per l’ipotesi H0 : X1 , . . . , Xn iid ∼
F . Sia qC−D (p) il quantile di ordine p della stastistica T = C − D. Per n = 12, qC−D (1 − 0.1) = 18 e
qC−D (1 − 0.1/2) = qC−D (0.95) = 24. Essendo T = −6, allora sia T > −18 sia |T | < 24. Quindi NON rifiutiamo
l’ipotesi H0 di dati indipendenti a livello α = 10% sia contro l’alternativa unilatera: H1 :“c’è trend negativo”,
sia contro l’alternativa bilatera: H1 : “i dati non sono indipendenti”.
Esercizio 1.6 (Sezione Barchielli) Si vuole stabilire se il numero X di ore di lavoro sia collegato al numero
Y di sigarette fumate durante l’orario di lavoro. A questo scopo si estrae un campione casuale da (X, Y )
ottenendo:
(8.2, 3),
(10, 4),
(10.5, 7),
(8, 5),
(9.5, 6)
Effettuare un opportuno test di livello 5% per verificare se si possa ritenere che all’aumentare del numero di ore
lavorate aumenti anche il numero di sigarette.
Soluzione Introduciamo il test di concordanza/discordanza di Kendall per il seguente problema:
H0 : τ = 0 vs H1 : τ > 0
Per eseguire il test è necessario calcolare il numero di concordanze e discordanze. A questo scopo riordiniamo
le coppie per valori di X crescenti:
(8, 5),
(8.2, 3),
(9.5, 6),
(10, 4),
(10.5, 7)
Costruiamo ora la tabella delle concordanze/discordanze:
segno[y[j] − y[1] ]j>1
segno[y[j] − y[2] ]j>2
segno[y[j] − y[3] ]j>3
segno[y[j] − y[4] ]j>4
-1
+1
+1
-1
+1
-1
+1
+1
+1
+1
Dalla tabella risulta C = 7 e D = 3, dunque C − D = 4. La regione critica del test è costituita dai campioni per
cui C − D > q0.95 (C − D), dove q0.95 (C − D) = 6 rappresenta il quantile di ordine 0.95 della statistica C − D.
Concludiamo che non vi è evidenza statistica per rifiutare l’ipotesi nulla, quindi non possiamo affermare che vi
sia una concordanza tra ore lavorate e sigarette fumate.
4
2
STATISTICA per ING INF [2L]
Proff. A. Barchielli, I. Epifani
15.07.04
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Nello svolgere gli esercizi fornire passaggi e spiegazioni: non bastano i risultati finali.
Esercizio 2.1 La ditta Baltic Sea produce macchine per l’inscatolamento di caviale. A causa delle fluttuazioni
casuali la quantità di caviale dosata dalla macchine è una variabile aleatoria X gaussiana con media nota µ = 30
grammi e varianza incognita σ 2 . Prima di procedere all’acquisto di una di queste macchine controllo le quantità
xi (misurate in grammi) di caviale contenute in un campione casuale di 100 scatolette ottenendo:
100
X
100
X
xi = 3006
i=1
x2i = 90711
i=1
Inoltre, sono disposto a commettere un errore di prima specie di probabilità al più pari ad α di acquistare
una macchina che abbia un’imprecisione (=deviazione standard di X) effettiva maggiore o uguale di 2 grammi.
1. Fornite una stima puntuale della varianza σ 2 .
2. Impostate un opportuno test sulla varianza, specificando: ipotesi nulla, ipotesi alternativa e una regione
critica di ampiezza α.
3. Quale decisione prendete a livello α = 2.5%?
Soluzione
100
2
1. Essendo la media nota, stimo σ con
S02
1 X
(Xi − 30)2 che ha valore s20 =
=
100 i=1
P100
j=1
100
x2j
+ 302 − 2 ∗
P100
xj
= 3.51
100
2. Deduciamo dal testo di dover impostare un test di verifica dell’ipotesi nulla H0 : σ 2 ≥ 4 contro l’alternativa
H1 : σ 2 < 4, nel caso di un campione casualeestratto dalla popolazione N (30, σ 2 ). Una regione critica è
100 ∗ s20
G = (x1 , . . . , x100 ) ∈ R100 :
≤ χ2100 (α)
4
2
= 87.75 e il p-value è P (χ2100 < 87.75). Asintoticamente
χ2100 ha fdr
3. Il valore della statistica è 100∗s
4
30
j=1
√
gaussiana di media 100 e varianza 200 e quindi, approssimativamente, p-value' Φ 87.75−100
200
1 − Φ (0.866) ' 0.193. Essendo 2.5% < 19.3%, (purtroppo) accetto H0 a livello 2.5%.
5
= Φ (−0.866) =
Esercizio 2.2 Il tempo di esecuzione del programma xxx sul calcolatore yyy è compreso fra 60 e 120 minuti
primi. Idealmente, esso può essere modellato come una va X assolutamente continua con densità
(
θ
θ−1
60 ≤ x ≤ 120
θ (x − 60)
f (x, θ) = 60
0
altrove
e θ > 0.
1. Determinate in funzione di θ la caratteristica κ(θ) = “Probabilità che il calcolatore impieghi più di 90
minuti per eseguire il programma”.
Su ciascuno di n calcolatori tutti del tipo yyy (e che lavorano indipendentemente uno dall’altro) lanciamo il
programma xxx e, allo scadere dei 90 minuti, controlliamo se il programma è stato eseguito o no. Sia Yi la va
che vale 1 se il programma lanciato sull’i-esimo calcolatore è eseguito (nei 90 minuti) e vale 0 se non lo è, per
i = 1, . . . , n.
2. Quanto vale Pθ (Yi = 1), i = 1, . . . , n?
3. Verificate che κ
b = 1 − Ȳ è lo stimatore di massima verosimiglianza di κ(θ) basato sul campione casuale
Y1 , . . . , Yn .
4. (a) Verificate se κ
b è stimatore non distorto e consistente in media quadratica per κ(θ) e (b) determinate
la funzione di ripartizione asintotica di κ
b. Giustificate adeguatamente le risposte.
5. Alla luce di quanto ottenuto ai punti 1., 2. e 3., come stimereste θ sapendo soltanto che su n = 15
programmi lanciati 10 non sono stati eseguiti nei primi 90 minuti?
Soluzione
R 120
R 120
θ
θ
|120
1. κ(θ) = Pθ (X > 90) = 90 f (x, θ) dx = 90 60θθ (x − 60)θ−1 dx = (x−60)
90 = 1 − 0.5 .
60θ
2. Sia Xi la va che modella il tempo di esecuzione del programma xxx lanciato sull’i-esimo calcolatore del
tipo yyy. Allora Xi ∼ f (x, θ) e
Pθ (Yi = 1) = Pθ (“i-esimo programma è eseguito in 90 minuti”) = Pθ (Xi ≤ 90) = 1 − κ(θ) = 0.5θ .
3. Y1 , . . . , Yn i.i.d. ∼ Be(1 − κ(θ)) e 0 < 1 − κ(θ) = 0.5θ < 1, ∀θ > 0. Chiamiamo κ = κ(θ) e studiamo la
funzione di verosimiglianza del campione Y1 , . . . , Yn in corrispondenza della realizzazione y1 , . . . , yn in funzione
di κ
Lκ (y1 , . . . , yn ) =
n
Y
(1 − κ)yi κ(1−yi ) = (1 − κ)nȳ κ(n−nȳ)
κ ∈ (0, 1)
i=1
∂ log(Lκ (y1 , . . . , yn ))
∂[nȳ log(1 − κ) + n(1 − ȳ) log(κ)]
n(1 − ȳ) − nκ
=
=
≥0
∂κ
∂κ
κ(1 − κ)
se e solo se κ ≤ (1 − ȳ) cosicché κ
b = 1 − Ȳ è MLE per κ. Esso esiste sempre a meno che non si verifichino i due
casi estremi: tutte n le volte il programma è stato eseguito in meno di 90 minuti e quindi ȳ = 1 o tutte n le
volte è stato eseguito in più di 90 minuti e quindi ȳ = 0. Infatti 0,1 non appartengono allo spazio in cui varia
0.5θ , poichéPθ > 0.
n
(1−Y )
4. κ
b = i=1n i è la media campionaria delle variabili 1 − Y1 , . . . , 1 − Yn che hanno media Eθ (1 − Y1 ) =
Pθ (Y1 = 0) = κ(θ) e varianza Varθ (Y1 ) = Pθ (Y1 = 0)(1 − Pθ (Y1 = 0)) = κ(θ)(1 − κ(θ)) ∈ (0, ∞). Quindi:
Eθ (b
κ) = Eθ (1 − Yi ) = κ(θ) ∀θ > 0 e κ
b è stimatore non distorto di κ(θ); inoltre: Varθ (b
κ) = κ(θ)(1 − κ(θ))/n → 0
per n → ∞, ∀θ > 0: κ
b è stimatore consistente in media quadratica per κ(θ). Infine, applicando il Teorema
Centrale del Limite deduciamo la gaussianità asintotica di κ
b nel senso che
!
√
κ
b − κ(θ)
lim P
np
≤ z = Φ(z)
∀z ∈ R
n→∞
κ(θ)(1 − κ(θ))
log(1 − κ)
= log0.5 (1 − κ). Quindi
log(1/2)
è θ̂ = log0.5 (1/3) ' 1.585.
5. κ
b = 10/15 = 2/3 e θ in termini del parametro κ := Pκ (X > 90) è θ =
lo stimatore MLE di θ sulla base del campione Y1 , . . . , Y15
6
Esercizio 2.3 Le richieste di interventi che arrivano al pronto soccorso di una certa località balneare sono
indipendenti. Si pensa che mediamente ci sia una richiesta ogni 3 ore e che il tempo (misurato in ore) intercorrente fra due richieste successive sia una va assolutamente continua con densità esponenziale. Per verificare
quest’ipotesi statistica sono stati analizzati i tabulati delle richieste di intervento di domenica 11 luglio 2004. A
partire da mezzanotte, sono arrivate in totale 6 richieste alle seguenti ore:
04 : 06 : 00, 06 : 00 : 00, 07 : 52 : 00, 13 : 19 : 00, 22 : 31 : 00, 22 : 46 : 00
1.1 Calcolate il tempo (espresso in ore) trascorso da mezzanotte (00:00:00 del 11/07/04) fino alla prima
richiesta e gli altri cinque “intertempi” fra due richieste successive.
1.2 Sia F0 la funzione di ripartizione di una va X assolutamente continua con densità esponenziale di media
3. Calcolate: F0 (0.25), F0 (1.87), F0 (1.90), F0 (4.10), F0 (5.45), F0 (9.20).
2 Usando il campione degli intertempi ottenuto al punto 1.1 e quanto calcolato al punto 1.2, verificate il
modello esponenziale dell’intertempo descritto prima, mediante un opportuno test di ipotesi di livello
α = 5%.
Soluzione
1.1
In minuti: 246, 114 ,112, 327, 552 , 15 =
in ore: 246/60, 114/60, 112/60, 327/60, 552/60 , 15/60 = 4.1, 1.9, 1.87, 5.45, 9.2, 0.25.
1.2. Se x > 0: F0 (x) = 1 − e−x/3 e quindi
F0 (0.25)
0.07995559
F0 (1.87)
0.4638457
F0 (1.90)
0.46918055
F0 (4.1)
0.74504460
F0 (5.45)
0.83743326
F0 (9.20)
0.95342385
2. Impostiamo il test di Kolmogorov-Smirnov di livello α = 5% per verificare: H0 : X ∼ F0 = Exp(3) contro
l’alternativa H1 : X 6∼ F0 :
D6 := sup |F̂6 (x) − F (x)| = F0 (1.87) − F̂6 (0.25) = 0.4638437 − 1/6 ' 0.2972
x∈R
dove F̂6 = fdr empirica del campione 4.1, 1.9, 1.87, 5.45, 9.2, 0.25. Dalle tavole dei quantili della statistica di
Kolmogorov-Smirnov con n = 6, abbiamo che qD6 (1 − 0.05) ' 0.5193. Essendo 0.2972 < 0.5193 accetto H0 .
Con R:
ks.test(c(4.10, 1.90, 1.87, 5.45, 9.20, 0.25), pgamma, 1,1/3)
One-sample Kolmogorov-Smirnov test
data: c(4.1, 1.9, 1.87, 5.45, 9.2, 0.25)
D = 0.2972, p-value = 0.6644
alternative hypothesis: two.sided
7
Esercizio 2.4 I dati disponibili sul sito del Ministero dell’Istruzione, dell’Università e della Ricerca rivelano
che nell’anno solare 2002, i laureati e diplomati presso le facoltà di ingegneria del Politecnico di Milano sono
stati 3502 di cui 2967 uomini. Fra le donne, 176 erano fuori corso da un anno, 72 da due anni e 61 da tre anni.
Invece, fra gli uomini, i fuori corso da un anno erano 733, quelli da due anni 531 e quelli da tre anni 279. Tutti
gli altri erano fuori corso da quattro anni o più; nel 2002 non ci sono stati laureati in corso. Verificate sulla
base di questi dati se uomini e donne impiegano (più o meno) lo stesso tempo per laurearsi in ingegneria.
Soluzione Organizziamo i dati forniti dal testo nella seguente tabella a doppia entrata:
M
D
fc da 1 anno
733
176
fc da 2 anni
531
72
fc da 3 anni
279
61
fc da 4 anni o più
2967
3502
Completiamo la tabella con i dati mancanti: (X = sesso e Y = numero degli anni fuori corso al momento
della laurea)
X \Y
M
D
NY =
fc da 1 anno
NM 1 = 733
ND1 =176
909
fc da 2 anni
NM 2 = 531
ND2 =72
603
fc da 3 anni
NM 3 = 279
ND3 =61
340
fc da 4 anni o più
NM 4 =1424
ND4 =226
1650
NX =
2967
535
N =3502
Impostiamo un test χ2 di indipendenza fra le variabili categoriche X = sesso e Y =numero di anni fuori
corso al momento della laurea. La statistica di Pearson Q ha valore:
Q=N
4
X
j=1
4
2
2
X
NM
NDj
j
+N
− N ' 21.953
NXM ∗ NY j
NXD ∗ NY j
j=1
Asintoticamente Q ∼ χ2(2−1)(4−1) = χ23 e P (χ23 > 21.953) ' 6.681253 ∗ 10−5 ' 0: c’è una forte evidenza
a rifiutare l’ipotesi H0 : “X, Y sono indipendenti”, ossia concludo che c’è dipendenza fra sesso e numero
degli anni fuori corso. Avendo a disposizione soltanto la tavola del Pestman dei quantili della χ23 , osservo che
χ3 (0.995) = 12.8 < 21.953, quindi per qualunque livello α ≥ 1 − 0.995 = 0.005 rifiuto H0 .
Curiosità: nel 2002 il 32.89% delle donne si sono laureate soltanto un anno fuori corso mentre questa
percentuale scende a 24.7% per gli uomini.
8
Esercizio 2.5 Un laboratorio informatico ha elaborato un nuovo protocollo Pnew per la trasmissione di dati.
Per confrontare Pnew con il vecchio protocollo Pold si procede a inviare un certo file per 7 volte da un server
ad un altro usando il protocollo Pnew e 6 volte usando il protocollo Pold e si misurano i tempi (in secondi)
intercorrenti tra l’invio e la ricezione. I risultati ottenuti per Pnew sono:
xi :
1.49,
1.50,
1.96,
2.33,
1.45,
1.71,
2.83
e quelli per Pold sono
yi :
1.85,
3.47,
4.44,
1.75,
2.16,
3.93
Vi si chiede ora di usare questi dati al fine di stabilire se il nuovo protocollo Pnew sia migliore del vecchio
Pold dove, in modo naturale, un protocollo è ritenuto “migliore” di un altro se trasferisce i dati in meno tempo.
Quindi:
ˆ Costruite una opportuna strategia statistica (che usi i dati precedenti) per affrontare il problema ipotetico
del confronto fra i protocolli PA e PB . In particolare abbiate cura di specificare a) le ipotesi statistiche
da verificare, b) le regioni critiche e, se necessario, c) le condizioni che il modello statistico generatore
dei dati deve soddisfare perché la vostra procedura trovi ragionevoli giustificazioni nella teoria dei test
(parametrici e/o non parametrici) vista durante il corso.
Soluzione Al laboratorio informatico che ha proposto il nuovo protocollo, piacerebbe dimostrare in modo
convincente l’ipotesi che Pnew sia migliore di Pold . Motivati da ciò, procederemo a verificare il seguente problema:
H0 : “Pnew è non migliore di Pold ” contro H1 : “Pnew è migliore di Pold ”; in questo modo, l’eventuale accettazione
di H1 sarebbe una conclusione forte.
2
Sol 1: Mi pongo sotto l’ipotesi che (x1 , . . . , x7 ) = realizzazione di X = X1 , . . . , X7 i.i.d. ∼ N (µX , σX
),
2
(y1 , . . . , y6 ) = realizzazione di Y = Y1 , . . . , Y6 i.i.d. ∼ N (µY , σY ) e X, Y indipendenti. Quindi imposto un
2
2
6= σY2 di livello
= σY2 versus H1 : σX
F -test per il confronto di varianze di due popolazioni gaussiane H0 : σX
α = 5%:
x̄ = 1.895714 ȳ = 2.93
2
SX
= 0.2699952 SY2 = 1.344667
2
SX
= 0.2007897
SY2
F6,5 (0.975) = 6.98 F6,5 (2.5/100) = 1/F5,6 (0.975) = 1/5.99 ' 0.167 e 0.200787 ∈ (0.167, 6.98)
⇒ accetto l’ipotesi nulla di varianze uguali.
Imposto ora un test t per dati indipendenti e gaussiani per confrontare le medie, tenendo presente che a
parità di variabilità, le ipotesi H0 , H1 si traducono nel seguente modo: H0 : µX ≥ µY versus H1 : µX < µY :
x̄ − ȳ
p
= −2.1415; gradi di libertà della t = 7 + 6 − 2 = 11 e −t11 (1 − 5/100) '
Sp2 = 0.7584823,
sp 1/7 + 1/6
−1.7958 > −2.0245 : Accetto l’ipotesi H1 che Pnew sia migliore di Pold .
Sol. 2 Mi pongo sotto l’ipotesi che X = X1 , . . . , X7 i.i.d. ∼ F , Y = Y1 , . . . , Y6 i.i.d. ∼ G con X, Y
indipendenti e F e G assolutamente continue. Traduco H0 , H1 in termini di dominanza stocastica nel seguente
modo: H0 : F ≤ G versus H1 : F > G ed imposto il corrispondente test unilatero non parametrico di
Wilcoxon-Mann-Wintney: Ordino dalla più piccola alla più grande le osservazioni del campione riunito:
1.45x, 1.49x, 1.50x, 1.71x, 1.75y, 1.85y, 1.96x, 2.16y, 2.33x, 2.83x, 3.47y, 3.93y, 4.44y
e calcolo la statistica di Mann-Witney U = “somma dei ranghi di X” −7 ∗ 8/2 = 36 − 7 ∗ 8/2 = 8. Il quantile
di U corrispondente a m = 7 e n = 6 di ordine 5% è qU (5%) = 9: Poiché 8 < 9, sono nella regione critica ed
accetto H1 a livello 5%.
9
3
STATISTICA per ING INF [2L]
Proff. A. Barchielli, I. Epifani
16.09.04
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Nello svolgere gli esercizi fornire passaggi e spiegazioni: non bastano i risultati finali.
Esercizio 3.1 Il reddito annuale (in opportune unità) X di un individuo di una certa popolazione è una
variabile aleatoria assolutamente continua con densità di probabilità
f (x, ϑ) =
ϑ
1(1,+∞) (x) ϑ > 0
xϑ+1
Ci proponiamo di trovare una stima intervallare di ϑ, sulla base di un campione casuale X1 , X2 , . . . , Xn di X.
1. Determinate la densità di probabilità della variabile aleatoria Y := 2ϑ ln X. Vi riconoscete una “densità
notevole”?
2. Determinate lo stimatore di massima verosimiglianza Tn di κ(ϑ) = 1/ϑ.
3. Come è distribuita la variabile aleatoria Qn := 2nϑTn ?
4. Sia α = 0.1 e n = 10. Trovate (in modo semplice) due numeri q1 e q2 tali che Pϑ [q1 ≤ Qn ≤ q2 ] = 1 − α.
Quali tabelle sono necessarie per ottenere q1 e q2 ?
5. Fornite un intervallo di confidenza per ϑ, di livello 90% per n = 10 e T10 = 22.0.
Soluzione
1. Poiché X ≥ 1, allora Y = 2ϑ ln X ≥ 0 e, per y ≥ 0:
FY,ϑ (y) := Pϑ (Y ≤ y) = Pϑ
y
y Z exp( 2ϑ
) ϑ
=
dx
X ≤ exp
2ϑ
xϑ+1
1
da cui segue che la densità di Y è
fY,θ (y) = 1(0,+∞) (y)
y y
1
1
1
exp
ϑ
= 1(0,+∞) (y) exp −
ϑ+1
y
2ϑ
2ϑ
2
2
exp 2ϑ
cioè Y ∼ E(2) = Γ (2/2, 2) = χ22
Pn
Pn
∂
2. ln Lϑ (x1 , . . . , xn ) = n ln ϑ−(ϑ+1) i=1 ln xi e ∂ϑ
ln Lϑ = nϑ − i=1 ln xi = 0 se e solo se ϑ = Pn n ln xi .
i=1
Pn
∂2
n
1
Inoltre: ∂ϑ
ln
X
.
2 ln Lϑ = − ϑ2 < 0 ∀ϑ e quindi: Tn = n
i
i=1
Pn
Pn
3. Qn = 2ϑ i=1 ln Xi = i=1 Yi con Y1 , . . . , Yn i.i.d. ∼ χ22 per quanto stabilito al punto 1.. Segue che
Qn ∼ χ22n .
4. Scelta “a code simmetriche”: q1 = χ22n (α/2) = χ220 (0.05) ' 10.9, q2 = χ22n (1 − α/2) = χ220 (0.95) ' 31.4 .
(Abbiamo usato la tabella della n
fdr χ22n ).
o
q2
q1
≤
ϑ
≤
, allora
5. Poiché {q1 ≤ Qn ≤ q2 } = 2nT
2nT
n
n
χ22n (α/2)
χ2 (1 − α/2)
< ϑ < 2n
=1−α
2nTn
2nTn
10.9
31.4
e, l’intervallo di confidenza cercato è
,
' (0.025, 0.071)
20 × 22 20 × 22
Pϑ
10
Esercizio 3.2 Vogliamo fare inferenza sulla proporzione ϑ degli individui di tipo A presenti in una certa
popolazione. Perciò procediamo con il seguente esperimento: effettuiamo n estrazioni casuali con reimmissione
da questa popolazione e registriamo il numero di individui di tipo A ottenuti nelle n estrazioni. Sia Xn la
variabile aleatoria definita da “numero di individui di tipo A ottenuti nelle n estrazioni”.
1. Qual è la densità, la media e la varianza di Xn ?
In particolare, siamo interessati a verificare l’ipotesi H0 : ϑ = ϑ0 contro H1 : ϑ = ϑ1 con ϑ0 < ϑ1 (ϑ0 , ϑ1 ∈
(0, 1)).
2. Verificate che la regione
critica per il test determinato dal lemma di Neyman-Pearson e basato su Xn
abbia la forma: G = Xnn ≥ t .
Fissiamo ora i seguenti valori: ϑ0 = 0.5, ϑ1 = 0.7 e α = 5%.
Xn
3. Se n = 30, qual è approssimativamente la funzione di ripartizione di
sotto H0 ? E sotto H1 ?
n
4. Assumete n = 30 e determinate t tale che “approssimativamente” la regione critica G abbia ampiezza
5%. Se Xn = 18, che decisione prendete?
5. Assumete n = 30 e calcolate “approssimativamente” la probabilità d’errore di seconda specie β.
Soluzione
1. Xn ∼ Bin(n, ϑ) e quindi E(Xn ) = nϑ e Var(Xn ) = nϑ(1 − ϑ).
2. La funzione di verosimiglianza basata sull’unica osservazione Xn è:nLϑ (x) = nx ϑx (1 − ϑ)n−x
o, ϑ ∈ (0, 1) e
L0 (x)
la regione critica dettata dal Lemma di Neyman Pearson ha forma: G = x = 0, . . . , n : L1 (x) ≤ δ . Il rapporto
di verosimiglianza
L0 (x)
L1 (x)
è
L0 (x)
=
L1 (x)
n x
xϑ0 (1
n x
x ϑ1 (1
− ϑ0 )n−x
=
− ϑ1 )n−x
ϑ0
ϑ1
n·x/n 1 − ϑ0
1 − ϑ1
n(1−x/n)
n(1−y)
ny
1−ϑ0
Sia y := x/n. Poiché supponiamo ϑ0 < ϑ1 le funzioni y 7→ ϑϑ10
e y 7→ 1−ϑ
sono entrambe
1
decrescenti in y = x/n e quindi L0 /L1 , in quanto prodotto di due funzioni decrescenti, è descrescente anche
0 (x)
esso. Segue che L
L1 (x) ≤ δ se e solo se x/n ≥ t, con un opportuno t funzione di δ. Invece di usare il ragionamento
qui svolto, basato sulla monotonia, si può prendere ln L0 /L1 e “lavorare” su quest’ultimo.
1
3. Se ϑ = 0.5 allora 30 × 0.5 = 15 > 5: è ragionevole approssimare la fdr di X3030 con la fdr N (0.5, 120
).
X30
Analogamente, se ϑ = 0.7 allora 30 × (1 − 0.7) = 9 > 5 e risulta ragionevole approssimare la fdr di 30 con la
fdr N (0.7, 0.007).
4. Imponendo Pϑ0 (G) ' α, otteniamo per t:
!
√
√
Xn
n(t − ϑ0 )
n(t − ϑ0 )
Pϑ0 (G) = Pϑ0
≥t '1−Φ p
= α se e solo se p
' Φ−1 (1 − α) =⇒
n
ϑ0 (1 − ϑ0 )
ϑ0 (1 − ϑ0 )
r
r
ϑ0 (1 − ϑ0 )
0.5 × 0.5
−1
t = ϑ0 + Φ (1 − α)
= 0.5 + Φ−1 (1 − 0.05)
' 0.5 + 0.1645 × 0.5 ' 0.65
n
30
Essendo: 18/30 = 0.6 < 0.65: NON possiamo
√ rifiutare
H 0 . q
q
n(t−ϑ
)
ϑ0 (1−ϑ0 )
X
n
1
−1
c
n
√
(1 − α) ϑ1 (1−ϑ1 ) =
5. β = Pϑ1 G = Pϑ1 n < t ' Φ
=Φ
ϑ1 (1−ϑ1 ) (ϑ0 − ϑ1 ) + Φ
ϑ1 (1−ϑ1 )
q
30
Φ
0.7×0.3 (0.65 − 0.7) ' Φ(−0.5976) ' 0.275
11
Esercizio 3.3 Due macchine A e B producono filo di rame, il cui diametro si è stabilito abbia un certo valore
(assegnato) µ0 . Per controllare la qualità del processo vengono ispezionati 10 fili prodotti dalla macchina A e 15
prodotti dalla macchina B e per ogni filo viene registrato l’errore nella lunghezza del diametro (errore=valore
misurato −µ0 ). Dalle misurazioni effettuate si ottiene: la somma dei quadrati degli errori nella lunghezza dei
diametri è 0.017 mm2 per i 10 fili prodotti dalla macchina A e 0.095 mm2 per i 15 prodotti dalla macchina B.
Assumendo che gli errori nella lunghezza del diametro siano variabili aleatorie indipendenti, gaussiane e a
media nota e uguale a zero:
2
1. fornite una stima puntuale della varianza σA
dell’errore nella lunghezza del diametro dei fili prodotti da
2
A e della varianza σB dell’errore nella lunghezza del diametro dei fili prodotti da B;
2. impostando un opportuno test di verifica di ipotesi di ampiezza α = 10%, potete ritenere che le due
macchine abbiano la stessa precisione?
Soluzione Indichiamo con Xj la lunghezza effettiva del diametro del j-esimo filo prodotto da A e con Yj la
lunghezza effettiva del diametro del j-esimo filo prodotto da B. Poiché per ipotesi gli errori hanno tutti media
nulla, allora E(Xj ) = E(Yj ) = µ0 ∀j, e
P10
P15
(Xj −µ0 )2
(Yj −µ0 )2
2
2
2
è uno stimatore non distorto per σA
e S0B
:= j=1 15
è uno stimatore non
1. S0A
:= j=1 10
2
2
distorto per σB . Sulla base dei dati a nostra disposizione: s0A = 0.017/10 = 0.0017 e s20A = 0.095/15 '
0.0063.
2. Impostiamo il problema di verifica di ipotesi
2
2
2
2
6= σB
versus H0 : σA
= σB
H0 : σ A
Fissato un livello di significatività α, una regione critica è
2
2
S0A
α
S0A
α
G=
2 > F10,15 (1 − 2 ) oppure S 2 < F10,15 ( 2 )
S0B
0B
dove Fm,n (γ) indica il quantile di ordine γ della fdr di Fisher con (m, n) gradi di libertà. Con α = 0.1
α
) = F10,15 (0.95) = 2.54
2
α
1
1
F10,15 ( ) =
' 0.3508
=
2
F15,10 (1 − α2 )
2.85
F10,15 (1 −
s2
Essendo s20A = 0.0017
0.0063 ' 0.2698 < 0.3508, rifiutiamo l’ipotesi nulla H0 : sulla base dei dati, con un livello
0B
di significatività del 10% accettiamo l’ipotesi alternativa che le due macchine abbiano precisione diversa.
12
Esercizio 3.4 Il tempo di esecuzione del programma xxx sul calcolatore yyy è compreso fra 60 e 120 minuti
primi. Vogliamo verificare se tale tempo possa essere modellato come una variabile aleatoria X assolutamente
continua con densità
1
f (x) =
(x − 60)1(60,120) (x)
1800
A tale fine, su ciascuno di 75 calcolatori tutti del tipo yyy e che lavorano indipendentemente uno dall’altro,
viene lanciato il programma xxx e si registrano i tempi di esecuzione. I risultati sperimentali ottenuti sono i
seguenti:
intervalli di tempo Ak
A1
A2
A3
A4
A5
A6
= (60, 75)
= [75, 80)
= [80, 95)
= [95, 105)
= [105, 110)
= [110, 120)
# di programmi il cui tempo
di esecuzione cade in Ak
6
8
20
17
10
14
Sulla base dei dati raccolti, verificate con un opportuno test se la densità f fornisce un buon modello
probabilistico per il tempo di esecuzione del programma xxx su un calcolatore del tipo yyy.
Soluzione Avendo a disposizione
solo dati raggruppati, effettuiamo un test χ2 di buon adattamento.
R
1
Sia θ0,k = P (X ∈ Ak ) = Ak 1800 (x − 60)1(60,120) (x) dx, per k = 1, . . . , 6. Allora
intervalli di tempo Ak
A1
A2
A3
A4
A5
A6
= (60, 75)
= [75, 80)
= [80, 95)
= [95, 105)
= [105, 110)
= [110, 120)
# di programmi il cui tempo
di esecuzione cade in Ak
6
8
20
17
10
14
θ0k
0.0625
0.0486
0.2292
0.2222
0.1320
0.3055
75θ0k
4.6875
3.6450
17.1900
16.6650
9.9000
22.9125
Accorpiamo le classi A1 ed A2 dal momento che 75θ01 < 5 e 75θ02 < 5 e l’approssimazione asintotica χ2 con le
6 classi non funziona.
Denotiamo con Bk le nuove classi. Abbiamo
intervalli di tempo Bk
B1
B2
B3
B4
B5
= (60, 80)
= [80, 95)
= [95, 105)
= [105, 110)
= [110, 120)
# di programmi il cui tempo
di esecuzione cade in Bk (= Nk )
14
20
17
10
14
θ0k
0.1111
0.2292
0.2222
0.1320
0.3055
75θ0k
8.3325
17.1900
16.6650
9.9000
22.9125
La statistica di Pearson è
Q75 =
5
X
(Nk − 75θ0k )2
k=1
75θ0k
=
5
X
Nk2
− 75 = 7.7887
75θ0k
k=1
Il p-value del test è pari a P (Q75 > 7.7887) = 1 − Fχ24 (7.7887) ' 0.09963 per cui, ad esempio, se si effettuasse un
test di livello α = 5% si accetterebbe l’ipotesi mentre se si effettuasse un test di livello α = 10% si rifiuterebbe.
13
Esercizio 3.5 Sette insegnanti partecipanti ad un corso di aggiornamento in storia contemporanea hanno
sostenuto la prova finale. Le età di questi insegnanti e i loro esiti nella prova (espressi in centesimi) sono i
seguenti:
24
68
Età
Risultato della prova
31
85
38
84
45
92
46
90
28
65
30
86
Secondo voi (e sulla base di questi dati), gli insegnanti più anziani sono “più bravi” di quelli più giovani?
Impostate un opportuno problema di verifica di ipotesi di livello α = 10%. La vostra risposta cambia per
α = 1%?
Soluzione Chiamiamo X la variabile aleatoria che indica l’età e Y quella che indica il risultato. Impostiamo
il test di concordanza di Kendall di livello α = 10% per il seguente problema:
H0 : τ = 0 (oppure H0 : τ ≤ 0) versus H1 : τ > 0
Per eseguire il test è necessario calcolare il numero di concordanze e discordanze. A questo scopo riordiniamo
le coppie per valori della variabile X crescenti:
X (Età)
Y (Risultato
segno[y[j] − y[1] ]j>1
segno[y[j] − y[2] ]j>2
segno[y[j] − y[3] ]j>3
segno[y[j] − y[4] ]j>4
segno[y[j] − y[5] ]j>5
segno[y[j] − y[6] ]j>6
24
68
28
65
−1
30
86
+1
+1
31
85
+1
+1
−1
38
84
+1
+1
−1
−1
45
92
+1
+1
+1
+1
+1
46
90
+1
+1
+1
+1
+1
−1
Dalla tabella risulta C = 16 e D = 5, dunque C − D = 11. La regione critica del test di livello α è costituita dai
campioni per cui C − D > q1−α (C − D), dove q1−α (C − D) rappresenta il quantile di ordine 1 − α della statistica
C − D per n = 7. Per α = 0.1 e n = 7: q(0.90) = 9. Avendo osservato C − D = 11 > 9, concludiamo che
a livello α = 10% propendiamo per l’ipotesi che gli insegnanti più vecchi siano più bravi di quelli più giovani.
Diminuendo α, il quantile q1−α (C − D) aumenta e quindi può succedere che per α < 10%, la decisione cambi.
Effettivamente, q1−0.01 (C − D) = 13 > 11 = C − D: a livello α = 1% accettiamo l’ipotesi H0 che l’età non
influisca sulla “bravura” degli insegnanti.
14
4
STATISTICA per ING INF [2L]
Proff. A. Barchielli, I. Epifani
15.02.05
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Nello svolgere gli esercizi fornire passaggi e spiegazioni: non bastano i risultati finali.
Esercizio 4.1 Sospettiamo che due dadi perfettamente identici siano stati entrambi truccati in modo tale che,
lanciandoli in coppia, la probabilità di ottenere come somma delle facce superiori il valore 7 sia pari a 1/11.
Denotiamo con p la probabilità che la somma delle facce superiori di due dadi uguali e lanciati simultaneamente
sia 7.
1. Se i due dadi sono regolari quanto vale p?
Sia p0 il valore determinato al punto 1. Vogliamo verificare l’ipotesi nulla H0 : p = p0 contro l’alternativa
H1 : p = 1/11. Decidiamo di eseguire questa verifica nel seguente modo: lanciamo 144 volte la coppia di dadi e
rifiutiamo H0 se la somma dei due dadi è 7 al più per 14 volte.
2. Calcolate “approssimativamente” il livello di significatività α del test.
3. Calcolate “approssimativamente” la potenza π del test.
4. Calcolate “approssimativamente” la probabilità di errore di seconda specie β del test.
Soluzione
6
1
#{(i, j) : i + j = 7 e i, j = 1, . . . , 6}
=
=
#{(i, j) : i, j = 1, . . . , 6}
36
6
2. Il livello di significatività del test α è la probabilità di rifiutare H0 : p = 1/6 quando p = 1/6. Sia p̂
la frequenza relativa dell’evento “somma della coppia di dadi = 7”; la regola è rifiutare H0 : p = 1/6 contro
14
, e quindi, per il Teorema Centrale del Limite, un valore approssimato di α è dato da
H1 : p = 1/11 se p̂ ≤
144


1
14
√
14
144 − 6 
α = P1/6 p̂ ≤
' Φ  144 q
' Φ(−2.236) = 1 − Φ(2.236) ' 1 − 0.9874 = 0.0126 = 1.26%
144
1
×5
1. p0 =
6
6
Con la correzione di continuità, il valore approssimato di α risulta:


14.5
1
√
−
144
6
α ' Φ  144 q
' Φ(−2.124) = 1 − Φ(2.124) = 1 − 0.98316 ' 1.68%
1
5
×
6
6
In realtà, il valore esatto di α è 1.27%.
3. La potenza del test è la probabilità di accettare H1 quando è vera: sempre per il Teorema Centrale del
Limite:


1
14
√
−
1
14
144
11 
π
= P1/11 p̂ ≤
' Φ  144 q
' Φ(0.264) ' 0.604
11
144
1
× 10
11
Con la correzione di continuità otteniamo π(1/11) ' Φ
√
11
14.5
144 √1441
1
− 11
10
11 × 11
' Φ(0.41) ' 0.659. In realtà, il valore
esatto di π(1/11) è 0.67.
4. La probabilità di errore di seconda specie β è la probabilità di rifiutare l’ipotesi alternativa quando è vera,
quindi, un valore approssimato di β = 1 − π(1/11) è β ' 1 − 0.604 = 0.396 senza la correzione di continuità e
β ' 1 − 0.659 = 0.341 con la correzione di continuità.
15
Esercizio 4.2 Il manufatto aaa è prodotto in un gran numero di stabilimenti. La proporzione X di manufatti difettosi (variabile da stabilimento a stabilimento) può essere modellata come una variabile aleatoria
assolutamente continua con densità
( 1
1 θ −1
x
0<x<1
f (x, θ) = θ
0
altrove
dove θ è un parametro positivo incognito.
Per stimare θ gli addetti al controllo di qualità scelgono a caso n stabilimenti.
1. Determinate uno stimatore di θ usando il metodo dei momenti.
2. Determinate uno stimatore di θ usando il metodo di massima verosimiglianza.
3. Determinate la densità di Y = − log X.
4. Discutete le proprietà dello stimatore di massima verosimiglianza individuato al punto 2. (non distorsione,
consistenza, efficienza, ...).
5. Gli addetti al controllo di qualità decidono di visitare 4 stabilimenti e di ispezionare 30 manufatti in
ognuno di essi. Se trovano 2 pezzi difettosi nel primo, 3 nel secondo, 3 nel terzo e 1 nel quarto, qual è la stima
di θ basata sul metodo dei momenti? E qual è quella basata sul metodo di massima verosimiglianza?
Soluzione
1. Sia X1 , . . . , Xn il campione casuale delle proporzioni di pezzi difettosi degli n stabilimenti e sia X̄ la
1
Z 1
1 1 −1
1 x1/θ+1
1/θ
1
θ
dx =
=
=
media campionaria di X1 , . . . , Xn . Allora Eθ (X) =
x x
θ
θ
1/θ
+
1
1/θ
+
1
θ
+
1
0
0
e
ed Eθ (X) = X̄ se e solo se θ = 1/X̄ − 1; segue che θ = 1/X̄ − 1 (≥ 0) è lo stimatore dei momenti di θ.
2. Studiamo la funzione di verosimiglianza del campione X1 , . . . , Xn :
Lθ (x1 , . . . , xn ) =
n Y
1
i=1
θ
1
θ −1
xi
log Lθ (x1 , . . . , xn ) = −n log θ +
∂ log Lθ (x1 , . . . , xn )
−n −
=
+
∂θ
θ
Pn
j=1
! θ1 −1
xi
θ>0
i=1
infatti −
= θ−n
n
Y
X
n
1
log xj
−1
θ
j=1
Pn
j=1 log xj
θ2
Pn
≥ 0 se e solo se θ ≤ −
Pn
j=1
log Xj > 0 poiché P (0 < Xj < 1) = 1. Segue che θb = −
log Xj
n
j=1
log xj
n
è MLE per θ.
3. Dato che P (0 < X < 1) = 1 si ha P (Y ≤ y) = 0 ∀y ≤ 0. Per y > 0:
FY (y) = P (− log X ≤ y) = P (log X ≥ −y) = P (X ≥ e−y ) = 1 − FX (e−y )
1
1
e quindi fY (y) = fX (e−y )e−y 1(0,∞) (y) = θ1 e−y( θ −1) e−y 1(0,∞) (y) = θ1 e− θ y 1(0,∞) (y): Y ∼ E(θ)
4. Sia Yi = − log Xi . Allora Yi ∼ E(θ) con Eθ (Y1 ) = θ e lo stimatore di massima verosimiglianza θb coincide
con la media campionaria di Y1 , . . . , Yn : θb = Ȳ . Segue che θb è stimatore non distorto e consistente in media
quadratica per θ. Inoltre, applicando il !Teorema Centrale del Limite, deduciamo la gaussianità asintotica di θb
√ θb − θ
(x1 ,...,xn )
≤ z = Φ(z), ∀z ∈ R. Infine, osserviamo che ∂ log Lθ ∂θ
nel senso che limn→∞ P
n
= θn2 (θb − θ),
θ
Pertanto, scelta a(θ, n) = n/θ2 , abbiamo:
∂ log Lθ (X1 , . . . , Xn )
= a(θ, n)(θb − θ) = 1 ∀θ > 0
Pθ
∂θ
b raggiunga il confine inferiore di Cramer Rao.
L’ultima è condizione necessaria e sufficiente affinché Var(θ)
b
Abbiamo cosı̀ dimostrato che θ è stimatore efficiente per θ.
5. Abbiamo il campione delle quattro osservazioni: x1 = 2/30, x2 = 3/30, x3 = 3/30 e x4 = 1/30, in
corrispondenza del quale θe = 37/3 ' 12.33 e θb ' 2.679. Poiché θb è stimatore efficiente mentre θe è distorto,
e
allora θb è preferibile a θ.
16
Esercizio 4.3 Un segnale di valore µ trasmesso dalla sorgente A viene raccolto dal ricevente B con un rumore
additivo gaussiano di media nulla e varianza σ 2 = 16. Per ridurre l’errore, lo stesso segnale viene trasmesso 9
volte da A a B e la media campionaria dei segnali ricevuti è 9.00.
1. Quale fiducia avete che il segnale trasmesso da A fosse compreso fra 6.38 e 11.62?
2. B ha motivo di supporre che il segnale inviato dovesse essere 12. Verificate l’ipotesi nulla H0 : µ = 12
contro l’alternativa H1 : µ 6= 12, a livello di significatività α = 10%.
3. Determinate il p-value dei dati del test per l’ipotesi nulla H0 : µ = 12 contro l’alternativa H1 : µ 6= 12.
Soluzione
1. Sia (X1 , . . . , X9 ) il campione casuale delle 9 trasmissioni da A a B. Deriviamo dal testo che Xi ∼ N (µ, 16).
σ
σ
Un intervallo di confidenza simmetrico per µ di livello γ è dato da X̄ ∓ z 1+γ √ ed è lungo 2z 1+γ √ .
2
2
n
n
L’intervallo (6.38, 11.62) è lungo 11.62 − 6.38 = 5.24. Risolvendo l’equazione in γ:
σ
4
8
5.24 = 2z 1+γ √ = 2z 1+γ = z 1+γ
2
2
3
3 2
n
otteniamo
z 1+γ = 1.965
2
1+γ
= 0.9753,
2
da cui γ = 0.9753 × 2 − 1 = 0.9506(' 0.95). Possiamo dire di avere il 95(.06)% di fiducia che il vero
segnale fosse compreso fra 6.38 e 11.62.
Dalle tavole della fdr N (0, 1) Φ, risulta che 1.965 è il quantile di ordine 0.9753 di Φ cioè
2. Poiché 12 > 11.62, per la dualità tra verifica delle ipotesi e intervalli di confidenza, rifiutiamo H0 : µ = 12
a favore di H1 : µ 6= 12 a livello 1 − 0.9506 = 4.94%. Essendo 10% > 4.94%, rifiutiamo anche a livello
10%.
3. Usando la teoria dei test per popolazioni gaussiane, a livello α, rifiuteremo H0 : µ = 12 (a favore di
|x̄ − 12|
|9 − 12|
=
= 2.25 ≥ z1−α/2 . Il p-value è il più piccolo livello per cui si rifiuta H0
H1 : µ 6= 12) se
4/3
4/3
con i risultati empirici. Il p-value dei dati di questo test è 2 (1 − Φ(2.25)) = 0.02445 ' 2.45%: rifiutiamo
H0 per ogni α ≥ 2.45%.
17
Esercizio 4.4 I valori che seguono rappresentano i giorni di sopravvivenza di un campione di 6 topi affetti da
cancro e curati con una terapia sperimentale:
29, 700, 1, 335, 15, 160
1. Determinate la funzione di ripartizione empirica F̂6 associata al campione dei 6 topi.
2. Determinate una stima della probabilità che un topo affetto da cancro sottoposto alla terapia viva più di
15 giorni.
Si pensa che la sopravvivenza dei topi malati di cancro e sottoposti alla terapia sperimentale possa essere
modellata come una variabile aleatoria X assolutamente continua che ha densità di Weibull:
f0 (x) =
√
x
1
√ e− 10 1(0,∞) (x)
20 x
3. Usate un opportuno test con il 5% di livello di significatività, per stabilire se i dati forniti sui topi possano
√
x
1
provenire dalla densità di Weibull f0 (x) = √ e− 10 1(0,∞) (x) ipotizzata.
20 x
Soluzione
1. Ordiniamo le osservazioni in ordine crescente: 1 15 29 160 335 700.
Quindi:

0
x<1



 1 ' 0.166 1 ≤ x < 15



 61


 3 ' 0.333 15 ≤ x < 29
F̂6 (x) = 21 = 0.5
29 ≤ x < 160


2

=
0.666
160 ≤ x < 335

3



5
 ' 0.833 335 ≤ x < 700


6
1
x ≥ 700
2. P (X > 15) = 1 − FX (15) e F̂6 (15) =
2
1
. Quindi una stima di P (X > 15) è .
3
3
3. Ho un numero “piccolo” di dati (6) non raggruppati e il campione proviene da una fdr continua. Impostiamo il test di Kolmogorov-Smirnov di livello 5% per verificare: H0 : X ∼ F0 contro l’alternativa
H1 : F 6∼ F0 , dove
Z
F0 (x) =
x
x
Z
f0 (t) dt =
0
0
1 − √t
√ e 10 dt =
20 t
√
Z
0
x
√
1 −u
e 10 2udu =
20u
Z
0
x
√
x
1 −u
e 10 du = 1 − e− 10
10
∀x > 0
e F0 (x) = 0 se x ≤ 0. Pertanto:
F0 (1)
√
1
1 − e− 10 ' 0.095
F0 (15)
F0 (29)
F0 (160)
F0 (335)
F0 (700)
0.321
0.416
0.718
0.840
0.929
Rifiutiamo al livello α se D6 := supx∈R |F̂6 (x) − F0 (x)| > qD6 (1 − α). Ma
sup |F̂6 (x) − F0 (x)| = F0 (160) − F̂6 (29) = 0.718 − 0.5 = 0.218
x∈R
e, dalle tavole dei quantili della statistica di Kolmogorov-Smirnov con n = 6, qD6 (1 − 0.05) = 0.5193:
0.218 è minore di 0.5193 e accettiamo H0 .
18
Esercizio 4.5 Quindici misure ripetute eseguite con lo stesso strumento e in modo indipendente hanno dato i
seguenti risultati, riportati nell’ordine in cui sono stati ottenuti:
0.30 1.27 −0.25 −1.28 −1.20 −1.74 2.18 0.23 −1.10 1.08 0.69 1.69 1.84 0.97 2.00
Lo sperimentatore sospetta però che ci sia stato un deterioramento dello strumento nel corso dell’esperimento
che potrebbe aver distrutto l’indipendenza fra le misure.
1. Verificate l’ipotesi d’indipendenza delle misure al livello del 10%.
2. Determinate in modo approssimato il p-value del test, o piuttosto indicate un intervallo dove tale p-value
cade.
Soluzione Usiamo il test di aleatorietà di Kendall, a due code; a priori non ci aspettiamo né un andamento
crescente né uno decrescente. Contiamo il numero di concordanze e discordanze; con i simboli degli appunti
abbiamo:
D1 = 6, C1 = 8; D2 = 9, C2 = 4; D3 = 4, C3 = 8; D4 = 1, C4 = 10; D5 = 1, C5 = 9; D6 = 0, C6 = 9; D7 =
8, C7 = 0; D8 = 1, C8 = 6; D9 = 0, C9 = 6; D10 = 2, C10 = 3; D11 = 0, C11 = 4; D12 = 1, C12 = 2; D13 =
1, C13 = 1; D14 = 0, C14 = 1
e
14
14
X
X
D=
Di = 34 ,
C=
Ci = 71 ,
T = C − D = 37
i=1
i=1
1. Per un test di ampiezza α la regione di rifiuto è {|T | > qKen;n (1 − α/2)}. Noi abbiamo n = 15, α = 0.1,
|T | = 37 e, dalle tabelle, qKen;15 (.95) = 33: rifiutiamo l’ipotesi nulla che i dati provengano da un campione
casuale e accettiamo l’ipotesi di non indipendenza dei dati.
2. Dalle tabelle vediamo che il nostro dato cade tra 33 e 39 corrispondenti ai quantili di ordine 0.95 e 0.975.
Dunque il p-value cade fra 0.05 e 0.1.
19
5
STATISTICA per ING INF [2L]
Proff. A. Barchielli, I. Epifani
07.03.05
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Nello svolgere gli esercizi fornire passaggi e spiegazioni: non bastano i risultati finali.
Esercizio 5.1 Sia X1 , . . . , Xn un campione casuale estratto dalla popolazione gaussiana di densità
r
θ1 −θ1 (x−θ2 )2
f (x, θ1 , θ2 ) =
e
x ∈ R, θ1 > 0 e θ2 ∈ R
π
Entrambi i parametri θ1 , θ2 sono incogniti.
1. Determinate uno stimatore di θ1 usando il metodo di massima verosimiglianza.
2. Determinate un intervallo di confidenza a due code per θ1 di livello γ = 95%.
3. Avete ora a disposizione il campione di quattro osservazioni: x1 = −0.17, x2 = 0.71, x3 = 2.17 e x4 = 1.00
e dovete scegliere fra l’ipotesi nulla H0 : θ1 = 0.5 e l’alternativa H1 : θ1 6= 0.5. Quale decisione prendete
al livello α = 5%? (Giustificate rigorosamente la risposta).
1
. Quindi, praticamente, dobbiamo fare inferenza sul
Soluzione Osserviamo che f (x, θ1 , θ2 ) = N θ2 ,
2θ1
reciproco della varianza della popolazione gaussiana con media incognita
1. Chiamiamo σ 2 la varianza di questa densità gaussiana. La caratteristica da stimare è la funzione:
2
θ1 = (1/2σ
di massima verosimiglianza di σ 2 nel modello gaussiano con media incognita è
Pn ). Lo stimatore
2
n
n
j=1 (Xj − X̄)
σ
b2 =
e quindi quello di θ1 è θb1 = Pn
=
dove S 2 è la varianza
n
2(n − 1)S 2
2 j=1 (Xj − X̄)2
Pn
2
j=1 (Xj − X̄)
campionaria S 2 =
.
n−1
1
1
2. Se (T1 , T2 ) è un intervallo di confidenza per σ 2 di livello γ = 95%, allora
,
è un intervallo di
2T2 2T1
confidenza per θ1 , sempre di livello γ = 95%. Nel caso della popolazione N θ2 , σ 2 , un intervallo di confidenza
bilatero di livello γ = 95% per σ 2 è
(n − 1)S 2
χ2n−1
2
1+0.95 < σ <
2
(n − 1)S 2
χ2n−1
1−0.95
2
Quindi l’intervallo cercato per θ1 è
χ2n−1 (0.025)
χ2n−1 (0.975)
<
θ
<
1
2(n − 1)S 2
2(n − 1)S 2
Osservate che l’intervallo di confidenza trovato per θ1 è funzione dello stimatore di massima verosimiglianza θb1 .
Infatti:
!
2
χn−1 (0.025) χ2n−1 (0.975)
θb1 2
θb1
2
,
= χn−1 (0.025) , χn−1 (0.975)
2(n − 1)S 2
2(n − 1)S 2
n
n
3. χ23 (0.025) = 0.216, χ23 (0.975) = 9.348, X̄ = 0.9275, S 2 = 0.933625 quindi un intervallo di confidenza di
livello 0.95 per θ1 è (0.039, 1.669). Poiché 0.5 ∈ (0.039, 1.669), per la dualità tra verifica delle ipotesi e intervalli
di confidenza, accettiamo H0 : θ1 = 0.5 a livello 1 − 0.95 = 5%. Alternativamente, scrivete le ipotesi come
H0 : σ 2 = 1, H1 : σ 2 6= 1 ed eseguite un test bilatero sulla varianza con media incognita.
20
Esercizio 5.2 Abbiamo estratto il campione casuale X1 , . . . , Xn dalla densità esponenziale di parametro θ:
f (x, θ) = θ1 e−x/θ 1(0,∞) (x), θ > 0.
Pn
2 i=1 Xi
1. Determinate la densità della variabile aleatoria
.
θ
2. Costruite un test uniformemente più potente di livello α per verificare l’ipotesi nulla H0 : θ = 2 contro
l’alternativa H1 : θ = 1.49.
3. Sia α = 5%, n = 3 e x1 = 0.4, x2 = 2.9 e x3 = 1.2. Sulla base del test costruito al punto 2., accettate o
rifiutate H0 ?
4. Sia α = 5% e n = 3 come sopra. Calcolate la probabilità di errore di secondo tipo β del test costruito al
punto 2.
Soluzione
1. Sia Yi = 2Xi /θ, i = 1, . . . , n. Le variabili aleatorie Yi sono i.i.d.. Determiniamo la comune densità a
partire dalla fdr FYi :
(
0
FYi (y) =
P
2Xi
θ
≤y
y<0
=
y≥0
(
0
FXi
y<0
θy
2
y≥0
Quindi
θ
fYi (y) = fXi
2
θy
2
1(0,∞) (y) =
1 −y
e 2 1(0,∞) (y)
2
cioè Y1 , . . . , Yn è un campione casuale dalla densità esponenziale di parametro 2, che coincide con la densità
chiquadrato con due gradi di libertà: χ22 . La somma è variabile aleatoria Γ(n, 2) = Γ(2n/2, 2) = χ22n .
2. Dal Lemma di Neyman Pearson, segue che la regione critica del test uniformemente più potente di livello
α per verificare H0 : θ = 2 contro H1 : θ = 1.49 è:
L2 (x1 , . . . , xn )
n
G = (x1 , . . . , xn ) ∈ (0, ∞) :
≤δ
L1.49 (x1 , . . . , xn )
n P
1.49
xj (1/2−1/1.49)
− n
n
j=1
= (x1 , . . . , xn ) ∈ (0, ∞) :
≤δ
e
2


n


X
= (x1 , . . . , xn ) ∈ (0, ∞)n :
xj ≤ k


j=1
Pn
Pn
con k tale che P2 ( j=1 Xj ≤ k) = α. Per il punto 2., se θ = 2, allora j=1 Xj ∼ χ22n e quindi k = χ22n (α). In
Pn
definitiva, rifiuteremo H0 se j=1 xj ≤ χ22n (α).
3. (0.4 + 2.9 + 1.2) = 4.5 > 1.635 = χ22×3 (0.05): accettiamo H0 .
4. La probabilità di errore di seconda specie β è la probabilità di rifiutare l’ipotesi alternativa quando è
vera. Quindi:


!
P3
3
X
2 × j=1 Xj
2
×
1.635
>
' 1 − Fχ26 (2.20) = 1 − 0.1 = 0.9!!!
β = P1.49 
Xj > 1.635 = P1.49
1.49
1.49
j=1
21
Esercizio 5.3 Sia X1 , . . . , Xn un campione casuale estratto dalla densità
(
2
1 − xθ
se 0 < x < θ
θ
f (x, θ) =
0
altrove
dove θ è un parametro positivo incognito. Indichiamo con X la media campionaria di X1 , . . . , Xn .
1. Calcolate E(X) e Var(X).
2. Costruite uno stimatore non distorto per θ (partendo da X) e calcolatene l’errore quadratico medio (MSE).
Supponete ora di avere estratto una sola osservazione (n = 1).
3. Determinate lo stimatore di massima verosimiglianza di θ.
Potrebbe esservi utile disegnare il grafico della funzione di verosimiglianza (x fissato, θ variabile).
4. Calcolate l’errore quadratico medio dello stimatore di massima verosimiglianza trovato al punto 3.
Soluzione
1.
θ
Z
E(X) = E(X1 ) =
0
Var(X) =
θ
x
1 2 2x3
θ
2
1−
dx =
=
x
x −
θ
θ
θ
3θ 0
3
Var(X1 )
θ2
=
n
18n
∀θ > 0
∀θ > 0
in quanto
Var(X1 ) =
E(X12 )
2
− E(X1 ) e
E(X12 )
Z
=
0
θ
θ
θ2
x
2 x3
x4
=
−
1−
dx =
x
θ
θ
θ 3
4θ 0
6
22
θ
2. Poiché E(X) = ∀θ > 0, allora T = 3X è stimatore non distorto per θ; T ha errore quadratico medio
3
dato da:
θ2
θ2
MSE(T ) = Var(T ) = Var(3X) = 9
=
∀θ > 0
18n
2n
3. La funzione di verosimiglianza è Lθ (x1 ) = θ2 1 − xθ1 per θ > x1 (x1 > 0) e 0 altrove: Lθ (x1 ) è crescente
in (x1 , 2x1 ) e decrescente in (2x1 , +∞); Lθ (x1 ) è concava in (x1 , 3x1 ) e convessa in (3x1 , +∞). Lθ (x1 ) ha
massimo assoluto in θ = 2x1 , quindi θ̂ = 2X1 è lo stimatore di massima verosimiglianza di θ.
4.
MSE(θ̂) = Var(2X1 ) + (E(2X1 ) − θ)2 = 4
2
θ2
θ
3
θ2
+ 2 − θ = θ2 =
18
3
9
3
Con una sola osservazione, lo stimatore di massima verosimiglianza è preferibile a quello individuato al
punto 1.
22
Esercizio 5.4 1 Il numero π scritto in forma decimale contiene nelle prime 10002 posizioni dopo il punto
decimale le cifre
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
rispettivamente
968, 1026, 1021, 974, 1014, 1046, 1021, 970, 948, 1014
volte.
1. Sulla base di questi dati, ritenete che nella rappresentazione decimale di π, le cifre 0, 1, . . . , 9 dopo il
punto decimale siano uniformemente distribuite? Per rispondere alla domanda usate un opportuno test e
scegliete come livello di significatività del test α = 5%.
2. Determinate in modo approssimato il p-value dei dati del test, o piuttosto indicate un intervallo dove tale
p-value cade.
Soluzione Osserviamo che i dati provengono da un modello discreto. Per rispondere alla domanda usiamo un
test di adattamento χ2 di Pearson per verificare l’ipotesi nulla H0 : pk = 0.1 ∀k = 0, . . . , 9 contro l’alternativa
H1 : pk 6= 0.1 per qualche k = 0, . . . , 9. La statistica di Pearson è data da
Q10002 =
10
X
(Nk − 10002 · 0.1)2
k=1
10002 · 0.1
=
10
X
k=1
Nk2
− 10002 = 9.367726 ' 9.368
10002 · 0.1
(Nk indica il numero di volte in cui compare la cifra k nelle prime 10002 posizioni). Poiché 948 × 0.1 = 94.8 > 5,
se H0 è vera, approssimativamente Q10002 ∼ χ29 .
1. Rifiutiamo H0 a livello 5% se Q10002 ≥ χ9 (0.95) = 16.92. Poiché 9.368 < 16.92 accettiamo a livello 5%
l’ipotesi che nella rappresentazione decimale di π la posizione delle cifre 0, . . . , 9 dopo il punto decimale
sia casuale.
2. Il p-value è il più piccolo livello per cui si rifiuta H0 con i risultati empirici. Il p-value dei dati di questo
test è P0 (Q10002 > 9.368) ' 1 − Fχ29 (9.368). Dalle tabelle vediamo che il nostro dato cade tra 8.34 e 11.34
corrispondenti ai quantili della fdr χ29 di ordine 0.5 e 0.75, rispettivamente. Dunque il p-value cade fra
0.25 e 0.5. (Usando il software R troviamo che p-value = 0.404021): praticamente non rifiutiamo mai H0 .
1 Da Bickel, Peter J., and Doksum, Kjell A. (1977), “Mathematical statistics: Basic ideas and selected topics”, Holden-Day Inc
(San Francisco)
23
Esercizio 5.5 (Sezione Epifani) Si sono registrati i minuti di funzionamento prima di rovinarsi di due tipi
di isolanti elettrici A e B sottoposti a una forte differenza di potenziale ottenendo i seguenti risultati:
Tipo A:
Tipo B:
162
34.6
88.5
54
122.3
116.4
125
49
132
77.3
66
121.3
211.9
127.8
120.2
49.8
Verificate l’ipotesi che i due campioni casuali di osservazioni provengano dalla stessa funzione di ripartizione
contro l’alternativa che l’isolante elettrico di tipo B smetta di funzionare prima di quello di tipo A.
Scegliete come livello di significatività del test α = 2.5% e supponete che i dati siano tutti generati da modelli
assolutamente continui. La vostra risposta cambia se scegliete un livello di α superiore a 2.5%?
Soluzione Sia X = (X1 , . . . , X7 ) il campione di 7 osservazioni sui tempi di vita degli isolanti di tipo A e
Y = (Y1 , . . . , Y9 ) il campione di 9 osservazioni sui tempi di vita degli isolanti di tipo B. Ci poniamo nell’ipotesi
che X1 , . . . , X7 i.i.d. ∼ F , Y1 , . . . , Y9 i.i.d. ∼ G e X, Y indipendenti e F e G assolutamente continue.
Traduciamo ipotesi nulla e alternativa in termini di dominanza stocastica nel seguente modo:
H0 : F = G versus H1 : F < G
e impostiamo il corrispondente test unilatero non parametrico di Wilcoxon-Mann-Wintney.
Ordiniamo dalla più piccola alla più grande le osservazioni del campione riunito:
34.6y 49.0y 49.8y 54y 66x 77.3y 88.5x 116.4y 120.2y 121.3y 122.3x 125x 127.8y 132x 162x 211.9x
e calcoliamo la statistica di Wilcoxon-Mann-Wintney:
U = “somma dei ranghi di X” − 7 ×
8
8
= 80 − 7 × = 52.
2
2
Il quantile di U corrispondente a m = 7 e n = 9 di ordine 2.5% è qU (2.5%) = 13 e quindi qU (1 − 2.5%) =
7 × 9 − 13 = 50. Rifiutiamo H0 : F = G a favore di H1 : F < G se U > qU (1 − 2.5%); poiché 52 > 50, rifiutiamo
H0 a livello 2.5%, cioè sembrerebbe che gli isolanti elettrici di tipo B siano meno resistenti. Se α > 2.5% allora
qU (1 − α%) < qU (1 − 2.5%) e qU (1 − α%) < U ; quindi per α > 2.5% la decisione non cambia: continuiamo a
rifiutare H0 .
24

Documenti analoghi

Politecnico di Milano Temi d`esame di STATISTICA dell`AA 2005

Politecnico di Milano Temi d`esame di STATISTICA dell`AA 2005 Politecnico di Milano Temi d’esame di STATISTICA dell’AA 2005/2006 per allievi ING INF [2L], docente I. Epifani

Dettagli

Lezione 23 — 07 Dicembre 23.1 Unscented Kalman filter

Lezione 23 — 07 Dicembre 23.1 Unscented Kalman filter Si noti come in questo caso non è necessario linearizzare ad ogni passo la matrice come nel caso del filtro esteso e si approssimano distribuzioni piuttosto che non linearità. Inoltre con questo ...

Dettagli