Seconda Prova in Itinere di Statistica. Allievi MEC

Transcript

Seconda Prova in Itinere di Statistica. Allievi MEC
Seconda Prova in Itinere di Statistica.
Allievi MEC - sede di BOVISA
Prof.ssa A. Guglielmi
30.06.11
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Cognome e Nome:
Matricola:
Giustificare adeguatamente tutte le risposte.
Esercizi
Esercizio 1 Due gruppi di reparti speciali, i Navy Seal statunitensi e i Paracadutisti d’assalto
italiani, si sfidano per verificare quale dei due gruppi sia più in forma. Per questa ragione,
vengono selezionati a caso 10 Seal e 10 paracadutisti, e viene registrato per ognuno di essi il
numero di flessioni a terra eseguite in due minuti. I dati, calcolati come valori medi su più
ripetizioni della prova, sono i seguenti:
SEAL :
94.7 132.6 74.9 104.6 103.5 106.7 69.1 101.1 92.0 104.3
PARACADUTISTI : 150 84.1 105.3 101 108.1 115.3 114.4 94.2 89.8 113.4
Con buona approssimazione, si può ritenere che i dati siano gaussiani, con varianze incognite
ma uguali.
1. Sulla base dei dati a disposizione, si può affermare che i paracadutisti italiani sono più
in forma dei Seal al livello di significatività dell’1%? Scrivere esplicitamente le ipotesi da
sottoporre a verifica e le conclusioni di un opportuno test.
2. Ricavare un intervallo in cui cade il p-value del test al punto 1. Quali conclusioni si
traggono da esso sulla forma fisica dei due gruppi d’assalto?
Si supponga ora che le varianze del numero di flessioni nei due gruppi siano entrambe uguali
a 361.
3. Qual è la distribuzione della differenza tra le due medie campionarie delle flessioni eseguite
dai due gruppi?
4. Se si considera un intervallo di confidenza bilaterale per la differenza delle medie delle
flessioni eseguite nei due gruppi di livello 1 − α, determinare la disuguaglianza che deve
soddisfare α affinché la lunghezza dell’intervallo sia al più 25.
Soluzione Si tratta di confrontare le medie di due campioni gaussiani indipendenti, X1S , . . . , XnS
iid
iid
P ∼ N (µ , σ 2 ), con n = m = 10, dove X S e X P rappresentano
∼ N (µS , σS2 ) e X1P , . . . , Xm
P
i
i
P
il numero di flessioni a terra eseguite dall’i-esimo Seal o paracadutista, rispettivamente. Le
medie e varianze campionarie sono, rispettivamente, x̄S = 98.35, s2S = 312.2717, x̄P = 107.56,
s2P = 337.1849.
1. Le ipotesi da verificare sono H0 : µS ≥ µP contro H1 : µS < µP .
La statistica test è
X̄ S − X̄ P
H0
T0 := q
∼ t(n + m − 2);
1
2
( n1 + m
Spooled
)
si rifiuta H0 al livello α se e solo se
t0 < −tα,n+m−2 .
Con i dati a nostra disposizione, s2pooled = ((n−1)s2S +(m−1)s2P )/(n+m−2) = 324.7283, e
p
il valore osservato della statistica test è t0 = (98.35 − 107.56)/ 324.7283(1/5) = −1.1428.
Poiché −1.1428 = t0 > −tα,n+m−2 = −t0.01,18 = −2.552 non si può rifiutare H0 (cioè
l’ipotesi che i Seal siano più preparati dei paracadutisti) a livello α = 1%.
2. Il valore esatto del p-value al punto 1. è Ftn+m−2 (t) = Ft18 (−1.1428) = 0.1340. Dalle tavole
si ricava che p-value= 1 − Ft18 (1.1428) ∈ (0.1, 0.25). Non c’è evidenza sperimentale contro
l’ipotesi H0 che gli statunitensi siano più forti.
3. In questo caso, poiché σS2 = σP2 = 361, la statistica
X̄ S − X̄ P ∼ N (µS − µP , 361(1/10 + 1/10) = 72.2).
4. L’intervallo di confidenza cercato si ricava dal pivot (si veda la soluzione del punto precedente):
X̄ S − X̄ P − (µS − µP )
√
∼ N (0, 1).
72.2
√
Pertanto, un IC per µS − µP di livello di confidenza 1 − α ha lunghezza 2zα/2 72.2.
Imponendo che questa quantità sia al più 25 si trova
√
α
2zα/2 72.2 ≤ 25 ⇔ zα/2 ≤ 1.4711 ⇔ 1 − ≤ Φ(1.4711) = 0.9294
2
⇔ α ≥ 2(1 − Φ(1.4711)) = 0.1412.
Esercizio 2 Un esperto di biologia marina vuole studiare la durata di vita (espressa in giorni)
di un certo pesce esotico. Egli registra il numero di pesci deceduti nel tempo, su 60 uova deposte,
a partire dalla loro schiusura, ottenendo i seguenti risultati:
GIORNI di VITA
DECESSI
(0,1)
2
[1, 7)
4
[7, 30)
8
[30, 180)
11
[180, 365)
7
[365, 730)
6
[730, +∞)
;
22
quindi 2 pesci sono vissuti meno di 1 giorno, 4 pesci sono vissuti tra 1 e 7 giorni, ecc.. Il
biologo vuole verificare se queste osservazioni provengano da una legge Weibull, con funzione di
ripartizione
β
F (t) = 1 − e−λt 1(0,+∞) (t).
Egli sospetta che la durata di vita media di questa specie sia di 2 anni (1 anno = 365 giorni) e
sa che il parametro di forma è β = 1/2.
1. Nell’ipotesi che i dati provengano effettivamente dalla distribuzione sospettata, quali sono
le probabilità da essa assegnate a ciascuna delle classi in tabella? Si verifichino le condizioni
necessarie all’utilizzo di un test chi-quadrato di buon adattamento. Se le ipotesi non
sono soddisfatte, si modifichino opportunamente le classi. (Suggerimento: la media della
distribuzione Weibull(λ, β) è λ−1/β Γ(1 + 1/β).)
2. Si effettui un test di livello di significatività del 5% per verificare l’ipotesi nulla che il tempo
di vita segua la distribuzione ipotizzata. Si scrivano esplicitamente le ipotesi da sottoporre
a verifica, la regione di rifiuto e le conclusioni del test.
3. Si calcoli il p-value del test al punto 2. Che conclusioni si traggono circa il sospetto del
biologo?
Soluzione
1. Imponendo che 2 · 365 = λ−1/β Γ(1 + 1/β) = λ−2 Γ(3) = 2/λ2 , si ricava λ =
β = 1/2. Le probabilità richieste p0i sono riportate nella tabella che segue:
Giorni
ni
p0i
np0i
(0,1)
2
0.0510
3.06
[1,7)
4
0.0783
4.698
[7,30)
8
0.1199
7.194
[30,180)
11
0.2553
15.318
[180,365)
7
0.1276
7.656
[365, 730)
6
0.1248
7.488
p
1/365 e
[730,+∞)
22
.
0.2431
14.586
Le condizioni da verificare per la validità del test chi-quadrato sono n > 50 e np0i > 5
per i = 1, . . . , 7. La prima condizione è verificata, ma, visto che np01 ≤ 5 e np02 ≤ 5, è
necessario unire le prime due classi, ottenendo k = 6 classi e le corrispondenti probabilità
teoriche:
Giorni
ni
p0i
np0i
(0,7)
6
0.1293
7.758
[7,30)
8
0.12
7.194
[30,180)
11
0.2553
15.318
[180,365)
7
0.1276
7.656
[365 730)
6
0.1248
7.488
[730,+∞)
22
.
0.2431
14.586
2. Si tratta di verificare
p le ipotesi:
p
H0 : F =Weibull( 1/365, 1/2) vs. H1 : F 6=Weibull( 1/365, 1/2) con livello di significatività α = 0.05. La statistica test è data da
Qn =
6
X
(ni − np0i )2
i=1
np0i
H0
∼ χ2k−1 = χ25
e rifiutiamo H0 se e solo se Qn > χ2α,k−1 . Con i nostri dati otteniamo q60 = 5.8263 <
11.07 = χ2
, quindi non possiamo rifiutare H0 al livello del 5%.
3. Il p-value è pari a
1 − Fχ25 (5.8263) = 0.3235 ∈ (0.1, 0.5),
quindi non c’è evidenza contro H0 . I dati
psono in accordo con l’ipotesi che la distribuzione
del tempo di vita dei pesci sia Weibull( 1/365, 1/2).
Esercizio 3 È noto che lo sforzo massimo di collegamento (bond strength) in MegaPascal (MPa)
di un composto termoplastico prodotto con un processo di tipo laser assisted tape winding
dipende dalla potenza (in watt) del laser utilizzato. Si vuole verificare se il modello di regressione
lineare semplice dello sforzo massimo del composto sulla potenza del laser si adatti ai dati. Sono
riportate le statistiche riassuntive per n = 20 dati sulla potenza (x) in watt (W) del laser e il
corrispondente sforzo massimo del materiale termoplastico (Y ) in MegaPascal (MPa):
20
X
xi = 973
1
20
X
yi = 693
1
20
X
xi yi = 34255.4
1
20
X
x2i = 48821
20
X
1
yi2 = 24711.6.
1
1. Sulla base dei dati a disposizione, si stimino i coefficienti di regressione del modello lineare
semplice di Y su x col metodo dei minimi quadrati.
2. C’è evidenza sperimentale che lo sforzo massimo del composto dipende dalla potenza del
laser? Si ricavi il p-value del test, o in alternativa si fissi il livello di significatività pari al
5%. Scrivere esplicitamente le ipotesi da verificare.
3. Si ricavi un intervallo di previsione al 99.5% per lo sforzo massimo del composto quando
la potenza del laser è di 50 W.
4. Ricavare il coefficiente di determinazione R2 del modello lineare e il coefficiente di correlazione campionario (in modulo e segno) tra x e Y . Il modello lineare stimato si adatta
bene ai dati? Perché?
Soluzione
1. Dai dati si ricava
x̄ = 48.65 ȳ = 34.65,
Sxy =
n
X
xi yi − nx̄ȳ = 540.95
1
Sxx =
n
X
x2i − n(x̄)2 = 1484.55
1
Syy =
n
X
yi2 − n(ȳ)2 = 699.15.
1
Pertanto
β̂1 =
Sxy
= 0.3644,
Sxx
β̂0 = ȳ − β̂1 x̄ = 16.9220.
2. Si tratta di verificare, per esempio a livello di significatività α = 5%, le ipotesi
p
H
H0 : β1 = 0 contro H1 : β1 6= 0. La statistica test è T0 := βb1 / σ̂ 2 /Sxx ∼0 t(n − 2).
S2
xy
Poiché la somma dei residui al quadrato vale SSr = Syy − Sxx
= 502.0351, si ha σ̂ 2 =
SSr
n−2 = 27.8908 e il valore osservato della statistica test è t0 = 2.6586. Dunque, poiché
2.6586 = |t0 | > tα/2,n−2 = t0.025,18 = 2.10, si rifiuta H0 a livello di significatività del 5%. Il
p-value del test è p-value=2(1 − Ft18 (|t0 |) = 0.0160, con T ∼ t18 . Dalle tavole si ricava solo
che il p-value ∈ (0.01, 0.02); pertanto, c’è moderata evidenza sperimentale che lo sforzo
massimo dipenda dalla potenza del laser (linearmente).
3. Una stima puntuale di Y0 , corrispondente al valore
rdelregressore pari a 50, è yb0 = β̂0 +
2
β̂1 50 = 35.142; da tα/2,n−2 = t0.0025,18 = 3.197 e σ̂ 2 1 + n1 + (50−x̄)
= 5.4148 segue
Sxx
che l’intervallo richiesto è
s s 2
(50
−
x̄)
1
1 (50 − x̄)2
2
2
, yb0 + t α2 ,n−2 σ̂ 1 + +
)
(yb0 − t α2 ,n−2 σ̂ 1 + +
n
Sxx
n
Sxx
= (17.8310, 52.4531).
4. Il coefficiente di determinazione R2 è
R2 = 1 −
SSr
502.0351
=1−
= 0.2819.
Syy
699.15
Il coefficiente di correlazione lineare empirico è
√
ρxy = + R2 = +0.5309;
il segno di ρxy è positivo perché coincide col segno di β̂1 . Il modello lineare di Y su x non
si adatta bene ai dati, perché solo il 28% circa della variabilità dei dati viene spiegata da
esso.
Esercizio 4 Il cannoniere di una nave pirata, amante della statistica, si vanta di poter colpire un
bersaglio sulla spiaggia, ad una certa distanza dalla nave, con grande precisione. In particolare,
egli afferma di centrare mediamente il bersaglio e che la deviazione standard della distanza di
tiro sia minore di 5 metri. Il capitano della nave, che è l’unico altro membro dell’equipaggio che
conosca la statistica, vuole verificare se il cannoniere sia bugiardo e, in tal caso, lo condannerebbe
a morte. Per questa ragione, vengono misurate le distanze (dalla nave) raggiunte dalla palla di
cannone per 20 tiri. Le misure ottenute, che è lecito assumere gaussiane, sono riassunte dalle
seguenti quantità:
20
20
X
X
xi = 4020
x2i = 808720.
i=1
i=1
1. Si fornisca una stima puntuale della varianza delle distanze di tiro.
2. Si può affermare che il cannoniere dica il falso riguardo alla precisione del suo tiro, a un
livello di significatività pari a 0.05?
3. Con i dati a disposizione, si calcoli il minimo livello del test ricavato al punto 2. per cui il
capitano possa condannare a morte il cannoniere perché ha mentito.
4. Si fornisca un intervallo di confidenza bilatero di livello 99% per la varianza della distanza
di tiro.
Soluzione I dati sono una realizzazione da un campione aleatorio X1 , . . . , X20 da N (µ, σ 2 ).
Dai dati si ottiene x̄20 = 201.
1. Stimiamo σ 2 utilizzando la varianza campionaria s220 delle distanze di tiro:
P20 2
P20
2
x − 20x̄2
808720 − 20 · 2012
2
i=1 (xi − x̄)
= i=1 i
=
= 36.8421.
s20 =
n−1
19
19
2. Vogliamo testare H0 : σ 2 ≤ σ02 vs. H1 : σ 2 > σ02 , dove σ02 = 25, ad un livello di significatività del 5%. La statistica test è (n − 1)Sn2 /σ02 , la quale è distribuita come una χ2 (n − 1),
quindi la regione di rifiuto del test è:
s220
2
20
R = (x1 , . . . , x20 ) ∈ R : 19 2 > χ0.05,19 .
σ0
Poiché la statistica test osservata vale 19s220 /σ02 = 28.0000 < χ20.05,19 = 30.14, non possiamo
rifiutare H0 al livello di significatività del 5%. Non si può affermare che il cannoniere dica
il falso a livello del 5%.
3. Per ottenere il livello richiesto dobbiamo calcolare il p-value del test al punto 2., il cui
valore esatto è
s220
p − value = 1 − Fχ2 (n−1) 19 2 = 0.0834.
σ0
Dalle tavole otteniamo che il p-value sta nell’intervallo (0.05,0.10). Dunque, il comandante dovrebbe scegliere un un livello di significatività di almeno il 10% per condannare il
cannoniere.
4. Con α = 0.01, si legge dalle tavole che χ20.005,19 = 38.58, χ20.995,19 = 6.84, e dunque
l’intervallo di confidenza richiesto per la varianza σ 2 è
!
!
(n − 1)s2n (n − 1)s2n
19s220
19s220
,
=
,
= (18.1441, 102.3392).
χ2α/2,n−1 χ21−α/2,n−1
χ20.005,19 χ20.995,19