Seconda Prova in Itinere di Statistica. Allievi MEC

Transcript

Seconda Prova in Itinere di Statistica.
Allievi MEC - sede di BOVISA
Prof.ssa A. Guglielmi
30.06.11
© I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Cognome e Nome:
Matricola:
Giustificare adeguatamente tutte le risposte.
Esercizi
Esercizio 1 Due gruppi di reparti speciali, i Navy Seal statunitensi e i Paracadutisti d’assalto
italiani, si sfidano per verificare quale dei due gruppi sia più in forma. Per questa ragione,
vengono selezionati a caso 10 Seal e 10 paracadutisti, e viene registrato per ognuno di essi il
numero di flessioni a terra eseguite in due minuti. I dati, calcolati come valori medi su più
ripetizioni della prova, sono i seguenti:
SEAL :
94.7 132.6 74.9 104.6 103.5 106.7 69.1 101.1 92.0 104.3
PARACADUTISTI : 150 84.1 105.3 101 108.1 115.3 114.4 94.2 89.8 113.4
Con buona approssimazione, si può ritenere che i dati siano gaussiani, con varianze incognite
ma uguali.
1. Sulla base dei dati a disposizione, si può affermare che i paracadutisti italiani sono più
in forma dei Seal al livello di significatività dell’1%? Scrivere esplicitamente le ipotesi da
sottoporre a verifica e le conclusioni di un opportuno test.
2. Ricavare un intervallo in cui cade il p-value del test al punto 1. Quali conclusioni si
traggono da esso sulla forma fisica dei due gruppi d’assalto?
Si supponga ora che le varianze del numero di flessioni nei due gruppi siano entrambe uguali
a 361.
3. Qual è la distribuzione della differenza tra le due medie campionarie delle flessioni eseguite
dai due gruppi?
4. Se si considera un intervallo di confidenza bilaterale per la differenza delle medie delle
flessioni eseguite nei due gruppi di livello 1 − α, determinare la disuguaglianza che deve
soddisfare α affinché la lunghezza dell’intervallo sia al più 25.
Soluzione Si tratta di confrontare le medie di due campioni gaussiani indipendenti, X1S , . . . , XnS
iid
iid
P ∼ N (µ , σ 2 ), con n = m = 10, dove X S e X P rappresentano
∼ N (µS , σS2 ) e X1P , . . . , Xm
P
i
i
P
il numero di flessioni a terra eseguite dall’i-esimo Seal o paracadutista, rispettivamente. Le
medie e varianze campionarie sono, rispettivamente, x̄S = 98.35, s2S = 312.2717, x̄P = 107.56,
s2P = 337.1849.
1. Le ipotesi da verificare sono H0 : µS ≥ µP contro H1 : µS < µP .
La statistica test è
X̄ S − X̄ P
H0
T0 := q
∼ t(n + m − 2);
1
2
( n1 + m
Spooled
)
si rifiuta H0 al livello α se e solo se
t0 < −tα,n+m−2 .
Con i dati a nostra disposizione, s2pooled = ((n−1)s2S +(m−1)s2P )/(n+m−2) = 324.7283, e
p
il valore osservato della statistica test è t0 = (98.35 − 107.56)/ 324.7283(1/5) = −1.1428.
Poiché −1.1428 = t0 > −tα,n+m−2 = −t0.01,18 = −2.552 non si può rifiutare H0 (cioè
l’ipotesi che i Seal siano più preparati dei paracadutisti) a livello α = 1%.
2. Il valore esatto del p-value al punto 1. è Ftn+m−2 (t) = Ft18 (−1.1428) = 0.1340. Dalle tavole
si ricava che p-value= 1 − Ft18 (1.1428) ∈ (0.1, 0.25). Non c’è evidenza sperimentale contro
l’ipotesi H0 che gli statunitensi siano più forti.
3. In questo caso, poiché σS2 = σP2 = 361, la statistica
X̄ S − X̄ P ∼ N (µS − µP , 361(1/10 + 1/10) = 72.2).
4. L’intervallo di confidenza cercato si ricava dal pivot (si veda la soluzione del punto precedente):
X̄ S − X̄ P − (µS − µP )
√
∼ N (0, 1).
72.2
√
Pertanto, un IC per µS − µP di livello di confidenza 1 − α ha lunghezza 2zα/2 72.2.
Imponendo che questa quantità sia al più 25 si trova
√
α
2zα/2 72.2 ≤ 25 ⇔ zα/2 ≤ 1.4711 ⇔ 1 − ≤ Φ(1.4711) = 0.9294
2
⇔ α ≥ 2(1 − Φ(1.4711)) = 0.1412.
Esercizio 2 Un esperto di biologia marina vuole studiare la durata di vita (espressa in giorni)
di un certo pesce esotico. Egli registra il numero di pesci deceduti nel tempo, su 60 uova deposte,
a partire dalla loro schiusura, ottenendo i seguenti risultati:
GIORNI di VITA
DECESSI
(0,1)
2
[1, 7)
4
[7, 30)
8
[30, 180)
11
[180, 365)
7
[365, 730)
6
[730, +∞)
;
22
quindi 2 pesci sono vissuti meno di 1 giorno, 4 pesci sono vissuti tra 1 e 7 giorni, ecc.. Il
biologo vuole verificare se queste osservazioni provengano da una legge Weibull, con funzione di
ripartizione
β
F (t) = 1 − e−λt 1(0,+∞) (t).
Egli sospetta che la durata di vita media di questa specie sia di 2 anni (1 anno = 365 giorni) e
sa che il parametro di forma è β = 1/2.
1. Nell’ipotesi che i dati provengano effettivamente dalla distribuzione sospettata, quali sono
le probabilità da essa assegnate a ciascuna delle classi in tabella? Si verifichino le condizioni
necessarie all’utilizzo di un test chi-quadrato di buon adattamento. Se le ipotesi non
sono soddisfatte, si modifichino opportunamente le classi. (Suggerimento: la media della
distribuzione Weibull(λ, β) è λ−1/β Γ(1 + 1/β).)
2. Si effettui un test di livello di significatività del 5% per verificare l’ipotesi nulla che il tempo
di vita segua la distribuzione ipotizzata. Si scrivano esplicitamente le ipotesi da sottoporre
a verifica, la regione di rifiuto e le conclusioni del test.
3. Si calcoli il p-value del test al punto 2. Che conclusioni si traggono circa il sospetto del
biologo?
Soluzione
1. Imponendo che 2 · 365 = λ−1/β Γ(1 + 1/β) = λ−2 Γ(3) = 2/λ2 , si ricava λ =
β = 1/2. Le probabilità richieste p0i sono riportate nella tabella che segue:
Giorni
ni
p0i
np0i
(0,1)
2
0.0510
3.06
[1,7)
4
0.0783
4.698
[7,30)
8
0.1199
7.194
[30,180)
11
0.2553
15.318
[180,365)
7
0.1276
7.656
[365, 730)
6
0.1248
7.488
p
1/365 e
[730,+∞)
22
.
0.2431
14.586
Le condizioni da verificare per la validità del test chi-quadrato sono n > 50 e np0i > 5
per i = 1, . . . , 7. La prima condizione è verificata, ma, visto che np01 ≤ 5 e np02 ≤ 5, è
necessario unire le prime due classi, ottenendo k = 6 classi e le corrispondenti probabilità
teoriche:
Giorni
ni
p0i
np0i
(0,7)
6
0.1293
7.758
[7,30)
8
0.12
7.194
[30,180)
11
0.2553
15.318
[180,365)
7
0.1276
7.656
[365 730)
6
0.1248
7.488
[730,+∞)
22
.
0.2431
14.586
2. Si tratta di verificare
p le ipotesi:
p
H0 : F =Weibull( 1/365, 1/2) vs. H1 : F 6=Weibull( 1/365, 1/2) con livello di significatività α = 0.05. La statistica test è data da
Qn =
6
X
(ni − np0i )2
i=1
np0i
H0
∼ χ2k−1 = χ25
e rifiutiamo H0 se e solo se Qn > χ2α,k−1 . Con i nostri dati otteniamo q60 = 5.8263 <
11.07 = χ2
, quindi non possiamo rifiutare H0 al livello del 5%.
3. Il p-value è pari a
1 − Fχ25 (5.8263) = 0.3235 ∈ (0.1, 0.5),
quindi non c’è evidenza contro H0 . I dati
psono in accordo con l’ipotesi che la distribuzione
del tempo di vita dei pesci sia Weibull( 1/365, 1/2).
Esercizio 3 È noto che lo sforzo massimo di collegamento (bond strength) in MegaPascal (MPa)
di un composto termoplastico prodotto con un processo di tipo laser assisted tape winding
dipende dalla potenza (in watt) del laser utilizzato. Si vuole verificare se il modello di regressione
lineare semplice dello sforzo massimo del composto sulla potenza del laser si adatti ai dati. Sono
riportate le statistiche riassuntive per n = 20 dati sulla potenza (x) in watt (W) del laser e il
corrispondente sforzo massimo del materiale termoplastico (Y ) in MegaPascal (MPa):
20
X
xi = 973
1
20
X
yi = 693
1
20
X
xi yi = 34255.4
1
20
X
x2i = 48821
20
X
1
yi2 = 24711.6.
1
1. Sulla base dei dati a disposizione, si stimino i coefficienti di regressione del modello lineare
semplice di Y su x col metodo dei minimi quadrati.
2. C’è evidenza sperimentale che lo sforzo massimo del composto dipende dalla potenza del
laser? Si ricavi il p-value del test, o in alternativa si fissi il livello di significatività pari al
5%. Scrivere esplicitamente le ipotesi da verificare.
3. Si ricavi un intervallo di previsione al 99.5% per lo sforzo massimo del composto quando
la potenza del laser è di 50 W.
4. Ricavare il coefficiente di determinazione R2 del modello lineare e il coefficiente di correlazione campionario (in modulo e segno) tra x e Y . Il modello lineare stimato si adatta
bene ai dati? Perché?
Soluzione
1. Dai dati si ricava
x̄ = 48.65 ȳ = 34.65,
Sxy =
n
X
xi yi − nx̄ȳ = 540.95
1
Sxx =
n
X
x2i − n(x̄)2 = 1484.55
1
Syy =
n
X
yi2 − n(ȳ)2 = 699.15.
1
Pertanto
β̂1 =
Sxy
= 0.3644,
Sxx
β̂0 = ȳ − β̂1 x̄ = 16.9220.
2. Si tratta di verificare, per esempio a livello di significatività α = 5%, le ipotesi
p
H
H0 : β1 = 0 contro H1 : β1 6= 0. La statistica test è T0 := βb1 / σ̂ 2 /Sxx ∼0 t(n − 2).
S2
xy
Poiché la somma dei residui al quadrato vale SSr = Syy − Sxx
= 502.0351, si ha σ̂ 2 =
SSr
n−2 = 27.8908 e il valore osservato della statistica test è t0 = 2.6586. Dunque, poiché
2.6586 = |t0 | > tα/2,n−2 = t0.025,18 = 2.10, si rifiuta H0 a livello di significatività del 5%. Il
p-value del test è p-value=2(1 − Ft18 (|t0 |) = 0.0160, con T ∼ t18 . Dalle tavole si ricava solo
che il p-value ∈ (0.01, 0.02); pertanto, c’è moderata evidenza sperimentale che lo sforzo
massimo dipenda dalla potenza del laser (linearmente).
3. Una stima puntuale di Y0 , corrispondente al valore
rdelregressore pari a 50, è yb0 = β̂0 +
2
β̂1 50 = 35.142; da tα/2,n−2 = t0.0025,18 = 3.197 e σ̂ 2 1 + n1 + (50−x̄)
= 5.4148 segue
Sxx
che l’intervallo richiesto è
s s 2
(50
−
x̄)
1
1 (50 − x̄)2
2
2
, yb0 + t α2 ,n−2 σ̂ 1 + +
)
(yb0 − t α2 ,n−2 σ̂ 1 + +
n
Sxx
n
Sxx
= (17.8310, 52.4531).
4. Il coefficiente di determinazione R2 è
R2 = 1 −
SSr
502.0351
=1−
= 0.2819.
Syy
699.15
Il coefficiente di correlazione lineare empirico è
√
ρxy = + R2 = +0.5309;
il segno di ρxy è positivo perché coincide col segno di β̂1 . Il modello lineare di Y su x non
si adatta bene ai dati, perché solo il 28% circa della variabilità dei dati viene spiegata da
esso.
Esercizio 4 Il cannoniere di una nave pirata, amante della statistica, si vanta di poter colpire un
bersaglio sulla spiaggia, ad una certa distanza dalla nave, con grande precisione. In particolare,
egli afferma di centrare mediamente il bersaglio e che la deviazione standard della distanza di
tiro sia minore di 5 metri. Il capitano della nave, che è l’unico altro membro dell’equipaggio che
conosca la statistica, vuole verificare se il cannoniere sia bugiardo e, in tal caso, lo condannerebbe
a morte. Per questa ragione, vengono misurate le distanze (dalla nave) raggiunte dalla palla di
cannone per 20 tiri. Le misure ottenute, che è lecito assumere gaussiane, sono riassunte dalle
seguenti quantità:
20
20
X
X
xi = 4020
x2i = 808720.
i=1
i=1
1. Si fornisca una stima puntuale della varianza delle distanze di tiro.
2. Si può affermare che il cannoniere dica il falso riguardo alla precisione del suo tiro, a un
livello di significatività pari a 0.05?
3. Con i dati a disposizione, si calcoli il minimo livello del test ricavato al punto 2. per cui il
capitano possa condannare a morte il cannoniere perché ha mentito.
4. Si fornisca un intervallo di confidenza bilatero di livello 99% per la varianza della distanza
di tiro.
Soluzione I dati sono una realizzazione da un campione aleatorio X1 , . . . , X20 da N (µ, σ 2 ).
Dai dati si ottiene x̄20 = 201.
1. Stimiamo σ 2 utilizzando la varianza campionaria s220 delle distanze di tiro:
P20 2
P20
2
x − 20x̄2
808720 − 20 · 2012
2
i=1 (xi − x̄)
= i=1 i
=
= 36.8421.
s20 =
n−1
19
19
2. Vogliamo testare H0 : σ 2 ≤ σ02 vs. H1 : σ 2 > σ02 , dove σ02 = 25, ad un livello di significatività del 5%. La statistica test è (n − 1)Sn2 /σ02 , la quale è distribuita come una χ2 (n − 1),
quindi la regione di rifiuto del test è:
s220
2
20
R = (x1 , . . . , x20 ) ∈ R : 19 2 > χ0.05,19 .
σ0
Poiché la statistica test osservata vale 19s220 /σ02 = 28.0000 < χ20.05,19 = 30.14, non possiamo
rifiutare H0 al livello di significatività del 5%. Non si può affermare che il cannoniere dica
il falso a livello del 5%.
3. Per ottenere il livello richiesto dobbiamo calcolare il p-value del test al punto 2., il cui
valore esatto è
s220
p − value = 1 − Fχ2 (n−1) 19 2 = 0.0834.
σ0
Dalle tavole otteniamo che il p-value sta nell’intervallo (0.05,0.10). Dunque, il comandante dovrebbe scegliere un un livello di significatività di almeno il 10% per condannare il
cannoniere.
4. Con α = 0.01, si legge dalle tavole che χ20.005,19 = 38.58, χ20.995,19 = 6.84, e dunque
l’intervallo di confidenza richiesto per la varianza σ 2 è
!
!
(n − 1)s2n (n − 1)s2n
19s220
19s220
,
=
,
= (18.1441, 102.3392).
χ2α/2,n−1 χ21−α/2,n−1
χ20.005,19 χ20.995,19

Seconda Prova in Itinere di Statistica. Allievi MEC

Transcript

Documenti analoghi

Palazzo della Borsa

tab. 1. Test di Cochran tè/assenza: socializzazione

metodi quantitativi per le decisioni aziendali

Nasce in Cattolica il Laboratorio di Statistica Applicata alle decisioni

Gli errori nella verifica delle ipotesi

n. 2 - Società italiana di statistica

SCHEDA DOCENTE PROGRAMMA - A.A. 2016

Matematica II: Calcolo delle Probabilit`a e Statistica Matematica

1. Di seguito è riportata la distribuzione percentuale di un campione

Il mediatore dell`inserimento lavorativo aiuta il soggetto ad avere

I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning

per gli allievi INF e TEL, AA 2008/2009∗ Verifica di