Seconda Prova in Itinere di Statistica. Allievi MEC
Transcript
Seconda Prova in Itinere di Statistica. Allievi MEC
Seconda Prova in Itinere di Statistica. Allievi MEC - sede di BOVISA Prof.ssa A. Guglielmi 30.06.11 © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Cognome e Nome: Matricola: Giustificare adeguatamente tutte le risposte. Esercizi Esercizio 1 Due gruppi di reparti speciali, i Navy Seal statunitensi e i Paracadutisti d’assalto italiani, si sfidano per verificare quale dei due gruppi sia più in forma. Per questa ragione, vengono selezionati a caso 10 Seal e 10 paracadutisti, e viene registrato per ognuno di essi il numero di flessioni a terra eseguite in due minuti. I dati, calcolati come valori medi su più ripetizioni della prova, sono i seguenti: SEAL : 94.7 132.6 74.9 104.6 103.5 106.7 69.1 101.1 92.0 104.3 PARACADUTISTI : 150 84.1 105.3 101 108.1 115.3 114.4 94.2 89.8 113.4 Con buona approssimazione, si può ritenere che i dati siano gaussiani, con varianze incognite ma uguali. 1. Sulla base dei dati a disposizione, si può affermare che i paracadutisti italiani sono più in forma dei Seal al livello di significatività dell’1%? Scrivere esplicitamente le ipotesi da sottoporre a verifica e le conclusioni di un opportuno test. 2. Ricavare un intervallo in cui cade il p-value del test al punto 1. Quali conclusioni si traggono da esso sulla forma fisica dei due gruppi d’assalto? Si supponga ora che le varianze del numero di flessioni nei due gruppi siano entrambe uguali a 361. 3. Qual è la distribuzione della differenza tra le due medie campionarie delle flessioni eseguite dai due gruppi? 4. Se si considera un intervallo di confidenza bilaterale per la differenza delle medie delle flessioni eseguite nei due gruppi di livello 1 − α, determinare la disuguaglianza che deve soddisfare α affinché la lunghezza dell’intervallo sia al più 25. Soluzione Si tratta di confrontare le medie di due campioni gaussiani indipendenti, X1S , . . . , XnS iid iid P ∼ N (µ , σ 2 ), con n = m = 10, dove X S e X P rappresentano ∼ N (µS , σS2 ) e X1P , . . . , Xm P i i P il numero di flessioni a terra eseguite dall’i-esimo Seal o paracadutista, rispettivamente. Le medie e varianze campionarie sono, rispettivamente, x̄S = 98.35, s2S = 312.2717, x̄P = 107.56, s2P = 337.1849. 1. Le ipotesi da verificare sono H0 : µS ≥ µP contro H1 : µS < µP . La statistica test è X̄ S − X̄ P H0 T0 := q ∼ t(n + m − 2); 1 2 ( n1 + m Spooled ) si rifiuta H0 al livello α se e solo se t0 < −tα,n+m−2 . Con i dati a nostra disposizione, s2pooled = ((n−1)s2S +(m−1)s2P )/(n+m−2) = 324.7283, e p il valore osservato della statistica test è t0 = (98.35 − 107.56)/ 324.7283(1/5) = −1.1428. Poiché −1.1428 = t0 > −tα,n+m−2 = −t0.01,18 = −2.552 non si può rifiutare H0 (cioè l’ipotesi che i Seal siano più preparati dei paracadutisti) a livello α = 1%. 2. Il valore esatto del p-value al punto 1. è Ftn+m−2 (t) = Ft18 (−1.1428) = 0.1340. Dalle tavole si ricava che p-value= 1 − Ft18 (1.1428) ∈ (0.1, 0.25). Non c’è evidenza sperimentale contro l’ipotesi H0 che gli statunitensi siano più forti. 3. In questo caso, poiché σS2 = σP2 = 361, la statistica X̄ S − X̄ P ∼ N (µS − µP , 361(1/10 + 1/10) = 72.2). 4. L’intervallo di confidenza cercato si ricava dal pivot (si veda la soluzione del punto precedente): X̄ S − X̄ P − (µS − µP ) √ ∼ N (0, 1). 72.2 √ Pertanto, un IC per µS − µP di livello di confidenza 1 − α ha lunghezza 2zα/2 72.2. Imponendo che questa quantità sia al più 25 si trova √ α 2zα/2 72.2 ≤ 25 ⇔ zα/2 ≤ 1.4711 ⇔ 1 − ≤ Φ(1.4711) = 0.9294 2 ⇔ α ≥ 2(1 − Φ(1.4711)) = 0.1412. Esercizio 2 Un esperto di biologia marina vuole studiare la durata di vita (espressa in giorni) di un certo pesce esotico. Egli registra il numero di pesci deceduti nel tempo, su 60 uova deposte, a partire dalla loro schiusura, ottenendo i seguenti risultati: GIORNI di VITA DECESSI (0,1) 2 [1, 7) 4 [7, 30) 8 [30, 180) 11 [180, 365) 7 [365, 730) 6 [730, +∞) ; 22 quindi 2 pesci sono vissuti meno di 1 giorno, 4 pesci sono vissuti tra 1 e 7 giorni, ecc.. Il biologo vuole verificare se queste osservazioni provengano da una legge Weibull, con funzione di ripartizione β F (t) = 1 − e−λt 1(0,+∞) (t). Egli sospetta che la durata di vita media di questa specie sia di 2 anni (1 anno = 365 giorni) e sa che il parametro di forma è β = 1/2. 1. Nell’ipotesi che i dati provengano effettivamente dalla distribuzione sospettata, quali sono le probabilità da essa assegnate a ciascuna delle classi in tabella? Si verifichino le condizioni necessarie all’utilizzo di un test chi-quadrato di buon adattamento. Se le ipotesi non sono soddisfatte, si modifichino opportunamente le classi. (Suggerimento: la media della distribuzione Weibull(λ, β) è λ−1/β Γ(1 + 1/β).) 2. Si effettui un test di livello di significatività del 5% per verificare l’ipotesi nulla che il tempo di vita segua la distribuzione ipotizzata. Si scrivano esplicitamente le ipotesi da sottoporre a verifica, la regione di rifiuto e le conclusioni del test. 3. Si calcoli il p-value del test al punto 2. Che conclusioni si traggono circa il sospetto del biologo? Soluzione 1. Imponendo che 2 · 365 = λ−1/β Γ(1 + 1/β) = λ−2 Γ(3) = 2/λ2 , si ricava λ = β = 1/2. Le probabilità richieste p0i sono riportate nella tabella che segue: Giorni ni p0i np0i (0,1) 2 0.0510 3.06 [1,7) 4 0.0783 4.698 [7,30) 8 0.1199 7.194 [30,180) 11 0.2553 15.318 [180,365) 7 0.1276 7.656 [365, 730) 6 0.1248 7.488 p 1/365 e [730,+∞) 22 . 0.2431 14.586 Le condizioni da verificare per la validità del test chi-quadrato sono n > 50 e np0i > 5 per i = 1, . . . , 7. La prima condizione è verificata, ma, visto che np01 ≤ 5 e np02 ≤ 5, è necessario unire le prime due classi, ottenendo k = 6 classi e le corrispondenti probabilità teoriche: Giorni ni p0i np0i (0,7) 6 0.1293 7.758 [7,30) 8 0.12 7.194 [30,180) 11 0.2553 15.318 [180,365) 7 0.1276 7.656 [365 730) 6 0.1248 7.488 [730,+∞) 22 . 0.2431 14.586 2. Si tratta di verificare p le ipotesi: p H0 : F =Weibull( 1/365, 1/2) vs. H1 : F 6=Weibull( 1/365, 1/2) con livello di significatività α = 0.05. La statistica test è data da Qn = 6 X (ni − np0i )2 i=1 np0i H0 ∼ χ2k−1 = χ25 e rifiutiamo H0 se e solo se Qn > χ2α,k−1 . Con i nostri dati otteniamo q60 = 5.8263 < 11.07 = χ2 , quindi non possiamo rifiutare H0 al livello del 5%. 3. Il p-value è pari a 1 − Fχ25 (5.8263) = 0.3235 ∈ (0.1, 0.5), quindi non c’è evidenza contro H0 . I dati psono in accordo con l’ipotesi che la distribuzione del tempo di vita dei pesci sia Weibull( 1/365, 1/2). Esercizio 3 È noto che lo sforzo massimo di collegamento (bond strength) in MegaPascal (MPa) di un composto termoplastico prodotto con un processo di tipo laser assisted tape winding dipende dalla potenza (in watt) del laser utilizzato. Si vuole verificare se il modello di regressione lineare semplice dello sforzo massimo del composto sulla potenza del laser si adatti ai dati. Sono riportate le statistiche riassuntive per n = 20 dati sulla potenza (x) in watt (W) del laser e il corrispondente sforzo massimo del materiale termoplastico (Y ) in MegaPascal (MPa): 20 X xi = 973 1 20 X yi = 693 1 20 X xi yi = 34255.4 1 20 X x2i = 48821 20 X 1 yi2 = 24711.6. 1 1. Sulla base dei dati a disposizione, si stimino i coefficienti di regressione del modello lineare semplice di Y su x col metodo dei minimi quadrati. 2. C’è evidenza sperimentale che lo sforzo massimo del composto dipende dalla potenza del laser? Si ricavi il p-value del test, o in alternativa si fissi il livello di significatività pari al 5%. Scrivere esplicitamente le ipotesi da verificare. 3. Si ricavi un intervallo di previsione al 99.5% per lo sforzo massimo del composto quando la potenza del laser è di 50 W. 4. Ricavare il coefficiente di determinazione R2 del modello lineare e il coefficiente di correlazione campionario (in modulo e segno) tra x e Y . Il modello lineare stimato si adatta bene ai dati? Perché? Soluzione 1. Dai dati si ricava x̄ = 48.65 ȳ = 34.65, Sxy = n X xi yi − nx̄ȳ = 540.95 1 Sxx = n X x2i − n(x̄)2 = 1484.55 1 Syy = n X yi2 − n(ȳ)2 = 699.15. 1 Pertanto β̂1 = Sxy = 0.3644, Sxx β̂0 = ȳ − β̂1 x̄ = 16.9220. 2. Si tratta di verificare, per esempio a livello di significatività α = 5%, le ipotesi p H H0 : β1 = 0 contro H1 : β1 6= 0. La statistica test è T0 := βb1 / σ̂ 2 /Sxx ∼0 t(n − 2). S2 xy Poiché la somma dei residui al quadrato vale SSr = Syy − Sxx = 502.0351, si ha σ̂ 2 = SSr n−2 = 27.8908 e il valore osservato della statistica test è t0 = 2.6586. Dunque, poiché 2.6586 = |t0 | > tα/2,n−2 = t0.025,18 = 2.10, si rifiuta H0 a livello di significatività del 5%. Il p-value del test è p-value=2(1 − Ft18 (|t0 |) = 0.0160, con T ∼ t18 . Dalle tavole si ricava solo che il p-value ∈ (0.01, 0.02); pertanto, c’è moderata evidenza sperimentale che lo sforzo massimo dipenda dalla potenza del laser (linearmente). 3. Una stima puntuale di Y0 , corrispondente al valore rdelregressore pari a 50, è yb0 = β̂0 + 2 β̂1 50 = 35.142; da tα/2,n−2 = t0.0025,18 = 3.197 e σ̂ 2 1 + n1 + (50−x̄) = 5.4148 segue Sxx che l’intervallo richiesto è s s 2 (50 − x̄) 1 1 (50 − x̄)2 2 2 , yb0 + t α2 ,n−2 σ̂ 1 + + ) (yb0 − t α2 ,n−2 σ̂ 1 + + n Sxx n Sxx = (17.8310, 52.4531). 4. Il coefficiente di determinazione R2 è R2 = 1 − SSr 502.0351 =1− = 0.2819. Syy 699.15 Il coefficiente di correlazione lineare empirico è √ ρxy = + R2 = +0.5309; il segno di ρxy è positivo perché coincide col segno di β̂1 . Il modello lineare di Y su x non si adatta bene ai dati, perché solo il 28% circa della variabilità dei dati viene spiegata da esso. Esercizio 4 Il cannoniere di una nave pirata, amante della statistica, si vanta di poter colpire un bersaglio sulla spiaggia, ad una certa distanza dalla nave, con grande precisione. In particolare, egli afferma di centrare mediamente il bersaglio e che la deviazione standard della distanza di tiro sia minore di 5 metri. Il capitano della nave, che è l’unico altro membro dell’equipaggio che conosca la statistica, vuole verificare se il cannoniere sia bugiardo e, in tal caso, lo condannerebbe a morte. Per questa ragione, vengono misurate le distanze (dalla nave) raggiunte dalla palla di cannone per 20 tiri. Le misure ottenute, che è lecito assumere gaussiane, sono riassunte dalle seguenti quantità: 20 20 X X xi = 4020 x2i = 808720. i=1 i=1 1. Si fornisca una stima puntuale della varianza delle distanze di tiro. 2. Si può affermare che il cannoniere dica il falso riguardo alla precisione del suo tiro, a un livello di significatività pari a 0.05? 3. Con i dati a disposizione, si calcoli il minimo livello del test ricavato al punto 2. per cui il capitano possa condannare a morte il cannoniere perché ha mentito. 4. Si fornisca un intervallo di confidenza bilatero di livello 99% per la varianza della distanza di tiro. Soluzione I dati sono una realizzazione da un campione aleatorio X1 , . . . , X20 da N (µ, σ 2 ). Dai dati si ottiene x̄20 = 201. 1. Stimiamo σ 2 utilizzando la varianza campionaria s220 delle distanze di tiro: P20 2 P20 2 x − 20x̄2 808720 − 20 · 2012 2 i=1 (xi − x̄) = i=1 i = = 36.8421. s20 = n−1 19 19 2. Vogliamo testare H0 : σ 2 ≤ σ02 vs. H1 : σ 2 > σ02 , dove σ02 = 25, ad un livello di significatività del 5%. La statistica test è (n − 1)Sn2 /σ02 , la quale è distribuita come una χ2 (n − 1), quindi la regione di rifiuto del test è: s220 2 20 R = (x1 , . . . , x20 ) ∈ R : 19 2 > χ0.05,19 . σ0 Poiché la statistica test osservata vale 19s220 /σ02 = 28.0000 < χ20.05,19 = 30.14, non possiamo rifiutare H0 al livello di significatività del 5%. Non si può affermare che il cannoniere dica il falso a livello del 5%. 3. Per ottenere il livello richiesto dobbiamo calcolare il p-value del test al punto 2., il cui valore esatto è s220 p − value = 1 − Fχ2 (n−1) 19 2 = 0.0834. σ0 Dalle tavole otteniamo che il p-value sta nell’intervallo (0.05,0.10). Dunque, il comandante dovrebbe scegliere un un livello di significatività di almeno il 10% per condannare il cannoniere. 4. Con α = 0.01, si legge dalle tavole che χ20.005,19 = 38.58, χ20.995,19 = 6.84, e dunque l’intervallo di confidenza richiesto per la varianza σ 2 è ! ! (n − 1)s2n (n − 1)s2n 19s220 19s220 , = , = (18.1441, 102.3392). χ2α/2,n−1 χ21−α/2,n−1 χ20.005,19 χ20.995,19