Tema - andreadd.it
Transcript
Tema - andreadd.it
Politecnico di Milano - Scuola di Ingegneria Industriale e dell’Informazione Secondo Appello di Statistica per Ingegneria Energetica 17 Settembre 2013 c diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. I Cognome, Nome e Numero di matricola: Problema 1. Ogni giorno Salvatore percorre contromano, alla velocità v di 15 Km/h, una strada lunga 125 metri. La strada viene imboccata dall’altro capo da una macchina ogni 5 minuti, in media, secondo un processo di Poisson. Salvatore aspetta ad imboccare la strada contromano finché non è libera, ma chiaramente questo non impedisce che altre macchine giungano prima che lui arrivi in fondo. Calcolare: (a) il numero medio di macchine incrociate giornalmente da Salvatore mentre pedala contromano, (b) la percentuale di giorni in cui percorre tutta la strada contromano senza incrociare auto, (c) quale velocità v gli permetterebbe di dimezzare il numero calcolato in (a), (d) quale velocità v gli permetterebbe di portare al 95% la percentuale calcolata in (b). Soluzione. Posto N (t) = numero di macchine che imboccano la strada nell’intervallo di tempo [0, t], otteniamo un processo di Poisson di intensità λ = 1/5 min−1 , per cui N (t) ∼ P (λt). Posto X = numero di macchine incrociate da Salvatore, dato che Salvatore aspetta ad imboccare la strada contromano finché non è libera, otteniamo X = N (T ), dove T è il tempo che Salvatore impiega a percorrere la strada: T = 125 m s = = 0.5 min = 30 sec v 15 Km h−1 (a) EX = E N (T ) = λT = 0.1. (b) P (X = 0) = P N (T ) = 0 = e−λT = e−0.1 = 0.9048 = 90.48%. (c) 0.05 = EX = λs 125 m 1 = v 5 min v (d) 0.95 = P (X = 0) = e− λs v ⇒ ⇒ v= v= 125 m = 500 m/min = 30 Km/h. 0.05 · 5 min λs = 487.39 m/min = 29.24 Km/h. log(1/0.95) 1 Problema 2. I cerotti di nicotina vengono spesso usati per smettere di fumare. Il centro per la tutela della salute pubblica, in base a dati di letteratura ritiene efficace un trattamento nel caso in cui almeno il 20% dei soggetti risponde in modo positivo al trattamento. L’azienza NoNic deve decidere se proporre un nuovo tipo di cerotto e lo sperimenta su un gruppo di 224 fumatori. Dopo 6 mesi 58 soggetti avevano smesso di fumare. (a) Dopo aver impostato un opportuno test d’ipotesi, si concluda al livello α pari a 5% se il cerotto proposto da NoNic può essere ritenuto efficace. (b) Calcolare il p-value del test eseguito al punto (a). Il capo del laboratorio sperimentale di NoNic, ispirato da una lettura istruttiva, decide di sperimentare un nuovo trattamento in cui i fumatori utilizzano i cerotti associati ad un antidepressivo. Assegna questo trattamento a 245 fumatori e dopo 6 mesi osserva che 67 di questi avevano smesso di fumare. (c) Dopo aver impostato un opportuno test d’ipotesi, si concluda al livello α pari a 1% se il nuovo trattamento integrato è più efficace del solo cerotto. (d) Calcolare il p-value del test eseguito al punto (c). Soluzione. (a) Detta p la percentuale di soggetti risponde in modo positivo al nuovo cerotto, si vuole verificare l’ipotesi nulla H0 : p = 0.2 contro l’alternativa H1 : p > 0.2. La stima puntuale di p è pari a 58/224 = 0.2589. Il valore della statistica test è z0 = √0.2589−0.2 = 2.2049. Dato che 2.2049 > 0.2∗0.8/224 z0.95 = 1.645 al livello 5% si rifiuta l’ipotesi nulla: vi è evidenza statistica per dichiarare efficace il trattamento. (b) p-value = 1 − φ(2.2049) = 0.0137. (c) Detta p1 la percentuale di soggetti risponde in modo positivo al nuovo cerotto associato all’antidepressivo, si vuole verificare l’ipotesi nulla H0 : p1 = p contro l’alternativa H1 : p1 > p. La stima puntuale di p1 è pari a 67/245 = 0.2735. Sotto H0 , la stima comune di p = p1 è (58 + 67)/(224 + 245) = 0.2665. Il valore della statistica test è pari a z0 = q 0.2735 − 0.2589 1 0.2665 ∗ (1 − 0.2665) ∗ ( 224 + = 0.3558. 1 245 ) Al 1% non posso rifiutare H0 dato che 0.3558 < z0.99 = 2.3263: non vi è evidenza statistica per dichiarare il nuovo trattamento integrato più efficace del solo cerotto. (d) p-value = 1 − φ(0.3558) = 0.361. 2 Problema 3. Un gruppo di 24 macchine fresatrici dello stesso modello sono state monitorate negli ultimi anni. Per ciascuna di esse è stato annotato il tempo di funzionamento xi (in decine di migliaia di ore) ed il numero yi di interventi umani (settaggi, piccole riparazioni, . . . ) che nell’arco di tale periodo si sono resi necessari. I dati raccolti sono rappresentati nel diagramma di dispersione a fianco, mentre alcuni valori di sintesi sono P P P 2 P 2 P xi = 46.46, yi = 597, xi = 97.207, yi = 18293, xi yi = 1305.28. Eseguendo una regressione lineare dei dati, con responso Y e predittore x, si ottiene Coefficients: Estimate (Intercept) -14.967 tempo.funz 20.581 Std. Error 3.036 1.509 t value -4.929 13.642 Pr(>|t|) 6.25e-05 3.26e-12 Residual standard error: 4.067 on 22 degrees of freedom Multiple R-squared: 0.8943, Adjusted R-squared: 0.8895 F-statistic: 186.1 on 1 and 22 DF, p-value: 3.262e-11 (a) Scrivere la relazione empirica supposta valida, nel calcolo delle grandezze sopra riportate, fra Y e x e la conseguente relazione fra E[Y ] e x. (b) La relazione empirica ipotizzata è confermata dai risultati della regressione riportati? Perché? Eseguendo invece una regressione lineare dei dati, con responso Y e predittore ex , si ottiene Coefficients: (Intercept) tempo.funz Estimate 0.6653 3.0451 Std. Error 0.9356 0.1057 t value 0.711 28.796 Pr(>|t|) 0.485 <2e-16 Residual standard error: 2.011 on 22 degrees of freedom Multiple R-squared: 0.8747, Adjusted R-squared: 0.973 F-statistic: 829.2 on 1 and 22 DF, p-value: <2.2e-16 (c) Scrivere la relazione empirica supposta valida, nel calcolo delle grandezze sopra riportate, fra Y e x e la conseguente relazione fra E[Y ] e x. (d) La relazione empirica ipotizzata è confermata dai risultati della regressione riportati? Perché? (e) Confrontare i due modelli elaborati. (f) Stimare quindi la relazione fra E[Y ] e x. (g) Stimare con un intervallo al 90% il numero medio di interventi richiesti delle macchine con 20000 ore di lavoro. (h) Se qualcuno volesse semplificare il modello “esponenziale” e creare una ricetta di facile utilizzo per prevedere il numero di guasti ponendo E[Y ] = 3 ex , vi sarebbero ragioni di opporsi? 3 Soluzione. (a) Y = β0 + β1 x + , con ∼ N (0, σ 2 ), per cui E[Y ] = β0 + β1 x. (b) Il grafico dei residui NON CONFERMA l’ipotesi gaussiana del modello empirico. (c) Y = β0 + β1 ex + , con ∼ N (0, σ 2 ), per cui E[Y ] = β0 + β1 ex . (d) Il grafico dei residui CONFERMA l’ipotesi gaussiana del modello empirico. (e) Il secondo modello è sicuramente da preferire: nonostante abbia un R2 inferiore (e comunque R2 = 0.8747 > 0.8), è l’unico modello per cui le elaborazioni fornite confermino l’ipotesi gaussiana. Inoltre questa regressione è molto significativa, per quanto non lo sia l’intercetta (sarebbe da valutarne l’eliminazione). [] = 0.6653 + 3.0451 ex . (f) E[Y (g) Ricordando che e2 = 7.389, si trova [22.453; 23.878]. (h) Per il modello “esponenziale”, possiamo riformulare la domanda in termini di verifica d’ipotesi, si tratta di sottoporre a verifica i sistemi ( ( H0 : β 0 = 0 H0 : β1 = 3 H1 : β0 6= 0 H1 : β1 6= 3 Il risultato del test su β0 è già contenuto nell’output di R: il p-value supera il 45%, dunque appare impossibile rifiutare l’ipotesi nulla. Per il test su β1 , la statistica test è t = 3.0451−3 0.1057 ' 0.427 e basta un’occhiata alle tavole della t per rendersi conto che agli usuali livelli è impossibile rifiutare H0 (il p-value è circa 33.7%). 4