Tema - andreadd.it

Transcript

Tema - andreadd.it
Politecnico di Milano - Scuola di Ingegneria Industriale e dell’Informazione
Secondo Appello di Statistica per Ingegneria Energetica
17 Settembre 2013
c diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
I
Cognome, Nome e Numero di matricola:
Problema 1. Ogni giorno Salvatore percorre contromano, alla velocità v di 15 Km/h, una strada lunga
125 metri. La strada viene imboccata dall’altro capo da una macchina ogni 5 minuti, in media, secondo
un processo di Poisson. Salvatore aspetta ad imboccare la strada contromano finché non è libera, ma
chiaramente questo non impedisce che altre macchine giungano prima che lui arrivi in fondo. Calcolare:
(a) il numero medio di macchine incrociate giornalmente da Salvatore mentre pedala contromano,
(b) la percentuale di giorni in cui percorre tutta la strada contromano senza incrociare auto,
(c) quale velocità v gli permetterebbe di dimezzare il numero calcolato in (a),
(d) quale velocità v gli permetterebbe di portare al 95% la percentuale calcolata in (b).
Soluzione. Posto
N (t) = numero di macchine che imboccano la strada nell’intervallo di tempo [0, t],
otteniamo un processo di Poisson di intensità λ = 1/5 min−1 , per cui N (t) ∼ P (λt). Posto
X = numero di macchine incrociate da Salvatore,
dato che Salvatore aspetta ad imboccare la strada contromano finché non è libera, otteniamo X = N (T ),
dove T è il tempo che Salvatore impiega a percorrere la strada:
T =
125 m
s
=
= 0.5 min = 30 sec
v
15 Km h−1
(a) EX = E N (T ) = λT = 0.1.
(b) P (X = 0) = P N (T ) = 0 = e−λT = e−0.1 = 0.9048 = 90.48%.
(c) 0.05 = EX =
λs
125 m 1
=
v
5 min v
(d) 0.95 = P (X = 0) = e−
λs
v
⇒
⇒
v=
v=
125 m
= 500 m/min = 30 Km/h.
0.05 · 5 min
λs
= 487.39 m/min = 29.24 Km/h.
log(1/0.95)
1
Problema 2. I cerotti di nicotina vengono spesso usati per smettere di fumare. Il centro per la tutela
della salute pubblica, in base a dati di letteratura ritiene efficace un trattamento nel caso in cui almeno
il 20% dei soggetti risponde in modo positivo al trattamento. L’azienza NoNic deve decidere se proporre
un nuovo tipo di cerotto e lo sperimenta su un gruppo di 224 fumatori. Dopo 6 mesi 58 soggetti avevano
smesso di fumare.
(a) Dopo aver impostato un opportuno test d’ipotesi, si concluda al livello α pari a 5% se il cerotto
proposto da NoNic può essere ritenuto efficace.
(b) Calcolare il p-value del test eseguito al punto (a).
Il capo del laboratorio sperimentale di NoNic, ispirato da una lettura istruttiva, decide di sperimentare
un nuovo trattamento in cui i fumatori utilizzano i cerotti associati ad un antidepressivo. Assegna questo
trattamento a 245 fumatori e dopo 6 mesi osserva che 67 di questi avevano smesso di fumare.
(c) Dopo aver impostato un opportuno test d’ipotesi, si concluda al livello α pari a 1% se il nuovo
trattamento integrato è più efficace del solo cerotto.
(d) Calcolare il p-value del test eseguito al punto (c).
Soluzione.
(a) Detta p la percentuale di soggetti risponde in modo positivo al nuovo cerotto, si vuole verificare
l’ipotesi nulla H0 : p = 0.2 contro l’alternativa H1 : p > 0.2. La stima puntuale di p è pari a
58/224 = 0.2589. Il valore della statistica test è z0 = √0.2589−0.2 = 2.2049. Dato che 2.2049 >
0.2∗0.8/224
z0.95 = 1.645 al livello 5% si rifiuta l’ipotesi nulla: vi è evidenza statistica per dichiarare efficace il
trattamento.
(b) p-value = 1 − φ(2.2049) = 0.0137.
(c) Detta p1 la percentuale di soggetti risponde in modo positivo al nuovo cerotto associato all’antidepressivo, si vuole verificare l’ipotesi nulla H0 : p1 = p contro l’alternativa H1 : p1 > p.
La stima puntuale di p1 è pari a 67/245 = 0.2735. Sotto H0 , la stima comune di p = p1 è
(58 + 67)/(224 + 245) = 0.2665. Il valore della statistica test è pari a
z0 = q
0.2735 − 0.2589
1
0.2665 ∗ (1 − 0.2665) ∗ ( 224
+
= 0.3558.
1
245 )
Al 1% non posso rifiutare H0 dato che 0.3558 < z0.99 = 2.3263: non vi è evidenza statistica per
dichiarare il nuovo trattamento integrato più efficace del solo cerotto.
(d) p-value = 1 − φ(0.3558) = 0.361.
2
Problema 3. Un gruppo di 24 macchine fresatrici dello stesso modello sono
state monitorate negli ultimi anni. Per ciascuna di esse è stato annotato il
tempo di funzionamento xi (in decine di migliaia di ore) ed il numero yi di
interventi umani (settaggi, piccole riparazioni, . . . ) che nell’arco di tale periodo
si sono resi necessari. I dati raccolti sono rappresentati nel diagramma di
dispersione a fianco, mentre alcuni valori di sintesi sono
P
P
P 2
P 2
P
xi = 46.46,
yi = 597,
xi = 97.207,
yi = 18293,
xi yi = 1305.28.
Eseguendo una regressione lineare dei dati, con responso Y e predittore x, si ottiene
Coefficients:
Estimate
(Intercept) -14.967
tempo.funz
20.581
Std. Error
3.036
1.509
t value
-4.929
13.642
Pr(>|t|)
6.25e-05
3.26e-12
Residual standard error: 4.067 on 22 degrees of freedom
Multiple R-squared: 0.8943, Adjusted R-squared: 0.8895
F-statistic: 186.1 on 1 and 22 DF, p-value: 3.262e-11
(a) Scrivere la relazione empirica supposta valida, nel calcolo delle grandezze sopra riportate, fra Y e x
e la conseguente relazione fra E[Y ] e x.
(b) La relazione empirica ipotizzata è confermata dai risultati della regressione riportati? Perché?
Eseguendo invece una regressione lineare dei dati, con responso Y e predittore ex , si ottiene
Coefficients:
(Intercept)
tempo.funz
Estimate
0.6653
3.0451
Std. Error
0.9356
0.1057
t value
0.711
28.796
Pr(>|t|)
0.485
<2e-16
Residual standard error: 2.011 on 22 degrees of freedom
Multiple R-squared: 0.8747, Adjusted R-squared: 0.973
F-statistic: 829.2 on 1 and 22 DF, p-value: <2.2e-16
(c) Scrivere la relazione empirica supposta valida, nel calcolo delle grandezze sopra riportate, fra Y e x
e la conseguente relazione fra E[Y ] e x.
(d) La relazione empirica ipotizzata è confermata dai risultati della regressione riportati? Perché?
(e) Confrontare i due modelli elaborati.
(f) Stimare quindi la relazione fra E[Y ] e x.
(g) Stimare con un intervallo al 90% il numero medio di interventi richiesti delle macchine con 20000 ore
di lavoro.
(h) Se qualcuno volesse semplificare il modello “esponenziale” e creare una ricetta di facile utilizzo per
prevedere il numero di guasti ponendo E[Y ] = 3 ex , vi sarebbero ragioni di opporsi?
3
Soluzione.
(a) Y = β0 + β1 x + , con ∼ N (0, σ 2 ), per cui E[Y ] = β0 + β1 x.
(b) Il grafico dei residui NON CONFERMA l’ipotesi gaussiana del modello empirico.
(c) Y = β0 + β1 ex + , con ∼ N (0, σ 2 ), per cui E[Y ] = β0 + β1 ex .
(d) Il grafico dei residui CONFERMA l’ipotesi gaussiana del modello empirico.
(e) Il secondo modello è sicuramente da preferire: nonostante abbia un R2 inferiore (e comunque R2 =
0.8747 > 0.8), è l’unico modello per cui le elaborazioni fornite confermino l’ipotesi gaussiana. Inoltre
questa regressione è molto significativa, per quanto non lo sia l’intercetta (sarebbe da valutarne
l’eliminazione).
[] = 0.6653 + 3.0451 ex .
(f) E[Y
(g) Ricordando che e2 = 7.389, si trova [22.453; 23.878].
(h) Per il modello “esponenziale”, possiamo riformulare la domanda in termini di verifica d’ipotesi, si
tratta di sottoporre a verifica i sistemi
(
(
H0 : β 0 = 0
H0 : β1 = 3
H1 : β0 6= 0
H1 : β1 6= 3
Il risultato del test su β0 è già contenuto nell’output di R: il p-value supera il 45%, dunque appare
impossibile rifiutare l’ipotesi nulla.
Per il test su β1 , la statistica test è t = 3.0451−3
0.1057 ' 0.427 e basta un’occhiata alle tavole della t per
rendersi conto che agli usuali livelli è impossibile rifiutare H0 (il p-value è circa 33.7%).
4