(in ore) di un (modello di) lettore DVD - imati-cnr

Transcript

(in ore) di un (modello di) lettore DVD - imati-cnr
Esercitazione dell’ 8.05.2013
Esercizio 9.10 con aggiunta.
La durata di funzionamento (in ore) di un (modello di) lettore DVD ha funzione di
ripartizione:
F (x) =
1 − e−x/2000 x ≥ 0
0
x<0
a. Qual è la probabilità che un lettore DVD di questo modello si rompa entro le
prime 1000 ore di funzionamento?
b. Qual è la probabilità che un lettore DVD di questo modello funzioni per almeno
2000 ore?
c. Considerando un lotto di 200 lettori di DVD di questo modello, determinare il
numero medio di lettori del lotto che dureranno almeno 2000 ore.
d. Calcolare la probabilità che la quota di lettori in un lotto di 200 che funzioneranno
per almeno 2000 ore sia minore del 30%.
e. Calcolare la probabilità che un lettore di questo modello duri per almeno 2000
ore sapendo che ha già funzionato per 1000 ore.
Soluzione.
Sia X la variabile casuale “durata di funzionamento (in ore)” di un lettore DVD.
Ricordiamo che F (x) = P (X ≤ x). La distribuzione di X è detta esponenziale.
F (x) è rappresentata in Figura 1.
La derivata di F (x) è la densità esponenziale, f (x):
1 −x/2000
e
x≥0
2000
f (x) =
0
x<0
ed è rappresentata in Figura 2.
a. Per definizione, un lettore si rompe entro le prime 1000 ore se la sua durata è
minore di 1000, quindi si deve calcolare P (X ≤ 1000), che è proprio dato F :
F (1000) = 1 − e−1000/2000 = 1 − e−0.5 = 0.61
b. Analogamente,
P (X ≥ 2000) = P (X > 2000) = 1 − P (X ≤ 2000) = 1 − F (2000) = 1 − (1 − e−1 ) =
1
FHxL
1
0.8
0.6
0.4
0.2
x
2500 5000 7500 10000 12500 15000
Figura 1: Grafico della funzione di ripartizione F (x).
fHxL
0.0005
0.0004
0.0003
0.0002
0.0001
2500
5000
x
7500 10000 12500 15000
Figura 2: Grafico della funzione di densità f (x).
2
= e−1 = 0.37.
c. Considerando il lotto da 200 lettori come un campione casuale dalla distribuzione
F (quindi, le durate dei lettori sono indipendenti e tutte le durate hanno funzione di
ripartizione F ), la probabilità che un qualunque lettore del lotto duri almeno 2000
ore è 0.37, calcolata al punto b. Per ogni lettore, possiamo considerare la variabile
casuale
Yi =
1 se il lettore dura almeno 2000 ore
0 altrimenti
e, allora, le variabili Yi , i = 1, . . . , 200 formano uno schema di 200 prove ripetute di
Bernoulli con probabilità di successo 0.37. Quindi, il numero di successi (= lettori
funzionanti per almeno 2000 ore) nel campione è una variabile S200 ∼ Binomiale(200,
0.37), ed il numero medio di successi è E(S200 )=200×0.37=74.
d. La quota di lettori funzionanti per almeno 2000 ore è data da S200 /200 e quindi
dobbiamo calcolare
S200
< 30% = P (S200 < 200 × 0.30) = P (S200 < 60) =
P
200
S200 − 74
60 − 74
=P √
<√
≈ P (Z < −2.05) = 0.02
200 × 0.37 × 0.63
200 × 0.37 × 0.63
ove abbiamo usato l’approssimazione gaussiana.
e. Dobbiamo calcolare la probabilità condizionata:
P (X > 2000|X > 1000) =
P (X > 2000 ∩ X > 1000)
.
P (X > 1000)
La probabilità al denominatore è 1-P (X ≤ 1000) = 1 − 0.61 = 0.39 e discende dal
punto a. L’evento al numeratore coincide con X > 2000 (se X > 2000 allora è anche
X > 1000), e la probabilità è quella calcolata al punto b., 0.37. Quindi:
P (X > 2000|X > 1000) =
P (X > 2000 ∩ X > 1000)
0.37
=
= 0.61
P (X > 1000)
0.61
Osserviamo che P (X > 2000|X > 1000) = P (X > 1000), cioè la probabilità che
il lettore che ho comprato la settimana scorsa e che ho già usato per 1000 ore ha
probabilità di durare altre 1000 ore coincidente con la probabilità che aveva all’inizio
(quando l’ho comprato) di durare 1000 ore. Allo stesso modo, la probabilità che
3
duri per più di 3000 ore, sapendo che ha già funzionato per 1000 ore, è uguale
alla probabilità che il lettore aveva al momento dell’acquisto di durare per almeno
2000 (3000-1000) ore. Questo risultato non è casuale, non dipende dai valori scelti
(1000, 2000 o 3000), ma è un risultato generale e si chiama assenza di usura.
In appendice, fornisco la dimostrazione generale di quanto detto, per coloro che
fossero interessati. L’assenza di usura è una proprietà esclusiva della distribuzione
esponenziale.
Esercizio 10.6 con testo modificato.
Gli occupati di un dato settore economico vengono pagati con un salario mensile
lordo la cui media è 5500 euro e la cui deviazione standard è 500 euro. Si assuma la
distribuzione normale del salario mensile lordo.
a. Calcolare la probabilità che il salario di un occupato scelto a caso nel settore sia
compreso tra 5200 e 5800 euro.
b. Calcolare la probabilità che il salario mensile lordo medio di un campione casuale
di 5 addetti del settore sia compreso tra 5200 e 5800 euro.
c. Si effettui lo stesso calcolo per un campione di ampiezza n=20.
Cenni della soluzione. Sia X la variabile casuale che descrive il salario mensile lordo
di un addetto del settore. Allora assumiamo X ∼ N(5500, 5002). Per rispondere
ad a. si deve calcolare P (5200 < X < 5800). Al punto b. siamo interessati
alla variabile “media degli stipendi di 5 addetti del settore scelti a caso”, che è la
variabile X̄5 = (X1 + X2 + X3 + X4 + X5 )/5. Siccome tutte le Xi sono N(5500, 5002)
2
allora X̄5 ∼ N(5500, 500
) e si deve calcolare P (5200 < X̄5 < 5800). Al punto c. si
5
P20
1
procede analogamente al b., ma considerando X̄20 = 20
i=1 Xi che ha distribuzione
2
N(5500, 500
). Le tre probabilità valgono, rispettivamente, 0.45, 0.82 e 0.99.
20
Esercizio dal tema d’esame del 3.09.2012
Un campione casuale (X1 , . . . , Xn ) è stato estratto da una popolazione descritta dal
modello (variabile casuale) con densità di probabilità
f (x) =
θ
,
(1 + x)1+θ
4
x > 0; θ > 0.
a. Determinare la funzione di log-verosimiglianza.
b. Scrivere la formula dello stimatore di massima-verosimiglianza.
c. È stato osservato il campione di 6 dati: 2.1, 3.4, 2.0, 4.5, 1.2, 1.8. Sulla base di
questo campione, sarebbe più verosimile θ = 0.5 o θ = 1?
d. Calcolare il valore assunto dallo stimatore di massima verosimiglianza in corrispondenza al campione osservato.
Soluzione.
a.
L(θ; x1 , . . . , xn ) =
n
Y
f (xi ) =
i=1
n
Y
i=1
e, dunque, la log-verosimiglianza è
l(θ) = ln L(θ; x1 , . . . , xn ) = ln θn −
= n ln θ − (1 + θ)
n
X
i=1
n
X
i=1
θ
θn
Q
=
n
θ+1
(1 + xi )1+θ
i=1 (1 + xi )
ln(1 + xi )1+θ = n ln θ −
ln(1 + xi ) = n ln θ −
n
X
i=1
n
X
(1 + θ) ln(1 + xi ) =
i=1
ln(1 + xi ) − θ
n
X
ln(1 + xi ).
i=1
b. Cerchiamo il valore θ̂ che massimizza l(θ) cercando gli zeri della derivata di l(θ).
P
n
n − θ ni=1 ln(1 + xi )
dl(θ)
n X
= −
ln(1 + xi ) = 0 ⇔
=0⇔
dθ
θ
θ
i=1
n−θ
n
X
i=1
n
i=1 ln(1 + xi )
ln(1 + xi ) = 0 ⇔ θ̂ = Pn
Dobbiamo, infine, verificare che il valore trovato sia un punto di massimo o studiando
il segno della derivata prima (come fatto a lezione) o guardando al segno della
derivata seconda in corrispondenza a θ̂:
d2 l(θ)
n
=− 2
2
dθ
θ
che è negativa per tutti i valori di θ e dunque anche per θ̂, assicurando che si tratta
effettivamente di un massimo.
c. Dei due valori indicati, il più verosimile sarà quello con valore di log-verosimiglianza
più alto.
l(0.5) = 6 ln 0.5 − 1.5(ln2.1 + ln 3.4 + ln 2.0 + ln 4.5 + ln 1.2 + ln 1.8) = −15.01
5
l(1) = . . . = −14.47
e dunque i dati rendono più verosimile il valore θ = 1.
d. Sostituendo nell’espressione trovata al punto a., si ha θ̂ =
6
7.23
= 0.83.
Gli esercizi svolti a lezione riguardanti gli intervalli di confidenza sono stati presi,
senza modifiche, dal libro di testo: 12.7, 12.9, 12.10.
Appendice sulla distribuzione esponenziale.
Riprendendo il primo esercizio, mostriamo che la probabilità che un lettore funzioni
per almeno H ore, sapendo che ha già funzionato per T ore, con H > T , è uguale alla
probabilità che un lettore funzioni per almeno H − T ore (nel punto e. dell’esercizio
avevamo H=2000 e T =1000). Ricordiamo che X descrive la durata in ore di un
lettore e che F indica la sua funzione di ripartizione.
P (X > H|X > T ) =
=
P (X > H ∩ X > T )
= (se X > H allora X > T perchè H > T ) =
P (X > T )
P (X > H)
1 − P (X ≤ H)
1 − F (H)
1 − (1 − e−H/2000 )
e−H/2000
=
=
=
=
=
P (X > T )
1 − P (X ≤ T )
1 − F (T )
1 − (1 − e−T /2000 )
e−T /2000
= e−H/2000+T /2000 = e−(H−T )/2000 = 1 − (1 − e−(H−T )/2000 ) = 1 − F (H − T ) =
= 1 − P (X ≤ H − T ) = P (X > H − T ).
6