Inferenza statistica I Alcuni esercizi

Transcript

Inferenza statistica I Alcuni esercizi
Inferenza statistica I
Alcuni esercizi
Stefano Tonellato
Anno Accademico 2006-2007
Avvertenza Una parte del materiale è stato tratto da Grigoletto M. e Ventura L. (1998). Statistica per le scienze economiche, esercizi con richiami di teoria,
Giappichelli, Torino.
Esercizio 1 Il prezzo di vendita di un capo di abbigliamento di una particolare marca seguiva, negli anni passati, una distribuzione normale di media µ = 66 Euro. Tra
i negozi che trattano quel capo di abbigliamento ne vengono estratti 10 casualmente
e, per ognuno, si rileva il prezzo di vendita di quest’anno:
(69.60, 63.10, 57.46, 64.87, 61.84, 69.16, 72.32, 69.49, 66.03, 54.64).
Calcolare la stima puntuale del prezzo medio, θ, di quest’anno e un intervallo di
confidenza per θ di livello 0.95.
La stima puntuale del prezzo medio di quest’anno è inferiore al prezzo medio degli
anni passati, cioè è inferiore a 66 Euro.
1. Tramite un test di livello α = 0.05, stabilire se si possa sostenere che il prezzo
medio del capo sia variato.
2. Tramite un test di livello α = 0.05, stabilire se si possa sostenere che il prezzo
medio del capo sia diminuito.
Soluzione
Sappiamo che il prezzo di vendita X del capo di abbigliamento si distribuisce come
una normale con media θ1 e varianza ignota θ2 ; inoltre, per gli anni passati si conosce
il valore della media µ = 66.
Per la stima puntuale dei parametri si deve massimizzare la funzione di log-verosimiglianza
Pn
(yi − θ1 )2
n
l(θ) = − θ2 − i=1
2
2θ2
Le stime puntuali dei due parametri ignoti saranno date da:
θ̂1 = ȳ = 64.851 e θˆ2 = s2 = 35.906
Per calcolare l’intervallo di confidenza per θ1 ricorriamo alla quantità pivot:
Ȳ − θ1
√ ∼ tn−1
S ∗/ n
dove S ∗ è la radice della varianza campionaria corretta:
Pn
(Yi − Ȳ )2
nθ̂2
∗2
S = i=1
=
.
n−1
n−1
Calcoliamo la stima della varianza attraverso i dati del c.c.s.:
P10
2
i=1 (yi − ȳ)
θ̂2 =
' 32.316.
10
Ora dobbiamo trovare un intervallo di confidenza per θ1 di livello 1−α = 0.95. Visto
che α = 0.05, troviamo i due quantili della t di Student (con n − 1 = 9 gradi di
1
libertà) che lasciano rispettivamente a sinistra e a destra probabilità α/2 = 0.025:
sono t9,0.025 = −2.26 e t9,0.975 = 2.26 (la t di Student è simmetrica rispetto allo 0):
Ȳ − θ1
S∗
S∗
0.95 = Pr −2.26 ≤ ∗ √ ≤ 2.26 = Pr −2.26 √ ≤ Ȳ − θ1 ≤ 2.26 √
S / n
n
n
∗
∗
S
S
= Pr −Ȳ − 2.26 √ ≤ −θ1 ≤ −Ȳ + 2.26 √
n
n
∗
∗
S
S
= Pr Ȳ − 2.26 √ ≤ θ1 ≤ Ȳ + 2.26 √
n
n
Sostituendo Ȳ con ȳ, n con 10, S ∗ con s∗ si ottiene il seguente intervallo di confidenza
per θ:
[60.78, 68.92].
Per verificare se il prezzo medio di quest’anno sia variato rispetto a quello degli anni
scorsi, si conduce la seguente verifica d’ipotesi:
H0 : µ = 66
H1 : µ 6= 66.
Si tratta di un problema di verifica d’ipotesi sulla media di una distribuzione normale
con varianza ignota. Il rapporto di verosimiglianza è dato da
L(µ0 , σ̂02 )
L(µ̂, σ̂ 2 )
−n/2
t2
=
1+
n−1
λ(y) =
ed è strettamente decrescente rispetto a |t|,con
√
n(ȳ − µ0 )
t=
s
e la statistica test appropriata è:
T =
Ȳ − 66
√ .
S ∗/ n
Ipotizzando che H0 sia vera si ha che T ∼ tn−1 . Per la relazione esistente fra λ(y)
e |t|, la regione di accettazione di H0 ad un livello di significatività α sarà data
dall’intervallo [−t9,0.975 , t9,0.975 ], con t9,0.975 = 2.262
Nel campione la statistica test assume il valore
64.851 − 66
toss = p
= −0.639
32.316/10
e quindi, al livello di significatività prefissato, si accetta H0 .
Per verificare se il prezzo sia diminuito impostiamo il sistema di ipotesi
H0 : µ = 66
H1 : µ ≤ 66.
2
Abbiamo ora che
λ(y) =
L(µ0 , σ̂0 )
L(µ̂, σ̂)
che è ancora funzione decrescente di |t|. La statistica test sarà ancora quella definita
in precedenza e sotto H0 si distribuisce ancora come una t9 . Ora però la regione di
rifiuto è (−∞, t9,0.05 = −1.833]. Anche in questo caso, quindi, si accetta H0 .
Esercizio 2 In una vecchia indagine sui mezzi di trasporto si è accertato che il 30%
degli individui che lavorano nel centro di una grande città raggiunge il posto di lavoro
usando i mezzi pubblici. Nel marzo 2007, su un c.c.s. di 120 individui, è risultato che
60 raggiungono il posto di lavoro con i mezzi pubblici. Trovare la stima puntuale e
l’intervallo di confidenza di livello 0.95 per la frazione di lavoratori che raggiungono il
posto di lavoro con mezzi pubblici. Si può affermare che la percentuale dei lavoratori
che vanno a lavorare con i mezzi pubblici è variata? Eseguire una verifica d’ipotesi
di livello α = 0.01. Si può affermare che la percentuale dei lavoratori che vanno a
lavorare con i mezzi pubblici è aumentata? Eseguire una verifica d’ipotesi di livello
α = 0.01.
Soluzione
La popolazione di interesse corrisponde a tutti coloro che lavorano nel centro della
città e il parametro di interesse è la proporzione θ, 0 ≤ θ ≤ 1, di quelli che utilizzano
i mezzi pubblici.
Il modello statistico sarà quindi rappresentabile come
Y ∼ Ber(θ).
La funzione di verosimiglianza è
L(θ) = θ
P120
i=1
yi
(1 − θ)120−
Pn
i=1
yi
(1)
Massimizzando L(θ) rispetto a θ si ottiene la stima di massima verosimiglianza
θ̂ = ȳ = 0.5
Per calcolare l’intervallo di confidenza ricorriamo alla distribuzione asintotica dello
stimatore di massima verosimiglianza
a
θ̂ ∼ N θ0 , I(θ0 )−1 .
Sfruttando la consistenza di θ̂, stimiamo I(θ0 ) con
d2
n
=
.
I(θ̂) = − 2 l(θ)
dθ
θ̂(1 − θ̂)
θ=θ̂
Avremo quindi:
θ̄ − θ0
a
q
∼ N (0, 1) .
θ̂(1 − θ̂)/n
3
Allora, sarà approssimativamente vero che:


θ̂ − θ
0.95 = Pr −z0.975 ≤ q
≤ z0.975 
θ̂(1 − θ̂)/n
q
q
= Pr θ̂ − z0.975 θ̂(1 − θ̂)/n ≤ θ ≤ θ̂ + z0.975 θ̂(1 − θ̂)/n .
Poiché z0.975 ' 1.96, n = 120 e θ̂ = ȳ = 0.5, otteniamo il seguente intervallo di
confidenza per θ:
[0.41, 0.59].
Per verificare se θ sia variato impostiamo il sistema di ipotesi:
H0 : θ = 0.3
H1 : θ 6= 0.3
Avremo che
a
W (Y) = −2 log (λ(Y)) = −2(l(0.3) − l(θ̂)) ∼ χ21 .
Poiché W (y) = 20.922 e wα = χ21,0.99 = 6.635 si rifiuta H0 ad un livello di significatività α = 0.01.
Per capire se la percentuale dei lavoratori che vanno a lavorare con i mezzi pubblici
sia aumentata, impostiamo il seguente sistema di ipotesi:
H0 : θ ≤ 0.3
H1 : θ > 0.3.
Si osservi che
Θ0 = {θ ∈ [0, 1] : θ ≤ 0.3}
e
Θ1 = {θ ∈ [0, 1] : θ > 0.3} .
Inoltre, essendo la verosimiglianza data da (1), è facile verificare che
L(ȳ)
se ȳ ≤ 0.3
sup L(θ) =
L(0.3)
se ȳ > 0.3
θ∈Θ0
e
sup L(θ) = L(ȳ).
θ∈Θ
Essendo, per questo sistema di ipotesi,
λ(y) =
supθ∈Θ0 L(θ)
,
supθ∈Θ L(θ)
quando ȳ ≤ 0.3 avremo che λ(y) = 1 (essendo θ = ȳ il punto di massimo assoluto di
L(θ) in Θ) e quindi in queste circostanze accetteremo H0 per qualsiasi ragionevole
livello di significatività. Diversamente, quando ȳ > 0.3 si avrà:
λ(y) =
4
L(0.3)
L(ȳ)
ed avrà quindi senso cercare un valore λα : P (λ(Y) < λα ) = α, dove α rappresenta
il livello di significatività del test. Nel nostro caso α = 0.01. Per determinare il
valore critico del test, ragioniamo come segue. Cerchiamo di capire se il rapporto di
verosimiglianza sia funzione monotona di qualche statistica con distribuzione nota
sotto H0 :
L(0.3)
L(ȳ)
0.3120ȳ 0.7120(1−ȳ)
= 120ȳ
,
ȳ
(1 − ȳ)120(1−ȳ)
λ(y) =
ovvero
log (λ(y)) = 120ȳ log
0.3
ȳ
+ 120(1 − ȳ) log
0.7
1 − ȳ
.
(2)
Quindi, derivando la (2) rispetto a ȳ si ottiene:
d log (λ(y))
=
dȳ
0.3
0.7
ȳ 1
1 − ȳ
1
= 120 log
− 120 log
− 120ȳ
+ 120(1 − ȳ)
2
ȳ
0.3 ȳ
1 − ȳ
0.7 (1 − ȳ)2
0.3
120
0.7
120
−
− 120 log
+
≤
= 120 log
ȳ
0.3
1 − ȳ
0.7
≤ 120 log (0.3) − 120 log (ȳ) − 120 log (0.7) + 120 log (1 − ȳ) =
0.3
ȳ
− 120 log
.
(3)
= 120 log
0.7
1 − ȳ
Affinché la (3) sia negativa dovrà verificarsi che
ȳ
0.3
≥
,
1 − ȳ
0.7
ovvero, risolvendo la disuguaglianza rispetto a ȳ, che ȳ > 0.3. Ma questo è proprio
quanto vogliamo: quando ȳ > 0.3, λ(y) è una funzione strettamente decrescente
di ȳ. Ora sappiamo che λ(y) assume valori piccoli quando ȳ assume valori elevati,
quindi
α = sup P (λ(Y) ≤ λα ; θ).
(4)
θ∈Θ0
È altresı̀ evidente che
P (λ(Y) ≤ λα ; θ) = P (Ȳ ≥ qȲ ,1−α ; θ)
(5)
dove q(θ)Ȳ ,1−α è il quantile di ordine 1 − α di Ȳ (che ovviamente dipende da θ).
D’altro canto sappiamo che
a
Ȳ ∼ N (θ, I(θ)−1 )
n
. È evidente che, al divergere di n, la probabilità di osservare
con I(θ) =
θ(1 − θ)
valori elevati di Ȳ cresce al crescere di θ e quindi, da (4) e (5), asintoticamente
avremo
α = sup P (λ(Y) ≤ λα ; θ) = P (Ȳ ≥ qȲ ,1−α ; 0.3).
θ∈Θ0
5
Ma, asintoticamente,
!
Ȳ − 0.3
p
≥ z1−α ; 0.3 ,
I(0.3)−1
P (Ȳ ≥ qȲ ,1−α ; 0.3) ' P
dove z1−α è il quantile di ordine 1 − α della normale standardizzata. Quindi la
statistica test sarà:
Ȳ − 0.3
T =p
,
I(0.3)−1
e il valore critico sarà z0.99 = 2.326. Il valore osservato di T è t = 4.382, quindi si
rifiuta H0 .
Esercizio 3 La produttività mensile media di ognuno dei 10 dipendenti del settore
“Commerciale” di una certa azienda viene misurata in Euro (/1.000) e si distribuisce
come:
Xi ∼ N (µ, σx2 )
per i = 1, . . . , 10. Le produttività osservate sono state:
x = (4.72, 3.42, 2.29, 3.77, 3.17, 4.63, 5.26, 4.70, 4.01, 1.73).
L’azienda organizza un corso di formazione per migliorare le abilità di vendita
dei propri dipendenti e al termine di tale corso la produttività mensile media si
distribuisce come:
Yi ∼ N (η, σy2 )
per i = 1, . . . , 10. Le produttività osservate dopo il corso di formazione sono state:
y = (5.94, 3.58, 6.87, 6.41, 4.66, 5.65, 6.45, 5.43, 4.66, 6.11). Definire un intervallo di
confidenza per la variazione della produttività media ad un livello di fiducia 0.95. Si
verifichi se il corso di formazione ha incrementato le abilità di vendita, con un test
di livello α = 0.05. Si calcoli l’αoss .
Soluzione
In questo esercizio si sono misurate le abilità di vendita su ognuno dei dipendenti
prima e dopo il corso di formazione, dando luogo a quei tipi di dati che si chiamano
dati appaiati. Fare una verifica d’ipotesi per capire se in media le abilità di vendita
sono aumentate dopo il corso di formazione, equivale a saggiare:
H0 : η = µ
H1 : η > µ
che si può riscrivere come:
H0 : δ = 0
H1 : δ > 0
dove δ = η − µ.
Di conseguenza, potremmo riformulare il problema dicendo che Zi è la differenza
della produttività del dipendente i-esimo tra dopo e prima il corso di formazione:
Zi seguirà la seguente distribuzione:
Zi ∼ N (δ, σ?2 )
6
per i = 1, . . . , 10. In questo caso, σ?2 è la varianza della differenza Yi − Xi :
σ?2 = V ar(Yi − Xi ) = σy2 + σx2 − 2Cov(Xi , Yi )
che è a noi sconosciuta perchè dipende da σx2 , da σy2 ma anche dall’ignota covarianza
tra Xi e Yi . In questo modo, siamo tornati al caso della verifica d’ipotesi sulla media
di una normale con varianza ignota. Il test che si utilizza è:
T =
Z̄ − 0
√ ∼ tn−1
S/ n
dove
S2 =
se H0 è vera,
10
X
(Zi − Z̄)2
9
i=1
.
Calcoliamo z = y − x e troviamo:
z = (1.22, 0.16, 4.58, 2.64, 1.49, 1.02, 1.19, 0.73, 0.65, 4.38). Di conseguenza z̄ ' 1.81
e s ' 1.55. Ora, possiamo calcolare toss :
toss =
1.81 − 0
√ = 3.69.
1.55/ 10
Per identificare la regione di accettazione dobbiamo ricordare che l’ipotesi alternativa
H1 è unilaterale destra e quindi si rifiuta per valori elevati della statistica test.
Inoltre, se α = 0.05 la regione di rifiuto sarà tale per cui:
Pr(T > k) = α = 0.05 se H0 è vera
Dalla distribuzione di T , sotto H0 , si trova che k = t9,0.95 = 1.83. La regione di
accettazione è:
A = [−∞, 1.83].
Rifiutiamo H0 perchè toss ∈
/ A: quindi la produttività media dei dipendenti è aumentata dopo il corso di formazione.
Esercizio 4 Si vuole confrontare se ci sono differenze nella puntualità tra i dipendenti a tempo indeterminato di un’azienda e i collaboratori a progetto. Per fare
questo, si rileva la differenza del tempo di arrivo del personale dall’orario di inizio
del lavoro su un c.c.s. di numerosità pari a n1 = 7 per i dipendenti
y1 = (−0.23, −0.83, 0.63, 1.26, 0.70, 0.01, −2.27)
e su un c.c.s. di numerosità pari a n2 = 6 per i collaboratori:
y2 = (0.94, −1.42, 1.87, 1.41, −0.34, 0.65),
dove un valore positivo sta, quindi, ad indicare un ritardo e un valore negativo un
anticipo.
Supponendo che tali differenze di orario si distribuiscano come Y1 ∼ N (µ1 , σ 2 ) per
7
i dipendenti e come Y2 ∼ N (µ2 , σ 2 ) per i collaboratori (σ 2 ignota), si trovi la stima
puntuale per µ1 e per µ2 .
Si trovi, inoltre, un intervallo di confidenza di livello 0.90 per µ1 − µ2 . Si conduca
la verifica d’ipotesi, di livello α = 0.01, per capire se i dipendenti a tempo indeterminato sono più puntuali dei collaboratori a progetto.
Esercizio 5 Si studia l’adesione agli scioperi tra i ferrotramvieri e i macchinisti
delle Ferrovie dello Stato. In occasione di un particolare sciopero è stato osservato
il comportamento di un campione di n1 = 60 ferrotramvieri e di un campione di
n2 = 40 macchinisti delle Ferrovie dello Stato. Dei ferrotramvieri 3 non hanno
aderito, mentre dei macchinisti il numero delle mancate adesioni è pari a 6.
Trovare la stima puntuale della proporzione di mancata adesione allo sciopero per
entrambe le categorie di trasporti pubblici.
Calcolare l’intervallo di confidenza per la differenza delle due proporzioni ad un
livello 1 − α = 0.95.
8