lezioni 21.22.23 - Università degli Studi della Basilicata

Transcript

lezioni 21.22.23 - Università degli Studi della Basilicata
Università degli Studi di Basilicata – Facoltà di Economia
Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezioni di statistica del 10, 12 e 13 giugno 2013
- di Massimo Cristallo -
4. Proprietà degli stimatori
Si è visto che quando sono ignoti i parametri di una data popolazione oggetto di indagine,
è necessario stimare i medesimi parametri mediante tecniche di stima basate su formule,
dette stimatori, che utilizzano le informazioni campionarie.
Riportiamo alcune delle proprietà desiderabili per lo stimatore del parametro θ.
a) Correttezza
Si dice che
condizione:
è uno stimatore corretto del parametro θ se risulta soddisfatta la seguente
E (Θˆ ) = θ
cioè se la media di tutte le possibili stime, calcolate con lo stimatore , effettuate con i
possibili campioni di dimensione n, risulta uguale al corrispondente parametro della
popolazione.
Se risulta invece E (Θˆ ) ≠ θ , allora si dice che lo stimatore
è distorto e la quantità
B (Θˆ ) = E (Θˆ ) − θ indica la distorsione dello stimatore.
b) Efficienza
Una misura della precisione dello stimatore è fornita in generale dall’errore quadratico medio
(MSE), così definito:
( )
MSE(Θˆ ) = E Θˆ - θ
2
Tuttavia se lo stimatore è corretto, l’errore quadratico medio può porsi nella seguente
forma:
[
]
2
MSE(Θˆ ) = E Θˆ - E (Θˆ ) = Var (Θˆ )
cioè coincide con la varianza campionaria dello stimatore.
Tenuto conto che solitamente si preferiscono stimatori corretti, o comunque stimatori con
una distorsione trascurabile all’aumentare dell’ampiezza campionaria n, in realtà per
misurare la precisione di uno stimatore si fa riferimento alla sua varianza campionaria
piuttosto che all’errore quadratico medio.
1
In generale, dati due possibili stimatori corretti Θˆ 1 e Θˆ 2 del parametro θ , si considera più
efficiente o migliore quello che ha la minore varianza campionaria.
Se esiste, invece, uno stimatore corretto del parametro θ , la cui varianza campionaria è
minore o uguale a quella di un qualsiasi altro stimatore corretto Θˆ * del medesimo
parametro θ , allora si dice che è il più efficiente. In altri termini, l’efficienza di si ha
quando la dispersione delle stime effettuate con lo stimatore, intorno al valore del
parametro ignoto della popolazione di riferimento, al variare dei possibili campioni di
dimensione n, è minore rispetto a quella ottenibile con altri stimatori.
In letteratura è stato individuato il valore minimo di Var (Θˆ ) solo sotto certe “condizioni di
regolarità” di un problema di stima, che in questa sede non si riportano. Tale valore
minimo è fornito dal teorema di Cramer-Rao ed è pari al rapporto:
1
−
 ∂ ln f ( x, θ ) 
n E

∂θ 2


2
o in alternativa:
1
 ∂ ln f ( x, θ ) 
n E

∂θ


2
quindi se valgono le condizioni di regolarità ed esiste uno stimatore la cui varianza
campionaria coincide da una delle due predette espressioni, ove f ( x,θ ) è la funzione di
densità di probabilità, allora lo stimatore individuato è il più efficiente.
c) Consistenza
L’analisi del comportamento dello stimatore al crescere della dimensione n del campione
assume notevole importanza. Infatti, se si verifica che all’aumentare di n cresce la
probabilità che il parametro stimato coincida con quello della popolazione di riferimento,
si dice che lo stimatore è consistente (o coerente). In formule, scriveremo:
lim
n →∞
Pr( Θˆ n − θ < ε ) = 1
ove Θ̂ n è il generico stimatore ottenuto con un campione di dimensione n ed ε è una
quantità piccola e positiva.
Esistono altre proprietà che si desidera siano possedute da uno stimatore, come la
“sufficienza”, che però in questa sede si tralascia.
2
E’ difficile creare un ordine di importanza delle proprietà degli stimatori. In generale, si
preferisce utilizzare stimatori non distorti, pur sapendo che tale proprietà da sola non
basta, soprattutto se non vale la proprietà della consistenza.
Un metodo molto utilizzato per la scelta di uno stimatore è invece il Best Linear Unbiased
Estimator (BLUE), che consiste nella scelta nella classe degli stimatori lineari corretti di θ
di quello che presenta la varianza campionaria minima.
Un criterio a cui si fa spesso ricorso per scegliere uno stimatore è quello analogico, ovvero si
sceglie uno stimatore in base allo stesso tipo di funzione utilizzata nella popolazione. Ad
esempio, se si utilizza la media aritmetica campionaria come stimatore analogico della
media aritmetica della popolazione è semplice verificare che il suo valore atteso coincide
con la media ignota della popolazione, cioè che è soddisfatta la proprietà della correttezza.
Ipotizzando un campionamento casuale semplice con ripetizione e considerando (con il
criterio analogico) come stimatore della varianza della popolazione la varianza campionaria
s 2 , di seguito riportata:
n
∑ ( xi − x )
s 2 = i =1
2
n
si dimostra facilmente che il valore atteso di s 2 non coincide con la varianza ignota della
popolazione:
E ( s2 )=
n −1 2
σ ≠σ2
n
per cui, ponendo:
n
σˆ 2 =
∑ ( xi − x )
2
n 2 i =1
s =
n −1
n −1
si ottiene, per le proprietà del valore atteso:
E ( σˆ 2 ) = σ 2
da cui si desume che la grandezza σ̂ 2 , nota come varianza corretta campionaria, è uno
stimatore corretto di σ 2 e di conseguenza può essere usata nel caso di campionamento
casuale semplice con ripetizione per stimare la varianza incognita della popolazione.
Si fa rilevare, tuttavia, che nell’ipotesi di dimensione campionaria elevata, s 2 e σ̂ 2
assumono valori molto vicini, per cui è indifferente l’utilizzo dell’uno o dell’altro.
3
5. Stima intervallare
Si è parlato nelle precedenti lezioni della stima puntuale dei parametri ignoti di una data
popolazione. Partendo dallo stimatore puntuale e considerando la sua varianza è possibile
costruire una stima intervallare, cioè un intervallo di confidenza che contiene il parametro
oggetto d’indagine con una probabilità assegnata P =1 − α (detta livello di confidenza o di
fiducia), ove α è il livello di significatività e fornisce il rischio che si corre nel confidare
che l’intervallo stimato contenga il parametro incognito della popolazione.
Se è nota la forma della distribuzione campionaria dello stimatore , per individuare
l’intervallo di confidenza del parametro ignoto θ occorre individuare i suoi estremi θ̂1 e
θ̂ 2 in modo che risulti soddisfatta la seguente condizione:
(
)
Pr θˆ1 <θ < θˆ 2 = 1 − α
Se si fissa il valore di α esistono infinti intervalli che soddisfano la precedente condizione;
si dimostra tuttavia che per distribuzioni campionarie simmetriche (anche
approssimativamente) l’intervallo migliore (cioè quello con l’ampiezza minore) è quello
centrato intorno alla stima puntuale.
E’ importante osservare a questo punto che la stima mediante intervallo di confidenza è
tanto migliore quanto minore è la sua ampiezza. E’ evidente, infatti, che ai fini del
problema di stima avrebbe poco senso dire, ad esempio, che la media delle stature
(espresse in cm) degli studenti iscritti al corso di laurea in economia aziendale di una data
Università è contenuta nell’intervallo [155, 195] con una probabilità pari a 0,999999.
Spieghiamo meglio quanto detto al punto precedente.
Aumentando il livello di fiducia P =1 − α aumenta l’ampiezza dell’intervallo e si annulla
quasi il rischio di trovare un intervallo che non contenga il valore incognito del parametro
della popolazione. La riduzione del rischio di commettere una stima errata paga cioè il
prezzo di avere un intervallo così ampio che non dà alcuna informazione utile.
Per le ragioni appena dette, i valori che di solito si attribuiscono ad α sono 0,05 o 0,01,
per cui gli intervalli di confidenza contengono il parametro ignoto che si vuole stimare con
una probabilità pari rispettivamente a 0,95 e 0,99.
Riportiamo di seguito alcuni degli intervalli di confidenza della media e della frequenza
relativa (proporzione) della popolazione, nell’ipotesi “realistica” in cui σ 2 è ignoto.
a) Intervallo di confidenza per la media µ nel caso di grandi campioni (n>100)
Sfruttando il teorema del limite centrale, si ha il seguente intervallo:

s
s 
, x + z( α / 2 )
 x − z( α / 2 )

n −1
n −1

ove i valori z( α / 2 ) della variabile normale standardizzata sono tabulati.
4
b) Intervallo di confidenza per la media µ nel caso di piccoli campioni.
Se la variabile X è distribuita secondo una curva normale, e non si conosce σ 2 ,
l’intervallo diventa:
s
s 

 x − tn−1( α / 2 ) n − 1 , x + tn−1( α / 2 ) n − 1 


ove i valori t n−1( α / 2 ) della variabile T di Student sono tabulati.
c) Intervallo di confidenza per la proporzione (o frequenza relativa) p nel caso di grandi
campioni (n>100)

p̂ ( 1 − p̂ )
p̂ ( 1 − p̂ ) 
, p̂ + z( α / 2 )
 p̂ − z( α / 2 )

n
n


ove i valori z( α / 2 ) della variabile normale standardizzata sono tabulati
Nell’ambito della stima intervallare è possibile affrontare anche problemi inversi. Ad
esempio, se si fissa l’ampiezza dell’intervallo (pari alla differenza dei suoi due estremi) ed il
valore di α , con semplici passaggi matematici è possibile determinare il valore della
dimensione campionaria n, fermo restando che sia noto anche s nel caso della media e p̂
nel caso della proporzione.
6. Verifica delle ipotesi con un campione
Nell’ambito dell’inferenza statistica capita spesso di trovare problemi di verifica delle
ipotesi.
Un’ipotesi statistica è una congettura sulla forma della distribuzione di probabilità di una
variabile casuale ovvero sul valore del parametro incognito. Nel primo caso si parla di
ipotesi funzionale, mentre nel secondo si parla di ipotesi parametrica.
Analizziamo ora le ipotesi parametriche nel caso di un campione.
L’ipotesi che si vuole sottoporre a verifica, denotata con H0, è detta ipotesi nulla o di base,
mentre l’ipotesi alternativa è indicata con H1.
Le ipotesi vengono solitamente formulate in base ad informazioni che si possiedono del
fenomeno in esame. Esse possono essere semplici o composte, a seconda che si riferiscano
ad un unico valore del parametro o ad un insieme di valori.
Es. ipotesi semplice
H :θ = θ 0
Es. ipotesi composta
H :θ ≠ θ 0
5
Per effettuare la verifica delle ipotesi si utilizza il test statistico T, cioè una regola mediante la
quale si decide in termini probabilistici, sulla base delle informazioni campionarie, se
respingere o meno l’ipotesi H0.
Ponendo l’ipotesi nulla H 0 :θ = θ 0 , il test si dice unilaterale se risulta:
H 1 :θ < θ 0
oppure
H 1 :θ > θ 0
mentre è bilaterale quando si ha:
H 1 :θ ≠ θ 0
Si riportano di seguito le fasi da seguire per realizzare una verifica delle ipotesi:
i) individuazione della statistica test, cioè di quella funzione delle osservazioni
campionarie di cui è nota la distribuzione (campionaria) sotto l’ipotesi nulla H0;
ii) definizione della regola di decisione, ovvero della partizione dei valori assunti dalla
statistica test in regione critica o di rifiuto di H0 ed in regione di non rifiuto di H0;
iii) determinazione del valore empirico del test, attraverso la sostituzione dei dati
campionari nella statistica test già individuata;
iv) decisione del test, in cui si verifica se il valore empirico di cui al punto iii) cade o
meno nella zona di rifiuto. Nel primo caso si rifiuta l’ipotesi nulla e il test è detto
significativo, mentre nel secondo non si rifiuta H0. Il test ideale è infatti quello che
rifiuta l’ipotesi H0 quando è falsa.
Nel test delle ipotesi si possono commettere due tipi di errori:
a) di prima specie, se rifiuto l’ipotesi H0 quando in realtà essa è vera. La probabilità di
commettere tale errore si denota con α ;
b) di seconda specie, se non rifiuto l’ipotesi H0 quando in realtà essa è falsa. La
probabilità di commettere tale errore si denota con β .
Sarebbe opportuno ridurre congiuntamente entrambe gli errori α e β , ma purtroppo si
dimostra che ciò non è possibile; fissata la dimensione campionaria n tra i due errori esiste
una relazione inversa, cioè all’aumentare dell’uno diminuisce l’altro. La riduzione di
entrambi gli errori si potrebbe avere soltanto aumentando la dimensione del campione.
Considerato allora che α è ritenuto l’errore più grave, solitamente la regione critica o di
rifiuto del test viene individuata fissando il valore di α (che rappresenta il livello di
significatività del test) e minimizzando l’errore β .
La probabilità di respingere giustamente l’ipotesi nulla H0 è data da (1 − β ) ed è chiamata
potenza del test.
In definitiva, una volta stabilite le ipotesi “nulla” e “alternativa”, a seconda del tipo di
problema, si fissa il valore di α , si sceglie la statistica test appropriata al caso in esame e si
6
individua la regione critica di dimensione α in modo da rendere minimo β (cioè il test
più potente).
Riportiamo di seguito alcuni problemi di verifica delle ipotesi con le relative statistiche test,
anche in questo caso nell’ipotesi realistica in cui non si conosce σ 2 .
Verifica delle ipotesi della media nel caso di grandi campioni (n>100)
Se il problema è così formulato (test bilaterale):
H 0 : µ = µ0
H1 : µ ≠ µ 0
la statistica test da utilizzare è la “normale standardizzata”:
z=
x − µ0
s
n −1
mentre la regione critica, fissato il valore di α , è fornita dal seguente insieme:
{z ∈ R : z < − z(α 2)
∪ z > z (α 2)
}
ove si ricorda i valori di z (α 2) sono tabulati.
Si rifiuta l’ipotesi nulla H0 se il valore empirico del test, calcolato con i dati campionari,
cade nella sopra indicata regione critica.
Nel caso di test unilaterale, ad esempio:
H 0 : µ = µ0
H1 : µ > µ0
la statistica test rimane la stessa, mentre la zona critica diventa:
{z ∈ R : z > z(α ) }
cioè la zona di rifiuto si concentra soltanto su una delle due code della distribuzione.
Verifica delle ipotesi della media nel caso di piccoli campioni
Se il fenomeno in esame (cioè la variabile X) si distribuisce secondo una curva normale, ma
non è noto il valore di σ 2 , la statistica test da utilizzare è la t di Student con (n-1) gradi di
libertà:
7
t=
x − µ0
s
n −1
Se il problema è così formulato (test bilaterale):
H 0 : µ = µ0
H1 : µ ≠ µ 0
la regione critica, fissato il valore di α , è fornita dal seguente insieme:
{t ∈ R : t < − t n−1 (α 2)
∪ t > t n −1 (α 2 )
}
ove i valori di t n−1 (α 2 ) sono tabulati al variare dei gradi di libertà.
Anche in questo, ovviamente, si rifiuta l’ipotesi nulla H0 se il valore empirico del test,
calcolato con i dati campionari, cade nella regione critica.
Nel caso di test unilaterale, ad esempio:
H 0 : µ = µ0
H1 : µ > µ0
la statistica test rimane la stessa, mentre la zona critica diventa:
{t ∈ R : t > t n−1 (α ) }
Verifica delle ipotesi della proporzione (o frequenza relativa) nel caso di grandi
campioni (n>100)
Se il problema è così formulato (test bilaterale):
H 0 : p = p0
H 1 : p ≠ p0
la statistica test da utilizzare è la seguente:
z=
p̂ − p0
p 0 (1 − p 0 ) n
mentre la regione critica, fissato il valore di α , è fornita dal seguente insieme:
{z ∈ R : z < − z(α 2)
∪ z > z (α 2)
}
8
Si rifiuta l’ipotesi nulla H0 se il valore empirico del test, calcolato con i dati campionari,
cade nella regione di rifiuto.
Nel caso di test unilaterale, ad esempio:
H 0 : p = p0
H 1 : p < p0
la statistica test rimane la stessa, mentre la zona critica diventa:
{z ∈ R : z < − z(α ) } .
9