Capitolo 7 TEST DELLE IPOTESI 1. Concetti di base - UniFI

Transcript

B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 7
Metodi statistici per le decisioni d’impresa
Capitolo 7
TEST DELLE IPOTESI
In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando la
trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche.
Argomentazioni diverse devono essere svolte sia nei riguardi della impostazione
bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test nonparametrici (da non confondere con le ipotesi non-parametriche), aspetti questi che non
vengono qui trattati.
E’ stato sottolineato in precedenza che la teoria dell’inferenza statistica riguarda
principalmente due specifici argomenti: la stima (puntuale e per intervallo) ed il test
delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una
determinata v.c., in base alle informazioni di un campione. Il problema della stima e
quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto
coinvolgono problematiche diverse. Infatti: nel primo caso il campione viene utilizzato
per stimare un’entità incognita relativa ad una certa v.c.; nel secondo caso il campione
viene utilizzato per verificare statisticamente la validità di una certa affermazione
(ipotesi) su un’entità incognita relativa a una certa v.c.
1. Concetti di base
Per introdurre il test delle ipotesi conviene collegarsi a quanto illustrato
nell'introduzione al capitolo 6.
Facendo riferimento per semplicità all’approccio parametrico all’inferenza statistica, il
punto di partenza di un problema di test delle ipotesi è identico a quello di un problema
di stima dei parametri: c’è un certo fenomeno, il cui risultato non è prevedibile con
certezza, di cui interessa studiare determinate caratteristiche; dal punto di vista
probabilistico questo fenomeno è rappresentato da una v.c., diciamo X; per coglierne il
comportamento casuale si sceglie fra quelli a disposizione (o si inventa ex-novo) un
modello statistico, sotto forma di funzione di massa se X è discreta o di funzione di
1
densità se X è continua (oppure si formula un modello più complesso se, ad esempio,
interessa studiare la relazione fra più variabili).
Quello che cambia, appunto, è proprio il problema. Quando si effettua stima dei
parametri, puntuale o per intervallo, l’informazione campionaria (eventualmente
integrata da conoscenze a priori se si utilizza un approccio bayesiano) viene utilizzata
per stimare uno o più parametri incogniti del modello scelto per X. Quando invece si fa
test delle ipotesi sui parametri, l’informazione campionaria (eventualmente integrata da
conoscenze a priori se si utilizza un approccio bayesiano) viene utilizzata per decidere
se accettare o rifiutare una certa ipotesi concernente uno o più parametri incogniti del
modello scelto per X.
La rilevanza del problema di test delle ipotesi è facilmente intuibile se si pensa che
all’accettazione o al rifiuto di una certa ipotesi è spesso collegata la scelta di una
particolare linea di comportamento.
Definizione 1: Definizione di ipotesi statistica. Sia X una v.c. con funzione di massa o
di densità f(x; θ), dove θ ∈ Θ è un parametro incognito. Allora
un’ipotesi statistica è un’affermazione che specifica completamente o
parzialmente la distribuzione di X. Tale affermazione può riferirsi:
•
a θ, cioè ai soli parametri caratteristici della distribuzione (e in tal
caso l’ipotesi è detta parametrica);
•
a f(x; θ), cioè alla forma funzionale della distribuzione (e in tal caso
l’ipotesi è detta non-parametrica o distribution free).
L’ipotesi statistica in oggetto è usualmente detta ipotesi nulla o ipotesi
di lavoro ed è indicata con H0.
Con riferimento a quanto illustrato nell’introduzione al capitolo 6, è opportuno fare
chiarezza su un aspetto abbastanza sottile. Un’ipotesi parametrica, cioè un’ipotesi
riguardante soltanto certi parametri caratteristici, ha senso sia in un contesto
parametrico (in cui il modello è completamente specificato in tutte le sue parti) che
semi-parametrico (nel quale del modello sono formulate solo certe componenti
fondamentali). Al contrario un’ipotesi non-parametrica, cioè relativa la forma
funzionale della distribuzione ha senso soltanto in ambito non-parametrico: per
2
rendersene conto basta pensare al fatto che un’eventuale assunzione sulla forma della
distribuzione di X configgerebbe con quella dell’ipotesi (se diversa) oppure sarebbe una
pura tautologia (se uguale).
In questo corso ci occuperemo prevalentemente di ipotesi statistiche parametriche,
relative cioè ai soli parametri caratteristici θ del modello scelto f(x; θ) (diremo
qualcosa sul test d'ipotesi non-parametriche nella sez. 18). In questo caso l’ipotesi nulla
si concretizza nell’affermazione che θ appartiene ad un certo sottoinsieme Θ0 dello
spazio parametrico Θ, in simboli
H0: θ ∈ Θ0.
D’altra parte, poiché Θ0 è un sottoinsieme di Θ, dall’ipotesi nulla precedente risulta
automaticamente definita anche un’ipotesi alternativa
H1: θ ∈ Θ1,
dove Θ1 è il complementare di Θ0 in Θ. Di conseguenza ipotesi nulla e ipotesi
alternativa formano una partizione di Θ in Θ0 e Θ1 (si veda Fig. 1).
Tornando alla definizione precedente, quando un’ipotesi statistica specifica
completamente la distribuzione di X allora è detta semplice, se invece la specifica solo
parzialmente allora è detta composta. E’ chiaro allora che affinché un’ipotesi sia
semplice, ovvero affinché la specificazione della distribuzione di X sotto tale ipotesi sia
completa, occorre che, contemporaneamente: 1) l’ipotesi sia di tipo puntuale, cioè
individui un solo punto dello spazio parametrico; 2) non vi siano altri parametri
incogniti. Per chiarire questo aspetto vediamo alcuni esempi.
•
Sia X ~ Be(p). Allora:
-
se H0: p = 0.3, H1: p = 0.4, entrambe le ipotesi sono semplici (in questo caso lo
spazio parametrico è {0.3, 0.4});
-
se H0: p = 0.3, H1: p > 0.3, l’ipotesi nulla è semplice mentre l’alternativa è
composta unidirezionale (in questo caso lo spazio parametrico è [0.3, 1]);
-
se H0: p = 0.3, H1: p ≠ 0.3, l’ipotesi nulla è semplice mentre l’alternativa è
composta bidirezionale (in questo caso lo spazio parametrico è [0, 1]);
-
se H0: p ≤ 0.3, H1: p > 0.3, sia l’ipotesi nulla che l’alternativa sono composte
unidirezionali (in questo caso lo spazio parametrico è di nuovo [0, 1]).
3
•
Sia X ~ N(µ, σ2 = 10). Allora, essendo σ2 nota:
-
se H0: µ = 15, H1: µ = 10, entrambe le ipotesi sono semplici (in questo caso lo
spazio parametrico per µ è {10, 15});
-
se H0: µ = 15, H1: µ < 15, l’ipotesi nulla è semplice mentre l’alternativa è
composta unidirezionale (in questo caso lo spazio parametrico per µ è (–∞,
15]);
-
se H0: µ = 15, H1: µ ≠ 15, l’ipotesi nulla è semplice mentre l’alternativa è
composta bidirezionale (in questo caso lo spazio parametrico per µ è (–∞,
+∞));
-
se H0: µ ≥ 15, H1: µ < 15, sia l’ipotesi nulla che l’alternativa sono composte
unidirezionali (in questo caso lo spazio parametrico per µ è di nuovo (–∞, +∞)).
•
Sia X ~ N(µ, σ2). Allora, essendo σ2 incognita, qualsiasi ipotesi su µ, sia di tipo
puntuale che non, è composta.
Tornando a quanto detto in precedenza, obiettivo del test delle ipotesi è decidere se
accettare o rifiutare l’ipotesi nulla H0 sulla base del campione.
Definizione 2: Definizione di test delle ipotesi. Un test di ipotesi è una regola attraverso la quale decidere se accettare o rifiutare l’ipotesi nulla H0
sulla base del campione x = (x1, …, xn).
Concretamente, tale regola è attuata nel modo seguente. Indicato con C
l’universo dei campioni (cioè l’insieme di tutti i possibili campioni x =
(x1, …, xn) di dimensione fissata n che si possono estrarre da X), un test
delle ipotesi consiste nel suddividere l’insieme C in due sottoinsiemi
disgiunti A e R (quindi A ∪ R = C e A ∩ R = ø) in modo tale che:
•
se x cade in A → si accetta l’ipotesi H0;
•
se x cade in R → si rifiuta l’ipotesi H0 (e quindi si accetta H1).
A è detto regione di accettazione, mentre R è detto regione di rifiuto o
regione critica.
Il processo decisionale di cui alla definizione precedente è schematizzato in Fig. 1.
4
C
Θ
Θ0
A
R
Θ1
Fig. 1 – Rappresentazione grafica del processo decisionale del test delle ipotesi. L’unico
aspetto su cui la teoria può intervenire è sul “confine” (tratteggiato nella figura) fra
regione di accettazione A e regione di rifiuto R.
A questo punto, date due ipotesi statistiche H0 e H1 che formano una partizione di Θ e
data una regola di decisione basata su un campione x quale quella indicata sopra, è
banale osservare che, nell’accettare o rifiutare H0, si può agire correttamente ma si
possono anche commettere degli errori. Più in dettaglio, con riferimento all’ipotesi H0:
si ha una decisione corretta se si accetta l’ipotesi quando è vera o si rifiuta quando è
falsa, mentre si ha una decisione errata se si accetta l’ipotesi quando è falsa o si rifiuta
quando è vera. Queste quattro situazioni sono schematizzate nella Tabella 1.
Verità
Decisione
H0: θ ∈ Θ0
H1: θ ∈ Θ1
x∈A
ok
errore di II tipo
x∈R
errore di I tipo
ok
Tabella 1 - Tavola di decisione in un test delle ipotesi.
Prima di commentarne il contenuto, si evidenzia che questa tabella “fotografa” l’essenza
del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la
seconda stabilisce quale delle due ipotesi è vera, mentre l’uomo può solo decidere,
basandosi sull’informazione del campione, se accettare o rifiutare H0. Detto in altre
parole la “natura” stabilisce la colonna della tabella, mentre l’uomo può solo decidere la
riga. Nella realtà, quindi, non sappiamo mai quale è vera fra H0 e H1 (e quindi qual è la
5
colonna giusta), ma possiamo stabilire solo quale decisione prendere (cioè quale riga
scegliere). E’ ovvio però che per prendere la decisione in oggetto occorre valutare cosa
succede a seconda delle “mosse dell’avversario”, cioè quali sono le conseguenze di
ciascuna decisione a seconda di cosa la “natura” ha stabilito: il contenuto della tabella
evidenzia proprio questo.
Nel processo decisionale indicato si possono allora commettere due tipi di errore:
a. errore di I tipo: è l’errore che si commette quando è vera H0 ma x ∈ R e quindi la
decisione è rifiutare H0;
b. errore di II tipo: è l’errore che si commette quando è vera H1 ma x ∈ A e quindi la
decisione è accettare H0.
Facciamo notare che l’errore di I tipo è l’unico errore che si può commettere quando è
vera H0, mentre l’errore di II tipo è l’unico errore che si può commettere quando è vera
H1.
La probabilità di commettere un errore di I tipo, cioè la probabilità di rifiutare H0
quando essa è vera, è indicata usualmente con α:
α = P(I) = P(X ∈ R | H0)
ed è detta livello di significatività del test.
La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare H0
quando essa è falsa, è indicata con β:
β = P(II) = P(X ∈ A | H1).
La probabilità di rifiutare H0 quando è vera H1, cioè
γ = P(X ∈ R | H1) = 1 – β,
è detta potenza del test (dall’inglese power) ed è pari a 1 – β in quanto l’evento
considerato è complementare all’errore di II tipo.
Chiaramente: quando l’ipotesi alternativa è puntuale allora sia β che γ sono dei valori;
se invece H1 non è di tipo puntuale, allora sia β che γ sono funzione della specificazione
di tale ipotesi (maggiori dettagli saranno forniti nella sez. 4).
La probabilità di accettare H0 quando è vera, è data da
P(X ∈ A | H0) = 1 – α
e non ha un nome particolare.
6
2. Teoria del test delle ipotesi
A questo punto ci sono tutti gli elementi per sviluppare la teoria del test delle ipotesi.
Espressa per adesso in termini intuitivi, l’idea di base, visto che il processo decisionale
relativo al test delle ipotesi può essere affetto da errore (di I o di II tipo) è quella di
congegnare tale processo in modo da “sbagliare il meno possibile”. D’altra parte, per
quanto detto in precedenza questo equivale a curare la suddivisione di C nelle due
regioni A e R nel miglior modo possibile. Infatti: da una parte la formulazione
dell’ipotesi nulla è “suggerita” dal fenomeno in analisi e dall’interesse di chi lo
analizza; dall’altra la realizzazione campionaria x non può essere certo stabilita da chi
effettua le analisi; l’unica cosa su cui si può intervenire è la suddivisione di C in A e R
(e quindi, relativamente alla Fig. 1, solo sul “confine” fra le due regioni). Pertanto tutto
ciò che la teoria può fare è effettuare la partizione dell’universo dei campioni C in A ed
R in modo da “sbagliare il meno possibile” nel decidere se accettare o rifiutare H0:
quando nel seguito discuteremo della ricerca del test migliore, per test intenderemo
sempre una suddivisione di C in regione di accettazione A e regione di rifiuto R.
Così posto il problema, si vede chiaramente che il test ideale sarebbe quello che opera
una suddivisione di C in A ed R in modo da non incorrere mai in errore e quindi cadere
sempre nelle caselle ok della Tabella 1, cioè: se è vera H0 decidere di accettare H0,
mentre se è vera H1 rifiutare H0. D’altra parte se conoscessimo quale delle due ipotesi è
vera non ci sarebbe bisogno di decidere, e quindi è ovvio che questa situazione ideale è
nella pratica impossibile.
Si potrebbe allora cercare, come test ottimale, una suddivisione di C in A ed R capace di
minimizzare simultaneamente le probabilità, rispettivamente α e β, di commettere gli
errori di I e di II tipo. Purtroppo, in generale non possibile perseguire tale obiettivo, dato
che, come vedremo successivamente nella sez. 4, α e β sono collegati in maniera
inversa, cioè al diminuire di uno l’altro tende ad aumentare e viceversa.
La procedura seguita normalmente è quella di cercare il test migliore nel modo
seguente: fissato il livello di significatività α (la probabilità dell’errore di I tipo) ad un
livello “piccolo”, si cerca la suddivisione di C in A ed R che minimizza β (la probabilità
dell’errore di II tipo), ovvero, stante la relazione fra β e γ, che massimizza γ (la potenza
7
del test). Un tale test è detto test più potente (o test MP dall’inglese Most Powerful)
per α prefissato. I valori comunemente utilizzati per α sono 0.1, 0.05, 0.01, 0.001.
Evidentemente, la scelta di fissare α e minimizzare β, è dovuta al ruolo “asimmetrico”
che hanno i due errori, di I e di II tipo. Fissare la probabilità dell’errore di I tipo ad un
livello “piccolo” e minimizzare la probabilità di quello di II tipo presuppone il ritenere il
primo errore “più grave” rispetto al secondo. Infatti fissare α ad un livello “piccolo”
implica tenere “sotto controllo” la probabilità di incorrere nell’errore corrispondente,
mentre β, una volta trovato il test più potente, sarà sì minimo a parità di α, ma sarà pur
sempre quello che sarà, senza poterlo limitare ad un valore prefissato (salvo, come
vedremo, il poter stabilire a priori la dimensione del campione). Questo significa che,
per operare nel modo più corretto, bisognerebbe sempre porre come ipotesi nulla quella
le cui conseguenze sono peggiori in caso di errata decisione.
Fatte queste considerazioni, la teoria del test delle ipotesi si regge su diversi risultati
teorici di cui diamo soltanto i principali, ovvero:
1. Il teorema di Neyman-Pearson;
2. Il test del rapporto di massima verosimiglianza.
Il teorema di Neyman-Pearson (che diamo senza dimostrazione) fornisce una risposta
esauriente al problema, sopra menzionato, di trovare il test più potente per un prefissato
livello di significatività quando entrambe le ipotesi, la nulla e l’alternativa, sono
semplici.
Teorema 1:
Teorema di Neyman-Pearson. Siano: X una v.c. con funzione di massa
o di densità f(x; θ);
H0: θ = θ0 contro H1: θ = θ1
due ipotesi su θ entrambe semplici; α il prefissato livello di
significatività del test. Sia poi x = (x1, ..., xn) un campione estratto da X,
l’informazione da utilizzare per sottoporre a test le ipotesi indicate, e sia
L(θ) la verosimiglianza calcolata in θ sulla base di tale campione.
Allora il test più potente al livello di significatività α è individuato dalla
seguente partizione dell’universo dei campioni C:
8
R = {x: L(θ0)/L(θ1) < K}
A = {x: L(θ0)/L(θ1) ≥ K},
dove il valore soglia K, detto valore critico, è scelto in modo tale da
soddisfare il livello di significatività α, cioè
α = P(X ∈ R | H0) = P(X: L(θ0)/L(θ1) < K | H0).
Questo teorema, ad una prima lettura di non semplice interpretazione, richiede qualche
commento.
1. La prima cosa da notare, peraltro già evidenziata più volte, è il fatto che tale teorema
vale solo se entrambe le ipotesi, nulla e alternativa, sono semplici.
2. In secondo luogo si evidenzia il particolare rilievo che la verosimiglianza ha anche
nell’ambito del test delle ipotesi, oltre che nella stima (si veda cap. 6).
3. In terzo luogo: il teorema resta valido qualunque sia il numero (purché finito) dei
parametri caratteristici della legge di distribuzione della v.c. X; il teorema non
richiede esplicitamente l’indipendenza delle n osservazioni costituenti il campione;
il teorema può essere applicato in modo del tutto equivalente considerando la
differenza delle log-verosimiglianze invece rapporto fra le verosimiglianze. Infatti
essendo il logaritmo una trasformazione monotona crescente si ha, facendo il
logaritmo naturale di ambo i membri,
L(θ0)/L(θ1) < K
⇔
l(θ0) – l(θ1) < k,
dove l(θ) = ln L(θ) e k = ln K [si invita lo studente a dimostrare l’equivalenza fra le
due relazioni]. Il vantaggio di considerare la log-verosimiglianza è che, di norma,
quest’ultima è più facile da trattare rispetto alla verosimiglianza.
4. Infine la considerazione più rilevante dal punto di vista pratico. Ricordando che la
verosimiglianza in θ è la probabilità o densità del campione osservato x per tale
valore del parametro, il teorema stabilisce regione di rifiuto e di accettazione in base
al confronto della verosimiglianza nelle due situazioni alternative H0, in cui θ vale
θ0, e H1, in cui θ è pari a θ1. Fissata una certa soglia K (o k se si considera la
differenza fra log-verosimiglianze), anche intuitivamente appare logico accettare
quando L(θ0)/L(θ1) è superiore alla soglia, e rifiutare quando invece il rapporto è
inferiore alla soglia. Riguardo a questo, il calcolo delle due verosimiglianze, per
quanto talvolta lungo, generalmente non è un grosso problema. Il punto “spinoso”,
9
piuttosto, è come determinare la soglia K. Il teorema dice che K deve soddisfare la
condizione α = P(X: L(θ0)/L(θ1) < K | H0): tuttavia per poter utilizzare questa
condizione occorre che il rapporto fra le verosimiglianze L(θ0)/L(θ1) abbia una
distribuzione nota, in base alla quale sfruttare opportune tavole per ricavare K. In
generale, però, tale distribuzione non è di semplice derivazione.
Nella pratica, allora, come si può sfruttare questo teorema? Ebbene, quando, come nella
maggior parte dei casi considerati in questo corso, esistono statistiche sufficienti per il
parametro che si vuole sottoporre a test, si può dimostrare che la disuguaglianza
L(θ0)/L(θ1) < K può essere trasformata in una disuguaglianza perfettamente equivalente
del tipo T(X) < c oppure T(X) > c, cioè vale
α = P(X: L(θ0)/L(θ1) < K | H0) = P(X: T(X) < c | H0)
oppure
α = P(X: L(θ0)/L(θ1) < K | H0) = P(X: T(X) > c | H0)
a seconda di quale delle due è equivalente a quella originaria (questo aspetto è
affrontato sotto). Nelle relazioni precedenti T(X) è una statistica di cui si conosce la
distribuzione mentre c è una costante “soglia” di nuovo detta valore critico. Poiché di
T(X) si conosce la distribuzione, c può essere facilmente ricavato dalle tavole
corrispondenti sulla base delle relazioni precedenti che lo legano ad α. Per non
appesantire eccessivamente il corso, in generale non descriveremo i passaggi che da
L(θ0)/L(θ1) < K portano infine a T(X) < c oppure a T(X) > c. Ci limiteremo giusto ad un
paio di esempi, mentre nei casi successivi indicheremo soltanto la statistica test T(X) e
la corrispondente distribuzione.
Ma rispetto a questo si può dire anche di più.
•
La prima cosa che si può aggiungere è una semplice sottolineatura, decisiva però ai
fini della comprensione della teoria del test delle ipotesi: il valore critico, sia questo
K (nella versione per il rapporto fra verosimiglianze L(θ0)/L(θ1)), k (nella versione
per la differenza fra log-verosimiglianze l(θ0) – l(θ1)) o c (per la versione relativa a
T(X)) si trova da una delle condizioni
α = P(X: L(θ0)/L(θ1) < K | H0)),
α = P(X: l(θ0) – l(θ1) < k | H0)),
10
α = P(X: T(X) < c | H0),
α = P(X: T(X) > c | H0),
e dunque dipende dal comportamento della statistica test sotto H0. In altri termini
il confine fra regione di accettazione e regione di rifiuto si ricava, sempre,
ragionando sotto H0.
•
La seconda cosa da aggiungere, fondamentale anch’essa, è che nel caso in cui si
utilizzi T(X) la regione di rifiuto va sempre messa dalla parte dell’ipotesi
alternativa H1, cioè se θ1 < θ0 allora
R = {x: T(x) < c}
mentre se θ1 > θ0 allora
R = {x: T(x) > c}.
Quindi, riassumendo:
il valore critico c va sempre trovato ragionando sotto H0, tenendo però presente
che la regione di rifiuto sta dalla parte di H1.
•
Tutto ciò consente di evidenziare un altro aspetto importante. Le assunzioni del
teorema indicano che entrambe le ipotesi H0 e H1 devono essere semplici. In realtà
per quanto detto al termine del punto precedente, nel caso in cui si possa trasformare
α = P(X: L(θ0)/L(θ1) < K | H0)) in α = P(X: T(X) < c | H0) oppure α = P(X: T(X) > c
| H0), mantenendo l’ipotesi nulla a H0: θ = θ0 il teorema vale anche se l’ipotesi
alternativa è composta unidirezionale, cioè del tipo H1: θ > θ0 oppure H1: θ < θ0.
Infatti in questo caso non ha alcuna importanza al valore puntuale dell’ipotesi
alternativa al fine di stabilire regione di accettazione e regione di rifiuto: l’unica
cosa che conta è se H1 sta a destra oppure a sinistra di H0.
I seguenti due esempi chiariscono nella pratica quanto detto finora. [Avvertenza:
essendo i due esempi abbastanza tecnici, se ne consiglia la lettura, che deve essere
effettuata con attenzione e carta e penna alla mano, solo a chi ha una certa
dimestichezza con i passaggi algebrici.]
Esempio 1
Sia X ~ Be(p) e siano
11
H0: p = p0 contro H1: p = p1
due ipotesi entrambe semplici su p (nella pratica p0 e p1 sono due numeri), cosicché lo
spazio parametrico è {p0, p1}.
Considerando la differenza fra log-verosimiglianze (punto 3 precedente), allora il test
più potente al livello di significatività α è individuato, in base al teorema di NeymanPearson, dalla seguente regione di rifiuto
R = {x: l(p0) – l(p1) < k},
dove il valore critico k è determinato sulla base della distribuzione della statistica test
l(p0) – l(p1) sotto H0, dovendo soddisfare
α = P(X ∈ R | H0) = P(X: l(p0) – l(p1) < k | H0).
Allora (cap. 6, sez. 5.1.2)
n
l(p0) – l(p1) = ln p0 ∑ Xi + ln q0 (n –
i=1
n
∑
i=1
n
Xi) – ln p1 ∑ Xi – ln q1 (n –
i=1
n
∑ Xi) < k,
i=1
n
che, mettendo in evidenza la statistica sufficiente
∑ Xi, equivale a
i=1
n
[ln (p0/q0) – ln (p1/q1)]
∑ Xi + n (ln q0 – ln q1) < k,
i=1
ovvero, ragionando sulla media campionaria invece che sulla somma dei successi, a
[ln (p0/q0) – ln (p1/q1)] n X + n (ln q0 – ln q1) < k.
A questo punto, il passaggio successivo dipende da quale è maggiore fra le due ipotesi,
se la nulla o l’alternativa. Infatti:
•
se p1 < p0 allora ln (p0/q0) – ln (p1/q1) > 0 e quindi
X < [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln (p1/q1)] = c;
•
se p1 > p0 allora ln (p0/q0) – ln (p1/q1) < 0 e quindi
X > [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln (p1/q1)] = c.
Possiamo notare che si verifica proprio quanto detto in precedenza: la disuguaglianza
sulle verosimiglianze (o sulle log-verosimiglianze) è stata trasformata in una
disuguaglianza equivalente relativa ad una particolare statistica di cui si conosce la
distribuzione, nel nostro caso X ~ BiRe(n, p); quale delle due disuguaglianze vale
12
dipende da dove sta l’ipotesi alternativa rispetto alla nulla: se p1 < p0 allora vale quella
con < c, e quindi la regione di rifiuto è
R = {x: x < c};
se p1 > p0 allora vale quella con > c, e quindi la regione di rifiuto è
R = {x: x > c};
In ogni caso la regione di rifiuto sta sempre, rispetto a c, dalla parte dell’alternativa.
Il valore critico c può essere ricavato direttamente dalla condizione sul livello di
significatività, cioè:
•
se p1 < p0, c è tale che
α = P(X ∈ R | H0) = P( X < c | H0);
•
se p1 > p0, c è tale che
α = P(X ∈ R | H0) = P( X > c | H0);
senza quindi dover calcolare l’espressione c = [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln
(p1/q1)] (la determinazione pratica di tale valore critico sarà affrontata successivamente).
Esempio 2
Sia X ~ N(µ, σ2) con σ2 nota, e siano
H0: µ = µ0 contro H1: µ = µ1
due ipotesi entrambe semplici su µ (nella pratica µ0 e µ1 sono numeri), cosicché lo
spazio parametrico è {µ0, µ1}.
Considerando la differenza fra log-verosimiglianze (punto 3 precedente), allora il test
più potente al livello di significatività α è individuato, in base al teorema di NeymanPearson, dalla seguente regione di rifiuto
R = {x: l(µ0) – l(µ1) < k},
dove il valore critico k è determinato sulla base della distribuzione della statistica test
l(µ0) – l(µ1) sotto H0, dovendo soddisfare
α = P(X ∈ R | H0) = P(X: l(µ0) – l(µ1) < k | H0).
Allora (cap. 6, sez. 5.1.4)
l(µ0) – l(µ1) =
–
n
n
1
ln(2π) – lnσ2 –
2
2
2σ 2
n
∑
i=1
(Xi – µ0)2 +
n
n
1
ln(2π) + lnσ2 +
2
2
2σ 2
13
n
∑ (Xi – µ1)2 < k,
i=1
che dopo le opportune semplificazioni diviene
n
1
2σ
2
∑ [(Xi – µ1)2 – (Xi – µ0)2] < k.
i=1
Svolgendo il quadrato e facendo alcune semplificazioni si ottiene
1
[n( µ12 – µ 02 ) + 2(µ0 – µ1)
2σ 2
n
∑ Xi] < k,
i=1
equivalente a
1
2σ
2
[n( µ12 – µ 02 ) + 2(µ0 – µ1)n X ] < k.
A questo punto, il passaggio successivo dipende da quale è maggiore fra le due ipotesi,
se la nulla o l’alternativa. Infatti:
•
se µ1 < µ0 allora µ0 – µ1 > 0 e quindi
X < [2σ2k/n – ( µ12 – µ 02 )]/[2(µ0 – µ1)] = c;
•
se µ1 < µ0 allora µ0 – µ1 < 0 e quindi
X > [2σ2k/n – ( µ12 – µ 02 )]/[2(µ0 – µ1)] = c.
Anche in questo caso si verifica quanto detto in precedenza: la disuguaglianza sulle
verosimiglianze (o sulle log-verosimiglianze) è stata trasformata in una disuguaglianza
equivalente relativa ad una particolare statistica di cui si conosce la distribuzione, nel
nostro caso X ~ N(µ,σ2/n); quale delle due disuguaglianze vale dipende da dove sta
l’ipotesi alternativa rispetto alla nulla: se µ1 < µ0 allora vale quella con < c, e quindi la
regione di rifiuto è
R = {x: x < c};
se µ1 > µ0 allora vale quella con > c, e quindi la regione di rifiuto è
R = {x: x > c}.
In ogni caso la regione di rifiuto sta sempre, rispetto a c, dalla parte dell’alternativa.
Il valore critico c può essere ricavato direttamente dalla condizione sul livello di
significatività, cioè:
•
se µ1 < µ0, c è tale che
α = P(X ∈ R | H0) = P( X < c | H0);
14
•
se µ1 < µ0, c è tale che
α = P(X ∈ R | H0) = P( X > c | H0);
senza quindi dover calcolare l’espressione c = [2σ2k/n – ( µ12 – µ 02 )]/[2(µ0 – µ1)] (la
determinazione pratica di tale valore critico sarà affrontata successivamente).
Riassumendo quanto detto finora, il teorema di Neyman-Pearson consente di derivare la
migliore regione critica soltanto quando le ipotesi nulla e alternativa sono semplici
oppure, per certi particolari modelli, quando l’ipotesi nulla è semplice e l’ipotesi
alternativa è composta unilaterale.
Quando H0 o H1 o entrambe le ipotesi sono composte non esiste un teorema analogo. E’
stata comunque suggerita, sempre da Neyman e Pearson, una procedura generale per la
individuazione della regione critica che dà usualmente buoni risultati: il test del
rapporto di verosimiglianza (in inglese likelihood ratio test).
Definizione 3: Definizione di test del rapporto di verosimiglianza. Siano: X una v.c.
con funzione di massa o di densità f(x; θ);
H0: θ ∈ Θ0 contro H1: θ ∈ Θ1
due ipotesi su θ (una o entrambe composte); α il prefissato livello di
significatività del test. Sia poi x = (x1, ..., xn) un campione estratto da X,
l’informazione da utilizzare per sottoporre a test le ipotesi indicate, e sia
L(θ) la verosimiglianza calcolata in θ sulla base di tale campione.
Allora il test del rapporto di verosimiglianza si basa sul rapporto fra il
massimo della verosimiglianza sotto il vincolo di H0, L( θˆ0 ) = max L(θ ) ,
θ ∈Θ0
e il massimo della verosimiglianza libero, L( θˆ ) = max L(θ ) . In
θ ∈Θ
particolare il test del rapporto di massima verosimiglianza al livello di
significatività α è individuato dalla seguente partizione dell’universo dei
campioni C:
R = {x: r = L( θˆ0 )/L( θˆ ) < K}
A = {x: r = L( θˆ0 )/L( θˆ ) ≥ K},
15
dove il valore soglia K è scelto in modo tale da soddisfare il livello di
significatività α, cioè
α = P(X ∈ R | H0) = P(X: r = L( θˆ0 )/L( θˆ ) < K | H0).
Anche questa definizione richiede alcuni commenti.
1. Per prima cosa, si evidenzia di nuovo il ruolo fondamentale del concetto di
verosimiglianza.
2. In seconda battuta è opportuno chiarire la “ratio” di questa procedura di test. La
logica del test del rapporto di verosimiglianza è quella di rapportare come il
campione “è spiegato” dall’ipotesi H0 (il massimo vincolato L( θˆ0 ) = max L(θ ) al
θ ∈Θ0
numeratore) rispetto a come “è spiegato” senza imporre alcun vincolo (il massimo
libero L( θˆ ) =
max L(θ ) al denominatore). Notato che tale rapporto è
θ ∈Θ
necessariamente compreso fra 0 e 1 (le verosimiglianze sono sempre non negative e
il massimo vincolato non può essere maggiore del massimo libero!), si intuisce che
se r è vicino ad 1 allora la spiegazione fornita sotto H0 si avvicina a quella libera e
l’ipotesi H0 sarà tendenzialmente da accettare; viceversa se r è piccolo allora la
spiegazione fornita sotto H0 è significativamente peggiore di quella libera e l’ipotesi
H0 sarà tendenzialmente da rifiutare.
3. Come terza cosa si fa notare che, analogamente al teorema di Neyman-Pearson, il
test del rapporto di verosimiglianza può essere anche applicato con riferimento alle
log-verosimiglianze, che come detto altre volte sono spesso un po’ più semplici da
calcolare. Infatti, essendo il logaritmo naturale una trasformazione monotona
crescente, il logaritmo del massimo (della verosimiglianza, sia questa libera che
vincolata) è uguale al massimo del logaritmo (e quindi al massimo della logverosimiglianza). Di conseguenza, considerando la disuguaglianza che definisce la
regione di rifiuto R abbiamo
r = L( θˆ0 )/L( θˆ ) < K
⇔
ln r = l( θˆ0 ) – l( θˆ ) < k,
dove l( θˆ0 ) = max l (θ ) e l( θˆ ) = max l (θ ) sono rispettivamente il massimo vincolato
θ ∈Θ0
θ ∈Θ
(sotto H0) e il massimo libero della log-verosimiglianza e k = ln K [di nuovo si invita
lo studente a dimostrare l’equivalenza delle due relazioni precedenti]. Si fa notare
16
che, poiché il rapporto fra i massimi delle verosimiglianze r è sempre compreso in
[0, 1], la differenza fra i massimi delle log-verosimiglianze è sempre ≤ 0.
4. La costante che discrimina se l’ipotesi nulla è da accettare o da rifiutare è il valore
critico, K per il rapporto delle verosimiglianze, k per la differenza delle logverosimiglianze. Ovviamente poiché r è compreso fra 0 ed 1 anche K sarà sempre
inferiore a 1, così come essendo ln r ≤ 0 anche k sarà sempre negativo. Il valore di K
deve essere ricavato in modo da rispettare il livello di significatività fissato, cioè
α = P(X ∈ R | H0) = P(X: r = L( θˆ0 )/L( θˆ ) < K | H0)
e un discorso analogo vale per k
α = P(X ∈ R | H0) = P(X: ln r = l( θˆ0 ) – l( θˆ ) < k | H0).
D’altra parte per ricavare K o k occorre conoscere la distribuzione campionaria di r
= L( θˆ0 )/L( θˆ ) o di ln r = l( θˆ0 ) – l( θˆ ) in modo da sfruttare opportune tavole per
ricavare K o k. In generale, però, tale distribuzione non è di semplice derivazione. E
allora si aprono due situazioni alternative:
-
Se, dopo una serie di passaggi, si riesce a semplificare la disuguaglianza
L( θˆ0 )/L( θˆ ) < K o l’equivalente l( θˆ0 ) – l( θˆ ) < k in modo da ricondurla ad una
disuguaglianza perfettamente equivalente relativa ad una statistica la cui
distribuzione è nota (operazione analoga a quanto visto in precedenza
relativamente al teorema di Neyman-Pearson e che richiede la presenza di
statistiche sufficienti), allora conviene procedere per questa strada e la
distribuzione della statistica test che si trova consente l’esatta derivazione del
valore critico;
-
Se invece non è possibile ricondursi ad una disuguaglianza equivalente per una
grandezza la cui distribuzione è nota (e questo è il caso più frequente nella
pratica, anche se “raro” in questo corso) allora non rimane che affidarsi alla
distribuzione asintotica del rapporto di massima verosimiglianza r. Sotto
condizioni di regolarità abbastanza generali si può infatti dimostrare che per n
abbastanza grande, la variabile casuale –2 lnr, ha approssimativamente una
distribuzione del tipo χ2(v), dove ν rappresenta il numero di vincoli di
uguaglianza puntuali sui parametri specificati da H0. In simboli
(–2 lnr = –2 [l( θˆ0 ) – l( θˆ )] | H0) ≈ χ2(v).
17
In tal caso, poiché la regione di rifiuto è definita da r < K o da ln r < ln K, allora
r<K
⇔
ln r < ln K
⇔
–2 ln r > –2 ln K,
per cui in base alla distribuzione asintotica di –2 lnr dovremo sempre rifiutare a
destra del valore critico trovato in base alle tavole della χ2(v). Il fatto che la
distribuzione asintotica si riferisca alla v.c. lnr è un’altra ragione per cui spesso
si utilizza la log-verosimiglianza in luogo della verosimiglianza.
Il test del rapporto di verosimiglianza gode anche di particolari proprietà.
Infatti si dimostra che nei casi in cui esiste la migliore regione critica, cioè quella che a
parità di livello di significatività α massimizza la potenza γ, il test del rapporto di
verosimiglianza riesce a individuarla. Ad esempio, nelle condizioni del teorema di
Neyman-Pearson il test del rapporto di verosimiglianza riesce ad individuare la
medesima regione di rifiuto del teorema.
Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP
dall’inglese Uniformly Most Powerful), cioè un test che, relativamente ad una data
ipotesi nulla semplice H0 e per un prefissato livello di significatività α, minimizza la
probabilità β dell’errore di II tipo qualunque sia la specificazione della ipotesi
alternativa composta H1, esso è un test del rapporto di verosimiglianza.
3. Esempio X ~ N(µ, σ2): test su µ con σ2 nota
In questa sezione si illustra come sottoporre a test alcune ipotesi sul parametro media µ
relativamente al modello Normale con varianza nota. Come detto altre volte, questo
modello non è di grande interesse da un punto di vista operativo in quanto la varianza è
generalmente una quantità incognita. Tuttavia è utile descriverlo e apprenderlo con cura,
sia perché costituisce il prototipo degli esempi che seguiranno (se si capisce questo gli
altri diventano “banali”) sia perché consente di precisare i concetti già esposti e di
illustrarne di nuovi.
Sia allora X ~ N(µ, σ2) con σ2 nota. Si vuole sottoporre a test un’ipotesi su µ, al livello
di significatività α sulla base del c.c.s. x = (x1, …, xn).
18
a) Caso H0: µ = µ0 contro H1: µ = µ1 > µ0
Questo caso, in cui µ0 e µ1 sono due numeri di cui il secondo maggiore del primo, è
stato trattato nell’Esempio 2 discutendo del teorema di Neyman-Pearson. Essendo le
due ipotesi entrambe semplici, il test migliore è individuato dal teorema, la cui
applicazione porta:
•
all’utilizzo della statistica test X ;
•
a porre la regione di rifiuto dalla parte dell’ipotesi alternativa, cioè R = {x: x > c};
•
a scegliere il valore critico c in base, contemporaneamente, al livello di
significatività α prefissato e alla distribuzione della statistica test sotto H0, cioè α =
P(X ∈ R | H0) = P( X > c | H0).
Nell’Esempio 2 Avevamo rimandato la ricerca del valore critico c ed ora è il momento
di affrontarla.
Poiché in base alle assunzioni dell’esempio si ha che
X ~ N(µ, σ2/n),
quando è vera H0 si ha che µ = µ0 per cui
( X | H0) ~ N(µ0, σ2/n).
Di conseguenza per trovare c si sfruttano i seguenti passaggi
α = P(X ∈ R | H0) = P( X > c | H0) = P(
X − µ0
σ/ n
>
c − µ0
σ/ n
| H0) = P(Z > z | H0),
si trova z come valore che nelle tavole della N(0, 1) lascia a destra una probabilità α, e
quindi a sinistra (1 – α), e infine si calcola il valore critico c = µ0 + z σ/ n .
La regione critica è allora
R = {x: x > c = µ0 + z σ/ n },
dove z è il quantile (1 – α) della N(0, 1).
A questo punto se la media x calcolata sul campione è inferiore a c si accetta, se è
maggiore si rifiuta.
Si sottolinea che una decisione identica si poteva prendere, invece che confrontando x
col c trovato, confrontando la sua versione standardizzata
19
x − µ0
σ/ n
con lo z (che
possiamo chiamare z-critico) trovato dalle tavole. Infatti, in base ai passaggi visti sopra,
X > c è del tutto equivalente a
X − µ0
σ/ n
> z.
b) Caso H0: µ = µ0 contro H1: µ = µ1 < µ0
Questo caso, in cui µ0 e µ1 sono di nuovo due numeri di cui il secondo è stavolta minore
del primo, può essere risolto, sfruttando il teorema di Neyman-Pearson, in maniera del
tutto analoga al caso precedente. L’unica differenza sta nel fatto che, dovendo la regione
di rifiuto stare dalla parte dell’alternativa, abbiamo R = {x: x < c}.
Poiché di nuovo
( X | H0) ~ N(µ0, σ2/n),
per trovare c possiamo fare
α = P(X ∈ R | H0) = P( X < c | H0) = P(
X − µ0
σ/ n
<
c − µ0
σ/ n
| H0) = P(Z < z | H0),
trovare z come quantile α della N(0, 1) e calcolare il valore critico c = µ0 + z σ/ n .
La regione critica è allora
R = {x: x < c = µ0 + z σ/ n },
dove z è il quantile α della N(0, 1).
A questo punto se la media x calcolata sul campione è inferiore a c si rifiuta, se è
maggiore si accetta.
Di nuovo una decisione identica si poteva prendere, invece che confrontando x col c
trovato, confrontando la sua versione standardizzata
dalle tavole. Infatti X < c è del tutto equivalente a
x − µ0
σ/ n
X − µ0
σ/ n
con lo z-critico trovato
< z.
c) Caso H0: µ = µ0 contro H1: µ > µ0
In questo caso, l’ipotesi alternativa è composta unilaterale. Tuttavia, se si osserva il caso
a) trattato precedentemente, in cui l’alternativa era H1: µ = µ1 > µ0, si nota che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare:
20
l’alternativa serve solo a stabilire in quale coda della distribuzione di ( X | H0) piazzare
la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè
R = {x: x > c = µ0 + z σ/ n },
oppure, se si decide di utilizzare la versione standardizzata,
R = {x:
x − µ0
σ/ n
> z}
dove z è il quantile (1 – α) della N(0,1).
d) Caso H0: µ = µ0 contro H1: µ < µ0
Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il
ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui
l’alternativa era H1: µ = µ1 < µ0, si vede che nella formulazione della regione di rifiuto
R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve solo a
stabilire in quale coda della distribuzione di ( X | H0) piazzare la regione di rifiuto. Di
conseguenza la regione critica è la stessa, cioè
R = {x: x < c = µ0 + z σ/ n },
oppure, se si decide di utilizzare la versione standardizzata,
R = {x:
x − µ0
σ/ n
< z}
dove z è il quantile α della N(0,1).
e) Caso H0: µ = µ0 contro H1: µ ≠ µ0
Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso
è composta bidirezionale. Questo caso allora non può essere risolto ricorrendo al
teorema di Neyman-Pearson, né nella versione “base” (due ipotesi semplici) né in quella
“generalizzata” (ipotesi nulla semplice, ipotesi alternativa unidirezionale); si può però
arrivare ad una soluzione ricorrendo al test del rapporto di verosimiglianza.
Infatti, sottraendo al massimo vincolato della log-verosimiglianza sotto H0: µ = µ0 il
massimo libero della stessa log-verosimiglianza in base alle espressioni riportate nella
21
sez. 5.1.4 del cap. 6, si ottiene, dopo alcuni passaggi e semplificazioni, che la regione di
rifiuto è definita dalla disuguaglianza
2
1  x − µ0 
 < k,
ln r = – 
2  σ / n 
e la regione di accettazione da
2
1  x − µ0 
 ≥ k.
ln r = – 
2  σ / n 
Quest’ultima ovviamente equivale ad accettare se
– − 2k ≤
x − µ0
σ/ n
≤
− 2k .
(si ricorda che k < 0). Di nuovo, allora, ricompare la media campionaria X come
statistica test sulla base della quale prendere la decisione e, di nuovo, sotto H0 abbiamo
(
I valori critici – − 2k e
X − µ0
σ/ n
| H0) ~ N(0, 1).
− 2k , che come si può notare sono simmetrici rispetto a 0,
vanno trovati in base al livello di significatività del test:
1 – α = P(X ∈ A | H0) = P(– − 2k ≤
X − µ0
σ/ n
≤
− 2k | H0) = P(–z ≤
X − µ0
σ/ n
≤ z | H0)
dove z è il quantile (1 – α/2) della N(0, 1). Allora la regione di accettazione è definita da
A = {x: –z ≤
x − µ0
σ/ n
≤ z },
oppure, nella versione non standardizzata ma perfettamente equivalente, da
A = {x: c1 = µ0 – z σ/ n ≤ x ≤ c2 = µ0 + z σ/ n }
dove come detto z è il quantile (1 – α/2) della N(0,1).
f) Caso H0: µ ≤ µ0 contro H1: µ > µ0
Questo caso differisce dai precedenti in quanto l’ipotesi nulla non è di tipo puntuale.
Tuttavia può essere ricondotto al caso c) semplicemente trasformando l’ipotesi nulla in
H0: µ = µ0. La ragione è che se si sostituisce l’ipotesi nulla originaria con quella indicata
si ottiene la situazione peggiore, dal punto di vista della potenza del test, rispetto a
22
qualsiasi altra situazione in cui, sotto H0, µ sia inferiore a µ0. Maggiori dettagli su
questo saranno forniti nella sez. 4 quando, appunto, parleremo più diffusamente della
potenza di un test.
g) Caso H0: µ ≥ µ0 contro H1: µ < µ0
Questo caso può essere trattato con un ragionamento esattamente analogo a quello
precedente. [Si consiglia allo studente di ricostruirne i dettagli per conto proprio].
Per mettere in pratica quanto illustrato consideriamo i seguenti esempi numerici.
Esempio 3
Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di
almeno 1000 ore e come acquirenti si vuole verificare l'affermazione. Sottoponendo a
prova un campione casuale di 100 lampadine si riscontra una durata media di 970 ore.
Sapendo che la varianza della durata risulta essere σ2 = 6400 ore2, cosa si può
concludere riguardo all'affermazione ad un livello di significatività del 5%?
Il problema di verifica l'ipotesi da risolvere è
H0: µ ≥ 1000 contro H1 : µ < 1000.
D'altra parte, per effettuare in pratica questo test è opportuno correggere l'ipotesi nulla
secondo quanto indicato nel precedente caso g), ovvero
H0: µ = 1000 contro H1 : µ < 1000.
Ipotizzando la Normalità della durata delle lampadine, basandoci sulla teoria possiamo
utilizzare come v.c. test X , la cui distribuzione, essendo nota la varianza, è data da
X −µ
σ/ n
∼ N(0, 1).
La regione di rifiuto R va determinata, in base al livello di significatività, considerando
la distribuzione della v.c. test sotto H0 mettendo α ed R dalla parte di H1:
0.05 = P(X ∈ R | H0) = P(
23
X − µ0
σ/ n
< z | H0).
Dalle tavole si trova z = –1.645 come quantile 0.05 della N(0, 1), per cui la regione di
rifiuto per la statistica Z è R = {x:
x − µ0
σ/ n
=
970 − 1000
6400 / 100
x − µ0
σ/ n
< –1.645}. Lo z-empirico risulta invece
= –3.75, che confrontato con la regione di rifiuto porta a
rifiutare H0 al livello di significatività del 5% e a concludere quindi che la durata media
delle lampadine è significativamente inferiore a quella indicata.
Esempio 4
Un'impresa afferma che le batterie da essa prodotte hanno una durata media di 22 ore e
che la loro variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3
ore. Un campione di 9 batterie viene sottoposto a prova; tale prova fornisce una durata
media di 20 ore. Ipotizzando per la popolazione una variabilità pari a quella dichiarata
dalla casa produttrice e la Normalità della distribuzione, si vuol verificare la validità
dell'affermazione fatta dall'impresa.
Dobbiamo allora sottoporre a test
H0: µ = 22 contro H1: µ ≠ 22.
Grazie all'ipotesi di Normalità, di nuovo, basandoci sulla teoria possiamo utilizzare
come v.c. test X , la cui distribuzione, essendo nota la varianza, è data da
X −µ
σ/ n
∼ N(0, 1).
La regione di rifiuto R va determinata, in base al livello di significatività del 5%,
considerando la distribuzione della v.c. test sotto H0 e mettendo R su entrambe le code
(α/2 a sinistra, α /2 a destra):
1 – 0.05 = P(X ∈ A | H0) = P(–z ≤
X − µ0
σ/ n
≤ z | H0).
Dalle tavole si trova z = 1.96 come quantile 0.975 della N(0, 1), per cui la regione di
accettazione per la statistica Z è A = {x: –1.96 ≤
invece
x − µ0
σ/ n
=
20 − 22
3/ 9
x − µ0
σ/ n
≤ 1.96}. Lo z-empirico risulta
= –2, che confrontato con la regione di accettazione porta a
24
rifiutare H0 al livello di significatività del 5% e a concludere quindi che la durata media
delle lampadine è significativamente diversa da quella indicata.
4. La potenza del test
Finora abbiamo focalizzato l’attenzione sulla costruzione del test, cioè sulla divisione
dello spazio campionario in regione di accettazione e di rifiuto, in modo da sfruttare al
meglio le informazioni campionarie a disposizione. Questo significa, parafrasando il
significato del teorema di Neyman-Pearson e le proprietà del test del rapporto di
verosimiglianza, che a parità di livello di significatività la potenza ottenuta è la più alta
possibile (nelle condizioni del teorema) o comunque buona. Adesso però è venuto il
momento di analizzare in dettaglio come determinare la potenza di un test e
approfondire gli elementi che ne determinano il valore.
Per determinare la potenza di un test occorre anzitutto ricordarne la definizione. La
potenza di un test è la probabilità, quando è vera H1, di fare la cosa giusta, cioè di
rifiutare:
γ = P(X ∈ R | H1).
Se l’ipotesi alternativa è semplice, il calcolo della potenza è banale: basta seguire quanto
prescritto dalla definizione.
Prendiamo come riferimento il modello illustrato nella sezione precedente.
Nel caso a) H0: µ = µ0 contro H1: µ = µ1 > µ0 allora, ricordando che la regione di rifiuto
è data in questa situazione da
R = {x: x > c = µ0 + z σ/ n } = {x:
x − µ0
σ/ n
> z},
dove z è il quantile (1 – α) della N(0, 1), e che sotto H1
( X | H1) ~ N(µ1, σ2/n),
abbiamo
γ = P(X ∈ R | H1) = P( X > c | H1) = P(
X − µ1
σ/ n
25
>
c − µ1
σ/ n
| H1) = P(Z >
c − µ1
σ/ n
| H1).
Si evidenzia anche che se si fosse calcolata la potenza a partire dall’altro modo di
esprimere la regione critica, cioè
γ = P(X ∈ R | H1) = P(
X − µ0
σ/ n
> z | H1),
per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla
distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in
base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo
studente a fare i passaggi].
Analogamente, nel caso b) H0: µ = µ0 contro H1: µ = µ1 < µ0 , ricordando che la regione
di rifiuto è data in questa situazione da
R = {x: x < c = µ0 + z σ/ n } = {x:
x − µ0
σ/ n
< z}
dove z è il quantile α della N(0, 1) e che, di nuovo,
( X | H1) ~ N(µ1, σ2/n),
abbiamo, sempre per come è distribuito X sotto H1,
γ = P(X ∈ R | H1) = P( X < c | H1) = P(
X − µ1
σ/ n
<
c − µ1
σ/ n
| H1) = P(Z <
c − µ1
σ/ n
| H1).
Di nuovo, si evidenzia anche che se si fosse calcolata la potenza a partire dall’altro
modo di esprimere la regione critica, cioè
γ = P(X ∈ R | H1) = P(
X − µ0
σ/ n
< z | H1),
Sostituendo i valori di c = µ0 + zσ/ n , µ1, σ, n e calcolando la probabilità in oggetto
mediante le tavole si ottiene la potenza del test.
Si nota immediatamente che, se da una parte il valore di µ1 non ha alcuna importanza
nello stabilire regione di accettazione e regione di rifiuto (se non per il fatto di stare a
26
destra o a sinistra di H0), la specificazione dell’ipotesi è invece determinate per la
potenza del test, come si può intuire dalla definizione.
Si nota anche che nel determinare la potenza del test non ha alcuna importanza il valore
campionario della statistica test. Detto in altre parole la potenza di un test può essere
calcolata “a tavolino”, dato che allo scopo il campione non serve assolutamente.
Sostituendo l’espressione di c = µ0 + zσ/ n e facendo qualche semplificazione, la
potenza del test nei due casi precedenti può essere espressa: in a), in cui H1: µ = µ1 > µ0,
da
γ = P(Z >
µ 0 − µ1
+ z1 – α | H1),
σ/ n
e in b), in cui H1: µ = µ1 < µ0, da
γ = P(Z <
µ 0 − µ1
+ z α | H1).
σ/ n
Anche se riferite all'esempio in oggetto, le formule di cui sopra consentono alcune
precisazioni che hanno portata generale. In particolare l’espressione della potenza mette
in evidenza le determinati fondamentali del suo valore (per semplicità commentiamo la
formula relativa al caso b, con l’avvertenza che considerazioni del tutto speculari
possono essere ripetute per a):
1. Il livello di significatività, nel senso che all’aumentare di α aumenta anche la
potenza γ. Infatti, a parità di altre condizioni, l’aumento di α fa aumentare zα che a
sua volta fa aumentare γ = P(Z <
µ 0 − µ1
+ zα | H1). Questo si può vedere anche
σ/ n
graficamente dalla Fig. 2: l’incremento di α (probabilità dell’errore di I tipo),
comporta un allargamento della regione di rifiuto che a sua volta determina un
aumento della potenza del test e una riduzione di β.
2. La specificazione dell’ipotesi alternativa, nel senso che all’aumentare della
distanza di H1 da H0 aumenta anche la potenza γ. Infatti, a parità di altre
condizioni, l’aumento della distanza fra le due ipotesi fa aumentare µ0 – µ1
(ricordiamo che, nel caso b, µ1 < µ0), quindi fa aumentare
27
µ 0 − µ1
e questo infine
σ/ n
fa accrescere γ = P(Z <
µ 0 − µ1
+ zα | H1). Questo si può vedere anche graficamente
σ/ n
dalla Fig. 3: la diminuzione di µ1 provoca un corrispondente spostamento a sinistra
della distribuzione di X sotto H1, comportando un aumento, sempre sotto H1, della
probabilità di stare nella regione di rifiuto e una riduzione di β.
3. La dimensione del campione, nel senso che all’aumentare di n aumenta anche la
potenza γ. Infatti, a parità di altre condizioni, l’aumento di n fa aumentare la
quantità
µ 0 − µ1
, (ricordiamo che, nel caso b, µ1 < µ0) che quindi a sua volta fa
σ/ n
µ 0 − µ1
σ/ n
aumentare γ = P(Z <
dalla Fig. 4: l’aumento di n provoca una minor variabilità delle distribuzioni della
statistica test, sia sotto l’ipotesi nulla che sotto l’alternativa, che ha per effetto finale
un aumento della potenza ed una diminuzione di β.
4. La variabilità intrinseca della v.c. X, nel senso che all’aumentare di σ
diminuisce la potenza γ. Infatti, a parità di altre condizioni, l’aumento di σ fa
diminuire la quantità
µ 0 − µ1
, (ricordiamo che, nel caso b, µ1 < µ0) che a sua volta
σ/ n
fa diminuire γ = P(Z <
µ 0 − µ1
σ/ n
dalla Fig. 5: l’aumento della variabilità della distribuzione di X, variabilità espressa
ad esempio dalla deviazione standard σ, determina una maggiore variabilità anche
delle distribuzioni della statistica test, sia sotto l’ipotesi nulla che sotto l’alternativa,
che ha per effetto finale una diminuzione della potenza ed un aumento di β.
L’effetto è praticamente opposto a quello provocato da un aumento della
dimensione del campione.
La determinante della potenza del test discussa al precedente punto 2 consente anche di
argomentare la soluzione adottata nei casi f) e g) dell'esempio di cui alla sez. 3 (e anche
nei casi analoghi degli esempi che seguiranno). Infatti, supponendo fissato il valore del
parametro µ sotto l'ipotesi alternativa ad un certo valore µ1, è chiaro che spostando la
nulla da µ0 verso l'interno della propria porzione di spazio campionario si ottiene
28
l'effetto di allontanare le due ipotesi H0 ed H1, con un conseguente aumento della
potenza rispetto al caso in cui H0: µ = µ0. Quindi, sempre tenendo presente che il livello
di significatività rimane fissato al valore α, il porre H0: µ = µ0 rappresenta la situazione
peggiore, dal punto di vista della potenza del test, rispetto ad ogni altra scelta di H0
all'interno della sua porzione di spazio parametrico. Una situazione potremmo dire
prudenziale, di cautela.
Queste quattro determinanti della potenza di un test, che abbiamo commentato con
riferimento all’esempio illustrato, hanno come già detto una validità generale, che
prescinde dall’esempio considerato. Inoltre, relativamente alle ultime tre possiamo
anche individuare una filosofia di fondo: più le distribuzioni della statistica test sotto H0
e sotto H1 sono sovrapposte, più è difficile capire se il campione (l’informazione a
disposizione per decidere) proviene da H0 o da H1. Pertanto, tutti i fattori che tendono a
far sovrapporre le distribuzioni della statistica test sotto la nulla e l’alternativa fanno
diminuire la potenza (e aumentare β), mentre vale l’opposto per tutti quei fattori che
tendono a separare tali distribuzioni.
Fig. 2 - Relazione tra livello di significatività e potenza del test: la potenza del test (in
verde) tende ad aumentare all’aumentare di α (in rosa).
29
Fig. 3 - Relazione tra specificazione dell’ipotesi alternativa e potenza del test: la potenza
del test (in verde) tende ad aumentare all’allontanarsi dell’ipotesi alternativa dalla nulla.
Fig. 4 - Relazione tra dimensione del campione e potenza del test: la potenza del test (in
verde) tende ad aumentare all’aumentare della dimensione del campione.
Fig. 5 - Relazione tra variabilità e potenza del test: la potenza del test (in verde) tende a
diminuire all’aumentare della variabilità di X.
Tornando ora al calcolo della potenza di un test, è chiaro che γ è un valore, una costante,
solo se l’ipotesi alternativa è di tipo puntuale. Quando invece H1 è composta, la potenza
può essere calcolata in corrispondenza di ogni singolo valore del parametro all’interno
30
della porzione di spazio parametrico relativa ad H1: in pratica, allora, occorre
trasformare H1 in tante ipotesi puntuali e calcolare la potenza in corrispondenza di
ciascuna di queste. In tal modo si ottiene una funzione, detta funzione di potenza del
test, che appunto esprime come cambia la potenza al variare dell’ipotesi alternativa. Più
in dettaglio, per costruire la funzione di potenza, allora, occorre:
1. fissare il valore del parametro sotto H1, diciamo θ;
2. effettuare il calcolo della potenza γ(θ) in corrispondenza del θ fissato;
3. riportare sul grafico il punto di coordinate (θ, γ(θ)) ottenuto;
4. continuare in questo modo per tutti i θ desiderati all'interno di Θ1 (la parte di spazio
parametrico definita da H1).
E' banale osservare che, essendo una probabilità, la potenza del test (e quindi anche la
funzione di potenza) è sempre compresa fra 0 ed 1.
I seguenti esempi proseguono l'Esempio 3 e l'Esempio 4 visti in precedenza illustrando
il calcolo della potenza del test ed alcuni concetti illustrati sopra.
Esempio 3 (continua)
Prendiamo di nuovo in esame l'esempio relativo alla durata delle lampadine, nel quale
abbiamo assunto X = "durata" ∼ N(µ,σ2 = 6400), analizzando l'ipotesi
H0: µ = 1000 contro H1: µ < 1000.
In corrispondenza di un livello di significatività del 5% abbiamo ricavato la regione di
rifiuto per la statistica Z
R = {x:
x − µ0
σ/ n
< z = –1.645},
che con riferimento alla statistica X può essere invece espressa come
R = {x: x < c = µ0 + zσ / n = 986.84}.
Determiniamo ora la potenza del test. Essendo l'ipotesi alternativa composta, per
calcolare la potenza del test occorre formulare un valore puntuale per il parametro µ
sotto H1. Fissiamo ad esempio µ1 = 990. In tal caso
γ = P(X ∈ R | H1) =
31
P( X < c | H1) = P(
X − µ1
σ/ n
<
c − µ1
σ/ n
| H1) = P(Z < –0.395 | H1) = 0.3464
Ovviamente, in corrispondenza di ogni valore µ inferiore a 1000 (non dimentichiamo
che il valore dell'alternativa deve essere fissato all'interno della sua porzione di spazio
parametrico) possiamo ricavare un valore per la potenza del test esattamente col
procedimento seguito sopra. In questo modo si ottiene la funzione di potenza del test,
alcuni valori della quale sono riportati nella Tabella 2 e nella Fig. 6. Se il livello di
significatività è fissato al 1% invece che al 5% il valore critico cambia (z diviene 2.326
e c diviene 981.39 [si invita lo studente a fare i conti]) e con esso cambia anche la
potenza del test, come evidenziato nella stessa tabella. Come affermato nelle pagine
precedenti, la tabella mostra che la potenza del test, a parità di altre condizioni, aumenta
all'aumentare di α ed aumenta con l'allontanarsi dell'ipotesi alternativa dalla nulla. Si
nota anche che la potenza di questo test non scende mai sotto il livello di significatività
prefissato.
La Tabella 3 e la Fig. 7 mostrano invece l’andamento della funzione di potenza del test
per due diverse dimensioni campionarie: n = 100 (la dimensione originaria) ed n = 150
(in corrispondenza del quale c diviene 989.26 [si invita lo studente a fare i conti]).
Come affermato nelle pagine precedenti, la tabella mostra che la potenza del test, a
parità di altre condizioni, aumenta all'aumentare della dimensione del campione per
effetto di una maggiore separazione delle distribuzioni della statistica test sotto la nulla
e l’alternativa. Un effetto analogo a quello che consegue da un aumento della
dimensione del campione si ha anche come conseguenza di una minor variabilità della
v.c. X. [Lo studente verifichi il comportamento della funzione di potenza nel caso in cui
σ2 sia 3600 invece dei 6400 originari mantenendo α = 0.05, n = 100 e i valori di µ
sotto H1 della tabella].
Si invita infine lo studente a verificare che per ogni altra scelta dell'ipotesi nulla, nella
versione "originaria", all'interno della propria porzione di spazio parametrico (µ ≥
1000), la potenza del test sarebbe stata, a parità di altre condizioni, più elevata di quella
ottenuta.
Valore di µ
Potenza del test
32
Potenza del test
sotto H1
per α = 0.05
per α = 0.01
1000
995
990
985
980
975
970
965
960
955
0.0500
0.1539
0.3465
0.5910
0.8038
0.9306
0.9824
0.9968
0.9996
1.0000
0.0100
0.0444
0.1409
0.3259
0.5689
0.7878
0.9227
0.9798
0.9962
0.9995
Tabella 2 - Andamento della potenza del test nell’Esempio 3 in corrispondenza di
diverse formulazioni dell'ipotesi alternativa per α = 0.05 e α = 0.01.
Valore di µ
sotto H1
Potenza del test
per n = 100
Potenza del test
per n = 150
1000
995
990
985
980
975
970
965
960
955
0.0500
0.1539
0.3465
0.5910
0.8038
0.9306
0.9824
0.9968
0.9996
1.0000
0.0500
0.1896
0.4546
0.7427
0.9218
0.9855
0.9984
0.9999
1.0000
1.0000
Tabella 3 - Andamento della potenza del test nell’Esempio 3 in corrispondenza di
diverse dimensioni del campione per n = 100 e n = 150.
1.2
1.2
1
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
950
960
970
980
990
1000
1010
0.0
950
960
970
980
990
1000
1010
Fig. 6 – Andamento della funzione di potenza. A sinistra: funzioni di potenza per α =
0.01 (curva in basso) e α = 0.05 (curva in alto) (valori riportati in Tabella 2). A destra:
funzioni di potenza per n = 100 (curva in basso) e n = 150 (curva in alto) (valori
riportati in Tabella 3).
33
Prendiamo adesso in esame l'esempio relativo alla durata delle batterie, nel quale
abbiamo assunto X = "durata" ∼ N(µ,σ = 3), analizzando le ipotesi
H0: µ = 22 contro H1: µ ≠ 22.
In corrispondenza di un livello di significatività del 5% abbiamo ricavato la regione di
accettazione per la statistica Z
A = {x: –1.96 ≤
x − µ0
σ/ n
≤ 1.96},
che con riferimento alla statistica X può essere espressa come
A = {x: c1 = µ0 – zσ / n = 20.04 ≤ x ≤ c2 = µ0 + zσ / n = 23.96}.
Calcoliamo la potenza del test. Essendo l'ipotesi alternativa composta, per calcolare la
potenza del test occorre fissare un valore puntuale per il parametro µ sotto H1. Fissiamo
ad esempio µ1 = 22.5. In tal caso
γ = P(X ∈ R | H1) = 1 – P(X ∈ A | H1) = 1 – P(c1 ≤ X ≤ c2 | H1)
= 1 – P(
c1 − µ 1
σ/ n
≤
X − µ1
σ/ n
≤
c 2 − µ1
σ/ n
| H1) = 1 – P(–2.46 ≤ Z ≤ 1.46 | H1) = 0.0791.
Ovviamente, in corrispondenza di ogni valore µ dell’ipotesi alternativa diverso da 22
possiamo ricavare un valore per la potenza del test esattamente col procedimento
seguito sopra. In questo modo è possibile di nuovo costruire la funzione di potenza del
test, alcuni valori della quale sono riportati nella Tabella 4 e in Fig. 7. Se invece di
collocare α (e quindi la regione di rifiuto) su entrambe le code avessimo posto α su una
sola delle code della distribuzione della statistica test sotto H0 (come si fa in caso di
ipotesi alternativa unilaterale – ad esempio mettendo α = 5% tutto nella coda di destra si
ottiene c = 23.64), avremmo ottenuto una potenza maggiore sulla coda dalla parte di α
(valori di µ superiori a 22) a discapito però di una potenza bassissima sull'altra coda
(valori di µ inferiori a 22), come si evince dal confronto fra la seconda e la terza
colonna della tabella. Questo aspetto è illustrato graficamente nella Fig. 8.
Si nota anche che la potenza del test utilizzato normalmente in caso di ipotesi alternativa
bilaterale (a sua volta derivante dal test del rapporto di verosimiglianza) non scende mai
sotto il livello di significatività, al contrario di quello con α su una sola coda.
34
Valore di µ
Sotto H1
Potenza del test bilaterale Potenza del test con α
(α/2 su entrambe le code) tutto sulla coda di destra
19.0
19.5
20.0
20.5
21.0
21.5
22.0
22.5
23.0
23.5
24.0
24.5
25.0
0.8508
0.7054
0.5160
0.3230
0.1701
0.0791
0.0500
0.0791
0.1701
0.3230
0.5160
0.7054
0.8508
0.0000
0.0000
0.0001
0.0008
0.0041
0.0160
0.0500
0.1261
0.2595
0.4424
0.6388
0.8038
0.9123
Tabella 4 - Confronto fra la potenza del test in corrispondenza di diversi modi di
collocare la regione di rifiuto per α = 0.05.
1
0.8
0.6
0.4
0.2
0
18
19
20
21
22
23
24
25
26
-0.2
Fig. 7 – Andamento della funzione di potenza del test: confronto fra la funzione di
potenza del test a 2 code (curva ad U) e ad una coda (curva ad S).
35
Fig. 8 – Confronto fra valori della potenza del test in caso di ipotesi alternativa
bilaterale. Blu: distribuzione statistica test sotto H0; Rosa: distribuzione statistica test
sotto H1. Per l’alternativa bidirezionale, la potenza del test è data dall’area scura; per
l’alternativa unidirezionale, la potenza del test si ottiene aggiungendo l’area chiara a
quella scura contigua. La figura a sinistra mostra una potenza del test bidirezionale
leggermente inferiore a quella del test unidirezionale; la situazione è però invertita nella
figura a destra, in cui la potenza del test unidirezionale è praticamente prossima a 0.
Con riferimento a quanto detto nei due esempi precedenti diamo la seguente definizione
di correttezza di un test.
Definizione 4 Definizione di test corretto. Un test si dice corretto se la potenza non
scende mai sotto il livello di significatività, ovvero, in simboli, se
γ ≥ α.
A questo proposito i test utilizzati nell'Esempio 3 e nell'Esempio 4 sono test corretti,
dato che la potenza non scende mai sotto α. Nell'Esempio 4 non è invece un test
corretto quello che si ottiene mettendo α tutto su una sola delle code: infatti la potenza
sulla coda opposta a quella dove è stato sistemato α scende sotto il livello di
significatività e addirittura tende a 0. Senza dimostrarlo, si evidenzia che il test di
utilizzato nell'Esempio 4, che ricordiamo è il test del rapporto di verosimiglianza, pur
non risultando il test uniformemente più potente (cioè il più potente per qualsiasi
specificazione dell’alternativa, dato che sulle singole code è “battuto” da quello con α
da una sola parte) è comunque quello uniformemente più potente nella classe dei test
corretti (test UMPU dall’inglese Uniformly Most Powerful Unbiased).
5. Il p-value
A questo punto è opportuno illustrare un concetto, peraltro criticato da alcuni, che con la
diffusione dei programmi di calcolo statistico ha avuto, nonostante le critiche, una
diffusione enorme: il p-value.
36
Definizione 5: Definizione di p-value. Sia T(X) la v.c. test utilizzata per sottoporre a
test un certa ipotesi nulla H0. Sia poi T(x) il valore di tale statistica
calcolato sul campione a disposizione x = (x1, …, xn).
Il p-value è la probabilità, sotto H0, di ottenere un valore di T(X) ancora
più spostato verso H1 rispetto a quello effettivamente ottenuto T(x). In
simboli
p-value = P(X: T(X) più spostato verso H1 rispetto a T(x) | H0).
Anche se non del tutto rigorosa, questa è una definizione sufficientemente generale di pvalue. Chiaramente per renderla concreta occorre applicarla a degli esempi. In generale
possiamo tuttavia formalizzare i seguenti casi:
•
Se H0: θ = θ0 contro H1: θ = θ1 > θ0 oppure contro H1: θ > θ0 allora
p-value = P(X: T(X) > T(x) | H0).
•
Se H0: θ = θ0 contro H1: θ = θ1 < θ0 oppure contro H1: θ < θ0 allora
p-value = P(X: T(X) < T(x) | H0).
•
Se H0: θ = θ0 contro H1: θ ≠ θ0 e la distribuzione della statistica test T(X) è
simmetrica rispetto a 0 allora
p-value = 2 P(X: T(X) > |T(x)| | H0).
Da questa caratterizzazione del p-value, si evince immediatamente quanto segue:
•
se il valore campionario della statistica test, T(x), coincide esattamente col valore
critico c allora il p-value coincide esattamente col livello di significatività α;
•
se il valore campionario della statistica test, T(x), sta nella regione di rifiuto, ovvero
è più spostato verso H1 rispetto a c, allora il p-value è minore del livello di
significatività α;
•
se il valore campionario della statistica test, T(x), sta nella regione di accettazione,
ovvero è meno spostato verso H1 rispetto a c, allora il p-value è maggiore del livello
di significatività α.
Tutto questo comporta che si può decidere se accettare o rifiutare l'ipotesi nulla H0 in
due modi diversi ma perfettamente equivalenti:
37
•
o nel modo considerato finora, cioè costruendo regione di accettazione e regione di
rifiuto e poi controllando in quale delle due regioni si trova il valore campionario
della statistica test T(x);
•
o guardando al p-value, cioè calcolando il p-value in corrispondenza del valore T(x)
della statistica test nel campione e poi confrontandolo con α: se minore si rifiuta
altrimenti si accetta.
Rispetto al modo usuale di decidere per l'accettazione o il rifiuto di H0, il calcolo del pvalue presenta un piccolo vantaggio: mediante il p-value si vede subito a quale livello di
significatività si sarebbe rifiutato. Infatti se il p-value risulta ad esempio 0.0088, si nota
immediatamente che si sarebbe rifiutato sia per α = 0.05 che per α = 0.01, mentre si
sarebbe accettato per α = 0.001. In altri termini, il p-value può essere interpretato, in
modo perfettamente speculare, o come il massimo α per il quale si sarebbe accettato o
come il minimo α per il quale si sarebbe rifiutato.
Come rovescio della medaglia si fa notare che il calcolo del p-value non è ben definito
in caso di ipotesi alternativa di tipo bilaterale quando la distribuzione della statistica test
non è simmetrica rispetto allo 0 (come invece accade per la Normale e la T-student):
questo è l'aspetto del p-value che è stato maggiormente soggetto a critica.
In ultimo occorre fare notare le differenze principali che ci sono fra il p-value e la
potenza del test. Tali differenze riguardano il fatto che mentre la potenza del test è
definita sotto H1, il p-value è definito sotto H0; in secondo luogo mentre la potenza del
test può essere calcolata "a tavolino" senza alcun riferimento al campione estratto x, il
p-value richiede come ingrediente fondamentale per il calcolo il valore campionario
della statistica test e quindi x.
Prendiamo di nuovo in esame l'esempio relativo alla durata delle lampadine, nel quale
abbiamo assunto X = "durata" ∼ N(µ,σ2 = 6400), analizzando l'ipotesi
H0: µ = 1000 contro H1: µ < 1000.
Determiniamo il p-value. In questo esempio abbiamo utilizzato la v.c. test
X −µ
σ/ n
∼ N(0, 1),
38
che sotto H0 (condizione nella quale occorre mettersi per trovare il p-value) diviene
(
Lo z-empirico è risultato
x − µ0
X − µ0
σ/ n
|H0 ) ∼ N(0, 1).
= –3.75, e poiché la regione di rifiuto, essendo H1: µ <
σ/ n
1000, sta nella coda di sinistra della distribuzione sotto H0 abbiamo:
p-value = P(
X − µ0
σ/ n
< –3.75 | H0) = P(Z < –3.75 | H0) = 0.00009.
Il valore ottenuto mostra che si sarebbe rifiutato H0 per α = 0.05, per α = 0.01 e anche
per α = 0.001.
Prendiamo adesso in esame l'esempio relativo alla durata delle batterie, nel quale
abbiamo assunto X = "durata" ∼ N(µ,σ = 3), analizzando le ipotesi
H0: µ = 22 contro H1: µ ≠ 22.
Determiniamo il p-value. Anche in questo esempio abbiamo utilizzato la v.c. test
X −µ
σ/ n
∼ N(0, 1),
che sotto H0 (condizione nella quale occorre mettersi per trovare il p-value) diviene
(
Lo z-empirico è risultato
x − µ0
σ/ n
X − µ0
σ/ n
|H0 ) ∼ N(0, 1).
= –2, e poiché la regione di rifiuto, essendo H1: µ ≠
22, sta in entrambe le code della distribuzione sotto H0 abbiamo:
p-value = 2 P(
X − µ0
σ/ n
> |–2| | H0) = 2 P(Z > 2 | H0) = 0.04550.
Il valore ottenuto mostra che si sarebbe rifiutato H0 per α = 0.05, mentre si sarebbe
accettato per α = 0.01 e per α = 0.001.
39
6. Esempio X ~ N(µ, σ2): test su µ con σ2 incognita
In questa e nelle sezioni che seguono riprendiamo l’analisi del test delle ipotesi di alcuni
modelli. Per i primi riporteremo i concetti e i passaggi in un certo dettaglio;
successivamente descriveremo solo i punti fondamentali, lasciando allo studente il
compito di completare l’analisi. [Si avverte che, analogamente al quanto fatto per la
stima per intervallo, la descrizione dei diversi esempi e casi richiede un consistente
numero di pagine. Tuttavia lo schema di ragionamento si ripete praticamente identico e
una volta assimilati i concetti fondamentali il resto diviene perfettamente logico e…
perfino banale.]
Sia allora X ~ N(µ, σ2) e supponiamo che σ2 sia incognita. Si vuole sottoporre a test
un’ipotesi su µ, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).
Lo schema di ragionamento è analogo a quello visto per l’esempio in cui abbiamo
considerato σ2 nota (sez. 3): la differenza principale consiste nel fatto che essendo σ2
incognita, anche quando le ipotesi sono puntuali esse sono necessariamente composte,
in quanto non riescono a specificare completamente la distribuzione della v.c. X.
Tuttavia, effettuando il test del rapporto di massima verosimiglianza si perviene di
nuovo alla statistica test X , che essendo σ2 incognita ha la seguente distribuzione:
X −µ
S/ n
~ T(n – 1),
dove S2 è la varianza campionaria corretta utilizzata per stimare σ2 (si veda cap. 6, sez.
5.1.4). Su questa base possiamo rapidamente affrontare i diversi casi.
a) Caso H0: µ = µ0 contro H1: µ = µ1 > µ0
In base alle assunzioni dell’esempio, si ha che quando è vera H0: µ = µ0,
(
X − µ0
S/ n
| H0) ~ T(n – 1).
40
Di conseguenza, dovendo rifiutare dalla parte dell’ipotesi alternativa, possiamo trovare
il valore critico c per la statistica X in base al livello di significatività sfruttando i ben
noti passaggi
α = P(X ∈ R | H0) = P( X > c | H0) = P(
dove, per come è distribuita
X − µ0
S/ n
X − µ0
S/ n
>
c − µ0
S/ n
| H0) = P(T > t | H0),
, t è il valore che nelle tavole della T(n – 1) lascia a
destra una probabilità α e quindi a sinistra (1 – α). Il valore critico è allora dato da c =
µ0 + t S/ n .
La regione critica può essere allora equivalentemente espressa nei due modi seguenti:
R = {x: x > c = µ0 + t s/ n } = {x:
x − µ0
s/ n
> t},
dove t è il quantile (1 – α) della T(n – 1).
Anche il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio
con σ2 nota. Infatti sulla base del valore critico c trovato in precedenza e tenuto conto
che sotto H1
(
X − µ1
S/ n
| H1) ~ T(n – 1),
abbiamo
γ = P(X ∈ R | H1) = P( X > c | H1) = P(
X − µ1
S/ n
>
c − µ1
S/ n
| H1) = P(T >
c − µ1
S/ n
| H1).
Questa probabilità può essere calcolata dalle tavole della T-student dopo aver
determinato
c − µ1
S/ n
. Si fa notare tuttavia che, per come è costruita la tavola della
distribuzione T, il calcolo della potenza non potrà in generale avvenire in modo
accurato, dato che i quantili sono piuttosto “radi”. Un calcolo preciso può essere fatto
via calcolatore (ad esempio con Excel).
Si evidenzia anche che se si calcolata la potenza a partire dall’altro modo di esprimere
la regione critica, cioè
γ = P(X ∈ R | H1) = P(
41
X − µ0
S/ n
> t | H1),
b) Caso H0: µ = µ0 contro H1: µ = µ1 < µ0
Poiché di nuovo
(
X − µ0
S/ n
| H0) ~ T(n – 1),
l’unica differenza rispetto al caso precedente sta nel fatto che, dovendo la regione di
rifiuto stare dalla parte dell’alternativa, si ha
α = P(X ∈ R | H0) = P( X < c | H0) = P(
X − µ0
S/ n
<
c − µ0
S/ n
| H0) = P(T < t | H0),
dove, per la distribuzione di tale statistica, t è il valore che nelle tavole della T(n – 1)
lascia a sinistra una probabilità α.
R = {x: x < c = µ0 + t s/ n } = {x:
x − µ0
s/ n
< t},
dove t è il quantile α della T(n – 1).
Il calcolo della potenza procede in maniera simile a quanto detto in precedenza [si invita
tuttavia lo studente ad effettuarlo].
c) Caso H0: µ = µ0 contro H1: µ > µ0
a) trattato precedentemente, in cui l’alternativa era H1: µ = µ1 > µ0, si nota che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare.
L’alternativa serve solo a stabilire in quale coda della distribuzione di ( X | H0) piazzare
la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè
R = {x: x > c = µ0 + t s/ n } = {x:
dove t è il quantile (1 – α) della T(n – 1).
42
x − µ0
s/ n
> t}
d) Caso H0: µ = µ0 contro H1: µ < µ0
l’alternativa era H1: µ = µ1 < µ0, si vede che nella formulazione della regione di rifiuto
R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve solo a
stabilire in quale coda della distribuzione di ( X | H0) piazzare la regione di rifiuto. Di
R = {x: x < c = µ0 + t s/ n } = {x:
x − µ0
s/ n
< t}
dove t è il quantile α della T(n – 1).
è composta bidirezionale. Non si può ricorrere al teorema di Neyman-Pearson ma
occorre applicare il test del rapporto di verosimiglianza. Anche in questo caso, si può
dimostrare che tale test può essere effettuato mediante la statistica test X , la cui
distribuzione sotto H0 è di nuovo data da
(
X − µ0
S/ n
| H0) ~ T(n – 1),
e che la regione di accettazione conseguente è simmetrica rispetto a 0:
1 – α = P(X ∈ A | H0) = P(–t ≤
X − µ0
S/ n
≤ t | H0)
dove t è il quantile (1 – α/2) della T(n – 1). La regione di accettazione è allora espressa
in modo equivalente da
A = {x: –t ≤
x − µ0
s/ n
≤ t } ={x: c1 = µ0 – t s/ n ≤ x ≤ c2 = µ0 + t s/ n }
dove, come detto, t è il quantile (1 – α/2) della T(n – 1).
43
f) Casi H0: µ ≤ µ0 contro H1: µ > µ0 e H0: µ ≥ µ0 contro H1: µ < µ0
Valgono le argomentazioni illustrate negli analoghi casi discussi nella sez. 3: occorre
trasformare l’ipotesi nulla nella corrispondente ipotesi puntuale H0: µ = µ0 ed agire di
conseguenza.
7. Esempio X ~ N(µ, σ2): test su σ2 con µ nota
Sia di nuovo X ~ N(µ, σ2) e supponiamo che µ sia nota. Si vuole sottoporre a test
un’ipotesi su σ2, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).
Lo schema di ragionamento è simile a quello riportato negli agli esempi precedenti, con
alcune varianti. L’aspetto principale da segnalare è che il test in oggetto può essere
effettuato sulla base della statistica test S *2* , la varianza campionaria per µ nota (cap. 6,
sez. 5.1.4), la cui distribuzione campionaria è data da
n S *2* /σ2 ~ χ2(n).
Su questa base possiamo affrontare i diversi casi.
a) Caso H0: σ2 = σ 02 contro H1: σ2 = σ 12 > σ 02
Questo caso, in cui σ 02 e σ 12 sono due numeri di cui il secondo maggiore del primo,
può essere trattato sulla base del teorema di Neyman-Pearson, dato che essendo µ nota
le due ipotesi sono semplici. Svolgendo il calcolo della differenza fra le logverosimiglianze si può dimostrare che il test in oggetto può essere effettuato sulla base
della statistica S *2* , la cui distribuzione campionaria è stata ricordata sopra. Sotto H0
avremo allora che
(n S *2* / σ 02 | H0) ~ χ2(n).
Dovendo rifiutare dalla parte dell’ipotesi alternativa, possiamo trovare il valore critico c
per la statistica S *2* in base al livello di significatività sfruttando i passaggi
α = P(X ∈ R | H0) = P( S*2* > c | H0) = P(n S*2* / σ 02 > nc/ σ 02 | H0) = P(χ2 > t | H0),
44
dove, per come è distribuito n S *2* / σ 02 , t è il valore che nelle tavole della χ2(n) lascia a
destra una probabilità α e quindi a sinistra una probabilità (1 – α). Il valore critico è
allora dato da c = t σ 02 /n.
R = {x: s*2* > c = t σ 02 /n} = {x: n s*2* / σ 02 > t},
dove t è il quantile (1 – α) della χ2(n).
Anche il calcolo della potenza procede in modo analogo a quanto illustrato negli esempi
precedenti. Infatti sulla base del valore critico c trovato sopra e tenuto conto che sotto
H1
(n S *2* / σ 12 | H1) ~ χ2(n),
abbiamo
γ = P(X ∈ R | H1) = P( S*2* > c | H1) = P(n S*2* / σ 12 > nc/ σ 12 | H1) = P(χ2 > nc/ σ 12 | H1).
Questa probabilità può essere calcolata dalle tavole della Chi-quadrato dopo aver
determinato nc/ σ 12 . Si fa notare tuttavia che, per come è costruita la tavola della
distribuzione Chi-quadrato, il calcolo della potenza non potrà in generale avvenire in
modo accurato, dato che i quantili sono piuttosto “radi”. Un calcolo preciso può essere
fatto via calcolatore (ad esempio con Excel).
Si evidenzia anche che se si calcola la potenza a partire dall’altro modo di esprimere la
regione critica, cioè
γ = P(X ∈ R | H1) = P(n S*2* / σ 02 > t | H1),
per procedere al calcolo occorre prima togliere il denominatore σ 02 (che risulta
“sbagliato” sotto H1) e poi dividere di nuovo per σ 12 in base alla distribuzione sotto H1,
riportandosi di fatto al calcolo fatto sopra [si invita lo studente a fare i passaggi].
b) Caso H0: σ2 = σ 02 contro H1: σ2 = σ 12 < σ 02
Poiché di nuovo
(n S *2* / σ 02 | H0) ~ χ2(n),
45
α = P(X ∈ R | H0) = P( S*2* < c | H0) = P(n S*2* / σ 02 < nc/ σ 02 | H0) = P(χ2 < t | H0),
dove, per come è distribuito n S *2* / σ 02 , t è il valore che nelle tavole della χ2(n) lascia a
sinistra una probabilità α.
R = {x: s*2* < c = t σ 02 /n} = {x: n s*2* / σ 02 < t},
dove t è il quantile α della χ2(n).
Il calcolo della potenza procede in maniera simile a quanto detto in precedenza [si invita
lo studente ad effettuarlo].
c) Caso H0: σ2 = σ 02 contro H1: σ2 > σ 02
a) trattato precedentemente, in cui l’alternativa era H1: σ2 = σ 12 > σ 02 , si nota che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare.
L’alternativa serve solo a stabilire in quale coda della distribuzione di ( S *2* | H0)
piazzare la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè
R = {x: s*2* > c = t σ 02 /n} = {x: n s*2* / σ 02 > t},
dove t è il quantile (1 – α) della χ2(n).
d) Caso H0: σ2 = σ 02 contro H1: σ2 < σ 02
l’alternativa era H1: σ2 = σ 12 > σ 02 , si vede che nella formulazione della regione di
rifiuto R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve
solo a stabilire in quale coda della distribuzione di ( S *2* | H0) piazzare la regione di
rifiuto. Di conseguenza la regione critica è la stessa, cioè
46
R = {x: s*2* < c = t σ 02 /n} = {x: n s*2* / σ 02 < t},
dove t è il quantile α della χ2(n).
e) Caso H0: σ2 = σ 02 contro H1: σ2 ≠ σ 02
occorre applicare il test del rapporto di verosimiglianza. Facendo i conti del rapporto di
verosimiglianza per il caso in oggetto, si trova che la disuguaglianza che esprime la
regione di rifiuto
l( σ 02 ) – l(σ2) < k,
dopo alcuni passaggi diviene
ln( S *2* / σ 02 ) – S *2* / σ 02 < 2k/n – 1.
Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica S *2* e
che, omettendo i passaggi algebrici, tale disuguaglianza equivale a rifiutare se
S *2* ≤ c1 oppure S *2* ≥ c2
e ad accettare se
c1 ≤ S *2* ≤ c2,
dove c1 e c2 sono dei valori critici che delimitano regione di accettazione e regione di
rifiuto.
Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della statistica
test sotto l’ipotesi nulla, cioè
(n S *2* / σ 02 | H0) ~ χ2(n).
In base a questo, ragionando per semplicità sulla regione di accettazione avremo
1 − α = P(X ∈ A | H0) = P(c1 ≤ S *2* ≤ c2 | H0) = P(nc1/ σ 02 ≤ n S *2* / σ 02 ≤ nc2/ σ 02 | H0) =
P(t1 ≤ χ2 ≤ t2 | H0),
dove, per come è distribuito n S *2* / σ 02 , con riferimento alle tavole della χ2(n) t1 è il
valore che lascia a sinistra una probabilità α/2 e t2 è il valore che lascia a destra una
47
probabilità α/2 e quindi a sinistra una probabilità (1 – α/2). La regione di accettazione è
allora espressa in modo equivalente da
A = {x: t1 ≤ n s*2* / σ 02 ≤ t2 } ={x: c1 = t1 σ 02 /n ≤ s*2* ≤ c2 = t2 σ 02 /n }
dove, come detto, t1 è il quantile α/2 e t2 è il quantile (1 – α/2) della χ2(n).
f) Casi H0: σ2 ≤ σ 02 contro H1: σ2 > σ 02 e H0: σ2 ≥ σ 02 contro H1: σ2 < σ 02
Valgono le argomentazioni illustrate negli analoghi casi degli esempi precedenti, per cui
questo esempio si risolve trasformando l’ipotesi nulla nella corrispondente ipotesi
puntuale H0: σ2 = σ 02 ed agendo di conseguenza.
8. Esempio X ~ N(µ, σ2): test su σ2 con µ incognita
Sia di nuovo X ~ N(µ, σ2) e supponiamo ora che µ non sia nota. Si vuole sottoporre a
test un’ipotesi su σ2, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).
Lo schema di ragionamento è simile a quello visto nell’esempio precedente in cui
abbiamo considerato µ nota. La differenza principale consiste nel fatto che essendo µ
incognita, anche quando le ipotesi sono puntuali esse sono necessariamente composte,
in quanto non riescono a specificare completamente la distribuzione della v.c. X.
Effettuando il test del rapporto di massima verosimiglianza si perviene in tutti i casi che
seguono alla statistica test S2, la varianza campionaria corretta (si fa notare che, con
formule leggermente diverse ma in modo perfettamente equivalente nella sostanza, si
potrebbe utilizzare la statistica test S *2 in luogo di S2; tuttavia poiché nelle pratica è
usuale utilizzare S2 anche noi faremo riferimento a questa grandezza). Poiché, nelle
ipotesi dell’esempio, S2 ha la seguente distribuzione
(n – 1) S2/σ2 ~ χ2(n – 1),
(si veda cap. 6, sez. 5.1.4) possiamo ripetere le considerazioni e i passaggi dell’esempio
precedente in modo quasi automatico, trattando rapidamente i diversi casi.
48
a) Caso H0: σ2 = σ 02 contro H1: σ2 = σ 12 > σ 02
Poiché sotto H0 abbiamo
((n – 1) S2/ σ 02 | H0) ~ χ2(n – 1),
con passaggi del tutto simili a quelli effettuati nel caso corrispondente dell’esempio
precedente si ottiene che la regione critica può essere equivalentemente espressa nei due
modi seguenti:
R = {x: s2 > c = t σ 02 /(n – 1)} = {x: (n – 1) s2/ σ 02 > t},
dove t è il quantile (1 – α) della χ2(n – 1).
Anche il calcolo della potenza procede in modo analogo. [Anche se, per non
appesantire l’esposizione, ne omettiamo i dettagli si invita lo studente a trovare per
conto proprio la formula che esprime la potenza del test].
b) Caso H0: σ2 = σ 02 contro H1: σ2 = σ 12 < σ 02
Poiché di nuovo
((n – 1) S2/ σ 02 | H0) ~ χ2(n – 1),
R = {x: s2 < c = t σ 02 /(n – 1)} = {x: (n – 1) s2/ σ 02 < t},
dove t è il quantile α della χ2(n – 1).
c) Caso H0: σ2 = σ 02 contro H1: σ2 > σ 02
L’ipotesi alternativa è composta unilaterale. Se si osserva il caso a) trattato
precedentemente, in cui l’alternativa era H1: σ2 = σ 12 > σ 02 , si nota che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare. Di
R = {x: s2 > c = t σ 02 /(n – 1)} = {x: (n – 1) s2/ σ 02 > t},
49
dove t è il quantile (1 – α) della χ2(n – 1).
d) Caso H0: σ2 = σ 02 contro H1: σ2 < σ 02
l’alternativa era H1: σ2 = σ 12 < σ 02 , si vede che nella formulazione della regione di
rifiuto R il valore dell’ipotesi alternativa non compare e di conseguenza la regione
critica è la stessa, cioè
R = {x: s2 < c = t σ 02 /(n – 1)} = {x: (n – 1) s2/ σ 02 < t},
dove t è il quantile α della χ2(n – 1).
e) Caso H0: σ2 = σ 02 contro H1: σ2 ≠ σ 02
Anche quando l’ipotesi alternativa è bidirezionale si può ripetere il ragionamento fatto
nel caso analogo dell’esempio con µ nota. La regione di accettazione è allora data da
A = {x: t1 ≤ (n – 1) s2/ σ 02 ≤ t2 } = {x: c1 = t1 σ 02 /(n – 1) ≤ s2 ≤ c2 = t2 σ 02 /(n – 1)}
dove t1 è il quantile α/2 e t2 è il quantile (1 – α/2) della χ2(n – 1).
f) Casi H0: σ2 ≤ σ 02 contro H1: σ2 > σ 02 e H0: σ2 ≥ σ 02 contro H1: σ2 < σ 02
Valgono le argomentazioni illustrate negli analoghi casi degli esempi precedenti, per cui
questo esempio si risolve trasformando l’ipotesi nulla nella corrispondente ipotesi
puntuale H0: σ2 = σ 02 ed agendo di conseguenza.
9. Esempio X ~ Be(p): test su p
Sia X ~ Be(p). Si vuole sottoporre a test un’ipotesi su p, al livello di significatività α
sulla base del c.c.s. x = (x1, …, xn).
50
Questo esempio è stato discusso nell’Esempio 1 relativo all’utilizzo pratico del teorema
di Neyman-Pearson. In tale esempio abbiamo mostrato che se entrambe le ipotesi sono
semplici allora il test può essere effettuato in base alla statistica test X , la media
campionaria. Questo vale anche quando almeno una ipotesi è composta: infatti
l’applicazione del test del rapporto di verosimiglianza conduce di nuovo alla statistica
test X . In generale tale v.c. ha la seguente distribuzione campionaria (cap. 6 sez. 5.1.2)
X ~ BiRe(n, p) ≈ N(p, pq/n),
dove la distribuzione a sinistra è esatta mentre quella a destra vale solo se la dimensione
campionaria n è “abbastanza grande”. Nei casi che seguono, per semplicità ci
metteremo sempre in questa seconda situazione, cioè assumeremo sempre che n sia
sufficientemente grande da poter utilizzare l’approssimazione Normale.
a) Caso H0: p = p0 contro H1: p = p1 > p0
Questo caso, in cui p0 e p1 sono due numeri di cui il secondo maggiore del primo, è
stato trattato nell'Esempio 1 discutendo del teorema di Neyman-Pearson.
Quando è vera H0 si ha che p = p0, per cui
( X | H0) ≈ N(p0, p0q0/n).
Di conseguenza, ponendo al solito il valore critico c dalla parte dell’alternativa, per
trovare c si sfruttano i passaggi
α = P(X ∈ R | H0) = P( X > c | H0) = P(
X − p0
p0 q0 / n
>
c − p0
p0 q0 / n
| H0) = P(Z > z | H0),
dove z nelle tavole della N(0, 1) lascia a destra una probabilità α e quindi a sinistra (1 –
α). La regione critica è allora data, equivalentemente, da
R = {x: x > c = p0 + z
p0 q0 / n } = {x:
x − p0
p0 q0 / n
> z},
Il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio del
test su µ con σ2 nota. Sulla base del valore critico c trovato in precedenza e tenuto conto
che sotto H1
( X | H1) ≈ N(p1, p1q1/n),
51
abbiamo
γ = P(X ∈ R | H1) = P( X > c | H1) = P(
c − p1
= P(Z >
p1q1 / n
X − p1
p1q1 / n
>
c − p1
p1q1 / n
| H1)
| H1).
Questa probabilità può essere calcolata dalle tavole della Normale dopo aver
determinato
c − p1
p1q1 / n
. Se si fosse calcolata la potenza a partire dall’altro modo di
γ = P(X ∈ R | H1) = P(
X − p0
p0 q0 / n
> z | H1),
b) Caso H0: p = p0 contro H1: p = p1 < p0
Ripetendo passo per passo il ragionamento fatto al caso precedente con l’unica variante
di prendere il valore critico c sull’altra coda della distribuzione sotto H0, si ottiene che la
regione critica è data da
R = {x: x < c = p0 + z
p0 q0 / n } = {x:
x − p0
p0 q0 / n
< z},
Anche il calcolo della potenza [di cui si lasciano allo studente i dettagli] procede in
modo analogo al caso precedente.
c) Caso H0: p = p0 contro H1: p > p0
In questo caso l’ipotesi alternativa è composta unilaterale, ma di nuovo la soluzione è la
stessa del caso a) precedente, in cui l’alternativa era H1: p = p1 > p0, dato che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare ma
52
serve solo a stabilire in quale coda della distribuzione di ( X | H0) sistemarla. Di
R = {x: x > c = p0 + z
p0 q0 / n } = {x:
x − p0
p0 q0 / n
> z},
d) Caso H0: p = p0 contro H1: p < p0
l’alternativa era H1: p = p1 < p0, si vede che nella formulazione della regione di rifiuto R
il valore dell’ipotesi alternativa non compare. Di conseguenza la regione critica è la
stessa, cioè
R = {x: x < c = p0 + z
p0 q0 / n } = {x:
x − p0
p0 q0 / n
< z},
regione di rifiuto
l(p0) – l(p) < k,
n X ln(p0/ X ) + (n – n X ) ln [q0/(1 – X )] < k.
Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica X e
X ≤ c1 oppure X ≥ c2
e ad accettare se
c1 ≤ X ≤ c2 ,
53
rifiuto. Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della
statistica test sotto l’ipotesi nulla, cioè
( X | H0) ≈ N(p0, p0q0/n),
e, anche se non proprio ottimali, di norma si prendono c1 e c2 simmetrici rispetto a p0,
ottenendo la regione di accettazione
A = {x: –z ≤
x − p0
p0 q0 / n
≤ z } ={x: c1 = p0 – z
p0 q0 / n ≤ x ≤ c2 = p0 + z
p0 q0 / n }
dove z è il quantile (1 – α/2) della N(0, 1).
10. Esempio X ~ Po(λ): test su λ
Sia X ~ Po(λ). Si vuole sottoporre a test un’ipotesi su λ, al livello di significatività α
sulla base del c.c.s. x = (x1, …, xn).
L’analisi di questo esempio procede parallela a quella dell’esempio precedente. Di
nuovo infatti, sia che si ricorra al teorema di Neyman-Pearson che al test del rapporto di
verosimiglianza di dimostra che il test può essere effettuato mediante la v.c. test X , la
media campionaria. In generale tale v.c. ha la seguente distribuzione campionaria (cap.
6 sez. 5.1.3)
X ~ PoRe(nλ) ≈ N(λ, λ/n),
dove la distribuzione a sinistra è esatta mentre quella a destra vale solo se la dimensione
campionaria n è “abbastanza grande”. Nei casi che seguono, per semplicità ci
metteremo sempre in questa seconda situazione, cioè assumeremo sempre che n sia
sufficientemente grande da poter utilizzare l’approssimazione Normale.
a) Caso H0: λ = λ0 contro H1: λ = λ1 > λ0
Questo caso, in cui λ0 e λ1 sono due numeri di cui il secondo maggiore del primo, si
risolve ricorrendo al teorema di Neyman-Pearson.
Quando è vera H0 si ha che λ = λ0, per cui
( X | H0) ≈ N(λ0, λ0/n).
54
Di conseguenza, ponendo al solito il valore critico c dalla parte dell’alternativa, per
trovare c si sfruttano i passaggi
α = P(X ∈ R | H0) = P( X > c | H0) = P(
X − λ0
λ0 / n
c − λ0
>
λ0 / n
| H0) = P(Z > z | H0),
dove z nelle tavole della N(0, 1) lascia a destra una probabilità α e quindi a sinistra (1 –
α). La regione critica è allora data, equivalentemente, da
R = {x: x > c = λ0 + z
λ0 / n } = {x:
x − λ0
λ0 / n
> z},
Il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio
precedente. Sulla base del valore critico c trovato in precedenza e tenuto conto che sotto
H1
( X | H1) ≈ N(λ1, λ1/n),
abbiamo
γ = P(X ∈ R | H1) = P( X > c | H1) = P(
X − λ1
λ1 / n
>
c − λ1
λ1 / n
| H1) = P(Z >
c − λ1
λ1 / n
| H1).
Questa probabilità può essere calcolata dalle tavole della Normale dopo aver
determinato
c − λ1
λ1 / n
. Se si fosse calcolata la potenza a partire dall’altro modo di
γ = P(X ∈ R | H1) = P(
X − λ0
λ0 / n
> z | H1),
55
b) Caso H0: λ = λ0 contro H1: λ = λ1 < λ0
Ripetendo passo per passo il ragionamento fatto al caso precedente con l’unica variante
di prendere il valore critico c sull’altra coda della distribuzione sotto H0, si ottiene che la
regione critica è data da
R = {x: x < c = λ0 + z
λ0 / n } = {x:
x − λ0
λ0 / n
< z},
Anche il calcolo della potenza [di cui si lasciano allo studente i dettagli] procede
analogo a quello del caso precedente.
c) Caso H0: λ = λ0 contro H1: λ > λ0
In questo caso l’ipotesi alternativa è composta unilaterale, ma di nuovo la soluzione è la
stessa del caso a) precedente, in cui l’alternativa era H1: λ = λ1 > λ0, dato che nella
formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare ma
serve solo a stabilire in quale coda della distribuzione di ( X | H0) sistemarla. Di
R = {x: x > c = λ0 + z
λ0 / n } = {x:
x − λ0
λ0 / n
> z},
d) Caso H0: λ = λ0 contro H1: λ < λ0
l’alternativa era H1: λ = λ1 < λ0, si vede che nella formulazione della regione di rifiuto R
il valore dell’ipotesi alternativa non compare. Di conseguenza la regione critica è la
stessa, cioè
R = {x: x < c = λ0 + z
λ0 / n } = {x:
56
x − λ0
λ0 / n
< z},
e) Caso H0: λ = λ0 contro H1: λ ≠ λ0
regione di rifiuto
l(λ0) – l(λ) < k,
n X ln(λ0/ X ) – n(λ0 – X ) < k.
Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica X e
X ≤ c1 oppure X ≥ c2
e ad accettare se
c1 ≤ X ≤ c2 ,
rifiuto. Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della
statistica test sotto l’ipotesi nulla, cioè
( X | H0) ≈ N(λ0, λ0/n),
e, anche se non proprio ottimali, di norma si prendono c1 e c2 simmetrici rispetto a λ0,
ottenendo la regione di accettazione
A = {x: –z ≤
x − λ0
λ0 / n
≤ z } = {x: c1 = λ0 – z
λ 0 / n ≤ x ≤ c2 = λ 0 + z
λ0 / n }
dove z è il quantile (1 – α/2) della N(0, 1).
11. Esempio X ~ N(µX,
σ X2 ),
Y ~ N(µY,
σ Y2 )
indipendenti:
test per µX − µY con σ X2 e σ Y2 note
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 note. Si
vuole sottoporre a test un’ipotesi su µX − µY, al livello di significatività α sulla base dei
c.c.s. x = (x1, …, xm) e y = (y1, …, yn).
57
Risparmiando per brevità i dettagli tecnici, un’ipotesi su µX − µY può essere testata
utilizzando come v.c. test X – Y , che nelle assunzioni dell’esempio è distribuita nel
modo seguente:
X – Y ~ N(µX − µY, σ X2 /m + σ Y2 /n).
Poiché l’ipotesi nulla di norma considerata in questo esempio è
H0: µX − µY = 0,
faremo riferimento a questa situazione, avvertendo però che se al posto dello 0 c’è una
qualsiasi altra costante, il test può essere effettuato in modo del tutto analogo
sostituendo a 0 la costante corrispondente.
Allora sotto H0, l’ipotesi sotto la quale occorre mettersi per trovare la regione di rifiuto
sulla base del livello di significatività α, abbiamo
( X – Y | H0) ~ N(0, σ X2 /m + σ Y2 /n).
A questo punto l’analisi procede in modo esattamente analogo alla situazione di cui alla
sez. 3, in cui si vuole sottopone a test un’ipotesi sulla media in corrispondenza di una
varianza nota: basta considerare X – Y in blocco come v.c. test ed operare in modo
analogo a quanto fatto nell’esempio indicato per i vari casi.
σ X2 ),
Y ~ N(µY,
σ Y2 )
indipendenti:
test per µX − µY con σ X2 e σ Y2 incognite
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 non note. Si
vuole sottoporre a test un’ipotesi su µX − µY, al livello di significatività α sulla base dei
c.c.s. x = (x1, …, xm) e y = (y1, …, yn). Di nuovo consideriamo che l’ipotesi nulla sia
H0: µX − µY = 0,
avvertendo che se al posto dello 0 c’è una qualsiasi altra costante, il test può essere
effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente.
58
Risparmiando di nuovo i dettagli tecnici, anche in questo caso un’ipotesi su µX − µY può
essere testata utilizzando come v.c. test X – Y . Poiché le varianze non sono note,
verrebbe naturale stimarle ma, come detto nella sez. 6.9 del cap. 6, la v.c.
X −Y − (µ X − µ Y )
S X2 / m + S Y2 / n
non ha in generale una distribuzione nota. Allora si aprono due alternative.
•
La prima è assumere che σ X2 = σ Y2 = σ2. In tale caso la distribuzione esatta della
statistica test è
X −Y − (µ X − µ Y )
S p 1/ m + 1/ n
dove S P2 =
~ T(m + n – 2 )
S X2 (m − 1) + SY2 (n − 1)
è la varianza pooled utilizzata per stimare σ2
m+n−2
sfruttando l’informazione di entrambi i campioni x e y. Ovviamente sotto H0
abbiamo
(
•
X −Y − (µ X − µ Y )
S p 1/ m + 1/ n
| H0) ~ T(m + n – 2 ).
La seconda alternativa si può utilizzare quando la dimensione di entrambi i
campioni, m ed n, è abbastanza grande per poter approssimare la distribuzione di
X −Y − (µ X − µ Y )
S X2 / m + S Y2 / n
con la Normale, cioè
X −Y − (µ X − µ Y )
S X2 / m + S Y2 / n
≈ N(0, 1).
In questo caso sotto l’ipotesi nulla abbiamo
(
X −Y − (µ X − µ Y )
S X2 / m + S Y2 / n
| H0) ≈ N(0, 1).
A questo punto l’analisi procede in modo esattamente analogo a quanto illustrato negli
altri esempi.
59
test per con
σ X2 / σ Y2
σ X2 ),
Y ~ N(µY,
σ Y2 )
indipendenti:
con µX e µY note
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY note. Si vuole
sottoporre a test un’ipotesi su σ X2 / σ Y2 , al livello di significatività α sulla base dei c.c.s.
x = (x1, …, xm) e y = (y1, …, yn).
Risparmiando per brevità i dettagli tecnici, un’ipotesi su σ X2 / σ Y2 quando le medie sono
note può essere testata utilizzando come v.c. test S *2* X / S *2*Y , che nelle assunzioni
dell’esempio è distribuita nel modo seguente (cap. 6, sez. 6.10):
S*2* X σ Y2
S*2*Y σ X2
~ F(m, n).
Poiché l’ipotesi nulla di norma considerata nelle ipotesi di questo esempio è
H0: σ X2 / σ Y2 = 1,
in questa descrizione faremo riferimento a questa situazione, avvertendo però che se al
posto dello 1 c’è una qualsiasi altra costante, il test può essere effettuato in modo del
tutto analogo sostituendo a 1 la costante corrispondente.
(
S*2* X
S*2*Y
| H0 ) ~ F(m, n).
A questo punto l’analisi procede in modo esattamente analogo a quanto visto negli
esempi precedenti.
60
test per con
σ X2 / σ Y2
σ X2 ),
Y ~ N(µY,
σ Y2 )
indipendenti:
con µX e µY incognite
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY non note. Si
vuole sottoporre a test un’ipotesi su σ X2 / σ Y2 , al livello di significatività α sulla base dei
c.c.s. x = (x1, …, xm) e y = (y1, …, yn). Di nuovo consideriamo che l’ipotesi nulla sia
H0: σ X2 / σ Y2 = 1,
avvertendo che se al posto dello 1 c’è una qualsiasi altra costante, il test può essere
effettuato in modo del tutto analogo sostituendo a 1 la costante corrispondente.
Risparmiando di nuovo i dettagli tecnici, un’ipotesi su σ X2 / σ Y2 quando le medie sono
incognite può essere testata utilizzando come v.c. test S X2 / S Y2 , che nelle assunzioni
dell’esempio è distribuita nel modo seguente (cap. 6, sez. 6.11):
S X2 σ Y2
SY2 σ X2
~ F(m – 1 , n – 1).
(
S X2
SY2
| H0) ~ F(m – 1 , n – 1).
A questo punto l’analisi procede in modo esattamente analogo a quanto visto negli
esempi precedenti.
σ X2 ),
Y ~ N(µY,
σ Y2 ):
test per
µX − µY con dati appaiati
Nella sez. 6.14 del cap. 6 (cui rimandiamo per maggiori dettagli) abbiamo discusso la
condizione di appaiamento dei dati, evidenziando che in tale situazione il confronto fra
61
le medie delle due v.c. può essere effettuato analizzando direttamente la v.c. differenza
D = X – Y. A questo riguardo si assume che
D ~ N(µD, σ D2 )
e si utilizza come campione estratto da D le differenze d = (d1, …, dn), dove ciascuna di
è lo scarto fra le osservazioni corrispondenti della i-ma unità nei due campioni, ovvero
di = xi – yi.
In questo modo il problema in analisi è stato trasformato nella costruzione di un test per
la media (µD) di una v.c. Normale con varianza incognita ( σ D2 ), per il quale vale
esattamente quanto detto nella sez. 0. La v.c. test da utilizzare è allora D , la cui
distribuzione è data da
D − µD
SD / n
~ T(n – 1),
e nel quale S D2 è la varianza campionaria corretta di D. Ipotizzando che l’ipotesi nulla
sia H0: µX − µY = 0 ovvero H0: µD = 0 (se al posto dello 0 c'è un altro valore basta
sostituire lo 0 con il valore corrispondente) sotto H0 abbiamo
(
D
SD / n
| H0) ~ T(n – 1).
A questo punto l’analisi procede in modo esattamente analogo a quanto illustrato in sez.
0.
16. Esempio X ~ Be(pX), Y ~ Be(pY) indipendenti: test
per pX − pY
Siano X ~ Be(pX), Y ~ Be(pY) due v.c. indipendenti. Si vuole sottoporre a test un’ipotesi
su pX – pY, al livello di significatività α, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …,
yn).
Risparmiando i dettagli tecnici, un’ipotesi su pX – pY può essere testata utilizzando come
v.c. test X – Y . In generale la distribuzione esatta di tale v.c. non è semplice da
trattare. Tuttavia se le dimensioni dei campioni m ed n sono sufficientemente elevate, la
62
distribuzione di ciascuna delle due v.c. può essere approssimata con una Normale e così
per la differenza:
X – Y ≈ N(pX – pY , pX qX/m + pY qY/n).
Supponiamo che, come di norma accade, l’ipotesi nulla sia
H0: pX – pY = 0,
(se al posto dello 0 c’è una qualsiasi altra costante, il test può comunque essere
effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente). Allora
la distribuzione della v.c. test sotto H0 diviene
( X – Y | H0) ≈ N(0, p̂ q̂ (1/m + 1/n))
dove, essendo pX – pY = 0 sotto l’ipotesi nulla, abbiamo supposto pX = pY = p e stimato il
valore p sfruttando l’informazione di entrambi i campioni, cioè
m
n
i=1
j=1
∑Xi + ∑Yj
p̂ =
m+ n
=
mX +nY
.
m+n
p̂ è la stima pooled del p comune alle due v.c. X e Y sotto H0 ed è una media pesata di
X eY.
A questo punto la procedura di test procede in modo del tutto analogo al test della
media di una v.c. Normale con varianza nota.
17. Esempio X ~ Po(λX), Y ~ Po(λY) indipendenti:
intervallo per λX – λY
Siano X ~ Po(λX), Y ~ Po(λX) due v.c. indipendenti. Si vuole sottoporre a test un’ipotesi
λX – λY, al livello di significatività α, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …,
yn).
L’analisi di questo esempio procede in modo assai simile a quella dell’esempio
precedente. Risparmiando di nuovo i dettagli tecnici, un’ipotesi su λX – λY può essere
testata utilizzando come v.c. test X – Y . In generale la distribuzione esatta di tale v.c.
non è semplice da trattare. Tuttavia se le dimensioni dei campioni m ed n sono
63
sufficientemente elevate, la distribuzione di ciascuna delle due v.c. può essere
approssimata con una Normale e così la differenza:
X – Y ≈ N(λX – λY, λX /m + λY /n).
Supponiamo che, come di norma accade, l’ipotesi nulla sia
H0: λX – λY = 0,
(se al posto dello 0 c’è una qualsiasi altra costante, il test può comunque essere
effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente). Allora
la distribuzione della v.c. test sotto H0 diviene
( X – Y | H0) ≈ N(0 , λ̂ (1/m + 1/n))
dove, essendo λX – λY = 0 sotto l’ipotesi nulla, abbiamo supposto λX = λY = λ e stimato
il valore λ sfruttando l’informazione di entrambi i campioni, cioè
m
n
i=1
j=1
∑Xi + ∑Yj
λ̂ =
m+ n
=
mX +nY
.
m+n
λ̂ è la stima pooled del λ comune alle due v.c. X e Y sotto H0 ed è una media pesata di
X eY.
A questo punto la procedura di test procede in modo del tutto analogo al test della
media di una v.c. Normale con varianza nota.
18. Test di ipotesi non parametriche
Sia X la v.c oggetto di analisi. Negli esempi precedenti si è discusso delle procedure per
sottoporre a test ipotesi sui parametri caratterizzanti la distribuzione di X (per questo
dette ipotesi parametriche), della quale abbiamo sempre assunto che la forma della sua
funzione di massa o di densità fosse nota a meno del valore di tali parametri. Può però
capitare di essere interessati a verificare se il modello scelto per rappresentare la
distribuzione di X è effettivamente ben scelto, cioè se i dati sono effettivamente ben
rappresentati dalla distribuzione assunta.
In queste circostanze occorre sottoporre a verifica ipotesi relative alla forma della
distribuzione della v.c. X. E’ chiaro che in tale caso l’ipotesi riguarda non più i
parametri che caratterizzano la distribuzione, ma direttamente la distribuzione stessa. In
64
queste situazioni il test del rapporto di verosimiglianza non è sempre applicabile in
quanto può risultare impossibile la derivazione della funzione di verosimiglianza sotto
l’ipotesi alternativa: ciò accade tutte le volte in cui l’ipotesi alternativa viene riferita ad
una vasta classe di funzioni. Il fatto che la classe delle alternative possibili sia
generalmente molto ampia rende difficile anche ogni possibile confronto tra procedure
di test diverse in termini di probabilità d’errore di II tipo. In questi casi si preferisce
usualmente rinunciare ad ogni valutazione della probabilità di tale errore.
Esistono molti metodi per sottoporre a test ipotesi sulla forma della distribuzione: in
questo corso consideriamo soltanto il test χ2.
Sia dunque X la v.c considerata e individuiamo la distribuzione di X tramite la sua
funzione di ripartizione F(x) (si ricorda che data la funzione di massa o di densità di X è
sempre possibile ricavare la sua funzione di ripartizione e viceversa). Supponiamo
quindi di voler sottoporre a test l’ipotesi che F(x) sia riconducibile a una certa funzione
di ripartizione nota F0(x), ovvero
H0: F(x) = F0(x) contro H1: F(x) ≠ F0(x).
In base al campione si otterrà una misura F̂ (x) della “vera” F(x): se F̂ (x) è ben
approssimata da F0(x) l’ipotesi verrà accettata altrimenti verrà rifiutata.
La procedura del χ2 per sottoporre a test l’ipotesi sulla forma funzionale della
distribuzione della v.c. X sulla base di un c.c.s. di osservazioni può essere schematizzata
nei seguenti passi:
1. Si suddivide il campo di definizione della v.c. X in k intervalli disgiunti I1, ..., Ik in
modo tale che in ciascun intervallo cadano almeno 5 valori campionari, sia in base
alla distribuzione teorica che a quella riscontrata del campione.
2. Si determina il numero ni dei valori campionari che cadono in ciascun intervallo Ii.
3. Usando F0(x), si calcola la probabilità pi0 che, sotto H0, X assuma un valore
all’interno dell’intervallo Ii. Da questi pi0 si calcolano poi i valori ni0 = n pi0 ,
ciascuno dei quali rappresenta il numero teorico di valori campionari che, se H0
fosse vera, dovrebbero cadere in Ii.
4. Si calcola poi la quantità
χ
2
(n − n )
=∑
k
0 2
i
i
ni0
i =1
65
.
Si può dimostrare che, sotto H0, la quantità indicata ha approssimativamente una
distribuzione Chi-quadrato con k – 1 – r, dove k è il numero degli intervalli ed r è il
numero dei parametri incogniti che occorre stimare per ottenere i valori teorici ni0
(ad esempio, r = 1 nella Poisson ed r = 2 nella Normale); in simboli
(χ
2
(n − n )
=∑
k
i =1
0 2
i
i
ni0
| H0) ∼ χ2(k – 1 – r).
5. In base al livello di significatività α prefissato si determina il valore critico del test c
dalla relazione P(χ2 > c | H0) = α utilizzando le tavole della χ2(k – 1 – r).
6. Infine il confronto del χ2 calcolato sul campione col valore critico c trovato dalle
tavole suggerisce se accettare o rifiutare H0.
66

Capitolo 7 TEST DELLE IPOTESI 1. Concetti di base - UniFI

Transcript

Documenti analoghi

tab. 1. Test di Cochran tè/assenza: socializzazione

CORSO DI STATISTICA (parte 2)

Nasce in Cattolica il Laboratorio di Statistica Applicata alle decisioni

La Spina Bifida Occulta e la Sindrome da Ancoraggio Midollare

Esercitazione n. 15

lezione 5.1 - Università di Verona

Breve sintesi della tavola rotonda su “Una questione di sistema” del

Programma consuntivo del corso

Speciale Cap Juluca!

Gli errori nella verifica delle ipotesi