Tema A

Transcript

Tema A
Metodi Statistici per la Biologia
Laurea Triennale in Biologia
24 luglio 2008
Cognome:
Nome:
Matricola:
Tema A
1. Parte A
1.1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x è
un valore incognito. Quale dei seguenti numeri certamente non può essere la mediana?
0.2
0
1
−1
1.2. Tirando due dadi regolari a sei facce, qual è la probabilità di ottenere due numeri diversi?
5
6
1
6
5
36
25
36
1.3. Siano X, Y variabili aleatorie indipendenti, ciascuna con distribuzione N (0, 1). Quale delle
seguenti variabili è standardizzata (cioè ha media zero e varianza uno)?
X +Y
21 (X + Y )
21 (X − Y )
√12 (X − Y )
1.4. Siano X1 , X2 , X3 , . . . variabili i.i.d. con valore atteso µ. Fissato un arbitrario ε > 0, quale
delle seguenti relazioni è una conseguenza della Legge dei Grandi Numeri?
n
limn→∞ P X1 +...+X
<µ+ε =1
n
n
>
µ
−
ε
=0
limn→∞ P X1 +...+X
n
X1 +...+X
1
n
√
limn→∞ P
<µ = 2
n
limn→∞ P (X1 + . . . + Xn − nµ > ε) = 0
1.5. Effettuando un test d’ipotesi di livello di significatività α sono sicuro che
P (accetto H0 quando è corretta) ≤ α
P (accetto H0 quando è sbagliata) ≤ α
P (rifiuto H0 quando è corretta) ≤ α
P (rifiuto H0 quando è sbagliata) ≥ α
1
1.6. Si vuole capire quale di due farmaci sia più efficace nel diminuire la frequenza cardiaca a
riposo. A tal fine si prendono due gruppi distinti di persone e si somministra il primo farmaco
agli individui del primo gruppo e il secondo farmaco a quelli del secondo gruppo, misurando la
variazione di frequenza cardiaca. Quale test occorre usare per analizzare i dati?
un
un
un
un
test
test
test
test
χ2 di indipendenza
χ2 di adattamento
per il confronto di medie di campioni indipendenti
per il confronto di medie di dati appaiati
1.7. Si vuole stimare la media µ di una variabile con distribuzione normale di varianza incognita. Calcolando l’intervallo di confidenza al 95% su un campione di taglia 20, si ottiene
I1 = [4.21, 4.56]. Si ricalcola quindi l’intervallo di confidenza al 95% su un secondo campione,
sempre di taglia 20, ottendendo I2 = [4.59, 4.73]. Da questi dati si può concludere che:
la media µ è certamente compresa tra 4.56 e 4.59
la media µ cade in uno dei due intervalli I1 , I2 con probabilità almeno del 10%
la media µ potrebbe non appartenere a nessuno dei due intervalli I1 , I2
è stato commesso un errore nelle misurazioni o nei calcoli, perché I1 e I2 non possono
essere disgiunti
2. Parte B
2.1. Esercizio 1
La teoria del decadimento radioattivo predice che un certo materiale emetta ogni msec. un
numero di particelle radioattive che ha distribuzione P o(1). Inoltre, i numeri di particelle emesse
in due intervalli di tempo disgiunti sono variabili aleatorie indipendenti.
a) Qual è la distribuzione del numero di particelle emesse in un intervallo di 50 msec.?
b) Usando l’approssimazione normale, calcolare approssimativamente la probabilità che in
un intervallo di 50 msec. vengano emesse più di 55 (> 55) particelle radioattive.
Soluzione.
a) Sia X1 , X2 , . . . , X50 i numeri di particelle emesse nei 50 intervalli adiacenti di lunghezza
1 msec. che formano il dato intervallo di 50 msec. Le Xi ∼ P o(1) e sono indipendenti. Il
numero totale di particelle emesse è X := X1 + X2 + · · · + X50 ∼ P o(50).
b) Usando anche la correzione di continuità, posto Z ∼ N (0, 1),
55.5 − 50
X − 50
> √
) ' P (Z > 0.78)
P (X > 55) = P (X > 55.5) = P ( √
50
50
= 1 − P (Z ≤ 0.78) ' 1 − 0.78 = 0.22.
2.2. Esercizio 2
Per accedere alle scuole americane di dottorato è necessario sostenere il Graduate Record Exam
(GRE). In una certa Università si vogliono confrontare i punteggi nel GRE di studenti che hanno
terminato il dottorato in meno di 4 anni con quello degli studenti che hanno impiegato più di 4
anni. Viene selezionato un campione casuale di 25 studenti per ognuna delle due categorie. Per
il campione di studenti che hanno ottenuto il dottorato in meno di 4 anni, i punteggi nel GRE
forniscono una media campionaria di 1056 e una deviazione standard campionaria di 295. Per
quelli che hanno impiegato più di 4 anni la media campionaria è 912 e la deviazione standard
campionaria 270. Quali conclusioni si possono trarre da questi dati? (Effettuare un test al 5%;
si assuma la normalità della distribuzione del punteggio nel GRE, e l’uguaglianza delle varianze
nelle due popolazioni).
Soluzione. Usiamo un test di uguaglianza di medie per campioni normali indipendenti.
r
2952 + 2702
sp =
' 282.78.
2
Come ipotesi nulla scegliamo H0 : µx = µy (x = punteggio di uno studente che ha impiegato
meno di 4 anni). La statistica test è
1056 − 912
q =' 1.8.
t=
2
282.78 25
Essendo t48,0.025 ' 2.01, H0 viene accettata al 5%: a questo livello di significatività i dati non
dimostrano una differenza significativa nel punteggio medio tra i due gruppi.
2.3. Esercizio 3
In una verifica sugli errori tipografici, vengono contati gli errori per pagina in un’edizione di un
libro. Si ottengono i seguenti risultati:
N. errori
0 1 2 3 4 5 6 o più
N. di pagine 13 24 31 18 11 3
0
Questi dati sono coerenti con l’ipotesi che il numero di errori per pagina abbia distribuzione di
Poisson? (Effettuare un test al 5%).
Soluzione. Effettuiamo un test χ2 di buon adattamento. Se x è il numero di errori per pagina,
i dati forniscono x = 1.99. Calcoliamo le frequenze attese per un P o(1.99). Per i = 0, 1, 2, 3, 4:
1.99i
i!
Inoltre, raggruppando tutti i valori maggiori o uguali a 5 in un unica classe, otteniamo
fi = 100e−1.99
f5 = 100 −
4
X
fi .
i=0
Svolgendo i calcoli, si trova la statistica test (oi = frequenze osservate)
5
X
(fi − oi )2
i=0
fi
' 2.37.
Confrontando questo valore con il percentile χ24,0.05 = 9.48, si trova che il campione non cade
nella regione critica: dati sono coerenti con l’ipotesi che il numero di errori per pagina abbia
distribuzione di Poisson.