Tema A
Transcript
Tema A
Metodi Statistici per la Biologia Laurea Triennale in Biologia 24 luglio 2008 Cognome: Nome: Matricola: Tema A 1. Parte A 1.1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x è un valore incognito. Quale dei seguenti numeri certamente non può essere la mediana? 0.2 0 1 −1 1.2. Tirando due dadi regolari a sei facce, qual è la probabilità di ottenere due numeri diversi? 5 6 1 6 5 36 25 36 1.3. Siano X, Y variabili aleatorie indipendenti, ciascuna con distribuzione N (0, 1). Quale delle seguenti variabili è standardizzata (cioè ha media zero e varianza uno)? X +Y 21 (X + Y ) 21 (X − Y ) √12 (X − Y ) 1.4. Siano X1 , X2 , X3 , . . . variabili i.i.d. con valore atteso µ. Fissato un arbitrario ε > 0, quale delle seguenti relazioni è una conseguenza della Legge dei Grandi Numeri? n limn→∞ P X1 +...+X <µ+ε =1 n n > µ − ε =0 limn→∞ P X1 +...+X n X1 +...+X 1 n √ limn→∞ P <µ = 2 n limn→∞ P (X1 + . . . + Xn − nµ > ε) = 0 1.5. Effettuando un test d’ipotesi di livello di significatività α sono sicuro che P (accetto H0 quando è corretta) ≤ α P (accetto H0 quando è sbagliata) ≤ α P (rifiuto H0 quando è corretta) ≤ α P (rifiuto H0 quando è sbagliata) ≥ α 1 1.6. Si vuole capire quale di due farmaci sia più efficace nel diminuire la frequenza cardiaca a riposo. A tal fine si prendono due gruppi distinti di persone e si somministra il primo farmaco agli individui del primo gruppo e il secondo farmaco a quelli del secondo gruppo, misurando la variazione di frequenza cardiaca. Quale test occorre usare per analizzare i dati? un un un un test test test test χ2 di indipendenza χ2 di adattamento per il confronto di medie di campioni indipendenti per il confronto di medie di dati appaiati 1.7. Si vuole stimare la media µ di una variabile con distribuzione normale di varianza incognita. Calcolando l’intervallo di confidenza al 95% su un campione di taglia 20, si ottiene I1 = [4.21, 4.56]. Si ricalcola quindi l’intervallo di confidenza al 95% su un secondo campione, sempre di taglia 20, ottendendo I2 = [4.59, 4.73]. Da questi dati si può concludere che: la media µ è certamente compresa tra 4.56 e 4.59 la media µ cade in uno dei due intervalli I1 , I2 con probabilità almeno del 10% la media µ potrebbe non appartenere a nessuno dei due intervalli I1 , I2 è stato commesso un errore nelle misurazioni o nei calcoli, perché I1 e I2 non possono essere disgiunti 2. Parte B 2.1. Esercizio 1 La teoria del decadimento radioattivo predice che un certo materiale emetta ogni msec. un numero di particelle radioattive che ha distribuzione P o(1). Inoltre, i numeri di particelle emesse in due intervalli di tempo disgiunti sono variabili aleatorie indipendenti. a) Qual è la distribuzione del numero di particelle emesse in un intervallo di 50 msec.? b) Usando l’approssimazione normale, calcolare approssimativamente la probabilità che in un intervallo di 50 msec. vengano emesse più di 55 (> 55) particelle radioattive. Soluzione. a) Sia X1 , X2 , . . . , X50 i numeri di particelle emesse nei 50 intervalli adiacenti di lunghezza 1 msec. che formano il dato intervallo di 50 msec. Le Xi ∼ P o(1) e sono indipendenti. Il numero totale di particelle emesse è X := X1 + X2 + · · · + X50 ∼ P o(50). b) Usando anche la correzione di continuità, posto Z ∼ N (0, 1), 55.5 − 50 X − 50 > √ ) ' P (Z > 0.78) P (X > 55) = P (X > 55.5) = P ( √ 50 50 = 1 − P (Z ≤ 0.78) ' 1 − 0.78 = 0.22. 2.2. Esercizio 2 Per accedere alle scuole americane di dottorato è necessario sostenere il Graduate Record Exam (GRE). In una certa Università si vogliono confrontare i punteggi nel GRE di studenti che hanno terminato il dottorato in meno di 4 anni con quello degli studenti che hanno impiegato più di 4 anni. Viene selezionato un campione casuale di 25 studenti per ognuna delle due categorie. Per il campione di studenti che hanno ottenuto il dottorato in meno di 4 anni, i punteggi nel GRE forniscono una media campionaria di 1056 e una deviazione standard campionaria di 295. Per quelli che hanno impiegato più di 4 anni la media campionaria è 912 e la deviazione standard campionaria 270. Quali conclusioni si possono trarre da questi dati? (Effettuare un test al 5%; si assuma la normalità della distribuzione del punteggio nel GRE, e l’uguaglianza delle varianze nelle due popolazioni). Soluzione. Usiamo un test di uguaglianza di medie per campioni normali indipendenti. r 2952 + 2702 sp = ' 282.78. 2 Come ipotesi nulla scegliamo H0 : µx = µy (x = punteggio di uno studente che ha impiegato meno di 4 anni). La statistica test è 1056 − 912 q =' 1.8. t= 2 282.78 25 Essendo t48,0.025 ' 2.01, H0 viene accettata al 5%: a questo livello di significatività i dati non dimostrano una differenza significativa nel punteggio medio tra i due gruppi. 2.3. Esercizio 3 In una verifica sugli errori tipografici, vengono contati gli errori per pagina in un’edizione di un libro. Si ottengono i seguenti risultati: N. errori 0 1 2 3 4 5 6 o più N. di pagine 13 24 31 18 11 3 0 Questi dati sono coerenti con l’ipotesi che il numero di errori per pagina abbia distribuzione di Poisson? (Effettuare un test al 5%). Soluzione. Effettuiamo un test χ2 di buon adattamento. Se x è il numero di errori per pagina, i dati forniscono x = 1.99. Calcoliamo le frequenze attese per un P o(1.99). Per i = 0, 1, 2, 3, 4: 1.99i i! Inoltre, raggruppando tutti i valori maggiori o uguali a 5 in un unica classe, otteniamo fi = 100e−1.99 f5 = 100 − 4 X fi . i=0 Svolgendo i calcoli, si trova la statistica test (oi = frequenze osservate) 5 X (fi − oi )2 i=0 fi ' 2.37. Confrontando questo valore con il percentile χ24,0.05 = 9.48, si trova che il campione non cade nella regione critica: dati sono coerenti con l’ipotesi che il numero di errori per pagina abbia distribuzione di Poisson.