Biostatistica – Laurea Magistrale in Biologia

Transcript

Biostatistica – Laurea Magistrale in Biologia
Biostatistica – Laurea Magistrale in Biologia
Risultati dell’esame del 27 Aprile 2016
Matricola
069860
704922
715340
718052
726325
735674
735867
737851
738239
741637
751823
752143
752236
752397
752414
752531
752903
752998
753267
753284
754306
754956
765928
766091
766295
766431
766657
767531
767606
797434
797695
799245
808028
808243
808303
808480
808718
809267
809268
809678
810256
810854
811444
811457
Voto
27
insufficiente
insufficiente
insufficiente
20
insufficiente
30
27
insufficiente
21
22
24
25
30
30
insufficiente
25
23
insufficiente
insufficiente
insufficiente
insufficiente
30
26
30
insufficiente
25
30
22
19
insufficiente
30
insufficiente
21
insufficiente
25
insufficiente
22
23
insufficiente
insufficiente
insufficiente
insufficiente
insufficiente
Martedì 3 Maggio alle ore 15 presso l’ufficio del docente (U7, 2° piano, ufficio 2069) sarà possibile
chiedere chiarimenti riguardo agli esiti del compito.
La registrazione del voto sul sito della segreteria studenti sarà fatta Martedì 3 Maggio alle ore 16;
non è richiesta la presenza dello studente.
Nelle pagine seguenti sono riportate le soluzioni degli esercizi proposti nella prova di esame.
1
Esercizio 1
Uno studio sull’antilope saiga (Saiga tatarica), un bovide a rischio di estinzione, ha registrato la
frazione di femmine nella popolazione che sono state fertili in ogni anno tra il 1993 e il 2001. Un
diagramma dei dati è il seguente:
Supponete di voler descrivere la frazione di femmine che sono fertili, in un anno tipico, sulla base
di questi dati. Quale sarebbe la scelta migliore per descrivere, rispettivamente, il valore più
rappresentativo della variabile e della sua dispersione?
Media e range interquartile
Media e deviazione standard
X Mediana e range interquartile
Mediana e deviazione standard
Motivare la risposta.
Poiché le osservazioni sono poche (solo nove osservazioni relative alle rilevazioni effettuate nei
nove anni considerati nello studio) ed essendoci un valore anomalo (outlier) non rappresentativo
della distribuzione (un anno in cui la proporzione di femmine fertile è risultata inferiore a 0.2), la
media e la deviazione standard risulterebbero molto influenzate dall’outlier. La mediana e il range
interquartile sono da preferirsi, perché meno sensibili agli outlier.
2
Esercizio 2
Il gene per il recettore della vasopressina, V1a, viene espresso di più nel prosencefalo delle specie
monogame rispetto alle specie promiscue di arvicole. Può l’espressione di questo gene influenzare
la monogamia? Per verificarlo, alcuni ricercatori hanno aumentato sperimentalmente l’espressione
del gene V1a nel prosencefalo di 11 maschi dell’arvicola dei prati, una specie promiscua solitaria.
È stata quindi registrata la percentuale di tempo che ogni maschio ha dedicato all’huddling con la
femmina che gli era stata fornita, il tempo cioè durante il quale il maschio restata rannicchiato
vicino alla femmina. Questa percentuale si può considerare un indice di monogamia. Le stesse
misurazioni sono state effettuate in 20 maschi di controllo non sottoposti all’intervento.
L’indice di monogamia così costruito, è stato rappresentato graficamente per i due gruppi attraverso
un box plot:
Quale affermazione è vera, tra le seguenti?
X
Nel gruppo di controllo sono presenti molti più outlier rispetto al gruppo di intervento che
non consentono di effettuare conclusioni attendibili.
Il tempo medio è statisticamente maggiore nel gruppo di intervento rispetto a quello del
gruppo di controllo.
Per il 75% delle arvicole del gruppo di controllo si è registrata una percentuale di tempo di
rannicchiamento superiore al 36% mentre per il 75% delle arvicole del gruppo di intervento
si è registrata una percentuale di tempo di rannicchiamento superiore al 77%
Il tempo mediano è maggiore nel gruppo di controllo.
3
Esercizio 3
I dati seguenti sono misure della durata, in millisecondi (ms), della luce emessa da un campione di
35 maschi della lucciola Photinus ignitus (Cratsley & Lewis, 2003).
79
94
108
80
92
109
82
94
112
83
96
113
86
95
118
85
95
116
86
95
119
86
96
88
98
87
98
89
98
89
101
90
103
92
106
La media campionaria è 95.9
L’intervallo di confidenza al 95% della media campionaria è: 92.2-99.7
Sulla base dell’intervallo di confidenza al 95% della media campionaria, posso dire che il 95% delle
osservazioni del mio campione ha valori della luce emessa che variano da 92.2 a 99.7.
X
Vero
Falso
4
Esercizio 4
Se ogni “successo” si verifica indipendentemente da tutti gli altri successi e con la stessa
probabilità, quale distribuzione di probabilità ci si attende per ciascuna delle seguenti situazioni?
Situazione
il numero di fiori in ogni metro quadrato di un campo alpino
Poisson
X
il numero di test che si presentano in 10 lanci di una moneta
X
il numero di bombe cadute sugli isolati di Londra nella
Seconda guerra mondiale
X
il numero giornaliero di contatti di un sito web
X
il numero annuo di attacchi all’uomo da parte di elefanti nel
Parco nazionale del Serengeti in Tanzania
il numero di fiori rossi in insiemi di 100 fiori in un campo con
più specie di fiori
Binomiale
X
X
5
Esercizio 5
Le drosofile, o moscerini della frutta, come quasi tutti gli altri organismi viventi hanno ritmi
circadiani intrinseci che “segnano il tempo” anche in assenza di stimoli esterni.
Nel funzionamento dell’”orologio interno” intervengono parecchi geni, comprendenti i geni per
(periodo) e tim (tempo). Le mutazioni di questi due e di altri geni modificano la capacità di
mantenere il ritmo circadiano.
È interessante il fatto che questi geni siano coinvolti anche in altri comportamenti correlati con i
ritmi temporali, come la frequenza del battito alare durante il corteggiamento dei maschi. Gli
individui che presentano mutazioni nei geni per e tim copulano anche più a lungo rispetto a quelli
che non hanno alcuna mutazione. Ma queste due mutazioni influenzano in modo simile il tempo di
copulazione? La tabella seguente riassume alcuni dati sulla durata dell’accoppiamento per drosofile
che presentano la mutazione tim o la mutazione per (Braver & Giebultowicz, 2004):
Quale test statistico ritiene più appropriato per decidere se queste due mutazioni determinano
differenti durate medie dell’accoppiamento?
Test t per dati appaiati
X Test t per dati indipendenti
X Wilcoxon rank sum test
Test chi-quadrato
[ho considerato come risposta corretta sia chi ha indicato la seconda sia chi ha indicato la terza alternativa]
Motivare la risposta
I due gruppi posti a confronto sono tra loro indipendenti, poiché moscerini con la mutazione Per
(gruppo 1) o con la mutazione Tim (gruppo 2). Non avrebbe senso ipotizzare due situazioni diverse
misurate sullo stesso gruppo perché le mutazioni genetiche in studio non sono fattori che possono
essere facilmente modificati. Un altro indizio che porta a pensare che abbiamo due gruppi
indipendenti è che la numerosità campionaria è diversa tra le due situazioni (nel caso di dati
appaiati si avrebbe lo stesso numero di misurazioni fatte sulle stesse unità campionarie in due
situazioni diverse).
Per questi motivi, dovrei utilizzare il test t per dati indipendenti o il test non parametrico di
Wilcoxon.
Per utilizzare il test t, soprattutto nel caso di numerosità campionarie piccole come quelle riportate,
dovrei assumere la normalità della variabile di risposta e l’uguaglianza delle varianze nei due
gruppi posti a confronto.
Riguardo quest’ultimo assunto, le due deviazioni standard sono piuttosto simili, quindi potrei
ritenerlo verificato. Purtroppo non si hanno elementi per decidere circa la normalità dei dati. Nel
caso non fossero normali, la scelta cadrebbe sul test non parametrico di Wilcoxon. In caso fossero
normali, sul test parametrico t per dati indipendenti (più potente del test non parametrico).
6
Esercizio 6
Gli struzzi vivono in ambienti caldi e normalmente rimangono esposti al sole per lunghi periodi. In
ambienti simili i mammiferi possiedono particolari meccanismi che gli consentono di ridurre la
temperatura dell’encefalo rispetto alla temperatura corporea. Gli struzzi sono capaci di fare lo
stesso? Le temperature medie corporee e cerebrali di 6 struzzi sono state registrate in condizioni
tipiche di alta temperatura. I risultati, espressi i gradi celsius (°C) sono i seguenti:
Struzzo
1
2
3
4
5
6
Temperatura Temperatura
corporea
encefalo
38.51
38.45
38.27
38.52
38.62
38.18
39.32
39.21
39.20
38.68
39.09
38.94
Di seguito sono riportati alcuni risultati dell’analisi condotta con JMP:
Difference (Temperatura corporea – temperatura encefalo)
La temperatura corporea e la temperatura dell’encefalo risultano statisticamente differenti? [si
assuma la normalità della variabile di interesse]
Con un p-value di 0.0025, si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura
corporea e quella cerebrale a favore dell’ipotesi H1: µdiff ≠ 0
Con un p-value di 0.9988, non si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura
X
corporea e quella cerebrale
Con un p-value di 0.0012, si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura
corporea e quella cerebrale a favore dell’ipotesi H1: µdiff ≠ 0.
X
[ho considerato corretta anche la seconda alternativa perché incompleta, in quanto non è specificata l’ipotesi
alternativa. Perché sia completa e corretta, l’ipotesi alternativa dovrebbe essere H1: µdiff > 0]
7
Esercizio 7
Stimare l’anno di nascita di un cadavere è un compito difficile. Recentemente è stato proposto un
metodo basato sulla radioattività dello smalto dentario. La proporzione del radioisotopo carbonio-14
(14C) nell’atmosfera aumentò drasticamente nel periodo dei test nucleari tra il 1955 e il 1963. Dato
che lo smalto dentario non si rigenera, la misurazione del contenuto di 14C di un dente indica quanto
il dente si è sviluppato e quindi permette di stimare l’anno di nascita del soggetto a cui appartiene.
Le previsioni su questo metodo sembrano piuttosto accurate (Spalding et al, 2005), come è mostrato
nel diagramma seguente
Questo diagramma contiene una linea singola e due coppie di linee. La linea singola a tratto
continuo è la retta di regressione dei minimi quadrati, che predice l’anno di nascita reale a partire
dall’anno stimato dalla radioattività dei denti. Una delle due coppie di linee rappresenta le bande di
confidenza al 95% e l’altra l’intervallo di previsione al 95%.
Quale coppia di linee rappresenta le bande di confidenza?
X Tratteggio corto
Tratteggio lungo
Che cosa indicano queste bande di confidenza?
La banda di confidenza al 95% indica l’area in cui, con una probabilità del 95%, si troverà la vera
retta di regressione che descrive la relazione lineare nella popolazione da cui è stato estratto il
campione.
Quale coppia di linee rappresenta l’intervallo di predizione?
Tratteggio corto
X Tratteggio lungo
Che cosa indica questo intervallo di predizione?
L’intervallo di predizione al 95% indica l’intervallo di valori in cui, con una probabilità del 95%,
andrà a cadere una nuova osservazione (in questo caso l’anno di nascita effettivo) sulla base del
valore previsto dalla retta di regressione (quindi sulla base dell’anno di nascita stimato utilizzando
la misurazione del contenuto di 14C di un dente). Ad esempio, se l’anno di nascita stimato per un
individuo con il metodo del contenuto di 14C è 1980, mi aspetto con una probabilità del 95% che il
vero anno di nascita sia compreso tra il 1975 e il 1985.
8