Biostatistica – Laurea Magistrale in Biologia
Transcript
Biostatistica – Laurea Magistrale in Biologia
Biostatistica – Laurea Magistrale in Biologia Risultati dell’esame del 27 Aprile 2016 Matricola 069860 704922 715340 718052 726325 735674 735867 737851 738239 741637 751823 752143 752236 752397 752414 752531 752903 752998 753267 753284 754306 754956 765928 766091 766295 766431 766657 767531 767606 797434 797695 799245 808028 808243 808303 808480 808718 809267 809268 809678 810256 810854 811444 811457 Voto 27 insufficiente insufficiente insufficiente 20 insufficiente 30 27 insufficiente 21 22 24 25 30 30 insufficiente 25 23 insufficiente insufficiente insufficiente insufficiente 30 26 30 insufficiente 25 30 22 19 insufficiente 30 insufficiente 21 insufficiente 25 insufficiente 22 23 insufficiente insufficiente insufficiente insufficiente insufficiente Martedì 3 Maggio alle ore 15 presso l’ufficio del docente (U7, 2° piano, ufficio 2069) sarà possibile chiedere chiarimenti riguardo agli esiti del compito. La registrazione del voto sul sito della segreteria studenti sarà fatta Martedì 3 Maggio alle ore 16; non è richiesta la presenza dello studente. Nelle pagine seguenti sono riportate le soluzioni degli esercizi proposti nella prova di esame. 1 Esercizio 1 Uno studio sull’antilope saiga (Saiga tatarica), un bovide a rischio di estinzione, ha registrato la frazione di femmine nella popolazione che sono state fertili in ogni anno tra il 1993 e il 2001. Un diagramma dei dati è il seguente: Supponete di voler descrivere la frazione di femmine che sono fertili, in un anno tipico, sulla base di questi dati. Quale sarebbe la scelta migliore per descrivere, rispettivamente, il valore più rappresentativo della variabile e della sua dispersione? Media e range interquartile Media e deviazione standard X Mediana e range interquartile Mediana e deviazione standard Motivare la risposta. Poiché le osservazioni sono poche (solo nove osservazioni relative alle rilevazioni effettuate nei nove anni considerati nello studio) ed essendoci un valore anomalo (outlier) non rappresentativo della distribuzione (un anno in cui la proporzione di femmine fertile è risultata inferiore a 0.2), la media e la deviazione standard risulterebbero molto influenzate dall’outlier. La mediana e il range interquartile sono da preferirsi, perché meno sensibili agli outlier. 2 Esercizio 2 Il gene per il recettore della vasopressina, V1a, viene espresso di più nel prosencefalo delle specie monogame rispetto alle specie promiscue di arvicole. Può l’espressione di questo gene influenzare la monogamia? Per verificarlo, alcuni ricercatori hanno aumentato sperimentalmente l’espressione del gene V1a nel prosencefalo di 11 maschi dell’arvicola dei prati, una specie promiscua solitaria. È stata quindi registrata la percentuale di tempo che ogni maschio ha dedicato all’huddling con la femmina che gli era stata fornita, il tempo cioè durante il quale il maschio restata rannicchiato vicino alla femmina. Questa percentuale si può considerare un indice di monogamia. Le stesse misurazioni sono state effettuate in 20 maschi di controllo non sottoposti all’intervento. L’indice di monogamia così costruito, è stato rappresentato graficamente per i due gruppi attraverso un box plot: Quale affermazione è vera, tra le seguenti? X Nel gruppo di controllo sono presenti molti più outlier rispetto al gruppo di intervento che non consentono di effettuare conclusioni attendibili. Il tempo medio è statisticamente maggiore nel gruppo di intervento rispetto a quello del gruppo di controllo. Per il 75% delle arvicole del gruppo di controllo si è registrata una percentuale di tempo di rannicchiamento superiore al 36% mentre per il 75% delle arvicole del gruppo di intervento si è registrata una percentuale di tempo di rannicchiamento superiore al 77% Il tempo mediano è maggiore nel gruppo di controllo. 3 Esercizio 3 I dati seguenti sono misure della durata, in millisecondi (ms), della luce emessa da un campione di 35 maschi della lucciola Photinus ignitus (Cratsley & Lewis, 2003). 79 94 108 80 92 109 82 94 112 83 96 113 86 95 118 85 95 116 86 95 119 86 96 88 98 87 98 89 98 89 101 90 103 92 106 La media campionaria è 95.9 L’intervallo di confidenza al 95% della media campionaria è: 92.2-99.7 Sulla base dell’intervallo di confidenza al 95% della media campionaria, posso dire che il 95% delle osservazioni del mio campione ha valori della luce emessa che variano da 92.2 a 99.7. X Vero Falso 4 Esercizio 4 Se ogni “successo” si verifica indipendentemente da tutti gli altri successi e con la stessa probabilità, quale distribuzione di probabilità ci si attende per ciascuna delle seguenti situazioni? Situazione il numero di fiori in ogni metro quadrato di un campo alpino Poisson X il numero di test che si presentano in 10 lanci di una moneta X il numero di bombe cadute sugli isolati di Londra nella Seconda guerra mondiale X il numero giornaliero di contatti di un sito web X il numero annuo di attacchi all’uomo da parte di elefanti nel Parco nazionale del Serengeti in Tanzania il numero di fiori rossi in insiemi di 100 fiori in un campo con più specie di fiori Binomiale X X 5 Esercizio 5 Le drosofile, o moscerini della frutta, come quasi tutti gli altri organismi viventi hanno ritmi circadiani intrinseci che “segnano il tempo” anche in assenza di stimoli esterni. Nel funzionamento dell’”orologio interno” intervengono parecchi geni, comprendenti i geni per (periodo) e tim (tempo). Le mutazioni di questi due e di altri geni modificano la capacità di mantenere il ritmo circadiano. È interessante il fatto che questi geni siano coinvolti anche in altri comportamenti correlati con i ritmi temporali, come la frequenza del battito alare durante il corteggiamento dei maschi. Gli individui che presentano mutazioni nei geni per e tim copulano anche più a lungo rispetto a quelli che non hanno alcuna mutazione. Ma queste due mutazioni influenzano in modo simile il tempo di copulazione? La tabella seguente riassume alcuni dati sulla durata dell’accoppiamento per drosofile che presentano la mutazione tim o la mutazione per (Braver & Giebultowicz, 2004): Quale test statistico ritiene più appropriato per decidere se queste due mutazioni determinano differenti durate medie dell’accoppiamento? Test t per dati appaiati X Test t per dati indipendenti X Wilcoxon rank sum test Test chi-quadrato [ho considerato come risposta corretta sia chi ha indicato la seconda sia chi ha indicato la terza alternativa] Motivare la risposta I due gruppi posti a confronto sono tra loro indipendenti, poiché moscerini con la mutazione Per (gruppo 1) o con la mutazione Tim (gruppo 2). Non avrebbe senso ipotizzare due situazioni diverse misurate sullo stesso gruppo perché le mutazioni genetiche in studio non sono fattori che possono essere facilmente modificati. Un altro indizio che porta a pensare che abbiamo due gruppi indipendenti è che la numerosità campionaria è diversa tra le due situazioni (nel caso di dati appaiati si avrebbe lo stesso numero di misurazioni fatte sulle stesse unità campionarie in due situazioni diverse). Per questi motivi, dovrei utilizzare il test t per dati indipendenti o il test non parametrico di Wilcoxon. Per utilizzare il test t, soprattutto nel caso di numerosità campionarie piccole come quelle riportate, dovrei assumere la normalità della variabile di risposta e l’uguaglianza delle varianze nei due gruppi posti a confronto. Riguardo quest’ultimo assunto, le due deviazioni standard sono piuttosto simili, quindi potrei ritenerlo verificato. Purtroppo non si hanno elementi per decidere circa la normalità dei dati. Nel caso non fossero normali, la scelta cadrebbe sul test non parametrico di Wilcoxon. In caso fossero normali, sul test parametrico t per dati indipendenti (più potente del test non parametrico). 6 Esercizio 6 Gli struzzi vivono in ambienti caldi e normalmente rimangono esposti al sole per lunghi periodi. In ambienti simili i mammiferi possiedono particolari meccanismi che gli consentono di ridurre la temperatura dell’encefalo rispetto alla temperatura corporea. Gli struzzi sono capaci di fare lo stesso? Le temperature medie corporee e cerebrali di 6 struzzi sono state registrate in condizioni tipiche di alta temperatura. I risultati, espressi i gradi celsius (°C) sono i seguenti: Struzzo 1 2 3 4 5 6 Temperatura Temperatura corporea encefalo 38.51 38.45 38.27 38.52 38.62 38.18 39.32 39.21 39.20 38.68 39.09 38.94 Di seguito sono riportati alcuni risultati dell’analisi condotta con JMP: Difference (Temperatura corporea – temperatura encefalo) La temperatura corporea e la temperatura dell’encefalo risultano statisticamente differenti? [si assuma la normalità della variabile di interesse] Con un p-value di 0.0025, si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura corporea e quella cerebrale a favore dell’ipotesi H1: µdiff ≠ 0 Con un p-value di 0.9988, non si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura X corporea e quella cerebrale Con un p-value di 0.0012, si rifiuta l’ipotesi nulla di uguaglianza tra la temperatura corporea e quella cerebrale a favore dell’ipotesi H1: µdiff ≠ 0. X [ho considerato corretta anche la seconda alternativa perché incompleta, in quanto non è specificata l’ipotesi alternativa. Perché sia completa e corretta, l’ipotesi alternativa dovrebbe essere H1: µdiff > 0] 7 Esercizio 7 Stimare l’anno di nascita di un cadavere è un compito difficile. Recentemente è stato proposto un metodo basato sulla radioattività dello smalto dentario. La proporzione del radioisotopo carbonio-14 (14C) nell’atmosfera aumentò drasticamente nel periodo dei test nucleari tra il 1955 e il 1963. Dato che lo smalto dentario non si rigenera, la misurazione del contenuto di 14C di un dente indica quanto il dente si è sviluppato e quindi permette di stimare l’anno di nascita del soggetto a cui appartiene. Le previsioni su questo metodo sembrano piuttosto accurate (Spalding et al, 2005), come è mostrato nel diagramma seguente Questo diagramma contiene una linea singola e due coppie di linee. La linea singola a tratto continuo è la retta di regressione dei minimi quadrati, che predice l’anno di nascita reale a partire dall’anno stimato dalla radioattività dei denti. Una delle due coppie di linee rappresenta le bande di confidenza al 95% e l’altra l’intervallo di previsione al 95%. Quale coppia di linee rappresenta le bande di confidenza? X Tratteggio corto Tratteggio lungo Che cosa indicano queste bande di confidenza? La banda di confidenza al 95% indica l’area in cui, con una probabilità del 95%, si troverà la vera retta di regressione che descrive la relazione lineare nella popolazione da cui è stato estratto il campione. Quale coppia di linee rappresenta l’intervallo di predizione? Tratteggio corto X Tratteggio lungo Che cosa indica questo intervallo di predizione? L’intervallo di predizione al 95% indica l’intervallo di valori in cui, con una probabilità del 95%, andrà a cadere una nuova osservazione (in questo caso l’anno di nascita effettivo) sulla base del valore previsto dalla retta di regressione (quindi sulla base dell’anno di nascita stimato utilizzando la misurazione del contenuto di 14C di un dente). Ad esempio, se l’anno di nascita stimato per un individuo con il metodo del contenuto di 14C è 1980, mi aspetto con una probabilità del 95% che il vero anno di nascita sia compreso tra il 1975 e il 1985. 8