Test d`ipotesi
Transcript
Test d`ipotesi
Metodi Numerici per la Bioinformatica Test di ipotesi statistiche Libro di riferimento: Sorin Draghici “Data analysis tools for dna microarrays” Chapman & all. CRC, 2003 A.A. 2008/2009 Francesco Archetti Calendario Lezioni GIORNO ORARIO LUOGO TIPOLOGIA 12 GENNAIO 8:30 – 10.30 U3-06 FRONTALE 13 GENNAIO 8:30 – 10.30 U3-01 FRONTALE 16 GENNAIO 10:30 – 12.30 U3-10 FRONTALE 19 GENNAIO 8:30 – 10.30 U3-06 FRONTALE 19 GENNAIO 13:30– 17.30 LAB 2029 LABORATORIO 20 GENNAIO 8:30 – 10.30 U3-01 FRONTALE 23 GENNAIO 10:30 – 12.30 U3-10 FRONTALE 26 GENNAIO 8:30 – 10.30 U3-06 FRONTALE 26 GENNAIO 13:30– 17.30 LAB 2029 LABORATORIO 27 GENNAIO 8:30 – 10.30 U3-01 FRONTALE 30 GENNAIO 10:30 – 12.30 U3-10 FRONTALE 2 FEBBRAIO 8:30 – 10.30 U3-06 FRONTALE 2 FEBBRAIO 13:30– 17.30 LAB 2029 LABORATORIO 3 FEBBRAIO 8:30 – 10.30 U3-01 FRONTALE 6 FEBBRAIO 10:30 – 12.30 U3-10 FRONTALE Metodi numerici per la bioinformatica 2 Francesco Archetti Laboratori del corso • Lunedì 19 Gennaio dalle 13:30 alle 17:30 • Lunedì 26 Gennaio dalle 13:30 alle 17:30 • Lunedì 2 Febbraio dalle 13:30 alle 17:30 Laboratorio 2029 Metodi numerici per la bioinformatica 3 Francesco Archetti Introduzione Il livello di espressione di un gene è misurato diverse volte ottenendo una media X Sapendo che il valore medio in condizioni normali è µ X , vogliamo scegliere tra le seguenti ipotesi : 1.il gene è “up-regolato” cioè: X > µ X 2.il gene è “down-regolato” cioè: X < µ X 3.il gene è immutato rispetto alle condizioni normali cioè: X = µ X 4.l’esperimento è stato condotto “male”o non si ha conoscenza a priori sul valore relativo di X . Il valore medio delle misurazioni può essere superiore o inferiore rispetto a quello delle condizioni normali cioè: X ≠ µ X Il testing di ipotesi utilizza i dati ma si fonda sui nostri “beliefs” circa l’esperimento Metodi numerici per la bioinformatica 4 Francesco Archetti Introduzione La possibilità di commettere un “errore” non può essere eliminata. Consideriamo la distribuzione in figura che rappresenta la distribuzione N(0,1) della quantità: log mRNA, livello di espressione di un gene Un gene è “up-regolato ” se ha un La media Z=0 e coincide con il caso (3): X = µ X livello di espressione maggiore a quello normale. • GOAL: settare una soglia a destra, così se il gene è sopra la soglia possiamo dire che è “up-regolato” • Indipendentemente dal valore della soglia non possiamo mai eliminare la possibilità di fare errori. Obiettivo: riuscire a calcolare, per qualsiasi soglia, la probabilità esatta di fare un errore per qualsiasi soglia p - value = P( Z > x) = 1 − P( Z ≤ x) Metodi numerici per la bioinformatica 5 Distribuzione normale con media 0 Francesco Archetti e deviazione standard uguale a 1. • Il livello di espressione c di un gene è misurato in una data condizione. E’ noto dalla letteratura che in condizioni normali il gene è µ. Ci aspettiamo che il gene sia “up-regulato” e vogliamo capire se i dati supportano questa conclusione. • Il prossimo step è quello di generare 2 ipotesi che devono essere: – Mutually exclusive: due ipotesi non possono essere vere entrambi nello stesso tempo. – All inclusive: significa che la loro unione deve includere tutte le possibilità Metodi numerici per la bioinformatica 6 Francesco Archetti • viene chiamata l’ipotesi nulla: H0 • L’altra ipotesi sarà l’ipotesi alternativa o di ricerca : Ha. Questa deve riflettere le nostre aspettative: se crediamo che il gene deve essere “up-regolato”: – l’ipotesi di ricerca dovrà essere: Ha :c> µ – .L’ipotesi H0 dovrà essere mutualmente esclusiva e dovrà riflettere tutte le altre possibilità: H0 :c≤ µ • P- value è la probabilità of “drawing the wrong conclusion by rejecting a true null hypothesis”, dipende dal “significance level”, cioè il livello di incertezza che siamo disposti ad accettare . Metodi numerici per la bioinformatica 7 Francesco Archetti Workflow di testing di ipotesi Il workflow di testing di ipotesi si articola nei seguenti passi: 1. definire chiaramente il problema 2. formulare l’ipotesi nulla e l’ipotesi di ricerca 3. stabilire un “significante level” 4. calcolare un valore statistico appropriato in base ai dati e calcolarne il p-value 5. confrontare il p-value con il “significance level” e rifiutare (p-value minore) o non rifiutare(p-value maggiore) l’ipotesi nulla Metodi numerici per la bioinformatica 8 Francesco Archetti One tail testing – esempio 1Esempio: • Il livello di espressione di un gene misurato 4 volte, da un valor medio X =90. E’ noto dalla letteratura che il livello medio di espressione di quel gene, in condizioni normali è µ=100 con una deviazione standard σ=10. Ci attendiamo che il gene sia “down–regulated” nel caso in esame e vorremmo capire se i dati supportano questa conclusione. Metodi numerici per la bioinformatica 9 Francesco Archetti One tail testing – esempio 1Soluzione: • scegliamo: – Significance level: 5% – Ipotesi di ricerca : il gene è down-regulated o H a : X < µ – Ipotesi nulla: H 0 : X ≥ µ • Questo è un esempio di ipotesi “one-sided” o “one-tail” dove ci aspettiamo che i valori siano in una particolare “coda”della distribuzione. • X è distribuito approssimativamente come una distribuzione normale. • Calcoliamo Z: Z= X −µ σ n = 90 − 100 − 10 = ⋅ 2 = −2 10 10 4 • La probabilità di avere questo valore per caso, cioè il p-value è. p( Z < −2) = F (−2) = 0.02275 Metodi numerici per la bioinformatica 10 Francesco Archetti One tail testing – esempio 1• Il p-value = 0.02275 risulta minore del significance level (=0.05) e quindi possiamo rifiutare l’ipotesi nulla e accettare l’ipotesi di ricerca al 5% . • L’area colorata rappresenta la probabilità cumulata data dal “significance level” corrispondente al valore critico. Per qualsiasi valore in quest’area rifiuteremo l’ipotesi nulla! Dal momento che le ipotesi sono state fatte in modo da essere mutually exclusive e all inclusive, dobbiamo accettare la ipotesi di ricerca e quindi affermare che: “il gene è dovn-regulated al “significance level” del 5%. Spesso nei paper si trova riferimento solo al p-value associato a una conclusione senza riferimento al “significance level” • • 11 Francesco Archetti One tail testing – esempio 2 Esempio • Consideriamo lo stesso esempio con solo 2 misurazioni. Abbiamo ancora X =90, µ=100 e σ=10. Soluzione H0 : X ≥ µ • Otteniamo : Z= Ha : X < µ X −µ σ n • • • • = 90 − 100 − 10 = ⋅1.1414 = −1.1414 10 10 2 p-value: p( Z < −1.41) = F (−1.41) = 0.0792 Il p-value risulta maggiore di 0.05. Non siamo quindi in grado di rifiutare H0 La differenza può essere dovuta a fluttuazioni statistiche. Metodi numerici per la bioinformatica 12 Francesco Archetti One tail testing- osservazioni• I 2 casi precedenti illustrano un fenomeno statistico generale. Se il valore di una v.c. è differente dai suoi valori soliti, possiamo ritenere che la differenza sia dovuta a una causa quando: – la differenza è abbastanza grande – la differenza è piccola, ma si verifica in modo consistente in un numero elevato di misurazioni Metodi numerici per la bioinformatica 13 Francesco Archetti One tail testing- esempio 3 Esempio: • la mutazione BRCA1 è associata con over-expression di diversi geni, tra i quali HG2855A. Un campione di 4 misurazioni di questo gene in un tessuto proveniente da un paziente con la mutazione, da come media 109. Si sa dalla letteratura che il livello normale è 100 con deviazione standard 10. Soluzione: Ha : X > µ H0 : X ≤ µ X −µ • Otteniamo : Z = σ n = 109 − 100 9 = ⋅ 2 = 1. 8 10 10 4 • Significance level: 5% • P-value:p( Z > 1.8) = 1 − P( Z ≤ 1.8) = 1 − F (1.8) = 1 − 0.96409 = 0.0359 è < 0.05 • Possiamo rifiutare l’ipotesi nulla e accettare che il gene sia up regolato.14 Francesco Archetti Two tail testing • In molte situazioni non abbiamo un’idea se il livello di espressione del gene (normalmente 100) misurato in una situazione diversa dal controllo sia up/ down regulated. Esempio: • Consideriamo ancora il caso di 4 misurazioni con media 109 e σ=10 Soluzione: Ha : X ≠ µ H0 : X = µ • Lavoriamo al livello di confidenza 0.05 che in questo caso va suddiviso tra le 2 code ed otteniamo : Z= • • X −µ σ n = 109 − 100 9 = ⋅ 2 = 1. 8 10 10 4 P-value: p( Z > 1.8) = 1 − P( Z ≤ 1.8) = 1 − F (1.8) = 1 − 0.96409 = 0.0359 è > 0.025 Questo p-value è più elevato del livello di confidenza quindi H0 non può essere rifiutata. 15 Francesco Archetti Errori nel test di ipotesi • Assumiamo che H0 sia vera e Ha falsa. i. ii. – • • se accettiamo H0 (veri negativi, negativi perché vanno contro l’ipotesi di ricerca) la conclusione è corretta. se rifiutiamo H0, la conclusione è scorretta ( falsi positivi, positivi perché vanno a favore dell’ipotesi di ricerca) ii) comporta un errore del 1°tipo, la cui probabilità si indica con α, corrispondente al “significance level” prescelto. Assumiamo che H0 sia falsa e Ha vera i. se accettiamo H0 (falsi negativi) e quindi rifiutiamo Ha, la conclusione è scorretta. ii. se rifiutiamo H0 (veri positivi) e quindi accettiamo Ha, la conclusione è corretta. – i) comporta un errore del 2° tipo , cioè rifiutare l’ipotesi di ricerca quando è vera, la cui probabilità è indicata con β. 1-β è la potenza del test ed è la probabilità di assumere la decisione corretta Metodi numerici per la bioinformatica 16 Francesco Archetti Errori nel test di ipotesi Reported by the test H0 è vera H0 è falsa H0 non rifiutata Veri negativi (decisione corretta) 1-α Falsi negativi (errore del 2° tipo) β H0 rifiutata Falsi positivi (errore del primo tipo) α Veri positivi (decisione corretta) 1-β Metodi numerici per la bioinformatica 17 Francesco Archetti Errori nel test di ipotesi • • • • La potenza del test non è controllabile. α, il livello di significanza lo è. Se usiamo un valore di α molto basso riduciamo la potenza del test. Assumiamo che le nostre misurazioni provengono da 2 distribuzioni di misurazioni di due geni differenzialmente espressi: In questa distribuzione abbiamo α = 0.05. Per ogni gene a destra del valore critico relativo l’ipotesi nulla verrà rifiutata. Per la distribuzione 1, ogni punto in quest’ area corrisponde a un errore del 1° tipo. L’area della distribuzione 2 a sinistra del punto critico corrisponde a un errore del 2° tipo. Metodi numerici per la bioinformatica 18 Francesco Archetti Errori nel test di ipotesi Il grafico mostra come un α minore sposta a destra il punto critico aumentando il valore β. Diminuendo il “significance level”, cioè la probabilità di un errore del primo tipo, aumenta β, cioè la probabilità di un errore del secondo tipo, e diminuisce la potenza del test. Metodi numerici per la bioinformatica 19 Francesco Archetti