Test d`ipotesi

Transcript

Test d`ipotesi
Metodi Numerici per la Bioinformatica
Test di ipotesi statistiche
Libro di riferimento: Sorin Draghici “Data analysis tools for dna microarrays”
Chapman & all. CRC, 2003
A.A. 2008/2009
Francesco Archetti
Calendario Lezioni
GIORNO
ORARIO
LUOGO
TIPOLOGIA
12
GENNAIO
8:30 – 10.30
U3-06
FRONTALE
13
GENNAIO
8:30 – 10.30
U3-01
FRONTALE
16
GENNAIO
10:30 – 12.30
U3-10
FRONTALE
19
GENNAIO
8:30 – 10.30
U3-06
FRONTALE
19
GENNAIO
13:30– 17.30
LAB 2029
LABORATORIO
20
GENNAIO
8:30 – 10.30
U3-01
FRONTALE
23
GENNAIO
10:30 – 12.30
U3-10
FRONTALE
26
GENNAIO
8:30 – 10.30
U3-06
FRONTALE
26
GENNAIO
13:30– 17.30
LAB 2029
LABORATORIO
27
GENNAIO
8:30 – 10.30
U3-01
FRONTALE
30
GENNAIO
10:30 – 12.30
U3-10
FRONTALE
2
FEBBRAIO
8:30 – 10.30
U3-06
FRONTALE
2
FEBBRAIO
13:30– 17.30
LAB 2029
LABORATORIO
3
FEBBRAIO
8:30 – 10.30
U3-01
FRONTALE
6
FEBBRAIO
10:30 – 12.30
U3-10
FRONTALE
Metodi numerici per la
bioinformatica
2
Francesco Archetti
Laboratori del corso
• Lunedì 19 Gennaio dalle 13:30 alle 17:30
• Lunedì 26 Gennaio dalle 13:30 alle 17:30
• Lunedì 2 Febbraio dalle 13:30 alle 17:30
Laboratorio 2029
Metodi numerici per la
bioinformatica
3
Francesco Archetti
Introduzione
Il livello di espressione di un gene è misurato diverse volte ottenendo una media X
Sapendo che il valore medio in condizioni normali è µ X , vogliamo scegliere tra le
seguenti ipotesi :
1.il gene è “up-regolato” cioè: X > µ X
2.il gene è “down-regolato” cioè: X < µ X
3.il gene è immutato rispetto alle condizioni normali cioè: X = µ X
4.l’esperimento è stato condotto “male”o non si ha conoscenza a priori sul valore
relativo di X . Il valore medio delle misurazioni può essere superiore o inferiore
rispetto a quello delle condizioni normali cioè: X ≠ µ X
Il testing di ipotesi utilizza i dati ma si fonda sui nostri “beliefs” circa l’esperimento
Metodi numerici per la
bioinformatica
4
Francesco Archetti
Introduzione
La possibilità di commettere un “errore” non può essere eliminata.
Consideriamo la distribuzione in figura che rappresenta la distribuzione N(0,1) della
quantità: log mRNA, livello di espressione di un gene
Un gene è “up-regolato ” se ha un
La media Z=0 e coincide con il caso (3): X = µ X
livello di espressione maggiore a quello normale.
•
GOAL: settare una soglia a destra, così se il gene
è sopra la soglia possiamo dire che è “up-regolato”
•
Indipendentemente dal valore della soglia non
possiamo mai eliminare la possibilità di fare errori.
Obiettivo:
riuscire a calcolare, per qualsiasi soglia, la
probabilità esatta di fare un errore per
qualsiasi soglia
p - value = P( Z > x) = 1 − P( Z ≤ x)
Metodi numerici per la
bioinformatica
5
Distribuzione normale
con media 0
Francesco Archetti
e deviazione standard uguale a 1.
• Il livello di espressione c di un gene è misurato in una data condizione. E’
noto dalla letteratura che in condizioni normali il gene è µ. Ci aspettiamo
che il gene sia “up-regulato” e vogliamo capire se i dati supportano questa
conclusione.
• Il prossimo step è quello di generare 2 ipotesi che devono
essere:
– Mutually exclusive: due ipotesi non possono essere vere entrambi
nello stesso tempo.
– All inclusive: significa che la loro unione deve includere tutte le
possibilità
Metodi numerici per la
bioinformatica
6
Francesco Archetti
• viene chiamata l’ipotesi nulla: H0
• L’altra ipotesi sarà l’ipotesi alternativa o di ricerca : Ha. Questa
deve riflettere le nostre aspettative: se crediamo che il gene
deve essere “up-regolato”:
– l’ipotesi di ricerca dovrà essere: Ha :c> µ
– .L’ipotesi H0 dovrà essere mutualmente esclusiva e dovrà riflettere tutte
le altre possibilità: H0 :c≤ µ
• P- value è la probabilità of “drawing the wrong conclusion by
rejecting a true null hypothesis”, dipende dal “significance level”,
cioè il livello di incertezza che siamo disposti ad accettare .
Metodi numerici per la
bioinformatica
7
Francesco Archetti
Workflow di testing di ipotesi
Il workflow di testing di ipotesi si articola nei seguenti passi:
1. definire chiaramente il problema
2. formulare l’ipotesi nulla e l’ipotesi di ricerca
3. stabilire un “significante level”
4. calcolare un valore statistico appropriato in base ai dati
e calcolarne il p-value
5. confrontare il p-value con il “significance level” e
rifiutare (p-value minore) o non rifiutare(p-value
maggiore) l’ipotesi nulla
Metodi numerici per la
bioinformatica
8
Francesco Archetti
One tail testing – esempio 1Esempio:
• Il livello di espressione di un gene misurato 4 volte, da un valor
medio X =90. E’ noto dalla letteratura che il livello medio di
espressione di quel gene, in condizioni normali è µ=100 con
una deviazione standard σ=10.
Ci attendiamo che il gene sia “down–regulated” nel
caso in esame e vorremmo capire se i dati supportano
questa conclusione.
Metodi numerici per la
bioinformatica
9
Francesco Archetti
One tail testing – esempio 1Soluzione:
• scegliamo:
– Significance level: 5%
– Ipotesi di ricerca : il gene è down-regulated o H a : X < µ
– Ipotesi nulla: H 0 : X ≥ µ
• Questo è un esempio di ipotesi “one-sided” o “one-tail” dove ci aspettiamo
che i valori siano in una particolare “coda”della distribuzione.
• X è distribuito approssimativamente come una distribuzione normale.
• Calcoliamo Z:
Z=
X −µ
σ
n
=
90 − 100 − 10
=
⋅ 2 = −2
10
10
4
• La probabilità di avere questo valore per caso, cioè il p-value è.
p( Z < −2) = F (−2) = 0.02275
Metodi numerici per la
bioinformatica
10
Francesco Archetti
One tail testing – esempio 1•
Il p-value = 0.02275 risulta minore del significance level (=0.05) e quindi possiamo
rifiutare l’ipotesi nulla e accettare l’ipotesi di ricerca al 5% .
•
L’area colorata rappresenta la probabilità cumulata data dal “significance level”
corrispondente al valore critico. Per qualsiasi valore in quest’area rifiuteremo l’ipotesi
nulla!
Dal momento che le ipotesi sono state fatte in modo da essere mutually exclusive e all
inclusive, dobbiamo accettare la ipotesi di ricerca e quindi affermare che: “il gene è
dovn-regulated al “significance level” del 5%.
Spesso nei paper si trova riferimento solo al p-value associato a una conclusione senza
riferimento al “significance level”
•
•
11
Francesco Archetti
One tail testing – esempio 2 Esempio
• Consideriamo lo stesso esempio con solo 2 misurazioni. Abbiamo ancora
X =90, µ=100 e σ=10.
Soluzione
H0 : X ≥ µ
• Otteniamo :
Z=
Ha : X < µ
X −µ
σ
n
•
•
•
•
=
90 − 100 − 10
=
⋅1.1414 = −1.1414
10
10
2
p-value: p( Z < −1.41) = F (−1.41) = 0.0792
Il p-value risulta maggiore di 0.05.
Non siamo quindi in grado di rifiutare H0
La differenza può essere dovuta a
fluttuazioni statistiche.
Metodi numerici per la
bioinformatica
12
Francesco Archetti
One tail testing- osservazioni• I 2 casi precedenti illustrano un fenomeno statistico generale.
Se il valore di una v.c. è differente dai suoi valori soliti,
possiamo ritenere che la differenza sia dovuta a una causa
quando:
– la differenza è abbastanza grande
– la differenza è piccola, ma si verifica in modo consistente in un numero
elevato di misurazioni
Metodi numerici per la
bioinformatica
13
Francesco Archetti
One tail testing- esempio 3 Esempio:
• la mutazione BRCA1 è associata con over-expression di diversi geni, tra i quali
HG2855A. Un campione di 4 misurazioni di questo gene in un tessuto proveniente da
un paziente con la mutazione, da come media 109. Si sa dalla letteratura che il livello
normale è 100 con deviazione standard 10.
Soluzione:
Ha : X > µ
H0 : X ≤ µ
X −µ
• Otteniamo : Z = σ
n
=
109 − 100 9
= ⋅ 2 = 1. 8
10
10
4
• Significance level: 5%
• P-value:p( Z > 1.8) = 1 − P( Z ≤ 1.8) =
1 − F (1.8) = 1 − 0.96409 = 0.0359 è < 0.05
• Possiamo rifiutare l’ipotesi nulla e
accettare che il gene sia up regolato.14
Francesco Archetti
Two tail testing
•
In molte situazioni non abbiamo un’idea se il livello di espressione del gene
(normalmente 100) misurato in una situazione diversa dal controllo sia up/ down
regulated.
Esempio:
• Consideriamo ancora il caso di 4 misurazioni con media 109 e σ=10
Soluzione:
Ha : X ≠ µ H0 : X = µ
•
Lavoriamo al livello di confidenza 0.05 che in questo caso va suddiviso tra le 2
code ed otteniamo :
Z=
•
•
X −µ
σ
n
=
109 − 100 9
= ⋅ 2 = 1. 8
10
10
4
P-value: p( Z > 1.8) = 1 − P( Z ≤ 1.8) =
1 − F (1.8) = 1 − 0.96409 = 0.0359 è > 0.025
Questo p-value è più elevato del livello
di confidenza quindi H0 non può essere
rifiutata.
15
Francesco Archetti
Errori nel test di ipotesi
•
Assumiamo che H0 sia vera e Ha falsa.
i.
ii.
–
•
•
se accettiamo H0 (veri negativi, negativi perché vanno contro l’ipotesi di ricerca) la
conclusione è corretta.
se rifiutiamo H0, la conclusione è scorretta ( falsi positivi, positivi perché vanno a favore
dell’ipotesi di ricerca)
ii) comporta un errore del 1°tipo, la cui probabilità si indica con α,
corrispondente al “significance level” prescelto.
Assumiamo che H0 sia falsa e Ha vera
i.
se accettiamo H0 (falsi negativi) e quindi rifiutiamo Ha, la conclusione è scorretta.
ii.
se rifiutiamo H0 (veri positivi) e quindi accettiamo Ha, la conclusione è corretta.
–
i) comporta un errore del 2° tipo , cioè rifiutare l’ipotesi di ricerca quando è
vera, la cui probabilità è indicata con β.
1-β è la potenza del test ed è la probabilità di assumere la decisione
corretta
Metodi numerici per la
bioinformatica
16
Francesco Archetti
Errori nel test di ipotesi
Reported by the test
H0 è vera
H0 è falsa
H0 non rifiutata
Veri negativi
(decisione corretta)
1-α
Falsi negativi
(errore del 2° tipo)
β
H0 rifiutata
Falsi positivi
(errore del primo tipo)
α
Veri positivi
(decisione corretta)
1-β
Metodi numerici per la
bioinformatica
17
Francesco Archetti
Errori nel test di ipotesi
•
•
•
•
La potenza del test non è controllabile.
α, il livello di significanza lo è.
Se usiamo un valore di α molto basso riduciamo la potenza del test.
Assumiamo che le nostre misurazioni provengono da 2 distribuzioni di
misurazioni di due geni differenzialmente espressi:
In questa distribuzione abbiamo α = 0.05.
Per ogni gene a destra del valore critico relativo
l’ipotesi nulla verrà rifiutata.
Per la distribuzione 1, ogni punto in quest’ area
corrisponde a un errore del 1° tipo.
L’area della distribuzione 2 a sinistra del punto critico
corrisponde a un errore del 2° tipo.
Metodi numerici per la
bioinformatica
18
Francesco Archetti
Errori nel test di ipotesi
Il grafico mostra come un α minore sposta a
destra il punto critico aumentando il valore β.
Diminuendo il “significance level”, cioè la
probabilità di un errore del primo tipo, aumenta
β, cioè la probabilità di un errore del secondo
tipo, e diminuisce la potenza del test.
Metodi numerici per la
bioinformatica
19
Francesco Archetti