Â Lezione3_GenomicaComputazionale_2011

Transcript

Genomics Session
Lezione 3
Predizione di geni
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
Zhang, Nature 2002
Lezione 3
Identificazione dei geni
•
Metodi Diretti
– Mediante ricerca di match perfetti o quasi perfetti con EST,
cDNA o sequenze proteiche dello stesso organismo
(allineamento cis)
–
–
•
Metodi Indiretti
– Mediante ricerca di somiglianze con un gene noto (allineamento
trans);
– Mediante ricerca di strutture simili a un gene ideale (ab initio o
de novo)
Metodi Ibridi
1. Mediante l' unione di tecniche per omologia, ab initio e metodi
diretti
Lezione 3
Librerie di cDNA
Brent, Nature Reviews Genetics 2008
Lezione 3
Librerie di EST
Cell or tissue
Isolate mRNA and
reverse transcribe into cDNA
Analyze
Clone cDNA into a vector
to make a cDNA library
5' EST
3' EST
cDNA
vector
Lezione 3
Pick individual
clones
Sequence the
5' and 3' ends
of cDNA inserts
Librerie di EST
Librerie di ESTs
Lezione 3
Librerie di EST
Limiti delle librerie di EST:
•
Contaminazioni
•
Bassa qualità – errori di sequenza sono frequenti
•
Altamente ridondanti – geni altamente espressi saranno rappresentati molto
più di geni espressi poco
•
Possono non coprire tutta la sequenza del trascritto e limitarsi alle estremità
•
Non tengono conto di varianti di splicing
•
Geni che si sovrappongono possono risultare indistinguibili
Lezione 3
RNA-seq
- Tecniche di NGS
possono essere applicate
al sequenziamento del
trascrittoma. Si parla in
questo caso di RNA-seq;
- La mappatura di reads
esoniche è semplice, più
problematiche sono le
reads che scavallano la
giunzione fra due esoni (le
junction reads);
- Il numero di reads che
cadono in un locus, diviso
per la lunghezza del locus
e per il numero totale di
reads ottenute nella corsa,
danno una stima della sua
espressione.
[Wang et al. 2009]
Lezione 3
Allineamento trans
Limiti dell'allineamento cis:
Dati disponibili solo per alcuni organismi
Allineamento trans:
Usare sequenze geniche note di altri organismi;
Problema: ricerca efficiente di match non perfetti fra un gene (cDNA,
mRNA, proteina) di un organismo e un intero genoma evolutivamente
vicino;
Diversi approcci:
BLAT (variante di BLAST)
Exonerate
GeneWise (usato per generare Ensembl)
Lezione 3
Zhang, Nature 2002
Lezione 3
Lezione 3
Lezione 3
atg
tga
Lezione 3
atg
caggtg
ggtgag
tga
Lezione 3
atg
caggtg
ggtgag
cagatg
ggtgag
cagttg
ggtgag
caggcc
ggtgag
tga
Lezione 3
Metodi ab initio
Si basano su:
Identificazione di segnali che permettono l'identificazione di un gene
e della sua struttura (splicing, inizio e fine traduzione, etc.)
Modelli statistici che incorporano questi segnali
I segnali sono calcolati su un dataset di riferimento, cioè geni
possibilmente dello stesso organismo già noti
Possono includere considerazioni evolutive (nell'ipotesi che
sequenze genomiche corrispondenti a geni siano piu' conservate,
e/o mostrino patterns di conservazione caratteristici).
Lezione 3
Modelli di un gene
Giunzioni di splicing
Donor site
5’
3’
Position
%
-8 … -2 -1
A
C
G
T
26
26
25
23
Lezione 3
…
…
…
…
0
1
2
… 17
60 9 0 1 54 … 21
15 5 0 1 2 … 27
12 78 99 0 41 … 27
13 8 1 98 3 … 25
Matrici pesate (PSSM)
[Wasserman, Nature Rev. 2004]
Lezione 3
Lezione 3
Analizzando una sequenza con una PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (somma dei punteggi per ogni posizione)
Punteggio relativo
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Max_score = 15.2 (somma dei punteggi maggiori
di ogni colonna)
A
C
G
T
[-0.2284
-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
Min_score = -11.0 (somma dei punteggi minori
di ogni colonna)
Abs_score - Min_score
⋅ 100 %
Max_score - Min_score
13.4 - (-11.0)
=
⋅ 100% = 93%
15.2 − (− 11.0)
Rel_score =
Lezione 3
Logo della sequenza
●
●
●
●
●
L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento
multiplo; l'altezza della pila di lettere è una basata su una misura della
conservazione basata sull'entropia;
Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] }
Conservazione(i) = 2- Entropia(i)
Si esprime in bits di informazione
Posizione molto conservata -> bassa entropia -> pila alta
Posizione poco conservata -> alta entropia -> pila bassa
Lezione 3
Modelli di un gene
Tratto di poli-pirimidine
Lezione 3
Modelli di un gene
(codone di stop)
(codone di inizio)
A T G
(sito donatore di splicing)
G T
Lezione 3
T G A
T A A
T A G
(sito accettore di splicing)
A G
Modelli di un gene
I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale:
codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti
donatori di splicing (solitamente GT), e siti accettori di splicing (AG)
exon
ATG . . . GT
start codon
Lezione 3
intron
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
Modelli di un gene
complete mRNA
coding segment
ATG
exon
ATG . . . GT
start codon
intron
TGA
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
site
In realtà, il primo esone si estende anche a monte del codone di inizio, e
l'ultimo esone si estende a valle del codone di stop. Queste regioni non
tradotte (untranslated regions, UTRs) sono spesso ignorate dagli algoritmi
per identificazione di geni.
Lezione 3
Modelli di un gene
Si definiscono 4 tipi di esoni:
Esoni iniziali, dal sito di inizio della trascrizione al primo sito donatore;
Esoni interni, da un sito accettore al sito donatore successivo;
Esoni terminali, dall'ultimo sito accettore al sito di poliadenilazione;
Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni).
Lezione 3
Modelli di un gene
Lezione 3
Modelli di un gene
Il problema dell'identificazione di geni in una sequenza genomica
può essere ricondotto all'identificazione di intervalli nella sequenza
genomica, delimitando gli esoni putativi e le altre regioni della
struttura del gene:
exon
ATG . . . GT
start codon
intron
exon
AG
donor site acceptor
site
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Lezione 3
...
intron
GT
exon
AG . . . TGA
site
gene
finder
(6,39), (107-250), (1089-1167), ...
Modelli di un gene
La sintassi dei geni eucariotici può essere rappresentata da una serie di
segnali (ATG = codone di inizio; TAG = uno dei tre codoni di stop; GT = sito
donatore di splicing; AG= sito accettore). Si possono definire delle regole
sintattiche:
Ad esempio, una regione che inizia con un codone di inizio ATG può finire
con o uno stop TAG, o con un donatore GT, definendo rispettivamente un
codone singolo o uno iniziale.
Lezione 3
Modelli di un gene
Dopo aver identificato i segnali a punteggio più alto nella
sequenza input, si possono connetter questi segnali usando le
regole sintattiche ottenendo un ORF graph:
L' ORF graph rappresenta tutti i possibili percorsi, e vi associa un
punteggio. Ogni percorso corrisponde ad un putativo gene.
Lezione 2
3
Modelli di un gene
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Identificare e valutare i segnali, e se possibile
le regioni fra di loro; indurre un ORF graph sul
set dei segnali
Trovare il percorso con punteggio massimo
attraverso l'ORF graph; questo può essere
convertito nella struttura di un gene
Lezione 3
Codon bias
Mutazioni sinonime — che non alterano il tipo di aminoacido codificato – non
hanno effetto sulla sequenza della proteina risultante, quindi non dovrebbero
avere effetto sulle funzioni della cellula, sulla fitness dell'individuo o
sull'evoluzione della popolazione.
Tuttavia, nella maggior parte dei genomi i codoni sinonimi non sono utilizzato
con la stessa frequenza. Questo fenomeno è noto come codon usage bias
Lezione 3
Codon bias
The Human Codon Usage Table
Lezione 3
Codon bias
Utlizzo dei codoni:
- non tutti i codoni sono usati
con la stessa frequenza;
- specie differenti possono
usare preferenzialmente un
diverso set di codoni;
- geni differenti della stessa
specie possono preferire
codoni diversi per lo stesso
aminoacido;
- la forza del codon usage bias
varia da specie a specie e
all'interno dello stesso
genoma.
[Plotkin & Kudla, Nat. Rev. Genet. 2010]
Lezione 3
Misure del codon bias
Il relative synonymous codon usage (RSCU) è la frequenza del codone in
un gene diviso per il numero di occorerenze attese se tutti i codoni fossero
utilizzati con la stessa frequenza.
RSCU i =
fi
1
N
N
∑fj
1
N = numero di codoni sinonimi (1 ≤ N ≤ 6) per un dato aminoacido, fi =
frequenza del codone i.
Lezione 3
Misure del codon bias
Il Codon adaptation index (CAI) misura quanto i geni usano codoni preferiti.
Si può compilare una tabella dei valori RSCU per geni altamente espressi.
Da questa tabella si identificano I codoni preferiti per ogni aminoacido.Il
relative adaptiveness of a codon (wi) è definito come
RSCU i
wi =
RSCU max
dove RSCUmax = valore di RSCU del codone più frequente per un dato
aminoacido.
Il CAI è calcolato come la media geometrica dei valori di wi per tutti I codoni
di un dato gene:
CAI ( gene ) =
L
L
∏
i= 1
Lezione 3
wi
Come mai si osserva un codon-usage bias?
- Correlazioni fra livelli di
espressione genica e codon
biassono state spesso osservate
(in E. coli, S. cerevisiae, C.
elegans, Arabidopsis thaliana, D.
melanogaster);
[Ikemura Mol. Biol. Evol. 1985]
Lezione 3
Codoni preferiti sono spesso associati a tRNA più abbondanti
- Ogni codone è riconosciuto da
almeno un tRNA, caricato con il
corrispondente aminoacido;
- Un tRNA è spesso codificato da
più di un gene;
- C'è buona correlazione fra la
preferenza di un dato codone e il
numero di geni codificanti per I
supoi tRNA;
- Più di recente, si è visto che
l'espressione di molecole di un
dato tRNA è ben correlata con il
numero di geni che lo codificano,
e quindi con la preferenza per il
codone da esso riconosciuto;
Lezione 3
Il codon usage bias può aumentare la velocità di traduzione
Geni che utilizzano codoni
riconosciuti da tRNA più
abbondanti possono essere
tradotti a maggiore efficienza.
Quindi la selezione naturale
può favorire l'utilizzo di
particolari codoni sinonimi.
Questa selezione sarà
maggiore per geni espressi
ad alti livelli.
Lezione 3
Altri segnali
Contenuto in G+C
Lezione 3
Altri segnali
Mediana delle lunghezze di introni ed esoni in funzione del contenuto in G+C
Lezione 3
Catene di Markov
Una catena di Markov è un modello per la generazione stocastica di fenomeni
sequenziali.
L'ordine della catena di Markov equivale al numero di posizioni precedenti dalle
quali la posizione corrente dipende. Ad esempio, in sequenze di acidi nucleici, una
catena di ordine-0 considera le frequenze dei nucleotidi, una catena di 1-ordine
considera le frequenze di coppie di nucleotidi, etc.
I parametri del modello sono le frequenze dei vari elementi ad ogni posizione
(possibilmente funzione degli elementi precedenti).
s = ttacggt
s = s1s2 s3s4 ⋯
0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 2
3
N
∏ p( s )
i= 1
i
2010/2011
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 3
N
∏ p( s )
i= 1
i
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
Lezione 3
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
• 2nd-order
N
P2 ( s ) = p( s1s2 ) ⋅ p( s3 | s1s2 ) ⋅ p( s4 | s2 s3 ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
i= 3 N
P2 ( s ) = p( tt ) ⋅ p( a | tt ) ⋅ p( c | ta ) ⋅ p( g | ac ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
i= 3
Lezione 3
Catene di Markov
GCGCTAGCGCCGATCATCTACTCG
Lezione 3
}
}
}
primo ordine
secondo ordine
quinto ordine
Hidden Markov Models
Lezione 3
Ingredienti del modello:
Insieme degli stati
{S1, S2, …,SN}
Probabilità di transizione fra stati (matrice di
transizioni)
Aij = P(qt+1 = Si | qt = Sj)
Distribuzione degli stati iniziali
π = P(q
i
Lezione 3
1
= Si)
Insieme degli stati
{Ssole, Spioggia, Sneve}
Probabilità di transizione fra stati (matrice di
transizioni)
.08 .15 .05
A=
.38 .6
.02
.75 .05 .2
Distribuzione degli stati iniziali
π = (.7
i
Lezione 3
.25 .05)
P(Ssole) x P(Spioggia | Ssole) x P(Spioggia | Spioggia) x P(Spioggia | Spioggia) x
P(Sneve | Spiggia) x P(Sneve | Sneve) = 0.7 x 0.15 x 0.6 x 0.6 x 0.02 x
0.2 = 0.0001512
Lezione 3
Lezione 3
Stati: {S1, S2,…,SN}
Matrice delle transizioni Aij = P(qt+1 = Si | qt = Sj)
Stati iniziali
π = P(q
i
1
= Si)
Osservazioni: {O1, O2,…,OM}
Probabilità delle osservazioni: Bj(k) = P(vt = Ok | qt = Sj)
Lezione 3
P(O) = P(Oguanti, Oguanti, Oombrello,…, Oombrello)
= Σ P(O | Q)P(Q) = Σ P(O | q1,…,q7)
= 0.7 x 0.86 x 0.32 x 0.14 x 0.6 + …
Lezione 3
0
0
0
 0
 0.5 0.998 0.002 0

Φ = 
 0.5 0.001 0.996 0


 0 0.001 0.002 0
 0.28
 0.22
H = 
 0.25

 0.25
Un HMM è completamente definito da:
●
Matrice delle transizioni fra stati (Φ)
● Matrice delle emissioni (H)
● Vettore di stato (x)
0.32
0.18 

0.18 

0.32
xm(i) = probabilità di essere nello stato m al momento i;
H(m,yi) = probabilità di emettere un carattere yi nello stato m;
Φmk = probabilità della transizione dallo stato k allo stato m.
Lezione 3
•
•
•
•
•
•
•
Lezione 3
Algoritmo forward: Dati i parametri del modello, qual' è la
probabilità di una particolare sequenza osservata?
(dynamic programming)
Algoritmo di Viterbi: Dati i parametri del modello, qual' è
la sequenza di stati che più verosimilmente ha condotto alla
sequenza di osservazioni?
Baum-Welch: dato un insieme di osservazioni, e le
corrispondenti sequenze di stati, quali sono i parametri del
modello?
Un HMM può essere costruito come un generatore di regioni genomiche:
Osservazioni: sequenza dei nucleotidi;
Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di
una giunzione di splicing, se è nel mezzo della sequenza di un
introne, se è nella prima posizione di un codone, etc.);
Data una sequenza nucleotidica genomica (un cromosoma, un contig), si
può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di
stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti
nella sequenza.
Lezione 3
[Brent, 2008]
Lezione 3
Sequenza dell'introne
Donatore
Lezione 3
Accettore
[Brent, 2008]
Generalized Hidden Markov Models (GHMM)
Un GHMM (detto anche explicit state duration HMM) è una variante degli
HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi
segmenti:
Osservazioni: sequenza di vari segmenti;
Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una
giunzione di splicing, se è la regione centrale di un introne);
Ogni stato è definito da un modello che definisce la probabilità di ogni
osservazione.
Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più
probabile segmentazione che l'ha prodotta -> identificare la struttura di
eventuali geni presenti nella sequenza.
Lezione 3
Esempi di modello di stato (segmento):
Siti di poliadenilazione:
PSSM di sei posizioni compilata su un dataset di training
Accettore di splicing:
Catena di Markov del 1-ordine
Sequenza nel mezzo di un introne:
Catena di Markov del 5-ordine
(la probabilità di un segmento è il prodotto delle probabilità di ogni
suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità
dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con
cui i pentapetidi TGCAT terminano in A nel dataset di training)
Lezione 3
Fase 0
Fase 1
Fase 2
Lezione 3
CTA GGT AAT CGTCGT .... AAA CTC AGT
CTA GGT AAT CGT CG ........... A CTC AGT
CTA GGT AAT CGT C ........... AA CTC AGT
Zhang, Nature 2002
Duration d
T A A T A T G T C C A C G G G T A T T G AG C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A
Exon1
Lezione 3
Exon2
Exon3
Genscan (Burge, 1997)
Disegnato per predirre la struttura completa di un gene:
Introni, esoni, promotori, siti di poliadenilazione;
Include:
Descrizioni di segnali di inizio e fine della trascrizione, e splicing;
Distribuzione delle lugnhezze delle varie sottoregioni;
Frequenze di composizione di esoni, introni, regioni intergeniche,
regioni C+G;
Può predirre
Geni interi o frammenti;
Geni multipli separati da regioni intergeniche;
Geni su entrambi i filamenti della sequenza;
Basato su un modello generale probabilistico della struttura e
composizione di un gene (Explicit State Duration HMMs).
Lezione 3
N – regione intergenica
P - promotore
F - 5’ UTR
T – 3'UTR
Esngl - esone singolo (codone di inizio ->
codone di stop)
Einit - esone iniziale (codone di inizio -> sito
donatore di splicing)
Ek - esone interno con fase k (sito accettore
di splicing -> sito donatore)
Eterm - esone terminale (sito accettore ->
codone di stop)
Ik - introne con fase k: 0 – fra due codoni; 1
– dopo la prima base di un codone; 2 – dopo
la seconda base di un codone
Zhang, Nature 2002
Lezione 3
 0.06 


0
.
04



Π = 0.60 


 0.12 
 ⋮ 


1
0
0
 0

0
1
0
 0
A =  0.28 0.33 0 0.39

 0.28 0.41 0.31 0
 ⋮
⋮
⋮
⋮

⋯

⋯
⋯

⋯
⋱ 
Sequenza di stati assunti dal sistema:
q = {q1, q2, q3 ,.., qn}
Sequenza di durate della permanenza in ogni stato:
d = {d1, d2, d3 ,.., dn}
A C G C G A C T A G G C G C A G G T .. T A T G A T
Exoninit
Intron0
Exon0
Intron0
Exonterm
3’UTR
P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn}
stato iniziale
probabilità di transizione
segmento di sequenza
durata dello stato iniziale
Lezione 3
Probabilità di una sequenza S usando un particolare percorso:
P(Фi,S) = πq1(d1)Pq1{s1|q ,d } * Aq1,q2(d2)Pq2{s2|q ,d } * ..… * Aqn-1,qn(dn)Pqn{sn|q ,d }
1
1
2
2
n
n
Probabilità di un percorso data una sequenza S?
P(Φ i, S)
P(Φ i , S)
P(Φ i | S) =
=
P(S)
Σ Φ j ∈ Φ LP(Φ j , S)
Lezione 3
Teorema di Bayes
Twinscan (Korf, 2001)
Twinscan – Dual genome Gene Predictor
Basato su Genscan, cui aggiunge un modello di conservazione evolutiva
Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è
utilizzato per identificare regioni di similarità locale.
Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match
(|).
Ad esempio:
Uomo:
Topo:
Allineamento:
ACGGCGA-GUGCACGU
ACUGUGACGUGCACUU
||:|:||.||||||:|
Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| }
Sequenze di questi simboli sono modellati come catene di Markov del quinto
ordine.
Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di
conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la
probabilità di osservare la data sequenza di simboli.
Lezione 3
?
Brent, Nature Biotechnology 2007
Lezione 3
?
Lezione 3
Lezione 3
Lezione 3
N-scan (Gross, 2006)
NSCAN - Multiple Species Gene Predictor
•
GENSCAN
Target
Target
•
GGTGAGGTGACCAAGAACGTGTTGACAGTA
|||:||:||:|||||:||||||||......
|||:||:||:|||||:||||||||......
Emette una sequenza e la sua
conservazione
GGTCAGC___CCAAGAACGTGTAG......
GGTCAGC___CCAAGAACGTGTAG......
GATCAGC___CCAAGAACGTGTAG......
GATCAGC___CCAAGAACGTGTAG......
GGTGAGCTGACCAAGATCGTGTTGACACAA
GGTGAGCTGACCAAGATCGTGTTGACACAA
Emette colonne di un
allineamento multiplo
N-SCAN
Target
Target
Informant1
Informant1
Informant2
Informant2
Informant3
Informant3
Lezione 3
Emette una sequenza
TWINSCAN
Target
Target
Conservation
Conservation
sequence
sequence
•
Contast (Gross, 2007)
Basato sui Conditional Random Fields (CRF);
I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di
input (mentre gli HMM sono generativi);
E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli
archi descrivono un rapporto di dipendenza fra variabili;
L'input è un allinamento multiplo fra la sequenza target e una serie di
genomi (informants);
Può includere anche dati di espressione (ad es. ESTs);
Lezione 3
Contast (Gross, 2007)
Lezione 3

Â Lezione3_GenomicaComputazionale_2011

Transcript

Documenti analoghi

Lezione magistrale di Lucrezia Reichlin “Nowcasting. La previsione

Lezione 7 Splicing alternativo

Lezione 8 Banche dati genomiche

I nuovi farmaci: dalle sostanze di origine vegetale - Ulisse

LAUREA MAGISTRALE "AURELIO PECCEI" DALL`ECODESIGN AL

Curriculum Vitae Massimo Bucchi

Bando - Studi umanistici Unimi - Home

Laurea Magistrale Aurelio Peccei

bando servizio civile nazionale - Ingv

Markov Chains and Markov Chain Monte Carlo (MCMC)

Trasferimento Genico: Finalita` Terapeutiche in Ematologia

programma - Collegio Ghislieri