Proteine
Transcript
Proteine
MUTAZIONI • • Mutazioni: alterazioni dell'informazione codificata nel DNA Sostituzioni: cambiamento di una singola base ♦ Transizioni: cambiamenti Purina/Purina o Pirimidina/Pirimidina ♦ Transversioni: cambiamenti Purina/Pirimidina o viceversa • Inserzioni: aggiunte di nucleotidi • Delezioni: rimozioni di nucleotidi Mutazioni in sequenze codificanti • Sostituzioni ♦ sinonime: non modificano l'amminoacido ♦ di senso: cambiano un amminoacido in uno diverso ♦ non-senso: cambiano un amminoacido in un codone di stop • Inserzioni/Delezioni ♦ Con cornice di lettura mantenuta (multipli di tre) ♦ Frameshift Proteine: prodotto dell’evoluzione La struttura di una proteina dipende della sua sequenza di aa. La struttura determina la funzione molecolare della proteina. Ma …. se una sequenza proteica è conservata durante l’evoluzione ed è quindi presenti in organismi diversi (famiglia di proteine) è lecito assumere che, in tutti la funzione che svolge sia la stesa. OMOLOGIA (ANTENATO COMUNE) ORTOLOGIA Elementi omologhi derivanti da un Processo di speciazione PARALOGIA Elementi omologhi derivanti da un Processo di duplicazione genica Proteine: prodotto dell’evoluzione Se conosciamo la funzione di un membro della famiglia, possiamo predire la funzione di tutti i membri della stessa famiglia Passi per questo tipo di predizione di funzione: Identificazione delle proteine di una famiglia (evolute da un progenitore comune, allora sequenza di aa abbastanza simile.) Identificazione degli aa che svolgono un ruolo strutturale o funzionale analogo (allineamento). OMOLOGIA= indica che due entità (es. 2 sequenze) hanno una stessa origine filogenetica, cioè derivano da un antenato comune. È un carattere QUALITATIVO. SIMILITUDINE= indica che due entità (es. 2 sequenze), in relazione ad un certo criterio comparativo, hanno un certo grado di somiglianza. È un carattere QUANTITATIVO. SIMILARITA’: è un dato che prescinde da eventuali ipotesi sulla causa della similarità stessa. Ad esempio: l’ala di un uccello e l’ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe. La similarità osservata tra due sequenze PUO’ indicare che esse siano omologhe, cioè evolutivamente correlate • La similarità tra sequenze si osserva, l’omologia tra sequenze si può ipotizzare in base alla similarità osservata. • Percentuale di similarita’ ! Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono alla stessa famiglia) Domanda: Qual è la corrispondenza fra gli aa delle due sequenze che più probabilmente rispecchia l’evoluzione delle due proteine? Allora, dobbiamo trovare una procedura per comparare due o più sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarità tra le sequenze stesse ALLINEAMENTO DI SEQUENZE A COPPIE AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC ||||||||||||||||||| |||||||| ||| | |||||| ||||||||||||||||| AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC MULTIPLO KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKTKFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV---------------KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTsn Allineamento GLOBALE o LOCALE GLOBALE quando prova a cercare la corrispondenza ottimale tra tutti gli amminoacidi di entrambe le sequenze. LOCALE quando cerca di individuare regioni locali di similarità. È biologicamente rilevante perchè ad es. potrebbe permetterci di individuare domini correlati in proteine in cui le altre porzioni della seq. non hanno relazioni evolutive. Ricerca di omologhi in un una banca dati (molte proteine non correlate). Global alignment LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||. | | | .| .| || || | || TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Local alignment IPLWTDWDIEQES ||||||||.|||| IPLWTDWDLEQES Problema di allineare 2 sequenze … Ignorando inserzioni e delezioni, cerchiamo la corrispondenza fra le sequenze (allineamento) che minimizzi le differenze (o massimizzi la similarità) fra gli amminoacidi delle 2 proteine. Quindi, in prima approssimazione, l’allineamento che cerchiamo è quello che allinea il maggior numero di amminoacidi uguali. Rappresentazione DOT-PLOT Diagonali = individuano regioni di similarità nelle 2 proteine (tra sottosequenze) Qualunque allineamento delle 2 seq. Può essere rappresentato come una spezzata che parte dall’angolo in alto a sin. e raggiunge quello in basso a destra. m a r g a r e t d a y h q f f margaretqaklerdayhqff * * * * * * * Duplicazione * * * * * * * Inversione * * * * * * * * * * Similarità * * * margaretqakleydayhqff margaret --- ---dayhqff Le linee orizzontali e verticali corrispondono a inserzioni e a delezioni Nella sequenza orizzontale e verticale. Se ora mettiamo “1” al posto degli asterischi e “0” nelle caselle bianche l’allineamento che massimizza la similarità fra le 2 sequenze è quello che corrisponde alla linea che tocca più “1” (o equivalentemente alla linea per cui la somma dei valori delle caselle attraversate è massima). margaretqaklerdayhqff m 1 a 1 1 r 1 1 g 1 a 1 1 r 1 1 e 1 t 1 d a 1 1 y h q f f 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Ricapitolando: per ottenere un allineamento fra due proteine abbiamo bisogno di: Un metodo per attribuire i punteggi cioè una misura della similarità fra aa da sostituire ai valori 1 e 0 della nostra matrice semplificata (quindi un sistema di punteggio) Un valore di penalizzazione per inserzioni e delezioni (quindi un sistema di penalità) Un algoritmo di allineamento. Utilizzo delle matrici di similarità Nucleotidi: identità AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT *** *** ** ******* ** ******** *** Amminoacidi: identità + somiglianza VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL ***:*** *:**** ***: **: ******** * Come quantificare la somiglianza degli amminoacidi? Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisicochimiche sono più importanti per le proteine Matrici di similarità Sono delle tabelle che danno per ciascuna coppia di aa, un valore che indica il loro grado di similarità (informazione sulla probabilità che un aa si sostituisca ad un altro durante l’evoluzione). Si ottengono con metodi statistici assegnando a ciascuna coppia un valore che riflette la frequenza con cui l’uno si sostituisce all’altro in famiglie di proteine omologhe. I valori da utilizzare nelle matrici si ottengono dagli allineamenti (di proteine molto simili); Ma le matrici ci servono per generare l’allineamento!!!!! … dobbiamo allora ottenere manualmente degli allineamenti affidabili da cui ricaviamo le matrici che utilizziamo nei casi più difficili. La differenza fra i due tipi di matrici più usate sta proprio nel tipo di allineamento utilizzato per ricavarle: 1) Matrici PAM 2) Matrici BLOSUM Matrici PAM (Point Accepted Mutation) (Margaret Dayhoff 1978) Due sequenze sono definite ad 1PAM di distanza se per convertire l’una nell’altra, c’è stata in media 1 mutazione “accettata” ogni 100 aa. Accettata = non ha cambiato la funzione della proteina o comunque non è stata letale per l’organismo Per ottenere i valori da inserire nella matrice si utilizzano inizialmente sequenze molto simili: non ci deve essere ambiguità nell’allineamento. La matrice è stata calcolata su una banca dati di 1572 cambiamenti in 71 gruppi di proteine omologhe Utilizzando quindi tante coppie di sequenze ad 1 PAM di distanza, ci aspettiamo solo l’1% di differenze: a questo punto ricaviamo le frequenze di sostituzione attese di ciascuna coppia di aa. Abbiamo così costruito la matrice PAM1. Poiché la probabilità di due eventi indipendenti è il prodotto delle loro probabilità, possiamo moltiplicare per sé stessa la matrice PAM1 ed ottenere le frequenze di sostituzione attese per una distanza di 2 PAM; se moltiplichiamo per sé stessa 2 volte abbiamo i valori per 3 PAM ecc. All’aumentare della divergenza aumenta la prob. che una posizione subisca più mutazioni = 100 PAM non equivale al 100% di aa differenti. Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PAM1): PAM1 X PAM1 = PAM30 = 30 sostituzioni su 100 siti (~ 75% identità) PAM120 = 120 sostituzioni su 100 siti (~ 40% identità) PAM250 = 250 sostituzioni su 100 siti (~ 20% identità) PAM2 PAM % ID 0 1 30 80 110 200 250 100% 99% 75% 60% 50% 25% 20% se due sequenze sono filogeneticamente distanti è opportuno usare matrici PAM con indici più alti, e viceversa The PAM250 Matrix C S T P A G N D E Q H R K M I C S 12 0 2 T -2 1 3 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0 0 1 5 N -4 1 0 0 0 0 2 D -5 0 0 -1 0 1 2 4 E -5 0 0 -1 0 0 1 3 4 Q -5 -1 -1 0 0 -1 1 2 2 4 H -3 -1 -1 0 -1 -2 2 1 1 3 6 L V F Y W Log-odds PAM250 Frequenza osservata mutazione i<->j Log _____________________ Frequenza appaiamento casuale _________ Le matrici PAM attualmente usate sono simmetriche e nella forma log-odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso. Matrici BLOSUM (Henikoff e Henikoff 1992) Derivano, usando lo stesso metodo usato per quelle PAM, dalla banca dati BLOCKS contenente gli allineamenti delle regioni più conservate di famiglie di proteine. Per ogni tipo di matrice BLOSUM si eliminano tutte le sequenze che hanno una percentuale di identità superiore ad una soglia: Viene formato un blocco di allineamenti contenente sequenze con un numero di aminoacidi identici superiore ad una certa percentuale P. Tale blocco viene considerato come una singola sequenza che verrà utilizzata per ricavare la frequenza relativa di sostituzione degli aminoacidi che può essere utilizzata per calcolare una matrice di punteggi. La frequenza relativa di sostituzione degli aminoacidi viene calcolata considerando il blocco e tutte le altre sequenze con una percentuale di omologia inferiore alla soglia P. Tale matrice di allineamento permette di dare meno peso a sequenze fortemente conservate. BLOSUM62 = derivata da un allineamento in cui le sequenze che hanno più del 62% di amminoacidi identici vengono considerate come un sola sequenza. PAM vs BLOSUM • Le matrici PAM assumono un modello in cui le sostituzioni di a.a. osservate a grande distanza evolutiva derivino esclusivamente dalla somma di mutazioni indipendenti. Le matrici BLOSUM non fanno alcuna assunzione di omologia, basandosi sull’osservazione di allineamenti esatti reali. 1. Le matrici PAM tendono a premiare sostituzioni amminoacidiche derivanti da mutazioni di una singola base più che motivi strutturali degli aminoacidi, come fanno invece le BLOSUM. • Mentre nella serie PAM un valore più basso indica una matrice derivata da sequenze più simili , nella serie BLOSUM un valore più basso indica una matrice derivata da sequenze più distanti , ovvero con una percentuale minore di a.a. conservati. BLOSUM: BLOck SUbstitution Matrix Blocchi conservati Almeno 45% identici Blosum45 Almeno 62% identici Blosum62 Almeno 80% identici Blosum80 BLOSUM62 Matrix C S T P A G N D E Q H R K M I C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 6 D -3 0 -1 -1 -2 -1 1 6 E -4 0 -1 -1 -1 -2 0 2 5 Q -3 0 -1 -1 -1 -2 0 0 2 5 L V F Y W L’utilizzo della matrice di similarita’ appropriata per ciascuna analisi e’ cruciale per avere buoni risultati. Infatti relazioni importanti da un punto di vista biologico possono essere indicate da una significativita’ statistica anche molto debole. poco divergenti molto divergenti BLOSUM80 PAM1 BLOSUM62 PAM120 BLOSUM45 PAM250 I valori nelle matrici di sostituzione determinano il punteggio di un allineamento Score allineamento: 15 Seq1 Seq2 V D S - C Y V E S L C Y Score 4 2 4 -11 9 7 Blosum62 Punteggio totale=∑ somiglianze−∑ penalità gap Quando 2 sequenze sono allineate siamo interessati a : Regioni di similarità = presenza di aa essenziali per la funzione e/o per la struttura Regioni più divergenti = es. le regioni più esposte sono le più tolleranti ad inserzioni e delezioni. I valori di penalizzazione per l’inserimento di GAP (inserzioni/delezioni) negli allineamenti sono derivati empiricamente e dipendono dalla matrice usata Penalità per apertura e allungamento dei GAP In genere si considerano 2 valori di penalizzazione, uno detto di APERTURA e uno, in genere più basso, detto di CONTINUAZIONE di un inserzione. Questo perchè esistono poche posizioni in cui un’inserzione può essere tollerata (es. superficie, fuori da elementi di SS) Casi critici per la scelta delle penalità per i gap penalità apertura gap alta mRNA vs Gene: penalità allungamento ~ 0 mRNA Gene penalità apertura gap bassa mRNA vs Frammenti di sequenziamento: penalità allungamento alta …in genere nella scelta dei valori di penalizzazione: Provare con più valori simili a quelli suggeriti dai programmi utilizzati Regioni dell’allineamento che rimangono stabili al variare della penalizzazione sono più affidabili di regioni in cui l’allineamento cambia non appena cambiamo i valori. Ricapitolando: per ottenere un allineamento fra due proteine abbiamo bisogno di: Un metodo per attribuire i punteggi cioè una misura della similarità fra aa da sostituire ai valori 1 e 0 della nostra matrice semplificata (quindi un sistema di punteggio) Un valore di penalizzazione per inserzioni e delezioni (quindi un sistema di penalità) Un algoritmo di allineamento. L’algoritmo di allineamento Praticamente si tratta di un metodo che ci permette di trovare un percorso (ALLINEAMENTO) che massimizzi il punteggio che “RACCOGLIAMO” in ciascuna cella di una matrice (…DOTPLOT!) tenendo conto anche delle possibili inserzioni e delezioni. Scelta della matrice di sostituzione. Scelta delle penalità per i gap inseriti I più comuni sono. Algoritmo di Needleman e Wunsch (1970) per allineamenti globali e quello di Smith e Waterman (1981) che individua anche similarità locali Molto schematicamente il problema degli allineamenti viene risolto da programmi che sono in grado di identificare il "percorso" migliore all'interno di una dot matrix. Cioè il percorso che totalizza il massimo punteggio. Per percorso si intende l'insieme di caselle che corrispondono agli amminoacidi appaiati. Algoritmi di allineamento 1) consideriamo le due sequenze da allineare in una specie di dot matrix : nelle caselle scriviamo i punteggi in rosso derivati dalla matrice di sostituzione scelta se una sequenza è scritta da sinistra a destra e l’altra dall'alto in basso, allora qualsiasi percorso valido deve mantenere sempre una direzione tendenziale che va dall'angolo in alto a sinistra a quello in basso a destra calcolando le somme lungo le diagonali, effettueremmo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra: i valori scritti in nero indicano il punteggio massimo ottenibile fino a quella casella tenendo conto delle penalità legate all’inserimento di GAP (i-1,j-1) (i,j-1) + punteggio (i,j) (i-1,j) + penalizzazione + penalizzazione (i,j) Cercare la casella con il valore massimo e procedere a ritroso per ricavare i singoli appaiamenti. Questa strategia algoritmica di calcolare i valori man mano che si procede, e di utilizzarli poi per le fasi successive, viene chiamata PROGRAMMAZIONE DINAMICA. algoritmi di allineamento che utilizzano una tecnica di programmazione dinamica: Needleman e Wunsch (1970) Smith e Waterman (1981) Il numero di operazioni richieste è proporzionale al prodotto delle lunghezze delle due sequenze da allineare. (1 valore per ogni casella della matrice) il migliore allineamento globale per le sequenze in matrice risulta quindi il seguente: TFDERILGVQ-TYWAECLA || | | | . || QTFWECIKGDNATY il fatto di aver usato matrici di sostituzione contenenti esclusivamente valori positivi fa sì che il valore massimo della matrice si trovi sempre nell’ultima riga o nell’ultima colonna ne consegue che l’allineamento ottenuto è un allineamento globale la procedura descritta corrisponde quasi esattamente all’algoritmo per l’allineamento globale pubblicato da Needleman e Wunsch nel 1970 Con la programmazione dinamica si allineano seq. con un numero di operazioni dell’ordine di grandezza del prodotto delle lunghezze delle due sequenze. Per ogni casella della matrice sono considerate le 3 possibili origini del percorso:diagonale (senza penalità e -> all. 2 aa ), orizzontale e verticale (all. di un aa con un gap -> penalità per l’inserimento del gap). La soluzione più vantaggiosa è scelta e determina il punteggio della casella in esame. Tutte le possibilità di inserimento di gap sono considerate. I punteggi crescono con l’estendersi dell’allineamento. Quindi con questo metodo troviamo similarità globali, cioè estese a tutta la sequenza. Il punteggio massimo si deve trovare nell’ultima colonna o nell’ultima riga della matrice di allineamento. (ultima posizione di una delle 2 seq.) se le matrici contenessero invece sia valori positivi che negativi (come le pam), i valori più alti potrebbero trovarsi anche in porzioni INTERNE alla matrice e descrivere di conseguenza allineamenti locali Allineamento globale TFDERILGVQ-TYWAECLA || | | | . || QTFWECIKGDNATY Allineamento locale TFDERILGVQTYWAECLA ||.| ||. QTFW-ECIKGDNATY L’ algoritmo di Needleman e Wunsch è stato sviluppato per l’allineamento globale L’ algoritmo di Smith e Waterman è stato sviluppato per l’allineamento locale Ma ciò che realmente fa diventare un algoritmo di questo tipo locale o globale è il tipo di matrice di sostituzione che si usa: se contiene valori + allineamenti globali se contiene valori +/- allineamenti locali allineamento multiplo di sequenze I residui più importanti dal punto di vista strutturale o funzionale di una proteina saranno conservati durante l’evoluzione e questo si riflette nell’allineamento tra proteine omologhe. Il problema sorge quando: 5) 6) Due sequenze sono evolutivamente molto vicine -> difficile individuare gli aa importanti. Due sequenze sono evolutivamente molto lontane -> difficile ottenere un allineamento accurato. Il problema si risolve non limitandosi a considerare due sequenze omologhe ma il maggior numero possibile di proteine appartenenti alla stessa famiglia. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate: • tutte strettamente correlate => ridondanza • tutte lontanamente correlate => allineamento inaccurato la struttura a domini della proteina la posizione dei residui coinvolti nella funzione proteica Fornisce informazioni su: i residui sepolti nel core della proteina o esposti al solvente ricerca di omologhi di proteine note CLUSTAL W: il tool più comune utilizzato per l’allineamento multiplo di sequenza: potenziato per allineamenti di sequenze proteiche divergenti favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce l’apertura di gaps nelle stesse posizioni Parametri importanti per la ricerca di omologhi di proteine note: Sensibilità = riconoscere tutte le correlazioni anche molto lontane Selettività = minimizzare il numero di sequenze trovate che non siano dei veri omologhi Algoritmi per allineamenti multipli Non si possono utilizzare quelli visti per gli allineamenti di coppie -> lentezza Si ottengono prima tutti i possibili allineamenti di coppia e si registra il punteggio di ciascuno. Poi con questi punteggi si costruisce un albero filogenetico in modo da visualizzare le relazioni evolutive. Si selezionano quindi le sequenze più simili tra loro formando quindi cluster di sequenze allineate (costituiti da 2 o più sequenze il cui allineamento sia stato precedentemente fissato) Poi si continua aggiungendo le altre sequenze al cluster precedentemente ottenuto e così via. Profilo di un multiallineamento Un profilo esprime tutta l’informazione contenuta in un allineamento multiplo: in generale, osservando gli amminoacidi rappresentati, si attribuisce un punteggio a ciascun amminoacido per ogni colonna dell’allineamento (con le matrici di sostituzione) osservandone la conservazione. Analogamente, osservando la frequenze dei gap, si attribuisce una penalità per il loro inserimento. Utilizzati in PSI-BLAST Alberi filogenetici Phylogenetic tree figure showing the evolution of the immune system. (Image by Dr. Nadia Danilova.) Alberi filogenetici Modo di visualizzare relazioni evoluzionistiche Ogni nodo esterno (foglie in un albero vero), è una specie Nodi Interni: speciazioni La distanza fra due nodi è proporzionale al tempo di divergenza In sequenze proteiche, nodo -> proteina La distanza fra due nodi esterni è inversamente proporzionale alla similarità fra due sequenze Alberi filogenetici % aa diversi Seq1 Seq2 Seq3 Seq4 Seq1 Seq2 Seq3 Seq4 0 5 11 14 0 9 10 0 7 0 2.5 1 2 % aa diversi Cluster 1,2 Seq3 Seq4 Cluster 1, 2 0 ½[d(1,3)+d(2,3)]=10 ½[d(1,4)+d(2,4)]=12 0 7 Seq3 Seq4 0 3.5 2.5 1 2 3 4 % aa diversi Cluster 3,4 Cluster 1, 2 =½d[(Cluster 1,2), 3]+d[(Cluster1,2),4)]=11 5.5 3.5 2.5 1 2 3 4 Proteine: prodotto dell’evoluzione Se conosciamo la funzione di un membro della famiglia, possiamo predire la funzione di tutti i membri della stessa famiglia Passi per questo tipo di predizione di funzione: Identificazione delle proteine di una famiglia (evolute da un progenitore comune, allora sequenza di aa abbastanza simile.) Identificazione degli aa che svolgono un ruolo strutturale o funzionale analogo (allineamento). • • • A collection of data, … • which are structured; • which are indexed; • which are periodically updated; • which has references to other databases; • … >sp|P56478|IL7_RAT MFHVSFRYIFGIPPLILVLLPVTSS D CHIKDKDGKAFGSVLMISINQLDKM T GTDSDCPNNEPNFFKKHLCDDTKEA A FLNRAARKLRQFLKMNISEEFNDHL L RVSDGTQTLVNCTSKEEKTIKEQKK N DPCFLKRLLREIKTCWNKILKGSI SEQUENCES Biological databases are tightly associated to tools … • to retrieve entry of the database; • to update the database; • … The main six database categories : • sequences • proteins (UniProtKB); • nucleic acids (EMBL). FUNCTION • mapping • genes; • chromosomes; • … • 3D structures (PDB) • gene/protein expression • function (KEGG) • literature (PubMed), ontologies (GO), … 3D ONTOLOGIES LITERATURE LS125-4 R14523 CYC223 EXPRESSION MAPPING • Nucleic Acids Research Database Issue, on January, each year : • in 2006, a collection of 858 databases ; • classified in 14 categories : • Nucleotide Sequence Databases • RNA sequence databases • Protein sequence databases • Structure Databases • Genomics Databases (non-vertebrate) • Metabolic and Signaling Pathways • Human and other Vertebrate Genomes • Human Genes and Diseases • Microarray Data and other Gene Expression Databases • Proteomics Resources • Other Molecular Biology Databases • Organelle Databases • Plant Databases • Immunological Databases • Most exotic name : Hollywood, a database of alternatively spliced mRNAs • Most cited (in 2 years) : • Pfam (protein families), GO (gene ontology), UniProt (proteins), SMART(protein domains), • KEGG (pathways) • Never cited (in 2 years) : • EyeSite (protein families in the eye), • STCDB (hierarchical classification of eukaryotic signaling proteins) Come si effettua una ricerca in una banca dati? si possono effettuare ricerche utilizzando parole-chiave (es.: emoglobina) e ricavando i nomi dei files che le contengono oppure si possono utilizzare sequenze in input per ricavare liste di sequenze simili ad esse Proteine: prodotto dell’evoluzione Quanto devono essere simili due proteine per essere definite omologhe? Dobbiamo ricercare utilizzando la sequenza di DNA oppure dei prodotti genici: proteine? Il problema da risolvere per ricercare similarità tra una proteina e la sequenza di una banca dati è quello di trovare un modo efficiente per distinguere tra similarità casuali e similarità che abbiano una base funzionale In fenomeni semplici, e possibile calcolare la distribuzione attesa dei risultati Se il punteggio dell’allineamento non è più alto di quello che ci si aspetterebbe di una permutazione casuale delle sequenze, allora l’allineamento potrebbe essere casuale. Allora, potremo prendere una della sequenze, randomizzarla molte volte, e allinearla alla seconda sequenza. Per le ricerche nei database utilizzate, come popolazione misura per i calcoli statistici, la popolazione dei risultati restituiti dall’intero database. Fasta KRTIDPQ BD KITRQDP PDQKRIT DPQTKRI DPQTKRI Score S’ Distribuzione del Valore Estremo P(>x) = 1 – exp(-Ke-λx) Dove K e λ sono parametri correlati alla posizione del valore massimo e all’ampiezza della distribuzione. Distribuzione del Valore Estremo Z-score= (Valore – Media)/deviazione standard La probabilità di trovare un allineamento con score maggiore ad un certo valore S è: P(S ≥ x) = 1 – exp(-Kmne -λS), dove λ e K sono due parametri che dipendono della distribuzione degli amino acidi e dalla scoring matrix (vedere Altschul and Gish, 1996, per una collezione di valori di λ e K per le matrici più usate). Extreme Value Distribution Il valore di E(S) (expected value o valore atteso) è invece il numero atteso di sequenze che hanno per caso il punteggio S: E= Kmne(-λS) S viene normalizzato: S’=(λS-lnK)/ln2 S’: bit score, e allora E=mn2-S’ Blast KRTIDPQ BD Score S’ PSI (Position Specific Iterated) BLAST Idea: Usare I risultati di una ricerca con BLAST per costruire una matrice di profili (profile matrix) Ricerca in banca dati usando I profili invece della sequenza. Iterativo Matrice di Profili (Position Specific Scoring Matrix – PSSM) PSI BLAST • Ricerca usando profili • Allineamento di una matrice di profili con una sequenza semplice. – É come allineare due sequenze – Lo score di allineare un carattere con una posizione nella matrice è dato dalla matrice – Non esiste una matrice di sostituzione PSI BLAST: Elementi del profilo • Il valore per un elemento della matrice è: • Dove Pr(ai|col=j) è la probabilità di vedere un aa ai nella colonna j • Pr(ai) è la frequenza di aa ai nell’allineamento. PSI-BLAST • • • • Si cercano le ‘low-complexity regions’ nelle sequenze ‘Query’ Il programma fa una ricerca di Blast Il programma costruisce un allineamento multiplo usando gli allineamenti locali più significativi e genera una matrice di profili (PSSM) dal allineamento. Fa un’ulteriore ricerca, questa volta usando I PSSM per trovare altre sequenze omologhe. L’iterazione continua fino ad arrivare a convergenza. Utilità dei profili: Molto efficaci per la ricerca di sequenze omologhe molto divergenti Aiutano l’identificazione del sito attivo con l’osservazione dei residui conservati I pattern conservati facilitano l’identificazione di altre sequenze omologhe I pattern sono anche utili per classificare le sottofamiglie Residui poco conservati e con inserzioni/delezioni si trovano probabilmente in loops di superfici Il loro utilizzo migliora i metodi di predizione di struttura secondaria Nel 1988, i gruppi responsabili di questi 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases, e hanno deciso di utilizzare un formato comune per i records (non proprio identico, ma almeno deve avere sempre certe caratteristiche) e di scambiarsi quasi ogni giorno le sequenze. La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo (questo evita molti problemi). Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Questo implica però ulteriori problemi perché si possono formare più facilmente doppioni. Problema della ridondanza. EMBL: composizione e struttura La banca dati e’ divisa in sezioni che riflettono la divisione tassonomica: INVERTEBRATES ORGANELLES BACTERIOPHAGE PROKARYOTES UNCLASSIFIED VIRUSES OTHER VERTEBRATES OTHER MAMMALS PLANTS • • • • • • Questi 3 db (EMBL, GenBank, DDBJ) contengono essenzialmente le stesse informazioni in 2-3 giorni (poche differenze nel formato e nella sintassi) Si tratta di archivi contenenti tutte le sequenze (geni singoli, ESTs, genomi completi, etc.) derivati da: – Progetti genomici – Centri di sequenziamento – Laboratori di ricerca – Uffici brevetti (es. European Patent Office, EPO) Aggiornamento giornaliero Attualmente circa: 18 x106 sequenze, più 20 x109 bp; Negli ultimi 12 mesi il database si è triplicato Sequenze derivanti da > 50000 specie differenti; • L’aumento delle sequenze nucleotidiche depositate EMBL …il primo grosso incremento si è avuto dopo l’avvento della PCR… human GSS EST High throughput genomes (HTG) mouse 1980: 80 geni completamente sequenziati ! human mouse rat human EST: Expressed Sequence Tag Expressed Sequence Tags: sono sequenze corte di cDNA (300-1000 bp) derivanti dalla retrotrascrizione di mRNA. Rappresentano in qualche modo cosa è espresso in un dato tessuto o ad un determinato stadio di sviluppo. http://www.ncbi.nlm.nih.gov/dbEST/ LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENT CX016035 296 bp mRNA linear EST 06-DEC-2004 qt06h09.g1 Whole Heart Library (DOGEST5) Canis familiaris cDNA, mRNA sequence. CX016035 CX016035.1 GI:56398446 EST. Canis familiaris (dog) Canis familiaris Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Carnivora; Fissipedia; Canidae; Canis. 1 (bases 1 to 296) Balija,V.S., Nascimento,L.U. and McCombie,W.R. ESTs from Canis familiaris whole heart (dog) Unpublished (2004) Contact: W. Richard McCombie Lita Annenberg Hazen Genome Sequencing Center Cold Spring Harbor Laboratory PO Box 100, Cold Spring Harbor, NY 11724, USA Tel: 516 367 8884 Fax: 516 367 8874 Email: [email protected]. FEATURES source Location/Qualifiers 1..296 /organism="Canis familiaris" /mol_type="mRNA" /db_xref="taxon:9615" /sex="Unknown" /dev_stage="3 month old normal canine" /lab_host="XL10 Gold" /clone_lib="Whole Heart Library (DOGEST5)" /note="Organ: Heart; Vector: pBluescript II SK; Site_1: EcoRI; Site_2: XhoI; Library constructed using pBluescript XR kit from Stratagene. Cloned cDNA was size selected between 1-3 kb. Mark Haskins VMD, PhD, Pathology and Medical Genetics, School of Veterinary Medicine, University of Pennsylvania, 3800 Spruce Street, Philadelphia, PA 19104-6051" ORIGIN 1 61 121 181 241 // ctccaccgcg acgaggaggg ttatgttcca gacctctttt gccgggcctt gtggcggccg tcttttatta gatccacgtc tcattacaga ggtttatggc ctctagaact aaaccaggtg gcctccctcg tggacactgg ttggatttgg agtggatccc agtcactcca ggctgggggg ggggcagtga gatcagaggg ccgggctgca ttcgctgaga tggctggccc tggatcagag gagggtgaag ggaattcggc aaaggcacac actctgtcca cgttcttatg gtgtgg Caratteristiche peculiari di GenBank • • • • • Importante eterogeneità nella lunghezza delle sequenze: genomi, varianti, frammenti… Lunghezza delle sequenze: – max 300’000 bp /entry – min 10 bp /entry Archivio: altamente ridondante! Presenza di errori: nelle sequenze, annotazioni, nell’attribuzione delle CDS…. Annotazioni; molte annotazioni sono fatte da chi invia la sequenza; eterogenità della qualità, della completezza e dell’aggiornamento delle informazioni. LOCUS DEFINITION MUSNGH 1803 bp mRNA ROD 29-AUG-1997 Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15 cell TA20 mRNA, complete cds. ACCESSION D25291 NID g1850791 KEYWORDS neurite extension activity; growth arrest; TA20. SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line:NG108-15 cDNA to mRNA. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae. REFERENCE 1 (sites) AUTHORS Tohda,C., Nagai,S., Tohda,M. and Nomura,Y. TITLE A novel factor, TA20, involved in neuronal differentiation: cDNA cloning and expression JOURNAL Neurosci. Res. 23 (1), 21-27 (1995) MEDLINE 96064354 REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda,C. TITLE Direct Submission JOURNAL Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan (E-mail:[email protected], Tel:+81-764-34-2281(ex.2841), Fax:+81-764-34-5057) COMMENT On Feb 26, 1997 this sequence version replaced gi:793764. FEATURES Location/Qualifiers source 1..1803 /organism="Murinae gen. sp." /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon:39108" /cell_line="NG108-15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156..163 /note="AP-2 binding site" GC_signal 647..655 /note="Sp1 binding site" TATA_signal 694..701 gene 748..1311 /gene="TA20" CDS 748..1311 /gene="TA20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="PID:d1005516" /db_xref="PID:g793765" /translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" polyA_site 1803 BASE COUNT 507 a 458 c 311 g 527 t ORIGIN 1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca 301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc 361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc 421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa 481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag 541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag 601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat 661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattcattga 721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg 781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat 841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg 901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg 961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact 1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt 1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct 1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc 1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct 1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt 1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata 1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat 1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt tcctatttgc atacgccatt 1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatc tatcctaatt 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat // Titolo • Tassonomia • Citazione • Header Features (AA seq) Sequenza DNA Formato FASTA >gi|121066|sp|P03069|GCN4_YEAST GENERAL CONTROL PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R Righe dell’entry Identificatore ID (LOCUS in GENBANK) è sempre la prima linea di un entry. La struttura è: ID entryname dataclass; molecule; division; sequencelength BP. ID HS7SLP standard; mRNA; Costituito da caratteri alfanumerici e inniziano sempre con una lettera. Prime due lettere – genere e specie – Altri caratteri: associati alla funzione. Es. MMIG01 (Mus Musculus immunoglobulin genes) PRI; 377 BP XXX per unannoted entry. Se la molecola è circolare sarà identificata con ‘circular DNA’ La linea AC (ACcession Number), individua il codice di accesso della sequenza. AC Y00321; J05348; Lo scopo dell’AC è quello di definire un modo stabile di identificare le entries da una release all’altra. Mentre il nome dell’entry (ID, LOCUS) può cambiare da una release all’altra, l’AC resta invariato. • • • • • Non ha significato biologico Originariamente una lettera maiuscola seguita da 5 numeri: U00002 Ora 2 lettere maiuscole seguite da 6 numeri: BC037153 La versione dell’entry è data dal numero che segue il punto nella riga identificata da VERSION: es. BC037153.1 (ACCESSION.VERSION) È un modo stabile di identificare le entry ed ora viene usato sia per il DNA che per le proteine. Nucleotide gi: Geninfo identifier (gi), un identificatore unico che cambia tutte le volte che cambia la sequenza. Protein gi: analogo al precedente. protein_id: è un identificatore che ha la stessa funzione e struttura dell’identificatore VERSION per la parte nucleotidica. (accession.version) LOCUS (ID), Accession, gi and PID LOCUS DEFINITION ACCESSION VERSION HSU40282 1789 bp mRNA PRI 21-MAY-1998 Homo sapiens integrin-linked kinase (ILK) mRNA, complete cds. U40282 U40282.1 GI:3150001 LOCUS: ACCESSION: VERSION: GI: Protein gi: protein_id: CDS HSU40282 U40282 U40282.1 3150001 3150002 AAC16892.1 157..1515 /gene="ILK" /note="protein serine/threonine kinase" /codon_start=1 /product="integrin-linked kinase" /protein_id="AAC16892.1“ /db_xref="GI:3150002" La linea DT (DaTe) indica quando un entry appare per la prima volta nella banca dati e quando e’ stata l’ultima variazione. DT 07-NOV-1985 (Rel.07, Created) DT 20-FEB-1990 (Rel.23, Lastupdated, Version 1) Il valore assoluto relativo alla ‘Version’ viene incrementato ogni qualvolta la sequenza ha subito una variazione. Permette di seguire il numero delle variazioni che la sequenza ha subito nel tempo. Linea DE (DEscription)contiene una descrizione generale circa la sequenza. Questa può contenere il tipo di gene per la quale la sequenza codifica, la regione del genoma dalla quale deriva o altre informazioni utili a identificare la sequenza. DE Human mRNA for for 7SL RNA pseudogene La linea KW (KeyWord)fornisce informazioni sulla funzionalità della sequenza. Spesso sono necessarie più linee per una singola entry. Le KW sono ordinate in ordine alfabetico. KW small nuclear RNA; pseudogene. Tutte queste linee individuano riferimenti bibliografici (RN,RC,RP,RX,RA,RT,RL) RN [1] RP 1-377 RX MEDLINE; 85126939. RA Ullu E., Weiner A.M.; RT "Human genes and pseudogenes for the 7SL RNA RT component of signal recognition particle"; RL EMBO J. 3:3303-3310(1984). La linea DR (Database Cross-reference) riporta il link ad altri database che contengono informazioni in relazione con l’entry. La struttura della linea: DR database_identifier; primary_identifier; secondary_identifier DR SWISS-PROT; P03593; V90K_AMV. La linea FT (Feature Table) fornisce la definizione per le annotazioni dei dati delle sequenze. In queste tabelle sono riportate tutte le regioni o i siti di interesse biologico. La struttura delle FT è stata definita univocamente tra i 3 gestori delle banche dati GenBank, EMBL, e DDBJ. Esempio di entry di EMBL ID HSERPG standard; DNA; HUM; 3398 BP. XX AC X02158; XX SV X02158.1 XX DT 13-JUN-1985 (Rel. 06, Created) DT 22-JUN-1993 (Rel. 36, Last updated, Version 2) XX DE Human gene for erythropoietin XX KW erythropoietin; glycoprotein hormone; hormone; signal peptide. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP 1-3398 RX MEDLINE; 85137899. RA Jacobs K., Shoemaker C., Rudersdorf R., Neill S.D., Kaufman R.J., RA Mufson A., Seehra J., Jones S.S., Hewick R., Fritsch E.F., Kawakita M., RA Shimizu T., Miyake T.; RT Isolation and characterization of genomic and cDNA clones of human Esempio di entry di EMBL (continuo..) CC Data kindly reviewed (24-FEB-1986) by K. Jacobs FH Key Location/Qualifiers source 1..3398 FH FT FT /db_xref=taxon:9606 FT /organism=Homo sapiens FT mRNA join(397..627,1194..1339,1596..1682,2294..2473,2608..3327) FT CDS join(615..627,1194..1339,1596..1682,2294..2473,2608..2763) FT /db_xref=SWISS-PROT:P01588 FT /product=erythropoietin FT /protein_id=CAA26095.1 FT /translation=MGVHECPAWLWLLLSLLSLPLGLPVLGAPPRLICDSRVLQRYLLE FT AKEAENITTGCAEHCSLNENITVPDTKVNFYAWKRMEVGQQAVEVWQGLALLSEAVLRG FT QALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAASAAPLRTITAD FT TFRKLFRVYSNFLRGKLKLYTGEACRTGDR FT mat_peptide FT join(1262..1339,1596..1682,2294..2473,2608..2763) /product=erythropoietin FT sig_peptide join(615..627,1194..1261) FT exon 397..627 FT FT /number=1 intron FT FT FT 628..1193 /number=4 intron 2474..2607 /number=4 La stessa entry di GenBank LOCUS HSERPG 3398 bp DNA PRI 22-JUN-1993 DEFINITION Human gene for erythropoietin. ACCESSION X02158 VERSION X02158.1 KEYWORDS erythropoietin; glycoprotein hormone; hormone; signal peptide. SOURCE human. ORGANISM GI:31224 Homo sapiens Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE AUTHORS 1 (bases 1 to 3398) Jacobs,K., Shoemaker,C., Rudersdorf,R., Neill,S.D., Kaufman,R.J., Mufson,A., Seehra,J., Jones,S.S., Hewick,R., Fritsch,E.F., Kawakita,M., Shimizu,T. and Miyake,T. TITLE Isolation and characterization of genomic and cDNA clones of human erythropoietin JOURNAL Nature 313 (6005), 806-810 (1985) MEDLINE 85137899 COMMENT Data kindly reviewed (24-FEB-1986) by K. Jacobs. FEATURES source Location/Qualifiers 1..3398 /organism="Homo sapiens" /db_xref="taxon:9606" mRNA join(397..627,1194..1339,1596..1682,2294..2473,2608..3327) exon 397..627 /number=1 sig_peptide join(615..627,1194..1261) CDS join(615..627,1194..1339,1596..1682,2294..2473,2608..2763) entry di GenBank (continuo..) TADTFRKLFRVYSNFLRGKLKLYTGEACRTGDR" intron 628..1193 /number=1 exon 1194..1339 /number=2 mat_peptide join(1262..1339,1596..1682,2294..2473,2608..2760) /product="erythropoietin" intron 1340..1595 /number=2 exon 1596..1682 /number=3 intron 1683..2293 /number=3 exon 2294..2473 /number=4 intron 2474..2607 /number=4 exon 2608..3327 /note="3' untranslated region" /number=5 BASE COUNT 698 a 1034 c 991 g 675 t ORIGIN 1 agcttctggg cttccagacc cagctacttt gcggaactca gcaacccagg catctctgag 61 tctccgccca agaccgggat gccccccagg aggtgtccgg gagcccagcc tttcccagat Database di sequenze proteiche • • • • • SWISS-PROT: creata nel 1986 (A.Bairoch) http://www.expasy.org/sprot/ TrEMBL: creata nel 1996; complementare a SWISS-PROT; derivata dalle CDS dell’EMBL (versione ‘proteomica’ dell’EMBL) PIR-PSD: Protein Information Resources http://pir.georgetown.edu/ Genpept: versione proteomica di GenBank Molti database specializzati per specifiche famiglie o gruppi di proteine: AMSDb (peptidi antibiotici), IMGT (sistema immunitario) YPD (lievito) etc. SWISS-PROT Database di sequenze proteiche annotate, “scarsamente” ridondante e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC. TrEMBLnew, generato ogni settimana. SWISS-PROT Nasce dalla collaborazione tra il SIB (CH) e l’EMBL/EBI (UK) Completamente annotato (manualmente), nonridondante, cross-referenced. ~113000 sequenze da più di 6800 specie differenti; 70 000 referenze (pubblicazioni); 550000 cross-references (databases); ~200 Mb di annotazioni. Release settimanale; disponibile da circa 50 servers con ExPASy quale fonte principale. TrEMBL (Translation of EMBL) Data l’impossibilità di competere con la quantità di dati che vengono immessi ex-novo mantenedo la qualità di SWISSPROT -> TrEMBL, viene creato nel 1996. TrEMBL viene generato automaticamente dalle CDS di EMBL ed è annotato utilizzando software (non manualmente). Contiene tutto ciò che non è in SWISS-PROT. SWISS-PROT + TrEMBL = tutte le sequenze proteiche conosciute. Ben strutturato in maniera simile a SWISS-PROT. La storia semplificata di una entry di SWISS PROT Alcuni dati non vengono inviati ai database pubblici !! (eliminati o cancellati…) cDNAs, genomi, … EMBLnew EMBL CDS TrEMBLnew TrEMBL SWISS-PROT « in automatico » • verifica della ridondanza (fusione) • attribuzione della famiglia (InterPro) • Annotazione (computer) « Manuale » • Ridondanza (fusione, conflitti) • Annotazione (manuale) • SWISS-PROT documentazione • Medline • Databases (MIM, MGD….) Una volta che l’entry è in SWISS-PROT, l’entry non è più in TrEMBL, ma ancora in EMBL CDS: vengono inviate all’ EMBL dagli autori o dai progetti genomici (derivano da dati sperimentali o da programmi di predizione di geni). TrEMBL non traduce sequenze di DNA nè utilizza programmi di predizione di geni: semplicemente prende CDS che sono proposte dagli autori nelle entry dell’EMBL What is UniProt? UniProt è un nuovo database di sequenze proteiche nato dalla fusione di SWISS-PROT e PIR ed essenzialmente creato all’NIH. Forse è il principale database di sequenze proteiche per annotazione e cura della qualità dei dati. I dati derivano dalle sequenze codificanti degli acidi nucleici di EMBL (GenBank/DDBJ) ma anche da sequenze presenti in PIR e SP. • http://www.pir.uniprot.org/ UniProt UniProt incorpora: Funzione della proteina Modifiche post-traduzionali Domini e siti. Struttura secondaria. Struttura quaternaria. Similarità con altre proteine; Malattie associate con l’assenza della proteina Conflitti in sequenza, varianti ecc SWISS-PROT / TrEMBL: minima ridondanza • • Uno dei maggiori prolemi: RIDONDANZA. Parecchie entry sono parzialmente o completamente duplicate: 20% delle sequenze dei vertebrati in GenBank. • entry duplicate possono essere differenti in sequenza.... Variazioni nelle duplicazioni Spesso è impossibile stabilire se la differenza tra due duplicati è dovuta : Polimorfismo Errori nella fase di sequenziamento. Una reale duplicazione genica. Cosa facciamo quando le annotazioni sono differenti o anche contraddittorie? Nel caso di sequenze proteiche... Controllo delle traduzioni del gene (CDS) all’ EMBL/GenBank/DDBJ. Consultare bibliografia e brevetti!!! Incrociare le informazioni tra diversi databases ‘attendibili’: localizzazione sul cromosoma e nome del gene. In ogni caso …. SWISS-PROT and TrEMBL introducono un minimo di ridondanza. • Questo perchè solo le sequenze identiche al 100 % vengono automaticamente fuse; Metodi per la determinazione della funzione di sequenze di proteine non caratterizzate. Banca dati di siti e motivi biologicamente significativi. Strumenti informatici che possono identificare la famiglia di appartenenza della nuova sequenza. In casi in cui la sequenza di una proteina sconosciuta, è troppo ‘lontana’ ad una proteina di struttura nota, può essere identificata a traverso la presenza di ‘cluster’ di aa: motivi, siti, fingerprints, ecc. "There are many short sequences that are often (but not always) diagnostics of certain binding properties or active sites. These can be set into a small subcollection and searched against your sequence” (R.F. Doolittle). “The motifs, or templates, or fingerprints, arise because of particular requirements of binding sites that impose very tight constraint on the evolution of portions of a protein sequence”. (A. Lesk) The RCSB protein data bank 1vlc Esercizio: analisi esaustiva della proteina con cod. PDB: 1VLC CATH - Protein Structure Classification [ http://www.biochem.ucl.ac.uk/bsm/cath_new/ ] • UCL, Janet Thornton & Christine Orengo • Class (C), Architecture(A), Topology(T), Homologous superfamily (H) SCOP - Structural Classification of Proteins • MRC Cambridge (UK), Alexey Murzin, Brenner S. E., Hubbard T., Chothia C. • created by manual inspection • comprehensive description of the structural and evolutionary relationships [ http://scop.mrc-lmb.cam.ac.uk/scop/ ] • Class(C) derived from secondary structure content is assigned automatically • Architecture(A) describes the gross orientation of secondary structures, independent of connectivity. • Topology(T) clusters structures according to their topological connections and numbers of secondary structures • Homologous superfamily (H) Esercizio: utilizzare SSM e FPS nell’ambito delle “Online resources” di SCOP Protein Structure Resources PDBhttp://www.pdb.org PDB – Protein Data Bank of experimentally solved structures (RCSB) CATH http://www.biochem.ucl.ac.uk/bsm/cath Hierarchical classification of protein domain structures SCOP http://scop.mrc-lmb.cam.ac.uk/scop Alexey Murzin’s Structural Classification of proteins DALI http://www2.ebi.ac.uk/dali Lisa Holm and Chris Sander’s protein structure comparison server GENE ONTOLOGY The Gene Ontologies Una ‘lingua’ comune per la annotazione dei geni di Lievito e topo …e Piante e Vermi …e Umani …ecc, ecc! Gene Ontology - Sistema per l’annotazione dei geni - Un vocabolario controllato (‘Controlled vocabulary’) che può essere applicato su tutti gli organismi. - Usato per la descrizione dei prodotti genici What’s in a name? • What is a cell? Cell Cell Cell Cell Image from http://microscopy.fsu.edu What’s in a name? Lo stesso nome può essere utilizzato per la descrizione di concetti diversi. Cos’è un nome? • • • • • Glucose synthesis Glucose biosynthesis Glucose formation Glucose anabolism Gluconeogenesis • Tutti si riferiscono al processo di ‘creare’ la glucosa da componenti più semplici. The 3 Gene Ontologies Funzione molecolare Processo Biologico Localizzazione Cellulare iHOP - Information Hyperlinked over Proteins • Network of concurring genes and proteins • extends through the scientific literature touching on: → phenotypes, → pathologies and → gene function • iHOP provides this network as a natural way of accessing millions of PubMed abstracts • By using genes and proteins as hyperlinks between sentences • The information in PubMed can be converted into one navigable resource • Bringing all advantages of the internet to scientific literature research. BIND