Ricerche con Ricerche con BLAST (Laboratorio)
Transcript
Ricerche con Ricerche con BLAST (Laboratorio)
Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI Nucleotide BLAST (blastn) http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome Reset page Sequenza Databases Organismo Optimizzazione: Modifiche all’algoritmo per ricercare sequenze nucleotidiche Esercizio 1: “Jurassic” blastn Michael Crichton scrisse su “dinosauri e clonazione”. Nel libro “Jurassic Park” (poi film “Lost World”), ha usato una sequenza di incompleta di DNA di dinosauro, completata da alcuni esperti presso NCBI. È possibile recuperare tale sequenza dal sito di NCBI: ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt Usare BLASTN sul database “Nucleotide collection (nr/nt)” per identificare le fonti per il completamento della sequenza utilizzata. Resettare la pagina prima di impostare i parametri. Incollare la sequenza nella finestra di BLASTN, selezionando “Somewhat similar sequences (blastn)” nella sezione Program Selection. Indicare i due principali organismi che sono stati usati per creare la sequenza di dinosauro? Cliccare su “Taxonomy reports” per un quadro più completo (in particolare: cliccare su “Organism report”) Esercizio 1: “Jurassic” Blastn Esercizio 2: Ricerca di sequenza sconosciuta con blastn Vi viene sottoposta una sequenza dal significato sconosciuto: http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83 unknown_dna.fasta Vogliamo sapere se corrisponde a geni noti: Resettare la pagina! Utilizzare il database “refseq_rna” Optimizzare per “Somewhat similar sequences (blastn)” Scegliere l’opzione “Show results in a new window”. Con quale organismo è correlata la sequenza? Quanti esoni dovrebbero esserci nella nostra sequenza? Con riferimento alla prima sequenza con codice refseq verificato (sono quelli che cominciano con NM, i codici XM sono predetti), quali sono le posizioni (i range) a cui corrisponde l’allineamento? Esercizio 2: Ricerca di sequenza sconosciuta con Blastn Esoni Drosophila Primo allineamento con sequenza verificata NCBI Protein BLAST (blastp) http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&BLAST_SPEC=&LINK_LOC=blasttab&LAST_PAGE=blastn# Reset page Sequenza Databases Organismo Esclussione Modelli Algoritmi: Diversi algoritmi per ricercare sequenze proteiche Esercizio 3: Sequenza corta con blastp Utilizzando Blastp di NCBI eseguire una ricerca della la seguente sequenza di 12 aminoacidi: PNLHGLFGRKTG Resettare l’interfaccia Mettere la sequenza in formato FASTA. Dopo che eseguite la ricerca i parametri saranno automaticamente adattati per sequenze corte. Attivare l’opzione “Show results in a new window” per poter confrontare con i parametri di default. Osservare la sezione “search summary”: Qual è il valore di cut-off dell’e-value (Expect threshold)? Come è cambiata la “word size”? Qual è la matrice di punteggio? Cambia la penalità per i gap ? Perché sono variati i parametri rispetto al default? Esercizio 4: “Compositional adjustment” di blastp Ricercare con BLASTP la sequenza “human insulin” (NP_000198.1). Realizzare la ricerca sul database refseq_protein e sull’organismo “Caenorhabditis elegans”, utilizzando la matrice BLOSUM 45 e con queste 5 opzioni del Compositional adjustments (rettifiche di composizione): 1. 2. 3. 4. 5. 6. Conditional compositional score matrix adjustment (Default settings) Aggiungere il filtro “low complexity regions” No adjustment (con “Filter” low complexity regions) No adjustment (senza “Filter” low complexity regions) Composition-based statistics Universal compositional score matrix adjustment Cercare di spiegare il motivo delle differenze osservabili nei risultati (numero di risultati o hit, scores, copertura, ecc.) NCBI Protein BLAST (PSI-BLAST) http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome Proteinprotein PSI-BLAST PHI-BLAST DELTA-BLAST Esercizio 5: BlastP e PSI-BLAST Ci sono globine nei funghi? Eseguire una ricerca con BlastP utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri: Nel database nr Limitando l’output a sequenze di “fungi (taxid: 4751)” Qual è la gamma di lunghezze approssimativa delle proteine fungine che hanno domini globinici? Eseguire nuovamente la ricerca con gli stessi parametri e la stessa sequenza, ma questo volta modificare l’algoritmo a PSI-BLAST e confrontare i due risultati. Ci sono differenze ? Perche ci sono o non ci sono differenze ? Esercizio 5: BlastP e PSI-BLAST PSI-BLAST BlastP Esercizio 6: BlastP e PSI-BLAST Ripetere l’esercizio precedente con PSI-BLAST, quindi eseguire una ricerca utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri: Nel database nr Limitando l’output a sequenze di “fungi (taxid: 4751)” Lanciare più iterazioni di PSI-BLAST (almeno 3) e segnarsi i numeri di hits (risultati) approssimativamente. Che domini non-globina sono spesso presenti nelle globine fungine? Quanti risultati (con i valori di E sotto la soglia 0,005) ci sono dopo la prima iterazione? E dopo le diverse iterazioni? Esercizio 7: PSI-BLAST su proteina sconosciuta Un campione biologico della specie Danio Rerio (zebrafish) ha rivelato la presenza della sequenza proteica di origine sconosciuta riportata in: http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83 unknown_protein.fasta Utilizzare PSI-BLAST con i seguenti parametri: RefSeq come database, escludendo i modelli dagli output, limitandosi all’organismo da dove è stato prelavato il campione, utilizzare PAM30 come matrice di score. Di che tipo di proteina si tratta? (Guardare se ci sono domini conservati!) Quanti hits aprossimativamente ci sono alla prima iterazione? Qual è l’hit con score più basso? Segnarsi i codici RefSeq. Quanti hits hanno score >200? Alla seconda iterazione. Qual è l’hit con score minore? Confrontarlo con quello più basso dell’iterazione precedente? Quanti hits hanno score >200? Quante nuove hit compaiono alla terza iterazione? A quale iterazione non vengono più aggiunti hits? Esercizio 8: PSI-BLAST e malaria Il parassita della malaria Plasmodium vivax ha una famiglia multigenica chiamata vir che è specifica per tale organismo. Esistono tra 600-1000 copie di questi geni, e possono avere un ruolo nel causare infezioni croniche attraverso variazioni antigeniche. Selezionare vir1 (XP_001612479.1) ed effettuare una ricerca BLASTP nella banca dati “nr” (non ridondante). Quanti hits aprossimativamente si trovano e con quale punteggio? Poi, per trovare le altre centinaia di sequenze, eseguire una PSI-BLAST di ricerca con la stessa id. Nella prima ricerca, quale è il numero approssimativo di proteine che hanno un valore E inferiore a 0,002, e quanti hanno un punteggio superiore a 0,002? Qual è il punteggio della migliore nuova sequenza che viene aggiunto tra la prima iterazione e la seconda iterazione di PSI-BLAST? NCBI BlastX http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome Sequenza Codice Genetico Databases Confronta una sequenza nucleotidica (traducendola in tutti 6 possibili frame di lettura) ad un database di proteine. Esercizio 9: BLASTX Entrare in BLASTX di NCBI e copiare la sequenza di “dinosauro” "Lost World” come input. ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt Assicuratevi di includere l'intera sequenza. Ricercare sul database “nr”. Escludere i modelli (XM/XP). Di quale proteina forma parte questa sequenza nucleotidica? Nella pagina dei risultati, guardare i risultati degli allineamenti. La pagina risultante mostrerà la sequenza query scritta come proteina (utilizzando le 20 lettere corrispondenti agli amminoacidi). Il Dr. Mark Boguski che ha creato la sequenza ha lasciato un messaggio nascosto nella sequenza query in posizioni corrispondenti ai 4 gap della sequenza allineata. Qual è il suo messaggio? Esercizio 9: BLASTX