Ricerche con Ricerche con BLAST (Laboratorio)

Transcript

Ricerche con Ricerche con BLAST (Laboratorio)
Laboratorio di
Bioinformatica I
Ricerche con
BLAST
(Laboratorio)
Dott. Sergio Marin Vargas (2014 / 2015)
NCBI BLAST
BLAST: Basic Local Alignment Search Tool
http://blast.ncbi.nlm.nih.gov/Blast.cgi
NCBI Nucleotide BLAST (blastn)
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
Reset page
Sequenza
Databases
Organismo
Optimizzazione:
Modifiche
all’algoritmo per
ricercare
sequenze
nucleotidiche
Esercizio 1: “Jurassic” blastn
Michael Crichton scrisse su “dinosauri e clonazione”.
Nel libro “Jurassic Park” (poi film “Lost World”), ha usato una
sequenza di incompleta di DNA di dinosauro, completata da alcuni
esperti presso NCBI.
È possibile recuperare tale sequenza dal sito di NCBI:
ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt
Usare BLASTN sul database “Nucleotide collection (nr/nt)” per
identificare le fonti per il completamento della sequenza utilizzata.
Resettare la pagina prima di impostare i parametri.
Incollare la sequenza nella finestra di BLASTN, selezionando
“Somewhat similar sequences (blastn)” nella sezione Program
Selection.
Indicare i due principali organismi che sono stati usati per creare la
sequenza di dinosauro?
Cliccare su “Taxonomy reports” per un quadro più completo (in
particolare: cliccare su “Organism report”)
Esercizio 1: “Jurassic” Blastn
Esercizio 2: Ricerca di sequenza
sconosciuta con blastn
Vi viene sottoposta una sequenza dal significato sconosciuto:
http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83
unknown_dna.fasta
Vogliamo sapere se corrisponde a geni noti:
Resettare la pagina!
Utilizzare il database “refseq_rna”
Optimizzare per “Somewhat similar sequences (blastn)”
Scegliere l’opzione “Show results in a new window”.
Con quale organismo è correlata la sequenza?
Quanti esoni dovrebbero esserci nella nostra sequenza?
Con riferimento alla prima sequenza con codice refseq
verificato (sono quelli che cominciano con NM, i codici XM
sono predetti), quali sono le posizioni (i range) a cui
corrisponde l’allineamento?
Esercizio 2: Ricerca di sequenza
sconosciuta con Blastn
Esoni
Drosophila
Primo
allineamento
con sequenza
verificata
NCBI Protein BLAST (blastp)
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&BLAST_SPEC=&LINK_LOC=blasttab&LAST_PAGE=blastn#
Reset page
Sequenza
Databases
Organismo
Esclussione
Modelli
Algoritmi:
Diversi
algoritmi per
ricercare
sequenze
proteiche
Esercizio 3: Sequenza corta con
blastp
Utilizzando Blastp di NCBI eseguire una ricerca della la
seguente sequenza di 12 aminoacidi:
PNLHGLFGRKTG
Resettare l’interfaccia
Mettere la sequenza in formato FASTA. Dopo che eseguite
la ricerca i parametri saranno automaticamente adattati per
sequenze corte.
Attivare l’opzione “Show results in a new window” per poter
confrontare con i parametri di default.
Osservare la sezione “search summary”:
Qual è il valore di cut-off dell’e-value (Expect threshold)?
Come è cambiata la “word size”?
Qual è la matrice di punteggio?
Cambia la penalità per i gap ?
Perché sono variati i parametri rispetto al default?
Esercizio 4: “Compositional
adjustment” di blastp
Ricercare con BLASTP la sequenza “human insulin”
(NP_000198.1). Realizzare la ricerca sul database
refseq_protein e sull’organismo “Caenorhabditis elegans”,
utilizzando la matrice BLOSUM 45 e con queste 5 opzioni del
Compositional adjustments (rettifiche di composizione):
1.
2.
3.
4.
5.
6.
Conditional compositional score matrix adjustment (Default
settings)
Aggiungere il filtro “low complexity regions”
No adjustment (con “Filter” low complexity regions)
No adjustment (senza “Filter” low complexity regions)
Composition-based statistics
Universal compositional score matrix adjustment
Cercare di spiegare il motivo delle differenze osservabili nei
risultati (numero di risultati o hit, scores, copertura, ecc.)
NCBI Protein BLAST (PSI-BLAST)
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
Proteinprotein
PSI-BLAST
PHI-BLAST
DELTA-BLAST
Esercizio 5: BlastP e PSI-BLAST
Ci sono globine nei funghi? Eseguire una ricerca con
BlastP utilizzando la globina umana beta
(NP_000509.1) come sequenza di query e i seguenti
parametri:
Nel database nr
Limitando l’output a sequenze di “fungi (taxid: 4751)”
Qual è la gamma di lunghezze approssimativa delle
proteine fungine che hanno domini globinici?
Eseguire nuovamente la ricerca con gli stessi
parametri e la stessa sequenza, ma questo volta
modificare l’algoritmo a PSI-BLAST e confrontare i
due risultati.
Ci sono differenze ?
Perche ci sono o non ci sono differenze ?
Esercizio 5: BlastP e PSI-BLAST
PSI-BLAST
BlastP
Esercizio 6: BlastP e PSI-BLAST
Ripetere l’esercizio precedente con PSI-BLAST, quindi
eseguire una ricerca utilizzando la globina umana beta
(NP_000509.1) come sequenza di query e i seguenti
parametri:
Nel database nr
Limitando l’output a sequenze di “fungi (taxid: 4751)”
Lanciare più iterazioni di PSI-BLAST (almeno 3) e
segnarsi i numeri di hits (risultati) approssimativamente.
Che domini non-globina sono spesso presenti nelle
globine fungine?
Quanti risultati (con i valori di E sotto la soglia 0,005) ci
sono dopo la prima iterazione?
E dopo le diverse iterazioni?
Esercizio 7: PSI-BLAST su
proteina sconosciuta
Un campione biologico della specie Danio Rerio (zebrafish) ha rivelato la
presenza della sequenza proteica di origine sconosciuta riportata in:
http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83
unknown_protein.fasta
Utilizzare PSI-BLAST con i seguenti parametri: RefSeq come database,
escludendo i modelli dagli output, limitandosi all’organismo da dove è
stato prelavato il campione, utilizzare PAM30 come matrice di score.
Di che tipo di proteina si tratta? (Guardare se ci sono domini conservati!)
Quanti hits aprossimativamente ci sono alla prima iterazione? Qual è l’hit
con score più basso? Segnarsi i codici RefSeq. Quanti hits hanno score
>200?
Alla seconda iterazione. Qual è l’hit con score minore? Confrontarlo con
quello più basso dell’iterazione precedente? Quanti hits hanno score
>200?
Quante nuove hit compaiono alla terza iterazione?
A quale iterazione non vengono più aggiunti hits?
Esercizio 8: PSI-BLAST e
malaria
Il parassita della malaria Plasmodium vivax ha una famiglia
multigenica chiamata vir che è specifica per tale organismo.
Esistono tra 600-1000 copie di questi geni, e possono avere un
ruolo nel causare infezioni croniche attraverso variazioni
antigeniche.
Selezionare vir1 (XP_001612479.1) ed effettuare una ricerca
BLASTP nella banca dati “nr” (non ridondante).
Quanti hits aprossimativamente si trovano e con quale punteggio?
Poi, per trovare le altre centinaia di sequenze, eseguire una
PSI-BLAST di ricerca con la stessa id.
Nella prima ricerca, quale è il numero approssimativo di proteine che
hanno un valore E inferiore a 0,002, e quanti hanno un punteggio
superiore a 0,002?
Qual è il punteggio della migliore nuova sequenza che viene aggiunto tra
la prima iterazione e la seconda iterazione di PSI-BLAST?
NCBI BlastX
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
Sequenza
Codice
Genetico
Databases
Confronta una sequenza nucleotidica (traducendola in tutti
6 possibili frame di lettura) ad un database di proteine.
Esercizio 9: BLASTX
Entrare in BLASTX di NCBI e copiare la sequenza di
“dinosauro” "Lost World” come input.
ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt
Assicuratevi di includere l'intera sequenza. Ricercare sul
database “nr”. Escludere i modelli (XM/XP).
Di quale proteina forma parte questa sequenza nucleotidica?
Nella pagina dei risultati, guardare i risultati degli allineamenti.
La pagina risultante mostrerà la sequenza query scritta come
proteina (utilizzando le 20 lettere corrispondenti agli
amminoacidi). Il Dr. Mark Boguski che ha creato la sequenza
ha lasciato un messaggio nascosto nella sequenza query in
posizioni corrispondenti ai 4 gap della sequenza allineata.
Qual è il suo messaggio?
Esercizio 9: BLASTX