ESERCITAZIONE 3

Transcript

ESERCITAZIONE 3
ESERCITAZIONE 3
Pagine internet
http://blast.ncbi.nlm.nih.gov
http://www.ncbi.nlm.nih.gov/nucleotide/
http://www.ncbi.nlm.nih.gov/Taxonomy/
Programmi locali
Notepad
Notepad++: http://notepad-plus.sourceforge.net/it/site.htm
Mega4: www.megasoftware.net/
BioEdit: http://www.mbio.ncsu.edu/BioEdit/bioedit.html
Sequenza
>unknown
ATTCTGGTTGATCCTGCCAGAGGCCGCTGCTATCCGGCTGGGACTAAGCCATGCGAGTCAAGGGGCTTGT
ATCCCTTCGGGGATGCAAGCACCGGCGGACGGCTCAGTAACACGTGGACAACCTGCCCTCGGGTGGGGGA
TAACCCCGGGAAACTGGGGCTAATCCCCCATAGGGGATGGGTACTGGAATGTCCCATCTCCGAAAGCGCT
TAGCGCCCGAGGATGGGTCTGCGGCGGATTAGGTTGTTGGTGGGGTAACGGCCCACCAAGCCGAAGATCC
GTACGGGCCATGAGAGTGGGAGCCCGGAGATGGACCCTGAGACACGGGTCCAGGCCCTACGGGGCGCAGC
AGGCGCGAAACCTCCGCAATGCGGGAAACCGCGACGGGGTCAGCCGGAGTGCTCGCGCATCGCGCGGGCT
GTCGGGGTGCCTAAAAAGCACCCCACAGCAAGGGCCGGGCAAGGCCGGTGGCAGCCGCCGCGGTAATACC
GGCGGCCCGAGTGGCGGCCACTTTTATTGGGCCTAAAGCGTCCGTAGCCGGGCTGGTAAGTCCTCCGGGA
AATCTGGCGGCTTAACCGTCAGACTGCCGGAGGATACTGCCAGCCTAGGGACCGGGAGAGGCCGGGGGTA
TTCCCGGAGTAGGGGTGAAATCCTGTAATCCCGGGAGGACCACCTGTGGCGAAGGCGCCCGGCTGGAACG
GGTCCGACGGTGAGGGACGAAGGCCAGGGGAGCGAACCGGATTAGATACCCGGGTAGTCCTGGCTGTAAA
CGATGCGGACTAGGTGTCACCGAAGCTACGAGCTTCGGTGGTGCCGGAGGGAAGCCGTTAAGTCCGCCGC
CTGGGGAGTACGGCCGCAAGGCTGAAACTTAAAGGAATTGGCGGGGGAGCACTACAACGGGTGGAGCCTG
CGGTTTAATTGGATTCAACGCCGGGAAGCTTACCGGGGGAGACAGCGGGATGAAGGTCGGGCTGAAGACC
TTACCAGACTAGCTGAGAGGTGGTGCATGGCCGCCGTCAGTTCGTACTGTGAAGCATCCTGTTAAGTCAG
GCAACGAGCGAGACCCGCGCCCCCAGTTGCCAGCGGTTCCCTTCGGGGAAGCCGGGCACACTGGGGGGAC
TGCCGGCGCTAAGCCGGAGGAAGGTGCGGGCAACGGCAGGTCCGTATGCCCCGAATCCCCCGGGCTACAC
GCGGGCTACAATGGCCGGGACAATGGGTACCGACCCCGAAAGGGGTAGGTAATCCCCTAAACCCGGTCTA
ACCTGGGATCGAGGGCTGCAACTCGCCCTCGTGAACCTGGAATCCGTAGTAATCGCGCCTCAAAATGGCG
CGGTGAATACGTCCCTGCTCCTTGCACACACCGCCCGTCAAGCCACCCGAGTGGGCCAGGGGCGAGGGGG
TGGCCCTAGGCCACCTTCGAGCCCAGGGTCCGCGAGGGGGGCTAAGTCGTAACAAGGTAGCCGTAGGGGA
ATCTGCGGCTGGATCACCTCCT
Obiettivo
Data una sequenza ottenuta da es. un isolato clinico, costruire alberi filogenetici con
MEGA, utilizzando i diversi sistemi disponibili (NJ, UPGMA, ME, MP) fino a
contestualizzare la specie cui appartiene la sequenza ignota in un contesto filogenetico
coerente e completo.
Procedura
1. Lanciare una ricerca BLAST della sequenza contro la banca dati refseq. Scegliere di
visualizzare solo i primi 20 risultati e scaricarne le sequenze fasta.
2. Aggingere le nuove sequenze al file ribo.fasta salvato in precedenza.
3. Aprire le sequenze con il notepad. Editare gli header fasta in modo che per esempio
l’header “>gi|265678527|ref|NR_028831.1| Archaeoglobus veneficus strain SNP 6 16S
ribosomal RNA, partial sequence” diventi “>gi|265678527| Archaeoglobus veneficus
strain SNP 6” (vedere consigli a fondo pagina)
4. Aprire MEGA4 e caricare il file ribo.fasta dal menu Alignment|Retrieve sequences
from file.
5. Allineare le sequenze con il clustalw interno di MEGA (menu Alignment|Align with
ClustalW, lasciare le opzioni di default).
6. Salvare il file con le sequenze allineate come ribo.aln.meg.
7. Osservare i siti utili per la parsimonia (menu Highlight|Parsin Info sites)
8. Osservare la composizione in basi (menu Statistics|Nucleotide composition). La
composizione è stazionaria?
9. Testare la validità dell’assunzuione che le sequenze sono sottoposte alla stessa velocità
evolutiva (menu Pattern|Test substitution patter homogeneity). I valori gialli
corrispondono ai siti giudicati non omogenei evolutivamente.
10. Valutare se i siti sono sotto posti a qualche tipo di selezione (menu Selection|Tajima
test of Neutrality). Se il valore D è molto positivo o molto negativo si è in prsenza di
qualche tipo di selezione.
11. Costruire gli alberi filogenetici con tutti i metodi disponibili (osservare i parametri da
impostare, ma usare i parametri di default). Eseguire 1000 bootstrap per NJ e UPGMA, e
ME (per ME tenere i 3 alberi migliori e osservare l’albero consenso del bootstrap)
12. Salvare gli alberi come immagini (menu Image|Save as Tiff file) e in formato Newick
(menu File|Export current tree). Chiamare i files con il nome del metodo usato (e.s.
NJ.tif, e NJ.nwk).
13. Cambiare la visualizzazione degli alberi (Menu View). Quale è quella che preferite?
Vi sembrano equivalenti? Quale si capisce meglio?
14. Confrontare gli alberi: sono diversi o convergono sullo stesso risultato?
15. A che genere appartiene la nostra sequenza incognita?
16. Andare su Entrez Gene e cercare il gene AFrRNA02 (la sequenza è stat presa da
qui...) per verificare se le deduzioni fatte dagli alberi sono corrette.
17. La filogenesi assegnata è coerente con la tassonomia della specie (vedere NCBI
taxonomy)?
Note:
per velocizzare i processi di modifica degli header fasta in editor di testo avanzati come
notepad++, procedere come segue.
1. Assicurarsi di essere con il cursore all’inizio del documento.
2. Premere ctrl-h (sostituisci).
3. Impostare “Espressione regolare” nella sezione “Tipo ricerca”.
5. Cercare la stringa “ref|...........|.” (i punti nelle espressioni regolari significano “qualsiasi
carattere”) e sostituire con niente (non riempire il campo siostituisci). Poi premere
“Sostituisci tutti”.
6. Fare lo stesso con la stringa “16S ribosomal RNA, partial sequence”.