ESERCITAZIONE 3
Transcript
ESERCITAZIONE 3
ESERCITAZIONE 3 Pagine internet http://blast.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov/nucleotide/ http://www.ncbi.nlm.nih.gov/Taxonomy/ Programmi locali Notepad Notepad++: http://notepad-plus.sourceforge.net/it/site.htm Mega4: www.megasoftware.net/ BioEdit: http://www.mbio.ncsu.edu/BioEdit/bioedit.html Sequenza >unknown ATTCTGGTTGATCCTGCCAGAGGCCGCTGCTATCCGGCTGGGACTAAGCCATGCGAGTCAAGGGGCTTGT ATCCCTTCGGGGATGCAAGCACCGGCGGACGGCTCAGTAACACGTGGACAACCTGCCCTCGGGTGGGGGA TAACCCCGGGAAACTGGGGCTAATCCCCCATAGGGGATGGGTACTGGAATGTCCCATCTCCGAAAGCGCT TAGCGCCCGAGGATGGGTCTGCGGCGGATTAGGTTGTTGGTGGGGTAACGGCCCACCAAGCCGAAGATCC GTACGGGCCATGAGAGTGGGAGCCCGGAGATGGACCCTGAGACACGGGTCCAGGCCCTACGGGGCGCAGC AGGCGCGAAACCTCCGCAATGCGGGAAACCGCGACGGGGTCAGCCGGAGTGCTCGCGCATCGCGCGGGCT GTCGGGGTGCCTAAAAAGCACCCCACAGCAAGGGCCGGGCAAGGCCGGTGGCAGCCGCCGCGGTAATACC GGCGGCCCGAGTGGCGGCCACTTTTATTGGGCCTAAAGCGTCCGTAGCCGGGCTGGTAAGTCCTCCGGGA AATCTGGCGGCTTAACCGTCAGACTGCCGGAGGATACTGCCAGCCTAGGGACCGGGAGAGGCCGGGGGTA TTCCCGGAGTAGGGGTGAAATCCTGTAATCCCGGGAGGACCACCTGTGGCGAAGGCGCCCGGCTGGAACG GGTCCGACGGTGAGGGACGAAGGCCAGGGGAGCGAACCGGATTAGATACCCGGGTAGTCCTGGCTGTAAA CGATGCGGACTAGGTGTCACCGAAGCTACGAGCTTCGGTGGTGCCGGAGGGAAGCCGTTAAGTCCGCCGC CTGGGGAGTACGGCCGCAAGGCTGAAACTTAAAGGAATTGGCGGGGGAGCACTACAACGGGTGGAGCCTG CGGTTTAATTGGATTCAACGCCGGGAAGCTTACCGGGGGAGACAGCGGGATGAAGGTCGGGCTGAAGACC TTACCAGACTAGCTGAGAGGTGGTGCATGGCCGCCGTCAGTTCGTACTGTGAAGCATCCTGTTAAGTCAG GCAACGAGCGAGACCCGCGCCCCCAGTTGCCAGCGGTTCCCTTCGGGGAAGCCGGGCACACTGGGGGGAC TGCCGGCGCTAAGCCGGAGGAAGGTGCGGGCAACGGCAGGTCCGTATGCCCCGAATCCCCCGGGCTACAC GCGGGCTACAATGGCCGGGACAATGGGTACCGACCCCGAAAGGGGTAGGTAATCCCCTAAACCCGGTCTA ACCTGGGATCGAGGGCTGCAACTCGCCCTCGTGAACCTGGAATCCGTAGTAATCGCGCCTCAAAATGGCG CGGTGAATACGTCCCTGCTCCTTGCACACACCGCCCGTCAAGCCACCCGAGTGGGCCAGGGGCGAGGGGG TGGCCCTAGGCCACCTTCGAGCCCAGGGTCCGCGAGGGGGGCTAAGTCGTAACAAGGTAGCCGTAGGGGA ATCTGCGGCTGGATCACCTCCT Obiettivo Data una sequenza ottenuta da es. un isolato clinico, costruire alberi filogenetici con MEGA, utilizzando i diversi sistemi disponibili (NJ, UPGMA, ME, MP) fino a contestualizzare la specie cui appartiene la sequenza ignota in un contesto filogenetico coerente e completo. Procedura 1. Lanciare una ricerca BLAST della sequenza contro la banca dati refseq. Scegliere di visualizzare solo i primi 20 risultati e scaricarne le sequenze fasta. 2. Aggingere le nuove sequenze al file ribo.fasta salvato in precedenza. 3. Aprire le sequenze con il notepad. Editare gli header fasta in modo che per esempio l’header “>gi|265678527|ref|NR_028831.1| Archaeoglobus veneficus strain SNP 6 16S ribosomal RNA, partial sequence” diventi “>gi|265678527| Archaeoglobus veneficus strain SNP 6” (vedere consigli a fondo pagina) 4. Aprire MEGA4 e caricare il file ribo.fasta dal menu Alignment|Retrieve sequences from file. 5. Allineare le sequenze con il clustalw interno di MEGA (menu Alignment|Align with ClustalW, lasciare le opzioni di default). 6. Salvare il file con le sequenze allineate come ribo.aln.meg. 7. Osservare i siti utili per la parsimonia (menu Highlight|Parsin Info sites) 8. Osservare la composizione in basi (menu Statistics|Nucleotide composition). La composizione è stazionaria? 9. Testare la validità dell’assunzuione che le sequenze sono sottoposte alla stessa velocità evolutiva (menu Pattern|Test substitution patter homogeneity). I valori gialli corrispondono ai siti giudicati non omogenei evolutivamente. 10. Valutare se i siti sono sotto posti a qualche tipo di selezione (menu Selection|Tajima test of Neutrality). Se il valore D è molto positivo o molto negativo si è in prsenza di qualche tipo di selezione. 11. Costruire gli alberi filogenetici con tutti i metodi disponibili (osservare i parametri da impostare, ma usare i parametri di default). Eseguire 1000 bootstrap per NJ e UPGMA, e ME (per ME tenere i 3 alberi migliori e osservare l’albero consenso del bootstrap) 12. Salvare gli alberi come immagini (menu Image|Save as Tiff file) e in formato Newick (menu File|Export current tree). Chiamare i files con il nome del metodo usato (e.s. NJ.tif, e NJ.nwk). 13. Cambiare la visualizzazione degli alberi (Menu View). Quale è quella che preferite? Vi sembrano equivalenti? Quale si capisce meglio? 14. Confrontare gli alberi: sono diversi o convergono sullo stesso risultato? 15. A che genere appartiene la nostra sequenza incognita? 16. Andare su Entrez Gene e cercare il gene AFrRNA02 (la sequenza è stat presa da qui...) per verificare se le deduzioni fatte dagli alberi sono corrette. 17. La filogenesi assegnata è coerente con la tassonomia della specie (vedere NCBI taxonomy)? Note: per velocizzare i processi di modifica degli header fasta in editor di testo avanzati come notepad++, procedere come segue. 1. Assicurarsi di essere con il cursore all’inizio del documento. 2. Premere ctrl-h (sostituisci). 3. Impostare “Espressione regolare” nella sezione “Tipo ricerca”. 5. Cercare la stringa “ref|...........|.” (i punti nelle espressioni regolari significano “qualsiasi carattere”) e sostituire con niente (non riempire il campo siostituisci). Poi premere “Sostituisci tutti”. 6. Fare lo stesso con la stringa “16S ribosomal RNA, partial sequence”.