Esame Bioinformatica di ................................, 31 Gennaio 2013

Transcript

Esame Bioinformatica di ................................, 31 Gennaio 2013
 Esame Bioinformatica di ................................, 31 Gennaio 2013 -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ PARTE 1: segnare con una 'X' la (o le) risposta/e corretta/e-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ * Un albero filogenetico: _ si può ottenere anche senza allineare le sequenze _ i nodi non sono punti di biforcazione _ i gruppi che si formano si chiamano anche clade _ rende conto della distanza evolutiva esistente tra i taxa * Il formato fasta: _ si usa per una sola sequenza _ è apribile con Bioedit _ ha una sola riga _ non è apribile con un editor di testo * Il core genome: _ solitamente contiene poche decine di geni _ contiene i geni detti "house keeping" _ è l'opposto dell'accessory (o dispensable) genome _ insieme all'accessory (o dispensable) genome costituisce il pan-­‐genome * Un albero filogenetico: _ può essere utilizzato per individuare eventi di trasferimento orizzontale _ non si usa in evoluzione molecolare _ può essere basato su metodi di distanza _ non usa l'algoritmo Neighboor Joining * la Flux Balance Analysis: _ non ha bisogno di "constraints" _ utilizza dei constraints (tipicamente 3) _ è un metodo del tutto quantitativo _ la massimizzazione della biomassa è spesso la funzione obbiettivo * BLAST: _ serve per effettuare un allineamento globale delle sequenze _ è eseguibile tramite il server di NCBI _ la sequenza di input prende il nome di "seed" _ la sequenza di input prende il nome di "query" * BLAST: _ necessita di un database su cui effettuare la ricerca _ restituisce P-­‐value e valori di entropia come stima della similarità _ maggiore è lo score più sono simili le sequenze _ non utilizza i "gaps" * Un modello metabolico: _ può essere costruito a partire da un draft genome _ se contiene dei gap può non essere funzionante _ può essere utilizzato per predire il fenotipo _ contiene la lista dei composti che un organismo può utilizzare * Un file fasta: _ è un semplice file di testo _ è lo standard di archiviazione di sequenze biologiche _ c'è solo il formato nucleotidico _ inizia con un ">" * Gli assemblatori: _ servono per cercare di ricostruire l'intera sequenza di un genoma _ non vengono impiegati nelle tipiche pipeline per la ricerca di SNPs _ non usano le reads _ non vengono più usati * il formato FastQ: _ è il formato tipico dei sequenziatori 454 _ ha i valori di qualità dei singoli nucleotidi al suo interno _ i titoli delle sequenze iniziano con "@" _ non è leggibile dagli assemblatori più comuni * In un albero filogenetico _ le biforcazioni si chiamano nodi _ i taxa sono i punti più interni dell'albero _ non ci possono essere più di 4 sequenze _ i valori di bootstrap indicano l'affidabilità dell'albero -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ PARTE 2: rispondere alle seguenti domande -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ * Elencare e definire i principali approcci per allineare le sequenze * Cosa sono i contigui? A che punto si trovano nel processo di assemblaggio? -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐PARTE 3: Risolvere il seguente esercizio-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ (i file possono essere scaricati all'indirizzo www.unifi.it/dblemm, sezione "Didattica") * Dato il file di sequenze Sequenze.txt: 1) allineare le sequenze utilizzando ClustalW, 2) valutare la conservazione dell'allineamento mediante il calcolo dell'entropia FIRMA STUDENTE ................................. Esame Bioinformatica di ................................, 31 Gennaio 2013 -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ PARTE 1: segnare con una 'X' la (o le) risposta/e corretta/e-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ * il formato FastQ: _ è il formato tipico dei sequenziatori 454 _ ha i valori di qualità dei singoli nucleotidi al suo interno _ i titoli delle sequenze iniziano con "@" _ non è leggibile dagli assemblatori più comuni * BLAST: _ necessita di un database su cui effettuare la ricerca _ restituisce P-­‐value e valori di entropia come stima della similarità _ maggiore è lo score più sono simili le sequenze _ non utilizza i "gaps" * Un multiallineamento: _ può essere modificato mediante editor di sequenze _ può essere utilizzato per valutare la conservazione di specifici residui _ contiene almeno 3 sequenze _ contiene almeno 2 sequenze * Un albero filogenetico: _ si può ottenere anche senza allineare le sequenze _ i nodi non sono punti di biforcazione _ i gruppi che si formano si chiamano anche clade _ rende conto della distanza evolutiva esistente tra i taxa * Un albero filogenetico: _ può essere utilizzato per individuare eventi di trasferimento orizzontale _ non si usa in evoluzione molecolare _ può essere basato su metodi di distanza _ non usa l'algoritmo Neighboor Joining * In un albero filogenetico _ le biforcazioni si chiamano nodi _ i taxa sono i punti più interni dell'albero _ non ci possono essere più di 4 sequenze _ i valori di bootstrap indicano l'affidabilità dell'albero * La bioinformatica é: _ l'analisi di dati biologici con strumenti informatici _ lo studio di calcolatori con caratteristiche biologiche _ la creazione di programmi altamente personalizzabili _ la biologia applicata all'informatica * le reads: _ sono il tipico output di una run di sequenziamento _ possono essere di diversi formati _ possono essere assemblate in contigui _ sono solitamente archiviate in metafiles * Un modello metabolico: _ può essere costruito a partire da un draft genome _ se contiene dei gap può non essere funzionante _ può essere utilizzato per predire il fenotipo _ contiene la lista dei composti che un organismo può utilizzare * Il core genome: _ solitamente contiene poche decine di geni _ contiene i geni detti "house keeping" _ è l'opposto dell'accessory (o dispensable) genome _ insieme all'accessory (o dispensable) genome costituisce il pan-­‐genome * ClustalW: _ è un programma che costruisce alberi filogenetici _ è un programma per la realizzazione di allineamenti multipli _ utilizza un approccio progressivo _ è inserito nel pacchetto Bioedit * I contigui: _ sono il prodotto di una tipica pipeline di assemblaggio _ non hanno un ordine ben preciso _ possono essere assemblati in scaffold _ sono sempre più di 100 -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ PARTE 2: rispondere alle seguenti domande -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ * Descrivere brevemente gli step dell'algoritmo "Neighboor Joining" * Cosa sono i contigui? A che punto si trovano nel processo di assemblaggio? -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐PARTE 3: Risolvere il seguente esercizio-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ (i file possono essere scaricati all'indirizzo www.unifi.it/dblemm, sezione "Didattica") * Dato il file di sequenze Sequenze.txt: 1) allineare le sequenze utilizzando ClustalW, 2) valutare la conservazione dell'allineamento mediante il calcolo dell'entropia FIRMA STUDENTE .................................