uo6 cribi - Università degli Studi di Padova

Transcript

CRIBI
Centro di Ricerca Interdipartimentale
per le Biotecnologie Innovative
PROGETTO OLEA - PIATTAFORMA BIOINFORMATICA
Unità operativa coordinata da Giorgio Valle – CRIBI-PADOVA
ATTIVITÀ E METODI
Le attività sono state finalizzate alla realizzazione di quattro obiettivi principali: 1) una
piattaforma per la predizione della struttura genica; 2) una piattaforma per l'annotazione funzionale;
3) una piattaforma avanzata per accedere ai dati; 4) un sito web con un'area informativa di accesso
pubblico e un'area “privata” per lo scambio dei dati e delle informazioni tra le unità operative che
partecipano al progetto.
La predizione genica rappresenta sicuramente uno degli aspetti più importanti e complessi di
un progetto genomico. In seguito all’identificazione dei geni codificati dal genoma è infatti
possibile comprendere la biologia e la storia evolutiva dell’organismo.
La piattaforma di predizione genica implementata al CRIBI prende in considerazione tre
diverse tipologie di evidenze, ovverosia tre diversi metodi che permettono di identificare in una
determinata regione la possibile presenza di un gene.
1. Predizione ab-initio: utilizza programmi di predizione basati su modelli probabilistici (Hidden
Markov Model) che “imparano” a riconoscere la presenza di un gene dopo essere stati allenati
su un training set di geni validati sperimentalmente. Questo approccio ha il vantaggio di essere
molto veloce e permette di identificare geni anche quando non è presente nessun altro tipo di
evidenza sperimentale (come ad esempio sequenze di cDNA). Di contro l'affidabilità di questi
programmi è piuttosto bassa e strettamente dipendente dalla qualità dell'insieme di geni
utilizzati per l’allenamento.
2. Allineamento di sequenze di cDNA e proteine: questo approccio consiste nell'allineare sul
genoma sequenze di cDNA e di proteine dello stesso organismo o di organismi
CRIBI
UNIVERSITÀ DEGLI STUDI DI PADOVA
filogeneticamente vicini. I vantaggi derivati da questo approccio consistono nel fatto che
queste sono evidenze di tipo sperimentale e permettono quindi di identificare con buona
sicurezza le regioni codificanti. Inoltre, nuovi sistemi di sequenziamento (454-Roche, Illumina
e Solid) permettono di ottenere un enorme numero di sequenze in poco tempo, aumentando in
questo modo la copertura delle regioni trascritte del genoma.
3. Allineamento di genomi di altri organismi: questa metodologia consiste nell’allineare le
sequenze genomiche di due o più organismi filogeneticamente affini. L’idea su cui si basa
questo approccio è che le regioni codificanti tendono a rimanere più conservate durante
l'evoluzione permettendone cosi’ l'identificazione mediante allineamento.
La predizione genica è dunque un processo complesso, che si avvale di diversi tipi di evidenze
che devono essere integrate fra loro al fine di raggiungere il risultato più attendibile possibile.
L’integrazione di tutti i risultati viene effettuata mediante l’utilizzo del programma JIGSAW che è
in grado di valutare il peso di ogni evidenza al fine di definire la soluzione che rappresenta la
struttura genica più plausibile.
Un altro aspetto importante del progetto è rappresentato dall'annotazione funzionale, cioè dal
processo di caratterizzazione dei geni predetti, assegnando loro una funzione biologica o un ruolo
metabolico. Sostanzialmente nell'annotazione funzionale l'informazione deriva dalla similarità di
sequenza inter-specie, assumendo che regioni altamente conservate in specie diverse mantengano le
stesse funzioni.
I dati genomici ottenuti nella fase di predizione e annotazione necessitano di essere raccolti in
opportuni database per facilitare il loro successivo utilizzo da parte degli utenti finali attraverso
opportune interfacce e pagine web. A questo proposito sono stati implementati e messi a punto
alcuni strumenti bioinformatici GMOD (Generic Model Organism Database), in particolare Chado,
Gbrowse e Apollo. Chado (Mungall, 2007) è uno schema di database relazionale molto sofisticato
in grado di rappresentare in modo approfondito e completo qualsiasi dato di tipo biologico e in
particolare dati provenienti da progetti genomici; Gbrowse (Stein, 2002) è uno dei più diffusi
genome browsers, che offre la possibilità di “navigare” all'interno della sequenza genomica,
visualizzando le localizzazioni e la struttura dei geni e di altri dati biologici (EST, proteine, ecc.)
lungo i cromosomi; Apollo (Lewis, 2002) è un software per l' “editing” del genoma, utile nella fase
“manuale” di annotazione strutturale in quanto gli utenti abilitati possono modificare le strutture dei
geni predetti, creando nuovi geni e trascritti alternativi, allungando le UTR o cancellando geni
erroneamente predetti.
2
CRIBI
UNIVERSITÀ DEGLI STUDI DI PADOVA
Per quanto riguarda la possibilità di interrogazione del database e l'accesso ai dati del progetto,
è stata sviluppata una piattaforma di interrogazione avanzata basata su XML, attraverso la quale
l'utente può facilmente estrarre dal database le informazioni necessarie alle sue analisi. In
particolare, questo sistema fornisce la possibilità di classificare i dati in ordine di importanza in base
a criteri selezionati. L'insieme dei criteri selezionabili è predisposto nella fase di configurazione, ma
possono essere facilmente modificati, rimossi o aggiunti altri criteri di ricerca.
Aspetto importante di questo sistema è la possibilità di editare “manualmente” le annotazioni
di tipo funzionale (aggiungere/cancellare termini di “gene ontology”, gene symbols, domini
proteici, ecc.). Infatti, sebbene Apollo fornisca un buono strumento per l'annotazione della struttura
genica (permettendo la creazione di nuovi esoni, la modifica di coordinate, ecc.), non consente
un'adeguata possibilità di annotazione funzionale.
RISULTATI OTTENUTI
Lo sviluppo delle piattaforme dedicate alla predizione genica e all'annotazione funzionale è
stato completato ed il sistema è attualmente pronto a ricevere ed elaborare i dati prodotti dal
progetto. È stata inoltre sviluppata una piattaforma per annotazione esperta, che consente di editare
manualmente il genoma, sia per quanto riguarda gli aspetti strutturali, sia per gli aspetti funzionali.
Infine, è stato realizzato un portale del genoma dell'olivo. Il sistema è composto da un'area
pubblica, per comunicare gli obiettivi del progetto e divulgarne i risultati ai visitatori, e da un'area
privata (accessibile tramite password alle Unità Operative del progetto) che permette di condividere
lo stato dei lavori e risultati parziali.
Attualmente l'area privata contiene tra l'altro i dati dell'assemblaggio genomico effettuato dai
gruppi di San Michele All'Adige e di Udine. È stato implementato il programma BLAST che
consente di effettuare ricerche di similarità sui “contig” genomici. Il sito web è accessibile
all'indirizzo http://www.oleagenome.org che contiene anche il link per il collegamento all'area
privata.
Padova, 27 Marzo 2012
Prof. Giorgio Valle
Responsabile Scientifico dell'Unità Operativa
3

uo6 cribi - Università degli Studi di Padova

Transcript

Documenti analoghi

4.2 – Obiettivo programma di ricerca

Gestione ed analisi di dati microarray con software open

06-genoma umano - Biology, Genetics and Bioinformatics Unit

AIRWiki - Politecnico di Milano

Il tirocinio formativo in Accenture Technology Solutions è rivolto a

Intervista a JAMES WATSON Piergiorgio Odifreddi Il 7 marzo 1953

gen-umana lez 1 introduzione per PDF

Dal genoma alla proteoma passando per la transcrittoma

Corso Citect - Schneider Electric

Il Progetto Genoma Umano

Introduzione ai Microarray

DH-LSPH.05 • 500 kg

Data Mining in Ensembl with BioMart

News per camera di commerciox

DH-LSP.07.04 • 500 - 750(*) kg

Lezione 3

Annotazione linguistica multilivello manuale e automatica

Terapia genica - Centro di Medicina Rigenerativa

Piattaforma apprendimento: Istruzioni per l`uso

padre e figlio

Evoluzione tra didattica e ricerca

Ricombinazione di geni associati sullo stesso cromosoma e mappe