Analisi computazionale di una proteina ipotetica

Transcript

Analisi computazionale di una proteina ipotetica
Corso di Biochimica computazionale
Greta Gandolfi
LS Ecologia
Analisi informatica di una proteina ipotetica
ID proteina: EAA74842
Ricerca in banca dati NCBI (http://www.ncbi.nlm.nih.gov/Genbank/index.html) della query
EAA74842
Risultato:
- 1 proteina ipotetica di Gibberella zeae, 108 aminoacidi (XP_385151)
- 1 gene (FG04975, mRNA XM_385151) individuato in un contig ottenuto dal
sequenziamento shotgun dell’intero genoma.
Tassonomia dell’organismo: Eukaryota; Fungi; Ascomycota; Pezizomycotina; Sordariomycetes;
Hypocreomycetidae; Hypocreales; Nectriaceae; Gibberella.
1) Localizzazione cromosomica e numero di introni/esoni
Posizione del gene: cromosoma 3.
Costituito da 3 esoni 2 introni.
2) Caratteristiche fisico-chimiche e localizzazione cellulare
ProtParam
Numero aa: 108
Peso molecolare: 11668.4
pI: 3.72
Percentuale dei diversi aa: abbondanza relativa di glicina e di aminoacidi carichi positivamente:
Asn (N) 12 11.1%
Asp (D) 12 11.1%
Gly (G) 14
13.0%
Numero totale di residui carichi positivamente (Asp + Glu): 22
Numero totale di residui carichi negativamente (Arg + Lys): 2
SignalP
Assenza di peptidi segnale e di ancore di membrana, la proteina non è probabilmente secretoria.
(Fig.1)
Psort
Non vengono riconosciuti motivi noti. Predizione:
44.0 %: extracellulare, o di membrana 16.0 %: citoplasmatica 16.0 %: nucleare
Pestfind
Nessun risultato
Dai risultati ottenuti la proteina è probabilmente citoplasmatica.
3) Ricerca di omologia
BLAST (http://www.ncbi.nlm.nih.gov/BLAST/)
ProteinBlast
Risultati: 56 Hit, allineamenti significativi con proteine ipotetiche di funghi ascomiceti.
Allinaemento con punteggio basso e un valore di e non significativo con cianovirina-N di
Nostoc ellipsosporum (e=0.012).
Taxonomy report: diversi hit per lo stesso organismo, con diversi score di allinaemento.
Es:
.
.
.
.
.
.
.
.
.
.
.
.
.
cellular organisms .......................
. . Sordariomycetes ......................
. . . Gibberella zeae PH-1 ...............
. . . . . Neurospora crassa ..............
. . . Magnaporthe grisea .................
. . Eurotiomycetidae .....................
. . . . Aspergillus ......................
. . . . . Aspergillus terreus NIH2624 ....
. . . . . Aspergillus oryzae .............
. . . . . Aspergillus niger ..............
. . . . . . Aspergillus niger CBS 513.88 .
. . . . . Aspergillus fumigatus Af293 ....
. . . . . Aspergillus clavatus NRRL 1 ....
106
25
2
8
7
49
35
6
9
6
3
6
8
hits
hits
hits
hits
hits
hits
hits
hits
hits
hits
hits
hits
hits
24
6
1
2
2
9
6
1
1
2
1
1
1
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
orgs
[Eurotiomycetes]
[mitosporic Trichocomaceae]
[Aspergillus terreus]
[Aspergillus fumigatus]
[Aspergillus clavatus]
PSI blast
Ripetendo la ricerca con PSI blast, includendo nella prima iterazione proteine ipotetiche con un e <
di 10-5 l’ allineamento con la cianovirina-N di N.ellipsosporum diventa significativo.
sp|P81180|CVN_NOSEL
Cyanovirin-N (CV-N) >pdb|2EZM|
Chain
, ...
84.3
2e-15
tBLASTn
Sequenze a cDNA di funghi ascomiceti. Una sequenza espressa in Magnaporthe grisea, il profilo di
espressione indica che il gene viene trascritto nella porzione del micelio fungino, in tutti gli stadi di
sviluppo.
pBlast intragenomico:
2 proteine ipotetiche nello stesso organismo, una sul cromosoma 3 e un’altra, con però score di
allineamento molto basso, sul cromosoma 2.
4) Regioni ripetute
Dotter:
Il confronto della sequenza con se stessa evidenzia che questa è costituita da due ripetizioni di 50 aa
circa. Lo stesso risultato si ottiene con la cianovirina di Nostoc (Fig.2).
5) Ricerca di domini con Pfam
La ricerca di domini con Pfam individua il dominio della cianovirina-N (ID:P81180)
6) Allineamento di 21 proteine omologhe (ortologhe e paraloghe) di ascomiceti con la sequenza di
cianovirina-N di N ellipsosporum.
Programma: Clustal w
Parametri: Matrice di punteggio: Gonnet (Pam250). Penalità Gap: apertura 10; estensione 0.2.
Visualizzazione dell’allineamento con GeneDoc e ESPripr 2.2.
Alcune proteine hanno un dominio conservato a monte del dominio della CV-N, altre (tra cui la
proteina paraloga a quella di interesse) hanno anche un’inserzione a metà del dominio di CVN.
La ricerca di domini con Pfam di queste individua la presenza del dominio “Rick17KD_Antigene”a
a monte del dominio CV-N, e il dominio “LysM” tra le due ripetizioni del dominio CV-N.
Gli aminoacidi che risultano maggiormente conservati nell’allineamento sono quelli coinvolti nel
mantenimento della struttura secondaria della proteina, descritta per la CV-N in PDB e SwissProt.
Le posizioni che determinano i β-strandi e i turn (Glicina) sono conservate in quasi tutte le
omologhe fungine della CV-N di Nostoc. Le posizioni che determinano le α- eliche (un residuo
idrofobico ogni 4) sono conservati in alcuni casi. I residui di cisteina, che determinano la
formazione di ponti disolfuro nella CVN, non risultano conservate nelle omologhe fungine. I residui
che determinano l’interazione tra le due catene di CV-N per la formazione di un dimero (Pro 51, Ser
52 e Asn 53) non risultano conservate, come neanche i residui che formano i due siti di legame per
gli zuccheri in CV-N. (Fig.3 e 4)
SEQUENZE OMOLOGHE ALLINEATE:
>Gz|42551999|gb|EAA74842.1| hypothetical protein FG04975.1 [Gibberella zeae PH-1]
>Gz|46115424|ref|XP_383730.1| hypothetical protein FG03554.1 [Gibberella zeae PH-1]
>At|115402759|ref|XP_001217456.1| conserved hypothetical protein [Aspergillus terreus NIH2624]
>At|115401402|ref|XP_001216289.1| predicted protein [Aspergillus terreus NIH2624]
>At|115449667|ref|XP_001218665.1| predicted protein [Aspergillus terreus NIH2624]
>Ao|83769528|dbj|BAE59663.1| unnamed protein product [Aspergillus oryzae]
>Ao|83770215|dbj|BAE60348.1| unnamed protein product [Aspergillus oryzae]
>Ao|83770041|dbj|BAE60176.1| unnamed protein product [Aspergillus oryzae]
>Pn|111056088|gb|EAT77208.1| hypothetical protein SNOG_15275 [Phaeosphaeria nodorum SN15]
>Pn|111070490|gb|EAT91610.1| hypothetical protein SNOG_00115 [Phaeosphaeria nodorum SN15]
>An|145229423|ref|XP_001389020.1| hypothetical protein An01g05960 [Aspergillus niger]
>An|145247094|ref|XP_001395796.1| hypothetical protein An12g07470 [Aspergillus niger]
>An|145246098|ref|XP_001395298.1| hypothetical protein An12g02120 [Aspergillus niger]
>Nf|119497325|ref|XP_001265421.1| conserved hypothetical protein [Neosartorya fischeri NRRL 181]
>Nf|119482758|ref|XP_001261407.1| glutamine-serine-proline rich protein, putative [Neosartorya fischeri NRRL 181]
>Nf|119467382|ref|XP_001257497.1| conserved hypothetical protein [Neosartorya fischeri NRRL 181]
>Af|70990260|ref|XP_749979.1| conserved hypothetical protein [Aspergillus fumigatus Af293]
>Af|70987083|ref|XP_749023.1| glutamine-serine-proline rich protein, putative [Aspergillus fumigatus Af293]
>Bf|154314315|ref|XP_001556482.1| hypothetical protein BC1G_05251 [Botryotinia fuckeliana B05.10]
>Bf|154317158|ref|XP_001557899.1| hypothetical protein BC1G_03481 [Botryotinia fuckeliana B05.10]
>Tb|56385124|gb|AAV85993.1| cyanovirin-N-like protein [Tuber borchii]
>Ne|11467947|sp|P81180|CVN_Nostoc Ellipsosporum Cyanovirin-N (CV-N)
Ne|1146794
Gz|4255199
Ao|8376952
At|1154027
An|1452294
Pn|1110560
Bf|1543143
Nf|1194973
Af|7099026
At|1154014
Nf|1194827
An|1452460
Ao|8377021
Ao|8377004
At|1154496
Tb|5638512
An|1452470
Af|7098708
Nf|1194673
Gz|4611542
Bf|1543171
Pn|1110704
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
*
20
*
40
*
60
*
80
*
100
LGKFSQTCYNSAIQGS----VLTSTCERTNG-GYNTSSIDLNSVIENVD--------GSLKWQPSN----------------------FIETCRNTQLAGSSE--MGNFHESSNNIWLEDG---HILHAECGNGEG-DYVESTLDLDYYIGNDD--------GSFSWGGEN----------------------FSGSASNITLDIEGDDNI
MS-FHQSAEDIEIKDN---HILFARLRNEDG-DLKDAEINLDEFLGNDD--------GHFQWGGEN----------------------FSHTADDVHFAIEGDDEV
MS-FHERAEDIRVDDG---HILVARLANGDG-DFQEASIDLDRFLGNSE--------GSFEWGGQN----------------------FSHTAEDISFHLEGDGNV
MS-FFRTASDIRVDDG---HILVANVANEEG-EMVESTLDLNSCIGNEE--------GRFLWGGND----------------------FAGSAEDISFAIEGEDNV
MT-FHYSAEDIRVDDG---HILRARLQRADG-EYNDAELDLNNHIGNDN--------GSFVWDGEG----------------------FSGSAENVHFSIEGDGEV
MS-FHLSAEDIRIDDN---HILRARLRNENG-DWEDAEIDLNEHIGNED--------GMIHWDGVN----------------------FSHSAENVTFSIEGGGQV
MS-FHLTAEDIRVEDG---HILVARLRNADG-EMRDASIDLDKYLGNNN--------GRFQWDGVN----------------------FSHSAEEVHFAIEGGGEV
MS-FHLTAEDIRIEDG---HRLVARLRNADG-DLQDASIDLNTCLGNDN--------GHFQWDGVD----------------------FSHSAQDVHFAIEGGGQV
SFQQSACDIHLNPEREGT-TSLVAICNNDEG-SGLTSKIPLDKFLGNED--------GHFVWGGKN----------------------ITQSCRNMQLRREGPNRL
RGNFSASSTEISLEHN---YELTARCRSISG-ELHRSSISLNSVLSNHF--------GSFVWARGG----------------------FGASARNVHLAEGGRV-RGNFSASSRDIRLESH---HDLVAACGRVSG-ELQLSVLPLNSVLANHW--------GKFAWERNG----------------------FAASARNVRLVDGGRV--MSFHQSCDLIRIEVRGDHTVLLAAAKNGDGDETVPAEIVLDEQIGNGD--------GWFVRGGEN----------------------FTETAHEIELEFREDGPW
MGSFHHTARNWRIKVDNGVTLFRVEVKDLHG-NWVERTIRLDDHIGNTDDGSHKGCTGWFIWGGKN----------------------FTQSARDIRLEDTEWGPK
HMSSRQIPGQPWIYNSFGHTHLQAQCLDEDG-QWQNSDIDLDNVIGEER----VVPLDELVWGDQN----------------------FTAESKSVNFAFEQTPAQ
-MSYADSSR--NAVLTNGGRTLRAECRNADG-NWVTSELDLDTCIGNPN--------GFLGWGMQN----------------------FSHSSEDIKLE--EGGRK
-MSFHNSCQNIHLIHEPGATFLHAEVRRANG-EYVARKIRLDRHIGNTD--------GWFIWGGSN----------------------FTETAKDIQLENTGRGPK
RGNFSASSTEISLEHD---YELTARCRSISG-EMHRSSISLNSVLSNHF--------GSFVWARGG----------------------FGASARNVHLAEGGRV--MALHKTCEHLQIIRRIDTTDLVADARNSSG-RRIPNKIRLDDHIGAKD--------GRLVWGGQN----------------------FTHSAGQVFLEQTEHGAI
AGNFTASSRDIRLDTHGE-YVLHASCKRENG-DYQHTSISLNKLLENDR--------GSFRWSAGGDLIYPGQTLSIPGGGSQGGG-GFGNSARHVRLVDGGQR-GGNFTTSSNDVRLDSHGD-YNLHAQCRRTDG-SYQSSTISLNRYIENDN--------GSLRWSSGGDQIWPGQNLRVPGGGGHGGGGNFGASARNVRLSRSGQE-GANFSASSRDIRLDSHGE-FNLHAQCRRADG-SYQASTISLNSILENDG--------GSFRWS-GGDMIYPGQNLQVPGGGSRGGG-NFGASARNLRLVDGGQR-l a
G
6 L1 6 n
g
w
f
a
Ne|1146794
Gz|4255199
Ao|8376952
At|1154027
An|1452294
Pn|1110560
Bf|1543143
Nf|1194973
Af|7099026
At|1154014
Nf|1194827
An|1452460
Ao|8377021
Ao|8377004
At|1154496
Tb|5638512
An|1452470
Af|7098708
Nf|1194673
Gz|4611542
Bf|1543171
Pn|1110704
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
*
120
*
--LAAECKTRAQQFVSTK-INLDDHIANIDG
PVLRAELNPMDGDPVEAN-VNLSERIGNDCG
PVLRAVLLNGEGEPVESN-VNLSERINNDDG
PVLRARLASSDGELHDAD-VNLAERIGNENG
PVLRARLQNSEGELFDAD-VNLGEHVTNNNG
PVLRATLFDGDGNGTERD-LNLGERVSNNDG
PVLRTFLRSRDGEEFSRD-VNLAERIENHNG
PVLRAQLANQDGGFESAD-VNLSERIENING
PVLRAQLANQDGEFQDAD-VNLSERIENING
PILHADLRNSAGDFVPAD-CHLEEHIWNIDG
--LDAELADGNGHWKRAW-VRLDERITNQNG
--LEAELADGNDGWNRTW-IRLDERITNQNG
--LTAFLTEVDGEDRERQGINLADHIGNDCG
--LVAVMRSNDGGDRGLQGMLLGDKIENRNG
PILRATFFDNNSAPKNTA-----ERIANVDG
--LTCRPKTVDGGFRERQGIDLN-RIQNVNG
--LTAYLRKRDGGYRELQGLYLADKIANENG
--LDAELADGNGHWKRAW-VRLDERITNQNG
--MCAEMNK-DGGSANRQELNLSDKIVNFDG
--LEGELSRD-GDWVLSS-IVLDERIRNYNG
--LEAELAP---SWHTST-LNLDERIGNNNG
--LEGELLRD-GQWHVRS-IVLDERIANRNG
6 a
g
l
6 N G
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
68
72
71
71
71
71
71
71
71
74
70
70
75
83
79
70
74
70
74
93
94
92
96
102
101
101
101
101
101
101
101
104
98
98
104
112
105
98
103
98
102
120
119
119
Fig. 3: Allineamento di 21 proteine omologhe visualizzato con GeneDoc, la prima sequenza (Ne) è
quella della Cianovirina-N di Nostoc.
Fig. 4: Allineamento di 21 proteine omologhe visualizzato con ESPripr 2.2.
La prima sequenza è quella di CV-N di Nostoc, a cui si riferisce la struttura secondaria riportata
(PDB ID: 1iiy). Evidenziati in giallo: siti di legame primario della CV-N con il mannoso;
evidenziati in azzurro: siti di legame secondario con il mannoso; cerchiati in rosa: residui coinvolti
nella formazione del dimero di CV-N. La freccia rossa indica la fine dell’inserzione del dominio
LysM nelle ultime tre sequenze.
Le ultime sei sequenze presentano a monte del dominio CV-N il dominio Rick17KD_Antigene.
7) Ricerca di pattern e profili
Prosite (http://www.expasy.ch/tools/scanprosite/)
Nessun risultato. Escludendo l’opzione che elimina i pattern ad alta probabilità di occorrenza
casuale, vengono individuati 9 motivi di glicosilazione, fosforilazione e miristilazione. Nessuno
risulta però conservato nell’allineamento di proteine omologhe.
8) Struttura terziaria
SwissModel :
Identificazione dei templati per la modellizzazione:
La ricerca con GappedBlast non produce risultati.
La ricerca basata su Hidden Markov Models identifica due templati.
1n02A
1iiyA
Length: 106
Length: 106
Eval: 9.34e-27 1n02A.mod#1
Eval: 5.99e-26 1iiyA.mod#1
Classificate in SCOP come All-beta protein , fold: cianovirin-N, in CATH Classe: Mainly Beta;
Architettura: Roll; Topologia: Cyanovirin-N.
L’allineamento struttura terziaria della prima, visualizzata con PyMOL, è costituita da 1 elica, e da
10 foglietti beta. La seconda è costituita da 2 eliche e da 10 strand (Fig.4).
Con SwissPDBViewer e Pymol viene visualizzato l’allineamento del target (proteina ipotetica) con
il templato (1n02A, Fig. 5), e la struttura terziaria predetta per il target (Fig. 6).
Fig. 5: Allineamento della struttura terziaria predetta della proteina ipotetica target (in viola i βstrand, in rosa i loop, in azzurro le α-eliche) con quella di CV-N di Nostoc (1n02A, in grigio). In
giallo sono evidenziate le porzioni che nella proteina target risultano assumere una differente
struttura secondaria rispetto al templato di riferimento.
Fig. 6: Struttura terziaria predetta per la proteina ipotetica di G. zeae. (in viola i β-strand, in rosa i
loop, in azzurro le α-eliche, in giallo le porzioni con srtuttura secondaria differente rispetto a CV-N
di Nostoc).
9)
Analisi di funzione
STRING: nessun risultato.
10) Ricostruzione filogenetica (pacchetto PHYLIP)
Il risultato dell’allineamento effettuato con clustal w e salvato in formato .phy è caricato in
ProtDist. La matrice di distanza ottenuta è utilizzata dal programma Neighbor per ricostruire un
albero filogenetico visualizzabile con TreeView. Le distanze genetiche sono calcolate con la
matrice di sostituzione PAM (1 unità=100 PAM), e l’algoritmo di clustering utilizzato è Neighbour
Joining e UPGMA. La radice dell’albero viene posizionata utilizzando come outgroup la sequenza
di CVN di Nostoc.
La validità dei nodi individuati è testata attraverso il procedimento di bootstrap. L’allineamento
delle sequenze viene caricato in Seqboot, i set ottenuti sono caricati in ProtDist e l’outfile è caricato
in Neighbor. I valori di bootstap supportano i nodi principali.
R17kD
R17kD e
inserzione LysM
Albero NJ unrooted, con valori di bootstrap. I valori più alti supportano la suddivisione del
cluster che raggruppa le omologhe alla cianovirina con a monte il dominio R17kD e l’inserzione
del dominio LysM. In rosso la proteina ipotetica in studio.
Ne|1146794
An|1452460
Nf|1194827
R17kD
a monte
Af|7098708
Bf|1543171
Gz|4611542
Pn|1110704
R17kD a
monte,
inserzione
LysM
Gz|4255199
An|1452294
Pn|1110560
At|1154027
Ao|8376952
Bf|1543143
Nf|1194973
Af|7099026
Tb|5638512
Nf|1194673
Ao|8377021
Ao|8377004
An|1452470
At|1154014
At|1154496
Albero UPGMA, rooted con la sequenza di Nostoc ellipsosporum come outgroup. Le frecce verdi
indicano un esempio di sequenze paraloghe, provenienti dallo stesso organismo. L’albero
suggerisce che siano avvenute almeno 4 duplicazioni geniche nella storia evolutiva delle
omologhe alla CV-N.