Analisi computazionale di una proteina ipotetica
Transcript
Analisi computazionale di una proteina ipotetica
Corso di Biochimica computazionale Greta Gandolfi LS Ecologia Analisi informatica di una proteina ipotetica ID proteina: EAA74842 Ricerca in banca dati NCBI (http://www.ncbi.nlm.nih.gov/Genbank/index.html) della query EAA74842 Risultato: - 1 proteina ipotetica di Gibberella zeae, 108 aminoacidi (XP_385151) - 1 gene (FG04975, mRNA XM_385151) individuato in un contig ottenuto dal sequenziamento shotgun dell’intero genoma. Tassonomia dell’organismo: Eukaryota; Fungi; Ascomycota; Pezizomycotina; Sordariomycetes; Hypocreomycetidae; Hypocreales; Nectriaceae; Gibberella. 1) Localizzazione cromosomica e numero di introni/esoni Posizione del gene: cromosoma 3. Costituito da 3 esoni 2 introni. 2) Caratteristiche fisico-chimiche e localizzazione cellulare ProtParam Numero aa: 108 Peso molecolare: 11668.4 pI: 3.72 Percentuale dei diversi aa: abbondanza relativa di glicina e di aminoacidi carichi positivamente: Asn (N) 12 11.1% Asp (D) 12 11.1% Gly (G) 14 13.0% Numero totale di residui carichi positivamente (Asp + Glu): 22 Numero totale di residui carichi negativamente (Arg + Lys): 2 SignalP Assenza di peptidi segnale e di ancore di membrana, la proteina non è probabilmente secretoria. (Fig.1) Psort Non vengono riconosciuti motivi noti. Predizione: 44.0 %: extracellulare, o di membrana 16.0 %: citoplasmatica 16.0 %: nucleare Pestfind Nessun risultato Dai risultati ottenuti la proteina è probabilmente citoplasmatica. 3) Ricerca di omologia BLAST (http://www.ncbi.nlm.nih.gov/BLAST/) ProteinBlast Risultati: 56 Hit, allineamenti significativi con proteine ipotetiche di funghi ascomiceti. Allinaemento con punteggio basso e un valore di e non significativo con cianovirina-N di Nostoc ellipsosporum (e=0.012). Taxonomy report: diversi hit per lo stesso organismo, con diversi score di allinaemento. Es: . . . . . . . . . . . . . cellular organisms ....................... . . Sordariomycetes ...................... . . . Gibberella zeae PH-1 ............... . . . . . Neurospora crassa .............. . . . Magnaporthe grisea ................. . . Eurotiomycetidae ..................... . . . . Aspergillus ...................... . . . . . Aspergillus terreus NIH2624 .... . . . . . Aspergillus oryzae ............. . . . . . Aspergillus niger .............. . . . . . . Aspergillus niger CBS 513.88 . . . . . . Aspergillus fumigatus Af293 .... . . . . . Aspergillus clavatus NRRL 1 .... 106 25 2 8 7 49 35 6 9 6 3 6 8 hits hits hits hits hits hits hits hits hits hits hits hits hits 24 6 1 2 2 9 6 1 1 2 1 1 1 orgs orgs orgs orgs orgs orgs orgs orgs orgs orgs orgs orgs orgs [Eurotiomycetes] [mitosporic Trichocomaceae] [Aspergillus terreus] [Aspergillus fumigatus] [Aspergillus clavatus] PSI blast Ripetendo la ricerca con PSI blast, includendo nella prima iterazione proteine ipotetiche con un e < di 10-5 l’ allineamento con la cianovirina-N di N.ellipsosporum diventa significativo. sp|P81180|CVN_NOSEL Cyanovirin-N (CV-N) >pdb|2EZM| Chain , ... 84.3 2e-15 tBLASTn Sequenze a cDNA di funghi ascomiceti. Una sequenza espressa in Magnaporthe grisea, il profilo di espressione indica che il gene viene trascritto nella porzione del micelio fungino, in tutti gli stadi di sviluppo. pBlast intragenomico: 2 proteine ipotetiche nello stesso organismo, una sul cromosoma 3 e un’altra, con però score di allineamento molto basso, sul cromosoma 2. 4) Regioni ripetute Dotter: Il confronto della sequenza con se stessa evidenzia che questa è costituita da due ripetizioni di 50 aa circa. Lo stesso risultato si ottiene con la cianovirina di Nostoc (Fig.2). 5) Ricerca di domini con Pfam La ricerca di domini con Pfam individua il dominio della cianovirina-N (ID:P81180) 6) Allineamento di 21 proteine omologhe (ortologhe e paraloghe) di ascomiceti con la sequenza di cianovirina-N di N ellipsosporum. Programma: Clustal w Parametri: Matrice di punteggio: Gonnet (Pam250). Penalità Gap: apertura 10; estensione 0.2. Visualizzazione dell’allineamento con GeneDoc e ESPripr 2.2. Alcune proteine hanno un dominio conservato a monte del dominio della CV-N, altre (tra cui la proteina paraloga a quella di interesse) hanno anche un’inserzione a metà del dominio di CVN. La ricerca di domini con Pfam di queste individua la presenza del dominio “Rick17KD_Antigene”a a monte del dominio CV-N, e il dominio “LysM” tra le due ripetizioni del dominio CV-N. Gli aminoacidi che risultano maggiormente conservati nell’allineamento sono quelli coinvolti nel mantenimento della struttura secondaria della proteina, descritta per la CV-N in PDB e SwissProt. Le posizioni che determinano i β-strandi e i turn (Glicina) sono conservate in quasi tutte le omologhe fungine della CV-N di Nostoc. Le posizioni che determinano le α- eliche (un residuo idrofobico ogni 4) sono conservati in alcuni casi. I residui di cisteina, che determinano la formazione di ponti disolfuro nella CVN, non risultano conservate nelle omologhe fungine. I residui che determinano l’interazione tra le due catene di CV-N per la formazione di un dimero (Pro 51, Ser 52 e Asn 53) non risultano conservate, come neanche i residui che formano i due siti di legame per gli zuccheri in CV-N. (Fig.3 e 4) SEQUENZE OMOLOGHE ALLINEATE: >Gz|42551999|gb|EAA74842.1| hypothetical protein FG04975.1 [Gibberella zeae PH-1] >Gz|46115424|ref|XP_383730.1| hypothetical protein FG03554.1 [Gibberella zeae PH-1] >At|115402759|ref|XP_001217456.1| conserved hypothetical protein [Aspergillus terreus NIH2624] >At|115401402|ref|XP_001216289.1| predicted protein [Aspergillus terreus NIH2624] >At|115449667|ref|XP_001218665.1| predicted protein [Aspergillus terreus NIH2624] >Ao|83769528|dbj|BAE59663.1| unnamed protein product [Aspergillus oryzae] >Ao|83770215|dbj|BAE60348.1| unnamed protein product [Aspergillus oryzae] >Ao|83770041|dbj|BAE60176.1| unnamed protein product [Aspergillus oryzae] >Pn|111056088|gb|EAT77208.1| hypothetical protein SNOG_15275 [Phaeosphaeria nodorum SN15] >Pn|111070490|gb|EAT91610.1| hypothetical protein SNOG_00115 [Phaeosphaeria nodorum SN15] >An|145229423|ref|XP_001389020.1| hypothetical protein An01g05960 [Aspergillus niger] >An|145247094|ref|XP_001395796.1| hypothetical protein An12g07470 [Aspergillus niger] >An|145246098|ref|XP_001395298.1| hypothetical protein An12g02120 [Aspergillus niger] >Nf|119497325|ref|XP_001265421.1| conserved hypothetical protein [Neosartorya fischeri NRRL 181] >Nf|119482758|ref|XP_001261407.1| glutamine-serine-proline rich protein, putative [Neosartorya fischeri NRRL 181] >Nf|119467382|ref|XP_001257497.1| conserved hypothetical protein [Neosartorya fischeri NRRL 181] >Af|70990260|ref|XP_749979.1| conserved hypothetical protein [Aspergillus fumigatus Af293] >Af|70987083|ref|XP_749023.1| glutamine-serine-proline rich protein, putative [Aspergillus fumigatus Af293] >Bf|154314315|ref|XP_001556482.1| hypothetical protein BC1G_05251 [Botryotinia fuckeliana B05.10] >Bf|154317158|ref|XP_001557899.1| hypothetical protein BC1G_03481 [Botryotinia fuckeliana B05.10] >Tb|56385124|gb|AAV85993.1| cyanovirin-N-like protein [Tuber borchii] >Ne|11467947|sp|P81180|CVN_Nostoc Ellipsosporum Cyanovirin-N (CV-N) Ne|1146794 Gz|4255199 Ao|8376952 At|1154027 An|1452294 Pn|1110560 Bf|1543143 Nf|1194973 Af|7099026 At|1154014 Nf|1194827 An|1452460 Ao|8377021 Ao|8377004 At|1154496 Tb|5638512 An|1452470 Af|7098708 Nf|1194673 Gz|4611542 Bf|1543171 Pn|1110704 : : : : : : : : : : : : : : : : : : : : : : * 20 * 40 * 60 * 80 * 100 LGKFSQTCYNSAIQGS----VLTSTCERTNG-GYNTSSIDLNSVIENVD--------GSLKWQPSN----------------------FIETCRNTQLAGSSE--MGNFHESSNNIWLEDG---HILHAECGNGEG-DYVESTLDLDYYIGNDD--------GSFSWGGEN----------------------FSGSASNITLDIEGDDNI MS-FHQSAEDIEIKDN---HILFARLRNEDG-DLKDAEINLDEFLGNDD--------GHFQWGGEN----------------------FSHTADDVHFAIEGDDEV MS-FHERAEDIRVDDG---HILVARLANGDG-DFQEASIDLDRFLGNSE--------GSFEWGGQN----------------------FSHTAEDISFHLEGDGNV MS-FFRTASDIRVDDG---HILVANVANEEG-EMVESTLDLNSCIGNEE--------GRFLWGGND----------------------FAGSAEDISFAIEGEDNV MT-FHYSAEDIRVDDG---HILRARLQRADG-EYNDAELDLNNHIGNDN--------GSFVWDGEG----------------------FSGSAENVHFSIEGDGEV MS-FHLSAEDIRIDDN---HILRARLRNENG-DWEDAEIDLNEHIGNED--------GMIHWDGVN----------------------FSHSAENVTFSIEGGGQV MS-FHLTAEDIRVEDG---HILVARLRNADG-EMRDASIDLDKYLGNNN--------GRFQWDGVN----------------------FSHSAEEVHFAIEGGGEV MS-FHLTAEDIRIEDG---HRLVARLRNADG-DLQDASIDLNTCLGNDN--------GHFQWDGVD----------------------FSHSAQDVHFAIEGGGQV SFQQSACDIHLNPEREGT-TSLVAICNNDEG-SGLTSKIPLDKFLGNED--------GHFVWGGKN----------------------ITQSCRNMQLRREGPNRL RGNFSASSTEISLEHN---YELTARCRSISG-ELHRSSISLNSVLSNHF--------GSFVWARGG----------------------FGASARNVHLAEGGRV-RGNFSASSRDIRLESH---HDLVAACGRVSG-ELQLSVLPLNSVLANHW--------GKFAWERNG----------------------FAASARNVRLVDGGRV--MSFHQSCDLIRIEVRGDHTVLLAAAKNGDGDETVPAEIVLDEQIGNGD--------GWFVRGGEN----------------------FTETAHEIELEFREDGPW MGSFHHTARNWRIKVDNGVTLFRVEVKDLHG-NWVERTIRLDDHIGNTDDGSHKGCTGWFIWGGKN----------------------FTQSARDIRLEDTEWGPK HMSSRQIPGQPWIYNSFGHTHLQAQCLDEDG-QWQNSDIDLDNVIGEER----VVPLDELVWGDQN----------------------FTAESKSVNFAFEQTPAQ -MSYADSSR--NAVLTNGGRTLRAECRNADG-NWVTSELDLDTCIGNPN--------GFLGWGMQN----------------------FSHSSEDIKLE--EGGRK -MSFHNSCQNIHLIHEPGATFLHAEVRRANG-EYVARKIRLDRHIGNTD--------GWFIWGGSN----------------------FTETAKDIQLENTGRGPK RGNFSASSTEISLEHD---YELTARCRSISG-EMHRSSISLNSVLSNHF--------GSFVWARGG----------------------FGASARNVHLAEGGRV--MALHKTCEHLQIIRRIDTTDLVADARNSSG-RRIPNKIRLDDHIGAKD--------GRLVWGGQN----------------------FTHSAGQVFLEQTEHGAI AGNFTASSRDIRLDTHGE-YVLHASCKRENG-DYQHTSISLNKLLENDR--------GSFRWSAGGDLIYPGQTLSIPGGGSQGGG-GFGNSARHVRLVDGGQR-GGNFTTSSNDVRLDSHGD-YNLHAQCRRTDG-SYQSSTISLNRYIENDN--------GSLRWSSGGDQIWPGQNLRVPGGGGHGGGGNFGASARNVRLSRSGQE-GANFSASSRDIRLDSHGE-FNLHAQCRRADG-SYQASTISLNSILENDG--------GSFRWS-GGDMIYPGQNLQVPGGGSRGGG-NFGASARNLRLVDGGQR-l a G 6 L1 6 n g w f a Ne|1146794 Gz|4255199 Ao|8376952 At|1154027 An|1452294 Pn|1110560 Bf|1543143 Nf|1194973 Af|7099026 At|1154014 Nf|1194827 An|1452460 Ao|8377021 Ao|8377004 At|1154496 Tb|5638512 An|1452470 Af|7098708 Nf|1194673 Gz|4611542 Bf|1543171 Pn|1110704 : : : : : : : : : : : : : : : : : : : : : : * 120 * --LAAECKTRAQQFVSTK-INLDDHIANIDG PVLRAELNPMDGDPVEAN-VNLSERIGNDCG PVLRAVLLNGEGEPVESN-VNLSERINNDDG PVLRARLASSDGELHDAD-VNLAERIGNENG PVLRARLQNSEGELFDAD-VNLGEHVTNNNG PVLRATLFDGDGNGTERD-LNLGERVSNNDG PVLRTFLRSRDGEEFSRD-VNLAERIENHNG PVLRAQLANQDGGFESAD-VNLSERIENING PVLRAQLANQDGEFQDAD-VNLSERIENING PILHADLRNSAGDFVPAD-CHLEEHIWNIDG --LDAELADGNGHWKRAW-VRLDERITNQNG --LEAELADGNDGWNRTW-IRLDERITNQNG --LTAFLTEVDGEDRERQGINLADHIGNDCG --LVAVMRSNDGGDRGLQGMLLGDKIENRNG PILRATFFDNNSAPKNTA-----ERIANVDG --LTCRPKTVDGGFRERQGIDLN-RIQNVNG --LTAYLRKRDGGYRELQGLYLADKIANENG --LDAELADGNGHWKRAW-VRLDERITNQNG --MCAEMNK-DGGSANRQELNLSDKIVNFDG --LEGELSRD-GDWVLSS-IVLDERIRNYNG --LEAELAP---SWHTST-LNLDERIGNNNG --LEGELLRD-GQWHVRS-IVLDERIANRNG 6 a g l 6 N G : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 68 72 71 71 71 71 71 71 71 74 70 70 75 83 79 70 74 70 74 93 94 92 96 102 101 101 101 101 101 101 101 104 98 98 104 112 105 98 103 98 102 120 119 119 Fig. 3: Allineamento di 21 proteine omologhe visualizzato con GeneDoc, la prima sequenza (Ne) è quella della Cianovirina-N di Nostoc. Fig. 4: Allineamento di 21 proteine omologhe visualizzato con ESPripr 2.2. La prima sequenza è quella di CV-N di Nostoc, a cui si riferisce la struttura secondaria riportata (PDB ID: 1iiy). Evidenziati in giallo: siti di legame primario della CV-N con il mannoso; evidenziati in azzurro: siti di legame secondario con il mannoso; cerchiati in rosa: residui coinvolti nella formazione del dimero di CV-N. La freccia rossa indica la fine dell’inserzione del dominio LysM nelle ultime tre sequenze. Le ultime sei sequenze presentano a monte del dominio CV-N il dominio Rick17KD_Antigene. 7) Ricerca di pattern e profili Prosite (http://www.expasy.ch/tools/scanprosite/) Nessun risultato. Escludendo l’opzione che elimina i pattern ad alta probabilità di occorrenza casuale, vengono individuati 9 motivi di glicosilazione, fosforilazione e miristilazione. Nessuno risulta però conservato nell’allineamento di proteine omologhe. 8) Struttura terziaria SwissModel : Identificazione dei templati per la modellizzazione: La ricerca con GappedBlast non produce risultati. La ricerca basata su Hidden Markov Models identifica due templati. 1n02A 1iiyA Length: 106 Length: 106 Eval: 9.34e-27 1n02A.mod#1 Eval: 5.99e-26 1iiyA.mod#1 Classificate in SCOP come All-beta protein , fold: cianovirin-N, in CATH Classe: Mainly Beta; Architettura: Roll; Topologia: Cyanovirin-N. L’allineamento struttura terziaria della prima, visualizzata con PyMOL, è costituita da 1 elica, e da 10 foglietti beta. La seconda è costituita da 2 eliche e da 10 strand (Fig.4). Con SwissPDBViewer e Pymol viene visualizzato l’allineamento del target (proteina ipotetica) con il templato (1n02A, Fig. 5), e la struttura terziaria predetta per il target (Fig. 6). Fig. 5: Allineamento della struttura terziaria predetta della proteina ipotetica target (in viola i βstrand, in rosa i loop, in azzurro le α-eliche) con quella di CV-N di Nostoc (1n02A, in grigio). In giallo sono evidenziate le porzioni che nella proteina target risultano assumere una differente struttura secondaria rispetto al templato di riferimento. Fig. 6: Struttura terziaria predetta per la proteina ipotetica di G. zeae. (in viola i β-strand, in rosa i loop, in azzurro le α-eliche, in giallo le porzioni con srtuttura secondaria differente rispetto a CV-N di Nostoc). 9) Analisi di funzione STRING: nessun risultato. 10) Ricostruzione filogenetica (pacchetto PHYLIP) Il risultato dell’allineamento effettuato con clustal w e salvato in formato .phy è caricato in ProtDist. La matrice di distanza ottenuta è utilizzata dal programma Neighbor per ricostruire un albero filogenetico visualizzabile con TreeView. Le distanze genetiche sono calcolate con la matrice di sostituzione PAM (1 unità=100 PAM), e l’algoritmo di clustering utilizzato è Neighbour Joining e UPGMA. La radice dell’albero viene posizionata utilizzando come outgroup la sequenza di CVN di Nostoc. La validità dei nodi individuati è testata attraverso il procedimento di bootstrap. L’allineamento delle sequenze viene caricato in Seqboot, i set ottenuti sono caricati in ProtDist e l’outfile è caricato in Neighbor. I valori di bootstap supportano i nodi principali. R17kD R17kD e inserzione LysM Albero NJ unrooted, con valori di bootstrap. I valori più alti supportano la suddivisione del cluster che raggruppa le omologhe alla cianovirina con a monte il dominio R17kD e l’inserzione del dominio LysM. In rosso la proteina ipotetica in studio. Ne|1146794 An|1452460 Nf|1194827 R17kD a monte Af|7098708 Bf|1543171 Gz|4611542 Pn|1110704 R17kD a monte, inserzione LysM Gz|4255199 An|1452294 Pn|1110560 At|1154027 Ao|8376952 Bf|1543143 Nf|1194973 Af|7099026 Tb|5638512 Nf|1194673 Ao|8377021 Ao|8377004 An|1452470 At|1154014 At|1154496 Albero UPGMA, rooted con la sequenza di Nostoc ellipsosporum come outgroup. Le frecce verdi indicano un esempio di sequenze paraloghe, provenienti dallo stesso organismo. L’albero suggerisce che siano avvenute almeno 4 duplicazioni geniche nella storia evolutiva delle omologhe alla CV-N.