Scarica

Transcript

Scarica
Borsa di studio GARR “Orio Carlini”
a) Tema proposto per l'attività:
Sperimentazione del file system distribuito HDFS in ambiente GRID
b) Struttura ospitante, ed i riferimenti del direttore e di un tutor della
struttura stessa:
Struttura
ospitante:
Istituto Nazionale di Fisica Nucleare, sezione di Bari
Via E. Orabona n. 4, 70125 Bari, Italy
Tel: +39 080 544 32 01. Fax: +39 080 544 24 70
[email protected]
Direttore
Eugenio Nappi
[email protected]
Tutor
Domenico Diacono
[email protected]
c) Dettaglio dell’attività proposta:
Esiste un interesse diffuso nella comunità GRID nazionale ed internazionale sui problemi collegati
alla condivisione geografica di dati. In particolare sono interessanti per le loro immediate
applicazioni in esperimenti INFN meccanismi di replica geografica capaci di preservare i dati,
mediante ridondanza, senza sovraccaricare eccessivamente i link geografici.
Esistono dei file system distribuiti che potrebbero essere utilizzati per realizzare tale scopo. Di
particolare rilievo sembra il file system HDFS (Hadoop Distribuited File System), già usato anche in
molte realtà commerciali come Facebook, Yahoo, Ebay, etc.
HDFS, creato da Doug Coutting a supporto del progetto di sviluppo del motore di ricerca Nutch, è
un file system distribuito, specificatamente progettato per l’esecuzione di applicazioni high
throughput su dataset dell’ordine del Petabyte, distribuiti su migliaia di nodi, con singoli file che
possono arrivare al Terabyte. L’architettura è di tipo master-slave: il nodo master (namenode)
suddivide i file in blocchi e li distribuisce sui nodi slave (datanode), che li salvano come file ordinari
sul proprio disco locale. Per assicurare l’integrità dei dati in caso di guasti ad uno o più datanode,
ogni blocco è replicato un certo numero di volte, di default tre: l’originale, una copia sullo stesso
rack e una su un rack diverso.
L'attività del candidato consisterà inizialmente nell’installazione del file system Hadoop sulla
infrastruttura INFN locale (sezione di Bari).
Il raggiungimento di questo primo passo coinciderà con il completamento della migrazione della
infrastruttura di rete passando da GARR a GARR-X che consentirà un aumento delle prestazioni di
banda, ottenendo un link a 10 Gbps contro gli attuali 2 Gbps che potrebbero trasformarsi in un
collo di bottiglia.
Quando GARR-X sarà attivo, si procederà con la verifica delle funzionalità del modulo di replica di
HDFS su link geografico, utilizzando per le prove la GRID INFN in produzione con la collaborazione
della sezione INFN di Napoli focalizzando l’attenzione sull’ampiezza di banda utilizzata dal file
system.
Il candidato verificherà inoltre le funzionalità e l'efficienza del modulo che consente di effettuare
un Distributed Raid File System (DRFS) il quale garantirà una maggiore tolleranza ai guasti. Il
maggior livello di protezione consentirà di ridurre al minimo il livello di replicazione dei dati
mantenendo la stessa garanzia di disponibilità che si traduce in un notevole risparmio di spazio di
archiviazione.
La fase di verifica consisterà nel testare l’effettiva funzionalità dei moduli, individuando le criticità
(ed eventuali soluzioni ottimizzate) attraverso software di monitoring che sarà opportunamente
individuato.
In un secondo momento, una volta verificate le funzionalità già presenti nel modulo di ridondanza,
il candidato potrà modificare il comportamento predefinito, sia agendo sui parametri di
configurazione sia sviluppando in proprio nuove regole e algoritmi di replica, adeguandolo alla
specifica architettura della grid in modo da poter ridurre al minimo l’utilizzo della banda e il tempo
di latenza, senza perdere in affidabilità.
Una particolare attenzione sarà posta alla ottimizzazione in vista della utilizzazione in centri di
calcolo distribuiti del tipo Tier 1 e Tier 2. E' prevista la realizzazione di un centro Tier1 distribuito
tra le sedi INFN di Bari, Napoli e Catania per il calcolo di SuperB, il progetto di ric erca
internazionale recentemente finanziato dal Governo. In questo ambito l'uso di un file system
distribuito troverà una immediata applicazione.
d) Profilo del candidato, con breve curriculum e con indicazione del voto di
laurea e degli esami sostenuti:
Informazioni personali
Nome(i) / Cognome(i)
Giovanni Marzulli
Indirizzo(i)
10, via Verona, 70026 Modugno (BA), Italia
Telefono(i)
+39 080 5324318
E-mail
Cittadinanza
Data di nascita
Sesso
[email protected]
Italiana
05/04/87
Maschio
Cellulare:
+39 3405253642
Esperienza
professionale
Date
Lavoro o posizione ricoperti
Principali attività e
responsabilità
Nome e indirizzo del datore di
lavoro
Dal 08/06/2009 al 08/06/2011
Vincitore Borsa di formazione tecnica
Amministrazione server (Web, Mail, SSH, ecc.) su sistemi Linux, amministrazione
reti (VPN), sviluppo software di monitoraggio di rete, sviluppo di componenti
Joomla!.
Istituto Nazionale di Fisica Nucleare, Sezione di Bari
4, via E. Orabona, 70125 Bari
Servizio Calcolo e Reti
Istruzione e formazione
Date
Titolo della qualifica rilasciata
Principali
tematiche/competenze
professionali acquisite
Esami sostenuti con voto
Nome e tipo d'organizzazione
erogatrice dell'istruzione e
formazione
Date
Titolo della qualifica rilasciata
Principali
tematiche/competenze
professionali acquisite
Nome e tipo d'organizzazione
erogatrice dell'istruzione e
formazione
Date
Titolo della qualifica rilasciata
Principali
tematiche/competenze
professionali acquisite
Nome e tipo d'organizzazione
erogatrice dell'istruzione e
formazione
Dal 02/10/2006 al 29/04/2011
Laurea Triennale in Informatica e Tecnologie per la Produzione del Software
(votazione 108/110)
Metodi, tecniche e tool per l'analisi, progettazione e manutenzione di software
applicativo.
Progettazione di basi di dati.
Reti di calcolatori.
Tesi di laurea in Programmazione per il Web dal titolo: “Riprogettazione del
portale web dell'INFN di Bari e sviluppo di un componente Joomla!”.
Analisi matematica (20/30), Architettura degli elaboratori (28/30), Lingua Inglese
(Idoneo), Lingua Italiana: tecniche di comunicazione (Idoneo), Linguaggi di
programmazione (30/30 e Lode), Matematica discreta (30/30), Programmazione
(27/30), Sistemi operativi (30/30), Algoritmi e strutture dati (26/30), Analisi dei
dati per l’ingegneria del software (27/30), Gestione dell’informazione aziendale
(28/30), Ingegneria del software (26/30), Metodi di osservazione e misura (26/30),
Programmazione per il Web (25/30), Progettazione di basi di dati (24/30), Reti di
calcolatori (30/30 e Lode), Economia dell’innovazione (25/30), Gestione della
conoscenza d’impresa (25/30), Ingegneria della conoscenza e sistemi esperti
(30/30 e Lode), Modelli per la qualità del software (27/30), Progettazione
dell’interazione con l’utente (21/30).
Università degli Studi di Bari “Aldo Moro”
Facoltà di Scienze Matematiche Fisiche Naturali
4, via E. Orabona, 70125 Bari
Dal 03/01/2007 al 29/03/2007
Attestato di frequenza “Riprogetta il tuo futuro come Web designer”
Utilizzo del pacchetto Adobe Creative Suite, creazione di siti web utilizzando le
tecnologie (X)Html/Css.
Istituto Tecnico Commerciale “Tommaso Fiore”
4, via Padre A. M. Di Francia, 70026 Modugno (Ba)
Dal 15/09/2001 al 8/06/2006
Diploma di Ragioniere e perito commerciale programmatore (votazione 85/100)
Economia aziendale, economia politica, diritto, programmazione.
Istituto Tecnico Commerciale “Tommaso Fiore”
4, via Padre A. M. Di Francia, 70026 Modugno (Ba)
Capacità e competenze
personali
Madrelingua(e)
Italiano
Altra(e) lingua(e)
Autovalutazione
Comprensione
Ascolto
Livello europeo (*)
Inglese
B1
Utente
autonomo
B1
Parlato
Scritto
Lettura
Interazione orale Produzione orale
Utente
autonomo
A2
Utente
base
B1
Utente
autonomo
B1
Utente
autonomo
(*) Quadro comune europeo di riferimento per le lingue
Capacità e competenze
sociali
Buone capacità di comunicazione orale e scritta.
Buone capacità di partecipazione allo spirito di gruppo.
Capacità e competenze
organizzative
Autonomia e problem solving.
Flessibilità.
Buone capacità di adattamento alle esigenze del lavoro di gruppo.
Capacità e competenze
informatiche
Competenza sulle piattaforme Windows, Linux, sugli applicativi d'ufficio per cui
conseguita ECDL il 12/05/2005.
Buona conoscenza dei linguaggi di programmazione Visual Basic, Java, Assembly;
linguaggi di scripting Javascript, Php, Python; linguaggio di interrogazione Sql;
linguaggi di markup (X)Html, Xml e i relativi Css e Xsl.
Esperienze d'uso di prodotti di virtualizzazione (VirtualBox, VmWare).
Conoscenza approfondita dello stack TCP/IP e dei relativi protocolli Telnet, FTP,
HTTP/HTTPS, SSL/TLS, SSH, POP, IMAP, DHCP, SMTP.
Consolidate esperienze di gestione e configurazione di reti locali.
Esperienza d'utilizzo dei DBMS Access, MySql, PostgreSQL.
Patente
Automobilistica (categoria B, A3)