Conad del Tirreno

Transcript

Conad del Tirreno
22 Marzo 2012
Silvio Torracchi - [email protected]
Direzione It Conad Del Tirreno
Resp. Infrastrutture ed Operation
Piano di It Disaster Recovery
1
1
CONAD DEL TIRRENO
FATTURATO AL PUBBLICO > 2MLD/EURO
N. PDV = 329
MQ AREA DI VENDITA = 211.000
N.DIPENDENTI SISTEMA = oltre 7.000
2
2
Conad del Tirreno
Conad del Tirreno, una delle otto Cooperative del gruppo Conad,
è una grande cooperativa di imprenditori indipendenti associati che oggi con i
suoi 223 soci rappresenta una delle maggiori imprese italiane della distribuzione
associata. Con i suoi 7000 addetti di sistema, sviluppa un fatturato sulla rete di
1.950 milioni di euro.
Per questo motivo, ogni giorno
migliaia di consumatori trovano
nei punti di vendita
di Conad del Tirreno
convenienza, qualità,
servizio in un vasto assortimento.
3
3
Conad del Tirreno
Conad del Tirreno è un’impresa cooperativa multicanale, in grado di soddisfare le
esigenze di acquisto del consumatore, mutando con coerenza dimensione e formati dei
punti di vendita e coprendo
sia un ruolo di prossimità sia di attrazione.
Conad del Tirreno, fortemente radicata sul territorio, è presente
con 326 punti di vendita in: Toscana, parte del Lazio, Sardegna, a La Spezia e
provincia.
11
IPERMERCATI E.LECLERC CONAD
36
CONAD SUPERSTORE
124 SUPERMERCATI CONAD
2
SAPORI & DINTORNI CONAD
87
CONAD CITY
66
MARGHERITA
In cui sono integrati 16 Corner di Parafarmacia e
3 Distributori di Carburante.
Direzione IT di Conad Del
TIrreno
•19 persone in totale
•Di cui 9 in area Infrastruttura ed
Operation (compreso service
desk)
4
4
Piano di Disaster Recovery dell’IT di CONAD
Il Piano di Disaster Recovery dell’IT consiste di procedure finalizzate ad assicurare
il funzionamento del sistema informativo in un DataCenter alternativo a quello di
produzione.
Il Piano di Disaster Recovery di CONAD ha come scenario di riferimento la
indisponibilità del Datacenter di produzione di CONAD in via Bure Vecchia Nord, 10 a
Pistoia e ha l’obiettivo di effettuarne il ripristino nel Datacenter alternativo a Settimo
Milanese (Milano) presso IBM.
Attualmente la Direzione IT di CONAD è in grado di riattivare i sistemi informativi
critici presso il Datacenter di Settimo Milanese entro 72 ore dalla dichiarazione di
disastro.
Day 0
Test / Disastro
DATA
BACKUP
Day -1
5
5
La storia e le motivazioni
•
Nel 2006 Conad Del Tirreno ha concentrato la propria organizzazione in
una nuova sede a Pistoia.
•
In tale location (circa 5000 mq di uffici) è stato progettato e realizzato il
datacenter
•
La localizzazione in un unico site di tutte le infrastrutture It assumeva un
elemento di elevata criticità, poiché la indisponibilità prolungata dei servizi It
in caso di disastro avrebbe potuto mettere a rischio la sopravvivenza stessa
dell'azienda
•
La realizzazione di una soluzione in campus fu scartata, sia perché
fisicamente non di semplice implementazione, sia perché non avrebbe
potuto dare sufficienti garanzie in alcune situazioni di disastro
•
Si optò pertanto verso la identificazione di una soluzione di disaster
recovery presso un site secondario, e fu dato il via ad Ibm alla realizzazione
di uno studio di fattibilità
6
6
Alcuni requisiti e linee guida
•
Le caratteristiche del business e della architettura It a supporto determinavano :
–
–
–
Sotto le 72 ore di disservizio
→ danni non gravi al business
Tra 72 ore e 6 giorni di disservizio → danni gravi (perdita di vendite ed immagine)
Oltre 7 giorni di disservizio
→ vita dell'azienda a rischio
•
Un RPO (perdita dati ammessa) di massimo di 24 ore fu considerato accettabile in
caso di disastro
•
Pertanto la implementazione di una soluzione “a caldo” fu scartata nelle prime fasi di
analisi, anche a causa dei costi nettamente più elevati e ci si indirizzò verso una
soluzione che puntasse a garantire la ripartenza dei servizi critici entro 48 max 72
ore dal disastro; per i servizi non critici veniva considerata accettabile una ripartenza
entro 7 giorni
•
La soluzione doveva comprendere la riattivazione di tutte le capacità funzionali del
datacenter primario e la connettività verso la intranet, internet, extranet
•
I tempi di ripartenza e la snellezza dell'organigramma It dell'azienda (9 persone tra
Operation ed Infrastrutture) determinavano il requisito che la riattivazione della
infrastruttura (reti, sistemi, ripristino dati) venisse effettuata “chiavi in mano” dal
fornitore del servizio (demandando all’It dell’azienda la ripartenza dei servizi
applicativi)
7
7
Caratteristiche salienti della soluzione identificata
• Esecuzione giornaliera del backup dei dati del site di Pistoia (tramite
soluzione Tivoli Storage Manager su sistema VTL, con produzione
tape destinati ad un bunker remoto secondario)
• Servizio giornaliero di raccolta tape destinati al bunker remoto
(presso Fidenza)
• Server farm presso Settimo Milanese attivabile “on-demand” (il
provisioning dei server, della rete, dello storage avviene
dinamicamente in poche ore solo in caso di disastro, a cura di Ibm)
• Switch on-demand della connettività wan/internet tra site primario e
site di disaster recovery (a cura dei provider)
• Ripristino sistemi e dati dai tape prelevati dal bunker remoto (a cura
di Ibm); ripartenza servizi applicativi (a cura di It Conad Del Tirreno)
8
8
La architettura della soluzione
A fianco la
architettura
esemplificata.
In caso di disastro
sulla sede
principale di Pistoia
(in giallo), subentra
entro 72 ore il site
“on demand” di
Settimo che
assume gli
indirizzamenti di
rete di Pistoia e si
ricollega al network
complessivo.
9
9
Cosa è avvenuto ed avviene (1/2)
•
La prima simulazione di ripristino del disaster recovery è stata effettuata a
febbraio 2008
•
L'attivazione del servizio il primo anno è stata relativamente onerosa e con
alcuni ricicli, negli anni successivi le procedure sono state perfezionate (in
ogni caso le attività preparatorie e manutentive nel corso dell'anno hanno
sempre un certo rilievo)
•
Molte difficoltà sono state superate grazie all’impiego esteso (anche nel site
primario) della virtualizzazione (eliminazione di tutti i problemi di
compatibilità hw e firmware)
•
Inoltre nel tempo sono stati progressivamente eliminati vari apparati hw
“particolari” (es. modem, schede fax, workstation specializzate…) che
creavano spesso difficoltà nelle ripartenza
•
Nel primo test sono emerse alcune lacune alla policy di backup in vigore
(impossibilità di recuperare alcune informazioni)
•
Alcuni interventi sono stati effettuati anche sulle policy di backup al fine di
comprimere i tempi di ripristino dei sistemi e dare la priorità al ripristino dei
servizi mission critical (es. logistica, comunicazioni, servizi correlati alla
vendita…)
10
10
Cosa è avvenuto ed avviene (2/2)
•
I manuali con le procedure e tutte le informazioni sulla infrastruttura ed i
servizi atti a garantire la ripartenza sono stati perfezionati in base
all’esperienza, imparando dagli errori
•
Ogni anno il test viene ripetuto (tipicamente tra febbraio e marzo), ad oggi
possiamo dire che è divenuta una operazione pianificata di routine
•
Il test di simulazione non e’ concepito “pro-forma”, vi si dedica la massima
attenzione ed impegno, la quasi totalità dell’ It operation vi è coinvolto per
circa 5 giorni
•
Tipicamente vengono effettuati e circa 200 test (checklist pre-definita e
manutenuta nel tempo in relazione a variazioni sui servizi e sulla
infrastruttura) , per verificare la erogazione di circa 50 servizi
•
Il perimetro del disaster recovery comprende circa il 90% dei servizi it
erogati dalla server farm di pistoia (solo pochi sono volutamente esclusi), è
previsto anche il ripristino degli ambienti di sviluppo (allo stato attuale non
dei sistemi di staging)
•
Il test di “switch” della connettività (domini internet, wan/vpn sedi
periferiche… e’ stato effettuato soltanto una volta, in periodo festivo, poiché
determina la interruzione dell’attività sul site primario di Pistoia)
11
11
Cosa accade durante l’anno fino alla data del test
• Costante alimentazione e allineamento del portafoglio
dei servizi da ripristinare
• Puntuale allineamento dei dati di configurazione del
Networking
• Puntuale ed immediata comunicazione delle modifiche o
delle nuove implementazioni dei sistemi.
• Condivisione,perfezionamento e pianificazione delle best
practice attuative attraverso incontri periodici con il
responsabile del servizio di Ibm ed i tecnici delle aree
networking, storage, server
12
12
Start test Disaster Recovery
•
IBM recupera fisicamente i supporti depositati giornalmente da Conad del Tirreno nel
centro di Fidenza e di fatto inizia la procedura definita da precisi livelli di servizio
contrattuali.
•
IBM predispone tutta l’infrastruttura di rete, i Server (fisici e virtuali), la SAN e
successivamente inizia il recupero dei dati
•
IBM sulla base delle indicazioni di Conad del Tirreno fa una prima verifica del corretto
ripristino di tutti i sistemi
•
Durante la fase di ripristino, il personale dell’operation di Conad del Tirreno (che si
sposta a Settimo Milanese) supporta laddove si renda necessario
•
Conad del Tirreno esegue i test predefiniti in modo diretto o avvalendosi di fornitori di
soluzioni software che generalmente svolgono anche la funzione di application
maintenance. (collegati tramite Vpn)
•
Il test dura complessivamente circa 7-8 giorni lavorativi e viene svolto in “orario di
ufficio”; i tempi sono rendicontati e rielaborati al fine di simulare quale sarebbe il
risultato in termini di tempi di ripartenza reali in caso di disastro reale
•
IBM misura e recupera tutti i tempi necessari per il ripristino di ogni servizio in
funzione della priorità e criticità stabilita da Conad del Tirreno e ritorna un feedback
relazionando i risultati ottenuti
•
Nelle settimane successive all'esecuzione del test, i risultati vengono discussi ed
analizzati al fine di migliorare il servizio ed eliminare eventuali difettosità emerse
13
13
Test 2011- Alcuni risultati ……..
14
14
Test 2011 - Servizi ripristinati giornalmente
N. Servizi Attivati
12
11
10
10
8
6
servizi
6
5
5
5
4
4
4
3
2
2
1
0
0-8h
8-16h 16-24h 24-32h 32-40h 40-48h 48-56h 56-64h 64-72h 72-80h 80-88h
ore
15
15
Test 2011 - Totale check servizi ripristinati
Tutti i test previsti (190) sono stati eseguiti:
187 con esito positivo (98,4%)
3 con esito negativo (1,6%)
Numero test eseguiti
Test ko
3
( % 1,6)
Test ok
187
( % 98,4)
(*) n.b. risultato raggiunto al 4° anno di test, negli anni precedenti la % di esiti negativi era
più alta e si è progressivamente abbassata
16
16
Test 2011- Evidenze riscontrate e suggerimenti (example)
Infrastruttura:
Passwords:Verificare che il documento delle passwords sia completo ed aggiornato.
Windows / Linux:
Data Gathering: il Data Gathering risulta ancora parziale ed obsoleto in alcune delle
sue parti.
Per diminuire notevolmente i tempi di ripristino è fondamentale che le seguenti
informazioni siano presenti:
–
Sistema operativo, architettura, versione, service pack (es. Windows Server 2003 R2
Standard x64 Edition SP2)
–
Dettaglio dei dischi, numero, lettere e dimensioni
–
Dettaglio delle schede di rete, IP - NetMask - GW - DNS - WINS)
–
Tipologia di Backup
Per i server Linux occorre la lista delle directory da ripristinare
Procedure:
Necessità di una procedura sintetica che permetta di verificare il funzionamento dei
servizi forniti dal server oggetto del ripristino
17
17
Benefici indiretti
• Garanzia al 100% che il piano di backup dati sia tale da permettere
il ripristino completo di dati e sistemi
• Possibilità di sperimentare/testare la possibilità di virtualizzare la
infrastruttura
• Continuo stimolo alla semplificazione, alla standardizzazione ed
alla razionalizzazione della architettura
• Continuo stimolo a perseguire una infrastruttura It “manutenibile”
(eliminazione soluzioni e tecnologie obsolete, applicazione
aggiornamenti di sistema operativo e patch, aggiornamento release
sw)
• “Obbligo” di mantenere una adeguata documentazione della
infrastruttura It
• Evoluzione culturale dell’It nell’ottica dei servizi
18
18
Ed ora il piano di continuità operativa…
Nel 2006 la priorità da parte dell’azienda fu data a dotarsi di un piano di It
Disaster Recovery…..Dando coscientemente priorità all’aspetto tecnologico
rispetto ai temi organizzativi….. Nel 2011 oltre a confermare l’importanza ed il
valore di questa soluzione, l’azienda ha dato il via alla implementazione di un
piano di continuità operativa che sarà reso disponibile nei prossimi mesi
19
19
Grazie per l’attenzione
22 Marzo 2012
Silvio Torracchi - [email protected]
Direzione It Conad Del Tirreno
Resp. Infrastrutture ed Operation
20
20