B. Gobbo

Transcript

B. Gobbo
Obsolescenza dei PC
Riunione CSN1
Roma, 13 ottobre 2003
Benigno Gobbo
INFN Sezione di Trieste
[email protected]
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste
1
Hardware
Età della Farm
PC Client Assemblati
1a “nidiata”, dicembre 2000 (11 macchine)
Motherboad MSI 694D Pro (soket 370, PC100/133 SDRAM, ATA/100, chipset VIA
694X), 2 P III a 800 MHz, 512 MB SDRAM, 2x 20 GB ATA 100
2a “nidiata”, novembre 2001 (19 macchine)
Motherboad Abit VP6 (soket 370, PC100/133 SDRAM, ATA/100, chipset VIA 694X),
2 P III a 1 GHz, 512 MB SDRAM, 2x 40 GB ATA 100
PC Server Assemblati
(10/2000) Motherboard ASUS CUR-DLS (soket 370, PC100/133 SDRAM, Ultra
2 SCSI, chipset ServerSet III LE), 2 P III a 800 MHz, 512 MB SDRAM, 2x 36 GB
SCSI
(12/2000) Motherboard Intel L440GX (slot 1, PC100 SDRAM, chipset I440gx),
2 P III a 700 MHz, 512 MB SDRAM, 2x15 + 14x75 + 6x80 GB ATA 100 (*)
(07/2001) Motherboard Intel STL2 (soket 370, PC100/133 SDRAM, chipset
ServerSet III LE), 2 P III a 866 MHz, 512 MB SDRAM, 2x20 + 20x80 GB ATA100
(*)
(*) 3 anni di garanzia
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 2
Hardware (cont.)
Server “di marca”
(04/2001) SunBlade 1000 (**) (2 Spark III a 750 KHz, 512 MB RAM, 18+36 GB SCSI +
8x72 GB SCSI in RAID controller esterno CMD (***)
(11/2001) DELL Power Edge 4400 (chipset: ServerSet III LE 2 Xeon a 1 GHz, 1 GB
RAM, 2x36 + 6x72 GB SCSI in RAID controller interno (*)
Switch di rete
(10/2000) 3COM 3900 (36 Fast + 3 Giga SX) (**)
(11/2001) 3COM 4900 (12 Giga SX) (**)
Altro
(12/2001) Tape Library STK L40 con 2 drive IBM Ultrium1
(12/2000) Switch KVM 16 porte Belkin OmniView Pro
(12/2000) Monitor, tastiera, mouse
Per i PC client ci si è dotati di un piccolo magazzino di pezzi di ricambio
(soprattutto dischi); gli altri dispositivi hanno una garanzia triennale o sono in
manutenzione.
(*) 3 anni di garanzia
(**) in contratto di manutenzione manutenzione
(***) non mantenibile
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 3
Cronistoria dei Problemi Hardware
Singoli guasti
Nei client subito dopo l’acquisto
Client “vecchi”: 1 Power supply
Client “nuovi”: 1 Power supply + graphic card
Nei client, distribuite nel tempo
Client “vecchi”: 5 dischi (02/02, 03/02, 11/02, 04/03, 08/03)
Nei server “assemblati”
Server “nuovo”: 3ware escalade 6800 (01/02), 3 dischi (11/01, 12/02,
06/03)
Nei server “di marca”
-
In altro hardware
-
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 4
Cronistoria dei Problemi Hardware (cont.)
Guasti su specifici hardware
IBM DTLA-307075 (montati sul 1o disk server)
7 dischi su 14 rotti (5 ~subito, 02/02, 02/03)
Problema oggi noto, non lo ora quando vennero acquistati
Per raffronto, su 26 Western Digital: 3 rotti
MSI 694D Pro (motherboard dei client “vecchi”)
Non si è ancora capito cosa succeda. Sintomi identici: reboot continuo
della macchina. Le schede PCI, la pila, le CPU e la RAM sono state tutte
testate e risultano funzionanti.
5 rotte su 11! Problema iniziato da poco, ma sembra un’epidemia:
02/09/03, 20/09/03, 25/09/03, 06/10/03, 06/10/03
Un’ipotesi? A fine agosto, con alte temperature esterne, c’è stato un blackout
di 3 ore, una domenica notte. Le macchine sono rimaste in funzione per 30 min.
e con alto load (running jobs) grazie all’UPS con condizionamento spento, la
temperatura della stanza era salita oltre i 40o.
È molto difficile trovare in commercio schede per soket 370 biprocessori
con bus a 133 e controller IDE. Non ho trovato MSI, Abit o SuperMicro.
Sto aspettando una Asus CUV4X-D in prestito per fare dei test.
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 5
Riassunto sull’hardware
Le macchine più vecchie si avvicinano ai 3 anni di età, l’età media
degli oggetti è comunque oltre i 2 anni
Ci sono due tipi di guasti
Sporadici
Su macchine nuove. Generico componente difettoso.
La macchina è in garanzia ed essendo nuova ha poca installazione. Quindi il
problema generalmente non è grave
Distribuiti nel tempo. Praticamente solo dischi.
In generale facile reperibilità sul mercato
La creazione di un piccolo “magazzino” permette di ridurre al minimo il tempo di non
disponibilità della macchina
Facile operazione hardware di sostituzione
Se non in RAID: problemi(ni) dal lato software (generalmente installazione ex-novo del
sistema operativo, semplificata da utility come kickstart o simili)
Legati a specifici componenti dimostratisi non affidabili
In generale ci si aspetta che questi guasti avvengano su hardware
nuovo, quindi con sostituzione in garanzia
Ma non sempre avviene questo. Il caso delle motherboad è un esempio di
caso peggiore:
Non si trovano più sul mercato
La sostituzione è particolarmente laboriosa
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 6
Considerazioni
Punto debole in caso di guasti
Dopo poco più di 2 anni certi componenti fondamentali (es. schede
madri) si trovano difficilmente sul mercato
Sostituzione completa di una macchina in caso di rottura?
Secondo me non è ragionevole:
Dopo poco tempo è improbabile trovare una macchina gemella sul
mercato
L’omogeneità dei modelli aiuta moltissimo nella gestione di una farm
Sostituzione “quantizzata” delle macchine guaste
Preferibile
Quando se ne sono rotte N se ne finanziamo es. M>N che devono bastare
anche per successivi (almeno: le nuove sono più performanti) M-N guasti.
Sostituzione di macchine per “limite di età”
Trovo che a tutt’oggi macchine che si avvicinano ai 3 anni di età, con
doppio PIII a 0.8-1.0 GHz, siano del tutto dignitose in performance su
problemi tipici dell’HEP (le performance non scalano coi MHz del
clock: cfr risultati SPECint2000)
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 7
Problemi Firmware
CUR-DLS BIOS
Leggeva male la temperatura della 2a CPU ed abbassava il clock
supponendo un surriscaldamento
Risolto con un BIOS upgrade
Schede 3ware 6800
Talvolta incompatibilità tra driver linux e firmware
Difficoltà soprattutto in fase di installazione di linux
Risolti con updare di driver e/o firmware
Alcuni modelli di dischi Western Digital
Bug in una “nuova feature” del firmware introdotta per renderli meno
rumorosi
Le 3ware li credevano guasti e li mettevano offline
Risolto con patch al firmware dei dischi (che fortunatamente supportava
i controller 3ware)
Quindi: fastidiosi ma, almeno fin’ora risolvibili con “pezze”.
Naturalmente bisogna controllare a priori che i produttori di
hardware/software supportino il nostro environment.
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 8
Software
Non ho, per ora, riscontrato nessun tipo di problemi legati a
software upgrade (piuttosto si possono riscontrare problemi
legati ai driver per hardware “nuovissimo”).
Questo vale per
I sistemi operativi (RedHat Linux 6.x, 7.x, AS2.1)
I software commerciali (Objectivity, CA ARCerve, Oracle 9.20i (?), …)
I software HEP (ROOT, CLHEP, CERNLib, CASTOR, DATE, …)
I software di esperimento (programmi di ricostruzione ed analisi)
Problemi potrebbero esserci in futuro (vedi Fedora Project)
Vedremo: la situazione è confusa e tutta da capire …
In generale le farm locali, per non rendere la vita di gestione
troppo dura, devono necessariamente rimanere “software
compatibili” con “qualche riferimento”
Nel nostro caso la farm al CERN
Se a causa di hardware obsoleto e non più supportato non si potesse
fare l’upgrade del software, il problema sarebbe serio
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 9
In conclusione
Secondo la mia esperienza, lo hardware di tre anni può ancora
essere “dignitosamente” usato. Quattro anni possono ancora
essere considerati come l’età buona per l’upgrade del materiale
informatico. Cinque sembra un periodo lungo, assumendo gli
attuali trend di evoluzione (raddoppio frequenza CPU/anno,
1.3-1.8 in SPECint), e considerando anche che dopo un paio d’anni
certi componenti non si trovano più sul mercato
Naturalmente salvo necessità dovute a scelte non influenzabili
(cambiamenti di tecnologie hardware od incompatibilità dovute a
nuovi software necessari)
Ed ancora più naturalmente salvo “sfighe” contingenti (cfr
motherboard)
Domanda, soprattutto legata alle future grosse farm: una volta
fatto un upgrade, cosa si fa delle macchine dismesse se ancora
funzionanti?
Si tengono nell’environment? Ma questo richiede investimenti in es.
networking
Si riciclano ad altri usi? Quali?
13 ottobre 2003
CSN1
Benigno Gobbo – INFN Trieste 10