Come effettuare confronti significativi dell`MTBF per l`infrastruttura di

Transcript

Come effettuare
confronti significativi
dell'MTBF per
l'infrastruttura di
un data center
A cura di Wendy Torell
Victor Avelar
White Paper #112
Sintesi
Il tempo medio tra i guasti (Mean Time Between Failure; MTBF) viene spesso proposto
come criterio decisionale chiave quando si effettua il confronto tra diversi sistemi di infrastruttura di data center. Spesso i valori dei fornitori sono fuorvianti, per cui l'utente non è in
grado di effettuare un confronto significativo. Quando le variabili e le ipotesi alla base delle
cifre sono sconosciute o mal interpretate, è inevitabile che le decisioni prese siano irrazionali. In questo lavoro si spiega com'è possibile utilizzare efficacemente l'MTBF come uno
dei molti fattori atti a qualificare e scegliere i sistemi, rendendo le ipotesi comprensibili ed
esplicite.
2005 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2005-0
2
Introduzione
Evitare guasti in un data center critico è sempre una priorità assoluta. Quando anche solo qualche minuto di
interruzione delle attività può avere ripercussioni negative sul valore di mercato di un'azienda, è fondamentale che l'infrastruttura fisica di supporto all'ambiente di rete sia affidabile. Come si può avere la certezza di
implementare soluzioni affidabili? L'MTBF è il modo più comune per confrontare le affidabilità di diversi
sistemi. Tuttavia non è possibile raggiungere l'obiettivo dell'affidabilità senza una comprensione approfondita
dell'MTBF. Il White Paper APC n. 78, “Tempo medio tra i guasti: spiegazione e norme standardizzate”,
illustra i principi fondamentali dell'MTBF. In definitiva, il concetto di MTBF è privo di significato se la definizione di guasto non è chiara oppure le ipotesi non sono realistiche o vengono interpretate in modo errato.
In questo lavoro si spiega come utilizzare l'MTBF e i suoi limiti quando funge da strumento di qualificazione
e scelta. La seguente lista di controllo può servire come guida per verificare che il confronto tra più sistemi
venga effettuato in modo corretto e significativo.
Un approccio realistico all'analisi MTBF comparativa
Nel White Paper n. 78 vengono presentati diversi metodi per la previsione dell’MTBF. Data la disponibilità
di un così gran numero di metodi, trovare due sistemi comparati con lo stesso metodo appare un'impresa
impossibile. C'è tuttavia un metodo che delinea un filo comune fra i processi diversi utilizzati dalla maggior
parte delle organizzazioni. Il metodo di misurazione dei dati sull'utilizzo effettivo si basa sui dati dei guasti
effettivamente rilevati sul campo, per cui è un indicatore della frequenza di guasto più preciso di quelli forniti
dalle simulazioni. Questi dati possono non essere disponibili quando i volumi di produzione sono modesti o
si tratta di prodotti nuovi, ma devono essere sempre utilizzati per prodotti con una popolazione di campo
sufficientemente ampia. Ne consegue che tale metodo è il punto di partenza più logico e realistico per il
confronto tra sistemi diversi. Si noti che esso, come molti altri metodi, si basa sull'ipotesi della frequenza di
guasto costante discussa nel White Paper n. 78.
In questo documento si illustrano le varie fasi del metodo e si citano e descrivono le variabili di ciascuna fase
che influiscono sui risultati finali. Se una delle ipotesi critiche o delle variabili non è applicabile a entrambi i
sistemi comparati, diventa difficile valutarne le potenziali ripercussioni sulle stime dell'MTBF. La Fig. 1
illustra la tempistica del processo di misurazione dei dati di campo. Ciascuno degli elementi del diagramma
viene spiegato nella descrizione successiva delle fasi del processo.
Rev 2005-0
3
Fig. 1 – Processo di misurazione dei dati di campo
Continuum di analisi MTBF
Prodotti a
magazzino
o a stock
Prodotto
fabbricato
Range
popolazione
t1
Ritardo di
stock/distribuzione
t2
Prodotti
utilizzati
da clienti
Prodotti in
distribuzione
t3
Prodotti
guasti resi
Prodotti guasti
diagnosticati
Finestra di
Ritardo
campionamento ricevimento
t4
t5
Ritardo
diagnostico
t6
Calcolo
MTBF
t7
Percorso del prodotto
Tempistica processo MTBF
Fase 1: definizione e stima della dimensione della popolazione
La prima fase del processo di determinazione della frequenza di guasto annua (AFR), e in definitiva dell'MTBF di un prodotto, consiste nell'identificazione della particolare popolazione di prodotto da analizzare.
I calcoli devono basarsi su un particolare modello di prodotto o su un'intera famiglia di prodotti? Quanti
giorni o mesi di produzione devono essere inclusi nella popolazione? Quali devono essere le date di inizio e
di fine produzione? È importante che il prodotto o i prodotti prescelti per la popolazione abbiano caratteristiche abbastanza simili e che la loro quantità sia sufficiente ad assicurare la validità statistica dei dati raccolti.
Fase 2: determinazione del periodo di campionamento per la raccolta dei dati
La seconda fase del processo consiste nella determinazione del periodo di campionamento per la raccolta
dei dati sui guasti nella popolazione. Spesso i dati vengono raccolti quando l'utente del prodotto chiama il
fornitore per segnalare un guasto. Il periodo di tempo opportuno intercorrente tra la data ultima di produzione della popolazione e l'inizio del periodo di campionamento varia a seconda del prodotto, dell'area geografica, del processo di distribuzione e della posizione a magazzino. Ad esempio, se i prodotti stanno per due
mesi nei magazzini dalla fabbrica e due mesi nella filiera della distribuzione, l'inizio del periodo di campionamento deve essere di almeno quattro mesi dopo la fine dell'intervallo di date della popolazione. Nel caso
dei prodotti che passano per distributori, rivenditori o dettaglianti, si considera realistico un lasso di tempo di
quattro mesi che tiene conto di queste variabili.
In questo contesto occorre considerare due importanti variabili: (1) un tempo sufficiente tra la data ultima di
produzione della popolazione e l'inizio del periodo di campionamento, e (2) una finestra temporale di raccolta dei dati sufficientemente ampia da assicurare l'affidabilità dei risultati.
Rev 2005-0
4
Se il tempo intercorrente tra la data ultima di produzione della popolazione e l'inizio del periodo di campionamento non è sufficiente, può accadere che il campionamento inizi prima che i prodotti della popolazione
siano stati completamente implementati. Tale situazione può produrre due effetti. Primo: poiché un'unità non
ancora installata non può guastarsi, c'è la tendenza a sottostimare la frequenza di guasto. Secondo: il
periodo di campionamento tende a includere un gran numero di problemi di installazione o configurazione.
Poiché i prodotti nuovi possono manifestare un andamento della frequenza di guasto secondo la classica
“curva della vasca da bagno”, l'inclusione di un gran numero di installazioni induce a sovrastimare la frequenza di guasto. Questi due effetti contrapposti sono entrambi molto marcati e non è possibile affermare
che essi si annullano reciprocamente.
L'altro punto importante da considerare riguardo al tempo di campionamento è l'ampiezza della finestra.
Qual è la durata del periodo (n. di giorni) di raccolta dei dati sui guasti che possiamo considerare adeguata?
La finestra del tempo di campionamento deve essere abbastanza ampia da consentire l'eliminazione del
“rumore” statistico dal campione. L'ampiezza necessaria a ottenere una precisione ragionevole dipende
dalla dimensione della popolazione. Ad esempio, una finestra di un mese può essere considerata adeguata
per un prodotto con volumi elevati di produzione. Viceversa l'ampiezza dovrà essere di alcuni mesi se i
volumi di produzione sono inferiori.
Fase 3: definizione di “guasto”
Prima di conteggiare i guasti occorre definire con estrema chiarezza che cosa si intende per “guasto”, onde
assicurare l'omogeneità delle misurazioni. Si provi a immaginare che cosa succederebbe se ogni singolo
tecnico definisse un guasto secondo criteri soggettivi quando i prodotti “guasti” vengono resi alla fabbrica.
Un tecnico potrebbe considerare solo i prodotti che hanno subito un guasto catastrofico, mentre un altro
potrebbe considerare tutti i prodotti che hanno manifestato un qualche tipo di malfunzionamento, incluso il
guasto catastrofico. In queste due situazioni estreme, la probabilità di misurare con precisione la frequenza
di guasto di un particolare prodotto si riduce a zero; per non parlare poi degli effetti che tali situazioni avrebbero sul controllo di processo per tale prodotto. È pertanto indispensabile che il fornitore definisca il concetto
di guasto in modo chiaro prima di procedere alla diagnosi di qualsiasi prodotto. Talora i fornitori adottano più
definizioni di guasto per il calcolo dell'MTBF riferito a eventi specifici. Ad esempio, i fornitori di UPS tendono
a misurare il MTBF di prodotti che hanno provocato la disalimentazione del carico critico assieme a guasti
meno gravi in cui il carico ha continuato ad essere alimentato.
Fase 4: ricevimento, diagnosi e riparazione del prodotto
Occorre prevedere un tempo sufficiente tra la fine del periodo di campionamento ed il calcolo dell'AFR,
affinché sia possibile ricevere, diagnosticare e riparare i prodotti per i quali sono stati segnalati dei guasti.
La diagnosi determina il tipo di guasto, mentre la riparazione convalida la diagnosi. Nel caso di prodotti di
dimensioni relativamente piccole, l'unità viene di solito restituita al fornitore, per cui occorre tenere conto del
ritardo con cui essa viene ricevuta da costui. Quando l'unità viene consegnata al fornitore, essa deve essere diagnosticata e riparata, per cui si ha un ulteriore ritardo (cosiddetto “ritardo diagnostico”). Nel caso dei
prodotti più grandi, di solito la diagnosi e la riparazione vengono effettuate presso la sede del cliente, per cui
il ritardo è minimo o nullo. In entrambi i casi è necessario che i prodotti vengano diagnosticati e riparati prima
Rev 2005-0
5
di procedere al calcolo dell'AFR. Nel caso di prodotti con alti volumi di produzione, può accadere che alla
fine del ritardo diagnostico vi siano delle unità che non sono state ancora riparate. In tali casi si fa talora
l'ipotesi che le unità non riparate abbiano una frequenza di guasto identica a quella delle unità riparate in
precedenza. Per particolari volumi di produzione e tipi di prodotti misurati, il ritardo di ricevimento e il ritardo
diagnostico possono far slittare di settimane la fine del periodo di campionamento, al termine del quale è
finalmente possibile calcolare l'AFR.
Fase 5: calcolo della frequenza di guasto annua
La frequenza di guasto annua viene calcolata per illustrare il numero previsto dei guasti che si verificano in
un anno di calendario per un particolare prodotto. La prima fase del calcolo di tale coefficiente prevede la
“annualizzazione” dei dati dei guasti. Essa viene eseguita moltiplicando il numero di guasti verificatisi durante il periodo di campionamento per il numero di periodi di campionamento all'anno. La seconda fase prevede
la determinazione del rapporto tra il numero di guasti e il numero dei componenti dell'intera popolazione.
Questa operazione viene effettuata dividendo il numero di guasti annualizzato per il numero di unità costruite
durante il periodo della popolazione. A tal fine si utilizza la seguente Equazione 1:
AFR =
Guasti durante periodo di campionamento x (52 settimane per anno / N. di settimane del periodo di campionamento)
N. di unità della popolazione
Equazione 1
In questa equazione si parte dalle seguenti due ipotesi: (1) i prodotti funzionano 24 ore al giorno, 365 giorni
all'anno; (2) tutti i prodotti facenti parte della popolazione entrano in funzione contemporaneamente. Come
si vede, anche se questa formula può essere utilizzata per qualsiasi prodotto, essa è più appropriata per i
prodotti che funzionano ininterrottamente. Nel caso di installazioni con prodotti funzionanti in modo intermittente, il calcolo dell'AFR è più preciso se si utilizza l'Equazione 2. I gruppi elettrogeni di emergenza costituiscono un esempio di questo tipo di prodotto.
AFR =
Guasti durante periodo di campionamento x (52 settimane per anno / N. di settimane del periodo di campionamento)
Cumulativo anni di funzionamento delle unità della popolazione
Equazione 2
Rev 2005-0
6
Quando si utilizza questa formula, l'AFR tiene conto esclusivamente del tempo durante il quale le unità
sono effettivamente in funzione. L'Equazione 1 e l'Equazione 2 sono in realtà identiche a parte il fatto che
si basano su ipotesi diverse. Il seguente esempio ipotetico dimostra che la differenza può essere significativa quando si analizza un prodotto funzionante in modo discontinuo.
La popolazione del campione comprende 10.000 automobili.
Si raccolgono i dati sui guasti per tale popolazione durante un periodo di 2 mesi
(periodo di campionamento).
Un'automobile media è in funzione per 400 ore all'anno.
Durante i 2 mesi, si guastano 10 automobili.
Utilizzando l'Equazione 1:
La frequenza di guasto è di 10 guasti x (52 settimane per anno / 8 settimane nel periodo di campionamento) / 10.000 anni-automobile (cumulativo) = 0,0065 ossia lo 0,65 %.
Utilizzando l'Equazione 2:
Assumendo che i prodotti siano entrati in funzione contemporaneamente*, la vita operativa della popolazione è di 10.000 x 400 ore all'anno = 4 milioni di ore automobile (cumulativo) ossia 4 milioni / 8760 ore
all'anno = 457 anni-automobile.
La frequenza di guasto è di 10 guasti x (52 settimane per anno / 8 settimane nel periodo di campionamento) / 457 anni-automobile (cumulativo) = 0,14 ossia lo 14 %.
*Questa dell'esempio è un'ipotesi semplificativa. In realtà i prodotti vengono venduti per tutto il periodo,
per cui le ore di funzionamento diventano minori. Ciò a sua volta provoca una riduzione dell'AFR.
Se l'esempio precedente si riferisse a un prodotto funzionante ininterrottamente, i due valori di AFR sarebbero identici. I valori di AFR sarebbero vicini tra loro anche nell'ipotesi che tutte le unità entrassero in funzione contemporaneamente. Si vede dunque che per poter effettuare un'analisi corretta è essenziale sapere se
il prodotto funzionerà continuamente o in modo discontinuo.
Fase 6: conversione da AFR a MTBF
La conversione dei valori di AFR in valori di MTBF (espressi in ore), benché sia il passaggio più semplice, è
quello più soggetto a errori di interpretazione. La conversione da AFR a MTBF è valida solo nell'ipotesi che
la frequenza di guasto sia costante. Vale la seguente formula (Equazione 3):
MTBF =
Ore in un anno 8760
=
AFR
AFR
Equazione 3
Rev 2005-0
7
Esempio di calcolo di MTBF basato sul processo di misurazione di AFR
Il seguente esempio ipotetico aiuta a illustrare l'intero processo.
Fase 1:
Si stabilisce che la popolazione è interamente costituita da sistemi UPS 15 kVA della marca “X”, costruiti
dalla 36ª alla 47ª settimana del 2003 (dal 1° settembre al 21 novembre), ossia durante una finestra di
produzione di 12 settimane. La popolazione è costituita da 2000 unità.
Fase 2:
Si stabilisce che la finestra di campionamento va dal 2 febbraio 2004 al 16 luglio 2004 (finestra di
24 settimane). Ciò corrisponde a un ritardo di dieci settimane per giacenza a magazzino e distribuzione
dei prodotti.
Fase 3:
I guasti vengono definiti come disalimentazioni del carico critico dovute a una causa qualsiasi, incluso
l'errore umano.
Fase 4:
Durante il periodo di campionamento sono stati segnalati venti guasti. Di questi, nove sono stati classificati
come disalimentazioni del carico e gli altri undici come guasti non critici. Pertanto, sulla base della definizione di guasto stabilita nella Fase 3, nel calcolo seguente si utilizzano nove guasti. I prodotti guasti sono stati
ricevuti, diagnosticati e riparati prima del calcolo dell'AFR.
Fase 5:
L'AFR viene calcolato come segue:
AFR =
9 guasti x (52 settimane per anno / 24 settimane durante periodo di campionamento)
= 0,00975 = 0,975 %
2000 unità di popolazione
Fase 6:
L'MTBF viene calcolato come segue:
MTBF =
8760
8760
=
= 898.462 ore
AFR 0,00975
Variabili che influiscono su AFR
Molto spesso i valori di MTBF vengono specificati dai fornitori senza indicare i dati da cui sono ricavati. Si è
già accennato, a proposito dei valori di MTBF (o di AFR) di più sistemi, all'importanza di conoscere le ipotesi
di base e le variabili utilizzate nell'analisi, e specialmente la definizione della modalità di guasto. Quando si
effettua un confronto senza disporre di queste informazioni, c'è un alto rischio che tale confronto non sia
obiettivo e ci si può aspettare che le variazioni siano dell'ordine del 500 %, o addirittura superiori. Ciò a sua
volta può causare costi non necessari per l'azienda, e persino interruzioni impreviste delle attività. In generale, i valori di MTBF relativi a due o più sistemi non devono essere mai confrontati in assenza di una definizione esplicita delle variabili, delle ipotesi e del concetto di guasto. Anche se due valori di MTBF appaiono
simili, c'è comunque il rischio che il confronto non sia obiettivo. In conclusione, occorre guardare oltre i valori
di MTBF e analizzare e comprendere come vengono ricavati.
Rev 2005-0
8
Nel seguito di questo documento viene spiegata ciascuna variabile e vengono discussi i possibili effetti di
esse sui risultati. Inoltre l'Appendice contiene una lista di controllo, utile per effettuare il confronto tra queste
variabili in relazione a due o più sistemi. Tale lista di controllo, una volta compilata, deve essere analizzata
per identificare le variabili che differiscono da un sistema all'altro. Mediante un'analisi critica di ciascuna di
queste differenze e delle relative ripercussioni sull'MTBF, si stabilirà se è possibile effettuare un confronto
obiettivo, da utilizzare in una specifica di prodotto o per una decisione di acquisto.
Funzione del prodotto, applicazione e confini
Prima di confrontare due o più valori di MTBF, è importante verificare che i prodotti comparati siano equivalenti. I prodotti devono essere simili riguardo alla funzione svolta, alle potenzialità e all'applicazione. Se i
prodotti confrontati sono costituiti da UPS, la funzione del prodotto sarà quella di assicurare un'alimentazione di emergenza per il carico o i carichi collegati. L'applicazione di questo prodotto sarà quella di supportare
carichi IT critici in un ambiente data center. Se le applicazioni sono dissimili, non è possibile effettuare un
confronto obiettivo dei valori di MTBF. Ad esempio, non sarebbe realistico confrontare un UPS progettato
per uso industriale con un UPS progettato per un ambiente IT.
Un ultimo punto, ancora più importante: i confini dei sistemi utilizzati nel confronto dei valori di MTBF devono
essere equivalenti. Se ciascun sistema include parti differenti, è inevitabile che il confronto non sia obiettivo.
Si consideri un sistema UPS dotato di batterie esterne. Alcuni fornitori possono decidere di non considerare i
guasti attribuibili a tali batterie, perché si tratta di componenti “esterni”, ossia non facenti parte del sistema.
Di contro, altri fornitori possono decidere di considerare anche questi guasti, perché le batterie sono un
componente essenziale per il funzionamento del sistema. La Fig. 2 illustra questo esempio. Vi sono anche
altri componenti che possono dar luogo a scelte diverse nell'ambito della definizione dei confini, vale a dire:
interruttori automatici all'ingresso o all'uscita, sistemi in parallelo, fusibili e sistemi di controllo. Occorre
chiedere ai fornitori quali sono i componenti o sottosistemi inclusi nei calcoli dell'MTBF, senza dare mai per
scontato che tutti i fornitori adottino le stesse definizioni.
Fig. 2 – Confronto dei “confini” per un sistema UPS
Le batterie non rientrano
nei confini del sistema
Le batterie rientrano
nei confini del sistema
Bypass di
manutenzione
Bypass di
manutenzione
Batterie
Bypass
interruttore
statico
Batterie
Bypass
interruttore
statico
Rev 2005-0
9
L'ipotesi della frequenza di guasto costante
Affinché il metodo di misurazione dei dati di campo per il calcolo di AFR e MTBF sia valido, occorre adottare
l'ipotesi della frequenza di guasto costante per i prodotti analizzati. È importante valutare se questa ipotesi è
ragionevole, tenendo conto del tipo di prodotto che viene confrontato. In genere tale ipotesi viene considerata accettabile per i sistemi e i componenti elettronici. I prodotti rientrano in questa categoria? Se così non è,
i valori calcolati saranno difficilmente rappresentativi dei guasti previsti, per cui è improbabile che si possa
effettuare un confronto obiettivo.
Dimensione della popolazione
Una volta chiarito che i prodotti e le rispettive applicazioni sono simili, è importante considerare il processo
di raccolta dei dati di campo. In questo contesto, la prima variabile critica è costituita dalla definizione
della dimensione della popolazione (ossia: il numero di unità prodotte). Se il volume di prodotti definito
nella popolazione è troppo esiguo, il valore stimato di MTBF così ottenuto sarà probabilmente inutilizzabile.
Ne consegue che, quando si effettua il confronto tra più valori di MTBF, è importante accertarsi che ciascuno di essi si basi su una popolazione di dimensione sufficiente.
Per quanto le velocità di produzione dei prodotti confrontati possano differire tra loro, il parametro importante
è costituito dal numero di unità della popolazione. Se la velocità di produzione di un prodotto è bassa,
occorrerà considerare un tempo di produzione più lungo, in modo che venga comunque raggiunto un volume
adeguato. Ad esempio, il fornitore “A” produce 1000 unità al mese, mentre il fornitore “B” produce 50 unità al
mese di un prodotto “equivalente”. Il fornitore “B” dovrà includere nella popolazione diversi mesi di produzione affinché il suo risultato sia statisticamente valido. Di contro, per il fornitore “A” un mese dovrebbe essere
sufficiente.
Tempo intercorrente tra la data ultima di produzione della popolazione e l'inizio del periodo
di campionamento
Se il tempo intercorrente tra la data ultima di produzione della popolazione e l'inizio del periodo di campionamento non è sufficiente, può accadere che i valori di AFR e di MTBF siano fuorvianti. Prima di iniziare a
raccogliere i dati di guasto, il fornitore di ciascun sistema comparato deve lasciar passare un periodo di
tempo sufficiente affinché la popolazione passi attraverso il magazzino e la distribuzione.
Ad esempio, se un particolare prodotto ha in genere un tempo di permanenza a magazzino di un mese e
successivamente entra in una fase di distribuzione della durata di un mese, il tempo minimo che deve
trascorrere prima di procedere alla misurazione dei guasti sarà di due mesi. Questo tempo complessivo di
“attesa” varierà a seconda del tipo di prodotto. Dal momento che, come si è detto, il confronto viene effettuato tra tipi di prodotti simili, anche i periodi di tempo intercorrenti tra l'ingresso della popolazione nel ciclo e
l'inizio del campionamento dovranno essere simili. Se il tempo di attesa di un fornitore è insufficiente o nullo,
è evidente che l'AFR relativo al suo sistema sarà poco attendibile e occorrerà essere molto cauti nel confrontare i valori.
Rev 2005-0
10
Periodo di raccolta dei dati di campionamento
Come si è già detto a proposito della seconda fase del processo, è importante selezionare un opportuno periodo di raccolta dei dati di campionamento. Se i sistemi comparati hanno la stessa finestra
di campionamento, con volumi simili di produzione e / o vendita, sarà possibile effettuare un confronto
obiettivo. Tuttavia vi possono essere delle eccezioni. Quando la durata del periodo di campionamento varia
da un sistema a quello successivo, è importante valutare ciascuno di essi indipendentemente per stabilire
se essi forniscono una “fotografia” precisa della frequenza dei guasti che si verificherebbero nell'arco del
tempo.
La finestra deve essere tanto più ampia quanto minore è il volume di produzione. Ad esempio, se il volume
di produzione di un fornitore è di 10 unità al mese, un periodo di raccolta dei dati di guasto di un solo mese
non sarà sufficiente. Poiché il volume di produzione è modesto, vi sarà una notevole incertezza sul fatto che
i guasti (eventuali) segnalati in tale periodo di un mese consentano di prevedere la frequenza di guasto nei
mesi successivi.
Definizione di guasto
Se due fornitori adottano diverse definizioni di guasto per due prodotti comparabili, l'analisi avrà un'utilità
paragonabile a quella di un confronto tra mele e arance. È dunque essenziale, se si vuole effettuare un
confronto attendibile dei valori di MTBF, stabilire che cosa esattamente costituisce un guasto per ciascun
prodotto comparato. Che cos'è dunque ciò che un fornitore deve considerare un guasto ai fini del calcolo
dell'MTBF?
•
È utile conteggiare i guasti dovuti a un uso scorretto del prodotto da parte del cliente?
È possibile che i progettisti abbiano sottovalutato gli errori umani e che ciò abbia indotto gli utenti a utilizzare il prodotto in modo scorretto.
•
Nel settore della protezione dell'alimentazione, la definizione più diffusa di guasto di un UPS è
quella di guasto da “disalimentazione del carico”. Ciò significa che i parametri dell'alimentazione fornita al carico sono usciti dall'intervallo di valori accettabili, provocando la disalimentazione
del carico. Tuttavia è il caso di conteggiare anche le disalimentazioni del carico provocate da
un tecnico di manutenzione del fornitore? È possibile che le caratteristiche di progettazione del
prodotto facciano aumentare la probabilità di guasto di una procedura già di per sé rischiosa?
•
Se si guasta il LED di un computer, ciò va considerato un guasto anche se non ha ripercussioni
sul funzionamento del computer stesso?
•
La messa fuori uso di un materiale di consumo (ad esempio: una batteria) deve essere considerata un guasto se tale materiale si guasta prima del tempo di usura previsto?
•
I danni subiti dal prodotto durante la spedizione devono essere considerati dei guasti? Essi
possono indicare una cattiva progettazione dell'imballaggio.
•
Occorre conteggiare i guasti ricorrenti? In altri termini, i guasti che si verificano per uno stesso
sistema presso lo stesso cliente e che sono diagnosticati allo stesso modo devono essere conteggiati più volte o una volta sola?
Rev 2005-0
11
•
I guasti provocati durante l'installazione devono essere conteggiati? La colpa del guasto potrebbe essere imputabile al tecnico del fornitore.
•
Occorre conteggiare i guasti dovuti al fatto che il cliente non ha sottoscritto il contratto di manutenzione o acquistato il sistema di monitoraggio, come raccomandato dal fornitore?
•
Se un terremoto provoca danni a un edificio e in conseguenza di ciò il sistema si guasta, occorre conteggiare tale guasto o considerarlo dovuto a cause di forza maggiore?
•
Sono da escludere i guasti di determinati componenti del sistema? Nel caso di un sistema
UPS, ciò potrebbe valere per le batterie o per l'interruttore di bypass.
•
Se si verifica un guasto “a cascata”, che si ripercuote sui sistemi a valle, occorre conteggiare
solo il guasto del primo sistema, o anche i guasti di tutti i sistemi a valle?
•
Se un sistema è stato “personalizzato” in base a esigenze particolari, occorre escludere i guasti
di tale sistema dalla popolazione?
La definizione di guasto utilizzata “di fatto” nel settore per il calcolo degli MTBF tiene conto di diverse illazioni. L'elenco precedente è parziale. Considerando tutte queste eccezioni alla definizione di guasto, i valori di
MTBF così ottenuti fanno sembrare il sistema più affidabile di quanto corrisponda all'esperienza reale del
cliente. Per fornire a partner e clienti dei valori attendibili di AFR e MTBF, è necessario dare una definizione
non ambigua di guasto ai fini del confronto dei valori di MTBF.
Esistono tre definizioni prive di qualsiasi ambiguità:
Tipo 0
Il prodotto ha un difetto o un guasto che impedisce di metterlo in funzione.
Tipo I
Il prodotto non è più in grado di assolvere alla funzione prevista.1
Tipo II
Un singolo componente non è più in grado di assolvere alla funzione prevista. Tuttavia il
prodotto è tuttora in grado di assolvere alla funzione prevista.2
1
2
IEC-50
IEC-50
Rev 2005-0
12
Oltre a conoscere la definizione o le definizioni prescelte da ciascun fornitore, è indispensabile sapere se
vengono inclusi anche i guasti dovuti a errori umani. Qualora nel calcolo dell'MTBF si tenga conto anche di
guasti dovuti a errori umani, il confronto tra i valori di MTBF per sistemi diversi diventa molto più difficoltoso.
Vi sono infatti molti modi in cui un essere umano può commettere un errore che provoca un guasto. Ciò fa sì
che i fornitori escludano alcuni di questi tipi di “guasto da errore umano”. Se non tutti i fornitori escludono gli
stessi tipi di guasti, ciò getta un'ombra di dubbio sulla validità del confronto tra i sistemi.
Per illustrare questo punto, si prenderà nuovamente in esame l'esempio del Brand “X”. Nella Tabella 1
vengono confrontati i valori di MTBF ottenuti con diverse definizioni di guasto. Il sistema “A” è il prodotto con
il marchio “X”, per il quale i guasti vengono definiti come guasti critici (Tipo I), compresi tutti i tipi di guasti da
errore umano e i guasti dei materiali di consumo. Il sistema “B” corrisponde allo stesso prodotto con il
marchio “X”, per il quale si considerano solo i guasti di Tipo I, escludendo i guasti da errore umano, i guasti a
cascata e i guasti dei materiali di consumo. Data la natura della formula per il calcolo dell'MTBF, la differenza anche di un solo guasto durante il periodo di campionamento può avere effetti significativi sul risultato
finale. In questo esempio c'è una differenza di 5 guasti di sistema (9 per il sistema A e 4 per il sistema B),
e il MTBF varia di ben il 125 %. Le definizioni di guasto vengono facilmente e frequentemente interpretate in
modo erroneo e, come si vede in questo esempio, possono fare la differenza tra un confronto valido e uno
inattendibile. Il lettore che desideri avere più informazioni sullo strumento utilizzato per calcolare i valori in
questo confronto è invitato a scrivere ad [email protected].
Rev 2005-0
13
Tabella 1 – Esempio di confronto tra i valori di MTBF in presenza di definizioni diverse di guasto
Sistema A
N. totale
guasti
durante
periodo di
campionamento
N. guasti
ricorrenti
durante
periodo di
campionamento
Confronto MTBF
N. guasti
“prima volta”
durante
Includere in
periodo di
calcolo MTBF?
campionamento
Sistema B
Tipi di guasti
Includere in
calcolo MTBF?
N. guasti
“prima volta”
durante
periodo di
campionamento
N. totale
guasti
durante
periodo di
campionamento
N. guasti
ricorrenti
durante
periodo di
campionamento
Guasto Tipo 0 = Il prodotto ha un difetto o un guasto che impedisce di metterlo
in funzione.
0
0
FALSE
Guasti da danni di spedizione
FALSE
0
0
0
0
FALSE
Guasti provocati durante un'installazione “certificata”
FALSE
0
0
0
0
FALSE
Guasti provocati durante un' installazione “non certificata”
FALSE
0
0
Guasto Tipo I = Il prodotto non è più in grado di assolvere alla funzione prevista.
TRUE
0
0
FALSE
1
1
FALSE
1
1
Guasti causati da tecnico ditta esterna (dopo che il sistema è stato messo in funzione)
FALSE
0
0
TRUE
Guasti causati da applicazione o uso improprio da parte del cliente
FALSE
1
0
1
Guasti di parti usurabili quali le batterie
0
0
TRUE
1
1
TRUE
1
1
TRUE
0
0
TRUE
1
0
1
2
0
2
TRUE
1
0
1
FALSE
3
0
3
TRUE
“Guasti segnalati” per prodotti che invece sono risultati funzionare normalmente
Guasti a cascata (ossia: il guasto del sistema è stato causato da un altro sistema
“simile”)
Guasti causati da tecnico di manutenzione APC o un tecnico di manutenzione
certificato da APC (dopo che il sistema è stato messo in funzione)
FALSE
2
0
2
Guasti di componenti hardware o del firmware che in seguito sono stati risolti con un
upgrade o riparati (Ordini di modifica engineering)
TRUE
1
0
1
* Guasti di componenti hardware o del firmware
TRUE
3
0
3
FALSE
2
2
FALSE
1
1
FALSE
1
1
Guasto Tipo II = Un singolo componente non è più in grado di assolvere alla
funzione prevista. Tuttavia il prodotto è tuttora in grado di assolvere alla
funzione prevista.
2
2
FALSE
1
1
FALSE
1
1
FALSE
1
“Guasti segnalati” per prodotti che invece sono risultati funzionare normalmente
Guasti a cascata (ossia: il guasto del sistema è stato causato da un altro sistema
“simile”)
Guasti causati da tecnico di manutenzione APC o un tecnico di manutenzione
certificato da APC (dopo che il sistema è stato messo in funzione)
1
FALSE
Guasti causati da tecnico ditta esterna (dopo che il sistema è stato messo in funzione)
FALSE
1
1
0
1
FALSE
FALSE
1
0
1
2
0
2
FALSE
FALSE
2
0
2
Guasti di componenti hardware o del firmware che in seguito sono stati risolti con un
upgrade o riparati (Ordini di modifica engineering)
FALSE
1
0
1
2
0
2
1
0
1
FALSE
2
0
2
FALSE
* Guasti di componenti hardware o del firmware
FALSE
FALSE
I guasti ricorrenti sono guasti relativi allo stesso cliente, allo stesso sistema e
alla stessa modalità di guasto
FALSE
Includere guasti ricorrenti nel
Totale?
9
1
Includere guasti ricorrenti nel
Totale?
4
Totale guasti durante periodo di campionamento per calcolo MTBF
FALSE
Calcolo MTBF
Sistema A
Sistema B
Sistema B con
definizione di
guasto del
Sistema A
Totale guasti durante periodo di campionamento per calcolo MTBF
9
4
9
N. di settimane del periodo di campionamento
24
24
24
N. di unità della popolazione
2000
2000
2000
AFR = [Guasti durante periodo di campionamento x (52 settimane per anno / N. di settimane del periodo di
campionamento)] / N. di unità della popolazione
0,975%
0,433%
0,975%
MTBF = 8760 / AFR
898.462
2.021.538
898.462
Il sistema B ha un MTBF dichiarato superiore del 125 % a quello del Sistema A.
Questo confronto non è valido a causa delle diverse definizioni di guasto
Il sistema B ha un MTBF effettivo superiore dello 0 % a quello del Sistema A.
Rev 2005-0
14
Allo scopo di alleviare problemi simili di incongruenza, APC suggerisce una prassi ottimale con cui definire
ciò che deve essere o meno incluso in un valore di MTBF. Tale prassi ottimale è finalizzata all'obiettivo di
presentare tutti i guasti ragionevoli ai clienti. Tali guasti devono rappresentare tutti i fattori su cui il fornitore
è in grado di intervenire. Ad esempio, se il guasto è stato provocato da un errore del tecnico di manutenzione del fornitore, l'MTBF deve tenerne conto, perché ciò rientra nelle responsabilità del fornitore stesso. Se
invece il cliente ha deciso di avvalersi dei servizi di un tecnico di manutenzione di una ditta esterna non
autorizzata, e se in conseguenza di ciò è avvenuto un guasto, l'MTBF non ne deve tenere conto perché si
tratta di una situazione esulante dal controllo del fornitore. Nella lista di controllo dell'Appendice sono riportate le definizioni rientranti nella suddetta prassi ottimale.
Ove possibile, occorre utilizzare la definizione di guasto fornita in questa prassi ottimale quando si confrontano prodotti di fornitori diversi. Se un fornitore è in grado di fornire solo un sottoinsieme delle definizioni di
guasto, sarà necessario che anche l'altro fornitore utilizzi lo stesso sottoinsieme. Anche in questo caso, per
effettuare un confronto obiettivo è indispensabile che vi sia omogeneità tra i due fornitori. Tuttavia, mentre in
tal modo si può avere un confronto “obiettivo”, non è detto che si abbia una rappresentazione fedele della
realtà. La non rappresentatività dei valori di MTBF sarà tanto maggiore quanto più piccolo è il sottoinsieme
delle definizioni di guasto.
Tempo intercorrente tra la fine del periodo di campionamento e la data di calcolo dell'AFR
Se un fornitore fosse in grado di ricevere tutti i prodotti guasti e diagnosticare e riparare tutti i guasti del
prodotto segnalati entro il periodo di campionamento, costui potrebbe calcolare immediatamente l'AFR.
In effetti ciò è possibile nel caso di volumi di produzione relativamente modesti, quando i guasti del prodotto
vengono diagnosticati e il prodotto viene riparato presso la sede del cliente. Tuttavia tale situazione non si
verifica nel caso di volumi elevati di produzione, quando i prodotti vengono resi al costruttore. Per effettuare
un confronto dei valori di MTBF per tipi di prodotti simili, occorre che il tempo intercorrente tra la fine del
periodo di campionamento e la data di calcolo dell'AFR sia simile. Ad esempio, si assuma che il fornitore
“A” calcoli l'AFR un mese dopo la fine del periodo di campionamento e che il fornitore “B” calcoli l'AFR
quattro mesi dopo la fine di tale periodo. Se i volumi di produzione dei prodotti comparati sono elevati, con
ogni probabilità il fornitore “A” denuncerà un AFR più favorevole, perché alcuni dei suoi prodotti “guasti”
(che devono ancora essere ricevuti, diagnosticati e riparati) non vengono conteggiati nel calcolo dell'AFR.
C'è una situazione in cui difficilmente questo sfasamento temporale tra i sistemi darà luogo a un confronto
non valido (a parità di tutti gli altri fattori): ciò accade quando tutti i fornitori assumono che le unità non
riparate abbiano una frequenza di guasto uguale a quella delle unità riparate precedentemente, e che la
maggior parte dei prodotti resi siano stati ricevuti, diagnosticati e riparati.
Rev 2005-0
15
Documentazione del processo di raccolta e analisi dei dati
Per poter valutare l'attendibilità di un confronto dei valori di MTBF, è importante conoscere e comprendere
il processo adoperato da ciascun fornitore per la raccolta e l'analisi dei dati. Per poter mettere a punto
un programma solido di controllo qualità, è essenziale avere un processo definito e documentato in modo
chiaro. Ciò aiuta a centrare il duplice obiettivo dell'omogeneità e della precisione in tutte le fasi dell'analisi di
tali dati. Seguono tre esempi di problemi di processo che meritano di essere esaminati. Quando questi o altri
problemi sono evidenti, occorre esaminare attentamente le loro conseguenze sulla stima dei valori di MTBF
(e, di conseguenza, sul confronto tra i sistemi).
•
Il fornitore non è in grado di risalire a dati precisi provenienti dalle varie sedi sparse in tutto il
mondo, perché nelle varie regioni del mondo si utilizzano diversi sistemi di rintracciamento o di
archiviazione per i dati relativi a guasti e riparazioni. Dei dati mancanti o errati possono provocare errori nella stima dell'AFR relativa a prodotti venduti in tutto il mondo.
•
I processi di classificazione dei resi del fornitore non sono definiti in modo chiaro. Se dei prodotti inutilizzati e forniti ancora nell'imballaggio originale vengono resi per l'accredito con la
causale “guasto”, l'AFR ottenuto sarà sovrastimato.
•
Il sistema di rintracciamento del fornitore è in gran parte manuale. La presenza di processi non
automatizzati può introdurre svariati errori nei dati e, in definitiva, inficiare la validità del calcolo
dell'AFR. In genere i risultati sono tanto più precisi quanto maggiore è il grado di automatizzazione del processo. Un esempio di automatizzazione: la scansione dei numeri di serie
(in sostituzione della loro digitazione manuale da parte di un operatore).
Rev 2005-0
16
Formula dell' AFR utilizzata nel calcolo
A seconda del prodotto, la formula dell'AFR (equazione 1 o 2) utilizzata da ciascun fornitore può inficiare o
meno la validità del confronto dei valori di MTBF. Per il confronto tra prodotti funzionanti in modo continuo
(dopo la loro messa in servizio) si può utilizzare indifferentemente una delle due formule; di contro, affinché il
confronto tra prodotti funzionanti in modo intermittente sia valido, è necessario utilizzare solo l'equazione 2.
La Tabella 2 mostra gli scenari in cui è possibile effettuare un confronto significativo.
Tabella 2 – Confronto tra le equazioni per il calcolo dell'AFR
Modalità di funzionamento del prodotto
Confronto tra prodotti funzionanti in modo
continuo
Es.: cfr. tra UPS “A” e “B” (entrambi posti a protezione
dei carichi critici)
Confronto tra prodotti funzionanti in modo
intermittente
Utilizzo dell'equazione Utilizzo dell'equazione
1 dell’AFR
2 dell’AFR
Confronto valido
Confronto valido
Confronto non valido
Confronto valido
Es.: cfr. tra Laptop “A” e Laptop “B”
Ore in un anno
La conversione da AFR a MTBF è valida solo ipotizzando una frequenza di guasto costante. In questo caso
è possibile utilizzare l'equazione 3, ma è importante verificare che per tutti i sistemi comparati si utilizzi lo
stesso numero di ore corrispondenti a un anno. Ad esempio, alcuni fornitori considerano che l'anno sia
costituito da 8.000 ore, mentre altri utilizzano il valore corretto di 8.760 ore.
Rev 2005-0
17
Altri criteri decisionali (oltre all'MTBF)
L'MTBF può costituire uno strumento decisionale utile per definire le caratteristiche tecniche dei prodotti e
per selezionarli (fatto salvo il criterio dell'omogeneità dei metodi, delle variabili e delle ipotesi per tutti i
sistemi comparati). Tuttavia non deve essere mai l'unico criterio. Quando si valutano prodotti di diversi
fornitori, occorre prendere in considerazione molti altri criteri. Ad esempio: quanto sono solidi i processi di
controllo qualità generale utilizzati dai vari fornitori? Quali sono i loro volumi di produzione? Quali le caratteristiche dell'ambiente di produzione? Dispongono della certificazione ISO9000? Tali fattori forniscono un'indicazione sulla standardizzazione dei processi, finalizzata all'ottimizzazione della qualità e dell'affidabilità.
In che misura ciascun prodotto riesce a soddisfare le esigenze dell'utente? Ciò può portare a considerare
fattori quali la flessibilità o la modularità dei prodotti, la capacità di rapido ripristino dopo un guasto (MTTR)
e il Total Cost of Ownership (TCO, costo totale di possesso) dei prodotti (a tale proposito si rimanda al White
Paper APC n. 6, contenente una discussione sull’importanza di tale parametro). Un altro strumento di
comparazione può essere costituito dall'esame dei riferimenti o delle valutazioni dei prodotti fornite dal
cliente. Infine, la valutazione obiettiva da parte di terzi dei due o più sistemi considerati garantisce la qualificazione ottimale dei prodotti e la validità della decisione d'acquisto presa.
Conclusioni
Quando si confrontano più prodotti, l’MTBF è spesso un criterio decisionale fondamentale. Tuttavia occorre
procedere con cautela quando si raffrontano questi valori. Innanzitutto, il metodo di previsione dei valori di
MTBF deve essere identico. Inoltre, durante il processo di raccolta e analisi dei dati di campo si utilizzano
molte variabili e molte ipotesi, ciascuna delle quali può influire significativamente sui risultati. Un confronto
obiettivo degli MTBF non è possibile quando queste variabili e ipotesi non coincidono. La realtà è che
spesso queste variabili e ipotesi sono diverse. La lista di controllo contenuta nell'Appendice può aiutare a
stabilire se è così. Inoltre, lo strumento di calcolo di MTBF online può aiutare a quantificare le ripercussioni
delle variabili critiche sui valori di MTBF.
Grazie alle basi gettate in questo documento, è ora possibile fare un confronto obiettivo dei valori di MTBF.
Quando si utilizzano simili ipotesi e variabili e le definizioni di guasto sono identiche, è ragionevole considerare il confronto attendibile.
Rev 2005-0
18
Informazioni sugli autori
Wendy Torell è un Availability Engineer di APC e lavora presso la sede di West Kingston (nello stato di
Rhode Island). Fornisce consulenza ai clienti sui possibili approcci alla scienza dell'affidabilità e alle pratiche
di progettazione per ottimizzare la disponibilità degli ambienti dei data center. Si è laureata in ingegneria
meccanica all'Union College di Schenectady (nello stato di New York), e ha conseguito la certificazione ASQ
per i Reliability Engineer.
Victor Avelar è un Availability Engineer di APC. Fornisce consulenza sulle soluzioni di disponibilità ed
esegue per i clienti le analisi necessarie per le architetture elettriche e la progettazione dei data center.
Victor Avelar ha conseguito una laurea in ingegneria meccanica presso il Politecnico di Rensselaer nel
1995 ed è membro di ASHRAE e dell'American Society for Quality.
Rev 2005-0
19
Appendice - Lista di controllo per le definizioni di guasti per il calcolo
dell'MTBF
Definizione di guasto
Prassi
ottimale
APC
Fornitore A
Fornitore B
Controllare ogni definizione di guasto che il fornitore include nei valori
di MTBF
Tipo 0: Il prodotto ha un difetto o un guasto che impedisce di metterlo in funzione.
Guasti da danni di spedizione
Guasti provocati durante un'installazione “certificata”
Guasti provocati durante un' installazione “non certificata”
Tipo I: Il prodotto non è più in grado di assolvere alla funzione prevista.
“Guasti segnalati” per prodotti che invece sono risultati funzionare
normalmente
Ecco due esempi di questa definizione di guasto: (1) Un UPS passa
all'alimentazione da batteria e si scarica durante un blackout, provocando la
disalimentazione del carico; (2) Delle condizioni meteo atipiche provocano l'arresto
di server critici perché il sistema di condizionamento dell'aria non è in grado di
raffreddare l'ambiente.
Guasti a cascata (ossia: il guasto del sistema è stato causato da un altro
sistema “simile”)?
Esempio di questa definizione di guasto: Vi sono due sistemi UPS messi in parallelo
su un bus comune di uscita. Si verifica un corto di un condensatore su un sistema
UPS, con propagazione del guasto al bus di uscita e conseguente disalimentazione
del carico.
Guasti causati da tecnico di manutenzione APC o un tecnico di
manutenzione certificato da APC (dopo che il sistema è stato messo in
funzione)
Guasti causati da tecnico ditta esterna (dopo che il sistema è stato messo
in funzione)
√
√
Ecco due esempi di questa definizione di guasto: (1) Il cliente preme il pulsante “Off”
anziché il pulsante “Test”, provocando la disalimentazione del carico; (2) Il cliente
rompe i tubi dello scambiatore refrigerante con un sollevatore a forche, per cui il
condizionatore d'aria cessa di raffreddare.
Per parte usurab ile si intende un qualsiasi componente a vita limitata che
deve essere sostituito prima del termine della vita utile del sistema. Il
guasto di una parte usurab ile viene definito come perdita della capacità di
tale parte di svolgere la funzione prevista prima della fine della sua vita utile.
Altri esempi: (1) condensatori elettrolitici in sistemi di grandi dimensioni;
(2) filtri (dell'aria e dell'olio); (3) il fluido refrigerante all'interno di un
condizionatore d'aria
Guasti di componenti hardware o del firmware che in seguito sono stati
risolti con un upgrade o riparati (Ordini di modifica engineering)
Questa definizione di guasto include qualsiasi guasto hardware o firmware di Tipo I
non conteggiato in precedenza, che in seguito è stato corretto con un ordine di
modifica engineering (OCE) o un'altra soluzione documentata.
Guasti di componenti hardware o del firmware
Questa definizione di guasto include qualsiasi guasto hardware o firmware di Tipo I
non conteggiato in precedenza
√
√
√
Tipo II: Un singolo componente non è più in grado di assolvere alla funzione prevista. Tuttavia il prodotto
è tuttora in grado di assolvere alla funzione prevista.
“Guasti segnalati” per prodotti che invece sono risultati funzionare
normalmente
Guasti a cascata (ossia: il guasto del sistema è stato causato da un altro
sistema “simile”)
Guasti causati da tecnico di manutenzione APC o un tecnico di
manutenzione certificato da APC (dopo che il sistema è stato messo in
funzione)
Guasti causati da tecnico ditta esterna (dopo che il sistema è stato messo
in funzione)
Guasti di componenti hardware o del firmware che in seguito sono stati
risolti con un upgrade o riparati (Ordini di modifica engineering)
Guasti di componenti hardware o del firmware
√
√
√
√
√
Rev 2005-0
20

Come effettuare confronti significativi dell`MTBF per l`infrastruttura di

Transcript

Documenti analoghi

I Membri della Cruise Lines International

fmea severity

View - ELETTRONICA VENETA SpA

Filippo Siciliano

COME ATTIVARE UN`EFFICACE SEGNALAZIONE GUASTI IDRICI

www.manutenzione

informazioni aggiuntive

Quando, come e perché innovare la manutenzione