Sistemi tolleranti ai guasti: generalità ed esempi applicativi. Le

Transcript

Sistemi tolleranti ai guasti: generalità ed esempi applicativi. Le
Dipartimento di Ingegneria Elettronica
Sistemi Tolleranti ai Guasti: Generalità ed
Esempi Applicativi.
Le Memorie di Massa
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Svolgimento della Presentazione
Principi di base dei sistemi digitali fault-tolerant
Progetto di una Memoria di Massa allo Stato Solido
per applicazioni spaziali
Fast – Prototyping della SSMM
Conclusioni
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
The Bathtub Curve
Failure
rate, λ
Infant
Mortality
Useful life
λ Constant
Time
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Wear out
Guasti dovuti alle radiazioni
Single Event Upset di una
cella di memoria SRAM
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
guasti nelle interconnessioni
Interconnessioni: costituite da pass-transistors e metallizzazioni.
Modelli di guasto
Stuck at 0/1;
Stuck at open/close;
Stuck at 0
IN
BUF
OUT
Bridging tra linee;
Stuck at close
VDD
Bridging
IN
OUT
BUF
Stuck at 1
Stuck at open
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Aumento dell’Affidabilità
Aumento della Robustezza
del Componente Elettronico
Tecniche di Rilevazione e
Correzione dei Guasti:
Utilizzo di comp. elettr.
allo stato dell’arte (COTS)
Utilizzano processi tecnologici:
SOI, Rad Hard o Space Qualified
Alte prestazioni
Bassi Costi
Molto Costosi
Ridondanza
Pochi componenti elettronici
sono realizzati in questo modo
Parte del sistema che non è
necessaria per il funzionamento
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Sistemi Self-Checking & Fault-Tolerant
RIDONDANZA
STATICA
Triple Modular Redundancy
Codici a correzione di errore
Maggiore Overhead Hardware
MTTR =0
(Mean Time To Repair)
DINAMICA
Fault detection &
correction
Minore Overhead
MTTR > 0
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
TMR (Triple Module Redundancy)
output
logic
input
output
logic
output
output
Voter
logic
402
Area occupata
200
150
Alta Ridondanza
130
> 200%
100
logic
TMR logic
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Modulo Self-Checking
output
logic
Input
Prediction
block
checker
error
Check bits
202
Area occupata
200
150
Bassa Ridondanza
130
77.19%
100
logic
Self Checking logic
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Codici
CHECK
CHECK
Word
DataWord
Check symbols
CodeWord
(s bits)
s*k bits
r = (n - k)*s bits
n*s bits
Input
coder
write
memory
output
decoder
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Spazio dei Codici
error
error
Code
words
NON-Code
words
(correctable)
NON-Code
words
(uncorrectable)
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Codice di hamming
Hamming code: error-detecting correcting code
può:
(a) Rilevare ogni errore singolo o doppio
(b) Correggere tutti gli errori singoli
G=
Matrice di
Hamming
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
1
0
1
1
1
1
1
0
0
1
1
1
d = d1 d2 d3 d4
Data word
c1 = d2 ⊕ d3 ⊕ d4
c = d*G
c2 = d1 ⊕ d2 ⊕ d3
c3 = d1 ⊕ d3 ⊕ d4
c = d1 d2 d3 d4 c1 c2 c3
code word
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Codici di Reed Solomon
Nei codici di Reed-Solomon RS(m,n,k) una codeword è composta
da n simboli di m bits, con una data-word di k simboli
Nel caso di m=8 ( 1 byte = 1 simbolo ) si usa la notazione
abbreviata RS(n,k).
• la correzione avviene sui simboli
• Si possono correggere sia i guasti permanenti (e.g. stuck-at
nelle celle di memoria) denominati erasures, sia i guasti
temporanei (e.g. SEU) denominati random errors
• Il numero massimo di random errors correggibili è (n-k)/2
• Il numero massimo di erasures correggibili è (n-k)
•In generale si possono correggere 2*er+re≤ (n-k)/2 errori
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
OBIETTIVI DEL PROGETTO DELLA
MEMORIA DI MASSA ALLO STATO SOLIDO
•Uso di componenti commerciali in applicazioni spaziali
•Uso di collegamenti seriali basati sul protocollo IEEE 1355.2
(Spacewire)
•Configurazione del sistema in base alla missione
•Riconfigurazione dinamica del sistema di memorizzazione con
gestione distribuita del file system
•Fault tolerance: codici EDAC & ridondanza nei moduli di
memoria, “graceful degradation” delle funzionalità del sistema
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Struttura della Solid State Mass Memory
Sistema Di Controllo
Link Interface Gestore
del routing del pacchetto
SCU
Moduli
RAM
•Architettura
scalabile
1355/Tkn
•Accesso
concorrente su
moduli di
memoria diversi
LI
MM
MI
MM
SM
1355/Tkn
Interfaccia
1355/Parallelo
LI
Switch Matrix
Matrice di
commutazione
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
MI
Memory Interface
Interfaccia verso i moduli
di memoria RAM
FAULT TOLERANCE DEL SISTEMA
GLOBAL STRUCTURE
MEMORY
KERNEL
UNIT
INDEPENDENT
MEMORY
ARRAY
MODULE
REDUNDANCY
&
EDAC
system
SYSTEM
CONTROL
UNIT
IO I/F
&
S.M.
REDUNDANCY
&
SYSTEM
RECONFIGURA
TION
MICRO
CONTROLLER
REDUNDANCY
functions
modules
fault
tolerant
features
• Ogni modulo è stato progettato
con diverse caratteristiche di fault
tolerance
• Ridondanza del microcontrollore
(SCU)
• Affidabilità nei moduli di
memoria con EDAC e ridondanza
• La modularità del sistema di
interconnessione permette la
riconfigurazione dinamica
• Graceful degradation delle
funzionalità di sistema in caso di
rotture.
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Sistema di Controllo
RAM
• Sistema base senza
accorgimenti orientati
alla Fault Tolerance.
• Nessuna protezione
rispetto a possibili
Guasti.
ROM
µC
Intel 80C51
Interfaccia
BUS
Messaggi
BUS_MSG
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Sistema di Controllo
• Duplicazione del
µC
• Protezione del µC
tramite Analisi
Della Firma.
• Introduzione di
un Gestore degli
errori.
GESTORE
DEGLI
ERRORI
ANALISI
DELLA
FIRMA
RAM
ROM
COD-DEC
Intel 80C51
Intel 80C51
Attivo
Spare
DECODIFICATORE
Interfaccia
BUS_MSG
CODIFICATORE
BUS_MSG
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Analisi della Firma
• Controllo dell’evoluzione del
programma
Generico Programma eseguibile
Analisi delle possibili Sequenze
• Indipendenza dal programma
Check 1
Check- Points
• Controllo Run-Time degli errori
Istruzione
Analisi della Firma
Firma
Istruzione
ROM
Generatore
di Firma
Errata
Indirizzi
Check 2
Istruzione
Istruzione
µC
Attivo
Interrupt
Gestore
Errori
Check 3
Istruzione
Istruzione
Istruzione
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Istruzione
drivers
1
2
Word group = partition
k
1
n-k
1
s
drivers
1
2
Word group = partition
k
1
n-k
1
s
Package power control
Independent Memory Array Modules
1
2
Word group = partition
k
1
n-k
1
s
Buffer
drivers
2
3
Buffer
DMA
1
Buffer
INTERNAL BUS
ECC
Buffer
CTRL
drivers
1
2
Word group = partition
k
1
n-k
1
s
k = data word length
4
•utilizza differenti
codici Reed Solomon
per ottenere la
graceful degradation
•L’ottimizzazione del
memory washing
permette il Trade Off
tra la disponibilità e
la codeword length
n = codeword length
4 word group
4 partition
s = spare package
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Moduli di memoria
•
•
•
•
Capacità dei moduli variabile da 1.125 Gbyte a 4.5 Gbyte
Codifica Reed Solomon con lunghezza di codeword variabile
Generazione dei parametri progettuali tramite un tool software originale
Vincoli progettuali definiti dall’utente finale come input
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
File System
Requisiti
•Graceful degradation
•Frammentazione di uno
stesso file su più moduli
di memoria
SM
•Accesso contemporaneo
su più moduli di
memoria diversi
MI
MM
MI
MM
MI
MM
Soluzione
•Architettura:
•Distribuita
•Implementazione delle
directory:
•Flat
•Massimo 256 file
µC
•Metodo di allocazione:
•Lista concatenata di
blocchi
Funzioni agenti sui file
•Scrittura (creazione automatica)
•Lettura
•Amministrazione dei
blocchi liberi:
•Cancellazione
•Lista collegata
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
File System
P(r)
P(w)
SYSTEM
CONTROL
UNIT
C1(r)
C(w)
READ
LINK
I/F
MEM
I/F
WRITE
LINK
I/F
MEM
I/F
LINK
I/F
• Il Microcontrolle (S.C.U.)
effettua il “file system
management”:
SWITCHING
MATRIX
Cn(r)
MEM
I/F
C2(r)
• Operazioni di READ
• Operazioni di WRITE
attravero i link spacewire
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Memory Interface
•Realizzazione HW
delle funzioni di
base
(lettura,scrittura
cancellazione)
•Graceful
degradation delle
funzionalita
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Gradeful degradation del sistema
1
0,9
R(t)
0,8
0,7
EOM
0,6
0,5
0
2
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
t (Months)
Reliability at 4 GB (100%)
Reliability at 2 GB (50%)
R(t) t=36 Mesi
4 GB
Reliability at 3 GB (75%)
Reliability at 1 GB (25%)
3 GB
0,7097 0,9638
2 GB
0,9979 0,9999
Configurazione a Overhead Minimo
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
1 GB
Setup Prototipo
L’uso di FPGA consente di effettuare campagne di
Fault Injection
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
FAST PROTOTYPING (1/3)
Scheda dn2000k10
La scheda è un emulatore
logico PCI-based per fastprototyping di ASIC.
equipaggiata con:
• 6 Xilinx Virtex XCV1000
• 1 CPLD per la logica di
controllo
del funzionamento della
scheda
•una memoria flash da 8 MB
Implementa le I/O interfaces, la SCU e la matrice di switch
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
FAST PROTOTYPING (2/3)
La scheda sviluppata permette realizza un modulo con 4
Gbyte di memoria SDRAM con un CODEC Reed-Solomon
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
FAST PROTOTYPING (3/3)
•Connessione verso PC
•Link SpaceWire
•scheda di conversione
LVTTL - LVDS
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata
Conclusioni
L’uso di componenti COTS permette di ottenere prestazioni
molto piu elevate dispetto a componenti Rad-Hard
Le metodologie esposte permettono di ottenere
alta affidabilita e la graceful degradation del sistema
Le tecniche di fast-prototyping permettono sia di diminuire
i tempi di sviluppo sia di valutare l’affidabilita dei
blocchi del sistema
SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI
Tor Vergata