Sistemi tolleranti ai guasti: generalità ed esempi applicativi. Le
Transcript
Sistemi tolleranti ai guasti: generalità ed esempi applicativi. Le
Dipartimento di Ingegneria Elettronica Sistemi Tolleranti ai Guasti: Generalità ed Esempi Applicativi. Le Memorie di Massa SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Svolgimento della Presentazione Principi di base dei sistemi digitali fault-tolerant Progetto di una Memoria di Massa allo Stato Solido per applicazioni spaziali Fast – Prototyping della SSMM Conclusioni SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata The Bathtub Curve Failure rate, λ Infant Mortality Useful life λ Constant Time SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Wear out Guasti dovuti alle radiazioni Single Event Upset di una cella di memoria SRAM SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata guasti nelle interconnessioni Interconnessioni: costituite da pass-transistors e metallizzazioni. Modelli di guasto Stuck at 0/1; Stuck at open/close; Stuck at 0 IN BUF OUT Bridging tra linee; Stuck at close VDD Bridging IN OUT BUF Stuck at 1 Stuck at open SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Aumento dell’Affidabilità Aumento della Robustezza del Componente Elettronico Tecniche di Rilevazione e Correzione dei Guasti: Utilizzo di comp. elettr. allo stato dell’arte (COTS) Utilizzano processi tecnologici: SOI, Rad Hard o Space Qualified Alte prestazioni Bassi Costi Molto Costosi Ridondanza Pochi componenti elettronici sono realizzati in questo modo Parte del sistema che non è necessaria per il funzionamento SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Sistemi Self-Checking & Fault-Tolerant RIDONDANZA STATICA Triple Modular Redundancy Codici a correzione di errore Maggiore Overhead Hardware MTTR =0 (Mean Time To Repair) DINAMICA Fault detection & correction Minore Overhead MTTR > 0 SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata TMR (Triple Module Redundancy) output logic input output logic output output Voter logic 402 Area occupata 200 150 Alta Ridondanza 130 > 200% 100 logic TMR logic SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Modulo Self-Checking output logic Input Prediction block checker error Check bits 202 Area occupata 200 150 Bassa Ridondanza 130 77.19% 100 logic Self Checking logic SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Codici CHECK CHECK Word DataWord Check symbols CodeWord (s bits) s*k bits r = (n - k)*s bits n*s bits Input coder write memory output decoder SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Spazio dei Codici error error Code words NON-Code words (correctable) NON-Code words (uncorrectable) SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Codice di hamming Hamming code: error-detecting correcting code può: (a) Rilevare ogni errore singolo o doppio (b) Correggere tutti gli errori singoli G= Matrice di Hamming 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 1 1 1 1 1 0 0 1 1 1 d = d1 d2 d3 d4 Data word c1 = d2 ⊕ d3 ⊕ d4 c = d*G c2 = d1 ⊕ d2 ⊕ d3 c3 = d1 ⊕ d3 ⊕ d4 c = d1 d2 d3 d4 c1 c2 c3 code word SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Codici di Reed Solomon Nei codici di Reed-Solomon RS(m,n,k) una codeword è composta da n simboli di m bits, con una data-word di k simboli Nel caso di m=8 ( 1 byte = 1 simbolo ) si usa la notazione abbreviata RS(n,k). • la correzione avviene sui simboli • Si possono correggere sia i guasti permanenti (e.g. stuck-at nelle celle di memoria) denominati erasures, sia i guasti temporanei (e.g. SEU) denominati random errors • Il numero massimo di random errors correggibili è (n-k)/2 • Il numero massimo di erasures correggibili è (n-k) •In generale si possono correggere 2*er+re≤ (n-k)/2 errori SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata OBIETTIVI DEL PROGETTO DELLA MEMORIA DI MASSA ALLO STATO SOLIDO •Uso di componenti commerciali in applicazioni spaziali •Uso di collegamenti seriali basati sul protocollo IEEE 1355.2 (Spacewire) •Configurazione del sistema in base alla missione •Riconfigurazione dinamica del sistema di memorizzazione con gestione distribuita del file system •Fault tolerance: codici EDAC & ridondanza nei moduli di memoria, “graceful degradation” delle funzionalità del sistema SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Struttura della Solid State Mass Memory Sistema Di Controllo Link Interface Gestore del routing del pacchetto SCU Moduli RAM •Architettura scalabile 1355/Tkn •Accesso concorrente su moduli di memoria diversi LI MM MI MM SM 1355/Tkn Interfaccia 1355/Parallelo LI Switch Matrix Matrice di commutazione SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata MI Memory Interface Interfaccia verso i moduli di memoria RAM FAULT TOLERANCE DEL SISTEMA GLOBAL STRUCTURE MEMORY KERNEL UNIT INDEPENDENT MEMORY ARRAY MODULE REDUNDANCY & EDAC system SYSTEM CONTROL UNIT IO I/F & S.M. REDUNDANCY & SYSTEM RECONFIGURA TION MICRO CONTROLLER REDUNDANCY functions modules fault tolerant features • Ogni modulo è stato progettato con diverse caratteristiche di fault tolerance • Ridondanza del microcontrollore (SCU) • Affidabilità nei moduli di memoria con EDAC e ridondanza • La modularità del sistema di interconnessione permette la riconfigurazione dinamica • Graceful degradation delle funzionalità di sistema in caso di rotture. SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Sistema di Controllo RAM • Sistema base senza accorgimenti orientati alla Fault Tolerance. • Nessuna protezione rispetto a possibili Guasti. ROM µC Intel 80C51 Interfaccia BUS Messaggi BUS_MSG SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Sistema di Controllo • Duplicazione del µC • Protezione del µC tramite Analisi Della Firma. • Introduzione di un Gestore degli errori. GESTORE DEGLI ERRORI ANALISI DELLA FIRMA RAM ROM COD-DEC Intel 80C51 Intel 80C51 Attivo Spare DECODIFICATORE Interfaccia BUS_MSG CODIFICATORE BUS_MSG SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Analisi della Firma • Controllo dell’evoluzione del programma Generico Programma eseguibile Analisi delle possibili Sequenze • Indipendenza dal programma Check 1 Check- Points • Controllo Run-Time degli errori Istruzione Analisi della Firma Firma Istruzione ROM Generatore di Firma Errata Indirizzi Check 2 Istruzione Istruzione µC Attivo Interrupt Gestore Errori Check 3 Istruzione Istruzione Istruzione SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Istruzione drivers 1 2 Word group = partition k 1 n-k 1 s drivers 1 2 Word group = partition k 1 n-k 1 s Package power control Independent Memory Array Modules 1 2 Word group = partition k 1 n-k 1 s Buffer drivers 2 3 Buffer DMA 1 Buffer INTERNAL BUS ECC Buffer CTRL drivers 1 2 Word group = partition k 1 n-k 1 s k = data word length 4 •utilizza differenti codici Reed Solomon per ottenere la graceful degradation •L’ottimizzazione del memory washing permette il Trade Off tra la disponibilità e la codeword length n = codeword length 4 word group 4 partition s = spare package SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Moduli di memoria • • • • Capacità dei moduli variabile da 1.125 Gbyte a 4.5 Gbyte Codifica Reed Solomon con lunghezza di codeword variabile Generazione dei parametri progettuali tramite un tool software originale Vincoli progettuali definiti dall’utente finale come input SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata File System Requisiti •Graceful degradation •Frammentazione di uno stesso file su più moduli di memoria SM •Accesso contemporaneo su più moduli di memoria diversi MI MM MI MM MI MM Soluzione •Architettura: •Distribuita •Implementazione delle directory: •Flat •Massimo 256 file µC •Metodo di allocazione: •Lista concatenata di blocchi Funzioni agenti sui file •Scrittura (creazione automatica) •Lettura •Amministrazione dei blocchi liberi: •Cancellazione •Lista collegata SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata File System P(r) P(w) SYSTEM CONTROL UNIT C1(r) C(w) READ LINK I/F MEM I/F WRITE LINK I/F MEM I/F LINK I/F • Il Microcontrolle (S.C.U.) effettua il “file system management”: SWITCHING MATRIX Cn(r) MEM I/F C2(r) • Operazioni di READ • Operazioni di WRITE attravero i link spacewire SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Memory Interface •Realizzazione HW delle funzioni di base (lettura,scrittura cancellazione) •Graceful degradation delle funzionalita SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Gradeful degradation del sistema 1 0,9 R(t) 0,8 0,7 EOM 0,6 0,5 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 t (Months) Reliability at 4 GB (100%) Reliability at 2 GB (50%) R(t) t=36 Mesi 4 GB Reliability at 3 GB (75%) Reliability at 1 GB (25%) 3 GB 0,7097 0,9638 2 GB 0,9979 0,9999 Configurazione a Overhead Minimo SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata 1 GB Setup Prototipo L’uso di FPGA consente di effettuare campagne di Fault Injection SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata FAST PROTOTYPING (1/3) Scheda dn2000k10 La scheda è un emulatore logico PCI-based per fastprototyping di ASIC. equipaggiata con: • 6 Xilinx Virtex XCV1000 • 1 CPLD per la logica di controllo del funzionamento della scheda •una memoria flash da 8 MB Implementa le I/O interfaces, la SCU e la matrice di switch SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata FAST PROTOTYPING (2/3) La scheda sviluppata permette realizza un modulo con 4 Gbyte di memoria SDRAM con un CODEC Reed-Solomon SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata FAST PROTOTYPING (3/3) •Connessione verso PC •Link SpaceWire •scheda di conversione LVTTL - LVDS SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata Conclusioni L’uso di componenti COTS permette di ottenere prestazioni molto piu elevate dispetto a componenti Rad-Hard Le metodologie esposte permettono di ottenere alta affidabilita e la graceful degradation del sistema Le tecniche di fast-prototyping permettono sia di diminuire i tempi di sviluppo sia di valutare l’affidabilita dei blocchi del sistema SISTEMI TOLLERANTI AI GUASTI: GENERALITÀ ED ESEMPI APPLICATIVI Tor Vergata