Estratto da: Carlo Solarino VIDEO PRODUZIONE DIGITALE
Transcript
Estratto da: Carlo Solarino VIDEO PRODUZIONE DIGITALE
Estratto da: Carlo Solarino VIDEO PRODUZIONE DIGITALE Prima parte IL SEGNALE DIGITALE Capitolo 1 Il segnale analogico Il segnale video digitale viene ottenuto per codifica da quello analogico, di cui ne rispetta la generale struttura. Questo Capitolo richiama pertanto i parametri fondamentali del segnale analogico, tra cui i formati con le relative connessioni di ingresso e uscita, la frequenza con la risoluzione d’immagine e il rapporto segnale/rumore. Viene fatto un cenno infine alle classi di qualità delle apparecchiature. 1. Formati del segnale Nell’effettuare una ripresa a colori, la telecamera riconduce tutti i colori reali dell’immagine inquadrata, ai tre colori di base o primari rosso R, verde G (Green) e blu B. Questo processo, noto come “analisi del colore”, viene effettuato dal dispositivo ottico chiamato discriminatore, che si trova a immediato contatto con l’obiettivo. I tre colori vengono inviati ad altrettanti sensori d’immagine, con il risultato di avere a disposizione i tre segnali video RGB contenenti tutte le informazioni dell’immagine catturata. Nelle camere economiche per uso domestico, discriminatore e sensori sono costituiti da un’unica struttura, ma il segnale generato rimane il medesimo. A sua volta, quando la telecamera viene collegata con altre apparecchiature (monitor, videoregistratori, ecc.) e a seconda del tipo e della classe di apparecchiature, questo segnale può assumere tre aspetti o formati diversi. • Formato RGB. In questo caso il segnale rimane nel suo aspetto originale, costituito dai tre segnali corrispondenti ai tre colori primari. I tre segnali RGB, in uscita dalla telecamera, fanno capo ad altrettanti connettori; • Formato in componenti. In questo caso i tre segnali RGB vengono opportunamente combinati, in modo da generare il segnale di luminanza, corrispondente a quello richiesto per far funzionare televisori e monitor in bianco e nero; e il segnale di crominanza, che aggiunge al precedente le informazioni di colore. Anche i due segnali di luminanza e di crominanza fanno capo ad altrettanti connettori d’uscita; • Formato composito. In questo caso, i due segnali di luminanza e crominanza vengono tra loro integrati, col risultato che tutto il segnale video viene reso disponibile su un unico canale, facente capo a un unico connettore d’uscita. Il formato composito viene talvolta indicato con CVBS (Chroma Video Blanking Syncs). Questi formati di segnale, rispettati anche dalle apparecchiature digitali, richiedono qualche approfondimento. 2. Il formato RGB Questo formato operante su tre canali, garantisce le migliori condizioni di lavoro con le migliori rese d’immagine, ma trova impieghi limitati. Tra essi, la riproduzione di immagini di elevata qualità con connessione diretta cameramonitor oppure camera-mixer o camera-registratore; la generazione di immagini da telecinema; altri usi generalmente di alto livello. Anche in versione digitale, il formato RGB è quello che garantisce le immagini di migliore qualità. 3. Il formato in componenti Come abbiamo anticipato, il segnale video in questo formato è costituito dalla due componenti di luminanza e crominanza, di cui la prima contiene le informazioni dell’immagine corrispondenti al bianco e nero (contorni o profili dei soggetti con le gradazioni di grigio); e la seconda le informazioni di colore. Con un cenno storico, è opportuno ricordare che il segnale video a colori ha “dovuto “ subire questa forma, per rendersi compatibile con i preesistenti televisori in bianco e nero e che tuttora mirini di telecamere o monitor b/n sono in grado di riprodurre le immagini grazie a questa organizzazione del segnale in luminanza e crominanza. Televisori e monitor in b/n riproducono naturalmente la sola luminanza. Ma a parte questa precisazione, come vengono ottenute queste due componenti dal segnale originario RGB? La componente di luminanza, chiamata Y, viene generata per somma “pesata” dei tre segnali di colore RGB. Precisamente: Y = aR + bG + cB dove a, b e c sono tre parametri di limitazione delle intensità dei tre colori, la cui somma naturale porterebbe a dei valori eccessivi rispetto alla tradizionale scala di grigi del segnale in bianco e nero. La componente di crominanza viene, a sua volta, ripartita nelle due componenti (RY) e(B-Y), note come differenze colore, che contengono le informazioni relative ai colori rosso (R) e blu (B). II motivo per cui si è arrivati a questa formulazione, non certo di comprensione immediata, del segnale in componenti, dipende solo dal fatto che con queste soluzioni si è riusciti a semplificare al massimo i circuiti di supporto. Ma la sostanza dell’approccio è che, disponendo in un determinato istante delle informazioni Y ed R-YB-Y, con semplici operazioni di somma e sottrazione, si può risalire immediatamente al segnale RGB nella sua forma originaria. Il segnale in componenti, che d’ora in poi indicheremo con Y/(R-Y)/ (B-Y), occupa due canali, di cui il primo riservato alla luminanza Y e il secondo alle due componenti di crominanza. È il caso poi di ricordare che il segnale in componenti viene talvolta indicato anche con YUV, una formulazione non del tutto esatta in quanto non si riferisce propriamente alle differenze colore. In ogni caso il formato in componenti, anche se richiede due canali con una certa complessità circuitale delle apparecchiature, rappresenta oggi il formato di segnale più diffuso in tutte le applicazioni professionali e broadcast e quello inoltre, come vedremo, su cui maggiormente e quasi esclusivamente si basa la televisione digitale. 4. Il formato composito Anche questo formato di segnale prevede le componenti di luminanza e crominanza, ma esse vengono rese disponibili su un unico canale. Per ottenere questo, al segnale di luminanza viene associata una frequenza, nota come sottoportante colore, che viene modulata in base alle informazioni cromatiche. Il colore, in questo caso, non viene più caratterizzato con le due differenze colore, ma con i due parametri di tinta e saturazione: la tinta modula la sottoportante in fase, e la saturazione in ampiezza. Dal punto di vista concettuale la situazione può apparire alquanto complicata, ma il vantaggio del ricorso al segnale composito è offerto dal fatto di poter operare su un unico canale, tant’vero che tutta la televisione analogica tradizionale ha sempre operato su tale formato. E anche in questo caso, disponendo in ogni istante delle tre informazioni luminanza, tinta e saturazione, si può risalire facilmente al segnale RGB. La frequenza della sottoportante poi, deve essere scelta in modo da determinare il minimo disturbo possibile alla scansione dell’immagine. Tenendo presente questa esigenza, la frequenza di sottoportante è stata fissata in 4,43 MHz per il segnale PAL (625 righe, 25 periodi o immagini al secondo) e in 3,58 MHz per il segnale NTSC (525 righe, 30 periodi). Se il formato composito offre l’indubbio vantaggio di poter operare su un unico canale che riporta simultaneamente le due informazioni di luminanza e crominanza, esso determina però almeno due problemi di un certo rilievo in termini di resa d’immagine, soprattutto se si opera in ambiente professionale. Il primo problema è generato dagli effetti di crossluminance e crosscolor. Il fatto di dover far coesistere su uno stesso canale le due informazioni di luminanza e crominanza genera una reciproca interferenza col risultato, per la luminanza, di una perdita di capacità di riprodurre i dettagli (crossluminance); e per la crominanza, di una perdita di capacità di riprodurre le sfumature di colore (crosscolor). È questo il motivo per cui le immagini generate da segnale composito presentano, rispetto agli altri due formati, una resa di minore qualità. Il secondo problema è noto come field sequence o sequenza di campo. La frequenza della sottoportante colore non si accorda perfettamente con quella della trama di scansione delle immagini, col risultato di avere una messa al passo delle due frequenze non su ciascun field o campo, ma per gruppi o sequenze di field. Nel sistema PAL, la sequenza è di 8 field, ovvero di 4 frame o quadri; nel sistema NTSC, la sequenza è di 4 field, ovvero di due quadri. Questa situazione, che passa del tutto inosservata nel caso di programmi senza interruzioni, crea invece svariati problemi nelle operazioni di editing in videoregistrazione. Se l’aggancio tra le due sequenze che si stanno montando non rispetta la sequenza di campo, come difatti il più delle volte avviene essendo un intervento del tutto casuale e probabilistico, ne consegue un disturbo che si manifesta come un salto d’immagine o come uno o più quadri privi di colore. Anche se questo disturbo viene eliminato sulle migliori apparecchiature con opportuni circuiti (color framer), il problema sul sincronismo della trama di segnale comunque rimane. Da quanto detto dunque, il formato del segnale in composito presenta delle evidenti limitazioni. Per questa ragione, nel passaggio dall’analogico al digitale, l’attenzione si è spostata dal formato composito a quello in componenti, riservando al primo solo alcune limitate aree di impiego, spesso imposte da situazioni preesistenti (fine lezione)………………………. 5. Il sistema di ingressi e uscite Da quanto detto, il segnale video può dunque assumere svariati aspetti, ciascuno dei quali richiede una propria struttura di connettori di ingresso e uscita dalle relative apparecchiature. Quelle più economiche di classe domestica presentano uno o pochi connettori riservati al segnale video composito; quelle di elevata qualità ne presentano invece numerosi, per segnali in ogni formato. Precisiamo che i cavi di collegamento sono tutti di tipo schermato, ovvero presentano una calza metallica esterna con funzione di protezione da interferenze; e che lo stesso schermo in alcuni casi agisce anche da conduttore di ritorno del segnale (collegamento sbilanciato), mentre in altri opera da solo schermo, con il ritorno effettuato su un altro filo (collegamento bilanciato). Un cavo schermato contenente un solo filo viene detto coassiale; e uno contenente più fili viene detto multipolare. Ma, facendo sempre riferimento ai formati di segnale, ecco l’insieme dei connettori di ingresso e di uscita o I/O (Input/Output) per un’apparecchiatura effettivamente “aperta”, ovvero capace di collegarsi con qualsiasi altra. • Segnale RGB. Richiede tre connettori, uno per ciascun colore. L’apparecchiatura riporta su ciascun connettore la relativa indicazione “R”, “G” e “B„ • Segnale in componenti. Il supporto di connessione avviene secondo due criteri diversi: nella macchine di alto livello, con due connettori coassiali, uno per la luminanza Y e l’altro per le due componenti di crominanza (R-Y) e (B-Y); nelle macchine di fascia inferiore, con un unico connettore circolare multipolare capace di supportare entrambe le componenti. Questo connettore viene detto S-Video (Super-Video) e presenta struttura a 5 poli: uno opera da massa; una prima coppia di poli supporta la luminanza; e la seconda coppia supporta la crominanza. Le due componenti di crominanza (R-Y) e (B-Y) sono poste in successione temporale tra di loro, in modo da poter essere trasferite lungo un unico canale. La connessione SVideo è tipica dei videoregistratori S-VHS che operano in componenti. Alcune apparecchiature presentano anche il doppio sistema di connessione per il segnale in componenti, a due connettori coassiali separati e a connettore circolare S-Video. In ogni caso l’apparecchiatura riporta sempre, in corrispondenza al connettore, la relativa indicazione: “Y”, “R-Y/B-Y” oppure “S-Video”. Quest’ultimo connettore è anche indicato con “Y/C”, dove C sta per Colore o Chroma. • Segnale composito. Richiede la forma di connessione più semplice, costituita da un solo connettore coassiale. Esso viene contraddistinto dall’indicazione Comp o Composit o anche CVBS. 6. Frequenza del segnale e risoluzione di immagine Il segnale video analogico presenta andamento continuo, con valori alti in corrispondenza al bianco e ai colori chiari delle relative immagini, e valori bassi in corrispondenza al nero e ai colori scuri. Ma per poter rappresentare con sufficiente precisione tutti i dettagli di un’immagine ovvero garantirne la nitidezza (la maglietta a righe di una presentatrice, la tappezzeria di una poltrona), lo stesso segnale deve presentare capacità di modificarsi rapidamente nel tempo. Ricordiamo che il tempo di scansione di riga è di 64 µs (microsecondi, cioè milionesimi di secondo) nel sistema PAL e di 63,4 µs nel sistema NTSC. Questa capacità di rapida modificazione del segnale dipende dalle prestazioni dei circuiti che lo generano, lo amplificano e lo elaborano: cioè, in una parola, dalla qualità delle apparecchiature da cui proviene (telecamere, mixer, recorder, ecc.). Il parametro che misura la capacità di modificazione del segnale è la frequenza, intesa come massimo numero di variazioni (oscillazioni) al secondo che il segnale stesso è in grado di contenere. Facendo riferimento al segnale di luminanza e supponendo di operare con apparecchiature di fascia alta, la frequenza standard del segnale video è fissata in 5 MHz (Mega Hertz). Ciò significa che il segnale è in grado di supportare fino a cinque milioni di oscillazioni al secondo ovvero di generare, sempre al secondo, 5 milioni di informazioni bianco/nero. Si suppone di far corrispondere alla parte alta dell’oscillazione (semionda positiva) il bianco e alla parte bassa (semionda negativa) il nero. Ricordando poi che, nel sistema PAL, le righe di scansione orizzontale sono 625 al secondo, ovvero che in ogni secondo sono disponibili (625x25) = 15.625 righe, si deduce che il numero delle informazioni per ciascuna riga è dato da: 5.000.000 : 15.625 = 320. Ciascuna riga di scansione in definitiva, e partendo sempre da un segnale di 5MHz, è in grado di rappresentare 320 coppie di informazioni bianco/nero, ovvero 640 elementi di immagine. In termini leggermente più rigorosi, possiamo dire che la risoluzione orizzontale offerta da un sistema televisivo operante su segnale a 5 MHz è di 640 elementi d’immagine (320 bianchi e 320 neri). Questo dato, tuttavia, è teorico e per due ragioni: • Una riga di scansione orizzontale completa comprende anche il ritorno, che non contiene informazioni di immagine e che sottrae circa il 10% del valore utile; • L’apparecchiatura di riproduzione (televisore, monitor) per quanto di buona qualità, non è in grado di riprodurre la completa potenzialità del segnale. Ne nasce una situazione reale che prevede di assegnare a ciascuna riga di scansione, sempre partendo da un segnale di 5 MHz e operando su apparecchiature di buona qualità, la risoluzione orizzontale di 400 elementi di immagine (200 bianchi e 200 neri). Questa situazione porta alla seguente regola pratica: la risoluzione orizzontale di un’immagine si ottiene moltiplicando il numero dei MHz della luminanza del segnale per il numero fisso 80. Nel nostro caso quindi, con luminanza pari a 5 MHz, si ottiene infatti: 5(N° dei MHz) x 80 (N° fisso) = 400 (risoluz. orizz.) Il valore “400”, inferiore al valore teorico dei 640 punti visto prima, esprime dunque la risoluzione orizzontale normalmente attribuita al segnale video e alle apparecchiature di livello broadcast. Va infine precisato che, se il segnale contiene anche la crominanza, come difatti il più delle volte avviene, che intacca i dettagli d’immagine per l’effetto di crosscolor come detto, la risoluzione orizzontale ne viene ulteriormente abbassata in ragione di 1/5, ovvero passa da 400 a 320 righe. È quest’ultima infatti la risoluzione per un’immagine a colori normalmente attribuita alle apparecchiature video che operano sui 5 MHz. Apparecchiature di minore qualità, come i videoregistratori di tipo professionale oppure di uso domestico, lavorano su frequenze inferiori, di 4 o 3 MHz, con riduzione anche della risoluzione, che sarà di 320 o 240 punti per la luminanza, ovvero di circa 260 e 200 punti per il segnale con luminanza e crominanza. 7. Il rapporto segnale/rumore Ogni apparecchiatura elettronica genera un disturbo di fondo chiamato rumore. Nei sistemi audio (registratori, amplificatori) si manifesta come un fruscio, mentre nei sistemi video si presenta come un insieme di piccoli granuli in movimento casuale, chiamato “neve” o “effetto neve”. La neve, che si presenta sullo schermo in misura più o meno apprezzabile, non dipende dal solo dispositivo di riproduzione ma da tutta la catena di apparecchiature che lo precedono. Essa, a sua volta, è pressoché trascurabile in sistemi di buona qualità, ma aumenta in quelli di qualità più limitata. La grandezza che stabilisce di quanto un segnale sia inquinato da rumore è il rapporto segnale rumore, indicato con SIN (Signal/Noise). Tanto più grande è il rapporto SIN, tanto migliore è la qualità dell’immagine riprodotta. Il rapporto S/N viene espresso in deciBel o dB. Un sistema video di qualità accettabile deve presentare rapporto S/N di almeno 45 dB, cui corrisponde un segnale circa 150 volte superiore al rumore. Ma sistemi video di buona qualità si avvicinano a 60 dB, con segnale circa 1000 volte superiore al rumore. La Tabella 1 riporta la corrispondenza tra dB e rapporto S/N. dB 40 42 45 46 49,5 50 54 55 60 S/N 100 126 178 200 300 316 500 562 1000 Tabella I- Corrispondenza tra dB e rapporto segnale/rumore. 8. Le classi di qualità È consuetudine ripartire le apparecchiature video in tre classi di qualità, note come domestica o home, professionale e broadcast. Al di là della differenza di prezzo, queste apparecchiature presentano caratteristiche e prestazioni diverse con un’evidente ricaduta sulla qualità delle immagini. I due parametri del segnale che incidono principalmente sulla qualità delle immagini sono quelli che abbiamo appena descritto con qualche approfondimento: ovvero, la frequenza, che determina la risoluzione o nitidezza; e il rapporto segnale/rumore, che definisce il grado di disturbo di fondo o neve. Altri parametri riguardano il gamma, che indica la capacità di resa delle sfumature di colore, ovvero la velocità di passaggio dai toni chiari a quelli scuri; il contrasto, inteso come rapporto tra massimo valore di bianco e minimo valore di nero; la luminosità, ovvero il grado di emissione luminosa complessiva di un’immagine; la saturazione, ovvero la densità cromatica. La classe di qualità di un’apparecchiatura andrebbe pertanto stabilita misurando ciascuno di questi parametri ed effettuando una loro valutazione. Inutile dire che, al di là della non semplice dimestichezza con tali parametri, per definire in modo approfondito le classi di qualità, si dovrebbe creare una serie di tabelle complicate e di non facile interpretazione. È consuetudine pertanto riferire queste tre classi di qualità, agli standard di videoregistrazione maggiormente usati, rispettivamente, in ambiente domestico, professionale e broadcast e cioè VHS, S-VHS e Betacam. Nel normale gergo televisivo, per definire la classe di un segnale e dell’immagine prodotta, si parla infatti di “qualità VHS” oppure di “qualità SVHS” oppure ancora di “qualità Betacam”. Questi riferimenti sono di particolare rilievo considerato che, come vedremo, nel configurare una stazione di montaggio, viene sempre chiesto dai relativi menu su quale classe di segnale si vuole lavorare: VHS, S-VHS o Betacam. Alcune stazioni scendono poi in ulteriori classificazioni, quali VHSLP (Long Play), di qualità inferiore al VHS; Hi8, una classe ritenuta corrispondente all’S-VHS; Betacam SP (Superior Performance), con piena ampiezza di banda per la luminanza, ovvero con immagini maggiormente definite. La Tabella 2 riporta in sintesi le classi di qualità del segnale in relazione agli standard di videoregistrazione e anche i valori di risoluzione e di SIN relativi alla luminanza. Capitolo 2 La conversione analogico/digitale Le regole della conversione A/D oppure DIA sono sempre le medesime, tanto che si tratti di segnale video, audio o di altra natura. Questo Capitolo presenta i principi generali della conversione, ne chiarisce l’applicazione al segnale e approfondisce gli aspetti relativi al segnale video in componenti. Vengono infine considerate le codifiche del segnale informato composito, RGB e quella del segnale audio. 1. Principi di codifica digitale La codifica digitale di un segnale video o audio consiste nella sua trasformazione da formato “analogico”, in quanto “analogo” alla realtà e con andamento continuo, a formato digitale o numerico, con andamento discreto basato sui due valori 0 e 1. Essa avviene tramite due processi: il campionamento e la quantizzazione. Il primo consiste nella scelta a intervalli regolari di tempo di valori rappresentativi o “campioni” del segnale da codificare; il secondo prevede la trasformazione di questi campioni in insiemi o parole di bit 0 e 1. Dal punto di vista pratico, queste operazioni vengono effettuate da un apposito componente integrato, il codificatore o encoder o coder A/D, in ingresso all’apparecchiatura digitale; e dal decodificatore o decoder D/A, in uscita. 1.1 Il campionamento Il segnale video analogico tradizionale deve presentare, come abbiamo visto, capacità di modificarsi repentinamente. Il parametro che misura questa capacità di variazione è la frequenza, il cui valore massimo è stato stabilito in 5 MHz. É intuibile a questo punto, che la scelta dei campioni del segnale analogico da codificare, cioè il campionamento, è strettamente legata a tale frequenza. Se i campioni infatti sono troppo distanti tra loro, ovvero a frequenza troppo bassa, non saranno in grado di rappresentare il segnale in modo significativo; se invece sono troppo densi, cioè a frequenza troppo alta, risulteranno ridondanti con inutile aggravio di elaborazioni. Questa correlazione viene precisata dal Teorema di Shannon (1948) o dall’equivalente Criterio di Nyquist: “Un segnale analogico può essere completamente definito nella sua versione campionata, purché la frequenza del campionamento sia almeno il doppio della massima frequenza contenuta nello stesso segnale”. Ma, dalla teoria, passiamo alla pratica. Se la massima frequenza del segnale video è di 5 MHz, la frequenza di campionamento dovrà essere di almeno 10 MHz. Si è convenuto infatti di fissare univocamente, a livello mondiale, la frequenza di campionamento in 13,5 MHz. Questo valore si riferisce propriamente, come vedremo meglio in seguito, al campionamento della luminanza nell’ambito del segnale in componenti. La frequenza di campionamento a 13,5 MHz, stabilita fino dal 1982, oltre a soddisfare il Teorema di Shannon, è stata scelta in modo da generare anche un numero intero di campioni per ogni riga di scansione, sia nello standard americano NTSC basato su 525 scandite 30 volte al secondo, che in quello europeo PAL/SECAM, basato sul 625 righe scandite 25 volte al secondo. Al di là di aver rappresentato un punto di riferimento per la costruzione delle apparecchiature digitali, i 13,5 MHz hanno così avuto anche il ruolo di un’importante pedina verso la compatibilità degli standard. Dalla frequenza di campionamento di 13,5 MHz, consegue inoltre che la durata temporale di ciascun campione è di 74 ns (nanosecondi, miliardesimi di secondo). 1.2 La quantizzazione Definita la regola base del campionamento del segnale video, si tratta ora di trasformare i campioni prescelti in insiemi o parole di bit, capaci di esprimere il valore originario del segnale o un valore abbastanza vicino ad esso. Senza richiamare le regole della matematica binaria, ci basti dire che, detto “n” il numero dei bit di una parola, il numero dei valori o livelli esprimibili con tale parola è dato da 2°. In base poi a una serie di studi e valutazioni sulle caratteristiche della visione umana, si è trovato che l’occhio è in grado di distinguere attorno alle 250 gradazioni di grigio e saturazioni di colore. Ciò ha consigliato di orientare il numero dei bit della parola di codifica del segnale video, sul valore di 8. Infatti: 28 = 256 livelli di segnale. Nell’ambito dei sistemi televisivi, la quantizzazione basata su parole di 8 bit è infatti la più diffusa, anche se apparecchiature di qualità particolarmente elevata si spingono su parole di 10 e anche di 12 bit pari, rispettivamente, a 210 = 1024 e a 212 = 4096 livelli di segnale. Il numero n dei bit della parola di codifica viene detto profondità di quantizzazione. Le operazioni di conversione A/D generano in ogni caso un rumore intrinseco nel segnale detto rumore di quantizzazione. Il rapporto SIN, del segnale digitale sul rumore di quantizzazione è dato dalla formula: S/Ndigitale = 6(n + 1)dB dove 6 è un numero fisso ed n è il numero dei bit di parola, ovvero la profondità di quantizzazione. Se poniamo dunque n = 8, si ottiene: S/N8 = 6(8 + 1)dB = 54dB che è un valore, ricordando quanto detto sull’5/N analogico, più che adeguato per una catena di apparecchiature video di buone caratteristiche. Se poi si opera su profondità di quantizzazione di 10 o di 12 bit, si otterranno: S/N1 0 = 6(10 +1)dB = 66dB oppure S1N12 = 6(12 + 1)dB = 78dB entrambi valori che garantiscono immagini di qualità decisamente elevata. Sottolineiamo infine, come vedremo meglio in seguito, che nell’audio la profondità di quantizzazione è più accentuata, avvalendosi di parole fino a 32 bit. 2. La codifica del segnale in componenti e la normativa R- 601 Abbiamo già detto che, nell’ambito della televisione digitale, il formato di segnale utilizzato nella quasi totalità dei casi, è quello in componenti con conversione analogico/digitale effettuata in modo separato su luminanza e crominanza. L’approccio alla codifica in componenti era stato già da anni proposto dai costruttori di apparecchiature video ed è stata in seguito convalidato dal CCIR (Comitato Consultivo Internazionale di Radiocomunicazioni) secondo la Norma 601. Va precisato che lo stesso Comitato ha subito una ristrutturazione divenendo l’odierna ITU (International Telecommunication Union), ripartita a sua volta nelle due sezioni T (Telefonia) ed R (Radiocomunicazioni). In questo passaggio, la Norma 601 è stata salvaguardata ed è diventata, più precisamente, ITU-R-601. Le due diciture CCIR-601 e ITU-R-601, che designano entrambe la codifica analogico/digitale del segnale video in componenti, hanno pertanto lo stesso significato ma, delle due, “ITU-R-601” è la più corretta. Ad essa si attengono in particolare i sistemi di classe broadcast, mentre quelli professionali e domestici, pur rispettandone la struttura, apportano alcune varianti semplificative, come vedremo. Precisando quanto anticipato, la R-601 prevede che la frequenza di campionamento della crominanza sia fissata sul valore di 13,5 MHz; e stabilisce, in secondo luogo, che le due componenti di crominanza (R-Y) e (B-Y) vengano campionate alla frequenza di 6,75 MHz, pari cioè alla metà di 13,5. Questa configurazione di campionamento viene indicata con 4:2:2, come vedremo meglio in seguito, mentre i due segnali di crominanza, una volta acquistata forma digitale, vengono indicati con CR, corrispondente all’analogico (R-Y) e CB, corrispondente a (B-Y). Passando alla quantizzazione, e ricordando quanto detto sul rapporto S/N, la stessa norma formalizza anche il fatto che la profondità debba essere di 8 oppure di 10 bit su entrambe i componenti. Ma precisa anche il modo di condurre la quantizzazione su tali componenti. Per la luminanza, in relazione ai 256 livelli di segnale disponibili, viene stabilito che il nero si venga a trovare sul 16° livello e il bianco sul 235° per un totale di 220 livelli utili. Ciò garantisce un’adeguata riproduzione delle immagini e due fasce di guardia, rispettivamente, superiore ultrabianco e inferiore infranero, tali da assorbire picchi di bianco senza bruciare le immagini; e da poter entrare nel nero per decifrare inquadrature anche sottoesposte. Per la crominanza, rispettando analoghi criteri, i livelli utili sono 225. Con lo scopo inoltre di limitare interferenze con la luminanza, il livello cromatico più basso (colore totalmente saturo corrispondente al nero) viene fissato sul valore 128; e quello più alto (colore totalmente desaturato corrispondente al bianco) sul livello 352. I livelli estremi della scala, 0 e 255, vengono inoltre considerati “proibiti” per entrambi i segnali. In merito all’audio, la cui conversione digitale avviene sempre in base ai due processi di campionamento e quantizzazione, la R-601 prevede il campionamento a 48 kHz e la quantizzazione su parole di 20 bit. Questi dati stabiliscono, nel loro complesso, il punto di riferimento per tutta l’attuale televisione digitale. 3. Il formato 4:2:2 La normativa R-601 definisce la frequenza di campionamento, come detto, su 13,5 MHz per la luminanza Y e su 6,75 MHz per le due componenti colore. Ma perché questa scelta di limitare la crominanza? La ragione va ricercata nell’eccessivo bitrate, ovvero nell’eccessiva quantità di dati o bit al secondo, generato dal segnale video nel suo insieme. Supponendo di lavorare infatti su parole di 8 bit, si ottiene subito che: Bitrate Y8bìt = 13,5x1.000.000x8 = 108 Mbps dove Mbps sta per “Mega bit per second” (milioni di bit al secondo). In altre parole, il segnale di luminanza Y genera un bitrate di 108 milioni di bit al secondo. Se a esso si sommano i due bitrate della crominanza campionati anch’essi a 13,5 MHz, si ottiene un bitrate totale di ben 324 Mbps: un dato esorbitante. Non solo perché richiederebbe dei circuiti di supporto (codificatori, processori, ecc.) molto veloci, ma perché imporrebbe il ricorso a supporti di memoria di eccessiva capacità. Basti pensare, come si può facilmente calcolare, che per memorizzare un solo secondo di programma occorrerebbero circa 10 floppy disk dalla capacità standard di 1,4 MByte. E opportuno anche ricordare, con una notazione di carattere storico, che questa regole sono state stabilite tra la fine degli anni ‘70 e l’inizio degli ‘80, quando i microprocessori e tutta la componentistica integrata era ancora ai suoi primi passi. La scelta contenuta nella raccomandazione R-601 di dimezzare la frequenza di campionamento della crominanza, è stata fatta quindi per limitare il bítrate complessivo del segnale che, sempre su parole di 8 bit, diventa pertanto di: Bitrate (Y/CR/CB)s bit = _(13,5 + 6,75 +6,75) x 1.000.000 x 8 = 216 Mbps. Se la profondità di quantizzazione anziché di 8 è di 10 bit, il bitrate del segnale è di: Bitrate (Y/CR/CB)10 bit = (13,5 + 6,75 +6,75) x 1.000.000 x 10 = 270 Mbps. La riduzione dei campioni di colore si è potuta fare in base alla considerazione che l’occhio umano è meno sensibile alle informazioni cromatiche rispetto a quelle dei contorni o dei dettagli d’immagine. L’accorgimento per limitare il tasso di bitrate con questo principio è indicato con 4:2:2 una formula continuamente ricorrente nell’ambito della televisione digitale, dove “4” si riferisce alla frequenza di campionamento base (13,5 MHz) attribuita alla luminanza; e”2” a quella dimezzata (6,75 MHz) attribuita alle due componenti di crominanza………….. 4. I campioni per riga e per quadro La scansione di quadro nel sistema PAL è effettuata, come noto, su 625 righe percorse 25 volte al secondo. Il numero complessivo delle righe al secondo è dato pertanto da: 625x25 = 15.625. Il numero dei campioni per riga, riferito alla luminanza, è dato quindi da: 13.500.000: 15.625 = 864. In altre parole, sempre nello standard PAL, ciascuna riga di scansione contiene 864 campioni di segnale Y Considerando poi le due componenti di crominanza in campionamento 4:2:2, ciascuna riga conterrà complessivamente 864y + 432CR + 432C8 =1728 campioni di segnale. Questo valore, per la verità, non è effettivo ma nominale, considerato che ciascuna riga di scansione comprende anche il ritorno. Il tempo di riga totale, lo ricordiamo, è infatti di 64 ms, di cui 52 ms per la scansione e 12 ms per il ritorno. Da ciò si deduce che ciascuna riga contiene 720 campioni attivi per la luminanza contro gli 864 teorici o effettivi, e altrettanti per la crominanza. In definitiva, ciascuna riga contiene: 720 campioni Y + 360 campioni CR + 360 campioni CB = = 1440 campioni attivi. Passando dalla scansione di riga alla scansione di quadro, troviamo una situazione analoga: delle 625 righe, quelle attive sono 576 mentre le restanti 49 supportano il “ritorno” verticale o di quadro. Da ciò consegue che ciascun quadro contiene: 1440 x 576 = 829.440 campioni. Questi dati portano a meglio precisare il già visto bit rate che, se strettamente vincolato alle parti d’immagine e non alla scansione complessiva, può essere così calcolato: numero attivo campioni per riga x numero attivo righe x numero scansioni al secondo x numero bit campionamento. Cioè in numeri, nelle due quantizzazioni a 8 e 10 bit: Bit-rate complessivo (8 bit) = 1440 x 576 x 25 x 8 = 165,888 Mbps Bit-rate complessivo (10 bit) = 1440 x 576 x 25 x 10 = 207,360 Mbps Limitandoci alla quantizzazione a 8 bit (la più diffusa) e pensando di aggiungere i bit relativi all’audio e ai sincronismi, si ottiene in definiva che il bit rate di un segnale video/audio completo in standard R-601 è attorno ai 170.180 Mbps. In base a quanto detto sul numero dei campioni per riga e sul formato 4:2:2, si può tracciare un’ipotetica configurazione dei campioni sullo schermo di un monitor, supponendo che a ciascun campione corrisponda un effettivo punto o pixel riprodotto (ciò in realtà non avviene, considerato che gli schermi e l’elettronica di supporto determinano un naturale assorbimento di segnale). In questa configurazione, il segnale video in formato 4:2:2 acquisterà sullo schermo (partendo dall’angolo in alto a sinistra) il seguente andamento: • un campione di crominanza CB, un campione di luminanza Y e un campione di crominanza CR; • un campione di luminanza Y; • un campione di crominanza CB, un campione di luminanza Y e uno di crominanza CR; e così via per 720 volte in senso orizzontale, ovvero lungo la linea di scansione, e per 576 volte in senso verticale a copertura dell’intera immagine. Per convenzione, il primo elemento di ogni riga attiva è di solito rappresentato dal campione CB. La disposizione dei campioni così proposta viene chiamata co-sited, ovvero a campioni accostati. L’operazione di copertura dell’intero quadro sì ripete naturalmente 25 volte al secondo. Tutti i dati fin qui riportati sono relativi al sistema PAL. Nel sistema NTSC i campioni di luminanza totali per riga sono 858, contro gli 864 del sistema europeo, di cui quelli attivi rimangono 720; e, a loro volta, delle 525 righe totali, quelle attive sono 487. Partendo da questi numeri è immediato risalire agli altri parametri (numero dei campioni per quadro, bitrate, ecc.), i cui valori non si discostano molto da quelli del sistema PAL. 5. I formati 4:1:1 e 4:2:0 Il principale ostacolo per un impiego diffuso del segnale in formato 4:2:2, pur essendo già stato limitato nella crominanza, è rappresentato dal suo accentuato bitrate. Per supportare le sue velocità operative e la grande quantità di dati che genera, sono indispensabili infatti circuiti elettronici (microprocessori, memorie, ecc.) di elevate caratteristiche. D’altra parte, tutta la normativa R-601 è nata in ambiente broadcast. Per soddisfare le esigenze anche del mercato consumer e professionale, sono stati messi a punto pertanto dei formati di segnale a bitrate più basso, ma con risultati più che soddisfacenti. A farne le spese, in termini di riduzione delle informazioni, è ancora una volta la crominanza, sempre in virtù del fatto che l’occhio umano è meno sensibile ai contenuti di colore che non ai dettagli d’immagine. Questi formati, per così dire “ridottì”, sono ì14:1:1 e il 4:2:0. Entrambi rispettano il campionamento della luminanza a 13,5 MHz, ma riducono quello della crominanza. Precisamente: • il formato 4:1:1 campiona la crominanza a 3,75 MHz, pari a 1/4 di 13,5 MHz e costruisce l’immagine secondo la successione: un campione co-sited con le due componenti di crominanza, tre campioni di luminanza non co-sited, nuovamente un campione co-sited e tre campioni non co-sited e così via; • i14:2:0 campiona la crominanza ancora a 6,75 MHz, ma distribuisce i due campioni CB e CR su righe alterne secondo la sequenza: luminanza co-sited CB, luminanza, luminanza co-sited CB, luminanza e così via, sulle righe dispari; luminanza co-sited CR, luminanza, luminanza co-sited CR, luminanza e così via, sulle righe pari. In entrambi i casi il numero dei campioni per riga è lo stesso. Nel formato 4:1:1 è dato infatti da: 720y + 180CR + 180 CB = 1080 mentre nel formato 4:2:0 è dato da: 720Y + 360CC = 1080 dove il pedice “CC” significa “Campioni Colore”, che saranno CB per le righe dispari e CR per quelle pari. Ma a parte queste precisazioni, i formati ridotti 4: L 1 e 4:2:0 assegnano a ogni riga 1080 campioni, anziché i 1440 del formato 4:2:2, con una riduzione del 25% sul bitrate complessivo. Va poi chiarito che il formato 4:2:0, per il fatto di alternare le componenti cromatiche tra righe pari e dispari, assicura una migliore distribuzione dei colori rispetto al 4:1: L Ma nel sistema NTSC, considerato che le righe utili sono soltanto 487, il formato 4:2:0 può originare una ricostruzione non fedele dei colori, dovuta all’eccessiva distanza tra le righe della trama di scansione. Per questa ragione, il sistema PAL è maggiormente orientato a usare il formato 4:2:0, mentre il sistema NTSC ricorre al 4:1:1. Vediamo infine il valore del bitrate. I due formati generano per ciascuna riga, come detto, 1080 campioni. Ciò determina, per l’intero frame: 1080 x 576 = 622.080 campioni. Considerato che la quantizzazione, in questi formati, è sempre basata su parole di 8 bit, si ottiene: Bitrate4:1:1/4:2:0 = 622.080 x 8 x 25 = 124,416 Mbps contro il già visto bitrate del formato 4:2:2 di 165,888 Mbps. Si tratta di un valore soddisfacente ma non ancora del tutto adatto ad apparecchiature digitali economiche. La soluzione definitiva del problema si otterrà infatti, come vedremo, applicando al segnale le tecniche di compressione. La Tabella 1 riporta in sintesi le frequenze di campionamento e i campioni per riga nei tre formati 4:2:2, 4:1:1 e 4:2:0. 6. La codifica del segnale composito Come più volte detto, l’ambiente della televisione digitale si avvale per lo più del segnale in componenti. Tuttavia, al fine di ottenere 1’interacciamento con precedenti apparecchiature analogiche che fornivano il solo segnale composito, sono stati anche realizzati alcuni sistemi digitali operanti in composito (ci riferiamo soprattutto ai registratori che rientrano nella classe D-2, come vedremo). Le regole della conversione A/D del segnale composito, stabilite dalla normativa ITU-R602, sono sempre basate sui due processi di campionamento e quantizzazione. Ciò che cambia, rispetto al segnale in componenti, è il valore della frequenza di campionamento. Per evitare problemi di interferenze e per ottenere la massima stabilità d’immagine, tale valore deve corrispondere a un multiplo intero della frequenza della sottoportante colore: multiplo individuato nel numero 4 (e ciò spiega anche il motivo per cui la frequenza di campionamento video viene generalmente indicata con “4”). Con riferimento al sistema PAL la cui frequenza di sottoportante colore è di 4,43 MHz, la frequenza di campionamento del segnale composito sarà quindi data da: Fc=4,433x4=17,73MHz. Con questo valore i campioni complessivi per riga sono 1135, quelli attivi 948 e quelli di cancellazione 187. Non esiste naturalmente ripartizione tra i campioni di luminanza e crominanza, considerato che queste due componenti si trovano integrate all’interno di un medesimo segnale. La frequenza di campionamento nel sistema NTSC, la cui sottoportante colore è a frequenza di 3,58 MHz, è di 14,32 MHz. La quantizzazione infine avviene sempre su parole di 8 oppure 10 bit, in funzione della qualità delle apparecchiature. 7. La codifica del segnale RGB Alcune telecamere digitali di classe broadcast, e particolarmente sofisticate, come pure alcuni mixer, telecinema e filmrecorder, al fine di ottenere le migliori prestazioni in senso assoluto, operano direttamente sul formato di segnale RGB senza apportare ad esso alcuna elaborazione intrinseca, trasformandolo nel segnale in componenti. L’operazione di conversione analogico/digitale avviene pertanto sui tre segnali RGB in modo separato. La frequenza di campionamento è sempre di13,5 MHz, quella cioè della luminanza per il segnale in componenti. Il segnale digitale in questo formato viene indicato con 4:4:4. La profondità di quantizzazione, in relazione anche alla qualità di questa apparecchiature, è in genere di 10 o 12 bit. Ne consegue naturalmente che anche il relativo bitrate è particolarmente elevato, pari cioè, nel sistema PAL e facendo un semplice conto, a 405 Mbps per i 10 bit e a 468 Mbps per i 12 bit. La Tabella 2 riassume i principali dati di campionamento e di bitrate per i tre segnali, composito, componenti ed RGB, nei due sistemi PAL ed NTSC. 8. La codifica dell’audio La conversione A/D dei segnali audio prevede anch’essa i due processi di campionamento e quantizzazione che, come detto, sono di validità generale. I relativi parametri sono stati fissati dall’AES/EBU (Audio Engineering Society/European Society Union), riconosciuti anche dall’ANSI (American National Standard Institute), e hanno portata internazionale, senza differenze tra aree geografiche come avviene per il video. Essi prevedono un insieme di valori, che vengono scelti in funzione dell’applicazione a cui ci si rivolge. In ambito video di fascia alta, la frequenza di campionamento è di 48 kHz e la profondità di quantizzazione di 20 o di 16 bit; in quello di fascia inferiore, il campionamento è di 32 kHz e la quantizzazione di 16 o 12 bit. Si può aggiungere che l’audio digitale per CD (Compact Disc) viene campionato a 44,1 kHz mentre le parole sono di 24 e anche di 32 bit. La frequenza di campionamento anche in questo caso segue il teorema di Shannon: considerato che la gamma delle frequenze udibili è compresa tra circa 20 Hz e 20 kHz, il suo valore deve risultare superiore a 40 kHz. 148 kHz per il video di fascia alta e ì 44,1 kHz per i CD assicurano così la completa copertura della gamma udibile; i 32 kHz per il video di fascia bassa, un evidente valore di compromesso, taglia invece i suoni più acuti. Può essere anche interessante osservare, che il valore 48 kHz non è stato scelto per ottenere una qualità di suono superiore a quella dei CD, ma solo per comodità essendo un sottomultiplo di frequenze video già disponibili. La quantizzazione con parole da 12 a 32 bit, sopravanza ampiamente quella del video che difficilmente supera i 12 bit. Ma questa scelta dipende dalla diversa strutturazione dell’ambiente acustico, che fornisce all’orecchio ogni istante uno o pochi suoni; rispetto a quella dell’ambiente visivo, che propone all’occhio quantità di informazione pressoché infinite. Applicata a una situazione di riproduzione, rispettivamente, audio o video, ciò significa che l’orecchio è molto più sensibile al fruscio o soffio, presente su un altoparlante, di quanto lo sia l’occhio nei confronti della neve, presente su uno schermo. Se ora ricordiamo che il rapporto S/N di un sistema digitale è dato da: SIN = 6(n + 1)dB si risale al fatto che le profondità di quantizzazioni audio devono essere elevate e superiori in particolare a quelle del video. Più precisamente: SIN (12 bit) = 6(12 + 1) dB = 78 dB SIN (16 bit) = 6(16 + 1) dB = 102 dB SIN (20 bit) = 6(20+1) dB =126 dB SIN (24 bit) = 6(24 + 1) dB =150 dB SIN (32 bit) = 6(32 + 1) dB = 198 dB. Da questi dati emerge dunque, richiamando anche il fatto che la gamma dinamica dall’orecchio va da 0 a 120 dB, che le parole da 12 bit determinano un audio inquinato da una certa percentuale di rumore; quelle da 16 o 20 bit per le apparecchiature video di fascia alta, risultano più che adeguate a un buon ascolto; quelle infine da 24 o 32 bit per suoni in qualità CD, sono tali da assicurare la non percettibilità del rumore di fondo anche su impianti fortemente amplificati. Capitolo 3 La compressione Il bitrate del segnale televisivo digitale è mediamente elevato, tale da richiedere processori veloci ed estese capacità di memoria. Diventa così necessario doverlo limitare, riducendo all’essenziale i dati in esso contenuti. Il relativo processo, noto come “compressione-, deve però rispettare alcune regole di validità generale. In questo Capitolo vengono presentati i criteri di compressione, vengono considerati i loro principali standard per immagini fisse e in movimento e si fa un cenno alla compressione audio. 1. Esigenze e impiego della compressione Il segnale video digitale presenta, come visto, un alto bitrate, certamente superiore a quello dei processi informatici per elaborazione di testi o grafica. Allo scopo di evitare il ricorso ad apparecchiature eccessivamente sofisticate, è così emersa l’esigenza di doverlo limitare, ricorrendo alle tecniche di compressione. Per “compressione” di un segnale si intende la riduzione del flusso dei suoi dati, basata sull’eliminazione delle ridondanze ovvero delle informazioni ripetitive in esso contenute. Il problema, per la verità, era molto più avvertito nei primi tempi della televisione digitale, ovvero nell’arco degli ultimi anni ‘80 primi anni `90, quando le velocità operative dei microprocessori e dei circuiti integrati erano ancora limitate e altrettanto limitate erano le capacità delle memorie, sia allo stato solido che su supporto magnetico. Con il progredire della tecnologia però, la situazione è via via cambiata, al punto che nei più avanzati ambienti broadcast si manifesta l’ipotesi di poter lavorare senza ricorrere alla compressione, o limitandone fortemente l’uso. Nel normale processo di produzione dell’attuale televisione digitale, la compressione rimane tuttavia essenziale nelle stazioni di montaggio e in svariati standard di videoregistrazione. Ma, al di là di questo, la compressione presenta particolare rilievo, soprattutto in termini di diffusione del video digitale a livello di massa, nelle trasmissioni digitali satellitari e nella fascia di apparecchiature per uso domestico. Le prime, dalle stazioni alle abitazioni, avvengono tramite uno o più canali messi a disposizione dalle società che forniscono il servizio satellitare, il cui costo è elevato e che viene inoltre stabilito in base al flusso dei dati trasmessi. È tutto interesse delle stazioni emettenti pertanto, cercare di comprimere il relativo bitrate; senza contare che il decoder di casa o Set-top-box, potendo operare su basse velocità, diventa anch’esso meno costoso e quindi più accessibile al grande pubblico. Per la trasmissione digitale è stato messo a punto infatti uno dei più affermati standard di compressione denominato, come avremo modo di chiarire, MPEG-2. Passando alla seconda fascia di applicazione, quella delle apparecchiature per uso domestico, è di nuovo evidente che, al diminuire delle velocità operative, registratori, camcorder o piccole unità di montaggio presentano anch’essi un prezzo più accessibile e che le cassette diventano di dimensioni particolarmente ridotte e di semplice uso. 2. Principi di compressione Se il formato 4:2:2, e ancor più i formati 4:1:1 e 4:2:0, provvedono a limitare il bitrate del segnale riducendo la “quantità” delle informazioni originarie di un’immagine, la compressione invece, come anticipato, ricorre al principio di eliminare le “ridondanze”. Facciamo subito un esempio: quello, fin troppo consueto, di un annunciatore. Dalla figura è immediato constatare come gran parte delle informazioni di ciascun quadro siano tra loro identiche: lo sfondo, l’abito, il colore della pelle e così via. E la medesima considerazione può essere fatta sulle informazioni tra un quadro e il successivo, le cui uniche variazioni riguardano il movimento delle labbra, degli occhi o qualche leggero spostamento della testa. In sostanza, ciascun quadro presenta al suo interno un elevato numero di informazioni identiche; e il primo quadro della sequenza contiene già almeno l’80 o il 90% delle informazioni che appariranno nei quadri seguenti per la durata dell’intero annuncio. Con linguaggio più preciso, possiamo dire che le informazioni all’interno di un medesimo quadro riguardano il “dominio dello spazio”; e quelle tra quadri successivi riguardano il “dominio del tempo”. Si tratta ora di tradurre queste considerazioni di carattere intuitivo sulla ripetitività delle informazioni, in algoritmi a cui affidare la limitazione dei dati. Entrambe le compressioni, quella spaziale relativa alla singola immagine e quella temporale relativa a una sequenza, vengono realizzate sulla base di unità di compressione, intese come il più piccolo gruppo di informazioni a cui applicare tali algoritmi. Nella compressione della singola immagine, l’unità di compressione (spaziale) è data da gruppi di campioni del segnale digitale o GoS (Group of Samples); nella compressione della sequenza (temporale), l’unità di compressione è rappresentata da gruppi di immagini o GoP (Group of Pictures). La più diffusa funzione che provvede alla compressione spaziale è la DCT Discrete Cosine Transform (Trasformata discreta in coseno), capace di rivelare le variazioni di informazione tra un’area e quella contigua trascurando le ripetizioni; la funzione che supporta la compressione temporale è affidata invece a un apposito “vettore movimento” che individua le componenti dinamiche tralasciando quelle statiche. Non approfondiamo oltre questi concetti che riguardano principalmente tecnici e progettisti, ma puntiamo l’attenzione su quegli elementi che interessano gli operatori video. Il parametro che definisce la compressione nel suo insieme è il rapporto di compressione dato da: Rapporto di compressione = bitrate originario/bitrate compresso ed è indicato con: n:1 dove n è un numero variabile da 1 (segnale non compresso) a 20-30 o anche più a seconda delle situazioni di lavoro. All’aumentare di n ovvero del rapporto di compressione aumenta anche il degrado del segnale, col risultato di immagini meno definite (minore risoluzione) e con maggiore tasso di rumore (basso S/N). Il rapporto di compressione pertanto, che nella stazioni di montaggio viene regolato dallo stesso operatore, va scelto in base alle diverse esigenze, ovvero alla classe di qualità in cui si opera: VHS, S-VHS, Betacam e così via. Una compressione teorica losless, cioè senza perdite di informazione in assoluto, in pratica non può essere realizzata. È vero invece che, in funzione anche della qualità delle apparecchiature, una compressione può essere caratterizzata da degrado non apprezzabile, ovvero evidente solo su misura strumentale. 3. Gli standard La compressione delle immagine televisive avviene dunque secondo i due criteri spaziale e temporale, ai quali fanno capo i due standard denominati, rispettivamente, JPEG (Joint Photographer Experts Group) per le immagini fisse ed MPEG (Moving Pictures Experts Group) per le immagini in movimento. La scelta dell’uno o dell’altro è operata in base alle funzionalità delle diverse apparecchiature. Vediamoli entrambi, considerandone inoltre le varie versioni. 3.1 Lo standard JPEG ed M-JPEG Nato in ambiente grafico e fotografico e convalidato nel 1990 dall’ISO/IEC (International Standard Organization/International Electrotechnical Commission), questo standard definisce le regole di compressione per una singola immagine, cioè quadro per quadro, senza prevedere correlazioni tra immagini precedenti e seguenti. Come tale, non sarebbe adatto all’uso televisivo, tipicamente caratterizzato da immagini in movimento, ma è invece ampiamente adottato dalle unità di montaggio che richiedono di effettuare gli edit con precisione fino al singolo frame (torneremo su questo argomento nel capitolo dedicato alle stazioni di montaggio). Il JPEG realizza la compressione in base al criterio noto come intraframe, che rappresenta un’organizzazione dei dati del frame originale, ottenuta sempre in base al principio di eliminare le informazioni ripetitive. Si tratta di un frame, per così dire, “virtuale” che nulla o ben poco ha a che vedere con quello reale, realizzato inoltre su regole diverse a seconda dei fabbricanti. La costruzione dell’intraframe si basa sul principio di ripartire il frame di riferimento in blocchi costituiti da “GoS 8x8”, ovvero da gruppi di (8x8) campioni di luminanza, con i campioni di crominanza a essi associati. Ciascun gruppo (8x8) conterrà dunque 64 campioni di luminanza e una quantità variabile di campioni di crominanza, in funzione del formato di segnale coinvolto: 4:2:2, 4:1:1 oppure 4:2:0. Nel sistema PAL, con 720 campioni singoli o co-sited per riga e con 576 righe, il numero dei GoS per frame è: (720:8) x(576: 8) = 90 x 72’= 6480. Ciascuno di questi gruppi viene quindi esaminato al suo interno allo scopo di valutare la composizione delle diverse parole e di eliminare quelle dal medesimo contenuto. Per esempio, il primo gruppo (8x8) in alto a sinistra della figura riferito allo sfondo omogeneo, presenta tutti i 64 campioni uguali: una volta acquisto il primo campione, gli altri si possono ottenere per semplice copia da esso senza doverli memorizzare singolarmente. Lo stesso avviene per il secondo gruppo, il cui contenuto è il medesimo del precedente. Non avviene altrettanto nelle aree di cambiamento dei contenuti della figura, per esempio sui contorni della persona, sul suo abito o sulla faccia, dove i campioni e i gruppi sono evidentemente diversi l’uno dall’altro. Aggregando alla fine ì 6480 gruppi, ciascuno di essi con vario grado di compressione, si dà origine all’intraframe di cui si diceva, ovvero all’intero quadro compresso. Con il risultato, naturalmente, di aver ridotto il bitrate associato all’immagine. Tutto il procedimento, che si basa sul già nominato algoritmo DCT, viene effettuato da un apposito componente, che si trova nella sezione di ingresso dell’apparecchiatura coinvolta. Accanto al JPEG è stato poi sviluppato lo standard M-JPEG (MotionJPEG) maggiormente specializzato, rispetto al precedente, a esigenze televisive. Esso è basato sulla compressione, non più del frame ma del field o semiquadro. Il vantaggio che offre, pagato con qualche elaborazione in più, è di un’immagine compressa di ottima qualità anche su scene o inquadrature con forti movimenti, dove i due field interlacciati potrebbero presentare differenze tra loro anche rilevanti. In questo caso l’immagine compressa viene definita intrafield e comprende, nel sistema PAL, 3240 GoS (8x8), ovvero la metà di quelli dell’intraframe. Le stazioni di montaggio di buona qualità come pure alcuni registratori operanti in compressione JPEG, optano spesso per la versione intrafield o M-JPEG. Come anticipato, le specifiche elaborazioni condotte all’interno dell’algoritmo di compressione di solito variano da produttore a produttore, col risultato che i file compressi sono difficilmente esportabili. In termini pratici, un hard disk caricato per esempio con formati compressi JPEG o M-JPEG non può semplicemente essere estratto da un sistema e inserito in un altro oppure posto in condivisione con esso, a meno che quest’ultimo non sia identico o compatibile con il precedente. Al momento infine della riproduzione, i singoli intraframe o intrafield verranno decodificati riacquistando l’aspetto standard originario. Entrambi i processi di compressione e decompressione devono naturalmente poter avvenire in tempo reale. 3.2 Lo standard MPEG Questo standard presiede, come detto, alla compressione delle immagini in sequenza e opera pertanto nel dominio del tempo. L’unità di compressione è rappresentata dal GoP, Group of Pictures, il numero dei cui quadri non è fisso ma variabile a seconda delle esigenze. La standard MPEG, che si presta a svariati impieghi non solo di tipo televisivo, si presenta in varie versioni. Eccone le principali, tutte convalidate ISO/IEC. • MPEG-1. Messo a punto nel ‘91, si riferisce a immagini in bassa risoluzione con 352x288 pixel nel sistema PAL (352x240 nel sistema NTSC), capaci di coprire un quarto di schermo. È uno standard pensato per sequenze in movimento destinate a CDROM. La loro dimensione limitata ne consente la riproduzione sullo schermo unitamente ad altre informazioni quali testi, disegni o immagini fotografiche. Questo standard considera anche la compressione audio, di cui MP3 è la versione più affermata, ampiamente usata nella diffusione di musica su Internet; • MPEG-2. Rilasciato nel ‘94, rappresenta (come chiarito nell’approfondimento che segue) il sistema di riferimento nella compressione del segnale digitale per impiego televisivo. Ripartito in profili e livelli è usato anche nel riversamento di programmi su DVD (Digital Versatil Disc); • MPEG-3. Attualmente non più esistente, era stato ideato per televisione ad alta definizione o HDTV ed è confluito in seguito in uno dei capitolati MPEG-2; • MPEG-4. Pensato per comprimere immagini in movimento da diffondere su Internet, presenta caratteristiche multimediali, ipertestuali e comprende anche l’audio. È compatibile con il linguaggio HTML (Hypertext Markup Language), tipico dei documenti per World Wide Web. • MPEG-7. È lo standard di rappresentazione di contenuti, per la ricerca di informazioni multimediali su Internet. 3.3 La versione MPEG-2 È questa dunque la versione di riferimento dello standard MPEG per l’ambiente televisivo, sviluppata in particolare per la compressione del bitrate nelle trasmissioni digitali e allargatasi in seguito anche alla registrazione e in parte al montaggio. Essa assicura, a parità di qualità delle immagini, una compressione superiore allo standard JPEG nell’ordine del 10-20%, ma è vincolato, come vedremo, a una precostituita sequenza di frame che non può essere interrotta. A differenza di altri standard che si caratterizzano tramite uno o pochi parametri, il MPEG-2 raggruppa un esteso insieme di valori ai quali ogni diversa apparecchiatura (più precisamente i coder e i decoder di tale apparecchiatura) si deve uniformare, a seconda della classe di qualità (consumer, professionale, broadcast) e della funzione svolta. È un sistema in evoluzione ed è impostato in modo aperto a futuri sviluppi, che comprendono anche la televisione ad alta definizione. Ma entriamo nel merito del suo gruppo di immagini GoP che prevede, come detto, un numero di frame in quantità non predefinita. A completo livello di potenzialità, tale gruppo è costruito sulla base di tre frame compressi, chiamati Interframe: • Il frame I, dove “I” sta per Intraframe. È realizzato con i medesimi criteri di quello per lo standard JPEG, ma sulla base di macro blocchi di (1 6x 16) campioni, anziché di (8x8), e attenendosi a regole standard. È questo il frame che rappresenta, all’inizio della sequenza e poi a intervalli regolari di tempo, il riferimento con l’immagine reale: per questo motivo è anche chiamato Anchor Frame; • Il frame P, dove “P” sta per Predicted o Previsto. È il 4° frame del GoP, come pure í17° o il 10° e così via, a seconda dell’estensione della sequenza. Mene ottenuto con criteri di previsione partendo dal frame I oppure da precedenti frame P; • Il frame B, dove “B” sta per Bidirezionale. Rappresenta il 2° e i13° frame del gruppo, come pure il 5° e il 6° e così via, in funzione sempre dell’estensione di tale gruppo. È realizzato con criteri di doppia previsione, in avanti e a ritroso, prendendo come riferimento, e a seconda delle configurazioni del Gop, un frame I o un frame P. Per chiarire meglio questa situazione vediamo un gruppo di frame Mpeg2 completo, ovvero contenente tutti e tre i tipi di Interframe e costruito sulla base di 6 frame. Esso prevede il frame di partenza I collocato all’inizio della sequenza, il frame P collocato in quarta posizione, un frame B, collocato in seconda posizione e un altro frame B in terza posizione: la configurazione è dunque I, B, B, P, B, B e quindi nuovamente I, B, B, P, B, B e così via. Il frame I viene costruito, come detto, in base a semplice compressione spaziale con algoritmo DCT; il frame P, collocato tre frame dopo, viene costruito su base previsionale statistica partendo dal frame I e associando a esso un operatore vettoriale di movimento all’interno di un’area di ricerca; i due frame intermedi B vengono realizzati sempre su criteri previsionali, ma in modo bidirezionale partendo dai due frame estremi I e P. Proseguendo nel GoP successivo, il frame in posizione 7 ritorna ad essere un frame I, ovvero attinto direttamente dalla realtà (anchor frame); tramite questo stesso frame I e il frame P, in decima posizione, si costruiscono i due frame B in posizione 8 e 9. Il processo avviene poi in modo analogo per tutti i successivi gruppi. Il GoP esaminato prevede dunque 6 frame; ma è possibile costruire GoP di 12 e anche di 18 oppure di 24 frame, ricavandone di conseguenza delle compressioni particolarmente elevate. Il rischio che si corre però ponendo i frame I troppo distanziati tra loro, è quello di allontanarsi eccessivamente dalla realtà costruendo una sequenza teorica che poi, al momento del ritorno all’immagine di riferimento, denuncerebbe una marcata discontinuità. La consistenza o granularità del GoP, cioè il numero dei suoi frame, dipende dall’applicazione. Nelle trasmissioni satellitari o via cavo standard, è di 12 frame nel sistema PAL e di 16 nel sistema NTSC. In altre situazioni, come per esempio in alcune stazioni di montaggio, la granularità può essere variabile. In questo caso, il processo di decodifica avviene in due fasi: una prima per valutare il numero dei frame del gruppo; e una seconda, per dare corso alle compressioni/decompressioni. In ogni modo, ci si trova di fronte a due possibili situazioni: compressione a flusso dei dati costante e qualità delle immagini variabile (migliore su immagini statiche, peggiore su immagini con movimenti); e compressione a qualità di immagini costante e flusso dei dati variabile (minore su immagini statiche, maggiore su immagini con movimenti). Il flusso dei dati costante è tipico della trasmissione satellitare, con bitrate di 15 Mbps; il flusso dei dati variabile è tipico dei DVD, con bitrate normalmente compreso tra 2 e 8 Mbps (vedere Appendice). Può apparire singolare inoltre che il frame P, in posizione 4, venga creato prima dei frame B, in posizioni 2 e 3, dando l’idea di un flusso discontinuo. Si deve però osservare che, una volta acquisito il frame I, i tre frame P, B, B vengono realizzati pressoché istantaneamente in modo da essere subito disponibili e venire inseriti con regolarità (frame 1, 2, 3, 4...) nella normale successione delle immagini. I frame P e B hanno un contenuto informativo, in termini di bit, sensibilmente inferiore al frame I, che non può essere compresso più di tanto per il rischio di perdere informazioni di riferimento con la realtà. Precisando meglio quanto anticipato, sono infatti proprio i frame P e B che assicurano allo standard MPEG, a parità di qualità delle immagini, un rapporto di compressione superiore a quello del JPEG. La sequenza del GoP non può essere però interrotta, pena la perdita di tutti i frame in esso contenuti. A questo punto diventa più chiaro anche il motivo per cui questa tecnica di compressione, a pieno livello di interframe, non si presti correttamente al montaggio, che richiede invece il blocco di una scena su qualsiasi quadro. Lo standard Mpeg-2 tuttavia accetta GoP costituiti anche da due soli frame e, quasi in contraddizione con il concetto di compressione temporale, dal solo frame I. Si possono ottenere così compressioni MPEG-2 compatibili con le esigenze di editing. Viene spontaneo chiedersi, a questo punto, quale può essere il vantaggio di usare una compressione MPEG-2 basata su un solo frame, anziché ricorrere al sistema JPEG. La risposta, come spesso succede in situazioni pratiche, è di tipo contingente ed è legata al lavoro che si sta eseguendo. Me ecco alcune indicazioni. • A differenza dell’intraframe JPEG, il frame I MPEG-2 ricorre a un principio di compressione più “intelligente” a bitrate variabile, che consente minore occupazione di memoria; • Il frame I MPEG-2 si presenta in configurazione standard, con maggiore facilità di condivisione dei file tra stazioni diverse; • Grazie all’impiego della compressione MPEG-2 sia pure su singolo frame, è più facile e veloce il processo di conversione verso file DVD compatibili con frame IBP, garantendo anche totale salvaguardia della qualità. Da una prima posizione con stazioni di montaggio operanti esclusivamente in compressione JPEG o M-JPEG, il mercato sta infatti proponendo sempre più spesso unità di editing in standard MPEG-2. 3.4 MPEG-2: profili e livelli Lo standard MPEG-2, come detto, si presenta come un’estesa piattaforma di parametri e valori, a cui le diverse apparecchiature si devono uniformare. Essa è organizzata secondo una tabella a due dimensioni costruita per profili, in senso orizzontale, e livelli, in senso verticale (Tabella 1). I primi riguardano gli strumenti della compressione, ovvero il formato del • • • • • • segnale e la struttura del GoP; i secondi definiscono la risoluzione orizzontale e verticale, il bitrate e altri parametri numerici. La piattaforma, come si può notare, è fortemente improntata al segnale in formato 4:2:0, che è tipico delle apparecchiature di classe domestica. Ma lo standard MPEG-2, come già posto in evidenza, era stato in gran parte progettato (1994) proprio per la compressione delle trasmissioni digitali indirizzate agli utenti privati, e solo in seguito si è aperto anche ad altre applicazioni quali la videoregistrazione e il montaggio, accogliendo anche il formato 4:2:2. Non ospita poi i14:1:1, un formato giudicato meno adatto alla trasmissione rispetto al 4:2:0. I profili (strumenti della compressione) comprendono, allo stato attuale, sei valori (che riportiamo in inglese, visto il loro generale uso in questo linguaggio): Simple. Il formato di segnale è 4:2:0 e il GoP prevede l’uso dei frame I e P, senza interpolazioni di ritorno; Main. Il segnale è sempre in formato 4:2:0 e il GoP prevede i tre frame I, B, P; 4:2:2. Il formato di segnale è il 4:2:2 e il GoP prevede i frame I, B e P. Questo profilo comprende in particolare lo standard di registrazione Betacam SX, che lavora sui due frame I e B, e la variante “Editing MPEG”, che utilizza il solo frame I; SNR. I l formato di segnale è i14:2:0 e il GoP comprende i tre frame I, B, P. Questo profilo introduce il parametro relativo al rapporto segnale/rumore (Signal Noise Ratio), entrando nella qualità dell’apparecchiatura (e del decoder in particolare); Spatial. Il formato è il 4:2:0 e il GoP è a tre frame. Riguarda un decoder scalabile in termini di risoluzione, capace cioè, anche se a basso bitrate, di ricevere bitrate più elevati, naturalmente riproducendo l’immagine in base al suo livello di qualità; High. Il formato di segnale è 4:2:0 oppure 4:2:2 e il GoP è di tre frame. Include gli strumenti precedenti, con apertura a flussi dati ad alta e altissima velocità e a più evolute organizzazioni di scansione di immagine. I livelli (risoluzione e bitrate) comprendono quattro valori: • Low. La risoluzione è bassa, 352x288 campioni sulla luminanza, e il bitrate è di 4 Mbps. Rappresenta lo standard MPEG-1 pensato per i CD, con formato d’immagine pari a 1/4 dell’immagine televisiva; • Main. La risoluzione è di 720x576 campioni sulla luminanza e il bitrate è di 15, 20 oppure 50 Mbps, a seconda dei profili. Nel profilo 4:2:2, la risoluzione di 720x608 campioni corrisponde a quella del sistema Betacam SX; • High-1440. Il numero 1440 si riferisce ai campioni per riga sempre per la luminanza. Il bit rate è di 60 oppure 80 Mbps e la risoluzione di 1440x 1152 (quattro volte quella normale) è per HDTV; • High. La risoluzione è di 1420x1152 campioni e il bitrate è di 80 oppure 100 Mbps. Anche questi valori sono per alta definizione. Lo standard, precisiamo nuovamente, non riguarda genericamente il segnale video o la qualità delle immagini compresse, ma specificamente le caratteristiche hardware della apparecchiature e in particolare modo quello dei coder e decoder. Esse possono dunque essere classificate sulla base di questo schema, o meglio tramite i due valori di profilo e livello corrispondenti. È consuetudine, nel rappresentare la coppia di valori, interporre tra essi il simbolo e: così il decoder di un set-top-box per normale ricezione digitale satellitare che lavora in Main Profil e in Main Level, viene indicato come Main Profil/Main Level o in forma abbreviata MP/ML. Ma al di là degli specifici valori prefissati, merito dello standard MPEG2 è quello di aver messo a punto una piattaforma di riferimento, per cercare di strutturare il complicato ambiente del segnale video digitale compresso e l’altrettanto molteplice proposta di apparecchiature. È un tentativo, peraltro, ancora in fase di evoluzione: al suo interno non tutto è chiaro e molte delle sue caselle sono ancora vuote... 4. La compressione audio Nell’ambito della produzione video, l’audio di solito non viene compresso e per un motivo molto semplice: il bitrate generato da un canale audio è solitamente di 768 Kbps (campionamento a 48 KHz, quantizzazione su 16 bit), contro le svariate decine (e anche centinaia) di Mbps del video. Il risultato di comprimere l’audio sarebbe, in altre parole, quello di appesantire le elaborazioni con scarsi vantaggi. Stazioni di montaggio e videoregistratori lavorano tutti infatti a piena banda audio. Il problema di comprimere l’audio si manifesta invece a livello di trasmissione, con i segnali video fortemente compressi e soprattutto in presenza di due, quattro o anche sei o otto canali audio. In questi casi è facile raggiungere e superare un flusso dati complessivo, non compresso, di alcuni Mbps. Lo standard MPEG-2 per trasmissione prevede infatti la compressione anche dell’audio, che viene specificata fino a 8 canali indicati con 7.1 (due sinistri, uno centrale, due destri, uno posteriore sinistro, uno posteriore destro e il subwoofer), anche se i 5.1 sono più comuni (sinistro, centrale, destro, posteriore sinistro, posteriore destro, subwoofer). Questi canali sono previsti non solo per musica in alta fedeltà, ma anche per commenti sonori in più lingue a supporto di film. La tecnica di compressione impiegata viene detta Auditory Masking, che consiste nell’eliminare i suoni meno percepibili. Essa è ripartita su tre strati, rispettivamente di 192, 128 e 64 Kbps per canale. Capitolo 4 Le interfacce La messa a punto dei segnali video digitali ha determinato anche l’esigenza di fissare le regole per il loro trasferimento tra apparecchiature diverse. Le stesse apparecchiature inoltre, possono essere gestite a distanza tramite opportuni canali dati. Questo Capitolo esamina pertanto i vari dispositivi di interfaccia a supporto sia dei segnali che dei controlli, precisando l’organizzazione delle informazioni e le strutture dei connettori. 1. Problemi di interconnessione Nell’effettuare i collegamenti di apparecchiature video digîtali, tra di loro oppure con apparecchiature informatiche, ci si trova di fronte a due situazioni operative: • Collegamenti per trasferire segnali video e audio; • Collegamenti per trasferire impulsi di controllo. La prima situazione riguarda le solite connessioni tra telecamera e mixer, telecamera e registratore, mixer e registratore e così via, simili a quelle dell’ambiente analogico; inoltre - e questo è caratteristico dell’ambiente digitale questa situazione prevede anche il collegamento tra videoregistratore e stazione di montaggio. In questo caso la stazione deve disporre di apposita interfaccia per ricevere e trasferire i segnali video e audio. La seconda situazione si manifesta quando si affida la gestione o la configurazione di un’apparecchiatura video a un dispositivo esterno che, a sua volta, può essere o un’attrezzatura video o un computer. Il tipico esempio di apparecchiatura video gestita da comando remoto, è quello del videoregistratore pilotato da centralina; un esempio di connessione tra apparecchiatura video e computer può essere offerto invece da un mixer digitale che viene configurato e controllato da PC. In questo caso è il mixer, o comunque l’apparecchiatura video, che deve disporre dell’adeguata interfaccia per ricevere gli impulsi di controllo dal computer. 2. Organizzazione delle interfacce Per interfaccia si intende il complesso circuitale a supporto del collegamento tra due apparecchiature. Essa è costituita da una scheda di elaborazione e gestione dei segnali trasferiti o ricevuti, chiamata anche driver; e da un connettore, che rappresenta la struttura fisica per il collegamento dei cavi. Per assicurare un dialogo trasparente tra apparecchiature differenti, le interfacce devono rispettare requisiti standard. Uno dei principali compiti degli enti normatori, è infatti proprio quello di definire le caratteristiche delle interfacce, tanto più per collegare apparecchiature realizzate da costruttori diversi. Da quanto anticipato in ambiente video digitale ci si trova di fronte a due famiglie di interfacce digitali: quella per i segnali video e audio e quella per gli impulsi di controllo. La prima ruota attorno allo standard ITU-R-656, noto come SDI, Serial Digital Interface, di origine tipicamente video; mentre quella per gli impulsi di controllo trova riferimento nello standard RS-232C, di origine informatica. Il concetto di “famiglia di interfacce” proviene dal fatto che ogni standard di interfaccia genera, a sua volta, delle soluzioni similari, con caratteristiche più accentuate o più limitate rispetto a quella di partenza, in funzione dell’uso che se ne dovrà fare. Dall’interfaccia SDI, progettata per ambiente broadcast e per collegamenti su lunghe distanze (fino a 200 metri), è così derivata l’interfaccia nota come FireWire, di prestazioni inferiori e indirizzata all’area professionale e domestica. Dall’interfaccia RS-232C, progettata per computer da ufficio e per collegamento su brevi distanze (fino a 10-15 metri), ne sono nate delle altre più evolute, quali la RS-422 oppure la IEEE 488, per ambienti industria e laboratorio. La situazione delle interfacce digitali è presentata in sintesi nella Tabella 1. Nel seguito vedremo le descrizione delle principali di esse, ripartite sempre secondo le due funzioni di interfacce di segnale e interfacce di controllo. 3. Le interfacce disegnale Queste interfacce supportano come detto, i segnali video e audio. Sono presenti, nelle loro diverse forme e configurazioni, in tutte le apparecchiature video digitali, per assicurare i rispettivi collegamenti. Anche qui come detto, l’area broadcast è orientata all’impiego dell’interfaccia SDI e quella professionale e consumer all’interfaccia FireWire. • • • • 3.1 L’interfaccia SDI La Serial Digital Interface o SDI, progettata inizialmente dall’IBM per immagini e file complessi, è stata formalizzata dal SMPTE (Society Motion Picture Television Enginnering) come Raccomandazione 259M, e come tale ancora spesso indicata, per rientrare in seguito nella normativa ITU-R-656. Supporta il collegamento diretto tra apparecchiature video digitali con segnali in formato 4:2:2 a banda piena. Le due norme R-601 ed R-656 sono pertanto in stretta correlazione tra loro. Il bitrate massimo è di 270 Mbps, corrispondente cioè a segnale non compresso con quantizzazione su 10 bit. È in grado di gestire il video, l’audio fino a quattro canali e alcune informazioni di servizio e controllo. La massima distanza di collegamento, in funzione anche del diametro del cavo, arriva fino a 200 metri, sufficienti per situazioni di ripresa in esterni e in spazi aperti (stadi, autodromi, ecc.). Il suo protocollo di dialogo è basato su pacchetti di dati organizzati per righe di scansione. Ricordando che nel formato 4:2:2 i campioni complessivi per riga sono 1728, la costruzione del protocollo avviene nel seguente modo: Il processo inizia con un gruppo di 4 campioni a contenuto nullo chiamato SAV (Start Active Video), posto in corrispondenza alla parte finale del ritorno o blanking di ciascuna riga di scansione; Ultimato il SAV, inizia il trasferimento dei 1440 campioni attivi della riga, relativi alle immagini. Nel rispetto del formato 4:2:2, la loro sequenza è: campione co-sited (Y/CR/CB), campione singolo (Y), campione co-sited (Y/C R/CB), campione singolo (Y) e così via; Subentra poi l’EAV (End Active Video), posto all’inizio del blanking della riga successiva e costituito anch’esso da 4 campioni a contenuto nullo, che chiude la sequenza dei campioni di immagine per quella riga; Rimane a questo punto, all’interno dello stesso blanking, un treno di 280 campioni chiamati “ancillary”, che vengono destinati al trasporto dei canali audio, dei comandi e dei segnali di servizio (bit di test e controllo). Precisando meglio quanto detto, l’interfaccia SDI consente dunque il trasferimento, tra due apparecchiature digitali, del video, dell’audio (detto in questo caso embedded audio) e di alcuni impulsi di servizio: con questi ultimi, per esempio nel collegamento tra una stazione di montaggio e un registratore, è possibile inoltrare i comandi di play o record dalla stessa stazione senza richiedere altri collegamenti e senza dover agire fisicamente sui pulsanti del registratore. Ricordiamo che, in ambiente analogico, lo stesso collegamento richiedeva tre cavi: uno per il video, uno per l’audio e il terzo per i comandi. La scheda per l’elettronica dell’interfaccia è alquanto complessa: i suoi circuiti devono infatti svolgere svariati compiti tra cui, in uscita dall’apparecchiatura sorgente, costruire la sequenza dei campioni video secondo la regola co-sited, singolo, co-sited, singolo e così via; trattenere su memorie buffer i bit relativi al video, all’audio e ai controlli per disporli nella giusta cadenza temporale; generare mediante multiplexer la trama dei dati disposti in serie; garantire i sincronismi anche su collegamenti a lunga distanza. Naturalmente, operazione simmetrica viene fatta dalla scheda in ingresso all’apparecchiatura di destinazione. Il connettore è di tipo circolare coassiale e richiede, a sua volta, un cavo coassiale; il diametro del cavo varia in relazione alla distanza di collegamento. Il flusso dei dati è monodirezionale, ovvero avviene in un solo senso dall’apparecchiatura in uscita a quella in entrata. Una telecamera con segnali in sola uscita, richiede la sola scheda SDI di output; apparecchiature quali registratori o stazioni di montaggio devono disporre di entrambe le schede di input e di output. Le stesse schede di 110 possono essere realizzate o su due unità separate, o su un unico supporto, che dovrà presentare due connettori. Tutta la scheda si presenta spesso come unità opzionale a sé stante, che può essere inserita o tolta a seconda delle esigenze, tanto nelle apparecchiature video (telecamere, videoregistratori, ecc.) quanto in quelle informatiche (computer, workstation, ecc.). Se previsto dall’elettronica della scheda, l’interfaccia SDI può infine supportare, oltre al segnale in componenti, anche quello digitale composito R-602. 3.2 L’interfaccia FireWire Questa interfaccia è stata creata accanto alla SDI, la cui scheda come visto è alquanto sofisticata e costosa, per venire incontro alle esigenze del video di fascia professionale e consumer. Sviluppata inizialmente da Apple e Texas Instruments nel 1987, è stata standardizzata dall’IEEE (Insitute of Electrical and Electronics Engineers) nel ‘95, come IEEE-1394. “FireWire”, Trade makApple, è il termine che le viene attribuito in gergo, del tutto corrispondente alla denominazione formale. Il suo protocollo di dialogo è simile al precedente, con dati serializzati a pacchetti per righe di scansione, includente video, audio e controlli. Ciò che cambia è la distanza di collegamento, che arriva a 4,5 metri, e la velocità dei dati che, nella versione base, è di 100 Mbps. A differenza della SDI inoltre, il trasferimento dei dati è bidirezionale, con il vantaggio di poter usare un’unica interfaccia e un solo cavo, per i segnali tanto in entrata che in uscita. Il cavo è schermato e contiene tre coppie di fili: una coppia per i segnali di input, una per quelli di output e una coppia per alimentazione in corrente continua. L’uso del canale di alimentazione, che supporta fino a 40 V, è opzionale: può risultare utile, per esempio, nel collegamento da registratore fisso a camcorder, che così non deve impiegare la batteria. Il connettore non è più circolare ma di tipo piatto. Compatibilmente con le distanze e con le velocità dei dati, la FireWire può essere usata anche in ambiente broadcast. Va precisato che questa interfaccia sta trovando progressivo impiego come bus seriale in alcune applicazioni del settore informatico, ed è soggetta a continua evoluzione. Le velocità supportate possono entrare nelle fasce dei 200,400 e 1600 Mbps, con distanze fino a 70 metri. Ciò che cambia principalmente, nelle diverse classi di applicazione, è l’elettronica della scheda. 3.3 Le interfacce proprietarie e la SDTI La SDI e la FireWire rappresentano le due interfacce di riferimento, come detto, per l’area broadcast e per quella professionale e consumer. Il continuo sviluppo però, da parte dei diversi costruttori, di nuove apparecchiature con segnale in vari formati e in differenti rapporti di compressione, con altrettante velocità di trasferimento dei dati e con connettori di vario aspetto tra cui quelli miniatura per apparecchiature compatte, ha portato alla presenza di numerose altre interfacce, spesso di carattere proprietario. A questo proposito, il SMPTE ha emesso la normativa SDTI, Serial Digital Transfer Interface, con l’obiettivo di creare uno schema organico in cui inserire almeno le interfacce assimilabili alla SDI, cioè quelle per uso broadcast o professione di fascia alta. Rientrano così in questa classificazione, la QSDI (dove “Q” sta per Quarter Inch, riferito al nastro da 1/4”), legata al formato DVCAM; e la CSDI (dove “C” sta per Camcorder), legata al formato DVCPRO (su questi argomenti si può vedere anche il Capitolo V/II Parte dedicato ai videoregistratori). Nell’area consumer e professionale infine, di ampio uso è l’interfaccia i.LINK TM (Sony), assimilabile allo standard FireWire, ma caratterizzata da cavo a due coppie di fili per soli segnali (senza alimentazione) e connettore di più piccole dimensioni. 4. Le interfacce di controllo Queste interfacce provvedono a trasferire impulsi di gestione e comando (ovvero non più segnali audio e video) tra apparecchiature diverse. In ambito strettamente video sia analogico che digitale, precisando cose dette, un tipico esempio di impiego di interfaccia di controllo è rappresentato dal collegamento tra centralina di montaggio e registratori. Le più diffuse interfacce di controllo, ampiamente usate in ambiente informatico e trasferite di conseguenza a quelle video, sono la RS-232C, la RS-422 e la IEEE 488. metri. Il suo connettore di riferimento prevede 25 contatti o pin. In ambito video, di particolare rilievo sono il contatto 1(massa di protezione), il contatto 4 (richiesta di trasmissione), il 5 (abilitazione alla trasmissione), i12 (trasmissione dei dati), l’8 (conferma dati ricevuti dall’apparecchiatura di destinazione), i13 (ricezione dei dati), i19 e 10 (alimentazione) e il 7 (massa comune), per un totale di nove pin. Di questa interfaccia esiste infatti anche la versione ridotta con connettore a nove contatti, usata di solito su apparecchiature, e non solo per uso video, portatili e compatte. Principale caratteristica di questa interfaccia è il ricorso, nella struttura dei collegamenti, alla “massa comune” (pin 7) su cui vengono fatti confluire i “ritorni” di tutti i messaggi inviati. Il vantaggio che se ne ricava, è di ottenere un’interfaccia economica, con lo svantaggio tuttavia di non poter superare distanze elevate, pena la sensibilità dei disturbi con probabilità di perdita delle informazioni. 4.1 L’intertaccia RS-232C: manca un pezzo ??? 4.2 L’intertaccia RS-422 Anch’essa seriale e anch’essa standard EIA, presenta le stesse caratteristiche di comunicazione dell’interfaccia precedente, ma consente di raggiungere distanze di collegamento che arrivano fino a 300 metri. Questo risultato è ottenuto grazie al fatto di non ricorrere alla massa comune, ma di prevedere per ogni segnale il relativo ritorno. Aumenta naturalmente il numero dei pin di . contatto, che passa da 25 a 42. Il collegamento inoltre è di tipo bilanciato, un collegamento che nei ritorni non coinvolge la “massa” o “terra” dell’apparecchiatura, assicurando segnali ulteriormente precisi e con elevata immunità al rumore (è il caso di puntualizzare che il “422” di questo standard non ha nulla a che vedere con il “4:2:2” relativo al formato di segnale, ma si tratta di una semplice coincidenza di numeri). 4.3 L’interfaccia IEEE-488 A differenza delle due precedenti, è questa un’interfaccia parallela, basata sulla trasmissione contemporanea di 8 bit, secondo parole conformabili a piacere via software in funzione delle diverse applicazioni. Il suo connettore è a 24 pin, 16 dei quali sono occupati dagli otto bit con i relativi ritorni e gli altri riservati a informazioni di servizio, quali richiesta trasmissione, interfaccia disponibile, dati validi, dati non accettati e così via. Opera su velocità fino a 1 Mbps, copre distanze fino a 20 metri e consente di collegare in cascata fino a 15 apparecchiature. Questa interfaccia viene spesso indicata come GPIB (General Purpose Interface Bus) o anche come GPI (General Purpose Interface). Una recente tendenza del mondo dell’informatica infime, porta a uniformare la maggior parte delle interfacce in un’unica versione standardizzata chiamata USB, Universal Serial Bus, con il risultato di una considerevole semplificazione delle operazioni di collegamento e cablaggio.