Estratto da: Carlo Solarino VIDEO PRODUZIONE DIGITALE

Transcript

Estratto da: Carlo Solarino VIDEO PRODUZIONE DIGITALE
Estratto da:
Carlo Solarino
VIDEO PRODUZIONE DIGITALE
Prima parte
IL SEGNALE DIGITALE
Capitolo 1
Il segnale analogico
Il segnale video digitale viene ottenuto per codifica da quello analogico, di cui ne
rispetta la generale struttura. Questo Capitolo richiama pertanto i parametri fondamentali del segnale analogico, tra cui i formati con le relative connessioni di
ingresso e uscita, la frequenza con la risoluzione d’immagine e il rapporto
segnale/rumore. Viene fatto un cenno infine alle classi di qualità delle apparecchiature.
1. Formati del segnale
Nell’effettuare una ripresa a colori, la telecamera riconduce tutti i colori reali
dell’immagine inquadrata, ai tre colori di base o primari rosso R, verde G (Green) e
blu B. Questo processo, noto come “analisi del colore”, viene effettuato dal
dispositivo ottico chiamato discriminatore, che si trova a immediato contatto con
l’obiettivo.
I tre colori vengono inviati ad altrettanti sensori d’immagine, con il risultato di
avere a disposizione i tre segnali video RGB contenenti tutte le informazioni
dell’immagine catturata. Nelle camere economiche per uso domestico, discriminatore
e sensori sono costituiti da un’unica struttura, ma il segnale generato rimane il
medesimo. A sua volta, quando la telecamera viene collegata con altre
apparecchiature (monitor, videoregistratori, ecc.) e a seconda del tipo e della classe di
apparecchiature, questo segnale può assumere tre aspetti o formati diversi.
•
Formato RGB. In questo caso il segnale rimane nel suo aspetto originale,
costituito dai tre segnali corrispondenti ai tre colori primari. I tre segnali RGB, in
uscita dalla telecamera, fanno capo ad altrettanti connettori;
• Formato in componenti. In questo caso i tre segnali RGB vengono opportunamente combinati, in modo da generare il segnale di luminanza, corrispondente a quello richiesto per far funzionare televisori e monitor in bianco e
nero; e il segnale di crominanza, che aggiunge al precedente le informazioni di
colore. Anche i due segnali di luminanza e di crominanza fanno capo ad
altrettanti connettori d’uscita;
• Formato composito. In questo caso, i due segnali di luminanza e crominanza
vengono tra loro integrati, col risultato che tutto il segnale video viene reso
disponibile su un unico canale, facente capo a un unico connettore d’uscita. Il
formato composito viene talvolta indicato con CVBS (Chroma Video Blanking
Syncs).
Questi formati di segnale, rispettati anche dalle apparecchiature digitali, richiedono
qualche approfondimento.
2. Il formato RGB
Questo formato operante su tre canali, garantisce le migliori condizioni di lavoro con
le migliori rese d’immagine, ma trova impieghi limitati. Tra essi, la riproduzione di
immagini di elevata qualità con connessione diretta cameramonitor oppure camera-mixer o
camera-registratore; la generazione di immagini da telecinema; altri usi generalmente di
alto livello.
Anche in versione digitale, il formato RGB è quello che garantisce le immagini di
migliore qualità.
3. Il formato in componenti
Come abbiamo anticipato, il segnale video in questo formato è costituito dalla due
componenti di luminanza e crominanza, di cui la prima contiene le informazioni
dell’immagine corrispondenti al bianco e nero (contorni o profili dei soggetti con le
gradazioni di grigio); e la seconda le informazioni di colore.
Con un cenno storico, è opportuno ricordare che il segnale video a colori ha
“dovuto “ subire questa forma, per rendersi compatibile con i preesistenti televisori in
bianco e nero e che tuttora mirini di telecamere o monitor b/n sono in grado di
riprodurre le immagini grazie a questa organizzazione del segnale in luminanza e
crominanza. Televisori e monitor in b/n riproducono naturalmente la sola luminanza.
Ma a parte questa precisazione, come vengono ottenute queste due componenti dal
segnale originario RGB? La componente di luminanza, chiamata Y, viene generata per
somma “pesata” dei tre segnali di colore RGB. Precisamente:
Y = aR + bG + cB
dove a, b e c sono tre parametri di limitazione delle intensità dei tre colori, la cui
somma naturale porterebbe a dei valori eccessivi rispetto alla tradizionale scala di grigi del
segnale in bianco e nero.
La componente di crominanza viene, a sua volta, ripartita nelle due componenti (RY) e(B-Y), note come differenze colore, che contengono le informazioni relative ai
colori rosso (R) e blu (B).
II motivo per cui si è arrivati a questa formulazione, non certo di comprensione immediata,
del segnale in componenti, dipende solo dal fatto che con queste soluzioni si è riusciti a
semplificare al massimo i circuiti di supporto.
Ma la sostanza dell’approccio è che, disponendo in un determinato istante delle informazioni Y ed R-YB-Y, con semplici operazioni di somma e sottrazione, si può risalire
immediatamente al segnale RGB nella sua forma originaria.
Il segnale in componenti, che d’ora in poi indicheremo con Y/(R-Y)/ (B-Y),
occupa due canali, di cui il primo riservato alla luminanza Y e il secondo alle due
componenti di crominanza. È il caso poi di ricordare che il segnale in componenti
viene talvolta indicato anche con YUV, una formulazione non del tutto esatta in
quanto non si riferisce propriamente alle differenze colore.
In ogni caso il formato in componenti, anche se richiede due canali con una certa
complessità circuitale delle apparecchiature, rappresenta oggi il formato di segnale più
diffuso in tutte le applicazioni professionali e broadcast e quello inoltre, come vedremo,
su cui maggiormente e quasi esclusivamente si basa la televisione digitale.
4. Il formato composito
Anche questo formato di segnale prevede le componenti di luminanza e crominanza, ma
esse vengono rese disponibili su un unico canale. Per ottenere questo, al segnale di
luminanza viene associata una frequenza, nota come sottoportante colore, che viene
modulata in base alle informazioni cromatiche.
Il colore, in questo caso, non viene più caratterizzato con le due differenze colore,
ma con i due parametri di tinta e saturazione: la tinta modula la sottoportante in fase,
e la saturazione in ampiezza.
Dal punto di vista concettuale la situazione può apparire alquanto complicata, ma il
vantaggio del ricorso al segnale composito è offerto dal fatto di poter operare su un
unico canale, tant’vero che tutta la televisione analogica tradizionale ha sempre
operato su tale formato. E anche in questo caso, disponendo in ogni istante delle tre
informazioni luminanza, tinta e saturazione, si può risalire facilmente al segnale RGB.
La frequenza della sottoportante poi, deve essere scelta in modo da determinare il minimo
disturbo possibile alla scansione dell’immagine. Tenendo presente questa esigenza, la
frequenza di sottoportante è stata fissata in 4,43 MHz per il segnale PAL (625 righe,
25 periodi o immagini al secondo) e in 3,58 MHz per il segnale NTSC (525 righe, 30
periodi).
Se il formato composito offre l’indubbio vantaggio di poter operare su un
unico canale che riporta simultaneamente le due informazioni di luminanza e
crominanza, esso determina però almeno due problemi di un certo rilievo in termini di
resa d’immagine, soprattutto se si opera in ambiente professionale.
Il primo problema è generato dagli effetti di crossluminance e crosscolor. Il fatto
di dover far coesistere su uno stesso canale le due informazioni di luminanza e
crominanza genera una reciproca interferenza col risultato, per la luminanza, di una
perdita di capacità di riprodurre i dettagli (crossluminance); e per la crominanza, di
una perdita di capacità di riprodurre le sfumature di colore (crosscolor). È questo il
motivo per cui le immagini generate da segnale composito presentano, rispetto agli altri
due formati, una resa di minore qualità.
Il secondo problema è noto come field sequence o sequenza di campo. La
frequenza della sottoportante colore non si accorda perfettamente con quella della
trama di scansione delle immagini, col risultato di avere una messa al passo delle
due frequenze non su ciascun field o campo, ma per gruppi o sequenze di field. Nel
sistema PAL, la sequenza è di 8 field, ovvero di 4 frame o quadri; nel sistema NTSC, la
sequenza è di 4 field, ovvero di due quadri.
Questa situazione, che passa del tutto inosservata nel caso di programmi senza
interruzioni, crea invece svariati problemi nelle operazioni di editing in
videoregistrazione. Se l’aggancio tra le due sequenze che si stanno montando non
rispetta la sequenza di campo, come difatti il più delle volte avviene essendo un intervento
del tutto casuale e probabilistico, ne consegue un disturbo che si manifesta come un
salto d’immagine o come uno o più quadri privi di colore.
Anche se questo disturbo viene eliminato sulle migliori apparecchiature con opportuni
circuiti (color framer), il problema sul sincronismo della trama di segnale comunque
rimane.
Da quanto detto dunque, il formato del segnale in composito presenta delle evidenti
limitazioni. Per questa ragione, nel passaggio dall’analogico al digitale, l’attenzione si
è spostata dal formato composito a quello in componenti, riservando al primo solo
alcune limitate aree di impiego, spesso imposte da situazioni preesistenti
(fine lezione)……………………….
5. Il sistema di ingressi e uscite
Da quanto detto, il segnale video può dunque assumere svariati aspetti, ciascuno dei
quali richiede una propria struttura di connettori di ingresso e uscita dalle relative
apparecchiature. Quelle più economiche di classe domestica presentano uno o pochi
connettori riservati al segnale video composito; quelle di elevata qualità ne presentano
invece numerosi, per segnali in ogni formato.
Precisiamo che i cavi di collegamento sono tutti di tipo schermato, ovvero presentano
una calza metallica esterna con funzione di protezione da interferenze; e che lo stesso
schermo in alcuni casi agisce anche da conduttore di ritorno del segnale (collegamento
sbilanciato), mentre in altri opera da solo schermo, con il ritorno effettuato su un altro filo
(collegamento bilanciato). Un cavo schermato contenente un solo filo viene detto
coassiale; e uno contenente più fili viene detto multipolare. Ma, facendo sempre
riferimento ai formati di segnale, ecco l’insieme dei connettori di ingresso e di
uscita o I/O (Input/Output) per un’apparecchiatura effettivamente “aperta”, ovvero
capace di collegarsi con qualsiasi altra.
•
Segnale RGB. Richiede tre connettori, uno per ciascun colore. L’apparecchiatura riporta su ciascun connettore la relativa indicazione “R”, “G” e “B„
• Segnale in componenti. Il supporto di connessione avviene secondo due criteri
diversi: nella macchine di alto livello, con due connettori coassiali, uno per la
luminanza Y e l’altro per le due componenti di crominanza (R-Y) e (B-Y); nelle
macchine di fascia inferiore, con un unico connettore circolare multipolare capace
di supportare entrambe le componenti. Questo connettore viene detto S-Video
(Super-Video) e presenta struttura a 5 poli: uno opera da massa; una prima coppia di
poli supporta la luminanza; e la seconda coppia supporta la crominanza. Le due
componenti di crominanza (R-Y) e (B-Y) sono poste in successione temporale tra di
loro, in modo da poter essere trasferite lungo un unico canale. La connessione SVideo è tipica dei videoregistratori S-VHS che operano in componenti. Alcune
apparecchiature presentano anche il doppio sistema di connessione per il segnale in
componenti, a due connettori coassiali separati e a connettore circolare S-Video. In
ogni caso l’apparecchiatura riporta sempre, in corrispondenza al connettore, la
relativa indicazione: “Y”, “R-Y/B-Y” oppure “S-Video”. Quest’ultimo
connettore è anche indicato con “Y/C”, dove C sta per Colore o Chroma.
• Segnale composito. Richiede la forma di connessione più semplice, costituita da un
solo connettore coassiale. Esso viene contraddistinto dall’indicazione Comp o
Composit o anche CVBS.
6. Frequenza del segnale e risoluzione di immagine
Il segnale video analogico presenta andamento continuo, con valori alti in
corrispondenza al bianco e ai colori chiari delle relative immagini, e valori bassi in
corrispondenza al nero e ai colori scuri. Ma per poter rappresentare con sufficiente
precisione tutti i dettagli di un’immagine ovvero garantirne la nitidezza (la maglietta a
righe di una presentatrice, la tappezzeria di una poltrona), lo stesso segnale deve
presentare capacità di modificarsi rapidamente nel tempo. Ricordiamo che il tempo
di scansione di riga è di 64 µs (microsecondi, cioè milionesimi di secondo) nel
sistema PAL e di 63,4 µs nel sistema NTSC.
Questa capacità di rapida modificazione del segnale dipende dalle prestazioni
dei circuiti che lo generano, lo amplificano e lo elaborano: cioè, in una parola, dalla
qualità delle apparecchiature da cui proviene (telecamere, mixer, recorder, ecc.). Il
parametro che misura la capacità di modificazione del segnale è la frequenza, intesa
come massimo numero di variazioni (oscillazioni) al secondo che il segnale stesso è in
grado di contenere.
Facendo riferimento al segnale di luminanza e supponendo di operare con
apparecchiature di fascia alta, la frequenza standard del segnale video è fissata in 5
MHz (Mega Hertz). Ciò significa che il segnale è in grado di supportare fino a
cinque milioni di oscillazioni al secondo ovvero di generare, sempre al secondo, 5
milioni di informazioni bianco/nero. Si suppone di far corrispondere alla parte alta
dell’oscillazione (semionda positiva) il bianco e alla parte bassa (semionda negativa) il
nero.
Ricordando poi che, nel sistema PAL, le righe di scansione orizzontale sono 625 al
secondo, ovvero che in ogni secondo sono disponibili (625x25) = 15.625 righe, si
deduce che il numero delle informazioni per ciascuna riga è dato da:
5.000.000 : 15.625 = 320.
Ciascuna riga di scansione in definitiva, e partendo sempre da un segnale di 5MHz, è
in grado di rappresentare 320 coppie di informazioni bianco/nero, ovvero 640 elementi di
immagine. In termini leggermente più rigorosi, possiamo dire che la risoluzione
orizzontale offerta da un sistema televisivo operante su segnale a 5 MHz è di 640
elementi d’immagine (320 bianchi e 320 neri).
Questo dato, tuttavia, è teorico e per due ragioni:
•
Una riga di scansione orizzontale completa comprende anche il ritorno, che non
contiene informazioni di immagine e che sottrae circa il 10% del valore utile;
•
L’apparecchiatura di riproduzione (televisore, monitor) per quanto di buona
qualità, non è in grado di riprodurre la completa potenzialità del segnale.
Ne nasce una situazione reale che prevede di assegnare a ciascuna riga di scansione,
sempre partendo da un segnale di 5 MHz e operando su apparecchiature di buona qualità, la
risoluzione orizzontale di 400 elementi di immagine (200 bianchi e 200 neri).
Questa situazione porta alla seguente regola pratica: la risoluzione orizzontale di
un’immagine si ottiene moltiplicando il numero dei MHz della luminanza del
segnale per il numero fisso 80.
Nel nostro caso quindi, con luminanza pari a 5 MHz, si ottiene infatti:
5(N° dei MHz) x 80 (N° fisso) = 400 (risoluz. orizz.)
Il valore “400”, inferiore al valore teorico dei 640 punti visto prima,
esprime dunque la risoluzione orizzontale normalmente attribuita al segnale video e
alle apparecchiature di livello broadcast.
Va infine precisato che, se il segnale contiene anche la crominanza, come difatti il
più delle volte avviene, che intacca i dettagli d’immagine per l’effetto di crosscolor
come detto, la risoluzione orizzontale ne viene ulteriormente abbassata in ragione di
1/5, ovvero passa da 400 a 320 righe. È quest’ultima infatti la risoluzione per
un’immagine a colori normalmente attribuita alle apparecchiature video che operano
sui 5 MHz.
Apparecchiature di minore qualità, come i videoregistratori di tipo professionale
oppure di uso domestico, lavorano su frequenze inferiori, di 4 o 3 MHz, con riduzione
anche della risoluzione, che sarà di 320 o 240 punti per la luminanza, ovvero di circa 260 e
200 punti per il segnale con luminanza e crominanza.
7. Il rapporto segnale/rumore
Ogni apparecchiatura elettronica genera un disturbo di fondo chiamato rumore. Nei
sistemi audio (registratori, amplificatori) si manifesta come un fruscio, mentre nei
sistemi video si presenta come un insieme di piccoli granuli in movimento casuale,
chiamato “neve” o “effetto neve”.
La neve, che si presenta sullo schermo in misura più o meno apprezzabile, non
dipende dal solo dispositivo di riproduzione ma da tutta la catena di apparecchiature
che lo precedono. Essa, a sua volta, è pressoché trascurabile in sistemi di buona qualità,
ma aumenta in quelli di qualità più limitata.
La grandezza che stabilisce di quanto un segnale sia inquinato da rumore è il rapporto
segnale rumore, indicato con SIN (Signal/Noise). Tanto più grande è il rapporto
SIN, tanto migliore è la qualità dell’immagine riprodotta.
Il rapporto S/N viene espresso in deciBel o dB. Un sistema video di qualità
accettabile deve presentare rapporto S/N di almeno 45 dB, cui corrisponde un segnale
circa 150 volte superiore al rumore. Ma sistemi video di buona qualità si avvicinano
a 60 dB, con segnale circa 1000 volte superiore al rumore. La Tabella 1 riporta la
corrispondenza tra dB e rapporto S/N.
dB
40
42
45
46
49,5 50
54
55
60
S/N
100
126
178
200
300
316
500
562
1000
Tabella I- Corrispondenza tra dB e rapporto segnale/rumore.
8. Le classi di qualità
È consuetudine ripartire le apparecchiature video in tre classi di qualità, note
come domestica o home, professionale e broadcast. Al di là della differenza
di prezzo, queste apparecchiature presentano caratteristiche e prestazioni diverse con
un’evidente ricaduta sulla qualità delle immagini.
I due parametri del segnale che incidono principalmente sulla qualità delle
immagini sono quelli che abbiamo appena descritto con qualche
approfondimento: ovvero, la frequenza, che determina la risoluzione o nitidezza; e il
rapporto segnale/rumore, che definisce il grado di disturbo di fondo o neve.
Altri parametri riguardano il gamma, che indica la capacità di resa delle sfumature
di colore, ovvero la velocità di passaggio dai toni chiari a quelli scuri; il contrasto,
inteso come rapporto tra massimo valore di bianco e minimo valore di nero; la
luminosità, ovvero il grado di emissione luminosa complessiva di un’immagine;
la saturazione, ovvero la densità cromatica.
La classe di qualità di un’apparecchiatura andrebbe pertanto stabilita misurando
ciascuno di questi parametri ed effettuando una loro valutazione. Inutile dire che, al di là
della non semplice dimestichezza con tali parametri, per definire in modo approfondito le
classi di qualità, si dovrebbe creare una serie di tabelle complicate e di non facile
interpretazione. È consuetudine pertanto riferire queste tre classi di qualità, agli
standard di videoregistrazione maggiormente usati, rispettivamente, in ambiente
domestico, professionale e broadcast e cioè VHS, S-VHS e Betacam.
Nel normale gergo televisivo, per definire la classe di un segnale e dell’immagine prodotta, si parla infatti di “qualità VHS” oppure di “qualità SVHS” oppure ancora di “qualità Betacam”.
Questi riferimenti sono di particolare rilievo considerato che, come
vedremo, nel configurare una stazione di montaggio, viene sempre chiesto dai
relativi menu su quale classe di segnale si vuole lavorare: VHS, S-VHS o Betacam.
Alcune stazioni scendono poi in ulteriori classificazioni, quali VHSLP (Long Play), di
qualità inferiore al VHS; Hi8, una classe ritenuta corrispondente all’S-VHS; Betacam
SP (Superior Performance), con piena ampiezza di banda per la luminanza, ovvero con
immagini maggiormente definite.
La Tabella 2 riporta in sintesi le classi di qualità del segnale in relazione agli
standard di videoregistrazione e anche i valori di risoluzione e di SIN relativi alla
luminanza.
Capitolo 2
La conversione analogico/digitale
Le regole della conversione A/D oppure DIA sono sempre le medesime, tanto che si
tratti di segnale video, audio o di altra natura. Questo Capitolo presenta i principi
generali della conversione, ne chiarisce l’applicazione al segnale e approfondisce
gli aspetti relativi al segnale video in componenti. Vengono infine considerate le
codifiche del segnale informato composito, RGB e quella del segnale audio.
1. Principi di codifica digitale
La codifica digitale di un segnale video o audio consiste nella sua trasformazione
da formato “analogico”, in quanto “analogo” alla realtà e con andamento
continuo, a formato digitale o numerico, con andamento discreto basato sui due
valori 0 e 1. Essa avviene tramite due processi: il campionamento e la
quantizzazione. Il primo consiste nella scelta a intervalli regolari di tempo di valori
rappresentativi o “campioni” del segnale da codificare; il secondo prevede la
trasformazione di questi campioni in insiemi o parole di bit 0 e 1.
Dal punto di vista pratico, queste operazioni vengono effettuate da un apposito
componente integrato, il codificatore o encoder o coder A/D, in ingresso
all’apparecchiatura digitale; e dal decodificatore o decoder D/A, in uscita.
1.1 Il campionamento
Il segnale video analogico tradizionale deve presentare, come abbiamo visto, capacità
di modificarsi repentinamente. Il parametro che misura questa capacità di variazione è
la frequenza, il cui valore massimo è stato stabilito in 5 MHz. É intuibile a questo
punto, che la scelta dei campioni del segnale analogico da codificare, cioè il
campionamento, è strettamente legata a tale frequenza.
Se i campioni infatti sono troppo distanti tra loro, ovvero a frequenza troppo bassa,
non saranno in grado di rappresentare il segnale in modo significativo; se invece sono
troppo densi, cioè a frequenza troppo alta, risulteranno ridondanti con inutile aggravio
di elaborazioni.
Questa correlazione viene precisata dal Teorema di Shannon (1948) o
dall’equivalente Criterio di Nyquist: “Un segnale analogico può essere completamente definito nella sua versione campionata, purché la frequenza del
campionamento sia almeno il doppio della massima frequenza contenuta nello
stesso segnale”.
Ma, dalla teoria, passiamo alla pratica. Se la massima frequenza del segnale
video è di 5 MHz, la frequenza di campionamento dovrà essere di almeno 10
MHz. Si è convenuto infatti di fissare univocamente, a livello mondiale, la
frequenza di campionamento in 13,5 MHz. Questo valore si riferisce propriamente,
come vedremo meglio in seguito, al campionamento della luminanza nell’ambito del
segnale in componenti.
La frequenza di campionamento a 13,5 MHz, stabilita fino dal 1982, oltre a soddisfare
il Teorema di Shannon, è stata scelta in modo da generare anche un numero intero di
campioni per ogni riga di scansione, sia nello standard americano NTSC basato su
525 scandite 30 volte al secondo, che in quello europeo PAL/SECAM, basato sul
625 righe scandite 25 volte al secondo. Al di là di aver rappresentato un punto di
riferimento per la costruzione delle apparecchiature digitali, i 13,5 MHz hanno così
avuto anche il ruolo di un’importante pedina verso la compatibilità degli standard.
Dalla frequenza di campionamento di 13,5 MHz, consegue inoltre che la durata
temporale di ciascun campione è di 74 ns (nanosecondi, miliardesimi di secondo).
1.2 La quantizzazione
Definita la regola base del campionamento del segnale video, si tratta ora di
trasformare i campioni prescelti in insiemi o parole di bit, capaci di esprimere il
valore originario del segnale o un valore abbastanza vicino ad esso.
Senza richiamare le regole della matematica binaria, ci basti dire che, detto “n” il
numero dei bit di una parola, il numero dei valori o livelli esprimibili con tale parola
è dato da 2°. In base poi a una serie di studi e valutazioni sulle caratteristiche della visione
umana, si è trovato che l’occhio è in grado di distinguere attorno alle 250 gradazioni di
grigio e saturazioni di colore.
Ciò ha consigliato di orientare il numero dei bit della parola di codifica del
segnale video, sul valore di 8. Infatti:
28 = 256 livelli di segnale.
Nell’ambito dei sistemi televisivi, la quantizzazione basata su parole di 8 bit è infatti
la più diffusa, anche se apparecchiature di qualità particolarmente elevata si spingono
su parole di 10 e anche di 12 bit pari, rispettivamente, a 210 = 1024 e a 212 = 4096
livelli di segnale.
Il numero n dei bit della parola di codifica viene detto profondità di
quantizzazione.
Le operazioni di conversione A/D generano in ogni caso un rumore intrinseco nel segnale
detto rumore di quantizzazione. Il rapporto SIN, del segnale digitale sul rumore di
quantizzazione è dato dalla formula:
S/Ndigitale = 6(n + 1)dB
dove 6 è un numero fisso ed n è il numero dei bit di parola, ovvero la profondità di
quantizzazione.
Se poniamo dunque n = 8, si ottiene:
S/N8 = 6(8 + 1)dB = 54dB
che è un valore, ricordando quanto detto sull’5/N analogico, più che adeguato per una
catena di apparecchiature video di buone caratteristiche. Se poi si opera su profondità di
quantizzazione di 10 o di 12 bit, si otterranno:
S/N1 0 = 6(10 +1)dB = 66dB
oppure
S1N12 = 6(12 + 1)dB = 78dB
entrambi valori che garantiscono immagini di qualità decisamente elevata.
Sottolineiamo infine, come vedremo meglio in seguito, che nell’audio la profondità
di quantizzazione è più accentuata, avvalendosi di parole fino a 32 bit.
2. La codifica del segnale in componenti e la normativa R- 601
Abbiamo già detto che, nell’ambito della televisione digitale, il formato di segnale
utilizzato nella quasi totalità dei casi, è quello in componenti con conversione
analogico/digitale effettuata in modo separato su luminanza e crominanza.
L’approccio alla codifica in componenti era stato già da anni proposto dai
costruttori di apparecchiature video ed è stata in seguito convalidato dal CCIR
(Comitato Consultivo Internazionale di Radiocomunicazioni) secondo la Norma 601.
Va precisato che lo stesso Comitato ha subito una ristrutturazione divenendo l’odierna
ITU (International Telecommunication Union), ripartita a sua volta nelle due
sezioni T (Telefonia) ed R (Radiocomunicazioni).
In questo passaggio, la Norma 601 è stata salvaguardata ed è diventata, più
precisamente, ITU-R-601. Le due diciture CCIR-601 e ITU-R-601, che designano
entrambe la codifica analogico/digitale del segnale video in componenti, hanno
pertanto lo stesso significato ma, delle due, “ITU-R-601” è la più corretta. Ad essa
si attengono in particolare i sistemi di classe broadcast, mentre quelli professionali e
domestici, pur rispettandone la struttura, apportano alcune varianti semplificative,
come vedremo.
Precisando quanto anticipato, la R-601 prevede che la frequenza di campionamento della
crominanza sia fissata sul valore di 13,5 MHz; e stabilisce, in secondo luogo, che le due
componenti di crominanza (R-Y) e (B-Y) vengano campionate alla frequenza di 6,75
MHz, pari cioè alla metà di 13,5.
Questa configurazione di campionamento viene indicata con 4:2:2, come vedremo meglio
in seguito, mentre i due segnali di crominanza, una volta acquistata forma digitale,
vengono indicati con CR, corrispondente all’analogico (R-Y) e CB, corrispondente a
(B-Y).
Passando alla quantizzazione, e ricordando quanto detto sul rapporto S/N, la stessa norma
formalizza anche il fatto che la profondità debba essere di 8 oppure di 10 bit su
entrambe i componenti. Ma precisa anche il modo di condurre la quantizzazione su tali
componenti.
Per la luminanza, in relazione ai 256 livelli di segnale disponibili, viene stabilito che il
nero si venga a trovare sul 16° livello e il bianco sul 235° per un totale di 220 livelli utili. Ciò
garantisce un’adeguata riproduzione delle immagini e due fasce di guardia, rispettivamente,
superiore ultrabianco e inferiore infranero, tali da assorbire picchi di bianco senza
bruciare le immagini; e da poter entrare nel nero per decifrare inquadrature anche
sottoesposte.
Per la crominanza, rispettando analoghi criteri, i livelli utili sono 225. Con lo
scopo inoltre di limitare interferenze con la luminanza, il livello cromatico più basso
(colore totalmente saturo corrispondente al nero) viene fissato sul valore 128; e quello più
alto (colore totalmente desaturato corrispondente al bianco) sul livello 352.
I livelli estremi della scala, 0 e 255, vengono inoltre considerati “proibiti” per
entrambi i segnali.
In merito all’audio, la cui conversione digitale avviene sempre in base ai due processi
di campionamento e quantizzazione, la R-601 prevede il campionamento a 48 kHz
e la quantizzazione su parole di 20 bit.
Questi dati stabiliscono, nel loro complesso, il punto di riferimento per tutta
l’attuale televisione digitale.
3. Il formato 4:2:2
La normativa R-601 definisce la frequenza di campionamento, come detto, su
13,5 MHz per la luminanza Y e su 6,75 MHz per le due componenti colore. Ma perché
questa scelta di limitare la crominanza? La ragione va ricercata nell’eccessivo
bitrate, ovvero nell’eccessiva quantità di dati o bit al secondo, generato dal segnale video
nel suo insieme.
Supponendo di lavorare infatti su parole di 8 bit, si ottiene subito che: Bitrate Y8bìt =
13,5x1.000.000x8 = 108 Mbps
dove Mbps sta per “Mega bit per second” (milioni di bit al secondo).
In altre parole, il segnale di luminanza Y genera un bitrate di 108 milioni di bit al
secondo. Se a esso si sommano i due bitrate della crominanza campionati anch’essi a
13,5 MHz, si ottiene un bitrate totale di ben 324 Mbps: un dato esorbitante.
Non solo perché richiederebbe dei circuiti di supporto (codificatori, processori,
ecc.) molto veloci, ma perché imporrebbe il ricorso a supporti di memoria di
eccessiva capacità.
Basti pensare, come si può facilmente calcolare, che per memorizzare un solo
secondo di programma occorrerebbero circa 10 floppy disk dalla capacità standard di
1,4 MByte.
E opportuno anche ricordare, con una notazione di carattere storico, che questa
regole sono state stabilite tra la fine degli anni ‘70 e l’inizio degli ‘80, quando i
microprocessori e tutta la componentistica integrata era ancora ai suoi primi passi.
La scelta contenuta nella raccomandazione R-601 di dimezzare la frequenza di
campionamento della crominanza, è stata fatta quindi per limitare il bítrate complessivo
del segnale che, sempre su parole di 8 bit, diventa pertanto di:
Bitrate
(Y/CR/CB)s
bit
=
_(13,5 + 6,75 +6,75) x 1.000.000 x 8 = 216 Mbps.
Se la profondità di quantizzazione anziché di 8 è di 10 bit, il bitrate del segnale è
di:
Bitrate (Y/CR/CB)10 bit = (13,5 + 6,75 +6,75) x 1.000.000 x 10 = 270 Mbps.
La riduzione dei campioni di colore si è potuta fare in base alla considerazione
che l’occhio umano è meno sensibile alle informazioni cromatiche rispetto a quelle dei
contorni o dei dettagli d’immagine.
L’accorgimento per limitare il tasso di bitrate con questo principio è indicato con
4:2:2
una formula continuamente ricorrente nell’ambito della televisione digitale, dove “4”
si riferisce alla frequenza di campionamento base (13,5 MHz) attribuita alla luminanza;
e”2” a quella dimezzata (6,75 MHz) attribuita alle due componenti di
crominanza…………..
4. I campioni per riga e per quadro
La scansione di quadro nel sistema PAL è effettuata, come noto, su 625 righe percorse 25
volte al secondo. Il numero complessivo delle righe al secondo è dato pertanto da:
625x25 = 15.625.
Il numero dei campioni per riga, riferito alla luminanza, è dato quindi da: 13.500.000:
15.625 = 864.
In altre parole, sempre nello standard PAL, ciascuna riga di scansione contiene 864
campioni di segnale Y Considerando poi le due componenti di crominanza in
campionamento 4:2:2, ciascuna riga conterrà complessivamente
864y + 432CR + 432C8 =1728
campioni di segnale.
Questo valore, per la verità, non è effettivo ma nominale, considerato che ciascuna riga di
scansione comprende anche il ritorno. Il tempo di riga totale, lo ricordiamo, è infatti di
64 ms, di cui 52 ms per la scansione e 12 ms per il ritorno. Da ciò si deduce che ciascuna
riga contiene
720 campioni attivi per la luminanza
contro gli 864 teorici o effettivi, e altrettanti per la crominanza.
In definitiva, ciascuna riga contiene:
720 campioni Y + 360 campioni CR + 360 campioni CB =
= 1440 campioni attivi.
Passando dalla scansione di riga alla scansione di quadro, troviamo una situazione
analoga: delle 625 righe, quelle attive sono 576 mentre le restanti 49 supportano il
“ritorno” verticale o di quadro. Da ciò consegue che ciascun quadro contiene:
1440 x 576 = 829.440 campioni.
Questi dati portano a meglio precisare il già visto bit rate che, se strettamente vincolato
alle parti d’immagine e non alla scansione complessiva, può essere così calcolato:
numero attivo campioni per riga x numero attivo righe x numero
scansioni al secondo x numero bit campionamento.
Cioè in numeri, nelle due quantizzazioni a 8 e 10 bit:
Bit-rate complessivo (8 bit) = 1440 x 576 x 25 x 8 = 165,888 Mbps Bit-rate
complessivo (10 bit) = 1440 x 576 x 25 x 10 = 207,360 Mbps
Limitandoci alla quantizzazione a 8 bit (la più diffusa) e pensando di aggiungere i bit
relativi all’audio e ai sincronismi, si ottiene in definiva che il bit rate di un segnale
video/audio completo in standard R-601 è attorno ai 170.180 Mbps.
In base a quanto detto sul numero dei campioni per riga e sul formato 4:2:2, si
può tracciare un’ipotetica configurazione dei campioni sullo schermo di un monitor,
supponendo che a ciascun campione corrisponda un effettivo punto o pixel riprodotto (ciò
in realtà non avviene, considerato che gli schermi e l’elettronica di supporto determinano
un naturale assorbimento di segnale).
In questa configurazione, il segnale video in formato 4:2:2 acquisterà sullo schermo
(partendo dall’angolo in alto a sinistra) il seguente andamento:
•
un campione di crominanza CB, un campione di luminanza Y e un campione di
crominanza CR;
•
un campione di luminanza Y;
•
un campione di crominanza CB, un campione di luminanza Y e uno di crominanza
CR;
e così via per 720 volte in senso orizzontale, ovvero lungo la linea di scansione, e per
576 volte in senso verticale a copertura dell’intera immagine.
Per convenzione, il primo elemento di ogni riga attiva è di solito rappresentato dal
campione CB. La disposizione dei campioni così proposta viene chiamata co-sited,
ovvero a campioni accostati. L’operazione di copertura dell’intero quadro sì ripete
naturalmente 25 volte al secondo.
Tutti i dati fin qui riportati sono relativi al sistema PAL. Nel sistema NTSC i
campioni di luminanza totali per riga sono 858, contro gli 864 del sistema europeo,
di cui quelli attivi rimangono 720; e, a loro volta, delle 525 righe totali, quelle attive
sono 487.
Partendo da questi numeri è immediato risalire agli altri parametri (numero dei
campioni per quadro, bitrate, ecc.), i cui valori non si discostano molto da quelli
del sistema PAL.
5. I formati 4:1:1 e 4:2:0
Il principale ostacolo per un impiego diffuso del segnale in formato 4:2:2, pur essendo
già stato limitato nella crominanza, è rappresentato dal suo accentuato bitrate. Per
supportare le sue velocità operative e la grande quantità di dati che genera, sono
indispensabili infatti circuiti elettronici (microprocessori, memorie, ecc.) di elevate
caratteristiche. D’altra parte, tutta la normativa R-601 è nata in ambiente broadcast.
Per soddisfare le esigenze anche del mercato consumer e professionale, sono
stati messi a punto pertanto dei formati di segnale a bitrate più basso, ma con risultati
più che soddisfacenti. A farne le spese, in termini di riduzione delle informazioni, è
ancora una volta la crominanza, sempre in virtù del fatto che l’occhio umano è meno
sensibile ai contenuti di colore che non ai dettagli d’immagine.
Questi formati, per così dire “ridottì”, sono ì14:1:1 e il 4:2:0. Entrambi
rispettano il campionamento della luminanza a 13,5 MHz, ma riducono quello della
crominanza.
Precisamente:
•
il formato 4:1:1 campiona la crominanza a 3,75 MHz, pari a 1/4 di 13,5 MHz e
costruisce l’immagine secondo la successione: un campione co-sited con le due
componenti di crominanza, tre campioni di luminanza non co-sited, nuovamente un
campione co-sited e tre campioni non co-sited e così via;
•
i14:2:0 campiona la crominanza ancora a 6,75 MHz, ma distribuisce i due
campioni CB e CR su righe alterne secondo la sequenza: luminanza co-sited CB,
luminanza, luminanza co-sited CB, luminanza e così via, sulle righe dispari;
luminanza co-sited CR, luminanza, luminanza co-sited CR, luminanza e così via, sulle
righe pari.
In entrambi i casi il numero dei campioni per riga è lo stesso. Nel formato 4:1:1
è dato infatti da:
720y + 180CR + 180 CB = 1080
mentre nel formato 4:2:0 è dato da:
720Y + 360CC = 1080
dove il pedice “CC” significa “Campioni Colore”, che saranno CB per le righe
dispari e CR per quelle pari.
Ma a parte queste precisazioni, i formati ridotti 4: L 1 e 4:2:0 assegnano a ogni riga
1080 campioni, anziché i 1440 del formato 4:2:2, con una riduzione del 25% sul
bitrate complessivo.
Va poi chiarito che il formato 4:2:0, per il fatto di alternare le componenti
cromatiche tra righe pari e dispari, assicura una migliore distribuzione dei colori
rispetto al 4:1: L Ma nel sistema NTSC, considerato che le righe utili sono soltanto
487, il formato 4:2:0 può originare una ricostruzione non fedele dei colori, dovuta
all’eccessiva distanza tra le righe della trama di scansione. Per questa ragione, il
sistema PAL è maggiormente orientato a usare il formato 4:2:0, mentre il sistema
NTSC ricorre al 4:1:1.
Vediamo infine il valore del bitrate. I due formati generano per ciascuna riga, come
detto, 1080 campioni. Ciò determina, per l’intero frame:
1080 x 576 = 622.080 campioni.
Considerato che la quantizzazione, in questi formati, è sempre basata su parole di
8 bit, si ottiene:
Bitrate4:1:1/4:2:0 = 622.080 x 8 x 25 = 124,416 Mbps
contro il già visto bitrate del formato 4:2:2 di 165,888 Mbps. Si tratta di un valore
soddisfacente ma non ancora del tutto adatto ad apparecchiature digitali economiche. La
soluzione definitiva del problema si otterrà infatti, come vedremo, applicando al
segnale le tecniche di compressione.
La Tabella 1 riporta in sintesi le frequenze di campionamento e i campioni per riga
nei tre formati 4:2:2, 4:1:1 e 4:2:0.
6. La codifica del segnale composito
Come più volte detto, l’ambiente della televisione digitale si avvale per lo più del segnale
in componenti. Tuttavia, al fine di ottenere 1’interacciamento con precedenti
apparecchiature analogiche che fornivano il solo segnale composito, sono stati anche
realizzati alcuni sistemi digitali operanti in composito (ci riferiamo soprattutto ai
registratori che rientrano nella classe D-2, come vedremo).
Le regole della conversione A/D del segnale composito, stabilite dalla normativa ITU-R602, sono sempre basate sui due processi di campionamento e quantizzazione. Ciò che
cambia, rispetto al segnale in componenti, è il valore della frequenza di
campionamento. Per evitare problemi di interferenze e per ottenere la massima stabilità
d’immagine, tale valore deve corrispondere a un multiplo intero della frequenza
della sottoportante colore: multiplo individuato nel numero 4 (e ciò spiega anche il motivo
per cui la frequenza di campionamento video viene generalmente indicata con “4”).
Con riferimento al sistema PAL la cui frequenza di sottoportante colore è di 4,43
MHz, la frequenza di campionamento del segnale composito sarà quindi data da:
Fc=4,433x4=17,73MHz.
Con questo valore i campioni complessivi per riga sono 1135, quelli attivi 948 e quelli
di cancellazione 187. Non esiste naturalmente ripartizione tra i campioni di luminanza
e crominanza, considerato che queste due componenti si trovano integrate all’interno
di un medesimo segnale. La frequenza di campionamento nel sistema NTSC, la cui
sottoportante colore è a frequenza di 3,58 MHz, è di 14,32 MHz.
La quantizzazione infine avviene sempre su parole di 8 oppure 10 bit, in funzione
della qualità delle apparecchiature.
7. La codifica del segnale RGB
Alcune telecamere digitali di classe broadcast, e particolarmente sofisticate, come pure
alcuni mixer, telecinema e filmrecorder, al fine di ottenere le migliori prestazioni in
senso assoluto, operano direttamente sul formato di segnale RGB senza apportare ad
esso alcuna elaborazione intrinseca, trasformandolo nel segnale in componenti.
L’operazione di conversione analogico/digitale avviene pertanto sui tre segnali RGB
in modo separato. La frequenza di campionamento è sempre di13,5 MHz, quella cioè della
luminanza per il segnale in componenti. Il segnale digitale in questo formato viene
indicato con 4:4:4.
La profondità di quantizzazione, in relazione anche alla qualità di questa
apparecchiature, è in genere di 10 o 12 bit.
Ne consegue naturalmente che anche il relativo bitrate è particolarmente elevato, pari
cioè, nel sistema PAL e facendo un semplice conto, a 405 Mbps per i 10 bit e a 468
Mbps per i 12 bit.
La Tabella 2 riassume i principali dati di campionamento e di bitrate per i tre
segnali, composito, componenti ed RGB, nei due sistemi PAL ed NTSC.
8. La codifica dell’audio
La conversione A/D dei segnali audio prevede anch’essa i due processi di campionamento
e quantizzazione che, come detto, sono di validità generale. I relativi parametri sono stati
fissati dall’AES/EBU (Audio Engineering Society/European Society Union),
riconosciuti anche dall’ANSI (American National Standard Institute), e hanno
portata internazionale, senza differenze tra aree geografiche come avviene per il
video.
Essi prevedono un insieme di valori, che vengono scelti in funzione dell’applicazione a
cui ci si rivolge. In ambito video di fascia alta, la frequenza di campionamento è di
48 kHz e la profondità di quantizzazione di 20 o di 16 bit; in quello di fascia inferiore,
il campionamento è di 32 kHz e la quantizzazione di 16 o 12 bit. Si può aggiungere
che l’audio digitale per CD (Compact Disc) viene campionato a 44,1 kHz mentre le
parole sono di 24 e anche di 32 bit.
La frequenza di campionamento anche in questo caso segue il teorema di Shannon:
considerato che la gamma delle frequenze udibili è compresa tra circa 20 Hz e 20 kHz, il
suo valore deve risultare superiore a 40 kHz. 148 kHz per il video di fascia alta e ì 44,1
kHz per i CD assicurano così la completa copertura della gamma udibile; i 32 kHz per il
video di fascia bassa, un evidente valore di compromesso, taglia invece i suoni più
acuti.
Può essere anche interessante osservare, che il valore 48 kHz non è stato scelto
per ottenere una qualità di suono superiore a quella dei CD, ma solo per comodità
essendo un sottomultiplo di frequenze video già disponibili.
La quantizzazione con parole da 12 a 32 bit, sopravanza ampiamente quella del video
che difficilmente supera i 12 bit. Ma questa scelta dipende dalla diversa
strutturazione dell’ambiente acustico, che fornisce all’orecchio ogni istante uno o pochi
suoni; rispetto a quella dell’ambiente visivo, che propone all’occhio quantità di
informazione pressoché infinite.
Applicata a una situazione di riproduzione, rispettivamente, audio o video, ciò
significa che l’orecchio è molto più sensibile al fruscio o soffio, presente su un
altoparlante, di quanto lo sia l’occhio nei confronti della neve, presente su uno schermo.
Se ora ricordiamo che il rapporto S/N di un sistema digitale è dato da: SIN = 6(n + 1)dB
si risale al fatto che le profondità di quantizzazioni audio devono essere elevate e
superiori in particolare a quelle del video. Più precisamente:
SIN (12 bit) = 6(12 + 1) dB = 78 dB
SIN (16 bit) = 6(16 + 1) dB = 102 dB
SIN (20 bit) = 6(20+1) dB =126 dB SIN (24 bit) = 6(24 + 1) dB =150 dB SIN (32
bit) = 6(32 + 1) dB = 198 dB.
Da questi dati emerge dunque, richiamando anche il fatto che la gamma dinamica
dall’orecchio va da 0 a 120 dB, che le parole da 12 bit determinano un audio inquinato
da una certa percentuale di rumore; quelle da 16 o 20 bit per le apparecchiature video di
fascia alta, risultano più che adeguate a un buon ascolto; quelle infine da 24 o 32 bit
per suoni in qualità CD, sono tali da assicurare la non percettibilità del rumore di fondo
anche su impianti fortemente amplificati.
Capitolo 3
La compressione
Il bitrate del segnale televisivo digitale è mediamente elevato, tale da richiedere
processori veloci ed estese capacità di memoria. Diventa così necessario doverlo
limitare, riducendo all’essenziale i dati in esso contenuti. Il relativo processo, noto
come “compressione-, deve però rispettare alcune regole di validità generale. In
questo Capitolo vengono presentati i criteri di compressione, vengono considerati i
loro principali standard per immagini fisse e in movimento e si fa un cenno alla
compressione audio.
1. Esigenze e impiego della compressione
Il segnale video digitale presenta, come visto, un alto bitrate, certamente superiore
a quello dei processi informatici per elaborazione di testi o grafica. Allo scopo di
evitare il ricorso ad apparecchiature eccessivamente sofisticate, è così emersa l’esigenza
di doverlo limitare, ricorrendo alle tecniche di compressione.
Per “compressione” di un segnale si intende la riduzione del flusso dei suoi dati,
basata sull’eliminazione delle ridondanze ovvero delle informazioni ripetitive in esso
contenute.
Il problema, per la verità, era molto più avvertito nei primi tempi della televisione
digitale, ovvero nell’arco degli ultimi anni ‘80 primi anni `90, quando le velocità operative
dei microprocessori e dei circuiti integrati erano ancora limitate e altrettanto limitate
erano le capacità delle memorie, sia allo stato solido che su supporto magnetico.
Con il progredire della tecnologia però, la situazione è via via cambiata,
al punto che nei più avanzati ambienti broadcast si manifesta l’ipotesi di
poter lavorare senza ricorrere alla compressione, o limitandone fortemente l’uso.
Nel normale processo di produzione dell’attuale televisione digitale, la
compressione rimane tuttavia essenziale nelle stazioni di montaggio e in svariati
standard di videoregistrazione. Ma, al di là di questo, la compressione presenta
particolare rilievo, soprattutto in termini di diffusione del video digitale a livello di
massa, nelle trasmissioni digitali satellitari e nella fascia di apparecchiature per uso
domestico.
Le prime, dalle stazioni alle abitazioni, avvengono tramite uno o più canali messi
a disposizione dalle società che forniscono il servizio satellitare, il cui costo è elevato e
che viene inoltre stabilito in base al flusso dei dati trasmessi. È tutto interesse delle stazioni
emettenti pertanto, cercare di comprimere il relativo bitrate; senza contare che il decoder di
casa o Set-top-box, potendo operare su basse velocità, diventa anch’esso meno costoso e
quindi più accessibile al grande pubblico.
Per la trasmissione digitale è stato messo a punto infatti uno dei più affermati standard di
compressione denominato, come avremo modo di chiarire, MPEG-2.
Passando alla seconda fascia di applicazione, quella delle apparecchiature per uso
domestico, è di nuovo evidente che, al diminuire delle velocità operative, registratori,
camcorder o piccole unità di montaggio presentano anch’essi un prezzo più accessibile
e che le cassette diventano di dimensioni particolarmente ridotte e di semplice uso.
2. Principi di compressione
Se il formato 4:2:2, e ancor più i formati 4:1:1 e 4:2:0, provvedono a limitare il
bitrate del segnale riducendo la “quantità” delle informazioni originarie di un’immagine,
la compressione invece, come anticipato, ricorre al principio di eliminare le
“ridondanze”. Facciamo subito un esempio: quello, fin troppo consueto, di un
annunciatore.
Dalla figura è immediato constatare come gran parte delle informazioni di ciascun
quadro siano tra loro identiche: lo sfondo, l’abito, il colore della pelle e così via. E la
medesima considerazione può essere fatta sulle informazioni tra un quadro e il
successivo, le cui uniche variazioni riguardano il movimento delle labbra, degli occhi o
qualche leggero spostamento della testa. In sostanza, ciascun quadro presenta al suo
interno un elevato numero di informazioni identiche; e il primo quadro della
sequenza contiene già almeno l’80 o il 90% delle informazioni che appariranno nei
quadri seguenti per la durata dell’intero annuncio.
Con linguaggio più preciso, possiamo dire che le informazioni all’interno di un
medesimo quadro riguardano il “dominio dello spazio”; e quelle tra quadri successivi
riguardano il “dominio del tempo”. Si tratta ora di tradurre queste considerazioni di
carattere intuitivo sulla ripetitività delle informazioni, in algoritmi a cui affidare la
limitazione dei dati.
Entrambe le compressioni, quella spaziale relativa alla singola immagine e quella
temporale relativa a una sequenza, vengono realizzate sulla base di unità di
compressione, intese come il più piccolo gruppo di informazioni a cui applicare tali
algoritmi. Nella compressione della singola immagine, l’unità di compressione
(spaziale) è data da gruppi di campioni del segnale digitale o GoS (Group of
Samples); nella compressione della sequenza (temporale), l’unità di compressione è
rappresentata da gruppi di immagini o GoP (Group of Pictures).
La più diffusa funzione che provvede alla compressione spaziale è la DCT Discrete Cosine Transform (Trasformata discreta in coseno), capace di rivelare le
variazioni di informazione tra un’area e quella contigua trascurando le ripetizioni; la
funzione che supporta la compressione temporale è affidata invece a un apposito
“vettore movimento” che individua le componenti dinamiche tralasciando quelle
statiche.
Non approfondiamo oltre questi concetti che riguardano principalmente tecnici e
progettisti, ma puntiamo l’attenzione su quegli elementi che interessano gli
operatori video.
Il parametro che definisce la compressione nel suo insieme è il rapporto di
compressione dato da:
Rapporto di compressione = bitrate originario/bitrate compresso
ed è indicato con:
n:1
dove n è un numero variabile da 1 (segnale non compresso) a 20-30 o anche più a seconda
delle situazioni di lavoro. All’aumentare di n ovvero del rapporto di compressione
aumenta anche il degrado del segnale, col risultato di
immagini meno definite (minore risoluzione) e con maggiore tasso di rumore (basso
S/N).
Il rapporto di compressione pertanto, che nella stazioni di montaggio viene
regolato dallo stesso operatore, va scelto in base alle diverse esigenze, ovvero
alla classe di qualità in cui si opera: VHS, S-VHS, Betacam e così via.
Una compressione teorica losless, cioè senza perdite di informazione in assoluto, in
pratica non può essere realizzata. È vero invece che, in funzione anche della qualità delle
apparecchiature, una compressione può essere caratterizzata da degrado non
apprezzabile, ovvero evidente solo su misura strumentale.
3. Gli standard
La compressione delle immagine televisive avviene dunque secondo i due criteri
spaziale e temporale, ai quali fanno capo i due standard denominati,
rispettivamente, JPEG (Joint Photographer Experts Group) per le immagini fisse ed
MPEG (Moving Pictures Experts Group) per le immagini in movimento. La scelta
dell’uno o dell’altro è operata in base alle funzionalità delle diverse apparecchiature.
Vediamoli entrambi, considerandone inoltre le varie versioni.
3.1 Lo standard JPEG ed M-JPEG
Nato in ambiente grafico e fotografico e convalidato nel 1990 dall’ISO/IEC
(International
Standard
Organization/International
Electrotechnical
Commission), questo standard definisce le regole di compressione per una singola
immagine, cioè quadro per quadro, senza prevedere correlazioni tra immagini
precedenti e seguenti. Come tale, non sarebbe adatto all’uso televisivo, tipicamente
caratterizzato da immagini in movimento, ma è invece ampiamente adottato dalle
unità di montaggio che richiedono di effettuare gli edit con precisione fino al singolo
frame (torneremo su questo argomento nel capitolo dedicato alle stazioni di
montaggio).
Il JPEG realizza la compressione in base al criterio noto come intraframe,
che rappresenta un’organizzazione dei dati del frame originale, ottenuta sempre in base
al principio di eliminare le informazioni ripetitive. Si tratta di un frame, per così
dire, “virtuale” che nulla o ben poco ha a che vedere con quello reale, realizzato
inoltre su regole diverse a seconda dei fabbricanti.
La costruzione dell’intraframe si basa sul principio di ripartire il frame di
riferimento in blocchi costituiti da “GoS 8x8”, ovvero da gruppi di (8x8)
campioni di luminanza, con i campioni di crominanza a essi associati.
Ciascun gruppo (8x8) conterrà dunque 64 campioni di luminanza e una quantità
variabile di campioni di crominanza, in funzione del formato di segnale coinvolto:
4:2:2, 4:1:1 oppure 4:2:0.
Nel sistema PAL, con 720 campioni singoli o co-sited per riga e con 576 righe, il
numero dei GoS per frame è:
(720:8) x(576: 8) = 90 x 72’= 6480.
Ciascuno di questi gruppi viene quindi esaminato al suo interno allo scopo di valutare
la composizione delle diverse parole e di eliminare quelle dal medesimo contenuto.
Per esempio, il primo gruppo (8x8) in alto a sinistra della figura riferito allo sfondo
omogeneo, presenta tutti i 64 campioni uguali: una volta acquisto il primo campione, gli
altri si possono ottenere per semplice copia da esso senza doverli memorizzare
singolarmente. Lo stesso avviene per il secondo gruppo, il cui contenuto è il medesimo
del precedente.
Non avviene altrettanto nelle aree di cambiamento dei contenuti della figura, per esempio sui
contorni della persona, sul suo abito o sulla faccia, dove i campioni e i gruppi sono
evidentemente diversi l’uno dall’altro.
Aggregando alla fine ì 6480 gruppi, ciascuno di essi con vario grado di
compressione, si dà origine all’intraframe di cui si diceva, ovvero all’intero quadro
compresso. Con il risultato, naturalmente, di aver ridotto il bitrate associato all’immagine.
Tutto il procedimento, che si basa sul già nominato algoritmo DCT, viene effettuato da
un apposito componente, che si trova nella sezione di ingresso dell’apparecchiatura
coinvolta.
Accanto al JPEG è stato poi sviluppato lo standard M-JPEG (MotionJPEG)
maggiormente specializzato, rispetto al precedente, a esigenze televisive. Esso è
basato sulla compressione, non più del frame ma del field o semiquadro. Il
vantaggio che offre, pagato con qualche elaborazione in più, è di un’immagine
compressa di ottima qualità anche su scene o inquadrature con forti movimenti, dove i
due field interlacciati potrebbero presentare differenze tra loro anche rilevanti.
In questo caso l’immagine compressa viene definita intrafield e comprende, nel sistema
PAL, 3240 GoS (8x8), ovvero la metà di quelli dell’intraframe. Le stazioni di
montaggio di buona qualità come pure alcuni registratori operanti in compressione
JPEG, optano spesso per la versione intrafield o M-JPEG.
Come anticipato, le specifiche elaborazioni condotte all’interno dell’algoritmo
di compressione di solito variano da produttore a produttore, col risultato che i file
compressi sono difficilmente esportabili. In termini pratici, un hard disk caricato per
esempio con formati compressi JPEG o M-JPEG non può semplicemente essere estratto da un
sistema e inserito in un altro oppure posto in condivisione con esso, a meno che
quest’ultimo non sia identico o compatibile con il precedente.
Al momento infine della riproduzione, i singoli intraframe o intrafield verranno
decodificati riacquistando l’aspetto standard originario. Entrambi i processi di
compressione e decompressione devono naturalmente poter avvenire in tempo reale.
3.2 Lo standard MPEG
Questo standard presiede, come detto, alla compressione delle immagini in sequenza e
opera pertanto nel dominio del tempo. L’unità di compressione è rappresentata dal GoP,
Group of Pictures, il numero dei cui quadri non è fisso ma variabile a seconda delle
esigenze.
La standard MPEG, che si presta a svariati impieghi non solo di tipo televisivo, si
presenta in varie versioni. Eccone le principali, tutte convalidate ISO/IEC.
•
MPEG-1. Messo a punto nel ‘91, si riferisce a immagini in bassa risoluzione
con 352x288 pixel nel sistema PAL (352x240 nel sistema NTSC), capaci di coprire
un quarto di schermo. È uno standard pensato per sequenze in movimento destinate a CDROM. La loro dimensione limitata ne consente la riproduzione sullo schermo
unitamente ad altre informazioni quali testi, disegni o immagini fotografiche. Questo
standard considera anche la compressione audio, di cui MP3 è la versione più affermata,
ampiamente usata nella diffusione di musica su Internet;
•
MPEG-2. Rilasciato nel ‘94, rappresenta (come chiarito nell’approfondimento
che segue) il sistema di riferimento nella compressione del segnale digitale per
impiego televisivo. Ripartito in profili e livelli è usato anche nel riversamento
di programmi su DVD (Digital Versatil Disc);
•
MPEG-3. Attualmente non più esistente, era stato ideato per televisione ad alta
definizione o HDTV ed è confluito in seguito in uno dei capitolati MPEG-2;
•
MPEG-4. Pensato per comprimere immagini in movimento da diffondere su
Internet, presenta caratteristiche multimediali, ipertestuali e comprende anche l’audio.
È compatibile con il linguaggio HTML (Hypertext Markup Language), tipico dei
documenti per World Wide Web.
•
MPEG-7. È lo standard di rappresentazione di contenuti, per la ricerca di
informazioni multimediali su Internet.
3.3 La versione MPEG-2
È questa dunque la versione di riferimento dello standard MPEG per l’ambiente televisivo,
sviluppata in particolare per la compressione del bitrate nelle trasmissioni digitali e
allargatasi in seguito anche alla registrazione e in parte al montaggio. Essa assicura, a
parità di qualità delle immagini, una compressione superiore allo standard JPEG
nell’ordine del 10-20%, ma è vincolato, come vedremo, a una precostituita sequenza di
frame che non può essere interrotta.
A differenza di altri standard che si caratterizzano tramite uno o pochi parametri,
il MPEG-2 raggruppa un esteso insieme di valori ai quali ogni diversa apparecchiatura (più
precisamente i coder e i decoder di tale apparecchiatura) si deve uniformare, a seconda
della classe di qualità (consumer, professionale, broadcast) e della funzione svolta. È un
sistema in evoluzione ed è impostato in modo aperto a futuri sviluppi, che comprendono
anche la televisione ad alta definizione.
Ma entriamo nel merito del suo gruppo di immagini GoP che prevede, come detto,
un numero di frame in quantità non predefinita. A completo livello di potenzialità,
tale gruppo è costruito sulla base di tre frame compressi,
chiamati Interframe:
•
Il frame I, dove “I” sta per Intraframe. È realizzato con i medesimi criteri di quello
per lo standard JPEG, ma sulla base di macro blocchi di (1 6x 16) campioni, anziché di
(8x8), e attenendosi a regole standard. È questo il frame che rappresenta, all’inizio
della sequenza e poi a intervalli regolari di tempo, il riferimento con l’immagine
reale: per questo motivo è anche chiamato Anchor Frame;
• Il frame P, dove “P” sta per Predicted o Previsto. È il 4° frame del GoP, come
pure í17° o il 10° e così via, a seconda dell’estensione della sequenza. Mene ottenuto con
criteri di previsione partendo dal frame I oppure da precedenti frame P;
•
Il frame B, dove “B” sta per Bidirezionale. Rappresenta il 2° e i13° frame del
gruppo, come pure il 5° e il 6° e così via, in funzione sempre dell’estensione di tale
gruppo. È realizzato con criteri di doppia previsione, in avanti e a ritroso, prendendo
come riferimento, e a seconda delle configurazioni del Gop, un frame I o un frame P.
Per chiarire meglio questa situazione vediamo un gruppo di frame Mpeg2 completo,
ovvero contenente tutti e tre i tipi di Interframe e costruito sulla base di 6 frame. Esso
prevede il frame di partenza I collocato all’inizio della sequenza, il frame P collocato in
quarta posizione, un frame B, collocato in seconda posizione e un altro frame B in
terza posizione: la configurazione è dunque I, B, B, P, B, B e quindi nuovamente I, B,
B, P, B, B e così via.
Il frame I viene costruito, come detto, in base a semplice compressione spaziale con
algoritmo DCT; il frame P, collocato tre frame dopo, viene costruito su base
previsionale statistica partendo dal frame I e associando a esso un operatore vettoriale
di movimento all’interno di un’area di ricerca; i due frame intermedi B vengono
realizzati sempre su criteri previsionali, ma in modo bidirezionale partendo dai due
frame estremi I e P. Proseguendo nel GoP successivo, il frame in posizione 7 ritorna ad
essere un frame I, ovvero attinto direttamente dalla realtà (anchor frame); tramite questo
stesso frame I e il frame P, in decima posizione, si costruiscono i due frame B in
posizione 8 e 9. Il processo avviene poi in modo analogo per tutti i successivi gruppi.
Il GoP esaminato prevede dunque 6 frame; ma è possibile costruire GoP di 12 e anche
di 18 oppure di 24 frame, ricavandone di conseguenza delle compressioni
particolarmente elevate. Il rischio che si corre però ponendo i frame I troppo distanziati
tra loro, è quello di allontanarsi eccessivamente dalla realtà costruendo una sequenza
teorica che poi, al momento del ritorno all’immagine di riferimento, denuncerebbe una
marcata discontinuità.
La consistenza o granularità del GoP, cioè il numero dei suoi frame, dipende
dall’applicazione. Nelle trasmissioni satellitari o via cavo standard, è di 12 frame nel
sistema PAL e di 16 nel sistema NTSC. In altre situazioni, come per esempio in alcune
stazioni di montaggio, la granularità può essere variabile. In questo caso, il processo
di decodifica avviene in due fasi: una prima per valutare il numero dei frame del
gruppo; e una seconda, per dare corso alle compressioni/decompressioni.
In ogni modo, ci si trova di fronte a due possibili situazioni: compressione a
flusso dei dati costante e qualità delle immagini variabile (migliore su immagini
statiche, peggiore su immagini con movimenti); e compressione a qualità di immagini
costante e flusso dei dati variabile (minore su immagini statiche, maggiore su
immagini con movimenti).
Il flusso dei dati costante è tipico della trasmissione satellitare, con bitrate di 15 Mbps; il
flusso dei dati variabile è tipico dei DVD, con bitrate normalmente compreso tra 2 e 8
Mbps (vedere Appendice).
Può apparire singolare inoltre che il frame P, in posizione 4, venga creato prima dei
frame B, in posizioni 2 e 3, dando l’idea di un flusso discontinuo. Si deve però
osservare che, una volta acquisito il frame I, i tre frame P, B, B vengono realizzati
pressoché istantaneamente in modo da essere subito disponibili e venire inseriti con
regolarità (frame 1, 2, 3, 4...) nella normale successione delle immagini.
I frame P e B hanno un contenuto informativo, in termini di bit, sensibilmente
inferiore al frame I, che non può essere compresso più di tanto per il rischio di perdere
informazioni di riferimento con la realtà. Precisando meglio quanto anticipato, sono
infatti proprio i frame P e B che assicurano allo standard MPEG, a parità di qualità
delle immagini, un rapporto di compressione superiore a quello del JPEG.
La sequenza del GoP non può essere però interrotta, pena la perdita di tutti i
frame in esso contenuti. A questo punto diventa più chiaro anche il motivo per cui questa
tecnica di compressione, a pieno livello di interframe, non si presti correttamente al
montaggio, che richiede invece il blocco di una scena su qualsiasi quadro.
Lo standard Mpeg-2 tuttavia accetta GoP costituiti anche da due soli frame e, quasi
in contraddizione con il concetto di compressione temporale, dal solo frame I. Si
possono ottenere così compressioni MPEG-2 compatibili con le esigenze di editing.
Viene spontaneo chiedersi, a questo punto, quale può essere il vantaggio di usare una
compressione MPEG-2 basata su un solo frame, anziché ricorrere al sistema JPEG. La
risposta, come spesso succede in situazioni pratiche, è di tipo contingente ed è legata al
lavoro che si sta eseguendo. Me ecco alcune indicazioni.
•
A differenza dell’intraframe JPEG, il frame I MPEG-2 ricorre a un principio di
compressione più “intelligente” a bitrate variabile, che consente minore occupazione
di memoria;
•
Il frame I MPEG-2 si presenta in configurazione standard, con maggiore facilità
di condivisione dei file tra stazioni diverse;
•
Grazie all’impiego della compressione MPEG-2 sia pure su singolo frame, è più
facile e veloce il processo di conversione verso file DVD compatibili con frame
IBP, garantendo anche totale salvaguardia della qualità.
Da una prima posizione con stazioni di montaggio operanti esclusivamente in
compressione JPEG o M-JPEG, il mercato sta infatti proponendo sempre più spesso
unità di editing in standard MPEG-2.
3.4 MPEG-2: profili e livelli
Lo standard MPEG-2, come detto, si presenta come un’estesa piattaforma di parametri
e valori, a cui le diverse apparecchiature si devono uniformare. Essa è organizzata
secondo una tabella a due dimensioni costruita per profili, in senso orizzontale, e
livelli, in senso verticale (Tabella 1).
I primi riguardano gli strumenti della compressione, ovvero il formato del
•
•
•
•
•
•
segnale e la struttura del GoP; i secondi definiscono la risoluzione orizzontale e
verticale, il bitrate e altri parametri numerici.
La piattaforma, come si può notare, è fortemente improntata al segnale in
formato 4:2:0, che è tipico delle apparecchiature di classe domestica. Ma lo standard
MPEG-2, come già posto in evidenza, era stato in gran parte progettato (1994) proprio
per la compressione delle trasmissioni digitali indirizzate agli utenti privati, e solo
in seguito si è aperto anche ad altre applicazioni quali la videoregistrazione e il
montaggio, accogliendo anche il formato 4:2:2. Non ospita poi i14:1:1, un formato
giudicato meno adatto alla trasmissione rispetto al 4:2:0.
I profili (strumenti della compressione) comprendono, allo stato attuale, sei valori (che
riportiamo in inglese, visto il loro generale uso in questo linguaggio):
Simple. Il formato di segnale è 4:2:0 e il GoP prevede l’uso dei frame I e P,
senza interpolazioni di ritorno;
Main. Il segnale è sempre in formato 4:2:0 e il GoP prevede i tre frame I, B, P;
4:2:2. Il formato di segnale è il 4:2:2 e il GoP prevede i frame I, B e P.
Questo profilo comprende in particolare lo standard di registrazione Betacam SX, che
lavora sui due frame I e B, e la variante “Editing MPEG”, che utilizza il solo
frame I;
SNR. I l formato di segnale è i14:2:0 e il GoP comprende i tre frame I, B, P. Questo
profilo introduce il parametro relativo al rapporto segnale/rumore (Signal Noise Ratio),
entrando nella qualità dell’apparecchiatura (e del decoder in particolare);
Spatial. Il formato è il 4:2:0 e il GoP è a tre frame. Riguarda un decoder
scalabile in termini di risoluzione, capace cioè, anche se a basso bitrate, di ricevere
bitrate più elevati, naturalmente riproducendo l’immagine in base al suo livello di qualità;
High. Il formato di segnale è 4:2:0 oppure 4:2:2 e il GoP è di tre frame.
Include gli strumenti precedenti, con apertura a flussi dati ad alta e altissima velocità e a
più evolute organizzazioni di scansione di immagine.
I livelli (risoluzione e bitrate) comprendono quattro valori:
•
Low. La risoluzione è bassa, 352x288 campioni sulla luminanza, e il bitrate è di 4
Mbps. Rappresenta lo standard MPEG-1 pensato per i CD, con formato d’immagine pari a
1/4 dell’immagine televisiva;
• Main. La risoluzione è di 720x576 campioni sulla luminanza e il bitrate è di 15, 20
oppure 50 Mbps, a seconda dei profili. Nel profilo 4:2:2, la risoluzione di 720x608 campioni
corrisponde a quella del sistema Betacam SX;
•
High-1440. Il numero 1440 si riferisce ai campioni per riga sempre per la luminanza. Il
bit rate è di 60 oppure 80 Mbps e la risoluzione di 1440x 1152 (quattro volte quella
normale) è per HDTV;
•
High. La risoluzione è di 1420x1152 campioni e il bitrate è di 80 oppure 100
Mbps. Anche questi valori sono per alta definizione.
Lo standard, precisiamo nuovamente, non riguarda genericamente il segnale video
o la qualità delle immagini compresse, ma specificamente le caratteristiche hardware
della apparecchiature e in particolare modo quello dei coder e decoder.
Esse possono dunque essere classificate sulla base di questo schema, o meglio
tramite i due valori di profilo e livello corrispondenti. È consuetudine, nel
rappresentare la coppia di valori, interporre tra essi il simbolo e: così il decoder
di un set-top-box per normale ricezione digitale satellitare che lavora in Main Profil e in
Main Level, viene indicato come Main Profil/Main Level o in forma abbreviata
MP/ML.
Ma al di là degli specifici valori prefissati, merito dello standard MPEG2 è quello di
aver messo a punto una piattaforma di riferimento, per cercare di strutturare il complicato
ambiente del segnale video digitale compresso e l’altrettanto molteplice proposta di
apparecchiature. È un tentativo, peraltro, ancora in fase di evoluzione: al suo interno non
tutto è chiaro e molte delle sue caselle sono ancora vuote...
4. La compressione audio
Nell’ambito della produzione video, l’audio di solito non viene compresso e per
un motivo molto semplice: il bitrate generato da un canale audio è solitamente di 768 Kbps
(campionamento a 48 KHz, quantizzazione su 16 bit), contro le svariate decine (e anche
centinaia) di Mbps del video.
Il risultato di comprimere l’audio sarebbe, in altre parole, quello di appesantire le
elaborazioni con scarsi vantaggi. Stazioni di montaggio e videoregistratori lavorano tutti
infatti a piena banda audio.
Il problema di comprimere l’audio si manifesta invece a livello di trasmissione, con i
segnali video fortemente compressi e soprattutto in presenza di due, quattro o anche sei o
otto canali audio. In questi casi è facile raggiungere e superare un flusso dati complessivo,
non compresso, di alcuni Mbps.
Lo standard MPEG-2 per trasmissione prevede infatti la compressione anche dell’audio,
che viene specificata fino a 8 canali indicati con 7.1 (due sinistri,
uno centrale, due destri, uno posteriore sinistro, uno posteriore destro e il subwoofer),
anche se i 5.1 sono più comuni (sinistro, centrale, destro, posteriore sinistro, posteriore
destro, subwoofer). Questi canali sono previsti non solo per musica in alta fedeltà, ma
anche per commenti sonori in più lingue a supporto di film.
La tecnica di compressione impiegata viene detta Auditory Masking, che consiste
nell’eliminare i suoni meno percepibili. Essa è ripartita su tre strati, rispettivamente di
192, 128 e 64 Kbps per canale.
Capitolo 4
Le interfacce
La messa a punto dei segnali video digitali ha determinato anche l’esigenza di fissare le
regole per il loro trasferimento tra apparecchiature diverse. Le stesse apparecchiature
inoltre, possono essere gestite a distanza tramite opportuni canali dati. Questo
Capitolo esamina pertanto i vari dispositivi di interfaccia a supporto sia dei segnali che
dei controlli, precisando l’organizzazione delle informazioni e le strutture dei
connettori.
1. Problemi di interconnessione
Nell’effettuare i collegamenti di apparecchiature video digîtali, tra di loro oppure con
apparecchiature informatiche, ci si trova di fronte a due situazioni operative:
•
Collegamenti per trasferire segnali video e audio;
•
Collegamenti per trasferire impulsi di controllo.
La prima situazione riguarda le solite connessioni tra telecamera e mixer,
telecamera e registratore, mixer e registratore e così via, simili a quelle
dell’ambiente analogico; inoltre - e questo è caratteristico dell’ambiente digitale questa situazione prevede anche il collegamento tra videoregistratore e stazione di
montaggio. In questo caso la
stazione deve disporre di apposita interfaccia per ricevere e trasferire i segnali video e
audio.
La seconda situazione si manifesta quando si affida la gestione o la configurazione
di un’apparecchiatura video a un dispositivo esterno che, a sua volta, può essere o
un’attrezzatura video o un computer. Il tipico esempio di apparecchiatura video gestita
da comando remoto, è quello del videoregistratore pilotato da centralina; un esempio di
connessione tra apparecchiatura video e computer può essere offerto invece da un
mixer digitale che viene configurato e controllato da PC. In questo caso è il mixer, o
comunque l’apparecchiatura video, che deve disporre dell’adeguata interfaccia per
ricevere gli impulsi di controllo dal computer.
2. Organizzazione delle interfacce
Per interfaccia si intende il complesso circuitale a supporto del collegamento tra due
apparecchiature. Essa è costituita da una scheda di elaborazione e gestione dei segnali
trasferiti o ricevuti, chiamata anche driver; e da un connettore, che rappresenta la
struttura fisica per il collegamento dei cavi.
Per assicurare un dialogo trasparente tra apparecchiature differenti, le interfacce
devono rispettare requisiti standard. Uno dei principali compiti degli enti normatori, è
infatti proprio quello di definire le caratteristiche delle interfacce, tanto più per collegare
apparecchiature realizzate da costruttori diversi.
Da quanto anticipato in ambiente video digitale ci si trova di fronte a due famiglie
di interfacce digitali: quella per i segnali video e audio e quella per gli impulsi di
controllo. La prima ruota attorno allo standard ITU-R-656, noto come SDI, Serial
Digital Interface, di origine tipicamente video; mentre quella per gli impulsi di
controllo trova riferimento nello standard RS-232C, di origine informatica.
Il concetto di “famiglia di interfacce” proviene dal fatto che ogni standard di
interfaccia genera, a sua volta, delle soluzioni similari, con caratteristiche più accentuate
o più limitate rispetto a quella di partenza, in funzione dell’uso che se ne dovrà fare.
Dall’interfaccia SDI, progettata per ambiente broadcast e per collegamenti su lunghe
distanze (fino a 200 metri), è così derivata l’interfaccia nota come FireWire, di prestazioni
inferiori e indirizzata all’area professionale e domestica. Dall’interfaccia RS-232C,
progettata per computer da ufficio e per collegamento su brevi distanze (fino a 10-15
metri), ne sono nate delle altre più evolute, quali la RS-422 oppure la IEEE 488, per
ambienti industria e laboratorio.
La situazione delle interfacce digitali è presentata in sintesi nella Tabella 1.
Nel seguito vedremo le descrizione delle principali di esse, ripartite sempre
secondo le due funzioni di interfacce di segnale e interfacce di controllo.
3. Le interfacce disegnale
Queste interfacce supportano come detto, i segnali video e audio. Sono presenti, nelle
loro diverse forme e configurazioni, in tutte le apparecchiature video digitali, per assicurare i
rispettivi collegamenti. Anche qui come detto, l’area broadcast è orientata all’impiego
dell’interfaccia SDI e quella professionale e consumer all’interfaccia FireWire.
•
•
•
•
3.1 L’interfaccia SDI
La Serial Digital Interface o SDI, progettata inizialmente dall’IBM per
immagini e file complessi, è stata formalizzata dal SMPTE (Society Motion Picture
Television Enginnering) come Raccomandazione 259M, e come tale ancora spesso
indicata, per rientrare in seguito nella normativa ITU-R-656.
Supporta il collegamento diretto tra apparecchiature video digitali con segnali in
formato 4:2:2 a banda piena. Le due norme R-601 ed R-656 sono pertanto in stretta
correlazione tra loro. Il bitrate massimo è di 270 Mbps, corrispondente cioè a segnale non
compresso con quantizzazione su 10 bit. È in grado di gestire il video, l’audio fino a
quattro canali e alcune informazioni di servizio e controllo. La massima distanza di
collegamento, in funzione anche del diametro del cavo, arriva fino a 200 metri, sufficienti
per situazioni di ripresa in esterni e in spazi aperti (stadi, autodromi, ecc.).
Il suo protocollo di dialogo è basato su pacchetti di dati organizzati per righe di
scansione. Ricordando che nel formato 4:2:2 i campioni complessivi per riga sono 1728,
la costruzione del protocollo avviene nel seguente modo:
Il processo inizia con un gruppo di 4 campioni a contenuto nullo chiamato SAV
(Start Active Video), posto in corrispondenza alla parte finale del ritorno o blanking
di ciascuna riga di scansione;
Ultimato il SAV, inizia il trasferimento dei 1440 campioni attivi della riga, relativi
alle immagini. Nel rispetto del formato 4:2:2, la loro sequenza è: campione co-sited
(Y/CR/CB), campione singolo (Y), campione co-sited (Y/C R/CB), campione singolo
(Y) e così via;
Subentra poi l’EAV (End Active Video), posto all’inizio del blanking della riga
successiva e costituito anch’esso da 4 campioni a contenuto nullo, che chiude la
sequenza dei campioni di immagine per quella riga;
Rimane a questo punto, all’interno dello stesso blanking, un treno di 280
campioni chiamati “ancillary”, che vengono destinati al trasporto dei canali audio, dei
comandi e dei segnali di servizio (bit di test e controllo).
Precisando meglio quanto detto, l’interfaccia SDI consente dunque il trasferimento, tra due apparecchiature digitali, del video, dell’audio (detto in questo caso
embedded audio) e di alcuni impulsi di servizio: con questi ultimi, per esempio nel
collegamento tra una stazione di montaggio e un registratore, è possibile inoltrare i
comandi di play o record dalla stessa stazione senza richiedere altri collegamenti e senza
dover agire fisicamente sui pulsanti del registratore. Ricordiamo che, in ambiente
analogico, lo stesso collegamento richiedeva tre cavi: uno per il video, uno per l’audio
e il terzo per i comandi.
La scheda per l’elettronica dell’interfaccia è alquanto complessa: i suoi circuiti
devono infatti svolgere svariati compiti tra cui, in uscita dall’apparecchiatura
sorgente, costruire la sequenza dei campioni video secondo la regola co-sited,
singolo, co-sited, singolo e così via; trattenere su memorie buffer i bit relativi al video,
all’audio e ai controlli per disporli nella giusta cadenza temporale; generare mediante
multiplexer la trama dei dati disposti in serie; garantire i sincronismi anche su
collegamenti a lunga distanza. Naturalmente, operazione simmetrica viene fatta dalla
scheda in ingresso all’apparecchiatura di destinazione.
Il connettore è di tipo circolare coassiale e richiede, a sua volta, un cavo coassiale; il
diametro del cavo varia in relazione alla distanza di collegamento. Il flusso dei dati è
monodirezionale, ovvero avviene in un solo senso dall’apparecchiatura in uscita a quella
in entrata. Una telecamera con segnali in sola uscita, richiede la sola scheda SDI di
output; apparecchiature quali registratori o stazioni di montaggio devono disporre di
entrambe le schede di
input e di output. Le stesse schede di 110 possono essere realizzate o su due unità
separate, o su un unico supporto, che dovrà presentare due connettori.
Tutta la scheda si presenta spesso come unità opzionale a sé stante, che può essere inserita
o tolta a seconda delle esigenze, tanto nelle apparecchiature video (telecamere,
videoregistratori, ecc.) quanto in quelle informatiche (computer, workstation, ecc.). Se
previsto dall’elettronica della scheda, l’interfaccia SDI può infine supportare, oltre al
segnale in componenti, anche quello digitale composito R-602.
3.2 L’interfaccia FireWire
Questa interfaccia è stata creata accanto alla SDI, la cui scheda come visto è alquanto
sofisticata e costosa, per venire incontro alle esigenze del video di fascia
professionale e consumer. Sviluppata inizialmente da Apple e Texas Instruments
nel 1987, è stata standardizzata dall’IEEE (Insitute of Electrical and Electronics
Engineers) nel ‘95, come IEEE-1394. “FireWire”, Trade makApple, è il termine
che le viene attribuito in gergo, del tutto corrispondente alla denominazione
formale.
Il suo protocollo di dialogo è simile al precedente, con dati serializzati a pacchetti
per righe di scansione, includente video, audio e controlli. Ciò che cambia è la
distanza di collegamento, che arriva a 4,5 metri, e la velocità dei dati che, nella
versione base, è di 100 Mbps. A differenza della SDI inoltre, il trasferimento dei dati è
bidirezionale, con il vantaggio di poter usare un’unica interfaccia e un solo cavo, per
i segnali tanto in entrata che in uscita.
Il cavo è schermato e contiene tre coppie di fili: una coppia per i segnali di input,
una per quelli di output e una coppia per alimentazione in corrente continua. L’uso del
canale di alimentazione, che supporta fino a 40 V, è opzionale: può risultare utile, per
esempio, nel collegamento da registratore fisso a camcorder, che così non deve
impiegare la batteria. Il connettore non è più circolare ma di tipo piatto.
Compatibilmente con le distanze e con le velocità dei dati, la FireWire può essere
usata anche in ambiente broadcast.
Va precisato che questa interfaccia sta trovando progressivo impiego come bus
seriale in alcune applicazioni del settore informatico, ed è soggetta a continua evoluzione.
Le velocità supportate possono entrare nelle fasce dei 200,400 e 1600 Mbps, con distanze
fino a 70 metri. Ciò che cambia principalmente, nelle diverse classi di applicazione, è
l’elettronica della scheda.
3.3 Le interfacce proprietarie e la SDTI
La SDI e la FireWire rappresentano le due interfacce di riferimento, come detto, per
l’area broadcast e per quella professionale e consumer. Il continuo sviluppo però, da parte
dei diversi costruttori, di nuove apparecchiature con segnale in vari formati e in differenti
rapporti di compressione, con altrettante velocità di trasferimento dei dati e con connettori
di vario aspetto tra cui
quelli miniatura per apparecchiature compatte, ha portato alla presenza di numerose altre
interfacce, spesso di carattere proprietario.
A questo proposito, il SMPTE ha emesso la normativa SDTI, Serial Digital Transfer
Interface, con l’obiettivo di creare uno schema organico in cui inserire almeno le
interfacce assimilabili alla SDI, cioè quelle per uso broadcast o professione di fascia
alta. Rientrano così in questa classificazione, la QSDI (dove “Q” sta per Quarter
Inch, riferito al nastro da 1/4”), legata al formato DVCAM; e la CSDI (dove “C”
sta per Camcorder), legata al formato DVCPRO (su questi argomenti si può vedere
anche il Capitolo V/II Parte dedicato ai videoregistratori). Nell’area consumer e
professionale infine, di ampio uso è l’interfaccia i.LINK TM (Sony), assimilabile allo
standard FireWire, ma caratterizzata da cavo a due coppie di fili per soli segnali
(senza alimentazione) e connettore di più piccole dimensioni.
4. Le interfacce di controllo
Queste interfacce provvedono a trasferire impulsi di gestione e comando (ovvero
non più segnali audio e video) tra apparecchiature diverse.
In ambito strettamente video sia analogico che digitale, precisando cose dette, un
tipico esempio di impiego di interfaccia di controllo è rappresentato dal
collegamento tra centralina di montaggio e registratori.
Le più diffuse interfacce di controllo, ampiamente usate in ambiente informatico
e trasferite di conseguenza a quelle video, sono la RS-232C, la RS-422 e la IEEE
488.
metri. Il suo connettore di riferimento prevede 25 contatti o pin.
In ambito video, di particolare rilievo sono il contatto 1(massa di protezione), il contatto
4 (richiesta di trasmissione), il 5 (abilitazione alla trasmissione), i12 (trasmissione
dei dati), l’8 (conferma dati ricevuti dall’apparecchiatura di destinazione), i13 (ricezione
dei dati), i19 e 10 (alimentazione) e il 7 (massa comune), per un totale di nove pin. Di
questa interfaccia esiste infatti anche la versione ridotta con connettore a nove contatti,
usata di solito su apparecchiature, e non solo per uso video, portatili e compatte.
Principale caratteristica di questa interfaccia è il ricorso, nella struttura dei collegamenti,
alla “massa comune” (pin 7) su cui vengono fatti confluire i “ritorni” di tutti i messaggi
inviati. Il vantaggio che se ne ricava, è di ottenere un’interfaccia economica, con lo
svantaggio tuttavia di non poter superare distanze elevate, pena la sensibilità dei disturbi
con probabilità di perdita delle informazioni.
4.1 L’intertaccia RS-232C: manca un pezzo ???
4.2 L’intertaccia RS-422
Anch’essa seriale e anch’essa standard EIA, presenta le stesse caratteristiche di
comunicazione dell’interfaccia precedente, ma consente di raggiungere distanze di
collegamento che arrivano fino a 300 metri. Questo risultato è ottenuto grazie al fatto di non
ricorrere alla massa comune, ma di prevedere per ogni segnale il relativo ritorno.
Aumenta naturalmente il numero dei pin di
. contatto, che passa da 25 a 42.
Il collegamento inoltre è di tipo bilanciato, un collegamento che nei ritorni non
coinvolge la “massa” o “terra” dell’apparecchiatura, assicurando segnali ulteriormente
precisi e con elevata immunità al rumore (è il caso di puntualizzare che il “422” di
questo standard non ha nulla a che vedere con il “4:2:2” relativo al formato di segnale,
ma si tratta di una semplice coincidenza di numeri).
4.3 L’interfaccia IEEE-488
A differenza delle due precedenti, è questa un’interfaccia parallela, basata sulla
trasmissione contemporanea di 8 bit, secondo parole conformabili a piacere via
software in funzione delle diverse applicazioni. Il suo connettore è a 24 pin, 16 dei
quali sono occupati dagli otto bit con i relativi ritorni e gli altri riservati a
informazioni di servizio, quali richiesta trasmissione, interfaccia disponibile, dati
validi, dati non accettati e così via.
Opera su velocità fino a 1 Mbps, copre distanze fino a 20 metri e consente di
collegare in cascata fino a 15 apparecchiature. Questa interfaccia viene spesso indicata
come GPIB (General Purpose Interface Bus) o anche come GPI (General
Purpose Interface).
Una recente tendenza del mondo dell’informatica infime, porta a uniformare la
maggior parte delle interfacce in un’unica versione standardizzata chiamata USB,
Universal Serial Bus, con il risultato di una considerevole semplificazione delle
operazioni di collegamento e cablaggio.