Formati e standard digitali dei file audio

Transcript

Formati e standard digitali dei file audio
Il suono digitale – capitolo 3
___________________________________________________________________________
Il Suono Digitale
Capitolo 3 - Formati e standard digitali dei file audio
Il formato Wave, Wave 64, AIFF
pag 1
Il Transfert Rate
pag 4
Il formato mp3
pag 5
Il trasferimento di file tramite Internet
pag 8
Il formato Wave, Wave 64, AIFF
Una volta che il segnale è stato convertito da analogico a digitale può essere
facilmente registrato e processato. Il file che si ottiene può avere caratteristiche
differenti a seconda del formato, della Sample Rate e del n° di Bit utilizzati. Inoltre
può subire un processo di “compressione” che consente di ridurne la dimensione e, ad
esempio, la sua trasmissione telematica tramite internet. Andiamo per ordine.
Il formato sicuramente più utilizzato è chiamato wave, definito dalla Microsoft con la
specifica Waveform Audio File Format. Ha come estensione .wav e può supportare
diverse risoluzioni di sample rate, bit, codifica (anche se la più comune rimane la
PCM), numero di canali.
Ecco un classico esempio:
wave a 44,1 kHz, 16 bit, PCM, stereo (standard cd audio)
L’utilizzo di una risoluzione dipende anche dal supporto che la dovrà ospitare. Ad
esempio:
48 kHz, 16 bit, mono/stereo (telecamere digitali, dat)
48 kHz, 24 bit, mono/stereo/surround (Dvd-A, ovvero audio)
96 kHz, 24 bit, mono/stereo/surround (Dvd-A)
Ovviamente, maggiore è la risoluzione e maggiore sarà la dimensione che il file audio
occuperà sul supporto di memorizzazione.
Silvio Relandini www.audiomidi-educational.it
1
Il suono digitale – capitolo 3
___________________________________________________________________________
Facciamo alcuni esempi:
wave 44,1 kHz, 16 bit
1 secondo
stereo
Poiché abbiamo 44100 campioni costituiti ognuno da una
Parola di 16 bit (2 byte) per ogni secondo di registrazione,
lo spazio fisico che occuperà sul supporto sarà pari a:
44100 * 2 * 2 (due canali L e R) = 176400 byte/s
Poiché 1 KB = 1024 Byte, avremo
176400/1024 = 172,3 kB/s
Quindi un file wave con queste caratteristiche e di durata
pari ad un secondo ha una dimensione pari a 172,3 kB
1 minuto
Trovata la dimensione relativa ad 1 secondo per calcolare
Quella di un minuto basta effettuare una semplice moltiplicazione:
172,3 * 60 = 10338 kB/min
Poiché 1 MB (megabyte) = 1024 kB avremo
10338/1024 = 10,1 MB
Un file wave di 1 minuto occupa uno spazio pari a 10,1 MB
1 ora
Dobbiamo svolgere anche in questo caso una semplice moltiplicazione essendoci 60 minuti in un’ora:
10,1 * 60 = 606 MB
Quindi un’ora di registrazione audio wave necessiterà di uno
Spazio di 606 MB
Silvio Relandini www.audiomidi-educational.it
2
Il suono digitale – capitolo 3
___________________________________________________________________________
wave 48 kHz, 16 bit
1 secondo
stereo
Poiché abbiamo 48000 campioni costituiti ognuno da una
Parola di 16 bit (2 byte) per ogni secondo di registrazione,
lo spazio fisico che occuperà sul supporto sarà pari a:
48000 * 2 * 2 (due canali L e R) = 192000 byte/s pari a
192000/1024 = 187,5 kB/s
Quindi un file wave con queste caratteristiche e di durata
pari ad un secondo ha una dimensione pari a 187,5 kB
1 minuto
187,5 * 60 = 11250 kB/min pari a
11250/1024 = 11 MB
Un file wave di 1 minuto occupa uno spazio pari a 11 MB
1 ora
11 * 60 = 660 MB
Quindi un’ora di registrazione audio wave necessiterà di uno
Spazio di 660 MB
wave 96 kHz, 24 bit
1 secondo
stereo
Poiché abbiamo 96000 campioni costituiti ognuno da una
Parola di 24 bit (3 byte) per ogni secondo di registrazione,
lo spazio fisico che occuperà sul supporto sarà pari a:
96000 * 3 * 2 (due canali L e R) = 576000 byte/s pari a
576000/1024 = 562,5 kB/s
Quindi un file wave con queste caratteristiche e di durata
pari ad un secondo ha una dimensione pari a 562,5 kB
Silvio Relandini www.audiomidi-educational.it
3
Il suono digitale – capitolo 3
___________________________________________________________________________
1 minuto
562,5 * 60 = 33750 kB/min pari a
33750/1024 = 33 MB
Un file wave di 1 minuto occupa uno spazio pari a 33 MB
1 ora
33 * 60 = 1980 MB
Poiché 1 GB (byte) = 1024 MB
1980/1024 = 1,93 GB
Quindi un’ora di registrazione audio wave necessiterà di uno
Spazio di 1,93 GB
Nell’ultimo esempio visto in tabella notiamo che occorrono quasi 2 GB per registrare
una traccia stereo di un’ora nel formato wave 96 kHz, 24 bit. Cosa succede se la
dimensione del file supererà i 2 GB? I normali file wave hanno un limite di dimensione
pari a 2 GB dovuto al fatto che il loro chunk (equivalente all’indice di un libro) è pari a
32 bit. Per superare questo inconveniente è stato realizzato il formato wave64 che
possiede un chunk a 64 bit e consente di creare file con dimensione superiore ai 2 GB.
Molti sistemi di registrazione digitale consentono di salvare in questo formato i file
audio creati.
Un altro formato, equivalente al wave ma realizzato dalla Apple è l’AIFF (Audio
Interchange File Format).
Transfert Rate
Un aspetto molto importante riguarda il trasferimento dei file tramite reti telematiche
quali internet. Questo parametro è chiamato transfert rate ed è misurato in kbps
(kilobit per secondo). Ecco il valore di transfert rate per i formati più comuni:
Wave 44,1 kHz, 16 bit, stereo
Wave 48 kHz, 16 bit, stereo
Wave 48 kHz, 24 bit, stereo
Wave 96 kHz, 24 bit, stereo
1411
1500
2250
4500
kbps
kbps
kbps
kbps
172,3
187,5
281,2
562,4
kBps
kBps
kBps
kBps
Come si può osservare, per trasferire file con queste caratteristiche occorre una banda
internet molto grande. Oggi sistemi adsl consentono di avere questa larghezza di
Silvio Relandini www.audiomidi-educational.it
4
Il suono digitale – capitolo 3
___________________________________________________________________________
banda ma il problema è che non è stabile ed è piuttosto frequente il caso in cui la
banda realmente disponibile sia di gran lunga inferiore a quella ipotetica. Per questo
motivo si è cercato di proprorre dei formati “compressi” ovvero di dimensioni inferiori
ma con una qualità audio il più possibile simile a quella del file originale. Il termine
“file compresso” in realtà non sarebbe corretto in quanto ai file salvati in questi
formati vengono eliminate una parte più o meno sostanziosa (dipende dal “grado di
compressione”) di informazioni. Deve essere chiaro che per comprimere un file audio
occorre prima averlo registrato e salvato in un formato non compresso (wave, aiff,
ecc.). Per la compressione sono necessari degli algoritmi di codifica che possono
essere disponibili all’interno di un sequencer o di un altro dispositivo di registrazione
digitale.
Il formato mp3
La compressione più utilizzata in assoluto (il formato mp3) si basa sullo standard
MPEG-LayerIII che è stato definito alla fine del 1995 dalla Motion Pictures Expert
Group, un’organizzazione internazionale che si occupa di creare standard per la
codifica di informazioni audio e video.
Questa tecnica tiene conto di alcuni fenomeni psicoacustici caratterizzanti il nostro
sistema percettivo sonoro per poter ridurre la dimensione dei file fino a circa 12 volte
in cambio di una riduzione contenuta della qualità audio del segnale originale.
Il grado di compressione viene misurato in bit rate ovvero in numero di bit trasmessi
per un secondo di file audio, espresso in kbps (come già visto in precedenza).
La prima fase della compressione audio consiste nella codifica (encoding) delle
informazioni costituenti il file wave in una forma compressa che è denominata
bitstream o anche codec audio data. Successivamente, per poter riprodurre la
sequenza audio compressa occorre effettuare una decodifica (decoding) del bitstream
in modo da ricostruire il segnale audio in modo compatibile con il sistema di ascolto.
Il segnale audio viene scomposto in 32 zone a larghezza limitata di frequenza ma di
pari ampiezza, chiamate bande, grazie ad una serie di filtri. La zona di confine tra due
bande adiacenti è definito banda critica.
Questo sistema non simula propriamente il nostro sistema uditivo in quanto
quest’ultimo risulta più sensibile alle variazioni di bassa frequenza rispetto a quelle
alte: sono sufficienti pochi hertz per la distinzione di due suoni di frequenza bassa
(gravi) mentre ne occorrono centinaia per quelli in alta frequenza (acuti). Nella figura
Silvio Relandini www.audiomidi-educational.it
5
Il suono digitale – capitolo 3
___________________________________________________________________________
seguente sono indicate le sottobande utilizzate dalla tecnica mpeg e le bande critiche
del sistema uditivo.
A semplificare il lavoro della codifica interviene un effetto psicoacustico: il nostro
sistema uditivo subisce un fenomeno di mascheramento delle frequenze (non
percezione) quando si presenta il caso di frequenze molto vicine aventi un livello di
intensità differente tale da “nascondere” alla percezione le componenti meno intense.
Se non le ascoltiamo, le possiamo eliminare e pertanto il suono compresso risulta
differente da quello originale anche se questa differenza è minimamente percepibile
dal nostro udito, anche se dipende dal livello di compressione che abbiamo utilizzato.
L’immagine seguente deriva dal diagramma di Fletcher-Manson (ne trovate una
descrizione nel capitolo 3 della sezione riguardante il suono acustico): tutte le
componenti sonore che hanno un’intensità che cade nella zona grigia del diagramma
(ovvero al di sotto della soglia di udibilità) possono essere eliminate senza che il
nostro sistema uditivo si accorga di nulla.
Fonte: NOLL93
Silvio Relandini www.audiomidi-educational.it
6
Il suono digitale – capitolo 3
___________________________________________________________________________
Se è presente un suono di intensità elevata, rappresentato nella figura successiva da
una riga nera, questo maschera i suoni di frequenza vicina che rientrano in un
determinato intervallo rappresentato in figura, all’interno della zona rossa.
In sostanza avviene quanto
mostrato
nella figura successiva dove il suono
rappresentato dalla linea verticale grigio chiaro (Masker) va a mascherare la
componente verticale in grigio più scuro (masked sound) e di livello inferiore.
Il livello di compressione si misura, come nel caso del transfert rate, in kbps. Più è
alto il valore, minore è il livello di compressione e maggiore qualità avrà il file.
Ad esempio, nel caso della compressione di un file wave stereo 44,1 kHz, 16 bit, il
miglior livello di compressione è pari a 320 kbps e permette la creazione di un mp3 di
dimensioni circa quattro volte inferiore rispetto al file originale mantenendo la più alta
qualità tra segnale originale e segnale compresso. Il livello 128 kbps che stranamente
è identificato come equivalente al sistema cd audio è in realtà un caso limite nel senso
che è piuttosto semplice distinguere all’ascolto una differenza qualitativa tra il segnale
originale e quello compresso. Livelli inferiori sono di scarsa qualità audio ma
Silvio Relandini www.audiomidi-educational.it
7
Il suono digitale – capitolo 3
___________________________________________________________________________
consentono facilmente uno streaming del file (ovvero un ascolto in tempo reale)
tramite la rete internet.
Trasferimento di file tramite internet
I formati compressi sono nati per favorire lo scambio di file tramite la rete internet.
Ad esempio, per effettuare un ascolto in tempo reale di un file mp3 con un livello di
compressione pari a 128 kbps, richiede una connessione pari a:
128/8 = 16 kB al secondo
Mentre nel caso di una compressione pari a 320 kbps, abbiamo bisogno di:
320/8 = 40 kB al secondo
Tutto sommato sono valori piuttosto accettabili per chi possiede una connessione adsl.
Nel caso del formato wave stereo a 16 bit, che ha un trasfert rate di 1411 kbps:
1411/8 = 176,4 kB al secondo
Questo valore non è alla portata di tutte le connessioni e pertanto potrebbe creare un
ascolto frammentato con numerose interruzioni del flusso di informazioni. Per
risolvere questi problemi si adottano dei ritardi tra il momento in cui inizia lo
streaming e quello in cui parte effettivamente la riproduzione in ascolto; in tal caso
viene prima scaricata una parte del file e poi, mentre il trasferimento prosegue, viene
avviata la riproduzione del file (che sarà più veloce del trasferimento stesso).
Silvio Relandini www.audiomidi-educational.it
8