Formati e standard digitali dei file audio
Transcript
Formati e standard digitali dei file audio
Il suono digitale – capitolo 3 ___________________________________________________________________________ Il Suono Digitale Capitolo 3 - Formati e standard digitali dei file audio Il formato Wave, Wave 64, AIFF pag 1 Il Transfert Rate pag 4 Il formato mp3 pag 5 Il trasferimento di file tramite Internet pag 8 Il formato Wave, Wave 64, AIFF Una volta che il segnale è stato convertito da analogico a digitale può essere facilmente registrato e processato. Il file che si ottiene può avere caratteristiche differenti a seconda del formato, della Sample Rate e del n° di Bit utilizzati. Inoltre può subire un processo di “compressione” che consente di ridurne la dimensione e, ad esempio, la sua trasmissione telematica tramite internet. Andiamo per ordine. Il formato sicuramente più utilizzato è chiamato wave, definito dalla Microsoft con la specifica Waveform Audio File Format. Ha come estensione .wav e può supportare diverse risoluzioni di sample rate, bit, codifica (anche se la più comune rimane la PCM), numero di canali. Ecco un classico esempio: wave a 44,1 kHz, 16 bit, PCM, stereo (standard cd audio) L’utilizzo di una risoluzione dipende anche dal supporto che la dovrà ospitare. Ad esempio: 48 kHz, 16 bit, mono/stereo (telecamere digitali, dat) 48 kHz, 24 bit, mono/stereo/surround (Dvd-A, ovvero audio) 96 kHz, 24 bit, mono/stereo/surround (Dvd-A) Ovviamente, maggiore è la risoluzione e maggiore sarà la dimensione che il file audio occuperà sul supporto di memorizzazione. Silvio Relandini www.audiomidi-educational.it 1 Il suono digitale – capitolo 3 ___________________________________________________________________________ Facciamo alcuni esempi: wave 44,1 kHz, 16 bit 1 secondo stereo Poiché abbiamo 44100 campioni costituiti ognuno da una Parola di 16 bit (2 byte) per ogni secondo di registrazione, lo spazio fisico che occuperà sul supporto sarà pari a: 44100 * 2 * 2 (due canali L e R) = 176400 byte/s Poiché 1 KB = 1024 Byte, avremo 176400/1024 = 172,3 kB/s Quindi un file wave con queste caratteristiche e di durata pari ad un secondo ha una dimensione pari a 172,3 kB 1 minuto Trovata la dimensione relativa ad 1 secondo per calcolare Quella di un minuto basta effettuare una semplice moltiplicazione: 172,3 * 60 = 10338 kB/min Poiché 1 MB (megabyte) = 1024 kB avremo 10338/1024 = 10,1 MB Un file wave di 1 minuto occupa uno spazio pari a 10,1 MB 1 ora Dobbiamo svolgere anche in questo caso una semplice moltiplicazione essendoci 60 minuti in un’ora: 10,1 * 60 = 606 MB Quindi un’ora di registrazione audio wave necessiterà di uno Spazio di 606 MB Silvio Relandini www.audiomidi-educational.it 2 Il suono digitale – capitolo 3 ___________________________________________________________________________ wave 48 kHz, 16 bit 1 secondo stereo Poiché abbiamo 48000 campioni costituiti ognuno da una Parola di 16 bit (2 byte) per ogni secondo di registrazione, lo spazio fisico che occuperà sul supporto sarà pari a: 48000 * 2 * 2 (due canali L e R) = 192000 byte/s pari a 192000/1024 = 187,5 kB/s Quindi un file wave con queste caratteristiche e di durata pari ad un secondo ha una dimensione pari a 187,5 kB 1 minuto 187,5 * 60 = 11250 kB/min pari a 11250/1024 = 11 MB Un file wave di 1 minuto occupa uno spazio pari a 11 MB 1 ora 11 * 60 = 660 MB Quindi un’ora di registrazione audio wave necessiterà di uno Spazio di 660 MB wave 96 kHz, 24 bit 1 secondo stereo Poiché abbiamo 96000 campioni costituiti ognuno da una Parola di 24 bit (3 byte) per ogni secondo di registrazione, lo spazio fisico che occuperà sul supporto sarà pari a: 96000 * 3 * 2 (due canali L e R) = 576000 byte/s pari a 576000/1024 = 562,5 kB/s Quindi un file wave con queste caratteristiche e di durata pari ad un secondo ha una dimensione pari a 562,5 kB Silvio Relandini www.audiomidi-educational.it 3 Il suono digitale – capitolo 3 ___________________________________________________________________________ 1 minuto 562,5 * 60 = 33750 kB/min pari a 33750/1024 = 33 MB Un file wave di 1 minuto occupa uno spazio pari a 33 MB 1 ora 33 * 60 = 1980 MB Poiché 1 GB (byte) = 1024 MB 1980/1024 = 1,93 GB Quindi un’ora di registrazione audio wave necessiterà di uno Spazio di 1,93 GB Nell’ultimo esempio visto in tabella notiamo che occorrono quasi 2 GB per registrare una traccia stereo di un’ora nel formato wave 96 kHz, 24 bit. Cosa succede se la dimensione del file supererà i 2 GB? I normali file wave hanno un limite di dimensione pari a 2 GB dovuto al fatto che il loro chunk (equivalente all’indice di un libro) è pari a 32 bit. Per superare questo inconveniente è stato realizzato il formato wave64 che possiede un chunk a 64 bit e consente di creare file con dimensione superiore ai 2 GB. Molti sistemi di registrazione digitale consentono di salvare in questo formato i file audio creati. Un altro formato, equivalente al wave ma realizzato dalla Apple è l’AIFF (Audio Interchange File Format). Transfert Rate Un aspetto molto importante riguarda il trasferimento dei file tramite reti telematiche quali internet. Questo parametro è chiamato transfert rate ed è misurato in kbps (kilobit per secondo). Ecco il valore di transfert rate per i formati più comuni: Wave 44,1 kHz, 16 bit, stereo Wave 48 kHz, 16 bit, stereo Wave 48 kHz, 24 bit, stereo Wave 96 kHz, 24 bit, stereo 1411 1500 2250 4500 kbps kbps kbps kbps 172,3 187,5 281,2 562,4 kBps kBps kBps kBps Come si può osservare, per trasferire file con queste caratteristiche occorre una banda internet molto grande. Oggi sistemi adsl consentono di avere questa larghezza di Silvio Relandini www.audiomidi-educational.it 4 Il suono digitale – capitolo 3 ___________________________________________________________________________ banda ma il problema è che non è stabile ed è piuttosto frequente il caso in cui la banda realmente disponibile sia di gran lunga inferiore a quella ipotetica. Per questo motivo si è cercato di proprorre dei formati “compressi” ovvero di dimensioni inferiori ma con una qualità audio il più possibile simile a quella del file originale. Il termine “file compresso” in realtà non sarebbe corretto in quanto ai file salvati in questi formati vengono eliminate una parte più o meno sostanziosa (dipende dal “grado di compressione”) di informazioni. Deve essere chiaro che per comprimere un file audio occorre prima averlo registrato e salvato in un formato non compresso (wave, aiff, ecc.). Per la compressione sono necessari degli algoritmi di codifica che possono essere disponibili all’interno di un sequencer o di un altro dispositivo di registrazione digitale. Il formato mp3 La compressione più utilizzata in assoluto (il formato mp3) si basa sullo standard MPEG-LayerIII che è stato definito alla fine del 1995 dalla Motion Pictures Expert Group, un’organizzazione internazionale che si occupa di creare standard per la codifica di informazioni audio e video. Questa tecnica tiene conto di alcuni fenomeni psicoacustici caratterizzanti il nostro sistema percettivo sonoro per poter ridurre la dimensione dei file fino a circa 12 volte in cambio di una riduzione contenuta della qualità audio del segnale originale. Il grado di compressione viene misurato in bit rate ovvero in numero di bit trasmessi per un secondo di file audio, espresso in kbps (come già visto in precedenza). La prima fase della compressione audio consiste nella codifica (encoding) delle informazioni costituenti il file wave in una forma compressa che è denominata bitstream o anche codec audio data. Successivamente, per poter riprodurre la sequenza audio compressa occorre effettuare una decodifica (decoding) del bitstream in modo da ricostruire il segnale audio in modo compatibile con il sistema di ascolto. Il segnale audio viene scomposto in 32 zone a larghezza limitata di frequenza ma di pari ampiezza, chiamate bande, grazie ad una serie di filtri. La zona di confine tra due bande adiacenti è definito banda critica. Questo sistema non simula propriamente il nostro sistema uditivo in quanto quest’ultimo risulta più sensibile alle variazioni di bassa frequenza rispetto a quelle alte: sono sufficienti pochi hertz per la distinzione di due suoni di frequenza bassa (gravi) mentre ne occorrono centinaia per quelli in alta frequenza (acuti). Nella figura Silvio Relandini www.audiomidi-educational.it 5 Il suono digitale – capitolo 3 ___________________________________________________________________________ seguente sono indicate le sottobande utilizzate dalla tecnica mpeg e le bande critiche del sistema uditivo. A semplificare il lavoro della codifica interviene un effetto psicoacustico: il nostro sistema uditivo subisce un fenomeno di mascheramento delle frequenze (non percezione) quando si presenta il caso di frequenze molto vicine aventi un livello di intensità differente tale da “nascondere” alla percezione le componenti meno intense. Se non le ascoltiamo, le possiamo eliminare e pertanto il suono compresso risulta differente da quello originale anche se questa differenza è minimamente percepibile dal nostro udito, anche se dipende dal livello di compressione che abbiamo utilizzato. L’immagine seguente deriva dal diagramma di Fletcher-Manson (ne trovate una descrizione nel capitolo 3 della sezione riguardante il suono acustico): tutte le componenti sonore che hanno un’intensità che cade nella zona grigia del diagramma (ovvero al di sotto della soglia di udibilità) possono essere eliminate senza che il nostro sistema uditivo si accorga di nulla. Fonte: NOLL93 Silvio Relandini www.audiomidi-educational.it 6 Il suono digitale – capitolo 3 ___________________________________________________________________________ Se è presente un suono di intensità elevata, rappresentato nella figura successiva da una riga nera, questo maschera i suoni di frequenza vicina che rientrano in un determinato intervallo rappresentato in figura, all’interno della zona rossa. In sostanza avviene quanto mostrato nella figura successiva dove il suono rappresentato dalla linea verticale grigio chiaro (Masker) va a mascherare la componente verticale in grigio più scuro (masked sound) e di livello inferiore. Il livello di compressione si misura, come nel caso del transfert rate, in kbps. Più è alto il valore, minore è il livello di compressione e maggiore qualità avrà il file. Ad esempio, nel caso della compressione di un file wave stereo 44,1 kHz, 16 bit, il miglior livello di compressione è pari a 320 kbps e permette la creazione di un mp3 di dimensioni circa quattro volte inferiore rispetto al file originale mantenendo la più alta qualità tra segnale originale e segnale compresso. Il livello 128 kbps che stranamente è identificato come equivalente al sistema cd audio è in realtà un caso limite nel senso che è piuttosto semplice distinguere all’ascolto una differenza qualitativa tra il segnale originale e quello compresso. Livelli inferiori sono di scarsa qualità audio ma Silvio Relandini www.audiomidi-educational.it 7 Il suono digitale – capitolo 3 ___________________________________________________________________________ consentono facilmente uno streaming del file (ovvero un ascolto in tempo reale) tramite la rete internet. Trasferimento di file tramite internet I formati compressi sono nati per favorire lo scambio di file tramite la rete internet. Ad esempio, per effettuare un ascolto in tempo reale di un file mp3 con un livello di compressione pari a 128 kbps, richiede una connessione pari a: 128/8 = 16 kB al secondo Mentre nel caso di una compressione pari a 320 kbps, abbiamo bisogno di: 320/8 = 40 kB al secondo Tutto sommato sono valori piuttosto accettabili per chi possiede una connessione adsl. Nel caso del formato wave stereo a 16 bit, che ha un trasfert rate di 1411 kbps: 1411/8 = 176,4 kB al secondo Questo valore non è alla portata di tutte le connessioni e pertanto potrebbe creare un ascolto frammentato con numerose interruzioni del flusso di informazioni. Per risolvere questi problemi si adottano dei ritardi tra il momento in cui inizia lo streaming e quello in cui parte effettivamente la riproduzione in ascolto; in tal caso viene prima scaricata una parte del file e poi, mentre il trasferimento prosegue, viene avviata la riproduzione del file (che sarà più veloce del trasferimento stesso). Silvio Relandini www.audiomidi-educational.it 8