Il suono - Istituto Maserati

Transcript

Il suono - Istituto Maserati
Il suono : generalità
Il suono (dal latino sonus) è la sensazione data dalla vibrazione di un corpo in oscillazione. Tale
vibrazione, che si propaga nell'aria o in un altro mezzo elastico, raggiunge l'orecchio che, tramite un
complesso meccanismo interno, è responsabile della creazione di una sensazione "uditiva"
direttamente correlata alla natura della vibrazione.
Il termine Vibrazione si riferisce in particolare ad una oscillazione meccanica attorno ad un punto
d'equilibrio. L'oscillazione può essere periodica come il moto di un pendolo oppure casuale
come il movimento di una gomma su di una strada asfaltata.
Le vibrazioni rappresentano un fenomeno desiderato in molti casi. Ad esempio nel funzionamento
del diapason, e di molti strumenti musicali, o nei coni degli speaker, necessari per il corretto
funzionamento dei vari oggetti che li utilizzano.
Più spesso, però, le vibrazioni non sono desiderate; possono disperdere energia e creare suoni e
rumori indesiderati. Ad esempio, nel funzionamento dei motori e delle automobili in generale..
Gli studi sul suono e sulle varie vibrazioni sono strettamente collegati. I Suoni, onde di pressione,
sono generati da strutture vibranti (ad esempio le corde vocali) e le onde di pressione possono
generare vibrazione di strutture. Quindi, quando si prova a ridurre un rumore, il problema è ridurre
la vibrazione che lo provoca
Come tutte le onde, anche quelle sonore sono caratterizzate da una frequenza (che nel caso del
suono è in diretta, ma non esclusiva, relazione con la percezione dell'altezza) e un'intensità
(che è in diretta, ma non esclusiva, relazione con il cosiddetto "volume" del suono). Inoltre,
caratteristica saliente delle onde sonore è la forma d'onda stessa, che rende in gran parte
ragione delle differenze cosiddette di timbro che si percepiscono tra diverse tipologie di suono.
Onda sonora
Per la fisica, il suono è un'oscillazione (un movimento nello spazio) compiuta dalle particelle
(atomi e molecole) in un mezzo. Le oscillazioni sono spostamenti delle particelle, intorno alla
posizione di riposo e lungo la direzione di propagazione dell'onda, provocati da movimenti
vibratori, provenienti da un determinato oggetto, chiamato sorgente del suono, il quale trasmette il
proprio movimento alle particelle adiacenti, grazie alle proprietà meccaniche del mezzo; le
particelle a loro volta, iniziando ad oscillare, trasmettono il movimento alle altre particelle vicine e
queste a loro volta ad altre ancora; in questo modo, un semplice movimento vibratorio si propaga
meccanicamente dando vita all'onda sonora ( o onda acustica), che si definisce pertanto onda
longitudinale.
Il periodo (graficamente il segmento tra
due creste) è il tempo impiegato dalla
particella per tornare nello stesso punto
dopo aver cominciato lo spostamento
(indica cioè la durata di una oscillazione
completa). La distanza dalla cresta
all'asse delle ascisse indica, invece,
l'ampiezza del movimento, in altre parole
la distanza massima percorsa dalla
particella dalla sua posizione di riposo
durante
l'oscillazione.
Tuttavia,
nonostante che il periodo e l'ampiezza
sono due grandezze che da sole sarebbero sufficienti per descrivere le caratteristiche di un'onda, non
1
sono frequentemente utilizzate, perlomeno non in forma pura, quando si sta trattando di un'onda
sonora si preferisce, infatti, usare altre grandezze da queste derivate. Dal numero di periodi fatti in
un secondo si ottiene la frequenza, misurata in hertz, che indica il numero d'oscillazioni compiute
dalla particella in un secondo. Dall'ampiezza dell'onda, invece, otteniamo l'intensità, che nel caso
dell'onda sonora è intesa come pressione esercitata dalla stessa su una superficie, se, infatti,
l'ampiezza è misura lo spazio, tanto più sarà estesa, tanto maggiore sarà la pressione esercitata sulle
particelle vicine e dunque pure la forza esercitata contro un ostacolo; la misura d'intensità delle
onde sonore sono i decibel.
Tipologie di onde sonore
Esistono tre diverse tipologie di onde sonore e ognuna è identificabile da un particolare andamento
grafico
Le onde semplici: onde dal tracciato regolare: i picchi sono speculari alle valli e assume la
caratteristica forma di sinusoide. Le principali caratteristiche sono appunto il grafico sinusoidale
e la periodicità.
Le onde complesse: sono sempre onde dal tracciato regolare, in quanto i picchi sono
speculari alle valli, ma la loro forma risulta più complessa della precedente, perché presenta
diverse anomalie nelle curve. Le caratteristiche sono: la periodicità e il grafico non sinusoidale.
Le onde aperiodiche: sono onde non regolari: il tracciato ha forma caotica e zizzagante.
Sono caratterizzate dall'assoluta irregolarità del grafico e dall'aperiodicità; sono tracciati
caratteristici dei rumori.
Per una descrizione delle onde semplici i parametri di frequenza e d'ampiezza sono sufficienti,
mentre le onde aperiodiche, a causa della loro aperiodicità, non possono essere descritte da
alcun parametro. Invece nella descrizione delle onde complesse sono sì utili sia la frequenza
che l'ampiezza, ma date le anomalie del tracciato, questi due semplici parametri da soli non
sono sufficientemente esaurienti, in quanto bisogna ricorrere alla scomposizione dell'onda
fondamentale in una serie d'onde semplici, che sono invece analizzabili con le normali
grandezze. Le onde semplici o formanti, ottenute dalla scomposizione di un'onda complessa,
sono dette armoniche e nel loro insieme costituiscono, quello che è chiamato spettro dell'onda
sonora. Una caratteristica molto importante delle armoniche è che le loro frequenze corrispondono
sempre a multipli interi della frequenza dell'onda complessa, e sono indicate con f0, f1, f2, ecc. con il
pedice che corrisponde al rapporto tra la frequenza dell'onda fondamentale e quella dell'armonica
Il decibel (dB)
Il decibel è la misura più usata in acustica, esso esprime secondo una scala logaritmica in base
10, il rapporto fra due grandezze omogenee, che nel caso del suono sono l’intensità sonora.
Ricordiamo che per definizione il logaritmo di un certo numero in una certa base, è l’esponente che
occorre dare a quella base per ottenere il numero dato. Ad esempio il logaritmo in base 10 di 100 è
2. Infatti 102= 100.
Il decibel è 10 volte il logaritmo in base 10 del rapporto di due grandezze omogenee.
Supponiamo di voler esprimere in decibel la differenza fra due potenze: w1 e w2.
dB = 10 Log10 (w1/ w2) dove w2 è la grandezza di riferimento
Notiamo quindi che affinché la precedente espressione abbia senso occorre che esistano entrambe le
grandezze w1 e w2 ed in particolare che sia w2 ≠ 0. Notiamo anche che non ha importanza di che
tipo siano le grandezze w1 e w2 , occorre solo che siano omogenee, ossia dello stesso tipo.
Qualche esempio pratico:
2
w1=2 w2
3 dB
w1=10 w2
10 dB
w1=100 w2
20 dB (10log100=10*2)
w1=1000 w2
30 dB (10log1000=10*3=30)
w1=1/2 w2
-0,3 dB
w1=1/10 w2
-10 dB
w1=1/100 w2
-20 dB
w1=1/100 w2
-30 dB
Come abbiamo visto il
decibel si può considerare
una misura relativa, non
dipende infatti da una
sola grandezza ma dal
rapporto
di
due
grandezze
omogenee.
Tuttavia ci sono certi casi
in cui tale misura si può
immaginare
assoluta.
Questo avviene quando al
denominatore si pone una
misura
stabilita
per
convenzione internazionale. Un esempio di misura assoluta in decibel è quella dell’intensità
sonora, che convenzionalmente è espressa in riferimento alla soglia di udibilità.
Propagazione del suonoAbbiamo detto che il suono si propaga nei
mezzi elastici, fra questi ovviamente l’aria. Per capire come questo
avvenga in pratica consideriamo la struttura dell’aria. Questa è
formata da tante molecole unite fra di loro da legami elastici.
Possiamo immaginare le molecole di aria come sfere unite ad altre
sfere tramite molle. Quando un corpo vibra, comunica il suo
movimento alla prima molecola d’aria, (la prima sfera nel modello).
Questa molecola spostandosi in avanti “spinge” la molecola
successiva, la quale “spinge” quella a sua volta successiva, e così
via. Un attimo dopo i legami elastici, (le molle nel modello),
“richiamano” indietro la molecola nella sua posizione iniziale di equilibrio. Per effetto della forza
d’inerzia la molecola supera il punto centrale di equilibrio, raggiungendo una posizione quasi
speculare al punto di massima escursione in
avanti. Questi movimenti si trasmettono alle
molecole contigue in un certo tempo. Per
effetto di tali movimenti avremo delle zone in
cui vi è compressione dell’aria, e delle altre in
cui vi è rarefazione.
Queste diverse zone si ripeteranno a partire
dalla sorgente, nel senso di propagazione del
suono. Questo effetto prende il nome di onda
longitudinale.
Si chiama onda longitudinale quella in cui la direzione dell’oscillazione e quella della propagazione
coincidono.
3
Le onde si dicono quindi trasversali o longitudinali a seconda che la direzione di oscillazione
sia parallela o perpendicolare rispetto alla direzione di propagazione. Un'onda longitudinale
può essere solo meccanica: essa risulta infatti da successive compressioni (stati di densità e
pressione massimi) e rarefazioni (stati di densità e pressione minimi) del mezzo. Le onde sonore ne
sono un esempio tipico.
Esempi di onde trasversali sono invece quelle che si propagano lungo una corda tesa o le onde
elettromagnetiche, come la luce, i raggi X, o le onde radio.
Data una sorgente di suono, questo si propaga allo stesso modo in tutte le direzioni. Possiamo
dire che si propaga secondo fronti d’onda sferici. La superficie del fronte d’onda aumenta in
proporzione col quadrato della distanza dalla sorgente. Di conseguenza l’energia che possiede il
fronte d’onda si distribuisce su tutta la superficie, per cui su una singola unità di superficie
avremo un’energia che decresce proporzionalmente al quadrato della distanza. Volendo
esprimere in decibel questa variazione:
•
Raddoppiando la distanza, l’intensità sonora
decresce di 6 dB
•
Decuplicando la distanza, l’intensità sonora
decresce di 20 dB
Quindi se ad esempio misuriamo un intensità di
100
dB ad un metro da un diffusore acustico:
•A
due metri avremo 94 dB
•A
dieci metri avremo 80 dB
Si
nota quindi come il fattore distanza sia molto
rilevante nell’attenuazione dell’intensità
acustica.
Velocità del suono
Il suono si propaga ad una velocità che dipende dalla natura
del mezzo elastico in cui si diffonde. Inoltre tale velocità è
influenzata, sebbene in misura minore, dalla temperatura,
dalla pressione edall’umidità. In tabella la velocità del
suono in alcuni mezzi.
Lunghezza d’onda
Un’altra grandezza importante legata alla
propagazione del suono è la lunghezza
d’onda. La lunghezza d'onda è la distanza
tra due creste successive per le onde
trasversali, e la distanza tra due
compressioni successive o due rarefazioni
successive per le onde longitudinali
La lunghezza d’onda si misura in metri ed è
funzione della frequenza e della velocità di
propagazione secondo la formula:
λ = v / f oppure λ = v * T
(λ = lunghezza d’onda, v = velocità di propagazione, f = frequenza, T=periodo)
Riproduciamo una tabella che mostra la lunghezza d’onda in aria libera, per alcune frequenze
udibili.
4
Capacità dell’udito umano
Abbiamo fin qui esaminato il suono e la sua propagazione secondo dei principi fisici, definendone
alcune grandezze fondamentali quali la frequenza e l’intensità. La domanda che ci poniamo ora è:
Quali suoni sono in grado di essere percepiti dal nostro orecchio?
La capacità dell’udito umano varia fortemente da individuo a individuo, e decade nelle prestazioni
con l’aumentare dell’età. Appositi studi fonometrici hanno stabilito che mediamente l’uomo è in
grado di udire suoni la cui frequenza è compresa dai 20 ai 20.000 Hz
Tale gamma di suoni è chiamata gamma udibile. I suoni la cui frequenza è al di sotto dei 20
Hz sono chiamati infrasuoni (o gamma subsonica). I suoni la cui frequenza eccede i 20.000 Hz
sono chiamati ultrasuoni.
Alcuni animali hanno una gamma udibile maggiore di quella dell’uomo, in particolare per quanto
riguarda il limite superiore. Vi sono ad esempio alcuni ultrasuoni che possono essere uditi dai cani
ma non dall’uomo.
Se consideriamo i suoni compresi nella gamma udibile, ci accorgiamo che all’aumentare della
frequenza, non aumenta linearmente la sensazione dell’altezza del suono. Per esempio fra un suono
a 20 Hz e un suono a 30 Hz, ad una differenza di 10 Hz corrisponde una chiara differenza
nell’altezza del suono udito. Fra un suono di 6.000 Hz ed uno di 6.010 Hz, pur con una differenza
sempre di 10 Hz, non corrisponde nessuna differenza udibile nell’altezza del suono. Dobbiamo
quindi considerare la gamma udibile non come linearmente correlata alla sensazione dell’altezza dei
suoni.
L’acustica musicale ci suggerisce il modo di stabilire una relazione diretta fra frequenza e
sensazione di altezza dei suoni. Musicalmente infatti la gamma udibile è divisa in un certo numero
di ottave ed ogni ottava in un certo numero di note (12 nella scala temperata occidentale). È a tutti
chiara l’affinità sonora che vi è fra le note corrispondenti di ottave diverse, ad esempio il do della
prima ottava con il do della seconda. Possiamo in definitiva dire che la suddivisione della gamma
udibile in ottave e note musicali, dal punto di vista dell’altezza del suono, soddisfa pienamente la
nostra esigenza di avere intervalli di frequenze che rappresentino in qualunque punto della gamma,
la stessa differenza come risultato sonoro.
Presupposto fondamentale della divisione dei suoni in ottave e in note è che: data una nota
appartenente ad un’ottava, la corrispondente nota appartenente all’ottava successiva avrà una
frequenza doppia. Se, secondo le convenzioni internazionali, il la centrale ha frequenza di 440 Hz, il
la dell’ottava successiva avrà frequenza di 880 Hz, e quello della seguente 1760 Hz.
Possiamo finalmente dividere la nostra gamma udibile in un modo aderente alla sensazione che noi
abbiamo dell’altezza dei suoni. Le ottave standardizzate internazionali hanno le seguenti estensioni:
1. da 16 a 32 Hz
2. da 32 a 64 Hz
3. da 64 a 125 Hz
4. da 125 a 250 Hz
5. da 250 a 500 Hz
6. da 500 Hz a 1 KHz
7. da 1 Khz a 2 Khz
5
8. da 2 Khz a 4 Khz
9. da 4 Khz a 8 Khz
10. da 8 Khz a 16 Khz
La sensibilità del nostro orecchio
non è costante per tutte le
frequenze. Il digramma delle curve
ipsofoniche rappresenta il variare
della sensibilità a in funzione della
frequenza. La linea tratteggiata
rappresenta la soglia di udibilità,
quindi possiamo osservare per
esempio, che un suono avente una
frequenza di 31,5 Hz ed
un’intensità di 30 decibel non
viene
percepito
dall’orecchio
umano. Le curve del disegno
uniscono i punti in cui alle varie
frequenze
la
sensazione
dell’intensità de suono sono uguali,
ad esempio se un suono a 1000 Hz
di intensità 20 dB mi produce una
certa sensazione, per avere quella
stessa sensazione a 63 Hz avrò
bisogno di circa 45 dB.
Fase di un suono
Due suoni possono differire oltre che per la frequenza, l’intensità e la
composizione delle armoniche anche per il momento in cui vengono
emessi. In genere si parla di fase quando questo tempo è minore del
periodo, ossia del tempo necessario a compiere un ciclo completo. La
differenza di tempo fra due suoni (figura a lato) dipende dal cosiddetto
angolo di fase. La funzione che esprime una rappresentazione
sinusoidale è :
I = I0 sin (ωt + φ)
La grandezza φ rappresenta appunto l’angolo di fase. Esprimere la fase
come un angolo ci permette di prescindere da altre grandezze, tipo la
frequenza, che definiscono il nostro suono. Infatti qualunque sia la
frequenza, un angolo di fase pari a π/2 corrisponde a ¼ del periodo, un
angolo di fase π corrisponde a metà del periodo, un angolo di fase 3/2 π
corrisponde a ¾ del periodo, e un angolo di fase di 2 π all’intero
periodo. É facilmente osservabile che il suono risultante fra due suoni
uguali in tutto fuorché nella fase, è molto diverso dai suoni originari, in
particolare nella composizione delle armoniche. Un caso
particolarmente significativo si ha quando la differenza di fase fra i due
suoni è pari a π/2. Si dice che i due suoni sono in opposizione di fase, o
in controfase. Il suono risultante dalla somma di due suoni in controfase
ha intensità nulla. Due suoni in controfase si cancellano vicendevolmente.
6
Sintesi e analisi di Fourier
L’uso di una serie di onde sinusoidali per rappresentare qualunque forma d’onda periodica fu
scoperta dal fisico francese Jean Baptiste Joseph Fourier all’inizio del diciannovesimo secolo. Egli
dimostrò matematicamente che una forma d’onda periodica può essere rappresentata come somma
di onde sinusoidali con fasi, frequenze e ampiezze massime appropriate. Il metodo dell’analisi e
della sintesi di Fourier prese il nome da lui.
Secondo il teorema di Fourier, una qualunque funzione periodica s(t) di periodo T e frequenza
fondamentale f0=1/T è pari alla somma di infinite cosinusoidi di frequenze multiple intere di f0,
con ampiezze e fasi opportune più un termine costante:
s(t ) = A0 + A1 cos ( 2π f 0t + θ1 ) + A2 cos ( 4π f 0t + θ 2 ) + A3 cos ( 6π f 0t + θ 3 ) + ... =
+∞
= A0 + ∑ Ak cos ( 2π kf 0t + θ k )
k =1
La costante A0 è detta componente continua o valor medio del segnale, il termine
A1 cos ( 2π f 0t + θ1 ) è detto prima armonica o armonica fondamentale, gli altri termini sono detti
armoniche secondarie.
L’esempio grafico mostrato nella Figura 5 può aiutare a capire la sintesi di Fourier.
Figura 5
Tre
onde
sinusoidali
vengono sommate a
ogni istante di tempo
per creare una nuova
forma d’onda. La
seconda
onda
sinusoidale ha una
frequenza tre volte
superiore a quella
della
prima
e
un’ampiezza
massima pari a un
terzo di quella della
FIG. 5
prima. La terza onda
sinusoidale ha una
frequenza
cinque
volte superiore a
quella della prima e un’ampiezza massima pari a un quinto di quella della prima. Poiché le onde
sinusoidali aggiunte hanno frequenze armoniche via via più alte, l’onda risultante è molto simile a
un’onda quadra.
7
Iniziamo con un’onda sinusoidale a una frequenza fondamentale f, poi aggiungiamo una seconda
onda sinusoidale a una frequenza di 3f e con un’ampiezza massima pari a un terzo di quella della
fondamentale. La terza armonica evidenzia i picchi positivi e negativi di quella fondamentale e la
forma d’onda risultante inizia ad assomigliare a un’onda quadra. Aggiungiamo poi una quinta
armonica a una frequenza di 5f e con un’ampiezza massima di un quinto di quella fondamentale.
Ciò squadra ancor di più gli angoli rendendo il risultato ancor più simile a un’onda quadra. Il
processo può continuare aggiungendo armoniche dispari con ampiezze massime inversamente
proporzionali al numero delle armoniche. Con un numero infinito di armoniche si ottiene un’onda
quadra perfetta tranne le improvvise discontinuità degli angoli; questo effetto è chiamato fenomeno
di Gibbs.
L’analisi di Fourier può essere applicata a qualsiasi forma d’onda periodica per determinare le
frequenze armoniche esatte, le fasi e le ampiezze massime corrispondenti per ricreare o sintetizzare
un segnale periodico.
Spettro
Consideriamo un’onda sinusoidale alla frequenza f e alla massima ampiezza A. Presupponiamo che
non abbia alcun cambio di fase per un certo periodo di tempo. Potremmo disegnare la forma d’onda
precisamente in funzione del tempo, ma questa operazione sarebbe noiosa perché tutti ora
conosciamo l’aspetto di un’onda sinusoidale. Ciò che è interessante di un’onda sinusoidale sono la
sua esatta frequenza e la sua massima ampiezza corrispondente e sono proprio questi dati a
distinguere un’onda sinusoidale da un’altra. Vediamo ora un grafico che mostra l’ampiezza
massima A dell’onda sinusoidale lungo l’asse delle y e la sua frequenza F lungo l’asse delle x
(Figura 6). Nella figura una singola onda sinusoidale viene rappresentata come una linea verticale
posta alla frequenza f e con una lunghezza pari alla massima ampiezza A.
Figura 6
Possiamo rappresentare un’onda sinusoidale graficamente nel dominio del tempo
disegnando la sua forma effettiva. Alternativamente possiamo rappresentarla nel dominio della
frequenza come una linea verticale posta alla sua frequenza e con una lunghezza pari all’ampiezza
massima.
8
Grazie alla serie di Fourier una funzione periodica può essere rappresentata nel dominio della
frequenza, poiché infatti le armoniche sono cosinusoidi, a ciascuna armonica corrisponde un
impulso alla frequenza relativa kf0 di altezza Ak nello spettro di ampiezza e un impulso alla
frequenza relativa di altezza θk nello spettro di fase. Di conseguenza questi spettri avranno
l’aspetto di una serie di impulsi in generale distanziati di f0 (spettro a righe):
Questa rappresentazione è chiamata spettro dell’onda sinusoidale. Dal principio dell’analisi e della
sintesi di Fourier sappiamo che qualsiasi forma d’onda può essere rappresentata come la somma di
molte onde sinusoidali. Lo spettro di una forma d’onda, quindi, rappresenta i vari componenti in
frequenza insieme alle loro corrispondenti ampiezze massime. Il grafico nel dominio del tempo
mostra la forma d’onda effettiva. Lo spettro nel dominio della frequenza mostra le ampiezze
massime dei vari componenti sinusoidali della forma d’onda.
Un segnale periodico ha uno spettro che consiste solo nei componenti ai multipli armonici della
fondamentale. (In realtà non esiste un segnale perfettamente periodico, perché dovrebbe continuare
per sempre). I segnali reali sono più complessi e terminano dopo un determinato periodo, alcuni
sono periodici solo in un intervallo di tempo breve, altri non hanno alcun modello ripetitivo. I
segnali reali hanno quindi spettri omogenei con molti componenti in frequenza.
ESEMPI
Un tipo molto importante di segnale periodico è la cosinusoide la cui espressione più generale è:
9
s(t ) = A cos ( 2π f 0t + θ )
dove A è l’ampiezza, f0 la frequenza, θ la fase; questi tre parametri caratterizzano completamente
una cosinusoide.
Nell’esempio in figura risultano essere A=5, f0=2 e θ=-π/4
(
In questo caso s(t ) = 5cos 4π t − π
4
)
Rappresentazione nel dominio della frequenza
Poiché una cosinusoide nel dominio del tempo t è completamente caratterizzata dai tre parametri
di ampiezza A, frequenza f0 e fase θ, è possibile rappresentare la stessa cosinusoide nel dominio
della frequenza f con un doppio grafico in ampiezza e fase, cioè con un impulso sulla frequenza f0
di altezza A sul diagramma di ampiezza e un impulso sulla frequenza f0 di altezza θ sul
diagramma di fase.
Prendiamo come esempio la prima cosinusoide che abbiamo visto:
(
s(t ) = 5cos 4π t − π
4
) i cui parametri risultano A=5, f =2 e θ=-π/4
0
Nel dominio della frequenza possiamo rappresentarla così:
I due diagrammi vengono chiamati spettro di ampiezza e spettro di fase.
10
Esempio: onda quadra
La componente continua risulta pari a ½, mentre tutte le armoniche pari risultano avere ampiezza
nulla (questo a causa della simmetria della forma d’onda).
Le prime dieci armoniche dell’onda quadra sono mostrate in figura:
Nella figura successiva sono mostrate le somme parziali delle armoniche partendo da quella
fondamentale più la componente continua, via via che si aggiungono altre armoniche
sommandosi a quella fondamentale queste modellano e aggiustano le armoniche precedenti con il
risultato di approssimarsi complesivamente all'onda quadra. Tale obbiettivo lo si può raggiungere
anche sommando un numero finito e ridotto di armoniche poichè le armoniche di ordine k,
all'aumentare di k, contano sempre meno.
11
Il suono digitale : tecnica PCM (PULSE CODE MODULATIN)
La caratteristica fondamentale del suono analogico è la riproduzione, attraverso uno strumento
elettrico o elettronico (come il microfono o la chitarra elettrica) del segnale sonoro secondo un
"tempo continuo". Cosa significa? Se ad esempio percuotiamo la corda di una chitarra acustica, lo
strumento musicale produce delle "vibrazioni" che generano delle variazioni di "pressione" dell'aria
che circola fuori e dentro la cassa acustica. Queste variazioni di pressione si propagano fino a
raggiungere l'orecchio. Il suono viene riconosciuto dal cervello come un segnale che si riproduce
continuamente nel tempo fino a che le variazioni di pressione non cessano con il cessare delle
vibrazioni. La chitarra elettrica (che è uno strumento analogico) sfrutta lo stesso principio di quella
acustica con la differenza che le vibrazioni generano una variazione di "tensione" piuttosto che di
pressione; in questo caso, nella variazione da 1 a 2 volt, la tensione può assumere infiniti stadi
intermedi.
Per trasformare un segnale analogico in un suono digitale è necessaria una scheda di acquisizione
sonora. Essa avrà la funzione di "campionare" cioè
suddividere in tante parti il suono analogico
acquisito. L'operazione è quella di trasformare un
segnale continuo nel tempo in una sequenza di 0 e 1
che sono gli stadi caratteristici dell'informazione
binaria che determinano il segnale discreto.
Così si presenta graficamente la digitalizzazione del
segnale analogico:
L'onda sinusoidale rappresenta il segnale analogico
(segnale tempo continuo); il suono digitale è
rappresentato dagli scalini (segnale discreto).
12
Il numero dei campioni audio acquisiti per ogni secondo si chiama "frequenza di
campionamento" e si misura in Hz. I valori assunti dalle schede di acquisizione audio semi
professionali sono i seguenti: 11,025 kHz; 22,050 kHz; 44,1 kHz; 48 kHz. Aumentando la
frequenza, il numero dei campioni acquisiti sarà maggiore e quindi migliore sarà la qualità
dell'audio.
La frequenza di campionamento descrive quindi il numero di volte che un segnale audio in
ingresso è misurato o "campionato" in un dato periodo di tempo. E' tipicamente indicata in
kilohertz (kHz, migliaia di cicli per secondo) e per registrare in "CD-quality" audio, è richiesta una
frequenza di campionamento di 44.1kHz.
Un altro parametro che contribuisce a migliorare la qualità dell'audio digitale è la profondità
di bit o “risoluzione”. Rappresenta il numero di bit che si utilizzano per rappresentare il
segnale analogico. Anche la risoluzione assume diversi valori: principalmente 8 e 16 bit (con le
schede di acquisizione audio di medio livello). Ovviamente, aumentando la risoluzione, il suono
acquisito risulterà più ricco di dettagli, perché a parità di variazione di ampiezza con 8 bit posso
rappresentare 256 livelli analogici (28) , con 16 bit ne rappresento 65536 (216).
La profondità di bit determina quindi l'accuratezza con quale è effettuata ciascuna
misurazione o campione. Quando in un sistema PCM di audio digitale il convertitore A-D misura
un segnale in ingresso e memorizza la misurazione come un numero, questo numero è rappresentato
come una serie di 0 e 1, anche noti come numeri binari. La profondità di bit, perciò, si riferisce alla
lunghezza delle parole binarie (cioè sequenze di 0 e 1) usate per descrivere ciascun campione del
segnale d'ingresso preso dal convertitore A-D. Parole più lunghe permettono la rappresentazione di
una serie più ampia di numeri, e quindi misurazioni più accurate e riproduzioni più fedeli di un
segnale (maggior dinamica e minor distorsione). In un sistema a 16-bit, ciascun campione è
rappresentato come una parola binaria lunga 16 cifre. Poichè ciascuna di queste 16 cifre può essere
uno 0 o un 1, sono possibili 65.536 (216) valori per ciascun campione.
13
In conclusione, la qualità complessiva dell'audio dipende dai due fattori (frequenza di
campionamento e risoluzione) nel loro insieme. Nella tabella che segue possiamo vedere in pratica
alcune differenze di qualità dell'audio:
Frequenza
(kHz)
Risoluzione
(bit)
Qualità
11,025
8
Telefono
11,025
16
Tv
22,050
16
Audiocassetta
44,1
16
CD audio
48
16
Registratore DAT
Il nome generico per il sistema di registrazione digitale descritto precedentemente è Pulse Code
Modulation (PCM), ed è usato in tutti i moderni campionatori, registratori digitali ed
interfacce audio per computer. Per ottenere una riproduzione fedele di un segnale audio, la
codifica PCM mira ad effettuare un'accurata lettura della forma d'onda del segnale.
CONVERTITORE ANALOGICO DIGITALE
Il dispositivo elettronico che ci permette di convertire un segnale analogico di una certa ampiezza
nel corrispondente segnale digitale, rappresentato da un numero di n bit, si chiama convertitore
analogico-digitale.
Parametri importanti di un ADC sono il quanto, la tensione di fondo scala e il numero di bit
(vedi da pag 194 a pag 201 del testo di Elettronica e telecomunicazioni). Il numero N che
memorizza in calcolatore e l’ampiezza Vi del segnale analogico sono proporzionali attraverso il
quanto Q
Vi=Q*N
dove
Q=Vfs/2n
Teorema di Shannon
La correlazione tra frequenza di campionamento e risposta in frequenza è data dal "Teorema di
Shannon-Nyquist", secondo il quale, perché un segnale sia accuratamente riprodotto da PCM,
devono essere presi almeno due campioni di ciascun ciclo di forma d'onda. Questo significa che la
frequenza di campionamento deve essere almeno doppia della frequenza massima che si vuole
digitalizzare
fcamp>=fMAX
In pratica perciò, la frequenza più alta che può essere accuratamente registrata è la metà della
frequenza di campionamento usata. Questo è conosciuto come il Limite di Nyquist. Un "CDquality" convenzionale ottenuto dal tradizionale sistema di registrazione digitale, usa una
frequenza di campionamento di 44.1 kHz, e quindi può solo riprodurre frequenze fino a 22.05
kHz. Tutte le frequenze sopra questo limite sono scartate. Questo non è generalmente considerato
14
un problema, dal momento che le ricerche hanno mostrato che la maggior parte degli esseri umani
sono capace di udire poco o nulla sopra quella frequenza. Però, se la frequenza di campionamento è
ridotta a 22.05 kHz, tutte le frequenze oltre 11.025 kHz saranno scartate, e questo comporterà una
degradazione ben udibile nella qualità del suono. Molti strumenti musicali producono frequenze
oltre questo intervallo, e le registrazioni fatte con una frequenza di campionamento ridotta possono
restituire immagini sonore scarse per brillantezza e chiarezza.
Provate a registrare un suono col microfono inserito nella scheda audio del vostro computer e poi
cambiate i parametri, riprendendoli dalla tabella, e salvateli con nomi diversi. Potrete verificare la
diversa qualità del suono, ma vedrete anche che le dimensioni dei file crescono con l'aumentare
della qualità.
Dimensione dei file audio
Lo spazio che un file audio occupa su un disco rigido aumenta con l'aumentare della risoluzione e
della frequenza di campionamento. Nella tabella sotto possiamo vedere come le dimensioni dello
stesso frammento audio stereo, della durata di dieci secondi, variano con i diversi valori della
frequenza e della risoluzione.
Frequenza (kHz)
Risoluzione (bit)
Spazio occupato
11,025
8
386 KB
22,050
8
579 KB
22, 050
16
1,1 MB
44,1
16
1,8 MB
Se vogliamo sapere quanto spazio occupa un file audio possiamo fare un calcolo
approssimativo utilizzando la formula:
dimensione del file = durata in secondi x numero di canali x frequenza di campionamento x
risoluzione / 8.
Per fare un esempio pratico, un minuto di un file audio stereo della qualità di un CD occupa 60 x 2
x 44,1 x 16/8 = 10,6 MB.
Il fatto che un file audio possa occupare tanto spazio fino a qualche anno fa poneva dei problemi per
la sua registrazione e l'elaborazione. Oggi però la disponibilità a basso costo di hard disk capaci e
veloci e di memoria RAM adeguata, insieme alla velocità crescente dei processori, rendono
possibili queste operazioni praticamente a tutti con una buona qualità sonora. Ma ci sono ancora dei
casi in cui la dimensione del file audio può essere un problema: se vogliamo inserire dei suoni nel
sito internet della scuola, se vogliamo spedirli o renderli scaricabili, vista la velocità della maggior
parte dei modem, ci vorrebbe troppo tempo. Per ovviare a questo problema dobbiamo ricorrere ai
metodi che ci permettono di diminuire le dimensioni del file audio.
15
Per rendere più maneggevoli i file audio, è necessario ridurre la loro dimensione, e ci sono
vari modi per farlo.
Un metodo è ridurre la frequenza di campionamento: se è dimezzata (22.05 k Hz invece di
44.01 kHz), viene considerata la metà delle misurazioni del segnale in ingresso, e così è prodotta
solo la metà dei dati (un altro modo è una registrazione monofonica, che dimezza ulteriormente la
quantità di dati necessaria). Tuttavia, queste scelte hanno alcuni seri effetti collaterali sulla qualità
del suono.
Il range della voce umana varia dai 500 Hz ai 2 kHz. L'orecchio umano percepisce le frequenze che
vanno dai 20 Hz ai 20 kHz, ed è più sensibile tra i 2 e i 4 kHz.
Il range dinamico, ossia l'intervallo dal suono più basso al più alto percepibile, è di 96 dB
(Decibel).
In generale, frequenze di campionamento di 11025 Hz sono adatte per la registrazione del parlato,
22050 Hz per ottenere una qualità tipo radio (o dei vecchi dischi 78 giri caratterizzati da risposta in
frequenza tra 50-8000 kHz), mentre 44100 Hz per registrazioni di qualità CD.
Ridurre a metà (da 44.1 a 22.05 kHz) la frequenza di campionamento comporta una perdita di
risoluzione, e quindi una minore fedeltà durante la riproduzione. Sarebbe un'esagerazione dire che
la qualità del suono è ridotta a metà, ma la registrazione è comunque in alcuni punti meno accurata
per la metà. In particolare, la risposta in frequenza del sistema di registrazione è dimezzata. In
effetti questo comporta che molte delle altre frequenze contente nel suono originale sono perdute e
con esse molte armoniche, portando a registrazioni scarse per brillantezza e chiarezza.
Un metodo alternativo di ridurre la dimensione di un file audio è ridurre la profondità di bit
del sistema di registrazione usato per crearli. Per esempio, un campionamento a 8-bit può essere
usato invece di uno a 16-bit. Proprio come la riduzione della frequenza di campionamento, questo
ha indubbiamente l'effetto desiderato di ridurre l'ammontare di dati generati per fare una
registrazione. Se ciascun campione del segnale in ingresso è memorizzato come un 8-bit piuttosto
che un 16-bit di parola binaria, allora la registrazione produce solo un byte per campione piuttosto
che due. Questo virtualmente raddoppia la capacità del mezzo del supporto di memorizzazione
usato, in quanto dimezza realmente la grandezza dei file.
Una riduzione nella profondità di bit, però comporta alcuni effetti indesiderabili per la qualità del
suono. Come abbiamo visto, un sistema a 16-bit permette 65.536 o (216) valori possibili per ciascun
campione preso. Si potrebbe pensare che un sistema a 8-bit permetta esattamente la metà della
risoluzione audio, ma questo sarebbe ottimistico: una parola bianaria di 8-bit ha in effetti solo 256
(28) valori possibili. Ciò comporta un campionamento notevolmente meno accurato del segnale in
ingresso, e, per conseguenza, registrazioni di qualità inferiore. Questo comporta una riduzione nel
rapporto segnale/disturbo del sistema, e conduce a registrazioni che producono un suono aspro,
innaturale e con scarsa dinamica.
A dispetto dei problemi inerenti la riduzione nella frequenza di campionamento e la
profondità di bit del PCM audio, questi metodi sono usati spesso in applicazioni dove la
qualità del suono è considerata un minore priorità rispetto alla conservazione delle risorse del
sistema (per esempio, in commenti parlati, un campiionamento a 8 bit e 22.05 kHz è del tutto
accettabile).
Compressione audio digitale
La compressione audio è una tecnica che permette di ridurre le dimensioni di un file audio o la
banda passante richiesta per una trasmissione audio, anche di molto.
16
Un file è una sequenza di cifre binarie (bit) utilizzata come veicolo di informazione. Comprimere
significa ridurre il numero delle cifre (dei bit) che costituiscono la sequenza mantenendo
l'informazione inalterata o in un intorno dell'informazione originaria (ossia facendo in modo che la
nuova informazione approssimi quella precedente).
I motivi della compressione sono:
• occupare minor spazio in fase di immagazzinamento
• impiegare minor tempo in fase di trasferimento dati.
Il costo è l'aumento dei tempi di lettura/scrittura legati rispettivamente a tempi di
decompressione/compressione. Nel caso di file audio si ha un costo anche in termini di qualità
dell'audio.
Per ottenere un file compresso occorre usare un programma che si chiama encoder, come si
vede dalla figura seguente (il discorso è analogo per il file video).
La chiave della codifica audio è il cosiddetto effetto di masking. Esso è dovuto alle caratteristiche
dell'orecchio umano, per il quale un tono forte ad una determinata frequenza nasconde toni più
deboli che si trovano nelle sue vicinanze, i quali, anche se effettivamente presenti, non vengono
percepiti.
Per tornare al file non compresso c’è un decoder, che utilizza le informazioni salvate
dall’encoder per rifare il procedimento inverso.
L'uscita del codificatore deve essere tale da poter essere interpretata dal decodificatore, cioè deve
rispettare una ben precisa sintassi.
I file di tipo .WAV o .AIFF (Machintosh) non sono compressi
Esistono due tipi di compressione:
• con perdita (lossy): quando l'informazione contenuta nel file compresso è minore di
quella contenuta nel file di origine
• senza perdita (lossless): quando l'informazione contenuta nel file compresso è identica a
quella contenuta nel file di origine
La prima permette compressioni maggiori, ma a scapito della qualità sonora.
Usando un algoritmo di compressione senza perdita, dal risultato della compressione si può
riottenere tutta l'informazione originaria. In questo caso la riduzione massima generalmente
ottenibile, utilizzando algoritmi studiati appositamente per l'audio è all'incirca del 60%, ma solo
con alcuni tipi di suono.
17
Dal risultato della compressione audio con perdita non si può più ottenere un suono identico
all'originale ma la riduzione ottenibile è molto spinta: con rapporti di compressione di 10 a 1, il
risultato è quasi indistinguibile dall'originale ma ci si può spingere anche oltre a discapito della
qualità.
Gli studi di psicoacustica (la psicoacustica è lo studio della percezione soggettiva umana dei suoni,
più precisamente è lo studio della psicologia della percezione acustica) hanno permesso di
accertare che l'uomo non è sensibile nello stesso modo a tutte le frequenze e che un suono ad alta
intensità ne maschera uno con frequenza vicina ma intensità più bassa. Sfruttando queste ed altre
considerazioni, si può pensare di eliminare l'informazione che non verrebbe comunque percepita ed
ottenere quindi un buon rapporto di compressione.
Occorre distinguere fra segnali vocali e segnali musicali.
Per i segnali musicali lo standard è il CD audio con una frequenza di campionamento di 44,1
KHz e una profondità di bit di 16
Esempi di compressori sono:
• MP3 (MPEG-1 Layer III) è stato introdotto negli anni '80 ed è il più popolare. Essendo il più
antico, è anche il meno efficiente e spesso il peggiore in termini di qualità.
• Windows Media Audio (WMA) è molto diffuso sui sistemi Windows.
• VORBIS è un codec più efficiente dell'mp3 ed è open source (ossia liberamente distribuibile
e modificabile)
• AAC è stato reso popolare dalla Apple. Apple's (iTunes Music Store)
Per i segnali vocali lo standard è il sistema telefonico con una frequenza di campionamento di
8 KHz e una profondità di bit di 8
Il Global System for Mobile Communications (GSM) è attualmente lo standard di telefonia
mobile più diffuso del mondo. Utilizza un bitrate di 9,6Kbit/sec con un tasso di compressione di
1:14
Bitrate
I file multimediali sono per loro natura connessi al tempo che scorre. In altri termini ad ogni
secondo è associato un certo contenuto informativo e quindi una certa sequenza di cifre binarie. Il
numero di cifre binarie che compongono queste sequenze è detto bitrate. In altre parole il bitrate è
il numero di cifre binarie impiegate per immagazzinare un secondo di informazione. Questo
può essere costante per tutta la durata del file o variare all'interno di esso. Ad esempio i cd musicali
vengono campionati (registrati) ad una frequenza pari a 44,1KHz. Da ciò deriva che ad ogni
secondo si hanno 44.100 valori registrati dall'ipotetico microfono che vanno poi moltiplicati per i 2
canali del suono stereo che vanno a loro volta moltiplicati per 16 (poiché la registrazione avviene a
16 bit) Quindi avremo:
Bitrate= 44,1 x 2 x16= 1411kbit/sec=1,4Mbit/sec
Questo significa che lo spazio necessario per registrare un minuto di audio è
Bitrate x 60= 84 Mbit
Per trovarlo in byte divido per 8 quindi ottengo circa 10 MByte
La compressione, diminuendo la lunghezza globale del file, diminuirà di conseguenza la lunghezza
media delle sottosequenze ossia diminuirà il bitrate medio. Il bitrate medio diventa dunque in
questi casi l'indice dell'entità della compressione. Ad esempio se il file di origine possedesse un
bitrate di 1411 Kbit/s e il file compresso possedesse un bitrate medio di 320 Kbit/s, allora avremmo
18
ridotto di un fattore pari a circa 4.5. (rapporto fra il bitrate del file non compresso e quello del file
compresso).
Moving Picture Experts Group : MPEG
Il Moving Picture Experts Group, in sigla MPEG, nome ufficiale ISO/IEC JTC 1/SC 29/WG 11
(titolo: "Coding of moving pictures and audio"), è un comitato tecnico congiunto delle
organizzazioni internazionali ISO e IEC incaricato di definire degli standard per la rappresentazione
in forma digitale di audio, video e altri tipi di contenuti multimediali, in grado di soddisfare
un'ampia varietà di applicazioni.
L'ISO, o Organizzazione internazionale per le standardizzazioni (in italiano, International Organization for
Standardization in inglese, è la più importante organizzazione a livello mondiale per la definizione di standard
industriali e commerciali. Suoi membri sono gli organismi nazionali di standardizzazione di 157 Paesi del mondo.
Le norme ISO vengono recepite, armonizzate e diffuse in Italia dall'UNI (Ente nazionale italiano di unificazione), il
membro che partecipa in rappresentanza dell'Italia all'attività normativa dell'ISO.
La IEC, o Commissione Elettrotecnica Internazionale in italiano, International Electrotechnical Commission in inglese,
è un'organizzazione internazionale per la definizione di standard in materia di elettricità, elettronica e tecnologie
correlate. Molti dei suoi standard sono definiti in collaborazione con l'ISO (Organizzazione Internazionale per le
Standardizzazioni).
Questa commissione è formata da rappresentanti dei corpi di standardizzazione nazionali riconosciuti.
Il comitato è stato costituito nel gennaio 1988 e normalmente si riunisce una media di quattro volte
all'anno. Alla prima riunione hanno partecipato 25 membri. Attualmente alle riunioni vi partecipano
oltre 350 membri in rappresentanza di più di 200 aziende e organizzazioni appartenenti a circa 20
nazioni del mondo.
Attualmente gli standard definiti dall'MPEG sono tra i più universalmente utilizzati.
L'MPEG ha definito i seguenti standard:
Nome comune Nome ISO
Titolo ISO
MPEG-1
ISO/IEC 11172
Coding of moving pictures and associated audio at up to about 1.5
Mbit/s
MPEG-2
ISO/IEC 13818 Generic coding of moving pictures and associated audio
MPEG-4
ISO/IEC 14496 Coding of audio-visual objects
MPEG-7
ISO/IEC 15938 Multimedia Content Description Interface
MPEG-21
ISO/IEC 21000 Multimedia Framework
L'MPEG-1 è utilizzato nel Video CD (un formato a bassa qualità, analoga al sistema VHS).
L'MPEG-2 è utilizzato nella televisione digitale satellitare, nel DVD-Video, nella televisione
19
digitale terrestre ed ha una qualità superiore all'MPEG-1 ma richiede per contro una maggior
quantità di risorse hardware.
L'MPEG-4 è un'estensione dell'MPEG-1 in grado di gestire flussi audio/video eterogenei,
contenuti 3D, flussi video a basso bitrate e diritti digitali.
L'MPEG-21 è nato per sviluppare una piattaforma comune per le future applicazioni
multimediali.
Uno standard abbandonado è invece l'MPEG-3, inizialmente sviluppato per l'HDTV in seguito si
è scoperto che l'MPEG-2 era sufficiente per tale applicazione.
MP3 (è il layer 3 dell’MPEG-1) è il compressore più utilizzato in assoluto nella codifica
musicale. E’ un algoritmo di compressione audio di tipo lossy in grado di ridurre drasticamente la
quantità di dati richiesti per memorizzare un suono, rimanendo comunque una riproduzione fedele
del file originale non compresso.
Per l'MPEG-1 layer 3 i bitrate (MP3) disponibili sono: 32, 40, 48, 64, 80, 96, 112, 128, 160, 192,
224, 256 e 320 kbit/s ( 103 bits per secondo ), e le frequenze campionate disponibili sono 32, 44.1
e 48 Khz. La frequenza di campionamento a 44.1 kHz è quasi sempre utilizzata per i CD
audio, mentre i 128 Kbit/s come una sorta di bitrate standard "abbastanza buono". L'MPEG-2
e l'MPEG-2.5 (non-ufficiale) contemplano un numero maggiore di bitrate: 8, 16, 24, 32, 40, 48, 56,
64, 80, 96, 112, 128, 144 e 160 kbit/s
Gli algoritmi
Gli algoritmi sviluppati dal gruppo MPEG sono tutti algoritmi a perdita di informazione
(lossy).
Elaborare il segnale nel dominio delle frequenze offre anche altri vantaggi. Il nostro orecchio non è
uno strumento lineare, cioè non percepisce tutti i suoni e soprattutto non li percepisce tutti nello
stesso modo. Da qui l'idea di eliminare tutte quelle componenti frequenziali che non possiamo
udire. Questa è ovviamente una tecnica lossy: il suono compresso sarà diverso da quello
originale ma i nostri sensi non riusciranno a percepirne la differenza. Si rende quindi
necessario uno studio sul modello percettivo, cioè sulla percezione umana del suono. La banda di
frequenze udibili va dai 16 Hz fino a 20 kHz. Nel modello MPEG-1 il primo taglio in frequenza
viene effettuato eliminando le frequenze troppo basse o troppo alte. Affinché un suono sia
percepibile deve essere sufficientemente forte, cioè deve esercitare un livello minimo di pressione
sulla membrana del timpano dell'orecchio, tuttavia tale soglia non è costante ma, varia in funzione
della frequenza.
In figura è riportato un grafico qualitativo che mostra quale deve essere la pressione minima
che un suono deve avere per poter essere percepito. Nelle ascisse (in scala logaritmica) ci sono le
frequenze, mentre nelle ordinate ci sono i livelli di pressione sonora (in dB). Tutti i suoni che si
trovano nella zona grigia possono essere eliminati.
20
A questo va aggiunto che la percettività del suono non è costante nel tempo, ma varia in funzione di
ciò che ascoltiamo. In pratica un tono forte copre i suoni d'intensità minore, non solo ad una
determinata frequenza ma anche in quelle vicine, infatti come tutti i sensori, l'orecchio non ha tempi
di reazione nulli cioè impiega un certo tempo per adattarsi alle nuove condizioni e soprattutto
impiega tempo a tornare in quiete dopo una sollecitazione. Affinché un suono sia percepito è
dunque necessario che si mantenga per un certo tempo senza disturbi. MPEG-1, in
considerazione dei fattori sopra citati, filtra il suono digitale eliminando la parte
dell'informazione che per l'orecchio umano è ininfluente.
21