I suoni - I.T.I. Medi

Transcript

I suoni - I.T.I. Medi
Appunti per la cl. 3D a cura del Prof. Mario Catalano
I suoni
Digitalizzazione
FileWave, Midi, MP3, ealtri
RAPPRESENTARE I SUONI
Per rappresentare i suoni, l’onda analogica viene trasformata in digitale
approssimandone in ogni punto l’andamento con numeri interi.
A maggiore frequenza di campionamento, corrisponderà migliore qualità.
A maggior ampiezza di variazione dei valori numerici di altezza corrisponderà
ancora migliore qualità del suono.
Suono
onda di
pressione
dell’aria
Cavo elettrico 1
Trasporta il segnale
elettrico analogico
fino al ADC
Analog to
Digital
Converter
Cavo elettrico 2
Trasporta il segnale
elettrico digitale
verso il computer
Microfono
Converte il suono in
segnale elettrico
Analog to Digital Converter
Campionamento
Segnale analogico
Quantizzazione
Segnale campionato
10001001010001
Segnale digitale
•Segnali Audio: Background
• Il suono è causato dal moto delle molecole dell’aria nello
spazio
• Il microfono converte questo moto in un segnale elettrico
• I segnali audio sono costituiti da molte frequenze,
combinate per produrre il suono che riconosciamo
– Lo standard della voce umana è variabile tra circa 100
Hz e 3000 Hz
– La più bassa frequenza udibile per l’uomo è circa 20 Hz
(un basso ronzio) La più alta frequenza è circa 20 KHz
•Periodo, Frequenza & Ampiezza
•
La Frequenza (f), misurata in Hertz ( Hz ) si riferisce al numero di volte che lo
stesso segnale si ripete. Se la frequenza di un segnale è di 2Hz, allora
ogni secondo l’onda compie due cicli
•
•
•
•
Il Periodo, misurato in secondi (s) è il tempo che ci vuole perché l’onda
compia un ciclo
La Frequenza ed il periodo sono Inversamente Proporzionali:
– T=1/f
– f=1/T
Se la frequenza del segnale è 2Hz, allora il periodo è 0.5 s (cioè ci vogliono
0.5 secondi perché l’onda completi un ciclo)
L’Ampiezza è il valore del segnale ad un certo istante di tempo. Può essere
misurato in Volt, ecc…
– L’Ampiezza è legata al volume
– Suoni più grandi hanno ampiezze più alte dell’onda sonora
Frequenza : f=1/(10x10-3)=100 Hz
un ciclo dell’onda
4V
3V
2V
1V
Periodo: T=10 ms
Ampiezza: A=4 V
Ampiezza: A=3 V
0V
-1 V
-2 V
Ampiezza: A=-2 V
-3 V
-4 V
0
5
10
t (ms)
Segnale con frequenza doppia
4V
3V
Da notare che il periodo è
2V
la metà del valore precedente
1 V Periodo: T=5 ms
0V
-1 V
-2 V
Frequenza : f=1/(5x10-3)=200 Hz
-3 V
-4 V
0
5
10
t (ms)
Segnali audio
Esempio:
la nota LA
La pressione dell’aria varia in
modo sinusoidale con una
frequenza di 440Hz
Analisi dei segnali audio
Tutti i suoni possono essere visti
come la somma pesata di suoni
semplici (sinusoidi)
Componenti dei Segnali Audio
Nota “LA” su un diapason
Le onde sonore sono la sovrapposizione di semplici toni puri
Composizione della Frequenza (spettro)
del segnale
Le differenti componenti della
frequenza che compaiono insieme per
produrre un’onda complessa sono
chiamate lo spettro in frequenza della
forma d’onda.
Digitalizzazione di segnali audio
• Il primo passo è chiamato “sampling”
(campionamento); l’onda è campionata a
certi intervalli.
• Il secondo, chiamato “quantizzazione” ,
trasforma i valori continui dei campioni
sonori in dati che possono dunque essere
tradotti in bit.
Processo per digitalizzare l’audio
•
•
•
Funzione continua del tempo
Ammontare infinito di informazioni
Si deve scegliere un particolare istante di tempo (origine)
STEP 1
Campionatura
Segnale audio
continuo
Viene
“discretizzato” nel
tempo
STEP 2
Quantizzazione
“Quantizzato” in una
serie di dati digitali
•Intervallo di campionamento
L’intervallo di campionamento determina quanti valori del segnale scegliamo
•
Intervallo di campionamento (T)
– Intervallo di tempo che separa i vari campioni
•
Frequenza di campionamento (f)
– Numero di dati al secondo
T = 1/f
or
Intervallo di campion.
1 millisecondo
4 millisecondi
16 millisecondi
f = 1/T
Frequenza di campionamento
1 kHz = 1000 dati/s
250Hz = 250 dati/s
62.5Hz = 62.5 dati/s
•Ricostruzione del segnale
•
Dopo aver ricevuto un segnale digitalizzato, è necessario
ricostruirlo per poterlo ascoltare.
•
Il segnale viene ricostruito dai suoi campioni.
•
Una ricostruzione esatta è possibile se la frequenza di
campionamento è sufficientemente elevata.
Esempio di onda vocale (la più alta
frequenza è 3KHz)
Ricostruzione dell’onda campionata
ad 1 KHz
Ricostruzione dell’onda campionata
a 5 KHz
Ricostruzione dell’onda
campionata a 10 KHz (l’onda
ricostruita è molto simile
all’originale)
Quantizzazione
• Segnale Audio: Continuo nel tempo ed in ampiezza
• Digititalizzazione del Segnale: deve essere fatta
discreta nel tempo e nell’ampiezza
• Abbiamo imparato come fare di un segnale continuo
nel tempo uno discreto: campionamento
• Per discretizzare l’ampiezza, dobbiamo quantizzare.
Cosa è la Quantizzazione?
• La Quantizzazione stabilisce che un intervallo di
valori di una funzione continua può essere
rappresentato da una particolare codice binario
• Per esempio: Possiamo dire che l’intervallo di
temperatura continuo da 20.0 a 20.1 gradi può essere
rappresentato da un codice binario (ad es.
“0110010000”)--La temperatura può ovviamente
variare tra 20.0 e 20.1 (per es. 20.00987 gradi), ma per
noi la misura rimane costante
Quantizzazione:
Ricostruzione:
Esempio
Digitalizzazione del suono:
• Ogni campione viene memorizzato come un numero (ad es. 2
bytes)
• Quale è l’intervallo delle possibili combinazioni?
–
–
–
–
–
–
16 bit
216 = 65,536
Ma se vogliamo sia i valori positivi che quelli negativi
Scegliamo il primo bit per indicare il segno: positivo (0) negativo (1)
Abbiamo a disposizione ancora 15 bit
15 bit
215 = 32,768
Una di queste combinazioni servirà per lo zero
– Ogni valore potrà stare tra -32.768 e 32.767
PRODUZIONE DEL SUONO
Esiste anche il processo inverso, che trasforma l’informazione da
digitale ad analogica.
Nel caso del suono questo compito è svolto dal D.A.C. (Digital to
Analog Converter) che trasforma il segnale digitale in segnale elettrico
analogico; tale segnale viene successivamente trasformato in onda
sonora dalle casse acustiche.
Cavo elettrico 1
Trasporta il segnale elettrico digitale
verso il DAC
Digital to
Analog
Converter
Cavo elettrico 2
Trasporta il segnale elettrico
analogico fino alla cassa
Cassa Acustica
Trasforma il segnale elettrico
analogico in suono
Suono
onda di
pressione
dell’aria
ALCUNE FREQUENZE SIGNIFICATIVE
Orecchio
UMANO
percepisce
(((
Voce
MASCHILE
produce
))
Voce
FEMMINILE
produce
La radio
trasmette
Il microfono
recepisce
SUONI CON FREQUENZA
DA
A
20 Hz
20.000
Hz
)
120 Hz
Hz
7.000
200 Hz
Hz
9.000
)
50 Hz
Hz
15.000
(((
80 Hz
12.000 Hz
))
))
)
IL CAMPIONAMENTO
LA QUALITA’
DELLA
REGISTRAZIONE
dipende da
FREQUENZA
di
CAMPIONAMENTO
DIMENSIONE
di
CAMPIONAMENTO
FREQUENZA DI CAMPIONAMENTO
Il numero di campioni registrati al secondo si dice
frequenza di campionamento.
11 KHz (11.000 campioni/sec.)
Frequenza delle schede audio
22 KHz
44 KHz
Maggiore è il numero di KHz maggiore sarà lo
spazio occupato su disco
Non ha senso prevedere più di 44.000 campioni/sec.
per frequenze oltre i 22.000 hz,perché queste non sono
percepite dall’orecchio umano.
DIMENSIONE DI CAMPIONAMENTO
Un altro fattore che influenza la qualità del suono è la
dimensione di campionamento (quantizzazione),
ossia il numero di bit disponibili per memorizzare
ciascun campione d’onda.
4 BIT
8 BIT
16 BIT
Si distinguono 16 valori
Si distinguono 256 valori
Si distinguono 65.536 valori
Codifica audio
• Esempio: brano musicale su CD
– Frequenza di campionamento 44100 Hz
– 16 bit / campione
– 2 canali (destro e sinistro)
– 2 x 16 x 44100 = 1411200 bit / sec  176 Kbyte / sec
– 1 canzone
• c.a. 5 minuti  176 Kbyte/s x 60 sec/min x 5 min 
c.a 52 Mbyte
– 60 min di musica
• 176 x 60 x 70  c.a. 630 Mbyte
La sintesi FM e i file MIDI
Una scheda audio può creare e riprodurre due tipi diversi
di file di suoni: i file di forma d’onda e i file MIDI
MIDI vuol dire Musical Instrument
Digital Interface, ossia interfaccia
digitale per strumenti musicali, infatti
indica un protocollo che governa lo
scambio di dati tra strumenti
musicali elettronici e computer.
I file MIDI non contengono audio , ma istruzioni
per la produzione di suoni, pertanto possono
essere ascoltati solo se vengono inviati ad un
sintetizzatore (esterno o interno alla scheda)
che traduce le istruzioni del file in note
I DIVERSI FILE DI SUONI
File di forme d’onda
Estensione .WAV
File MIDI
Estensione .MID
Memorizzano informazioni sulle
onde acustiche e sono prodotti dal
processo di campionamento
Memorizzano istruzioni per la
produzione di suoni e non i suoni
stessi
Possono memorizzare voci, musica,
effetti speciali
Possono memorizzare solo musica
Sono molto grandi
Sono più compatti
Un minuto di musica Midi occupa meno spazio
di un secondo di suono registrato
Il formato MIDI
• Nato per la comunicazione tra strumenti
musicali e sintetizzatori
• Basato su sequenze di istruzioni tipo:
– Suona la nota DO
– Smetti di suonare la nota DO
– Attiva lo strumento n. 18 (non precisato)
• 127 strumenti indicati (ma non definiti)
• Impossibilità di aggiungere / modificare
strumenti
Formati MIDI + informazioni
• Oltre agli spartiti, vengono fornite informazioni
sui singoli strumenti (timbro, volume, ecc.)
• Alcuni formati:
– MIDI + SBK
– MIDI + SF2
– MOD
Formato KAR (MIDI + testo)
• Oltre agli spartiti, vengono forniti:
– il testo della canzone
– informazioni per sincronzzare audio e testo
• Il nome deriva dal famoso “Karaoke”
I DIVERSI FILE DI SUONI
File MP3
Cosa sono
La sigla MPEG (Motion Picture Experts Group)
identifica un gruppo di studiosi che si riuniscono
sotto la ISO allo scopo di generare codifiche
standard internazionali per la digitalizzazione video
e la compressione audio
I File MP3
Cosa sono
La sigla è diventata poi per estensione il nome che
definisce l’algoritmo di compressione audio/visivo
nato dalla cooperazione del gruppo.
La sigla MP3 significa “MPEG1-Layer 3” (Layers sono i
differenti livelli di compressione), il cui scopo è quello di
comprimere il più possibile un file audio, mantenendone
inalterata, per quanto possibile, la qualità.
In questo modo il file diviene facilmente memorizzabile
e trasferibile attraverso Internet.
I File MP3
Come funzionano
L’MPEG elimina dai file audio determinate informazioni
che non sono necessarie, basandosi su alcune ricerche
della acustica. Questi studi rivelano che il nostro
orecchio non è in grado di percepire frequenze “deboli”
adiacenti a frequenze “forti”, in quanto queste ultime
coprono le prime.
I File MP3
Come funzionano
Le informazioni inerenti le frequenze più deboli, in
quanto non percettibili dall’orecchio umano, vengono
quindi eliminate dall’MPEG durante la fase di
compressione.
In questo modo
si ottiene una
riduzione del file
audio in termini
di spazio fisico
occupato.
Mp3 è uno standard che elimina i suoni non udibili
dall'orecchio umano tramite un algoritmo.
Questo standard si è diffuso in Internet per supplire
alla lentezza della rete.
Esistono vari livelli di compressione. Utilizzando
livelli di compressione alti (32 Kb/s o 64 Kb/s)
otterremo brani meno ingombranti ma di qualità
inferiore in quanto saranno eliminate anche alcune
informazioni udibili dall'orecchio umano.
Con livelli di compressione più leggeri (da 128 Kb/s a 320
Kb/s) otterremo brani di qualità superiore ma più ingombranti
in MB.
Per fare un esempio diciamo che un brano compresso a 128
Kb/s (lo standard Mp3 di “bassa qualità”) otterremo un brano
circa 11 volte meno ingombrante rispetto allo stesso brano in
formato .wav o cd audio.
Formati non compressi: WAV e AIFF
• WAV (o WAVE), è un formato audio di codifica digitale
sviluppato da Microsoft e IBM, prevalente nel mondo
Windows. Il formato AIFF utilizzato dai computer Apple è
molto simile.
– Entrambi i formati sono compatibili con diversi sistemi
operativi
• Salvano i dati audio senza alcun tipo di compressione dati: la
forma d'onda digitalizzata viene memorizzata così com'è
• Quindi i file risultanti sono di elevate dimensioni, ma non
richiedono elevata potenza di calcolo per essere riprodotti, ed
essendo la codifica lossless, viene spesso utilizzata dagli utenti
professionali per memorizzare l'audio.
Formati compressi senza perdita: FLAC
• FLAC sta per Free Lossless Audio Codec: è un codec open
source con compressione lossless.
• I file – una volta decompressi – presentano la stessa qualità dei
WAV ma occupano meno spazio. In che rapporto? Dipende
dalle caratteristiche dell’audio: FLAC usa una quantità di
compressione variabile in base alle necessità. In generale,
media del 50%.
• Mediamente supportato dai media player, ma in generale
richiede l’installazione di un plugin
– Windows Media Player (WMP), Winamp, dbPowerAMP,
Architettura dell'informazione
Prof. Luca A. Ludovico
VLC, …
Formati compressi con perdita: MP3
• MP3 (Moving Picture Expert Group-1/2 Audio Layer 3, noto
anche come MPEG-1 Audio Layer III o MPEG-2 Audio Layer
III) è un algoritmo di compressione audio di tipo lossy,
sviluppato dal gruppo MPEG, in grado di ridurre
drasticamente la quantità di dati richiesti per memorizzare un
suono, proponendo comunque una riproduzione
accettabilmente fedele del file originale non compresso.
• In virtù degli alti tassi di compressione, ha avuto successo
nella diffusione via rete della musica e
nell’immagazzinamento di grandi moli di dati nei dispositivi
portatili
Architettura dell'informazione
Prof. Luca A. Ludovico
Qualità del formato MP3 audio
• L'efficienza di un algoritmo di compressione è tipicamente
giudicata dal bit rate finale, mentre la metrica del tasso di
compressione, che sembrerebbe più naturale, dipende dalle
caratteristiche del segnale in ingresso.
• Qualità:
– Eccellente a 256…320 kbit/s
– Buona a 192...256 kbit/s
– Media a 160...192 kbit/s
– Bitrate di base: 128 kbps (rapporto circa 10:1)
• Valori piuttosto aleatori: la qualità dipende non solo dal
formato di codifica del file, ma anche dalle attitudini
(soggettive) dell’ascoltatore
Architettura dell'informazione
Prof. Luca A. Ludovico
Altri formati lossy
• AAC (.aac): Advanced Audio Coding. È uno standard Apple,
usato di default da iTunes. Funziona in modo simile all'MP3, e
a parità di bitrate, occupa lo stesso spazio.
• WMA (.wma): è un formato proprietario di Microsoft, ed è
considerato la risposta di Redmond all'MP3. Formato
supportato principalmente da Windows Media Player, non è
compatibile con iTunes.
• Ogg Vorbis (.ogg): è un formato open source e patent free, il
che vuol dire che non necessita di alcuna licenza per essere
implementato in un lettore audio. La qualità è paragonabile
Architettura dell'informazione
all'MP3.
Prof.
Luca A. Ludovico
FINE